KR100289065B1 - Method for processing natural query language for searching commodity information of electronic commerce - Google Patents

Method for processing natural query language for searching commodity information of electronic commerce Download PDF

Info

Publication number
KR100289065B1
KR100289065B1 KR19970052617A KR19970052617A KR100289065B1 KR 100289065 B1 KR100289065 B1 KR 100289065B1 KR 19970052617 A KR19970052617 A KR 19970052617A KR 19970052617 A KR19970052617 A KR 19970052617A KR 100289065 B1 KR100289065 B1 KR 100289065B1
Authority
KR
Grant status
Grant
Patent type
Prior art keywords
language
query
term
code
natural
Prior art date
Application number
KR19970052617A
Other languages
Korean (ko)
Other versions
KR19990031784A (en )
Inventor
김중배
함호상
강대기
손주찬
Original Assignee
정선종
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Grant date

Links

Images

Abstract

PURPOSE: A method for processing a natural query language is provided to convert into an SQL(structured query language) which is a query language of an RDBMS(relational database management system) by extracting a commodity term in a natural query language when a user requests a search according to a desired commodity using a natural language. CONSTITUTION: If a buyer requests a search for a commodity by a natural query language for buying the commodity through Internet virtual stores(S1), a query language is extracted by an extractor(S3) and stored in a storing place array through an HTTPa(40) which is a web server in an electronic commerce system(S2). A token of the stored natural query language is separated by a separator by making various conditions as a space, a pause, a period, and a symbol such as a delimiters(S4). If a term which indicates a commodity price is existed in the separated token, the term is stored in a storage location array and removes the corresponding token(S5). After a postposition is removed in each token(S6), an unused token is removed(S7). If an ESQL(embedded SQL) is created according to an extracted term and an electronic commerce term table is searched, characteristics(CIC(Company Identification Code), PCC(product Classification Code), BN(Brand name), CFC(Chief Function Code)) of each term may be sensed from a control field(S8). A term, which is not possessed in five categories(company identification code, product classification code, brand name, chief function code, and price), is excluded in a processing object, and an ESQL is created according to the four terms except the price and an electronic commerce synonym table is searched, thus a synonym/similar language/foreign language may be obtained(S9). The synonym/similar language/foreign language is processed as one term group and is not considered in a normal creation according to a query language(S10).

Description

전자상거래 상품정보 검색용 자연언어 질의어 처리방법 E-Commerce Product information retrieval natural language query processing methods for

본 발명은 전자상거래(Electronic Commerce)에서 상품을 구입하고자 하는 구매자가 자연언어 질의어로 자신이 원하는 상품정보에 대한 검색을 요청하면, 이를 관계형데이터베이스(Relational DataBase, 이하 RDB라 칭함)에서 추출하여 제공하는 방법에 관한 것이다. The present invention is to provide extracts from the e-commerce (Electronic Commerce) If the buyer to purchase the items requested to search for product information they want as a natural language query, this relational database (called Relational DataBase, more than RDB hereinafter) in It relates to a method.

종래에는 이 분야의 검색서비스가 인터넷 월드와이드웹(Internet World-Wide -Web)상에서 이루어지므로 자연언어 질의어에 대한 검색서비스를 수행할 경우, 자연언어 질의어에 대한 구문 분석의 복잡성으로 인하여 검색속도의 저하가 수반되므로 자연언어 질의어에 의한 검색서비스를 수행하지 못하고, '하이퍼텍스트 형성 언어(Hyper Text Markup Language, 이하 HTML라 칭함) 양식 태그(Form Tag)'에 검색하고자 하는 상품정보를 일일이 구분하여 입력하는 방식을 사용해 왔다. Conventionally, degradation of these areas if you search services to perform a search service for natural language queries made over the Internet since the World Wide Web (Internet World-Wide -Web), search due to the complexity of parsing natural language query speed of accompanied, so do not perform a search service based on natural language query, "hypertext form language (called Hyper text Markup language, or less HTML quot;) form tag (form tag) 'to enter by explaining distinguish the product information you want to search It has been using the system.

따라서 사용자 인터페이스가 자연스럽지 않으므로 사용의 불편을 초래하여, 일반 국민이 널리 손쉽게 사용하기가 어려운 문제점이 있었다. Therefore, because the user interface is unnatural and causes inconvenience to use, there were widespread that the general public easy to use difficult.

상기 문제점을 해결하기 위해 본 발명은, 사용자가 자연언어를 이용하여 원하는 상품에 대한 검색을 요청하면, 신속 정확하게 제공할 수 있도록 자연언어 질의어에서 상품정보 검색용어를 추출하여 관계형데이터베이스 관리시스템(Relational DataBase Management System, 이하 RDBMS라 칭함)의 질의어인 구조적질의어(Structured Query Language, 이하 SQL라 칭함)로 변환하여 가는 방법을 제공하는 것을 목적을 한다. To solve the above problems, the present invention, when a user using natural language request to search for the desired product, quickly extracts the product search terms in the natural language query to provide accurate and relational database management systems (Relational DataBase and the Management System, hereinafter referred to as RDBMS) query the structured query Language (structured query Language, or less object of the present invention to provide a way to go is converted into SQL quot;) of the.

도 1은 본 발명에 따른 전자상거래정보 서비스 시스템의 전체 구성도, Figure 1 is a general configuration of the e-commerce information service system according to the present invention,

도 2는 본 발명이 적용되는 전자상거래 상품정보 검색용 자연언어 질의어 처리방법의 처리 흐름도. Figure 2 is a process flow diagram of a natural language query processing method for e-commerce search product to which the present invention is applied.

〈도면의 주요부분에 대한 부호의 설명〉 <Description of the Related Art>

10 : 구매자 웹브라우저 20 : 판매자 웹브라우저 10: 20 buyers web browser: merchant web browser

30 : 머천트 시스템 40 : 웹서버 30: 40 Merchant System Web Server

50 : 고성능 웹-데이터베이스 게이트웨이 응용서버 50: High Performance Web-database application gateway server

51 : 전자상거래정보 검색 시스템 51: E-Commerce Information Retrieval System

52 : 전자상거래정보 디렉토리관리 시스템 52: E-Commerce Information Management System Directory

53 : 전자상거래정보 색인 시스템 53: E-Commerce Information Systems Index

60 : 관계형데이터베이스 관리시스템 60: Relational Database Management System

70 : 전자상거래정보 데이터베이스 80 : 검색대상 용어 추출기 70: E-commerce information database 80: Search for terminology extraction

90 : 질의어 정규식 생성기 91 : 용어 데이터베이스 90: 91 Regular Expression Generator query: Terminology database

92 : 동의어 데이터베이스 100 : 검색결과 생성기 92: 100 Database Synonyms: Results Generator

101 : 상품 데이터베이스 101 Products Database

상기 목적을 달성하기 위해 본 발명은, 검색대상 용어를 추출하고, 추출된 각각의 용어의 질의어에 대한 정규식을 생성하며, 생성된 정규식을 관계형데이터베이스관리시스템(RDBMS)의 질의어인 구조적질의어(SQL)로 변환하여 검색결과를 생성하는 것을 특징으로 한다. The present invention for achieving the abovementioned objects is searched to extract terminology, the cost to generate a regular expression for the query of the extracted each term, generates a regular expression query in the relational database management system (RDBMS) Structured Query Language (SQL) to convert to is characterized in that for generating a search result.

이하 첨부된 도면을 참조하여 본 발명을 상세히 설명하면 다음과 같다. Referring to the accompanying drawings the present invention is described in detail as follows.

도 1은 본 발명에 따른 전자상거래정보 서비스 시스템의 전체 구성도로서, 구매자 웹브라우저(10), 판매자 웹브라우저(20), 머천트 시스템(30), 웹서버(40), 전자상거래정보 검색시스템(51), 전자상거래정보 디렉토리관리 시스템(52), 전자상거래정보 색인 시스템(53)의 3부분으로 구성된 고성능 웹-데이터베이스 게이트웨이 응용서버(50), 관계형데이터베이스 관리시스템(60), 전자상거래정보 데이터베이스(70)으로 이루어져 있다. 1 is a an overall configuration of e-commerce information service system according to the present invention, the buyer's web browser (10), the seller of a web browser (20), a merchant system (30), a web server (40), e-commerce, information retrieval systems ( 51), e-commerce, information directory management system (52), e consists of three parts of the commerce information indexing system (53) high-performance web-database gateway application server (50), and relational database management system (60), e-commerce, information databases ( 70) it consists of a.

상기 도 1은 인터넷 가상상점(Internet virtual stores)을 통하여 상품을 구입하고자 하는 구매자는 자신이 구입하고자 하는 상품의 정보를 웹브라우저(10)를 이용하여 자연언어 질의어로 요청하면, 전자상거래정보 서비스 시스템내의 웹서버인 하이퍼텍스트 전송 프로토콜 데몬(HyperText Transfer Protocol Daemon, 이하 HTTPd라 칭함)(40)의 빠른 공통 게이트웨이 인터페이스(Fast Common Gateway Interface, 이하 FastCGI라 칭함)를 통하여 전자상거래정보 검색시스템(51)에 전달되고, SQL로 변환되어, 관계형데이터베이스 관리시스템(RDBMS)(60)에 전달 되면 전자상거래정보 데이터베이스(70)에서 해당 상품정보를 추출하여, 다시 전자상거래정보 검색시스템(51)에게 전달되어 검색결과를 HTML 문서로 동적변환하여 HTTPd(40)을 통하여 구매자의 웹브라우저(10)에 전달된다. FIG. 1 is an Internet virtual shops (Internet virtual stores) shoppers to purchase items through the request in natural language query by using a web browser (10), the information of the goods to their purchases, e-commerce, information services system to within a Web server, the hypertext transfer protocol daemon (hyperText transfer protocol daemon, less HTTPd hereinafter) (40) fast common gateway interface (fast common gateway interface, under FastCGI hereinafter) e-commerce information retrieval systems (51) through the delivered and is converted to SQL, it is delivered to a relational database management system (RDBMS) is passed (60) e-commerce information database 70 to extract the product information again, e-commerce information retrieval systems (51) from the search results dynamically converted to HTML documents through the HTTPd (40) is transferred to the buyer of the web browser (10).

인터넷 가상상점을 구축하여 상품을 팔고자 하는 판매자는 자신의 웹브라우저(20)를 이용하여 홈페이지(Home Page) 문서위치(Uniform Resource Locator, 이하 URL라 칭함)와 판매자 정보를 입력하면, HTTPd(40)의 FastCGI를 통하여 전자상거래정보 디렉토리관리시스템(52)에 전달되고 판매자 인증절차를 통과하면 SQL이 생성되어, RDBMS(60)에 전달되고 전자상거래정보 데이터베이스(70)에 판매자의 디렉토리가 등록되어 다시 등록정보가 전자상거래정보 디렉토리관리시스템(60)에게 전달되어 등록결과를 HTML 문서로 동적변환하여 HTTPd(40)을 통하여 판매자의 웹브라우저(20)에게 전달된다. Sellers to build an Internet virtual store that you want to sell a product when using their web browser (20) Home (Home Page) document location (called Uniform Resource Locator, or less URL hereinafter) and enter your seller information, HTTPd (40 ) of passing the e-commerce information directory management system 52 via FastCGI and passed a merchant certification process SQL is generated, it is passed to the RDBMS (60) are registered merchant directory for e-commerce information database 70 again, registration information is delivered to the e-commerce information management system, directory registration results are delivered to 60 as an HTML document dynamically converted to HTTPd (40) the seller of the web browser (20) through.

전자상거래정보 데이터베이스(70)에 등록된 가상상점은 전자상거래정보 색인시스템(53)내의 색인용 웹에이전트에 의하여 주기적으로 HTTPd(40)을 통하여 판매자의 머천트시스템(Merchant System)(30)으로 가서 상품정보가 있는 HTML 문서를 찾아서 다시 HTTPd(40)을 통하여 전자상거래정보 색인시스템(53)에 모아지면 상품정보 색인기에 의하여 상품정보를 추출하여 이에 대한 SQL이 생성되어 RDBMS(60)에 전달되면 전자상거래정보 데이터베이스(70)에 해당 상품정보를 등록한다. Go to the e-commerce information database (70), a virtual shop e-commerce information indexing system periodically HTTPd (40) of the Merchant Merchant System (Merchant System) (30) through by the web agent for the Index in the 53 registered in the product If locate the HTML document that contains the information back to the ground together through the HTTPd (40) e-commerce information indexing system (53) to extract product information by product information indexer is SQL generated for this transfer to the RDBMS (60) e-commerce to register the product information in the information database (70).

다음 표 1, 표 2, 표 3은 전자상거래 상품정보 검색용 자연언어 질의어 처리방법에서 이용되는 데이터베이스의 구성도이다. Table 1, Table 2, Table 3 shows the configuration of the database to be used in e-commerce Product Search natural language query processing method for degrees.

사용자의 자연언어 질의어로부터 상품정보 검색용 SQL를 생성하는 과정에서 사용되는 데이터베이스는 표 1의 전자상거래정보 서비스 용어 테이블, 표 2의 전자상거래정보 서비스 동의어 테이블, 그리고 표 3의 전자상거래정보 서비스 상품정보 테이블로 구성된다. Database from the user's natural language query language used in the process of generating SQL for product information retrieval Table 1 E-Commerce Information Services Glossary table, Table 2, E-Commerce Information Services synonym table, and e-commerce information services product information in Table 3 of It consists of a table.

상기 용어 테이블과 동의어 테이블은 전자상거래정보 색인시스템(53)과 전자상거래정보 서비스 시스템 관리자인 사람의 협동에 의하여 데이터베이스가 구축되며, 상품정보 테이블은 전자상거래정보 색인시스템(53)에 의하여 자동으로 구축된다. The term table synonymous with table database is built by a collaboration of e-commerce information indexing system (53) and e-commerce information service system manager, people automatically build product information table by Ecommerce index system (53) do.

상기 용어 테이블은 용어, 통제필드, 그리고 등록일자를 나타내는 필드로 구성되며, 동의어 테이블은 대표용어, 동의어, 그리고 등록일자로 구성되며, 상품정보 테이블은 제조회사명, 상품분류명, 주요사양, 상품명, 모델번호, 가격, 문서 위치, 그리고 등록일자로 구성된다. The term table consists of a field representing the term, control field, and the date, synonym table is configured as a representative terms, synonyms, and the registration date, product information table manufacturing company name, product classification name, the main specifications, product name, model number, It is constituted as price, the document location, and date.

전자상거래정보 서비스 용어 테이블 The term e-commerce information service table

필드(컬럼) 명칭 A field (column) Name 필드(컬럼) 사양 A field (column) specification
용어(TERM) The term (TERM) variable Character variable Character
통제필드(CFIELD) Control field (CFIELD) Variable Character Variable Character
등록일자(RDATE) Release date (RDATE) DATE DATE

전자상거래정보 서비스 동의어 테이블 E-Commerce Information Services synonym table

필드(컬럼) 명칭 A field (column) Name 필드(컬럼) 사양 A field (column) specification
대표용어(RTERM) Representative terms (RTERM) Variable Character Variable Character
동의어(SYNONYM) Synonyms (SYNONYM) Variable Character Variable Character
등록일자(RDATE) Release date (RDATE) DATE DATE

전자상거래정보 서비스 상품정보 테이블 E-commerce information services product information table

필드(컬럼) 명칭 A field (column) Name 필드(컬럼) 사양 A field (column) specification
제조회사명(CIC) Manufacturing Company (CIC) Variable Character Variable Character
상품분류명(PCC) Product classification name (PCC) Variable Character Variable Character
상품명(BN) Trade name (BN) Variable Character Variable Character
주요사양(CFC) Specifications (CFC) Variable Character Variable Character
모델번호(MN) Model number (MN) Variable Character Variable Character
가격(PRICE) Price (PRICE) Integer Integer
문서위치(URL) Document Location (URL) Variable Character Variable Character
등록일자(RDATE) Release date (RDATE) DATE DATE

도 2는 본 발명이 적용되는 전자상거래 상품정보 검색용 자연언어 질의어 처리방법의 처리 흐름도로서, 인터넷 가상상점(Virtual Stores)을 통하여 상품을 구입하고자 하는 구매자가 자신이 구입하고자 하는 상품의 정보를 웹브라우저(10)를 이용하여 자연언어 질의어로 검색을 요청하면(S1), 전자상거래정보 서비스 시스템내의 웹서버인 HTTPd(40)를 거쳐서(S2) 사용자 자연언어 질의어 추출기에 의하여 질의어가 추출되어(S3) 기억장소 배열에 저장된다. Figure 2 is a web product information of a process flow diagram of a natural language query processing method for e-commerce product information retrieval which the invention is applied, a buyer who wants to purchase a product via the Internet virtual store (Virtual Stores) wishes to purchase When you request a search for a natural language query using a browser (10) (S1), through the HTTPd (40), a web server in the e-commerce information service system (S2) query is extracted by the user natural language query extractor (S3 ) it is stored in the storage place array.

저장된 자연언어 질의어는 질의어 토큰(Token) 분리기에 의하여 공백, 쉼표, 마침표, 그리고 기호 등의 여러 가지 조건들을 절단기호(Delimitors)로 하여 토큰이 분리된다(S4). Stored natural language query is a query token is separated by the token (Token) space by the separator, a comma, period, and number of cutters, number (Delimitors) the conditions of the symbols (S4).

분리된 토큰에서 상품가격을 나타내는 용어가 존재하는지 조사하여 존재할 경우 기억장소 배열에 저장한 후 해당 토큰을 제거하며(S5), 각 토큰에서 조사가 제거된 후(S6) 불용어 토큰이 제거된다(S7). Indicating the product price in a separate token, if present in irradiated that the term exists (S6) stopwords token after the then stored in the storage place array remove the token, and (S5), research has been removed from the respective token is removed (S7 ).

본 발명에서 처리대상으로 하는 상품가격을 나타내는 용어는 한 예를 들어 '50만원에서 100만원 사이'인 구간명시형, '100만원대'인 구간추략형, '가장 싼 것'인 최소최대형의 3가지이다. Term that represents the item price to the processing target in the present invention is one example '50 won from between one million won "the interval stated type, '100 won, the interval estimation ryakhyeong," cheapest "of at least 3 up type a kind.

이상의 처리절차가 완료되면 최초의 사용자 자연언어 질의어로부터 검색대상이 되는 용어가 추출된 것이다(80). Once the procedure is complete, it more than the first natural language terms that users search query from the extracted target (80).

본 발명에서 처리대상으로 하는 질의어에 관한 상품정보는 제조회사명(Company Identification Code, 이하 CIC라 칭함), 상품분류명(Product Classification Code, 이하 PCC라 칭함), 상품명(Brand Name, 이하 BN라 칭함), 주요사양(Chief Function Code, 이하 CFC라 칭함) 그리고 가격(PRICE)이다. Product information regarding the query to a target of processing in the present invention, manufacturer's name (D Company Identification Code, hereinafter CIC quot;), the product classification name (D Product Classification Code, hereinafter PCC quot;), trade name (hereinafter referred to Brand Name, than BN) the main specifications (Chief Function Code, hereinafter referred to as CFC) and the price (pRICE).

구매자는 상기 5가지 상품정보를 조합하여 일상생활에서 사용하는 언어를 이용하여 검색을 요청한다. Buyers should request a search using the language in everyday life by combining the five kinds of product information.

상기 추출된 각각의 용어에 대하여 삽입구조적질의어(Embedded SQL, 이하 ESQL라 칭함)을 생성하여 전자상거래정보 서비스 용어 테이블(91)을 검색하면 통제필드로부터 각 용어의 특성(CIC, PCC, BN, CFC)을 파악할 수 있다(S8). Wherein when, for each term extracted by creating an insertion Structured Query Language (hereinafter referred to Embedded SQL, or less ESQL) retrieve the e-commerce information service terms Table 91. Characteristics of each word from the control field (CIC, PCC, BN, CFC ) can grasp the (S8).

상기 5가지 범주에 속하지 않는 용어는 처리대상에서 제외시키고, 가격을 제외한 4가지 용어에 대하여 ESQL을 생성하여, 전자상거래정보 서비스 동의어 테이블(92)을 검색하면 각각에 대한 동의어/유사어/외래어를 가져올 수 있다(S9). The term does not belong in the five categories are excluded from the processing target and, by creating an ESQL for four terms, except the price, if you search for e-commerce information service synonymous with the table (92) to get the synonym / synonyms / foreign words for each It can be (S9).

한 용어에 대하여 검색된 동의어/유사어/외래어는 그 용어에 대한 한 개의 용어집합으로 처리되며, 질의어에 대한 정규식 생성시에는 고려되지 않는다(S10). Synonyms / synonym / foreign words retrieved with respect to a term is treated as a single term set for the term, it does not take into account when generating the regular expression to the query (S10).

상기 자연언어 질의어 정규식 생성은, 질의어로부터 논리연산자를 선택하는 과정 및 상품가격을 나타내는 용어가 어떠한 유형에 속하는 용어인지를 판단하는 과정으로 수행된다. The natural language query regular expression created is carried out in the process of determining whether a term describing the process of selecting the logical operators and commodity prices from belonging to any type of query terms.

이때 상기 질의어로부터 논리연산자를 선택하는 과정으로는, 자연언어 질의어를 논리적 가느 토큰으로 분리하는 제 1 단계, 불용어 토큰을 제거하여 검색 대상 용어를 추출하는 제 2 단계, 추출된 검색 대상용어에 대한 특성을 파악하는 제 3 단계 및 상기 검색 대상용어에 대한 특성을 이용하여 논리적 연산자로 질의어를 생성하는 단계로 이루어진다. At this time, the process of selecting the logical operator from the query, the first step of separating the natural language query into logical thin token, a second step by removing stopwords token extracting search subject terms, and characteristics of the extracted search target terms claim is made to the step 3 and the step of generating a query by logical operators by using the attributes for the search terms to identify the destination.

상기와 같은 각 단계를 거쳐 자연언어 질의어로부터 전자상거래 상품정보 검색용 질의어가 만들어지는데, 실제로 자연언어 질의어로부터 전자상거래 상품정보 검색용 질의어가 만들어지는 과정을 예를 들어 설명하면 다음과 같다. Through each stage, such as the e-commerce product which is produced from a search query for a natural language query, it actually described as a process that will query for e-commerce search product made from natural language query example as follows.

먼저 사용자가 자연언어로 "삼성의 냉장고를 100만원대에 사고 싶어요"라고 질문을 했을 때, 사용자의 자연어어로 질의어는 논리적 분리 가능한 "삼성의", "냉장고를", "100만원대에", "사고", "싶어요"라는 토큰들로 분리되는 상기 제 1 단계와, 논리적으로 분리된 토큰들은 조사사전을 통하여 불용어 토큰들이 분리되는 상기 제 1 단계와, 논리적으로 분리된 토큰들을 조사사전을 통하여 불용어 토큰드리 제거되어 "삼성", "냉장고", "100만원대"라는 검색 대상용어를 구함으로써 상기 제 2 단계를 수행하고, 구해진 검색 대상용어를 전자상거래 상품정보 검색을 위한 용어정의 사전테이블을 통하여 "삼성" - 제조회사명(ICC), "냉장고" - 상품분류명(PCC), "100만원대" - 가격정보(Price)와 같은 특성으로 재 정의된다. First, users "want to buy a Samsung refrigerators to 100 million won" a natural language that, when asked, "refrigerator" query is logically separable "Samsung" in the user's natural eoeo "100 won", " and the first step is an accident "," I want to as "the first stage is split into a token called, are stopwords token separated by an irradiation prior logically separate tokens, stopwords the separate token logically through the irradiation prior by taking the token it'll be removing the "Samsung" Search for the term "refrigerator", "100 won" perform the second step and, through the definition dictionary table for the obtained searched term eCommerce product Search " It is defined as a material property, such as prices (price) - Samsung "- manufacturer's name (ICC)," refrigerator "- product classification name (PCC)," 100 million won. "

상기와 같이 검색 대상용어에 대한 특성이 구해지면 데이터베이스에 저장되어 있는 정보를 추출하기 위한 관계형 데이터베이스 관리시스템의 질의어인 구조적 질의어(SQL)을 생성하여야 하는데 구해진 검색 대상용어에 대한 복합질의를 위하여 논리연산자를 사용함으로써 상기 제 4 단계를 수행한다. The logical operators for complex queries for search object terms determined to be generating a relational database management of Structured Query Language (SQL) query the system characteristics to determined when extracting information stored in the database for the search object term, such as the by using performs the fourth step.

이때 검색 대상용어에 대한 특성을 이용하여 논리적 연산자로 질의어를 생성하는 상시 제 4 단계에 대하여 좀더 복잡한 자연언어 질의어를 예로 들어 설명하면, "삼성와 대우의 TV와 냉장고 100만원대를 사고 싶어요"에 대한 상기 제 1,2,3 단계를 거치면 다음과 같은 결과가 나오게 된다. In this case, when described as a more complex natural language query with respect to the constant fourth step of generating a query by logical operators by using the attributes for the search object term for example, the results for "I want to buy one hundred million won of the TV and a refrigerator samseongwa treatment" geochimyeon a first step 1, 2 and 3 is out, the following results.

"삼성", "대우" - 제조회사명(CIC) "Samsung", "treating" - Manufacturing Company (CIC)

"냉장고", "TV" - 상품분류명(PCC) "Refrigerator", "TV" - product classification name (PCC)

"100만원대" - 가격정보(PRICE) "100 won" prices (PRICE)

본 발명에서 생성되는 질의어 정규식은 아래 식 1과 같다. Query a regular expression that is generated in the present invention are shown in the following expression (1).

((CIC)) * ((PCC)) * ((BIN)) * ((CFC)) * (PRICE)) … ((CIC)) * ((PCC)) * ((BIN)) * ((CFC)) * (PRICE)) ... ... 식(1) Formula (1)

상기 식 1의 '*'는 논리연산자 AND, '(( ))'는 발생가능개수로서 0개 이상을 나타낸다. "*" In the equation 1 represents the logical operators AND, "(())" it is zero or more of a number of possible occurrence.

한 예를 들어 구매자가 '삼성과 대우의 TV와 냉장고 100만원대를 사고 싶어요'라는 질의어로 검색을 요청하면, 상기 식 1로부터 생성되는 정규식은 다음과 같다. For example, if a purchaser requests a search query of "I want to buy a TV and a refrigerator 100 won by Samsung and treatment ', a regular expression that is generated from the above formula 1 are:

(삼성) * (TV) * (100만원대) (Samsung) * (TV) * (100 million won)

(삼성) * (냉장고) * (100만원대) (Samsung) * (refrigerator) * (100 million won)

(대우) * (TV) * (100만원대) (Treated) * (TV) * (100 won)

(대우) * (냉장고) * (100만원대) (Treated) * (refrigerator) * (100 won)

여기서 상위와 같은 4개의 SQL 적용 대상 정규식이 도출되는 것을 설명하면 다음과 같다. Will be described here is that the four SQL applies regular expressions, such as upper derived as follows.

첫째, 같은 특성을 나타내는 검색 대상용어들을 OR 관계이고, 다른 특성들끼리는 AND 관계이다. First, a search object term for the same characteristic OR relationship, the AND relationship with each other with different characteristics.

즉, OR 관계 : (삼성 혹은 대우), That is, OR relationship (Samsung or treatment),

(TV 혹은 냉장고) (TV or refrigerator)

AND 관계 ; AND relationship; (삼성 혹은 대우)와 (TV 혹은 냉장고)와 (100만원대) (Samsung or treated) with the (TV or refrigerator) and (100 million won)

둘째, SQL 적용대사 정규식의 개수는 OR 관계인 것의 발생빈도를 AND 관계 개수 만큼의 곱으로 계산되는, 즉 상기 예에서는 CIC가 2개, PCC가 2개, 그리고 Price가 1개 발생하여 2 * 2 * 1 = 4가 된다. Second, the number of SQL application metabolism regular expression is in, that is the example of calculating the frequency of occurrence of what OR relationship by a product of by AND between the number of CIC is 2, PCC is two, and by Price occurs 1 2 * 2 * It is a 1 = 4.

상기 정규식을 가지고 가장 전형적인 SQL을 생성하는 예를 보면 다음과 같다. In the example that generates the most typical SQL has the following regular expressions.

select * from 상품정보 select * from Products

where : CIC = '삼성' OR : CIC = '대우' where: CIC = 'Samsung' OR: CIC = 'treatment'

AND : PCC = 'TV' OR : PCC = '냉장고' AND: PCC = 'TV' OR: PCC = 'Refrigerator'

AND : Price between 1000000 and 1999999; AND: Price between 1000000 and 1999999;

여기서 "100만원대"는 1000000원에서 1999999원사이로 변환해서 검색할 수 있는 일실시예를 나타낸 것이다. Where "100 won" illustrates an embodiment that can be searched by converting between won eseo 1999999 1000000 circle.

본 발명에서는 사용자의 자연언어 질의어를 처리하는데 있어서 정확한 구문 분석을 하지 않는다는 것인데, 상기 질의어 정규식(식 1)을 살펴보면 알겠지만 관심의 대상은 5가지 특성이며, 사용자에게 가능한 가장 많은 정보를 제공하여 선택의 폭을 넓히는데 초점을 맞추고 있다. In the present invention geotinde not to the correct parse in processing the user's natural language query, a know Looking at the query term regular expression (equation 1) of interest are five characteristics, provide the most information to the user as possible, the choice It has focused on widening the width. 즉 아래와 같은 복잡한 자연언어 질의어의 경우에도 상기 질의어와 동일한 결과를 보여주고 있다. That is also the case of complex natural language query below shows the same results as a query.

"삼성 TV와 대우 냉장고를 각각 100만원대로 사고 싶어요" "I want to buy a Samsung TV and refrigerator treated with 100 million won each."

(삼성과 대우의 TV와 냉장고 100만원대를 사고 싶어요") (I want to buy a 100 million won of Samsung and Daewoo TV and a refrigerator. ")

상기 두 가지 질의어를 비교해 보면, 그 차이점은 "삼성 냉장고 100만원대"와 "대우 TV 100만원대"를 추가로 보여주는 것인데, 결과적으로 사용자가 요구하지는 않았지만 비교를 위한 자료로 제시하게 되는 것이다. In the comparison of two kinds of queries, it is directed towards showing the differences to add "Samsung Refrigerator 100 million won" and "Daewoo TV 100 won", will be consequently presented as a resource for comparing the user did not request.

이와 같이 하는 또 한가지 이유는 정확한 구문분석을 수행할 경우 시스템 응답시간이 현저하게 저하되어 본 발명에서 제시하는 바와 같이 불특정 다수가 이용하는 인터넷 웹상의 검색서비스 환경에 적합하지 않다는 것이다. Thus Another reason for that it is not suitable for the environment of the Internet search service web, the general public using the case as to perform the correct parsing as suggested in the present invention is lowered significantly, the system response time.

다음 상기 상품가격을 나타내는 용어가 어떠한 유형에 속하는지에 대한 판단으로는, 구간명시형(예를 들어 50만원에서 100만원사이), 구간추락형(예를 들어 100만원대), 최소최대형(예를 들어 가장 비싼 것, 가장 싼 것)의 3가지를 기준으로 하는데, 상기 질의어로부터 논리연산자를 선택하는 과정의 1, 2, 3 단계를 거치는 동안 가격을 나타내는 용어는 전자사전, 즉 '전자상거래정보 서비스 용어 테이블'과 '전자 상거래정보 서비스 동의어 테이블'에 나타낸 바와 같다. A determination is then whether belonging to any types of the term for the product price, the interval stated type (for example at 50 manwon between 100 million), interval crash type (for example, 100 million won), at least up type (e. for the most expensive, most to by three of the cheaper will), the term indicates the price for going through the steps 1, 2 and 3 of the process of selecting a logical operator from the query is an electronic dictionary, or "e-commerce information services as it is shown in the table the term "and" e-commerce information service synonym table.

예를 들어 '원, '만원', '원대, '만원대', '만원정도' 등등은 상기 구간추략형으로, '원에서', '만원에서', '원부터', '원사이', '만원사이' 등등은 상기 구간명시형으로, '비싼', '싼', '저렴한' 등등은 상기 최소최대형으로 구분하여 등록된 것을 이용하여 가격을 나타내는 검색대상용어임을 파악할 수 있으며, 동시에 3가지 중 어떤 유형에 속하는지를 파악할 수 있다. For example, the "circle," ten thousand won "," won, "won", 'between source "" ten thousand won degree ", etc., with the interval estimation ryakhyeong," one-in, "" won from, "" source for ",," ten thousand won between, and so is the a period specified type, "and to understand that expensive ',' cheap ',' cheap 'etc Search for term indicative prices using the registered separated by the minimum and maximum type, at the same time, three kinds of you can determine whether one belongs to a certain type.

상기 처리 절차가 완료되면 검색대상이 되는 용어로부터 질의어 정규식이 생성된 것이다(90). The process is the process is complete when the query terms that are generated from a regular expression search target (90).

다음은 생성된 질의어 정규식으로부터 RDBMS의 질의어인 SQL을 생성하는 것이다(S11). The next step is to generate a query in SQL RDBMS from the generated query term regular expression (S11).

이때 생성되는 SQL은 정적(Static) SQL로서, 질의어 정규식으로 생성가능한 모든 경우의 수를 미리 고려하여 단 1번의 수행으로 관련 정보를 모두 가져올 수 있도록 구성되어진 1개의 SQL 문장에 호스트 변수(Host Variable)를 대입하는 방법으로 생성된다. The generated SQL are static (Static) as SQL, can only 1 performs number 1 (Host Variable) host variables of SQL statements been configured to retrieve all the relevant information with one consideration in advance of generating all possible to query regular expression method is created to be filled with the.

물론 그때그때 생성되는 질의어 정규식에 대응하는 동적(Dynamic) SQL를 생성하여 대응할 수도 있으나, 불특정 다수가 이용하는 인터넷 월드와이드웹상의 검색서비스 환경에서 동적 SQL를 생성하여 검색하는 것은 처리시간이 길어질 뿐만 아니라 RDBMS의 질의어 최적화 기능을 효과적으로 이용하지 못하므로 본 발명에서는 배제시켰다. Of course, from time to time, but also respond by generating a generated dynamically (Dynamic) SQL corresponding to the query regular expression, searching to generate dynamic SQL in a search service environment of unspecified Internet World Wide Web number is used, as well as lengthen the processing time RDBMS because of not effectively using the query optimization features it was excluded from the present invention.

생성된 구조적 질의어를 이용하여 전자상거래정보 서비스 상품 테이블(101)을 검색하여 관련 정보를 가져온다(S12). Using the Structured Query Language created to bring relevant information to search for e-commerce information services products table (101) (S12).

본 발명에서 처리대상으로 하는 질의어에 관한 상품정보는 CIC, PCC, BN, CFC 그리고 PRICE이지만, 검색결과로서 구매자에게 제공되는 상품정보는 이 5가지 정보에 덮붙여서 모델번호, 해당 상품을 판매하는 가상상점내의 URL, 그리고 URL로부터 추출한 가상상점의 홈 페이지 URL이 부가적으로 제공된다. Product information about the query to a processing target in the present invention CIC, PCC, BN, CFC and PRICE, but as a search result item information provided to the buyer by attaching cover the five information model numbers, virtual selling the goods Home page URL of the virtual store is extracted from the URL, and the URL in the shop are provided additionally.

상기 8가지 정보에 관한 검색결과는 HTML 문서 형태로 동적으로 생성되어(S13), HTTPd(40)을 통하여 구매자의 웹브라우저(10)에 전달된다(S14). The results for the eight data is dynamically generated in the form HTML document (S13), by the HTTPd (40) is transmitted to the buyer of the web browser (10) (S14).

상술한 바와 같이 본 발명은 사용자가 일상적으로 사용하는 자연언어 질의어로 원하는 상품정보를 요청하므로 편리한 사용자 인터페이스를 제공하며, 자연언어 질의어에 대한 정확한 상품정보 추출 및 빠른 처리시간을 통하여 고품질의 검색서비스를 제공하는 효과가 있다. The present invention as described above, a high-quality search service users are requested as the desired product information to the daily natural language query term used to provide a convenient user interface, through the accurate product information extraction and rapid processing time for a natural language query term It has the effect of providing.

Claims (4)

  1. 전자상거래 상품정보 검색용 자연언어 질의어 처리방법에 있어서, In natural language query processing method for e-commerce search product information,
    검색대상 용어를 추출하는 제 1 과정과; A first process of extracting a search term and the destination;
    추출된 각각의 용어에 대하여 질의어 정규식을 생성하는 제 2 과정과; A second process of generating a query term regular expression for each term extracted and;
    생성된 정규식을 관계형데이터베이스관리시스템(RDBMS)의 질의어인 구조적질의어(SQL)로 변환하여 검색결과를 생성하는 제 3 과정을 포함하는 것을 특징으로 하는 전자상거래 상품정보 검색용 자연언어 질의어 처리방법. The resulting regular expression relational database management system, e-commerce Products Natural language query processing method for searching for a second comprising a third step of generating a search result to convert to a Structured Query Language (SQL) query of (RDBMS).
  2. 제 1 항에 있어서, 상기 제 1 과정은 The method of claim 1, wherein said first process
    인터넷 가상상점을 통해 상품을 구입하고자 하는 구매자가 상품의 정보를 웹브라우저를 이용하여 자연언어 질의어로 검색을 요청하는 제 1 단계와; The first step that a buyer requests a search query in natural language information on the product using a web browser to buy goods over the Internet, virtual shops and;
    자연언어 질의어로 검색을 요청한 후 전자상거래정보 서비스 시스템내의 웹서버를 거쳐 사용자 자연언어 질의어 추출기를 통해 질의어를 추출하여 기억장소 배열에 저장하는 제 2 단계와; After requesting a search query in natural language e-commerce information, a second step through a web server in the service system stored in the user memory locations arranged via natural language query extractor to extract and query;
    저장된 자연언어 질의어를 질의어 토큰 분리기를 통해 공백, 쉼표, 마침표 및 기호와 같은 여러 조건들을 절단기호로 하여 토큰을 분리시키는 제 3 단계와; A third step of separating the tokens arc cutter various conditions such as the stored natural language query with a space, comma, period and sign through the separator and the query token;
    분리된 토큰에서 상품가격 용어가 존재할 경우 기억장소 배열에 저장한 후 해당 토큰을 제거하고, 각 토큰에서 조사를 제거한 후 불용어 토큰을 제거하는 제 4 단계를 포함하여 구성된 것을 특징으로 하는 전자상거래 상품정보 검색용 자연언어 질의어 처리방법. If present, the product price term in a separate token memory and then stored in the location arrangement removes the token, e-commerce goods information, characterized in that is configured to remove the irradiated on each token a fourth step of removing stopwords token natural language query processing methods for search.
  3. 제 1 항에 있어서, 상기 제 2 과정은 The method of claim 1, wherein the second process is
    자연언어 질의어를 논리적 가능 토큰으로 분리하고 불용어 토큰을 제거하여 검색 대상용어를 추출하며 추출된 검색 대상용엉에 대한 특성을 파악하여 이를 이용해 논리적 연산자로 질의어를 생성하는 제 1 단계와; A first step of removing the natural-language query term is logically possible tokens and generates a query to the logical operator to use it by removing stopwords token extracting search subject terms and identify the properties for the extracted search target and yongeong;
    상기 자연언어 질의어를 구간명시형, 구간추략형, 최소최대형으로 구분하여 상품가격을 나타내는 용어의 형태를 파악하는 제 2 단계를 포함하는 것을 특징으로 하는 전자상거래 상품정보 검색용 자연언어 질의어 처리방법. The natural language query specifies the period type, the interval estimation ryakhyeong, e-commerce goods information natural language query processing for the search method according to claim characterized in that it comprises a step of, separated by at least up to type to identify the type of a term representing a product price .
  4. 제 1 항에 있어서, 상기 제 3 과정은 The method of claim 1, wherein the third process,
    생성된 정규식을 RDBMS의 질의어인 SQL로 변환하는 제 1 단계와; A first step of converting the regular expressions to generate the SQL query with the RDBMS;
    전자상거래정보 서비스 상품 테이블을 검색하여 제조회사명(CIC), 상품분류명(PCC), 상품명(BN), 주요사양(CFC), 모델번호(MN), 가격(PRICE), 문서위치(URL)의 상품정보를 가져오는 제 2 단계와; E-commerce information services search product tables prepared by Company (CIC), product classification name (PCC), trade names (BN), Specifications (CFC), the model number (MN), price (PRICE), document the location (URL) step 2 getting product information;
    상기 URL로부터 홈페이지 URL를 추출하여 검색결과에 덮붙인 후 HTML 문서를 동적 생성하여 웹서버를 통해 사용자에게 제공하는 제 3 단계를 포함하는 것을 특징으로 하는 전자상거래 상품정보 검색용 자연언어 질의어 처리방법. After affixed to extract the homepage URL from the URL cover the results Ecommerce Products Natural language query processing method for searching characterized in that through a Web server to dynamically create an HTML document that contains a third step provided to the user.
KR19970052617A 1997-10-14 1997-10-14 Method for processing natural query language for searching commodity information of electronic commerce KR100289065B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR19970052617A KR100289065B1 (en) 1997-10-14 1997-10-14 Method for processing natural query language for searching commodity information of electronic commerce

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR19970052617A KR100289065B1 (en) 1997-10-14 1997-10-14 Method for processing natural query language for searching commodity information of electronic commerce

Publications (2)

Publication Number Publication Date
KR19990031784A true KR19990031784A (en) 1999-05-06
KR100289065B1 true KR100289065B1 (en) 2001-02-14

Family

ID=37517601

Family Applications (1)

Application Number Title Priority Date Filing Date
KR19970052617A KR100289065B1 (en) 1997-10-14 1997-10-14 Method for processing natural query language for searching commodity information of electronic commerce

Country Status (1)

Country Link
KR (1) KR100289065B1 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007030692A1 (en) * 2005-09-08 2007-03-15 Microsoft Corporation Autocompleting with queries to a database
US7693860B2 (en) 2005-03-18 2010-04-06 Microsoft Corporation Method and system to associate cell and item metadata
US7792847B2 (en) 2005-09-09 2010-09-07 Microsoft Corporation Converting structured reports to formulas
US7805433B2 (en) 2005-10-14 2010-09-28 Microsoft Corporation Multidimensional cube functions

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7613719B2 (en) * 2004-03-18 2009-11-03 Microsoft Corporation Rendering tables with natural language commands
KR100740978B1 (en) * 2004-12-08 2007-07-19 한국전자통신연구원 System and method for processing natural language request
KR100709984B1 (en) * 2005-05-20 2007-04-23 엔에이치엔(주) Query matching method and system for outputting results matched to query by processing the query according to various logics
WO2006123918A1 (en) * 2005-05-20 2006-11-23 Nhn Corporation Query matching system and method, and computer readable recording medium recording program for implementing the method
KR100623628B1 (en) * 2005-05-20 2006-09-06 엔에이치엔(주) Query matching system and method, and computer readable recording medium recording program for implementing the method
KR100534493B1 (en) 2005-05-26 2005-12-01 엔에이치엔(주) Method and system for recommending category and computer readable recording medium recording program for implementing the method
KR101137056B1 (en) * 2005-06-03 2012-04-20 엔에이치엔비즈니스플랫폼 주식회사 Commodity information registering method and system which uses automatic commodity model suggesting logic

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7693860B2 (en) 2005-03-18 2010-04-06 Microsoft Corporation Method and system to associate cell and item metadata
WO2007030692A1 (en) * 2005-09-08 2007-03-15 Microsoft Corporation Autocompleting with queries to a database
US8234293B2 (en) 2005-09-08 2012-07-31 Microsoft Corporation Autocompleting with queries to a database
US7792847B2 (en) 2005-09-09 2010-09-07 Microsoft Corporation Converting structured reports to formulas
US7805433B2 (en) 2005-10-14 2010-09-28 Microsoft Corporation Multidimensional cube functions

Similar Documents

Publication Publication Date Title
US6101503A (en) Active markup--a system and method for navigating through text collections
US6996536B1 (en) System and method for visually analyzing clickstream data with a parallel coordinate system
Stanfill et al. Parallel free-text search on the connection machine system
US7660740B2 (en) Method and system for listing items globally and regionally, and customized listing according to currency or shipping area
US6366910B1 (en) Method and system for generation of hierarchical search results
US6605120B1 (en) Filter definition for distribution mechanism for filtering, formatting and reuse of web based content
US6487539B1 (en) Semantic based collaborative filtering
US20020035619A1 (en) Apparatus and method for producing contextually marked-up electronic content
US20020013781A1 (en) System and method of searchin and gathering information on-line and off-line
US6519585B1 (en) System and method for facilitating presentation of subject categorizations for use in an on-line search query engine
US7236972B2 (en) Identifier vocabulary data access method and system
US20020143808A1 (en) Intelligent document linking system
US5918214A (en) System and method for finding product and service related information on the internet
US6356879B2 (en) Content based method for product-peer filtering
US20090281925A1 (en) Color match toolbox
US20030033274A1 (en) Hub for strategic intelligence
US20100169361A1 (en) Methods and apparatus for generating a data dictionary
Spiliopoulou Web usage mining for web site evaluation
US20080072140A1 (en) Techniques for inducing high quality structural templates for electronic documents
US20070300161A1 (en) Systems and methods for context personalized web browsing based on a browser companion agent and associated services
US20110178868A1 (en) Enhancing search result pages using content licensed from content providers
US5983268A (en) Spreadsheet user-interface for an internet-document change-detection tool
US20020059204A1 (en) Distributed search system and method
US20080016019A1 (en) Method and system to analyze rules based on popular query coverage
US6381597B1 (en) Electronic shopping agent which is capable of operating with vendor sites which have disparate formats

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20090202

Year of fee payment: 9

LAPS Lapse due to unpaid annual fee