WO2013157712A1 - Information search device, information search method, and computer-readable recording medium - Google Patents

Information search device, information search method, and computer-readable recording medium Download PDF

Info

Publication number
WO2013157712A1
WO2013157712A1 PCT/KR2012/009982 KR2012009982W WO2013157712A1 WO 2013157712 A1 WO2013157712 A1 WO 2013157712A1 KR 2012009982 W KR2012009982 W KR 2012009982W WO 2013157712 A1 WO2013157712 A1 WO 2013157712A1
Authority
WO
WIPO (PCT)
Prior art keywords
search
information
directory
level
record
Prior art date
Application number
PCT/KR2012/009982
Other languages
French (fr)
Korean (ko)
Inventor
박석일
Original Assignee
Park Suk-Il
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Park Suk-Il filed Critical Park Suk-Il
Publication of WO2013157712A1 publication Critical patent/WO2013157712A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Definitions

  • An information retrieval apparatus is an interface unit for providing information of a search window including a search entity, a directory, a record, and an intention field to a user terminal device, and is classified and indexed into a plurality of search categories.
  • a storage unit including a database in which the stored content information is recorded, and a control unit for sequentially searching for the plurality of search categories using the search word input for each field when the search word is input for each field in the search window. It is characterized by including.
  • the control unit may define the level of each field by using each search word input in the search entity, directory, record, and intention field, and determine the intention of the user according to the prescribed level.
  • an information retrieval method providing information of a search window including a search entity, a directory, a record, and an intention field, and if a search word is input for each field in the search window, Determining a directory level to which the directory search term entered in the directory field belongs and a record level to which the record search term entered in the record field belongs, respectively, within a plurality of preset search categories based on the determined directory level and record level; At step of sequentially searching for content including a search term input in the search entity field, and limiting the directory level and the record level to lower levels by using the searched content, respectively, within a range of the searched content, Content can be obtained using the limited directory level and record level. And rescanning.
  • FIG. 3 is a diagram schematically illustrating a web world subject and a web world category
  • FIG. 10 is a flowchart illustrating an information retrieval method according to an embodiment of the present invention.
  • FIG. 1 is a diagram showing the structure of an information retrieval system according to an embodiment of the present invention
  • FIG. 2 is a flow chart briefly showing the functions of the information retrieval apparatus of FIG. 1
  • FIG. 3 is a diagram illustrating a web world subject and a web world category. The figure shown.
  • FIG. 4 is a diagram illustrating a category arrangement and interdependencies
  • FIG. 5 is a diagram illustrating a category arrangement for each search engine search
  • FIG. 6 is a diagram showing search term fields separately in a search window.
  • a user terminal device 100 such as a smart phone 100 uses a browser for a wireless Internet access of a specific telecommunication company such as Opera Mini for the iPhone to provide a faster wireless Internet, or in conjunction with the user terminal device ( 100) also uses Wi-Fi and WiBro, which are local area networks, to provide wireless high-speed Internet.
  • a specific telecommunication company such as Opera Mini for the iPhone
  • Wi-Fi and WiBro which are local area networks
  • the search engine of the information retrieval apparatus 130 derives the variable values of the categories for the corresponding web page in the various stages of the search, and combines the variable values of these categories in the stage of the search. Extract identity.
  • the overall judgment for the web page is that the values of a certain category's variables are cross-qualified by the category values of other variables in addition to those based on their attributes.
  • the search term category 'Park Joo-young' is defined by the soccer player in the directory category and excludes Park Joo-young except the soccer player.
  • a comprehensive judgment is made by combining the variable values of the categories based on this category cross-regulation.
  • the categories commonly applied to the web activities of the web communication subjects are derived and the category grammar is given to them.
  • These categories include search keywords, information users, directory of information objects, information objects records, producers, relevant web sites, folksonomy for search popularity, information networks for information communication, and other categories.
  • An embodiment of the present invention sets various categories for a search engine and sets these categories as objects, and gives each of these objects its own attributes and behaviors.
  • these individual objects refer to the variable values of other objects and give a grammar to the category interdependencies and qualities that obtain their own variable values. Through this, we derive variable values for the self-identity of the web data.
  • the information retrieval apparatus 130 for example, when there is a request from the user terminal apparatus 100, provides information about a search box or a search box divided into four fields, as shown in FIG. Receives the search terms corresponding to the four categories entered for each field of the window, searches the data constructed in the eight categories using the received four search terms, and provides the search results back to the user terminal device 100. .
  • the storage unit 720 may include the DB 130a of FIG. 1. However, it may also mean a memory such as RAM that temporarily stores information processed by the controller 710 separately from the DB 130a. For example, data processed through the index processing unit 730 may be constructed in the DB 130a of FIG. 1. In this case, the storage unit 720 as a memory may temporarily store information processed under the control of the controller 710. If the information retrieval apparatus 130 does not have a separate DB 130a, the storage unit 720 may serve as the DB 130a. The storage unit 720 also stores (or builds up) data that is classified into, for example, eight core categories in association with the index processing unit 730 based on mutual regulation in accordance with the DB 130a. )do.
  • the key categories include keywords (K), users (U), directories (D), records (R), producers (P), containers (C), foxsons (F), and networks (N).
  • K keywords
  • U users
  • D directories
  • D records
  • R producers
  • P containers
  • C foxsons
  • N networks
  • the data constructed in the storage unit 720 based on mutual regulation is provided as a result of being searched under the control of the controller 710 when the search engine unit 740 is operated.
  • crawling is a process of mechanically visiting a specific web site or information storage server and obtaining web information necessary for indexing of information data.
  • web page information collection is not limited to collecting specific web page information of a specific web site through a web crawler, but collecting web information that can extract various categories inherent in the information communication relations of web world subjects. It is.
  • the information retrieval apparatus 130 collects the information by the web crawler under the instruction system of the URL server.
  • the URL server instructs the web crawler to collect the web information which can derive these categories, and instructs the web crawler to perform the respective task. Analysis of information based on categories from the collected information becomes a challenge in the indexing process.
  • Information gathering in web crawling may include the web data body, the web data HTML source code, web data related information producer information, and main web site HTML source code information including web data.
  • the source code of the web information is an HTML language that allows the web information to be displayed on a computer screen through the Internet, as shown in FIG. It has a function to contain structural information about the web page that contains the subject information producer, URL address, screen layout, and link information of the web information.
  • the information producer information can be found in the aforementioned web source code, and the website information means "main website HTML source code of the website containing the web data".
  • the key keywords are extracted from the web data by analyzing the keyword of the title of the web data or the tag information of the HTML source code.
  • the accuracy of this web data is analyzed by substituting the context of the substance and attribute of the web data into a language value understood by the machine (search engine indexer).
  • core keywords of the web data are extracted based on the title and tag importance weight of the web data source data, and the interconnection of these keywords and analysis of the keywords and the corresponding web site are analyzed.
  • This key keyword corresponds to a substance among search terms fields entered by a search user.
  • Network information such as the frequency of use and the linkage of the key keyword, with the frequency of use in the web world, is obtained for the corresponding core keywords extracted from the corresponding web data and having a language value that can be understood by the machine. Based on the folksonomial and network values of these key words, the folksonomial and network values of the web data are obtained. In this case, the folksonomy of the web data is performed by the web log, and the information network analysis can be performed by the information network analyzer. e) Create a field index based on the values obtained in steps a) through d).
  • the search engine may operate in conjunction with these various servers.
  • the above-mentioned weblog is a server that analyzes the popularity of a specific search term, that is, a folksonomy, and can be understood as the same as Naver's popularity server.
  • An information connection network is a server in which a specific web data processes a link relationship with other web data.
  • the network information is an analysis machine that performs information connection, or link analysis, on the Internet.
  • Netminer which is used in Korea, can be used, and among the search engine companies, the company has its own information network server. Analyze information network information of keywords or web data. For example, www.seoul.com/new/football/asnal/jypa is a web data with the URL / 001 that links another article within the text of an online newspaper article "Park Joo-young's debut goal.”
  • the network address is the URL of one of "Premiere", “Arsene Wenger” and "Bolton".
  • the information search apparatus 130 drives the search engine unit 740 to use search terms provided through a search window having a plurality of fields displayed on the user terminal apparatus 100. Indexed in the DB (130a) to search for data matching the stored data and provide it to the user.
  • the search engine unit 740 analyzes the intention and the context of the corresponding information thing and the information user search word through mutual categories of categories. For example, in a search word analysis, when an information user inputs a search word corresponding to four categories, that is, an entity (S), a directory (D), a record (R), and an intention (I), a search box may be used. According to the search engine, the entity is specified from the directory, the directory is specified from the record, and the record is implemented from the intention to analyze the intention and context of the search word.
  • the user interface corresponds to the search box part.
  • This search box has a number of separate fields.
  • the field of the search box is the core keyword part that the information user wants. It consists of the substance field, the directory of information the user wants, and the record field of the information, and finally the message field containing the intention of the user. These field combinations may therefore vary.
  • the information user enters his search word keyword in four fields.
  • the search terms of these individual fields have cross-qualifications that define the search term nature of the other fields.
  • the information retrieval apparatus 130 limits the directory and record levels to lower levels, and re-searches the contents within the range of the retrieved contents (S1040). Through this process, the information retrieval apparatus 130 may search for content that is further reduced in the range of the first searched content.

Abstract

The present invention relates to an information search device, an information search method, and a computer-readable recording medium. The information search device, according to one embodiment of the present invention, comprises: an interface unit for providing, to a user terminal device, information on a search window including a search entity, a directory, a record, and an intention field; a storage unit including a database having content information classified by being indexed into a plurality of search categories recorded therein; and a control unit for sequentially searching for the plurality of search categories by using search words inputted according to each field, when the search words are inputted according to each field on the search window.

Description

정보검색장치 및 정보검색방법, 컴퓨터 판독가능 기록매체Information retrieval apparatus and information retrieval method, computer readable recording medium
본 발명은 정보검색장치 및 정보검색방법, 컴퓨터 판독가능 기록매체에 관한 것으로서, 더 상세하게는 예컨대 정보 이용자의 의도(intention)를 파악하고, 정보 이용자가 입력한 검색어 키워드의 문맥을 파악해 정보 이용자의 의도와 문맥에 조응하는 정보를 제공할 수 있는 정보검색장치 및 정보검색방법, 컴퓨터 판독가능 기록매체에 관한 것이다.The present invention relates to an information retrieval apparatus, an information retrieval method, and a computer readable recording medium. More specifically, the present invention relates to information retrieval, for example, by grasping the intention of an information user, and by grasping the context of a keyword keyword entered by the information user. An information retrieval apparatus, an information retrieval method, and a computer readable recording medium capable of providing information corresponding to an intention and a context.
일반적으로 잘 알려져 있는 검색 엔진 기술은 키워드 검색어 기반으로 이루어지고 있으며, 웹 데이터의 단어들을 분석하여 색인 처리하고, 정보 이용자의 키워드 검색어와 일치하는 정보 데이터를 제공하는 방법이다. 여기서 검색 엔진이란 인터넷상에서 자료를 쉽게 찾을 수 있게 도와주는 소프트웨어를 말한다.Search engine technology, which is generally well known, is based on keyword search terms, and is a method of analyzing and indexing words in web data and providing information data that matches keyword search terms of information users. Search engines are software that makes it easy to find data on the Internet.
그런데 이러한 검색 기법은 특정 웹 데이터를 단어 중심으로 분석하여 그 단어의 빈도 수 등을 중심으로 분석하다 보니 그 웹 페이지의 전체 문맥에서 그 단어의 의미를 파악하지 못하고, 정보 이용자 검색어 분석에서도 검색자의 의도나 검색어들 사이의 전체 문맥을 정확하게 파악하지 못하는 문제가 있다.However, such a search technique analyzes specific web data centered on words and the frequency of the words, so that the meaning of the words is not understood in the overall context of the web page. There is a problem that does not accurately grasp the entire context between search terms.
이로 인해 종래의 검색 기법은 정보 이용자의 의도나 웹 데이터의 문맥과 무관한 다수의 정보를 제공하게 됨으로써 정보 이용자는 다시 이들 정보들 가운데 자신이 필요한 정보를 재점검해야 하는 번거로움이 있었다.As a result, the conventional retrieval technique provides a large number of information irrespective of the intention of the information user or the context of the web data, thereby causing the information user to re-examine the necessary information among the information.
또한 단어 분석적 키워드 검색엔진에서는 해당 웹 페이지의 모든 단어를 분석하고 저장하여 색인 처리하다 보니 단일 웹 데이터 정보를 반복적으로 저장해야 하고, 이로 인해 무수한 컴퓨터 등의 하드웨어 장비를 조달해야 하거나 데이터 센터를 주기적으로 유지 관리해야 함으로써 그에 따른 비용이 발생하게 되었다.In addition, word-analytic keyword search engines analyze, store, and index all words on a given web page, resulting in the repetitive storage of single web data information. The maintenance required a cost.
본 발명의 실시예는 정보 이용자 검색어 분석에서 검색자의 의도나 검색어들 사이의 전체 문맥을 정확히 파악하여 정보를 제공해 줄 수 있는 정보검색장치 및 정보검색방법, 컴퓨터 판독가능 기록매체를 제공함에 그 목적이 있다.Embodiments of the present invention provide an information retrieval apparatus, an information retrieval method, and a computer readable recording medium capable of providing information by accurately grasping the searcher's intention or the entire context between the search terms in information user search word analysis. have.
본 발명의 실시예에 따른 정보검색장치는 검색 실체, 디렉터리, 레코드, 의도(intention) 필드(field)를 포함하는 검색 창의 정보를 사용자 단말장치로 제공하는 인터페이스부, 복수의 검색 범주로 색인되어 분류된 컨텐츠 정보가 기록된 데이터 베이스를 포함하는 저장부, 및 상기 검색 창에서 각 필드별로 검색어가 입력되면, 상기 각 필드별로 입력된 검색어를 이용하여 상기 복수의 검색 범주에 대하여 순차적으로 검색하는 제어부를 포함하는 것을 특징으로 한다.An information retrieval apparatus according to an embodiment of the present invention is an interface unit for providing information of a search window including a search entity, a directory, a record, and an intention field to a user terminal device, and is classified and indexed into a plurality of search categories. A storage unit including a database in which the stored content information is recorded, and a control unit for sequentially searching for the plurality of search categories using the search word input for each field when the search word is input for each field in the search window. It is characterized by including.
상기 제어부는, 상기 디렉터리 필드에 입력된 디렉터리 검색어가 속하는 디렉터리 레벨 및 상기 레코드 필드에 입력된 레코드 검색어가 속하는 레코드 레벨을 각각 최상위로 결정하고, 상기 결정된 디렉터리 레벨 및 레코드 레벨을 기준으로 복수의 검색 범주 내에서 상기 검색 실체 필드에 입력된 검색어를 포함하는 컨텐츠를 검색하며, 검색된 컨텐츠를 이용하여 상기 디렉터리 레벨 및 상기 레코드 레벨을 각각 하위 레벨로 한정하고, 상기 검색된 컨텐츠의 범위 내에서, 상기 한정된 디렉터리 레벨 및 레코드 레벨을 이용하여 컨텐츠를 재검색하는 것을 특징으로 한다.The control unit determines a directory level to which the directory search term entered in the directory field belongs and a record level to which the record search term input in the record field belongs, respectively, and a plurality of search categories based on the determined directory level and record level. Search for content including a search term entered in the search entity field within the list, and limit the directory level and the record level to lower levels by using the searched content, and within the range of the searched content, the limited directory level. And re-search for the content using the record level.
상기 제어부는, 상기 검색된 컨텐츠를 분석하여, 상기 사용자의 의도를 판단하고, 상기 사용자의 의도를 이용하여 상기 디렉터리 레벨 및 상기 레코드 레벨을 각각 하위 레벨로 한정하며, 상기 한정된 디렉터리 레벨 및 상기 레코드 레벨을 이용하여 상기 복수의 검색 범주에 대해서 상기 검색된 컨텐츠를 필터링하는 것을 특징으로 한다.The controller determines the intention of the user by analyzing the searched content, and limits the directory level and the record level to lower levels by using the user's intention, and sets the limited directory level and the record level. And the searched content is filtered for the plurality of search categories.
상기 제어부는, 상기 검색 실체, 디렉터리, 레코드, 의도 필드에 입력된 각 검색어를 이용하여 각 필드의 레벨을 규정하고, 규정된 레벨에 따라 상기 사용자의 의도를 판단하는 것을 특징으로 한다.The control unit may define the level of each field by using each search word input in the search entity, directory, record, and intention field, and determine the intention of the user according to the prescribed level.
상기 제어부는, 상기 검색된 컨텐츠 내에 사용자의 의도에 부합되는 컨텐츠가 포함되어 있으면 컨텐츠 재검색을 중지하고, 상기 검색된 컨텐츠를 포함하는 검색 결과 화면을 상기 사용자 단말장치로 제공하도록 상기 인터페이스부를 제어하는 것을 특징으로 한다.The controller may control the interface unit to stop re-searching the content and to provide a search result screen including the searched content to the user terminal device when the searched content includes content corresponding to a user's intention. do.
상기 제어부는, 상기 검색된 컨텐츠가 기 설정된 개수 이내이면 컨텐츠 재검색을 중지하고, 상기 검색된 컨텐츠를 포함하는 검색 결과 화면을 상기 사용자 단말장치로 제공하도록 상기 인터페이스부를 제어하는 것을 특징으로 한다.The control unit may stop re-searching the content when the searched content is within a preset number, and control the interface unit to provide a search result screen including the searched content to the user terminal device.
상기 복수의 검색 범주는 키워드, 유저, 디렉터리, 레코드, 생산자, 컨테이너, 폭소노미, 네트워크를 포함하는 것을 특징으로 한다.The plurality of search categories may include keywords, users, directories, records, producers, containers, foxsons, and networks.
본 발명의 실시예에 따른 정보검색방법은 검색 실체, 디렉터리, 레코드, 의도(intention) 필드(field)를 포함하는 검색 창의 정보를 제공하는 단계, 상기 검색 창에서 각 필드별로 검색어가 입력되면, 상기 디렉터리 필드에 입력된 디렉터리 검색어가 속하는 디렉터리 레벨 및 상기 레코드 필드에 입력된 레코드 검색어가 속하는 레코드 레벨을 각각 최상위로 결정하는 단계, 상기 결정된 디렉터리 레벨 및 레코드 레벨을 기준으로, 기 설정된 복수의 검색 범주 내에서, 상기 검색 실체 필드에 입력된 검색어를 포함하는 컨텐츠를 순차적으로 검색하는 단계, 및 검색된 컨텐츠를 이용하여 상기 디렉터리 레벨 및 상기 레코드 레벨을 각각 하위 레벨로 한정하고, 상기 검색된 컨텐츠의 범위 내에서, 상기 한정된 디렉터리 레벨 및 레코드 레벨을 이용하여 컨텐츠를 재검색하는 단계를 포함하는 것을 특징으로 한다.In an information retrieval method according to an embodiment of the present invention, providing information of a search window including a search entity, a directory, a record, and an intention field, and if a search word is input for each field in the search window, Determining a directory level to which the directory search term entered in the directory field belongs and a record level to which the record search term entered in the record field belongs, respectively, within a plurality of preset search categories based on the determined directory level and record level; At step of sequentially searching for content including a search term input in the search entity field, and limiting the directory level and the record level to lower levels by using the searched content, respectively, within a range of the searched content, Content can be obtained using the limited directory level and record level. And rescanning.
상기 컨텐츠를 재검색하는 단계는, 상기 검색된 컨텐츠를 분석하여, 상기 사용자의 의도를 판단하는 단계; 상기 사용자의 의도를 이용하여 상기 디렉터리 레벨 및 상기 레코드 레벨을 각각 하위 레벨로 한정하는 단계; 및 상기 한정된 디렉터리 레벨 및 상기 레코드 레벨을 이용하여 상기 복수의 검색 범주에 대해서 상기 검색된 컨텐츠를 필터링하는 단계를 포함하는 것을 특징으로 한다.Re-searching the content may include analyzing the searched content to determine an intention of the user; Limiting the directory level and the record level to lower levels respectively using the intention of the user; And filtering the searched content for the plurality of search categories using the limited directory level and the record level.
상기 사용자의 의도를 판단하는 단계는, 상기 검색 실체, 디렉터리, 레코드, 의도 필드에 입력된 각 검색어를 이용하여 각 필드의 레벨을 규정하고, 규정된 레벨에 따라 상기 사용자의 의도를 판단하는 것을 특징으로 한다.The determining of the intention of the user may include defining the level of each field using each search word input in the search entity, directory, record, and intention field, and determining the intention of the user according to the prescribed level. It is done.
상기 정보검색방법은 상기 검색된 컨텐츠 내에 사용자의 의도에 부합되는 컨텐츠가 포함되어 있으면 컨텐츠 재검색을 중지하고, 상기 검색된 컨텐츠를 포함하는 검색 결과 화면을 제공하는 단계를 더 포함하는 것을 특징으로 한다.The information retrieval method may further include stopping content re-search if the searched content includes content corresponding to the intention of the user, and providing a search result screen including the searched content.
또한 상기 정보검색방법은 상기 검색된 컨텐츠가 기 설정된 개수 이내이면 컨텐츠 재검색을 중지하고, 상기 검색된 컨텐츠를 포함하는 검색 결과 화면을 제공하는 단계를 더 포함하는 것을 특징으로 한다.The information retrieval method may further include stopping the re-search of the content when the searched content is within a predetermined number and providing a search result screen including the searched content.
상기 복수의 검색 범주는 키워드, 유저, 디렉터리, 레코드, 생산자, 컨테이너, 폭소노미, 네트워크를 포함하는 것을 특징으로 한다.The plurality of search categories may include keywords, users, directories, records, producers, containers, foxsons, and networks.
또한 본 발명의 실시예에 따른 컴퓨터 판독가능 기록매체는 정보검색방법을 실행하기 위한 프로그램이 저장된 컴퓨터 판독가능 기록 매체에 있어서, 상기 정보검색방법은, 검색 실체, 디렉터리, 레코드, 의도(intention) 필드(field)를 포함하는 검색 창의 정보를 제공하는 단계, 상기 검색 창에서 각 필드별로 검색어가 입력되면, 상기 디렉터리 필드에 입력된 디렉터리 검색어가 속하는 디렉터리 레벨 및 상기 레코드 필드에 입력된 레코드 검색어가 속하는 레코드 레벨을 각각 최상위로 결정하는 단계, 상기 결정된 디렉터리 레벨 및 레코드 레벨을 기준으로 복수의 검색 범주 내에서 상기 검색 실체 필드에 입력된 검색어를 포함하는 컨텐츠를 검색하는 단계, 및 검색된 컨텐츠를 이용하여 상기 디렉터리 레벨 및 상기 레코드 레벨을 각각 하위 레벨로 한정하고, 상기 검색된 컨텐츠의 범위 내에서, 상기 한정된 디렉터리 레벨 및 레코드 레벨을 이용하여 컨텐츠를 재검색하는 단계를 포함하는 것을 특징으로 한다.In addition, the computer-readable recording medium according to an embodiment of the present invention is a computer-readable recording medium that stores a program for executing the information retrieval method, the information retrieval method is a search entity, directory, record, intention field providing information of a search window including a field; when a search word is input for each field in the search window, a directory to which a directory search word entered in the directory field belongs, and a record belonging to a record search word input in the record field Determining a level as a top level, searching for content including a search word input in the search entity field within a plurality of search categories based on the determined directory level and record level, and using the searched content Levels and record levels to lower levels, respectively And, in the range of the searched contents, using the defined directory level and a record level, it characterized in that it comprises the step of re-search content.
상기 복수의 검색 범주는 키워드, 유저, 디렉터리, 레코드, 생산자, 컨테이너, 폭소노미, 네트워크를 포함하는 것을 특징으로 한다.The plurality of search categories may include keywords, users, directories, records, producers, containers, foxsons, and networks.
본 발명의 실시예는 정보 이용자의 의도를 정확히 파악하고, 그가 입력한 검색어 키워드의 문맥을 파악해 정보 이용자의 의도와 문맥에 조응하는 정확한 정보를 제공할 수 있다. 또한 정보 이용자의 의도에 일치하는 정보 데이터만 제공할 수 있으므로, 통신망(110) 등에서의 데이터 트래픽을 줄일 수 있을 것이다.The embodiment of the present invention can accurately grasp the intention of the information user, grasp the context of the keyword keyword entered by him, and provide accurate information corresponding to the intention and context of the information user. In addition, since only information data corresponding to the intention of the information user can be provided, data traffic in the communication network 110 or the like may be reduced.
또한 본 발명의 실시예는 데이터 저장을 획기적으로 줄일 수 있다. 기존 검색 엔진의 데이터 센터에서 야기하는 엄청난 전력 절감이라는 효과를 갖는다. 현재 전세계적으로 에너지 과다 소비와 이산화탄소 배출의 주요 산업 단위가 IT 가운데 데이터 센터가 차지하고 있다. 특히 기존의 키워드 검색엔진은 단어 분석을 위해 웹 페이지 본문을 여러 차례 분류하고 세분화하여 재분류하다 보니 하나의 웹 페이지를 수십 번 복사 저장하게 된다. 이런 데이터를 색인 및 저장하고 서비스하다 보니 전기량은 급증하고 데이터량이 급증하는 만큼 컴퓨터 기기를 더 필요로 하여 전기 에너지는 늘어나게 되는데, 본 발명의 실시예에 따르면 정보 자료 저장 관리를 혁신적으로 줄일 수 있고, 검색 엔진뿐 아니라 웹 서비스 산업 업계의 핵심 화두가 되는 탄소 배출량을 혁신적으로 줄일 수 있을 것이다.In addition, embodiments of the present invention can significantly reduce data storage. The huge power savings that come from the data centers of traditional search engines. Today, data centers represent the world's leading industrial unit of energy consumption and CO2 emissions. In particular, the existing keyword search engine classifies, subdivides, and reclassifies the web page body several times for word analysis. Thus, a single web page is copied and stored several times. Indexing, storing, and servicing such data increases the amount of electricity and requires more computer equipment as the amount of data increases, and according to the embodiment of the present invention, information data storage management can be innovatively reduced. In addition to search engines, the company will be able to radically reduce carbon emissions, which is a key topic in the web services industry.
도 1은 본 발명의 실시예에 따른 정보검색시스템의 구조를 나타내는 도면,1 is a view showing the structure of an information retrieval system according to an embodiment of the present invention;
도 2는 도 1의 정보검색장치의 기능을 간략하게 나타낸 흐름도,2 is a flow chart briefly showing the function of the information retrieval apparatus of FIG.
도 3은 웹 세계 주체와 웹 세계 범주를 도식화하여 나타낸 도면,3 is a diagram schematically illustrating a web world subject and a web world category,
도 4는 범주 배열과 상호 의존성을 도식화하여 나타낸 도면,4 is a diagram illustrating a category arrangement and interdependencies;
도 5는 검색엔진 검색 단계별 범주 배열을 나타내는 도면,5 is a diagram illustrating a category arrangement for each search engine search;
도 6은 검색 창에서 검색어 필드를 구분하여 나타낸 도면,6 is a diagram showing search term fields separated from a search window;
도 7은 도 1의 정보검색장치의 구조를 나타내는 블록다이어그램,7 is a block diagram showing the structure of the information retrieval apparatus of FIG.
도 8은 메인 페이지의 HTML 소스 코드를 예시하여 나타낸 도면, 8 is a diagram illustrating an HTML source code of a main page;
도 9는 도 7의 색인 처리부의 색인 정렬을 설명하기 위한 도면, 그리고9 is a view for explaining index alignment of the index processing unit of FIG. 7, and
도 10은 본 발명의 실시예에 따른 정보검색방법을 나타내는 흐름도이다.10 is a flowchart illustrating an information retrieval method according to an embodiment of the present invention.
--
이하, 도면을 참조하여 본 발명의 실시예에 대하여 상세히 설명한다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.
도 1은 본 발명의 실시예에 따른 정보검색시스템의 구조를 나타내는 도면이고, 도 2는 도 1의 정보검색장치의 기능을 간략하게 나타낸 흐름도이며, 도 3은 웹 세계 주체와 웹 세계 범주를 도식화하여 나타낸 도면이다. 또한 도 4는 범주 배열과 상호 의존성을 도식화하여 나타낸 도면이고, 도 5는 검색엔진 검색 단계별 범주 배열을 나타내는 도면이며, 도 6은 검색 창에서 검색어 필드를 구분하여 나타낸 도면이다.1 is a diagram showing the structure of an information retrieval system according to an embodiment of the present invention, FIG. 2 is a flow chart briefly showing the functions of the information retrieval apparatus of FIG. 1, and FIG. 3 is a diagram illustrating a web world subject and a web world category. The figure shown. FIG. 4 is a diagram illustrating a category arrangement and interdependencies, FIG. 5 is a diagram illustrating a category arrangement for each search engine search, and FIG. 6 is a diagram showing search term fields separately in a search window.
도 1에 도시된 바와 같이, 본 발명의 실시예에 따른 정보검색시스템은 단말장치(100), 통신망(110), 웹서버(120_1, 120_2)) 및 정보검색장치(130)의 일부 또는 전부를 포함한다. 발명의 충분한 이해를 돕기 위하여 전부 포함하는 것으로 설명한다.As shown in FIG. 1, an information retrieval system according to an exemplary embodiment of the present invention may partially or entirely include a terminal device 100, a communication network 110, web servers 120_1 and 120_2) and an information retrieval device 130. Include. In order to fully understand the invention, it will be described as including all.
여기서 사용자 단말장치(100)는 다양한 유무선 환경에 적용할 수 있으며 단말기 형태별로 구분되는 PDA(Personal Digital Assistant), 셀룰러폰, 스마트폰 등과, 통신 방식별로 구분되는 PCS(Personal Communication Service)폰, GSM(Global System for Mobile)폰, W-CDMA(Wideband CDMA)폰, CDMA-2000폰, MBS(Mobile Broadband System)폰 등을 모두 포함한다. 여기서 MBS폰은 현재 논의되고 있는 차세대 시스템에서 사용될 단말기를 나타낸다. 더 나아가, 본 발명의 실시예에 따른 사용자 단말장치(100)는 데스크탑 컴퓨터, 랩탑 컴퓨터 등을 더 포함할 수 있다.Here, the user terminal device 100 may be applied to various wired / wireless environments, and may include a personal digital assistant (PDA), a cellular phone, a smart phone, and the like, and a PCS (Personal Communication Service) phone, GSM ( This includes all Global System for Mobile (WD) phones, wideband CDMA (W-CDMA) phones, CDMA-2000 phones, and Mobile Broadband System (MBS) phones. Here MBS phone represents a terminal to be used in the next generation system currently being discussed. Furthermore, the user terminal device 100 according to the embodiment of the present invention may further include a desktop computer, a laptop computer, and the like.
사용자 단말장치(100)는 무선통신 모듈, 무선랜 모듈을 포함하며, GPS 모듈을 더 포함할 수 있다. 무선통신 모듈을 구비함에 따라 사용자 단말장치(100)는 유무선통신망에 접속하여 상대방과 통상적인 음성 통화 및 데이터 통신을 수행한다. 또한 사용자 단말장치(100)는 무선랜 모듈을 구비함에 따라 주변에 인식되는 액세스포인트(AP)를 경유해 통신망(110)에 접속하여 각종 웹 페이지 데이터를 수신할 수 있다. 더 나아가, 사용자 단말장치(100)는 GPS 모듈의 구비 여부에 따라 GPS 단말기 및 비GPS 단말기로 구분될 수 있으며, GPS 모듈을 구비하는 경우 GPS 위성을 통해 제공되는 데이터를 수신한다.The user terminal device 100 may include a wireless communication module and a wireless LAN module, and further include a GPS module. As a wireless communication module is provided, the user terminal device 100 accesses a wired / wireless communication network to perform normal voice call and data communication with the other party. In addition, since the user terminal device 100 includes a wireless LAN module, the user terminal device 100 may receive various web page data by accessing the communication network 110 through an access point (AP) recognized in the vicinity. Furthermore, the user terminal device 100 may be classified into a GPS terminal and a non-GPS terminal according to whether a GPS module is provided. When the user terminal device is provided with a GPS module, the user terminal 100 receives data provided through a GPS satellite.
사용자 단말장치(100)는 인터넷 접속 프로토콜인 무선 애플리케이션(WAP: Wireless Application Protocol), HTTP 프로토콜을 사용하는 HTML에 기반한 MIE(Microsoft Internet Explorer), 핸드헬드 디바이스 트랜스포트 프로토콜(HDPT: Handheld Device Transport Protocol), NTT DoKoMo사의 i-Mode 또는 특정 통신사의 무선 인터넷 접속용 브라우저를 이용해 통신망(110)을 경유하여 인터넷에 접속한다. 사용자 단말장치(100)에서 사용하는 인터넷 접속 프로토콜 중에서, MIE는 HTML을 약간 변형시켜 축약하는 m-HTML을 사용하고, i-Mode의 경우에는 HTML의 서브세트인 콤팩트 HTML(c-HTML)이라는 언어를 사용한다.The user terminal device 100 may include a wireless application protocol (WAP), an Internet access protocol, a Microsoft Internet Explorer (MIE) based on HTML using an HTTP protocol, and a handheld device transport protocol (HDPT). To connect to the Internet via the communication network 110, using NTT DoKoMo's i-Mode or a specific communication company's wireless Internet browser. Among the Internet access protocols used by the user terminal device 100, MIE uses m-HTML, which is shortened by slightly modifying HTML, and in the case of i-Mode, a language called compact HTML (c-HTML), which is a subset of HTML. Use
최근의 스마트폰과 같은 사용자 단말장치(100)는 더욱 빠른 무선 인터넷을 제공하기 위하여 아이폰용인 오페라미니(Opera Mini)와 같은 특정 통신사의 무선 인터넷 접속용 브라우저를 사용하거나, 이와 연계해 사용자 단말장치(100)에 근거리 통신망인 와이파이 및 와이브로(WiBro) 등도 함께 사용하여 무선 초고속 인터넷을 제공하고 있다.Recently, a user terminal device 100 such as a smart phone 100 uses a browser for a wireless Internet access of a specific telecommunication company such as Opera Mini for the iPhone to provide a faster wireless Internet, or in conjunction with the user terminal device ( 100) also uses Wi-Fi and WiBro, which are local area networks, to provide wireless high-speed Internet.
통신망(110)은 유무선 통신망을 모두 포함한다. 여기서 유선망은 케이블망이나 공중 전화망(PSTN)과 같은 인터넷망을 포함하는 것이고, 무선 통신망은 CDMA, WCDMA, GSM, EPC(Evolved Packet Core), LTE(Long Term Evolution), 와이브로 망 등을 포함하는 의미이다. 따라서 통신망(110)이 유선 통신망인 경우 근거리 통신망을 형성하는 AP는 전화국의 교환국 등에 접속할 수 있지만, 무선 통신망인 경우에는 통신사에서 운용하는 SGSN 또는 GGSN(Gateway GPRS Support Node)에 접속하여 데이터를 처리하거나, BTS(Base Station Transmission), NodeB, e-NodeB 등의 다양한 중계기에 접속하여 데이터를 처리할 수 있다.The communication network 110 includes both wired and wireless communication networks. Here, the wired network includes an internet network such as a cable network or a public telephone network (PSTN), and the wireless communication network includes a CDMA, WCDMA, GSM, Evolved Packet Core (EPC), Long Term Evolution (LTE), WiBro network, and the like. to be. Therefore, when the communication network 110 is a wired communication network, the AP forming the local area network may be connected to an exchange office of a telephone company, but in the case of a wireless communication network, the AP may be connected to an SGSN or a Gateway GPRS Support Node (GGSN) operated by a communication company to process data. Data can be processed by connecting to various repeaters such as BTS (Base Station Transmission), NodeB, and e-NodeB.
웹서버(120_1, 120_2)는 웹상에서 정보를 제공하는 모든 서버를 의미한다. 다시 말해, 네이버(Naver), 구글(Google)이나 야후(Yahoo)와 같이 정보 검색을 전문으로 하는 검색 엔진을 갖는 서버뿐 아니라, 정보 검색을 전문으로 하지 않는 일반 회사나 개인이 운영하고 있는 서버도 모두 포함하는 것이라 할 수 있다. 이때 웹서버(120_1, 120_2)는 일반적인 검색방법으로서 사용자가 키워드, 즉 검색어를 직접 입력하는 검색과 검색엔진이 제시한 몇 가지 항목들 가운데 사용자가 원하는 항목을 선택하는 방식으로 범위를 좁혀가는 카테고리 검색이 가능할 수 있다.The web servers 120_1 and 120_2 refer to all servers that provide information on the web. In other words, not only servers with search engines specialized in information retrieval, such as Naver, Google, or Yahoo, but also servers operated by general companies or individuals who do not specialize in information retrieval. It can be said to include all. In this case, the web servers 120_1 and 120_2 are a general search method, where a user searches directly by entering a keyword, that is, a search word, and a category search that narrows the scope by selecting a desired item among several items suggested by the search engine. This may be possible.
본 발명의 실시예에 따른 정보검색장치(130)는 위의 웹서버(120_1, 120_2) 대비되는 검색방법을 사용할 수 있다. 자연어 처리 방법론으로서 객체 지향 프로그래밍 이론의 원리에 기반하여 생성한 데이터를 저장하는 DB(130a)를 포함하며, 정보 검색을 위한 웹 사이트를 제공할 수 있다. 사용자 단말장치(100)가 정보검색장치(130)에 접속하면, 정보검색장치(130)는 사용자 단말장치(100)로부터 사용자가 복수의 필드에 입력한 복수의 검색 키워드를 수신하여 검색 키워드를 이용해 DB(130a)에서 사용자의 의도에 부합하는 검색을 수행할 수 있다. 그리고 검색 결과로서 사용자의 의도에 부합하는 검색 결과를 사용자 단말장치(100)에 제공한다.The information retrieval apparatus 130 according to the embodiment of the present invention may use a search method compared to the above web servers 120_1 and 120_2. Natural language processing methodology includes a DB (130a) for storing the data generated based on the principles of object-oriented programming theory, can provide a website for information retrieval. When the user terminal apparatus 100 accesses the information retrieval apparatus 130, the information retrieval apparatus 130 receives a plurality of search keywords input by the user in a plurality of fields from the user terminal apparatus 100 and uses the search keywords. The DB 130a may perform a search that matches the intention of the user. The search result corresponding to the user's intention as a search result is provided to the user terminal device 100.
이의 기능을 수행하기 위하여 구체적으로 본 발명의 실시예에 따른 정보검색장치(130)는 정보 데이터(혹은 웹 데이터)를 웹 사이트에서 수집하여 색인 처리하는 과정, 정보 이용자가 검색창에 입력한 검색어를 수신하는 과정, 검색어를 분석하여 색인으로부터 필요한 정보를 찾아내는 과정 등을 수행할 수 있다. 이때 색인 처리되는 정보는 가령 키워드(K: Keyword), 유저(U: User), 디렉터리(D: Directory), 레코드(R: Record), 생산자(P: Producer), 컨테이너(C: Container), 폭소노미(F: Folksonomy), 연결망(N: Network) 등 8개의 핵심 범주들로 구성되며, 8개의 범주들 중에 검색창에서 정보 이용자가 입력하는 범주는 핵심 키워드(K)를 의미하는 실체(S), 디렉터리(D), 레코드(R), 유저(U) 범주에 속하는 의도(Intention)이며, 검색 엔진은 이들 4개의 범주 분석을 통해 정보 이용자의 의도와 검색어의 문맥을 파악하고, 이에 기반하여 나머지 4개 범주를 여타 다른 서버 정보를 활용하여 최종적으로 정보이용자 검색의 문법과, 정보이용자의 의도를 분석해 내게 된다. Specifically, the information retrieval apparatus 130 according to an embodiment of the present invention collects and indexes information data (or web data) in a web site, and searches for a search word input by an information user in a search box. Receiving, analyzing a search word to find the necessary information from the index can be performed. In this case, the indexed information may include, for example, a keyword (K), a user (U), a directory (D: Directory), a record (R: Record), a producer (P: Producer), a container (C: Container), and a folksonomi. It consists of eight key categories (F: Folksonomy) and N (Network). Among the eight categories, the category entered by the information user in the search box is the entity (S), which means the key keyword (K), Intention belongs to the directory (D), record (R), and user (U) categories, and the search engine analyzes these four categories to identify the information users' intentions and the context of the search terms. Using the other categories of server information in each category, the grammar of the information user search and the intention of the information user are finally analyzed.
여기서, 웹 데이터는 웹 세계에서 개별 URL을 지니는 웹 정보이고, 정보 이용자는 정보 즉 웹 정보를 이용하는 사람을 의미하며, 검색어 키워드는 정보 검색을 위해 검색창에서 입력하는 검색어로서 검색창은 일정한 문법을 지닌 필드로 영역이 나누어진다. 또한 웹 페이지 디렉터리는 웹 세계에서 정보 분류(taxonnomy)로서 정보의 계통과 종속을 특정 기준으로 나누어 분류하는 것을 나타내고, 웹 페이지 레코드는 해당 웹 페이지의 데이터 구조를 나타내는 것이며, 웹 페이지 생산자는 웹 세계에서 고유의 URL을 가지는 웹 페이지를 생산한 사람 또는 단체를 의미한다. 나아가 컨테이너는 웹 세계에서 웹 페이지가 소속된 웹 사이트를 의미하고, 폭소노미는 웹 세계에서 정보 이용자인 대중들의 무작위적인 웹 활동 결과에서 도출되는 웹 대중에 의해 만들어지는 웹 문법을 의미하며, 연결망은 웹 세계에서 웹 구성 노드들의 상호 연결 구조를 의미한다.Here, the web data is web information having individual URLs in the web world, the information user means information, that is, a person using the web information, and the search term keyword is a search word input in a search box to search for information. The field is divided into fields with each other. In addition, the web page directory is a taxonnomy category in the web world, which classifies and categorizes information lines and subordinates into specific criteria. The web page record represents the data structure of the web page. The person or organization that produced the web page with a unique URL. In addition, the container means the web site to which the web page belongs in the web world, the foxsonomi means the web grammar created by the web public resulting from the random web activities of the public who are information users in the web world. It refers to the interconnect structure of web configuration nodes in the world.
본 발명의 실시예에 따른 정보검색장치(130)는 범주의 상호 규정성을 통해 해당 정보 사물과 정보 이용자 검색어의 의도와 문맥을 분석하게 된다. 예를 들어, 검색어 분석에서 정보 이용자가 검색창에 4개의 범주에 해당하는 검색어를 입력하면, 검색 엔진에 의해 실체는 디렉터리로부터 규정받고 레코드는 의도로부터 규정받는 알고리즘을 구현하여 검색어의 의도와 문맥을 분석할 수 있을 것이다. 가령, 검색창에서, 실체는 '오월의 노래', 디렉터리는 '동안미녀', 레코드는 '장나라'가 입력되었다면, '오월의 노래'를 듣기 원하는데, 오월의 노래 분석은 '오월의 노래'와 디렉터리 '동안미녀'의 규정을 받고, 디렉터리 '동안미녀'는 레코드 '장나라'에 규정을 받는다. 레코드 '장나라'는 의도 '듣기'의 규정을 받는다. 또한 '오월의 노래' 검색어는 역으로 의도 '듣기', 레코드 '장나라', 디렉터리 '동안 미녀'의 순서(혹은 순차)대로 규정을 받아 '오월의 노래'를 규정하는 것이다. 여기서 규정은 범위를 더 한정(혹은 구체화)하여 상호 연계함을 의미할 수 있다.The information retrieval apparatus 130 according to the embodiment of the present invention analyzes the intention and the context of the corresponding information thing and the information user search word through mutual definition of categories. For example, in a search term analysis, when an information user enters a search term corresponding to four categories in the search box, the search engine implements an algorithm in which an entity is defined from a directory and a record is defined from an intention, thereby resolving the intention and context of the search term. You can analyze it. For example, in the search box, if the substance is 'song of may', the directory 'during beauty', and the record is 'jangnara', you want to listen to 'song of may'. The directory 'Beauty Beauty' is regulated and the directory 'Beauty Beauty' is regulated in the record 'Jang Na'. The record 'jangnara' is defined by the intention 'listening'. Also, the term 'song of may' is to define 'song of may' in reverse order of intention 'listening', record 'jangnara' and directory 'during beauty' (or sequential). In this context, the regulation may mean that the scope is further defined (or specified) and interconnected.
이와 같이 본 발명에서 각 범주는 종속 과정 광목계의 최상위층 속성에서부터, 최하위 속성, 즉 심급으로 구성된다. 예를 들어 디렉터리(범주)에서 '동안미녀'는 [문화 ∥ 연예 ∥ 방송 ∥ 드라마 ∥ 한국 드라마 ∥ KBS2 ∥ 2011년 드라마 ∥ 월화드라마]라는 디렉터리 체계 순서를 가질 수 있다. 그렇기 때문에 본 발명의 실시예에 따른 검색 엔진에서 특정 정보 데이터나 특정 검색 이용자의 검색어의 의도와 문맥 분석을 위한 8개 범주를 분석하는 알고리즘은 이들 8개의 범주들의 하부 속성의 분석을 통해 최종적으로 의도와 문맥의 분석 값을 얻을 때까지 반복 작동하는 필터링의 단계를 거친다. 이런 알고리즘의 반복 필터링은 한 범주는 다른 범주의 값을 자신에 비교함으로써 자신의 값을 더욱 구체화하는 것이다. 이는 앞서 설명한 상호 규정성에 근거하는 것이다.Thus, in the present invention, each category is composed of the uppermost attribute of the dependent process tree system, the lowest attribute, that is, the depth. For example, in the directory (category), 'Beauty Beauty' can have a directory system order of [Culture 〈Entertainment 』Broadcast 〈Drama』 Korean Drama ― KBS2 』2011 Drama ~ Mon Tue Drama】. Therefore, in the search engine according to an embodiment of the present invention, an algorithm for analyzing eight categories for analyzing the intention and context of specific information data or search term of a specific search user is finally intended through analysis of sub-attributes of these eight categories. Iteratively goes through the filtering steps until we get the analytic value of the context. Iterative filtering of this algorithm is that one category further refines its value by comparing the values of the other category to itself. This is based on the mutual regulation described above.
좀더 구체적으로 살펴보면, 먼저 정보검색장치(130)는 사용자의 의도에 부합하는 검색을 수행하기 위하여 먼저 객체지향 이론과 온톨로지 이론의 이론적 원리에 기초하여 새로운 검색 엔진을 구축한다. 여기서, 온톨로지(Ontology)란 웹 정보와 관련된 주체들이 웹 소통 가운데 웹 세계에 대해 서로 간의 토론을 통하여 합의를 이룬 바를 개념적이고 컴퓨터가 이해할 수 있는 개념의 타입이나 사용상의 제약조건들을 명시적으로 정의한 기술을 의미한다. 즉 검색 활동의 각 주체들의 웹 활동에서 모든 주체들에 공통으로 적용할 수 있는 명시적이면서 컴퓨터, 가령 검색 엔진이 이해할 수 있는 범주들의 논리적 집합을 나타낸다. 이에 따라 본 발명의 실시예에서는 도 2 및 도 3에서와 같이 웹 검색 주체로 웹 데이터와 같은 정보 사물을 중심으로 정보 이용자, 검색 엔진, 정보 생산자 및 정보 소통 결과물 등의 주체를 설정하고 웹 검색 과정에서 이들 주체 간에 합의되고 컴퓨터가 이해할 수 있도록 한다. 또한 객체 지향은 웹 세계의 주체들의 웹 활동을 근본으로 규정하는 범주들을 도출하고, 이들 범주들을 객체지향 이론에 따라 객체화하여 자기 속성과 행위, 그리고 타 범주 객체와 인터페이스를 통해 해당 범주의 변수 값을 도출하고, 이런 제반 범주들의 변수 값의 종합이 해당 웹 데이터의 정체성(Identifier)이라는 변수 값, 즉 그 정보 데이터의 ID가 되도록 하는 것이다.In more detail, first, the information retrieval apparatus 130 first constructs a new search engine based on the theoretical principles of the object-oriented theory and the ontology theory in order to perform a search corresponding to the user's intention. Ontology is a technology that explicitly defines the types of concepts and constraints on use that are conceptual and computer understandable that subjects related to web information have reached consensus through discussions about the web world in web communication. Means. In other words, it represents a logical set of categories that are explicit and can be understood by computers, such as search engines, that can be applied to all subjects in the web activities of each subject of search activity. Accordingly, in the embodiment of the present invention, as shown in Figs. 2 and 3, as a web search subject, an information user, a search engine, an information producer, and an information communication result are set around the information objects such as web data, and the web search process is performed. Is agreed between these subjects and is understood by the computer. In addition, object-orientation derives the categories that define the web activities of the subjects of the web world based on the object-oriented theories, and uses the object-oriented theory to object the properties and behaviors and other category objects and interfaces. The sum of the variable values of these various categories is the variable value of the identifier of the web data, that is, the ID of the information data.
좀더 구체적으로, 객체 지향은 도 2 내지 도 5에 도시된 바와 같이, 객체 지향 이론에 따라 범주들을 객체로 설정하고, 객체는 속성과 메시지를 지니며 속성을 변수로 표현하고 변수 값을 도출해 내어 해당 객체의 과제인 데이터를 처리한다. 이들 각기 범주 객체는 여타 다른 범주 객체의 값을 참조하여 자신의 변수 값을 도출하고, 그 값을 다른 객체에 상속시켜 준다. 또한 각 객체는 자신의 좀더 세밀한 속성을 지니는 하부 객체를 생성하여 상부 객체를 상속받게 하여 범주를 세분화해 세부 과제 데이터를 처리하게 한다.More specifically, object orientation sets categories as objects according to object orientation theory, as shown in FIGS. 2 to 5, and objects have attributes and messages, represent attributes as variables, derive variable values Process the data that is the object of the object. Each of these category objects refers to the values of other category objects to derive their variable values and to inherit those values from other objects. In addition, each object creates sub-objects with its own more detailed attributes, inheriting the top-level objects, and subdividing the categories to process detailed task data.
본 발명의 실시예에 따른 정보검색장치(130)의 검색 엔진은 검색의 제반 단계에서 해당 웹 페이지에 대해 범주들의 변수 값을 도출하고, 이들 범주들의 변수값을 종합하여 그 단계에서 해당 웹 페이지의 정체성을 추출해 낸다. 이런 종합 단계에서 해당 웹 페이지에 대한 종합 판단은 어느 특정 범주의 변수 값은 자신의 속성에 기반한 변수 값 외에 여타 변수의 범주 값들에 의해 상호(cross) 규정을 받는 것이다. 예를 들어, '박주영'이라는 검색어 범주는 디렉터리 범주에서 축구선수에 의해 규정을 받고 축구선수 이외의 박주영은 배제한다. 이런 범주 상호 규정성에 기반한 범주들의 변수 값들을 종합하여 판단한 종합 판단이 이루어지게 된다.The search engine of the information retrieval apparatus 130 according to the embodiment of the present invention derives the variable values of the categories for the corresponding web page in the various stages of the search, and combines the variable values of these categories in the stage of the search. Extract identity. In this synthesis step, the overall judgment for the web page is that the values of a certain category's variables are cross-qualified by the category values of other variables in addition to those based on their attributes. For example, the search term category 'Park Joo-young' is defined by the soccer player in the directory category and excludes Park Joo-young except the soccer player. A comprehensive judgment is made by combining the variable values of the categories based on this category cross-regulation.
정리하면, 본 발명의 실시예에 따른 정보검색장치(130)는 온톨로지 이론과 객체 지향 이론에 기반한 새로운 유형의 검색 엔진을 구축하기 위하여 기술적 과제를 설정하게 되는데, 그 기술적 과제와 해결책은 다음과 같다. 본 발명의 실시예는 1) 검색 세계에서 웹 주체들의 웹 소통에는 각 주체들의 웹 활동을 공통으로 규정하는 일정한 범주들이 있다는 근거하에 이들 범주에 웹 소통을 위한 일련의 문법을 부여하고, 이들 문법을 가령 컴퓨터라는 검색 엔진이 이해할 수 있는 규칙을 만든다. 2) 웹 세계 소통 과정을 존립시키는 웹 주체로 정보 웹 데이터, 정보 생산자, 정보 이용자, 검색 엔진 플랫폼, 정보 소통 무작위 법칙인 정보 연결망 및 그 외의 주체들을 설정한다. 3) 웹 세계에서 웹 소통 주체들의 웹 활동에 공통으로 적용되는 범주를 도출하여 여기에 그 범주 문법을 부여하게 된다. 이들 범주들로는 검색 키워드, 정보 이용자, 정보사물 디렉터리, 정보 사물 레코드, 생산자, 해당 웹 사이트, 검색 소통 대중 인기도를 의미하는 폭소노미, 정보 소통 결과물인 정보 연결망 및 그 외의 범주 등이 해당된다. 본 발명의 실시예는 검색 엔진을 위한 제반의 범주들을 설정하여 이들 범주들을 객체로 설정하고, 이들 각 객체에는 그 객체들 고유의 속성(Attribute)과 행위(Behavior)를 부여한다. 또한 이들 개별 객체들은 타 객체들의 변수 값을 참조하여 자신의 변수 값을 구하는 범주 상호 의존성과 규정성에 대해 문법을 부여한다. 이를 통해 해당 웹 데이터의 자기 정체성에 대한 변수 값을 도출한다. 4) 웹 크롤링 과정, 색인 과정, 정보이용자의 검색어 키워드 입력 과정, 이들 키워드 분석을 통해 해당 웹 정보를 검색해 정보 이용자에게 제공하는 검색 서버 과정 등은 위의 범주 문법에 기반하여 자기 정체성이라는 변수 값을 도출한다. 여기서 검색이라 함은 각 웹 주체들의 이런 자기 정체성의 변수 값의 일치성을 찾는 작업이 된다. 즉 정보 사물의 문맥 및 의도와 정보 이용자 키워드의 문맥 및 의도의 일치점을 연결하는 검색 알고리즘 기법이 될 수 있는 것이다.In summary, the information retrieval apparatus 130 according to the embodiment of the present invention sets up a technical task to construct a new type of search engine based on the ontology theory and the object-oriented theory. The technical problems and solutions are as follows. . The embodiment of the present invention provides a series of grammars for web communication on the basis of the fact that 1) web communication of web subjects in the search world has certain categories that define the web activity of each subject in common, For example, create rules that search engines can understand. 2) It establishes information web data, information producer, information user, search engine platform, information network, which is a random law of information communication, and other subjects as a web subject that maintains the web world communication process. 3) In the web world, the categories commonly applied to the web activities of the web communication subjects are derived and the category grammar is given to them. These categories include search keywords, information users, directory of information objects, information objects records, producers, relevant web sites, folksonomy for search popularity, information networks for information communication, and other categories. An embodiment of the present invention sets various categories for a search engine and sets these categories as objects, and gives each of these objects its own attributes and behaviors. In addition, these individual objects refer to the variable values of other objects and give a grammar to the category interdependencies and qualities that obtain their own variable values. Through this, we derive variable values for the self-identity of the web data. 4) The web crawling process, indexing process, information user's keyword keyword input process, and the search server process that searches the web information and provides the information user through the analysis of these keywords are based on the grammar of the above category. To derive. In this case, the search refers to the matching of the variable values of these self-identities of each web subject. That is, it can be a search algorithm technique that connects the context and intention of the information thing with the context and intention of the information user keyword.
상기와 같이 본 발명의 실시예에 따른 정보검색장치(130)는 웹 세계 주체들의 웹 활동 아래 농축된 일정한 문법성을 찾아 모든 웹 주체들이 공유할 수 있는 범주 문법을 만들고, 이들 범주 함수를 통해 정보 이용자의 의도와 그의 키워드의 문맥을 정보 사물, 즉 웹 페이지와 그 생산자의 의도와 문맥을 맵핑시키는 검색 기법을 수행하게 되는 것이다. 이를 위하여 정보검색장치(130)는 정보 데이터를 색인하는 작업과 정보 이용자의 검색어 문법에서 동일한 범주들을 부여하고, 그 범주 값을 도출한다. 정보 데이터와 정보 검색어의 변수 값 즉 정체성이 일치하는 것들을 맵핑하게 되면 정보 데이터에 내재하는 정보 생산자의 의도와 검색어에 내재하는 의도와 문맥의 파악에서 같은 의도와 문맥을 맵핑하게 되는 것이다.As described above, the information retrieval apparatus 130 according to the embodiment of the present invention finds a certain grammaticality concentrated under the web activity of the web world subjects, creates a category grammar that can be shared by all web subjects, and provides information through these category functions. A search technique is performed that maps the context of the user's intentions and their keywords to information objects, that is, web pages and their producers. To this end, the information retrieval apparatus 130 assigns the same categories in the indexing operation of the information data and the search word grammar of the information user, and derives the category values. Mapping the variable values of the information data and the information search term, that is, identity, maps the same intention and context in identifying the intention of the information producer inherent in the information data and the intention and context inherent in the search word.
이의 과정에서 정보검색장치(130)는 사용자 단말장치(100)로부터 가령 요청이 있는 경우, 도 6에서와 같이, 4개의 필드로 구분되는 검색창 또는 검색창에 대한 정보를 제공하고, 사용자가 검색창의 필드별로 입력한 4개 범주에 해당되는 검색어를 수신하여, 수신한 4개 범주의 검색어를 이용해 8개의 범주로 구축된 데이터를 검색하며, 검색 결과를 다시 사용자 단말장치(100)로 제공해 주게 된다.In this process, the information retrieval apparatus 130, for example, when there is a request from the user terminal apparatus 100, provides information about a search box or a search box divided into four fields, as shown in FIG. Receives the search terms corresponding to the four categories entered for each field of the window, searches the data constructed in the eight categories using the received four search terms, and provides the search results back to the user terminal device 100. .
상기의 구성 결과, 본 발명의 실시예는 정보 이용자의 의도를 정확히 파악하고, 그가 입력한 검색어 키워드의 문맥을 파악해 정보 이용자의 의도와 문맥에 조응하는 정확한 정보를 제공할 수 있다. 또한 정보 이용자의 의도에 일치하는 정보 데이터만 제공할 수 있으므로, 통신망(110) 등에서의 데이터 트래픽을 줄일 수 있을 것이다.As a result of the above configuration, an embodiment of the present invention can accurately grasp the intention of the information user, grasp the context of the keyword keyword entered by him, and provide accurate information corresponding to the intention and context of the information user. In addition, since only information data corresponding to the intention of the information user can be provided, data traffic in the communication network 110 or the like may be reduced.
또한 본 발명의 실시예는 데이터 저장을 획기적으로 줄일 수 있다. 기존 검색 엔진의 데이터 센터에서 야기하는 엄청난 전력 절감이라는 효과를 갖는다. 현재 전세계적으로 에너지 과다 소비와 이산화탄소 배출의 주요 산업 단위가 IT 가운데 데이터 센터가 차지하고 있다. 특히 기존의 키워드 검색엔진은 단어 분석을 위해 웹 페이지 본문을 여러 차례 분류하고 세분화하여 재분류하다 보니 하나의 웹 페이지를 수십 번 복사 저장하게 된다. 이런 데이터를 색인 및 저장하고 서비스하다 보니 전기량은 급증하고 데이터량이 급증하는 만큼 컴퓨터 기기를 더 필요로 하여 전기 에너지는 늘어나게 되는데, 본 발명의 실시예에 따르면 정보 자료 저장 관리를 혁신적으로 줄일 수 있고, 검색 엔진뿐 아니라 웹 서비스 산업 업계의 핵심 화두가 되는 탄소 배출량을 혁신적으로 줄일 수 있을 것이다.In addition, embodiments of the present invention can significantly reduce data storage. The huge power savings that come from the data centers of traditional search engines. Today, data centers represent the world's leading industrial unit of energy consumption and CO2 emissions. In particular, the existing keyword search engine classifies, subdivides, and reclassifies the web page body several times for word analysis. Thus, a single web page is copied and stored several times. Indexing, storing, and servicing such data increases the amount of electricity and requires more computer equipment as the amount of data increases, and according to the embodiment of the present invention, information data storage management can be innovatively reduced. In addition to search engines, the company will be able to radically reduce carbon emissions, which is a key topic in the web services industry.
도 7은 도 1의 정보검색장치의 구조를 나타내는 블록다이어그램이고, 도 8은 메인 페이지의 HTML 소스 코드를 예시하여 나타낸 도면이며, 도 9는 도 7의 색인 처리부의 색인 정렬을 설명하기 위한 도면이다.FIG. 7 is a block diagram showing the structure of the information retrieval apparatus of FIG. 1, FIG. 8 is a diagram illustrating HTML source code of a main page, and FIG. 9 is a diagram for explaining index alignment of the index processing unit of FIG. .
도 7을 도 1과 함께 참조하면, 본 발명의 실시예에 따른 정보검색장치(130)는 인터페이스부(700), 제어부(710), 저장부(720), 색인 처리부(730) 및 검색 엔진부(740)의 일부 또는 전부를 포함할 수 있다. 여기서 색인 처리부(730)는 검색 엔진부(740)에 포함될 수 있고, 또 검색 엔진부(740)의 역할은 제어부(710)가 수행할 수도 있다. 설명의 충분한 이해를 돕기 위해 전부 포함하는 것으로 설명한다.Referring to FIG. 7 together with FIG. 1, the information retrieval apparatus 130 according to the embodiment of the present invention includes an interface unit 700, a controller 710, a storage unit 720, an index processing unit 730, and a search engine unit. It can include some or all of 740. The index processing unit 730 may be included in the search engine unit 740, and the control unit 710 may perform the role of the search engine unit 740. All descriptions are included for the purpose of understanding the description.
여기서, 인터페이스부(700)는 가령 통신모듈을 포함할 수 있다. 가령 통신모듈을 통해 인터페이스부(700)는 검색 실체, 디렉터리, 레코드, 의도 필드를 포함하는 검색 창 또는 그 정보를 사용자 단말장치(100)의 요청시 제어부(710)의 제어 하에 제공할 수 있다. 이의 과정에서 인터페이스부(700)는 정보 변환 등의 과정을 추가로 수행할 수 있을 것이다.Here, the interface unit 700 may include, for example, a communication module. For example, the interface unit 700 may provide a search window including a search entity, a directory, a record, an intention field, or information thereof under the control of the controller 710 upon request of the user terminal device 100 through a communication module. In this process, the interface unit 700 may additionally perform a process such as information conversion.
제어부(710)는 정보검색장치(130) 내의 인터페이스부(700), 저장부(720), 색인 처리부(730) 및 검색 엔진부(740)의 전반적인 제어를 담당한다. 예를 들어, 제어부(710)는 검색 엔진부(740)에 의해 구현된 검색 창에 대한 정보를 인터페이스부(700)를 통해 제공하도록 제어하고, 처리된 정보는 저장부(720)에 일시적으로 저장하거나, 색인 처리부(730)에서 처리되는 구축 관련 정보는 도 1의 DB(130a)에 저장할 수 있을 것이다.The controller 710 is responsible for the overall control of the interface unit 700, the storage unit 720, the index processing unit 730, and the search engine unit 740 in the information retrieval apparatus 130. For example, the controller 710 controls to provide the information about the search window implemented by the search engine 740 through the interface 700, and temporarily stores the processed information in the storage 720. Alternatively, the construction related information processed by the index processing unit 730 may be stored in the DB 130a of FIG. 1.
저장부(720)는 도 1의 DB(130a)를 포함할 수 있다. 그러나 DB(130a)와 별개로 제어부(710)에 의해 처리되는 정보를 일시 저장하는 RAM와 같은 메모리를 의미할 수도 있다. 예를 들어, 본 발명의 실시예에 따라 색인 처리부(730)를 통해 처리되는 데이터는 도 1의 DB(130a)에 구축될 수 있을 것이다. 이의 경우라면 메모리로서의 저장부(720)는 제어부(710)의 제어 하에 처리되는 정보를 일시 저장하는 역할을 수행할 수 있다. 만약 정보검색장치(130)가 별도의 DB(130a)를 구비하지 않는 경우에는 저장부(720)가 DB(130a)의 역할을 함께 수행할 수 있다. 또한 저장부(720)는, DB(130a)도 마찬가지지만, 본 발명의 실시예에 따라 색인 처리부(730)와의 연계 하에 가령 8개의 핵심 범주로 분류되는 데이터를 상호 규정성에 기반하여 저장(혹은 구축)한다. 여기서, 핵심 범주로는 키워드(K), 유저(U), 디렉터리(D), 레코드(R), 생산자(P), 컨테이터(C), 폭소노미(F) 및 연결망(N)이 속한다. 이와 같은 범주에 따라 상호 규정성에 기반하여 저장부(720)에 구축된 데이터는 검색 엔진부(740)가 가동될 때 제어부(710)의 제어 하에 검색된 결과로서 제공된다.The storage unit 720 may include the DB 130a of FIG. 1. However, it may also mean a memory such as RAM that temporarily stores information processed by the controller 710 separately from the DB 130a. For example, data processed through the index processing unit 730 may be constructed in the DB 130a of FIG. 1. In this case, the storage unit 720 as a memory may temporarily store information processed under the control of the controller 710. If the information retrieval apparatus 130 does not have a separate DB 130a, the storage unit 720 may serve as the DB 130a. The storage unit 720 also stores (or builds up) data that is classified into, for example, eight core categories in association with the index processing unit 730 based on mutual regulation in accordance with the DB 130a. )do. Here, the key categories include keywords (K), users (U), directories (D), records (R), producers (P), containers (C), foxsons (F), and networks (N). According to such a category, the data constructed in the storage unit 720 based on mutual regulation is provided as a result of being searched under the control of the controller 710 when the search engine unit 740 is operated.
색인 처리부(730)는 본 발명의 실시예에 따른 검색 범주들에 기반한 객체 지향 문법을 형성하여 데이터를 구축하는 과정을 수행할 수 있는데, 이를 위하여 별도의 알고리즘을 구현할 수 있을 것이다. 예컨대, 데이터 구축을 위하여 색인 처리부(730)는 정보 데이터의 수집 과정인 크롤링(crawling)을 수행하고, 수집된 데이터를 분류하는 색인(index) 과정을 수행하여 분류된 정보 데이터는 저장부(720) 또는 도 1의 DB(130a)에 저장하는 과정을 수행할 수 있다.The index processor 730 may perform a process of constructing data by forming an object-oriented grammar based on search categories according to an embodiment of the present invention, and a separate algorithm may be implemented for this purpose. For example, in order to construct data, the index processing unit 730 performs crawling, which is a process of collecting information data, and performs the indexing process to classify the collected data, and the classified information data is stored in the storage unit 720. Alternatively, the process may be performed in the DB 130a of FIG. 1.
여기서 크롤링은 정보 데이터의 색인 처리를 위해서 필요한 정보들을 기계적으로 특정 웹 사이트나 정보 저장 서버를 방문하여 웹 정보들을 얻는 과정이다. 본 발명의 실시예에 따라 웹 페이지 정보 수집은 웹 크롤러를 통해 특정 웹 사이트의 특정 웹 페이지 정보 수집에 그치는 것이 아니라 웹 세계 주체들의 정보 소통 관계에 내재하는 제반 범주를 추출해 낼 수 있는 웹 정보를 수집하는 것이다. 예컨대, 정보검색장치(130)는 URL 서버의 지시 체계 아래서 웹 크롤러가 정보를 수집해 나가는데, URL 서버는 이들 범주들을 도출해 낼 수 있는 웹 정보를 수집할 것을 웹 크롤러에게 해당 개별 과제를 지시하며, 수집된 그 정보로부터 범주에 기반한 정보 분석은 색인 과정의 과제가 된다. 웹 크롤링에서 정보 수집의 대상은 해당 웹 데이터 본문, 해당 웹 데이터 HTML 소스 코드, 웹 데이터 관련 정보 생산자 정보, 웹 데이터가 담긴 메인 웹 사이트 HTML 소스코드 정보 등이 될 수 있다.In this case, crawling is a process of mechanically visiting a specific web site or information storage server and obtaining web information necessary for indexing of information data. According to an embodiment of the present invention, web page information collection is not limited to collecting specific web page information of a specific web site through a web crawler, but collecting web information that can extract various categories inherent in the information communication relations of web world subjects. It is. For example, the information retrieval apparatus 130 collects the information by the web crawler under the instruction system of the URL server. The URL server instructs the web crawler to collect the web information which can derive these categories, and instructs the web crawler to perform the respective task. Analysis of information based on categories from the collected information becomes a challenge in the indexing process. Information gathering in web crawling may include the web data body, the web data HTML source code, web data related information producer information, and main web site HTML source code information including web data.
여기서, 웹 정보의 소스 코드는 도 8에서와 같이, 해당 웹 정보를 인터넷을 통해 컴퓨터 화면에 보이도록 하는 HTML 언어로서 인터넷 화면 "보기" 메뉴의 "원본"을 클릭하면 나오는 화면을 의미한다. 해당 웹 정보의 주체 정보 생산자, URL 주소, 화면 배치, 링크 정보 등을 담는 해당 웹 페이지에 대한 구조적 정보를 담는 기능을 지닌다. 정보 생산자 정보는 앞서 언급한 웹 소스 코드에서 찾을 수 있고, 웹 사이트 정보는 "그 웹 데이터가 담긴 웹 사이트의 메인 웹사이트 HTML 소스 코드"를 의미한다.Here, the source code of the web information is an HTML language that allows the web information to be displayed on a computer screen through the Internet, as shown in FIG. It has a function to contain structural information about the web page that contains the subject information producer, URL address, screen layout, and link information of the web information. The information producer information can be found in the aforementioned web source code, and the website information means "main website HTML source code of the website containing the web data".
또한 인덱서는 웹 자료 저장소에 보관된 웹 자료를 가져와 이 자료의 데이터 구조 분석을 통해 색인 처리한다. 여기서, 데이터 구조 분석이란 해당 웹 데이터에 내재하는 범주를 추출하기 위하여 HTML 소스 정보 분석 작업과 해당 웹 데이터 본문 텍스트의 태그 추출 작업을 의미한다. 분석 작업이란 도 8에서와 같은 웹 데이터의 HTML 소스코드 안에 도메인 주소나 로컬 지역, 언어, URL, 웹 데이터 분량 등의 정보가 포함되어 있으므로 웹 크롤러가 수집해 온 해당 HTML 소스 코드를 분석하여 원하는 정보를 얻는 과정이다. 이와 같은 작업을 통해 범주 변수 값을 기록한다. 인덱스 생성을 위한 정보 분류 과정은 다음과 같다. a) 웹 데이터 HTML 소스 자료의 분석을 통하여 웹 데이터 소속 도메인, 웹 데이터 로컬 지역(IP 분석), 웹 데이터 언어, 웹 데이터 URL, 웹 데이터 분량, 웹 데이터 생산자, 태그(키워드), 문자 인코딩, 링크, 부속 콘텐츠, 상위 콘텐츠, 부속 이미지/동영상 정보를 분석하여 이를 인덱서의 웹 데이터 소스 정보 필드에 입력한다. b) 해당 웹 데이터 소속 웹 사이트의 분석을 통하여 이 웹 사이트 내지 이 웹 데이터가 소속된 웹 사이트의 웹 디렉터리 영역(혹은 디렉터리 범주) 및 웹 페이지 생산자 정보를 분석하여 이를 인덱서의 웹 사이트 및 웹 데이터 생산자 정보 필드에 입력한다. c) 웹 데이터 본문 텍스트의 분석은 기존의 키워드 검색엔진의 웹 데이터 분석과 외형상 유사하게 단어 분석에서 시작한다. 그러나 본 발명의 실시예에서는 해당 웹 데이터에서 그 웹 데이터의 제목의 키워드나 HTML 소스코드의 태그 정보 분석을 통해 핵심 키워드들을 추출하여 이를 웹 데이터 소스 분석 자료의 분석 값을 웹 사이트 분석 자료의 분석 값과 비교하여 이 웹 데이터의 실체와 속성의 문맥을 기계(검색 엔진의 인덱서)가 이해할 수 있는 언어 값으로 치환하여 정확도를 분석한다. 특히 웹 데이터 소스 자료의 제목과 태그 중요도 가중치에 기초하여 해당 웹 데이터의 핵심 키워드를 추출하여 이들 키워드들의 상호 연결망과 이들 키워드와 해당 웹 사이트 분석을 분석한다. 이 핵심 키워드는 검색 이용자가 입력하는 검색어 필드 중 실체(Substance)에 해당한다. d) 이렇게 해당 웹 데이터에서 추출되고 기계가 이해할 수 있는 언어 값을 지닌 해당 핵심 키워드들에 대해 웹 세계에서 이용 빈도 등 폭소노미 값과 해당 핵심 키워드의 링크 등의 연결망 정보를 얻는다. 이런 핵심 단어의 폭소노미 값과 연결망 값에 기초하여 해당 웹 데이터의 폭소노미 값과 연결망 값을 얻는다. 여기서 웹 데이터에 대한 폭소노미는 웹 로그에 의해 수행되고, 정보연결망 분석은 정보연결망 분석기에서 수행할 수 있다. e) a)에서부터 d)까지의 단계에서 얻은 값에 기초하여 필드 인덱스를 생성한다.The indexer also takes web data stored in a web data repository and indexes it by analyzing its data structure. Here, the data structure analysis refers to an HTML source information analysis operation and a tag extraction operation of the web text body text in order to extract a category inherent in the web data. The analysis operation includes information such as domain address, local region, language, URL, and web data amount in the HTML source code of the web data as shown in FIG. 8, so that the desired information is analyzed by analyzing the HTML source code collected by the web crawler. The process of getting it. Do this to record the value of the category variable. The information classification process for creating an index is as follows. a) Web data HTML source data, web data domain, web data local area (IP analysis), web data language, web data URL, web data volume, web data producers, tags (keywords), character encoding, links Analyze, append content, parent content, and append image / video information and enter it into the web data source information field of the indexer. b) Analyzing the web site to which the web data belongs, analyzing the web directory area (or directory category) and web page producer information of this web site or the web site to which this web data belongs, and the indexer's website and web data producer. Fill in the information fields. c) Analysis of web data body text begins with word analysis, which is similar in appearance to web data analysis of existing keyword search engines. However, in the exemplary embodiment of the present invention, the key keywords are extracted from the web data by analyzing the keyword of the title of the web data or the tag information of the HTML source code. The accuracy of this web data is analyzed by substituting the context of the substance and attribute of the web data into a language value understood by the machine (search engine indexer). In particular, core keywords of the web data are extracted based on the title and tag importance weight of the web data source data, and the interconnection of these keywords and analysis of the keywords and the corresponding web site are analyzed. This key keyword corresponds to a substance among search terms fields entered by a search user. d) Network information, such as the frequency of use and the linkage of the key keyword, with the frequency of use in the web world, is obtained for the corresponding core keywords extracted from the corresponding web data and having a language value that can be understood by the machine. Based on the folksonomial and network values of these key words, the folksonomial and network values of the web data are obtained. In this case, the folksonomy of the web data is performed by the web log, and the information network analysis can be performed by the information network analyzer. e) Create a field index based on the values obtained in steps a) through d).
필드 인덱스 생성을 설명하기에 앞서, 위에 언급한 바 있는 웹 영역 및 생산자 정보의 분석과 관련해 볼 때, 가령 www.nawoopat.co.kr 사이트에 들어가서 about us 메뉴와 그 HTML 소스코드를 살펴보면 이 사이트가 특허사무소 사이트라는 것을 알게 되며, 정보 생산자의 정보 역시 점검할 수 있다. 이때 분석 결과는 해당 웹 사이트가 특허법률사무소이기에 디렉터리 분류표에 따라 웹 사이트의 디렉터리는 "특허사무소"가 그리고 사이트 내에 특정 웹 데이터의 정보 생산자 이름이 기재된다. 가령, "홍길동" 혹은 "나우특허법률사무소"와 같은 식으로 기재된다. 또한 핵심 키워드 추출방법은 기존의 네이버나 구글과 동일할 수 있다. 웹 페이지 본문에 나오는 단어 분석과 단어 빈도수 혹은 HTML 소스코드의 태그 정보에 기반한다. 나아가 기계가 이해할 수 있는 언어에 대하여 간략히 살펴보면, 디렉터리는 디렉터리 분류 목록으로 구성되고, 분류 목록은 디렉터리 항목과 그 항목의 도서관 청구 번호처럼 기호로 구성된다. 가령 특허법률사무소는 "000001", 변호사사무실은 "000002", 회계사 사무실은 "000003"으로 표시하면 기계는 "000001" 기호로서 이것이 특허법률사무소임을 기계적으로 인식하게 된다. 또한 정확도란 "특허법률사무소"라는 분석자료가 나오면 이 자료 자체를 가지고 컴퓨터 기계는 "특허법률사무소"가 무엇을 의미하는지 판단하지 못하므로, "000001"이라는 디렉터리 분류 목록에 따라 그 의미가 "특허법률사무소"라는 것이 명료해지는 것이다.Prior to describing field indexing, in relation to the analysis of the web area and producer information mentioned above, for example, go to www.nawoopat.co.kr and look at the about us menu and its HTML source code. Knowing that it is a patent office site, the information producer can also check the information. The analysis results show that the web site is a patent law firm, and according to the directory classification table, the directory of the web site is the "patent office" and the name of the information producer of specific web data in the site. For example, "Hong Gil Dong" or "Now Patent & Law Firm" is described. In addition, the core keyword extraction method may be the same as the existing Naver or Google. Based on word analysis in the body of the web page and word frequency or tag information in the HTML source code. Furthermore, a quick look at the language that the machine can understand, the directory consists of a directory classification list, which is composed of symbols, such as directory entries and their library billing numbers. For example, if the patent law firm indicates "000001", the lawyer office indicates "000002", and the accountant office indicates "000003", the machine recognizes that it is a patent law firm as the symbol "000001". In addition, the accuracy of the "patent law firm" when the analysis data comes out of the data machine itself does not determine what "patent law firm" means, so according to the directory classification list "000001" means "patent Law Firm. "
또한 핵심 키워드들로부터 폭소노미 값과 연결망 정보를 어떻게 얻을 수 있는지와 관련해 살펴보면, 보통 네이버나 구글 같은 검색 서비스에서는 보다 정확한 정보 서비스를 위해 색인과정에 해당 데이터를 분석하여 세부 영역으로 나눈 정보 저장 서버들이 있다. 가령 검색어나 웹 정보의 데이터의 단어 분석을 위한 사전 서버가 있기도 하고, 특정 검색어와 관련하여 검색어 인기의 인기도 정보 서버가 있다. 또한 가령 네이버에서 '박주영'을 잘못 입력해서 '박지영'이라 입력하면, 네이버 검색엔진은 “박주영을 찾으시니까?”라고 정보 이용자에게 수정 문의를 하기도 하고, 검색창에서 '박주영'을 입력하면 바로 검색창 아래 '박주영 아스날', '박주영 골' 등 박주영 관련 임기 검색어들이 제시된다. 이런 서비스는 해당 검색어와 관련하여 네이버 검색엔진은 '사전 서버', '인기도 서버' 등과 연동해 작동하는 것을 의미한다. 본 발명의 실시예에 따른 검색 엔진은 이러한 다양한 서버들과 연동해 가동될 수 있다. 위에서 이야기한 웹로그는 특정 검색어의 인기도, 즉 폭소노미를 분석하는 서버로서 네이버의 인기도 서버와 같은 것으로 이해될 수 있으며, 정보 연결망은 특정 웹 데이터가 다른 웹 데이터와 링크 관계를 처리하는 서버이다. 본 발명의 실시예에서 핵심 키워드가 추출되면 웹 로그 서버에 문의하여 이 핵심 키워드의 인기도 분석을 문의하고 웹 로그 서버는 이 키워드의 인기도 정보를 검색엔진에 가령 '박주영'이라는 검색어에 대해 '박주영 아스날', '박주영 골'이라는 인기도 검색어 정보를 전달해 주고, 핵심 키워드가 다중의 검색 이용자들이 실제 웹 검색 결과에서 어떤 웹 페이지에 가장 많이 실려 있는지 또는 박주영이라는 검색어가 어떤 다른 검색어와 결합하여 검색되었는지에 대한 정보 연결망 서버에 문의하고 정보 연결망 서버는 이에 대한 정보를 제공해 주게 되는 것이다.In addition, when looking at how to obtain folksonomial value and network information from key keywords, search service such as Naver or Google usually has information storage server that analyzes the data and divides it into detailed areas for more accurate information service. . For example, there is a dictionary server for word analysis of data of a search word or web information, and there is a popularity information server of search word popularity in relation to a specific search word. For example, if you incorrectly type 'Park Ju-young' in Naver and enter 'Park Ji-young', the Naver search engine asks the information user to modify, “Do you find Park Ju-young?”, Or enter 'Park Ju-young' in the search box and search immediately. Below the window, term terms related to Park Joo-young, such as Park Joo-young Arsenal and Park Joo-young Goal, are presented. Such service means that Naver search engine works in conjunction with 'dictionary server' and 'popularity server' in relation to the search term. The search engine according to an embodiment of the present invention may operate in conjunction with these various servers. The above-mentioned weblog is a server that analyzes the popularity of a specific search term, that is, a folksonomy, and can be understood as the same as Naver's popularity server. An information connection network is a server in which a specific web data processes a link relationship with other web data. In the exemplary embodiment of the present invention, when a key keyword is extracted, the web log server is contacted to analyze the popularity of the key keyword, and the web log server transmits the popularity information of the keyword to a search engine such as 'Park Joo Young' for the search term 'Park Joo Young Arsenal'. "," Park Joo-young Goal, "which delivers popular search term information, and whose key keywords include the number of search engines on which web pages are most searched by multiple searchers, or which search terms Park Joo-Young combined with other search terms. The information network server is inquired and the information network server provides information about it.
계속해서 도 8을 참조하면, 위에서 인덱스정보 분류에 기반한 인덱스 생성 과정에서 범주 변수 값 생성 과정은 다음과 같다. a) keywordID: 해당 웹 데이터의 복수의 핵심 키워드를 등제한다. b) 해당 웹 데이터 고유값(docID): 해당 웹 페이지의 고유 코드 값으로 해당 웹 페이지 URL을 표현하는 값이다. c) directoryID: 오프라인 도서관의 자료 분류법인 십진법과 유사한 디렉터리 분류 체계로서, 해당 웹 데이터의 분류 체계 ID로 서비스 필드, 프로토콜 분류, 대분류, 소분류 및 소분류 세부 필드로 분류한다. 이 세부 필드에 해당 웹 데이터의 디렉터리 항목의 변수 값을 기입한다. d) recordID: 오프라인 도서관의 문헌자동화 목록형식(MARC)에 해당하는 영역으로서, 해당 웹 데이터의 속성 정보를 담는 ID로서 해당 웹 페이지 제목, 정보 생산자, 해당 웹 사이트 주소, 데이터 유형, 데이터 생성일자 및 생성 이력, 데이터 크기, 데이터 유형의 정보를 담는다. e) producerID: 정보 생산자에 대한 정보 값으로, 해당 웹 페이지의 HTML 소스 정보와 텍스트 분석을 통해 생산자를 도출하고, 이 생산자에 대한 정보 생산자 서버로부터 생산자 중요도의 순위 값을 찾아 정보 생산자에 대한 변수 값을 기입한다. f) containerID: 해당 웹 데이터가 위치하는 웹 사이트에 대한 정보 값으로, 해당 웹 데이터의 성격과 해당 웹 사이트 성격에 대한 연관성 평가 작업과 웹 사이트 서버로부터 이 웹 사이트의 중요도 수치 값을 종합하여 웹 사이트에 대한 변수 값을 기입한다. g) folksonomyID: 해당 웹 데이터와 태그의 인기도 정보에 대한 변수 값 처리 영역으로 본 발명의 검색엔진의 웹 로그 및 공공 웹 로그를 통해 해당 웹 데이터의 폭소노미 변수 값을 기입한다. h) networkID: 해당 웹 데이터의 정보 연결망 자료를 담는 ID로서, 해당 웹 데이터의 핵심 키워드에 기반해 이 웹 데이터가 다른 웹 데이터와 연결 내용을 담는다. 연결망 서버는 해당 웹 페이지를 중심으로 8개의 범주를 기준으로 하여 연결된 타 정보와의 종속, 파생, 연관성, 그룹성을 제공해 준다.8, the categorical variable value generation process in the index generation process based on the index information classification is as follows. a) keywordID: Registers a plurality of key keywords of the web data. b) The unique web data unique value (docID): A unique code value of the web page that represents the web page URL. c) directoryID: A directory classification system similar to the decimal system, which is an offline library data classification method, classified into a service field, a protocol classification, a major classification, a subclass, and a subclass subfield by the ID of the web data. Enter the variable value of the directory entry of the web data in this detail field. d) recordID: The area corresponding to the automated library cataloging format (MARC) of the offline library, the ID containing the attribute information of the web data, the title of the web page, the producer of the information, the address of the website, the type of data, the date of data creation and Contains creation history, data size, and data type information. e) producerID: The information value for the information producer, which derives the producer through the HTML source information and textual analysis of the web page, and finds the rank value of the producer importance from the information producer server for this producer, and then the value of the variable for the information producer. Enter. f) containerID: The value of the information about the web site where the web data is located. The web site combines the importance of the web site's importance figures from the web site server and the evaluation of the association between the nature of the web data and the web site's personality. Enter the variable value for. g) folksonomyID: The folksonomyID is a variable value processing area for the popularity information of the web data and the tag, and the folksonomy variable value of the web data is entered through the web log and the public web log of the search engine of the present invention. h) networkID: ID of the information network data of the web data. Based on the key keyword of the web data, this web data contains the connection contents with other web data. The network server provides dependencies, derivations, associations and groupings with other linked information based on eight categories based on the web page.
좀더 살펴보면, 위에서 핵심 키워드 추출과정은 인덱서의 정보 분류과정에서 해당 웹 데이터의 제목이나 그 웹 데이터의 HTML 소스코드의 "태그" 정보로부터 추출한다. 웹 데이터의 고유값이란 웹 사이트 분석에서 디렉터리 분석에서 디렉터리 분류 목록에서 기계가 이해할 수 있는 기호 처리를 의미한다. 웹 데이터의 분류 고유값은 이러한 기호 처리로 진행된다. 또한 웹 페이지로부터의 디렉터리 분류는 앞서 언급한 대로 가령 특허법률사무소는 "000001" 등으로 표시하면, 기계는 "000001" 기호로서 이것이 "특허법률사무소"라는 것을 기계적으로 인식하는 것을 의미한다. 또한 생산자 정보와 관련해 볼 때, 웹 사이트 메뉴의 보기 메뉴에서 "원문"이 HTML 소스 코드이므로, 정보 생산자가 포함하는 것이 HTML 일반 규칙이나, 경우에 따라 가령 조선일보의 경우 기자 이름이 정보 생산자가 되고, 어떤 경우는 조선일보 자체가 정보 생산자로 표기될 수 있다. 나아가 텍스트의 분석은 텍스트 내용을 분석하는 것으로, 키워드로서 "태그"가 본문에 실려 있는지, 텍스트 본문에 다른 웹 데이터를 연결하는 링크 부분이 있는지 등을 분석하는 것을 의미한다. 웹 데이터의 성격과 웹 사이트에 대한 연관성 평가 작업과 관련해 볼 때, 웹 데이터의 자체 분석만으로는 웹 데이터 정확도가 떨어질 수 있으므로 웹 데이터가 등재된 웹 사이트를 분석하는 것이다. 가령 나우특허법률사무소의 웹 사이트 내의 특정 웹 데이터를 분석함에 있어서 www.nawoopat.co.kr의 about us를 분석하여 사이트가 특허법률사무소라는 디렉터리에 속하는 것을 분석하고, 특허법률사무소라는 디렉터리에 기반하여 해당 웹 데이터를 분석하여 해당 웹 데이터 분석도의 정확도를 높이게 된다. 또한 컨테이너 값이란 앞서 언급한 대로, 수치 및 기호로 처리된다. 가령 '특허법률사무소'의 경우 "000001"이라는 고유값을 지정한다. 폭소노미 값은 해당 검색어나 키워드 혹은 해당 웹 데이터와 관련해 검색엔진은 웹 로그 서버나 정보 연결망 서버에게 해당 정보의 인기도나 정보 연결망 정보를 요청하고 이들 서버가 해당 정보를 제공해 준다. 웹 데이터와 다른 웹 데이터와의 연결이란 링크를 의미한다. 어느 한 웹 페이지 내에서 특정 키워드 등을 클릭하면 다른 웹 페이지로 넘어가게 되는 이런 링크를 정보 연결망이라 한다. 연결망 정보란 인터넷에서 정보 연결 즉 링크 분석을 수행하는 분석 기계가 있는데, 한국에서 사용되는 Netminer가 사용될 수 있으며, 검색엔진 회사들 중 사내 독자적인 정보 연결망 서버를 가지고 있는데, 이들 정보 연결망 분석 서버를 통해 특정 키워드나 웹 데이터의 정보 연결망 정보를 분석할 수 있다. 예를 들어, www.seoul.com/new/football/asnal/jypa가/001 이라는 URL을 가진 웹 데이터로서 온라인 신문 기사 "박주영 2개월만 데뷔골 작열"이라는 텍스트 내에서 이 기사가 다른 기사를 링크한 "프리미어", "아르센 벵거", "볼튼"이 가지는 URL 주소가 바로 연결망 정보가 되는 것이다.In detail, the key keyword extraction process is extracted from the title of the web data or the "tag" information of the HTML source code of the web data in the indexer's information classification process. Eigenvalues in web data refer to symbolic processing that can be understood by machines in directory classification lists in directory analysis in web site analysis. The classification eigenvalue of the web data proceeds to this preference processing. In addition, the directory classification from the web page, as mentioned above, for example, when the patent law firm denotes "000001", etc., means that the machine mechanically recognizes that this is a "patent law firm" as the symbol "000001". Also, when it comes to producer information, the "original" in the view menu of the website menu is HTML source code, so the information producer includes the general rule of HTML, but in the case of Chosun Ilbo, for example, the reporter's name becomes the information producer. In some cases, the Chosun Ilbo itself may be labeled as an information producer. Further, the analysis of the text is to analyze the text content, and to analyze whether the "tag" as a keyword is included in the body, and whether there is a link part connecting other web data in the text body. In relation to evaluating the nature of web data and its relevance to a web site, the analysis of the web data is analyzed because the web data itself may not be accurate. For example, in analyzing specific web data in the website of Now Patent Law Firm, it analyzes about us of www.nawoopat.co.kr and analyzes that the site belongs to the directory of Patent Law Firm, and based on the directory of Patent Law Firm By analyzing the web data, the accuracy of the web data analysis degree is improved. Container values are also treated as numbers and symbols, as mentioned above. For example, a patent law firm designates a unique value of "000001". In relation to the search term, keyword, or web data, the search engine requests the web log server or the information network server for the popularity or information network information of the information, and these servers provide the information. Linking web data to other web data means a link. When a user clicks on a certain keyword in one web page, the link to the other web page is called an information network. The network information is an analysis machine that performs information connection, or link analysis, on the Internet. Netminer, which is used in Korea, can be used, and among the search engine companies, the company has its own information network server. Analyze information network information of keywords or web data. For example, www.seoul.com/new/football/asnal/jypa is a web data with the URL / 001 that links another article within the text of an online newspaper article "Park Joo-young's debut goal." The network address is the URL of one of "Premiere", "Arsene Wenger" and "Bolton".
상술한 바와 같이 정보 데이터가 구축되고 나면, 정보검색장치(130)는 검색 엔진부(740)를 구동시켜 사용자 단말장치(100)에 표시된 복수의 필드를 갖는 검색창을 통해 제공된 검색어들을 이용하여, DB(130a)에 색인화하여 저장된 데이터와 매칭되는 데이터를 검색해 사용자에게 제공해 주게 된다. 이때, 검색 엔진부(740)는 범주의 상호 규정성을 통해 해당 정보 사물과 정보 이용자 검색어의 의도와 문맥을 분석한다. 예를 들어, 검색어 분석에서 정보 이용자가 검색창에 4개의 범주, 즉 실체(S), 디렉터리(D), 레코드(R), 의도(I)에 해당되는 검색어를 입력하면, 본 발명의 실시예에 따른 검색엔진은 실체를 디렉터리로부터 규정받고, 디렉터리는 레코드로부터 규정받으며, 레코드는 의도로부터 규정받는 알고리즘을 구현하여 검색어의 의도와 문맥을 분석한다.After the information data is constructed as described above, the information search apparatus 130 drives the search engine unit 740 to use search terms provided through a search window having a plurality of fields displayed on the user terminal apparatus 100. Indexed in the DB (130a) to search for data matching the stored data and provide it to the user. In this case, the search engine unit 740 analyzes the intention and the context of the corresponding information thing and the information user search word through mutual categories of categories. For example, in a search word analysis, when an information user inputs a search word corresponding to four categories, that is, an entity (S), a directory (D), a record (R), and an intention (I), a search box may be used. According to the search engine, the entity is specified from the directory, the directory is specified from the record, and the record is implemented from the intention to analyze the intention and context of the search word.
검색 엔진부(740)의 역할은 정보 이용자와의 통신 부분, 즉 검색창을 제공하는 인터페이스 기능은 차치하고서라도, 검색어 분석 부분, 정보 검색자 UOI 분석, 검색어 키워드 분석, 인덱서로부터 해당 정보를 찾아내는 부분, 이 정보를 편집하여 정보 이용자에게 출력하는 부분으로 나누어질 수 있다. 인덱서가 정보 사물, 즉 웹 데이터 중심으로 된다면 검색 엔진부(740)는 정보 이용자의 검색어를 인덱서 색인 편제로 정렬하여 해당 정보를 매칭시키는 과제를 수행할 수 있을 것이다.The role of the search engine unit 740 is a communication part with the information user, that is, a part that searches for the information from the search term analysis part, the information searcher UOI analysis, the search term keyword analysis, and the indexer aside from the interface function of providing a search box. This information can be divided into parts that are edited and output to the information user. If the indexer is an information thing, that is, web data-centered, the search engine unit 740 may perform the task of matching the corresponding information by sorting the search word of the information user by indexer indexing.
구체적으로 살펴보면, 사용자 인터페이스는 검색창 부분에 해당된다. 이 검색창은 다수로 분리된 필드를 갖는다. 검색창의 필드는 정보 이용자가 원하는 핵심 키워드 부분으로 실체(substance) 필드, 정보 이용자가 원하는 정보의 디렉터리, 그리고 정보의 레코드 필드, 마지막으로 정보이용자의 의도를 담는 메시지 필드 등으로 구성되며, 정보 서비스에 따라 이들 필드 편제는 달라질 수 있다. 정보 이용자는 4개 필드에 자신의 검색어 키워드를 입력한다. 이들 개별 필드의 검색어는 여타 필드들의 검색어 성격을 규정하는 상호 규정성을 지닌다. Specifically, the user interface corresponds to the search box part. This search box has a number of separate fields. The field of the search box is the core keyword part that the information user wants. It consists of the substance field, the directory of information the user wants, and the record field of the information, and finally the message field containing the intention of the user. These field combinations may therefore vary. The information user enters his search word keyword in four fields. The search terms of these individual fields have cross-qualifications that define the search term nature of the other fields.
예를 들어, 앞서 설명한 바와 같이 어느 정보 이용자가 드라마 동안미녀에서 장나라의 '오월의 눈사람'을 듣기 원할 경우 <표 1>과 같이 입력할 수 있다.For example, as described above, when an information user wants to listen to Jang Na's 'snowman of May' in the beauty during the drama, it may be entered as shown in <Table 1>.
표 1
필드 구분 실체 디렉터리 레코드 의도
예제 오월의 노래 동안미녀 장나라 듣기
Table 1
Field separator substance Directory record Intentions
example Song of may Beauty Chang Na Listening
그러면 '오월의 노래'라는 검색어는 '동안미녀'라는 드라마에 규정을 받고, '장나라'라는 가수의 규정을 받고, 이 노래를 듣기 원하는 사용자 의도를 포착하게 된다. 반대로, '장나라'라는 '동안미녀'라는 드라마에 규정을 받고, 그 드라마의 '오월의 노래'에 의해 규정을 받는다. 이를 통해 정보 이용자의 의도와 문맥을 파악하면서 기계가 이해할 수 있는 검색 문장을 만들어 낸다.The search term 'Song of May' is regulated by the drama 'Wild Beauty', is regulated by the singer 'Jang Nara', and captures the user's intention to listen to the song. On the contrary, it is regulated by the drama 'Beautiful Beauty' called 'Jang Na-ra' and by the drama 'Song of May'. Through this, the researcher understands the intention and context of the information user and creates a search sentence that the machine can understand.
검색어 분석(kID)은 정보 이용자가 검색창에 입력한 키워드들을 분석하여 유사어 조정, 맞춤법 교정 작업을 하고, 검색창의 각 검색어가 필드에 적합한지를 검토하면서, 이들 키워드들의 상호 규정 연산자 계산을 통해 이들 키워드에 대한 정보 이용자의 의도를 분석하는 과정이다.Search term analysis (kID) analyzes the keywords entered by the information user in the search box to perform synonym adjustments and spelling corrections, and checks each keyword in the search box for a field, and calculates these keywords by calculating the mutual regulatory operator of these keywords. This is a process of analyzing the user's intention for information.
이용자 ID 분석(uID)과 관련해 보면, 본 발명의 실시예에 따른 검색 엔진부(740)의 검색엔진은 정보 이용자 ID와 패스워드(Password) 기반의 정보 이용자의 개인화된 검색엔진이다. 이 단계에서 검색엔진은 정보 이용자의 입력 키워드에 기반하여 정보 이용자의 웹 활동 속성과 이력을 분석하여, 검색어 키워드에 대한 정보 이용자의 의도 문맥을 찾아내어 검색어 키워드에 사용자 의도 값을 부여한다.In relation to user ID analysis (uID), the search engine of the search engine unit 740 according to an embodiment of the present invention is a personalized search engine of an information user based on an information user ID and a password. In this step, the search engine analyzes the web activity attributes and the history of the information user based on the input keyword of the information user, finds the intention context of the information user for the keyword, and assigns the user intention value to the keyword.
디렉터리 분석(dID)은 검색어 분석 결과와 정보 이용자 ID 분석에 기초하여, 정보 이용자가 의도하고 웹 데이터의 디렉터리 값을 찾아내는 과정이다.Directory analysis (dID) is a process of finding a directory value of a web data intended by an information user based on a search word analysis result and an information user ID analysis.
레코드 분석(rId)은 검색어 분석 결과와 정보 이용자 ID 분석과 디렉터리 분석 값에 기초하여 정보 이용자가 의도하는 웹 데이터의 레코드를 분석하는 과정이다. 서비스 유형, 제목, 데이터 유형, 크기 등이 분석 대상이 된다.Record analysis (rId) is a process of analyzing a record of web data intended by an information user based on a search word analysis result, an information user ID analysis, and a directory analysis value. Service type, title, data type, size, etc. are analyzed.
생산자 분석(pID)은 정보 이용자가 생산자를 지정했을 경우에는 정보 생산자 서버에서 해당 생산자 정보 값을 입력하고, 정보 이용자가 생산자를 지정하지 않은 경우 웹 페이지 분석 결과에다가 정보 생산자 서버에서 해당 정보 생산자 속성을 필터링하여 비중치를 가산하는 과정이다.Producer analysis (pID) inputs the producer information value from the information producer server if the information consumer specifies the producer, and if the information consumer does not specify the producer, the information producer attribute is added to the information producer server. This is the process of adding specific weights by filtering.
컨테이너 분석(cID)은 정보 이용자가 정보 웹 사이트를 지정했을 경우에 바로 그 컨테이너 정보를 분석하고, 사용자가 웹 사이트를 지정하지 않은 경우는 해당 웹 데이터와 그 소속 웹 사이트를 비교하여 컨테이너 가중치 점수를 주는 과정이다.Container Analysis (cID) analyzes container information immediately when an information consumer designates an information web site, and compares the web data with its web site if the user does not designate a web site. The giving process is.
폭소노미 분석(fID)은 정보 이용자의 의도에 일치하는 웹 데이터를 찾아내고 이들 웹 데이터의 웹 이용 대중에서 인기도 점수를 계산하는 과정이다. 웹 로그를 통해 폭소노미 값을 선정하게 된다.Foxonomy analysis (fID) is the process of finding web data that matches the intention of the information user and calculating popularity scores in the web-using masses of these web data. The web log will be used to select the oxonomy value.
연결망 분석(nID)은 폭소노미를 통해 최종적으로 선정된 웹 데이터들을 대상으로 이들 웹 데이터와 태그 키워드들의 정보 연결망을 분석하는 과정이다.Network analysis (nID) is a process of analyzing the information network of these web data and tag keywords with the web data finally selected through Foxsonomi.
편집과 출력은 최종적으로 인덱서에 저장된 자료들을 매핑해 정보 이용자에 게 출력하여 제공하는 과정이다.Editing and printing is the process of finally mapping the data stored in the indexer and outputting it to the information user.
이와 같이, 본 발명의 실시예에 따른 검색 엔진부(740)는 가령 검색 알고리즘을 구현하여 인터페이스부(700)를 통해 검색창을 정보이용자에게 제공함과 동시에 검색창을 통해 수신된 검색어들을 이용하여 다양한 분석을 수행하고, 수행한 분석 결과를 도 1의 DB(130a) 또는 저장부(720)에 구축된 데이터와 매핑하여 매핑 결과를 제어부(710)의 제어 하에 인터페이스부(700)를 통해 정보 이용자에게 제공해 준다.As such, the search engine unit 740 according to an embodiment of the present invention implements a search algorithm, for example, provides a search box to the information user through the interface unit 700 and uses various search terms received through the search box. The analysis is performed, and the analysis result is mapped to data constructed in the DB 130a or the storage unit 720 of FIG. 1, and the mapping result is mapped to the information user through the interface unit 700 under the control of the control unit 710. Provide.
도 10은 본 발명의 실시예에 따른 정보검색방법을 나타내는 흐름도이다.10 is a flowchart illustrating an information retrieval method according to an embodiment of the present invention.
설명의 편의상 도 10을 도 1 및 도 7과 함께 참조하면, 정보검색장치(130)는 정보이용자가 검색창에 입력한 검색 실체, 디렉터리, 레코드, 의도 필드를 포함하는 검색창 정보를 수신한다(S1010). 이와 같은 검색창 정보를 수신하기 위하여 정보검색장치(130)는 검색 엔진을 구동하여 알고리즘을 구현함으로써 정보 이용자에게 검색창에 대한 정보를 제공함으로써 필요한 정보를 얻을 수 있을 것이다.For convenience of description, referring to FIG. 10 together with FIGS. 1 and 7, the information retrieval apparatus 130 receives search box information including a search entity, a directory, a record, and an intention field inputted by the information user into the search box ( S1010). In order to receive such search box information, the information retrieval apparatus 130 may obtain necessary information by providing information about the search box to the information user by implementing an algorithm by driving a search engine.
이어 정보검색장치(130)는 검색창의 정보 중 디렉터리 및 레코드 필드의 검색어가 속하는 레벨을 최상위로 결정하고, 최상위 레벨로 결정된 디렉터리 및 레코드 레벨을 기준으로 검색 실체 필드에 입력된 검색어를 포함하는 컨텐츠를 검색하게 된다(S1020, S1030). 여기서, 검색은 도 1의 DB(130a) 또는 도 7의 저장부(720)의 검색을 의미할 수 있다.Next, the information retrieval apparatus 130 determines the level to which the search term in the directory and record fields belong among the information in the search box as the highest level, and includes the content including the search term input in the search entity field based on the directory and record level determined as the highest level. The search is made (S1020, S1030). Here, the search may mean a search of the DB 130a of FIG. 1 or the storage unit 720 of FIG. 7.
그리고 정보검색장치(130)는 디렉터리 및 레코드 레벨을 하위 레벨로 한정하고, 검색된 컨텐츠의 범위 내에서 컨텐츠를 재검색한다(S1040). 이의 과정을 통해 정보검색장치(130)는 1차적으로 검색된 컨텐츠의 범위에서 더욱 감소된 컨텐츠를 검색해 낼 수 있게 된다.The information retrieval apparatus 130 limits the directory and record levels to lower levels, and re-searches the contents within the range of the retrieved contents (S1040). Through this process, the information retrieval apparatus 130 may search for content that is further reduced in the range of the first searched content.
이와 같은 S1030 및 S1040 단계는 검색창의 4개의 범주로부터 8개의 범주로 분류하여 구축한 정보 데이터를 검색하는 과정이라 볼 수 있을 것이다. 이의 과정에서 정보검색장치(130)는 상호 규정성에 기반한 검색을 수행할 수 있을 것이다. 이와 관련되는 자세한 내용은 앞서 충분히 설명하였으므로 더 이상의 설명은 생략하도록 한다.Such steps S1030 and S1040 may be regarded as a process of searching for information data constructed by dividing four categories into eight categories from the search box. In this process, the information retrieval apparatus 130 may perform a search based on mutual regulation. Details related to this have been described above sufficiently, so further description thereof will be omitted.
상기의 결과 정보검색장치(130)는 웹 소통에 있어서 의도와 문맥을 내포하는 웹 범주들의 상호 규정성에 기반한 정보를 정확하고 신속히 검색할 수 있게 된다.As a result, the information retrieval apparatus 130 can search for information accurately and quickly based on the mutual definition of web categories that include intention and context in web communication.
한편 본 발명의 실시예를 구성하는 모든 구성 요소들이 하나로 결합하거나 결합하여 동작하는 것으로 설명되었다고 해서, 본 발명이 반드시 이러한 실시예에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위 안에서라면, 그 모든 구성 요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다. 또한, 그 모든 구성요소들이 각각 하나의 독립적인 하드웨어로 구현될 수 있지만, 각 구성 요소들의 그 일부 또는 전부가 선택적으로 조합되어 하나 또는 복수 개의 하드웨어에서 조합된 일부 또는 전부의 기능을 수행하는 프로그램 모듈을 갖는 컴퓨터 프로그램으로서 구현될 수도 있다. 그 컴퓨터 프로그램을 구성하는 코드들 및 코드 세그먼트들은 본 발명의 기술 분야의 당업자에 의해 용이하게 추론될 수 있을 것이다. 이러한 컴퓨터 프로그램은 컴퓨터가 읽을 수 있는 저장매체(computer readable media)에 저장되어 컴퓨터에 의하여 읽혀지고 실행됨으로써, 본 발명의 실시예를 구현할 수 있다. 컴퓨터 프로그램의 저장매체로서는 자기 기록매체, 광 기록매체, 캐리어 웨이브 매체 등이 포함될 수 있다.On the other hand, even if all the components constituting the embodiment of the present invention is described as being combined or operated in combination, the present invention is not necessarily limited to these embodiments. In other words, within the scope of the present invention, all of the components may be selectively operated in combination with one or more. In addition, although all of the components may be implemented in one independent hardware, each or some of the components of the program modules are selectively combined to perform some or all of the functions combined in one or a plurality of hardware It may be implemented as a computer program having a. Codes and code segments constituting the computer program may be easily inferred by those skilled in the art. Such a computer program may be stored in a computer readable media and read and executed by a computer, thereby implementing embodiments of the present invention. The storage medium of the computer program may include a magnetic recording medium, an optical recording medium, a carrier wave medium, and the like.
이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안 될 것이다.Although the preferred embodiments of the present invention have been illustrated and described above, the present invention is not limited to the specific embodiments described above, and the present invention is not limited to the specific embodiments of the present invention without departing from the spirit of the present invention as claimed in the claims. Various modifications can be made by those skilled in the art, and these modifications should not be individually understood from the technical spirit or the prospect of the present invention.
--
--

Claims (15)

  1. 검색 실체, 디렉터리, 레코드, 의도(intention) 필드(field)를 포함하는 검색 창의 정보를 사용자 단말장치로 제공하는 인터페이스부;An interface unit providing information of a search window including a search entity, a directory, a record, and an intention field to a user terminal device;
    복수의 검색 범주로 색인되어 분류된 컨텐츠 정보가 기록된 데이터베이스를 포함하는 저장부;A storage unit including a database in which content information indexed and classified into a plurality of search categories is recorded;
    상기 검색 창에서 각 필드 별로 검색어가 입력되면, 상기 각 필드별로 입력된 검색어를 이용하여 상기 복수의 검색 범주에 대하여 순차적으로 검색하는 제어부;를A control unit for sequentially searching for the plurality of search categories by using the search word input for each field when the search word is input for each field in the search window;
    포함하는 것을 특징으로 하는 정보검색장치.Information retrieval apparatus comprising a.
  2. 제1항에 있어서,The method of claim 1,
    상기 제어부는, The control unit,
    상기 디렉터리 필드에 입력된 디렉터리 검색어가 속하는 디렉터리 레벨 및 상기 레코드 필드에 입력된 레코드 검색어가 속하는 레코드 레벨을 각각 최상위로 결정하고, 상기 결정된 디렉터리 레벨 및 레코드 레벨을 기준으로 복수의 검색 범주 내에서 상기 검색 실체 필드에 입력된 검색어를 포함하는 컨텐츠를 검색하며,Determine the directory level to which the directory search term entered in the directory field belongs and the record level to which the record search term entered in the record field belongs, respectively, and search within the plurality of search categories based on the determined directory level and record level. Search for content that includes the search term entered in the Entity field.
    검색된 컨텐츠를 이용하여 상기 디렉터리 레벨 및 상기 레코드 레벨을 각각 하위 레벨로 한정하고, 상기 검색된 컨텐츠의 범위 내에서, 상기 한정된 디렉터리 레벨 및 레코드 레벨을 이용하여 컨텐츠를 재검색하는 것을 특징으로 하는 정보검색장치.And limiting the directory level and the record level to lower levels by using the searched content, and re-searching the content using the limited directory level and the record level within the range of the searched content.
  3. 제1항에 있어서,The method of claim 1,
    상기 제어부는, 상기 검색된 컨텐츠를 분석하여, 상기 사용자의 의도를 판단하고, 상기 사용자의 의도를 이용하여 상기 디렉터리 레벨 및 상기 레코드 레벨을 각각 하위 레벨로 한정하며, 상기 한정된 디렉터리 레벨 및 상기 레코드 레벨을 이용하여 상기 복수의 검색 범주에 대해서 상기 검색된 컨텐츠를 필터링하는 것을 특징으로 하는 정보검색장치. The controller determines the intention of the user by analyzing the searched content, and limits the directory level and the record level to lower levels by using the user's intention, and sets the limited directory level and the record level. And the searched content is filtered for the plurality of search categories.
  4. 제3항에 있어서,The method of claim 3,
    상기 제어부는, The control unit,
    상기 검색 실체, 디렉터리, 레코드, 의도 필드에 입력된 각 검색어를 이용하여 각 필드의 레벨을 규정하고, 규정된 레벨에 따라 상기 사용자의 의도를 판단하는 것을 특징으로 하는 정보검색장치.And defining the level of each field by using each search word input in the search entity, directory, record, and intention field, and determining the intention of the user according to the prescribed level.
  5. 제1항에 있어서,The method of claim 1,
    상기 제어부는,The control unit,
    상기 검색된 컨텐츠 내에 사용자의 의도에 부합되는 컨텐츠가 포함되어 있으면 컨텐츠 재검색을 중지하고, 상기 검색된 컨텐츠를 포함하는 검색 결과 화면을 상기 사용자 단말장치로 제공하도록 상기 인터페이스부를 제어하는 것을 특징으로 하는 정보검색장치. If the searched content includes content that meets the user's intention, the information retrieval device is stopped and the interface unit is controlled to provide a search result screen including the searched content to the user terminal device. .
  6. 제1항에 있어서,The method of claim 1,
    상기 제어부는, The control unit,
    상기 검색된 컨텐츠가 기 설정된 개수 이내이면 컨텐츠 재검색을 중지하고, 상기 검색된 컨텐츠를 포함하는 검색 결과 화면을 상기 사용자 단말장치로 제공하도록 상기 인터페이스부를 제어하는 것을 특징으로 하는 정보검색장치. And re-search the content if the searched content is within a preset number, and control the interface unit to provide a search result screen including the searched content to the user terminal device.
  7. 제1항 내지 제6항 중 어느 한 항에 있어서,The method according to any one of claims 1 to 6,
    상기 복수의 검색 범주는 키워드, 유저, 디렉터리, 레코드, 생산자, 컨테이너, 폭소노미, 네트워크를 포함하는 것을 특징으로 하는 정보검색장치.Wherein the plurality of search categories includes a keyword, a user, a directory, a record, a producer, a container, a folkson, and a network.
  8. 검색 실체, 디렉터리, 레코드, 의도(intention) 필드(field)를 포함하는 검색 창의 정보를 제공하는 단계;Providing information in a search window comprising a search entity, a directory, a record, and an intention field;
    상기 검색 창에서 각 필드별로 검색어가 입력되면, 상기 디렉터리 필드에 입력된 디렉터리 검색어가 속하는 디렉터리 레벨 및 상기 레코드 필드에 입력된 레코드 검색어가 속하는 레코드 레벨을 각각 최상위로 결정하는 단계;When a search word is input for each field in the search window, determining a directory level to which the directory search word input in the directory field belongs and a record level to which the record search word input in the record field belongs;
    상기 결정된 디렉터리 레벨 및 레코드 레벨을 기준으로, 기 설정된 복수의 검색 범주 내에서, 상기 검색 실체 필드에 입력된 검색어를 포함하는 컨텐츠를 순차적으로 검색하는 단계; 및Sequentially searching for contents including a search word input in the search entity field within a plurality of preset search categories based on the determined directory level and record level; And
    검색된 컨텐츠를 이용하여 상기 디렉터리 레벨 및 상기 레코드 레벨을 각각 하위 레벨로 한정하고, 상기 검색된 컨텐츠의 범위 내에서, 상기 한정된 디렉터리 레벨 및 레코드 레벨을 이용하여 컨텐츠를 재검색하는 단계;를 Limiting the directory level and the record level to lower levels by using the searched content, and re-searching the content using the limited directory level and the record level within the range of the searched content;
    포함하는 것을 특징으로 하는 정보검색방법. Information retrieval method comprising the.
  9. 제8항에 있어서,The method of claim 8,
    상기 컨텐츠를 재검색하는 단계는,Re-searching the content,
    상기 검색된 컨텐츠를 분석하여, 상기 사용자의 의도를 판단하는 단계;Analyzing the retrieved content to determine an intention of the user;
    상기 사용자의 의도를 이용하여 상기 디렉터리 레벨 및 상기 레코드 레벨을 각각 하위 레벨로 한정하는 단계; 및Limiting the directory level and the record level to lower levels respectively using the intention of the user; And
    상기 한정된 디렉터리 레벨 및 상기 레코드 레벨을 이용하여 상기 복수의 검색 범주에 대해서 상기 검색된 컨텐츠를 필터링하는 단계;를Filtering the searched content for the plurality of search categories using the limited directory level and the record level;
    포함하는 것을 특징으로 하는 정보검색방법. Information retrieval method comprising the.
  10. 제9항에 있어서,The method of claim 9,
    상기 사용자의 의도를 판단하는 단계는,Determining the intention of the user,
    상기 검색 실체, 디렉터리, 레코드, 의도 필드에 입력된 각 검색어를 이용하여 각 필드의 레벨을 규정하고, 규정된 레벨에 따라 상기 사용자의 의도를 판단하는 것을 특징으로 하는 정보검색방법. And defining the level of each field by using each search word input in the search entity, directory, record, and intention field, and determining the intention of the user according to the prescribed level.
  11. 제9항에 있어서,The method of claim 9,
    상기 검색된 컨텐츠 내에 사용자의 의도에 부합되는 컨텐츠가 포함되어 있으면 컨텐츠 재검색을 중지하고, 상기 검색된 컨텐츠를 포함하는 검색 결과 화면을 제공하는 단계;를 더 포함하는 것을 특징으로 하는 정보검색방법. If the searched content includes content corresponding to the intention of the user, stopping the re-search of the content and providing a search result screen including the searched content.
  12. 제8항에 있어서,The method of claim 8,
    상기 검색된 컨텐츠가 기 설정된 개수 이내이면 컨텐츠 재검색을 중지하고, 상기 검색된 컨텐츠를 포함하는 검색 결과 화면을 제공하는 단계;를 더 포함하는 것을 특징으로 하는 정보검색방법. Stopping re-searching the content if the searched content is within a preset number, and providing a search result screen including the searched content.
  13. 제8항 내지 제12항 중 어느 한 항에 있어서,The method according to any one of claims 8 to 12,
    상기 복수의 검색 범주는 키워드, 유저, 디렉터리, 레코드, 생산자, 컨테이너, 폭소노미, 네트워크를 포함하는 것을 특징으로 하는 정보검색방법. Wherein the plurality of search categories includes a keyword, a user, a directory, a record, a producer, a container, a folkson, and a network.
  14. 정보검색방법을 실행하기 위한 프로그램이 저장된 컴퓨터 판독가능 기록 매체에 있어서,A computer readable recording medium having stored thereon a program for executing an information retrieval method,
    상기 정보검색방법은, The information retrieval method,
    검색 실체, 디렉터리, 레코드, 의도(intention) 필드(field)를 포함하는 검색 창의 정보를 제공하는 단계;Providing information in a search window comprising a search entity, a directory, a record, and an intention field;
    상기 검색 창에서 각 필드별로 검색어가 입력되면, 상기 디렉터리 필드에 입력된 디렉터리 검색어가 속하는 디렉터리 레벨 및 상기 레코드 필드에 입력된 레코드 검색어가 속하는 레코드 레벨을 각각 최상위로 결정하는 단계;When a search word is input for each field in the search window, determining a directory level to which the directory search word input in the directory field belongs and a record level to which the record search word input in the record field belongs;
    상기 결정된 디렉터리 레벨 및 레코드 레벨을 기준으로 복수의 검색 범주 내에서 상기 검색 실체 필드에 입력된 검색어를 포함하는 컨텐츠를 검색하는 단계;Searching for content including a search word input in the search entity field within a plurality of search categories based on the determined directory level and record level;
    검색된 컨텐츠를 이용하여 상기 디렉터리 레벨 및 상기 레코드 레벨을 각각 하위 레벨로 한정하고, 상기 검색된 컨텐츠의 범위 내에서, 상기 한정된 디렉터리 레벨 및 레코드 레벨을 이용하여 컨텐츠를 재검색하는 단계;를Limiting the directory level and the record level to lower levels by using the searched content, and re-searching the content using the limited directory level and the record level within the range of the searched content;
    포함하는 것을 특징으로 하는 컴퓨터 판독가능 기록매체. And a computer readable recording medium.
  15. 제14항에 있어서,The method of claim 14,
    상기 복수의 검색 범주는 키워드, 유저, 디렉터리, 레코드, 생산자, 컨테이너, 폭소노미, 네트워크를 포함하는 것을 특징으로 하는 컴퓨터 판독가능 기록매체.Wherein the plurality of search categories includes keywords, users, directories, records, producers, containers, folksonics, networks.
PCT/KR2012/009982 2012-04-17 2012-11-23 Information search device, information search method, and computer-readable recording medium WO2013157712A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020120039900A KR101347123B1 (en) 2012-04-17 2012-04-17 Apparatus and Method for Searching Information, Computer Readable Recording Medium
KR10-2012-0039900 2012-04-17

Publications (1)

Publication Number Publication Date
WO2013157712A1 true WO2013157712A1 (en) 2013-10-24

Family

ID=49383637

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2012/009982 WO2013157712A1 (en) 2012-04-17 2012-11-23 Information search device, information search method, and computer-readable recording medium

Country Status (2)

Country Link
KR (1) KR101347123B1 (en)
WO (1) WO2013157712A1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017078215A1 (en) * 2015-11-04 2017-05-11 (주)윕스 Method for providing customized search area setting service and server for same
WO2023116928A1 (en) * 2021-12-24 2023-06-29 Everything Green Method and system for determining carbon dioxide emission value of grading by website

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001184358A (en) * 1999-12-24 2001-07-06 Fujitsu Ltd Device and method for retrieving information with category factor and program recording medium therefor
JP2009145992A (en) * 2007-12-11 2009-07-02 Internatl Business Mach Corp <Ibm> Method, device and program for supporting creation of search expression using a plurality of words
KR20100067285A (en) * 2008-12-11 2010-06-21 주식회사 네오패드 Method for searching information based on user's intention and method for providing information
KR20100083614A (en) * 2009-01-14 2010-07-22 오의진 Intension search method based on search intension of user
KR20100125682A (en) * 2009-05-21 2010-12-01 주식회사 아이네크 Semantic search method and system for associating with plurality of classifications

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101059032B1 (en) * 2008-12-15 2011-08-24 주식회사 엔씨소프트 Search Schema Setting Device and Method

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001184358A (en) * 1999-12-24 2001-07-06 Fujitsu Ltd Device and method for retrieving information with category factor and program recording medium therefor
JP2009145992A (en) * 2007-12-11 2009-07-02 Internatl Business Mach Corp <Ibm> Method, device and program for supporting creation of search expression using a plurality of words
KR20100067285A (en) * 2008-12-11 2010-06-21 주식회사 네오패드 Method for searching information based on user's intention and method for providing information
KR20100083614A (en) * 2009-01-14 2010-07-22 오의진 Intension search method based on search intension of user
KR20100125682A (en) * 2009-05-21 2010-12-01 주식회사 아이네크 Semantic search method and system for associating with plurality of classifications

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017078215A1 (en) * 2015-11-04 2017-05-11 (주)윕스 Method for providing customized search area setting service and server for same
WO2023116928A1 (en) * 2021-12-24 2023-06-29 Everything Green Method and system for determining carbon dioxide emission value of grading by website

Also Published As

Publication number Publication date
KR20130117126A (en) 2013-10-25
KR101347123B1 (en) 2014-01-03

Similar Documents

Publication Publication Date Title
US7844594B1 (en) Information search, retrieval and distillation into knowledge objects
US9378285B2 (en) Extending keyword searching to syntactically and semantically annotated data
US8335779B2 (en) Method and apparatus for gathering, categorizing and parameterizing data
US7231405B2 (en) Method and apparatus of indexing web pages of a web site for geographical searchine based on user location
US20020129011A1 (en) System for collecting specific information from several sources of unstructured digitized data
US20060253550A1 (en) System and method for providing data for decision support
US20130046748A1 (en) Image search engine system with multi-mode results
US20030135430A1 (en) Method and apparatus for classification
US8180751B2 (en) Using an encyclopedia to build user profiles
KR20030084245A (en) Reversed Search Engine
US20200175081A1 (en) Server, method and system for providing information search service by using sheaf of pages
US7089233B2 (en) Method and system for searching for web content
WO2013157712A1 (en) Information search device, information search method, and computer-readable recording medium
WO2012091541A1 (en) A semantic web constructor system and a method thereof
KR20050070955A (en) Method of scientific information analysis and media that can record computer program thereof
JP4649036B2 (en) Category reporting method, record reporting method, search service device by search server
KR20020030545A (en) Automatic answer and search method - based on artificial intelligence and natural languane process technology - for natural and sentencial questions.
JP5286298B2 (en) Reputation analysis apparatus, reputation analysis method, and reputation analysis program
KR20120021007A (en) System and method for providing a related term using the dynamic ontology
KR20090049433A (en) Method and system for searching using color keyword
KR100594180B1 (en) Integrated search method online
KR20180047723A (en) Internet information interpretation system by artificial intelligence learning engines
KR100645711B1 (en) Server, Method and System for Providing Information Search Service by Using Web Page Segmented into Several Information Blocks
KR20030020212A (en) Japanese Web Translated in the Korean Language Directory Searching System and Method
Narayana et al. Entity-based Semantic Association Ranking on the Semantic Web

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12874762

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 12874762

Country of ref document: EP

Kind code of ref document: A1