KR100389166B1 - Information storing and retrieval system and method thereof - Google Patents

Information storing and retrieval system and method thereof Download PDF

Info

Publication number
KR100389166B1
KR100389166B1 KR20000069722A KR20000069722A KR100389166B1 KR 100389166 B1 KR100389166 B1 KR 100389166B1 KR 20000069722 A KR20000069722 A KR 20000069722A KR 20000069722 A KR20000069722 A KR 20000069722A KR 100389166 B1 KR100389166 B1 KR 100389166B1
Authority
KR
South Korea
Prior art keywords
word
code
chinese
information
codes
Prior art date
Application number
KR20000069722A
Other languages
Korean (ko)
Other versions
KR20020039896A (en
Inventor
김시환
Original Assignee
김시환
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 김시환 filed Critical 김시환
Priority to KR20000069722A priority Critical patent/KR100389166B1/en
Priority to JP2001546007A priority patent/JP2003517686A/en
Priority to AU20296/01A priority patent/AU2029601A/en
Priority to US09/890,365 priority patent/US6775663B1/en
Priority to PCT/KR2000/001460 priority patent/WO2001044986A1/en
Priority to EP00983554A priority patent/EP1238349A4/en
Publication of KR20020039896A publication Critical patent/KR20020039896A/en
Application granted granted Critical
Publication of KR100389166B1 publication Critical patent/KR100389166B1/en
Priority to US10/841,271 priority patent/US7069265B2/en

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

PURPOSE: A system for searching information and a method thereof are provided to search wanted information rapidly and accurately. CONSTITUTION: An input unit(11) inputs a word or a sentence corresponding to information to be searched. A central processing unit(12) classifies and codes the word or sentence being inputted through the input unit(11) into a basic word and searches corresponding information based on the coded search word. A database(13) stores a plurality of word codes, a role code, and information with respect to various kinds of words. A display unit(14) displays a search word being inputted through the input unit(11) and a result searched by the central processing unit(12). An interface unit(15) transmits/receives data to an information input device(30) in accordance with the control of the central processing unit(12). The information search server(10) is connected to the Internet(20) or a wired/wireless communication network(20) and connected to the information input device(30) through the Internet(20).

Description

정보 검색 시스템과 그 방법{INFORMATION STORING AND RETRIEVAL SYSTEM AND METHOD THEREOF}Information retrieval system and its method {INFORMATION STORING AND RETRIEVAL SYSTEM AND METHOD THEREOF}

본 발명은 정보 검색 시스템과 그 방법에 관한 것으로 더욱 상세하게 설명하면, 저장된 정보 혹은 검색어를 설정된 규칙에 따른 단어 코드로 코드화 할 때, 당해 단어가 2개 이상의 의미가 있어서 2개 이상의 단어 코드를 갖는 경우, 각 단어 코드를 구성하고 있는 구성 요소 단어 코드의 상관 관계를 판단하여, 2개 이상의 단어 코드를 가진 단어를 단어 코드로 변경하는 방법과, 저장된 정보 혹은 검색어의 단어 코드를 구성하고 있는 구성 요소 단어 코드의 빈도수를 파악하여 유사한 정보를 검색하는 방법에 관한 것이다.The present invention relates to an information retrieval system and a method thereof. When the stored information or a search word is encoded into a word code according to a set rule, the word has two or more meanings and thus has two or more word codes. In this case, the correlation between the component word codes constituting each word code is determined, and a method of changing a word having two or more word codes into a word code, and the components constituting the stored information or the word code of the search word. The present invention relates to a method of retrieving similar information by identifying frequency of word codes.

최근에는 인터넷을 통한 정보 교환이 급격히 증가되고 있으며, 이에 따라 인터넷 상에서 원하는 정보를 신속하고 정확하게 찾아낼 수 있는 다양한 검색 엔진 들이 개발되고 있다.In recent years, information exchange through the Internet has been rapidly increasing, and accordingly, various search engines have been developed to quickly and accurately find desired information on the Internet.

그러나 현재의 검색 엔진들은 입력되는 단어와 일치되는 정보만을 검색하기 때문에, 인터넷 이용자들이 찾고자 하는 정보와 일치되는 단어를 모르는 경우에는 원하는 정보를 용이하게 찾을 수 없고, 또한 원하는 정보를 신속하고 정확하게 찾아낼 수 없게 된다.However, current search engines search only the information that matches the input word, so if the Internet users do not know the word that matches the information they are looking for, they will not be able to easily find the desired information, and also find the desired information quickly and accurately. It becomes impossible.

그러므로, 본 발명의 목적은 상기와 같은 문제점을 해결하여, 원하는 정보를 신속하고 정확하게 찾아낼 수 있는 방법을 제공하기 위함에 있다.Therefore, an object of the present invention is to solve the above problems, to provide a method that can quickly and accurately find the desired information.

또한, 본 발명의 다른 목적은 저장된 정보 혹은 검색어를 단어 코드로 변경할 때, 당해 단어가 2개 이상의 의미가 있어서 2개 이상의 단어 코드를 갖는 경우, 2개 이상의 단어 코드 중에서 하나를 선택하여 해당 단어를 선택된 단어 코드로 변경하는 방법과, 저장된 정보 혹은 검색어 간에 단어 코드들을 구성하고 있는 구성 요소 단어 코드의 빈도 수를 파악함으로써, 저장된 정보 혹은 검색어의 유사한 정도를 판단하는 방법을 포함하여, 이를 통해 저장된 정보 중에서 찾고자 하는 정보를 용이하고 정확하게 검색하고자 하는데 있다.In addition, another object of the present invention is to change the stored information or search word to a word code, if the word has more than one word code having two or more meanings, by selecting one of the two or more word codes to select the word Stored information, including a method of changing to a selected word code, and a method of determining the similarity of the stored information or the search word by grasping the frequency of the component word codes constituting the word codes between the stored information or the search word. It is to search for information easily and accurately.

도 1은 본 발명에 따른 정보 검색 시스템의 블록도,1 is a block diagram of an information retrieval system according to the present invention;

도 2a, 도 2b, 도 2c, 도 2d, 도 2e는 본 발명의 제 1 실시례에 따르는, 중의어를 단어 코드로 변경하는 방법을 나타내는 흐름도,2A, 2B, 2C, 2D, and 2E are flowcharts illustrating a method of changing a Chinese word into a word code according to the first embodiment of the present invention;

도 3은 벡터 공간을 이용하여 유사한 문서를 검색하는 방법의 흐름도.3 is a flow chart of a method for retrieving similar documents using vector spaces.

도 4a 내지 도 4g에는 기본 단어 리스트.4A-4G list basic words.

<도면의 주요 부분에 대한 부호설명><Code Description of Main Parts of Drawing>

10: 정보 검색 서버 11: 입력부10: information retrieval server 11: input section

12: 중앙 처리 장치 14: 디스플레이부12: central processing unit 14: display unit

15: 인터페이스부 20: 인터넷 또는 유무선 통신망15: interface unit 20: Internet or wired or wireless communication network

30: 정보 입력 장치 121: 사이트 운영부30: information input device 121: site operation unit

122: 데이터 처리부 123: 데이터 검색부122: data processing unit 123: data searching unit

13: 데이터베이스 또는 저장부 131: 단어 데이터베이스 또는 저장부13: database or storage 131: word database or storage

132: 운영 데이터베이스 또는 저장부132: operational database or storage

본 발명의 상기 목적은, 저장된 정보의 단어들이 기본 단어를 코드화하기 위한 데이터베이스를 구비하고, 저장된 정보 혹은 검색어로 입력된 단어들을 설정된 규칙에 따라 코드화함으로써 정보를 검색하는 정보 검색 방법으로, 입력부를 통하여 입력되는 검색어로부터 단어 코드로 변경하기 위한 설정 단어를 설정하는 단계와 설정 단어를 두 가지 이상의 의미를 갖는 중의어와 한 가지 의미만을 갖는 일반어로 구분하는 단계 및 일반어는 상기 데이터베이스를 이용하여 단어 코드로 변경하고, 중의어는 상기 데이터베이스를 이용하여 복수 개 중의어 단어 코드로 변환한 후, 상기 각 중의어 단어 코드를 상기 중의어 단어 코드 외의 단어 코드와 일치성을 판단한 후, 일치도가 가장 높은 중의어 단어 코드를 선정하고, 상기 중의어를 상기 선정된 중의어 단어 코드로 변경하는 코드 변환 단계를 포함하는 것을 특징으로 하는 정보 검색 방법에 의해서 달성 가능하다.The above object of the present invention is an information retrieval method for retrieving information by having a database for encoding words of stored information encoding a basic word, and encoding the words inputted as stored information or a search word according to a set rule. Setting a setting word for changing from an input search word to a word code, dividing the setting word into a Chinese word having two or more meanings and a general word having only one meaning, and changing the general word to a word code using the database The Chinese word code is converted into a plurality of Chinese word codes using the database, and after the Chinese word codes are determined to be consistent with the word codes other than the Chinese word codes, the Chinese word codes having the highest degree of matching are determined. And selecting the Chinese from the selected one of It can be achieved by the information retrieval method characterized by including a code conversion step of changing to a word word code.

본 발명의 상기 목적은, 정보를 나타내는 모든 단어들이 기본 단어와 기본 단어에 의해 설명될 수 있는 복합 단어로 이루어진 것으로 분류되는 시스템에서, 정보를 나타내는 단어를 입력하는 입력부와 저장된 정보의 단어들이 기본 단어로 세분화되고 코드화되어 있는 다수의 단어 코드와, 역할 코드 및 각종 단어에 대한 정보가 저장되어 있는 데이터베이스와 입력부를 통하여 입력되는 검색어의 입력 단어를 설정된 규칙에 따라 코드화하고, 상기 코드화된 검색어를 토대로 상기 데이터베이스를 검색하여 동일하거나 가장 많이 일치하는 정보를 찾는 중앙 처리 장치를 포함하고, 중앙 처리 장치에서 저장된 정보 혹은 검색어를 단어 코드로 코드화할 때, 중의어가 있으면, 상기 중의어의 구성 요소 단어 코드와 다른 단어의 구성 요소 단어 코드를 비교하고, 상기 중의어의 2개 이상의 단어 코드 중에서 하나의 단어 코드를 선택하여, 상기 중의어를 선택된 단어 코드로 변경하는 정보 검색 시스템에 의해서도 달성 가능하다.본 발명의 상기 목적은, 일정수의 기본 단어를 정의하고, 검색하고자 하는 기준 정보를 상기 기준 단어별 빈도수에 따라 분류 저장하는 검색 시스템을 이용하여 정보를 검색하는 정보 검색 방법으로, 입력되는 검색어로부터 복수개 설정 단어를 설정하는 단계와 복수개 설정 단어를 이용하여 상기 검색어를 기본 단어별 빈도수로 변환하는 단계 및 변환된 검색어의 기본 단어별 빈도수와 상기 기준 정보의 기준 단어별 빈도수를 비교하여 일치도가 가장 높은 기준 정보를 선택하는 단계로 이루어지는 것을 특징으로 하는 정보 검색 방법에 의해서도 달성 가능하다.The above object of the invention is that in a system in which all words representing information are classified as consisting of a base word and a compound word that can be explained by the base word, the input section for inputting the word representing information and the words of the stored information are the base words. A plurality of word codes subdivided and coded into a code, a database storing role codes and information about various words, and input words of a search word input through an input unit are coded according to a set rule, and based on the coded search word, A central processing unit that searches a database to find the same or most matching information, and when encoding information or a search word stored in the central processing unit into a word code, if there is a Chinese word, it is different from the component word code of the Chinese word. Component of the word rain the word code In addition, an information retrieval system for selecting one word code from two or more word codes of the Chinese word and changing the Chinese word to the selected word code can be achieved. An information retrieval method using a search system that defines a word and classifies and stores the reference information to be searched according to the frequency of each reference word, the method comprising: setting a plurality of setting words from the input search word and a plurality of setting words Converting the search word into a frequency for each basic word by using and comparing the frequency for each basic word of the converted search term with a frequency for each of the reference word of the reference information to select reference information having the highest match. It can also be achieved by an information retrieval method.

이하에서는, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있는 가장 바람직한 실시례를 상세히 설명한다.Hereinafter, the most preferred embodiment in which a person skilled in the art can easily carry out the present invention will be described in detail.

본 발명은 검색어로 입력된 단어의 의미나 논리를 이용한 개념 검색을 제공한다.The present invention provides a concept search using the meaning or logic of a word entered as a search word.

통상 대부분의 단어는 다른 단어로 나타낼 수 있다. 즉, A 라는 단어를 A와 다른 B,C,D... 의 단어로 설명할 수가 있다. 이때 설명을 하기 위해 사용되는 단어를 일정한 숫자의 단어로 한정할 수 있다. 즉, 정해진 일정 수의 단어를 가지고 다른 대부분의 단어를 설명할 수 있는 것이다. 여기서 정해진 일정 수의 단어를 기본 단어라고 정의하기로 한다. 따라서 기본 단어에 각각의 코드를 부여하면, 기본 단어 코드가 완성된다.In general, most words can be represented by other words. In other words, the word A can be described as A, B, C, D .... At this time, a word used for explanation may be limited to a certain number of words. In other words, it is possible to describe most other words with a fixed number of words. Here, a predetermined number of words will be defined as a basic word. Therefore, when each code is given to the basic word, the basic word code is completed.

도 4a 내지 도 4g에는 기본 단어 리스트가 예시되어 있다.4A to 4G illustrate basic word lists.

따라서 도 4에 도시된 기본 단어를 이용하여 대부분의 단어를 나타낼 수 있게 된다. 이는 국어사전 또는 영어사전이 하나의 단어를 설명할 때, 일정수의 기본 단위로서 설명하도록 하는 것과 동일한 방식이다. 통상의 단어를 기본 단어 코드로 나타내므로서, 통상의 단어가 단어 코드로 표현되는 것과 같은 효과를 가지므로, 단어 코드가 완성되는 것이다.Therefore, most words can be represented using the basic words shown in FIG. 4. This is the same way that when a Korean dictionary or an English dictionary describes a word, it is described as a certain number of basic units. Since the normal word is represented by the basic word code, the word code is completed because the ordinary word has the same effect as that represented by the word code.

이때 통상의 단어를 기본 단어 코드로 나타내는 방법을 합리적으로 고안하여, 표준화된 단어 코드 체계를 완성할 수 있다.At this time, it is possible to reasonably devise a method of representing a general word as a basic word code, thereby completing a standardized word code system.

예를 들어 "판막"은 의학(medicine, me)분야의 단어로서 "심장(ha, heart)에서(-i, in) 피(bl, blood)의 흐름(fl, flow)을 조절(co, control)하는 기관(or, organ)"을 의미한다. 이때 "판막"을 단어 코드로 나타내기 위해서는 "판막"을 나타내는 기본 단어의 단어 코드로 나타내면 된다. 그러나, "심장에서 피의 흐름을 조절하는 기관"과 같이 단어의 설명을 위해서는 단어의 변화형도 존재하고, 조사 등도 존재하게 된다. 하지만 단어를 기본 단어 코드로 나타낼 때에는 이러한 변화형이나 조사 등은 생략하고, 기본 단어 코드로만 단어를 나타낸다.For example, "valve" is a word in the field of medicine (me) that regulates the flow (fl, flow) of blood (ha, heart) (-i, in). Means "or, organ". In this case, in order to express "valve" as a word code, a word code of a basic word representing "valve" may be used. However, for the explanation of words, such as "an organ that regulates the flow of blood in the heart," there are variations of words and investigations. However, when a word is represented by a basic word code, such a variation or investigation is omitted, and the word is represented only by the basic word code.

즉 "판막"의 단어를 설명하는 단어 중에서, 의미를 가지는 단어 "심장, 피, 흐름, 조절, 기관"으로서 "판막"의 단어를 나타낼 수 있다. 이러한 의미를 가지는 단어를 언어학에서는 그 단어의 속성(혹은 요인, Factor 혹은 Entity)이라고 한다. 즉, "판막"의 단어의 속성은 "심장, 피, 흐름, 조절, 기관"이 되며, 이들 속성 단어의 단어 코드를 그대로 사용하여 "판막"의 단어 코드를 만들 수 있다. 물론 단어의 속성을 나타내는 단어들 사이에도 서로의 역할이 존재하며, 각각의 역할에 따라 위치를 달리하므로써, 좀더 효과적인 단어 코드를 만들 수 있다.That is, among the words describing the word "valve", the word "valve" can be represented as the word "heart, blood, flow, control, organ" which has a meaning. Words with this meaning are called attributes (or factors, factors, or entities) in linguistics. That is, the attribute of the word of "valve" becomes "heart, blood, flow, control, organ", and the word code of these attribute words can be used as it is to make the word code of "valve". Of course, there is a role between each word that represents the attribute of the word, and by changing the position according to each role, a more effective word code can be made.

또한 해당 단어가 속하는 분야, 예를 들어 "의학 분야"와 같은 영역을 나타내는 코드도 단어 코드에 첨가한다면, 정보의 저장과 이용에 좀 더 효율적이 될 수 있다.In addition, if a code indicating an area in which the word belongs, for example, a "medical field," is added to the word code, it may be more efficient to store and use information.

위와 같은 원리에 의하여, "판막(valve)"의 단어 코드는 "meor=coblfl-ha"가 된다. 맨 앞의 단어 "me"는 의학 분야를 나타내는 단어이고, "or"은 "기관(organ)", "co"는 조절(control), "bl"은 피(blood), "fl"은 흐름(fl), "ha"는 심장(heart)을 각각 나타낸다.By the same principle as above, the word code of "valve" becomes "meor = coblfl-ha". The first word "me" refers to the medical field, "or" is "organ", "co" is control, "bl" is blood and "fl" is flow ( fl) and "ha" each represent a heart.

또 다른 예를 들어 보면, "엔진"의 단어 코드도 "엔진"을 설명하는 단어들 중에서 의미를 가지는 단어(속성 혹은 요인 단어)를 선택한다. 엔진을 설명하면, "스팀, 전기, 혹은 기름 등으로부터 동력을 만드는 기계"이며 이들 단어들 중에서 속성 단어(의미를 가지는 단어)를 추출하면, "동력(po, power), 만드는(mk, make), 기계(ma, machine), 스팀(st, steam), 전기(el, electric) 혹은(or) 기름(ol, oil) 부터(-f, from)"이다. 따라서 이들 속성 단어의 단어 코드로 엔진의 단어 코드를 나타내면, "mamkpo-fstelolor" 이 된다. 다시 말해서, "엔진"을 제대로 설명한다면, "스팀, 전기, 혹은 기름으로부터 동력을 만드는 기계"로 나타낼 수 있지만, 이들 단어 중에서 "엔진"이라는 단어의 속성 단어만을 추출하여, 이들 속성 단어의 단어 코드 만으로 "엔진"이라는 단어의 단어 코드를 나타내게 되는 것이다.In another example, the word code of "engine" also selects a word (attribute or factor word) that has meaning among the words describing "engine". The engine is described as "a machine that generates power from steam, electricity, or oil," and extracting the attribute words (words with meaning) from these words, "po, power, and make (mk, make). , Ma, machine, st, steam, el, electric, or oil (ol, oil). Therefore, if the word code of the engine is represented by the word codes of these attribute words, it becomes "mamkpo-fstelolor". In other words, if the engine is properly described, it can be represented as a machine that generates power from steam, electricity, or oil, but only the attribute words of the word "engine" are extracted, and the word code of these attribute words is extracted. Only the word code of the word "engine".

이렇게 단어 코드를 만드는 방법은 본 출원인이 출원한 특허 출원 번호 제 2000-016986 호에 상세히 기재되어 있다.This method of making a word code is described in detail in patent application No. 2000-016986 filed by the applicant.

본 발명은 어떠한 단어의 속성 단어를 코드로 만들어, 해당 단어를 속성 단어의 코드로 표현하는 것이며, 이러한 속성 단어들을 기본 단어로 한정하는 것이다. 이때 상기 단어를 단어 코드로 나타내는 것은, 단어가 나타내고자 하는 속성이나 특성을 코드화하여 나타내는 것이기 때문에, 단어 코드를 일종의 꼬리표(tag)와 같이 표현할 수도 있다.The present invention is to make an attribute word of a word into a code, to express the word as a code of an attribute word, and to limit such attribute words to basic words. In this case, since the word is represented by a word code, the attribute or characteristic to be represented by the word is represented by coding, and thus the word code may be expressed as a tag.

다음으로 본 발명에서, 사용되는 단어인 구성 요소 단어 코드와 특성 단어 코드에 대해서 설명한다.Next, in the present invention, a component word code and a characteristic word code which are words used will be described.

구성 요소 단어 코드는 단어 코드의 기본 구성이 되는 코드이다. 예를 들어, "엔진"의 단어 코드가 "nmamkpo-fstelolor"라고 하면, "ma", "mk", "po" 등이 구성 요소 단어 코드이다. 즉, 본 발명에서는 기본 단어의 조합으로 단어 코드를 만드므로, 단어 코드에서 사용된 기본 단어가 구성 요소 단어 코드가 되는 것이다.The component word code is a code which is a basic component of a word code. For example, if the word code of "engine" is "nmamkpo-fstelolor", "ma", "mk", "po", etc. are component word codes. That is, in the present invention, since the word code is made of a combination of basic words, the basic word used in the word code is a component word code.

또한 특성 단어 코드는, 어떠한 단어의 특성을 설명하여 나타낼 때, 특성을 나타낸 설명을 단어 코드로 변경하여 해당 단어의 꼬리표 형태로 나타낸 단어 코드이다.In addition, the characteristic word code is a word code that is expressed in the form of a tag of the word by changing the description showing the characteristic into a word code when describing the characteristic of a certain word.

예를 들어, "분자"는 화학 분야에서 사용되는 단어로서, 특성 단어로 나타내보면, "물질을 구성하는 입자로서, 원자의 화학 결합에 의하여 만들어지고, 이탈리아의 화학자 아보가드로가 도입하였다. 그리고 물질의 특성을 나타내는 기본이 된다." 이다. 따라서, 이들 특성 설명을 단어 코드로 변경하여 나타내면, "ma fm mtbssl, mk aoA ctA intt, 이탈리아(C) prct 아보가드로(C) mkknfi." 의 형태가 된다. 그러므로, 화학 분야에서 사용되는 분자의 특성 단어 코드는 "ma fm mtbssl, mk aoA ctA intt, 이탈리아(C) prct 아보가드로(C) mkknfi." 가 된다.For example, "molecule" is a word used in the field of chemistry, and as a characteristic word, "a particle constituting a substance, made by chemical bonds of atoms, introduced by the Italian chemist Avogadro. Is the basis for characterization. " to be. Therefore, the description of these characteristics is changed to the word code, and is expressed as "ma fm mtbssl, mk aoA ctA intt, Italy (C) prct Avogadro (C) mkknfi." Becomes the form of. Therefore, the characteristic word codes for molecules used in chemistry are "ma fm mtbssl, mk aoA ctA intt, Italy (C) prct avogadro (C) mkknfi." Becomes

즉, 단어 코드는 해당 단어의 기본적인 설명을 하나의 단어 코드로 나타낸 것이고, 특성 단어 코드는 해당 단어의 좀 더 자세한 설명을 여러 개의 단어 코드로 변경하여 나타낸 것이다.In other words, the word code represents a basic description of the word as a single word code, and the characteristic word code represents a more detailed description of the word into a plurality of word codes.

또 다른 단어의 예로, "원자핵"의 경우를 보면 다음과 같다.Another example of the word "nuclear nucleus" is as follows.

원자핵을 특성 단어로 나타내면, "원자의(ao) 중심부에(center, cn) 있는(be, be) 작은(samll, sl) 입자(mtbssl)로서, 그 크기는(size, sz) 원자(ao) 전체의(all, al) 10만 분의 1 이지만(1/100000), 원자의 대부분의(most, mo) 질량을(mass, phms) 가지고 있다.(have, hv)"가 된다. 따라서 이들 특성 단어를 단어 코드로 바꾸어 나타내면, "ao cn be sl mtbssl, sz ao al 1/100000, ao mo phms hv." 이 된다.The atomic nucleus is expressed as a characteristic word: "a small (samll, sl) particle (mtbssl) in the center (cn), center (cn), whose size is (size, sz) and the atom (ao) One hundred thousandth (all, al) (1/100000), but most (mo, mo) of mass (mass, phms). (Have, hv). " Thus, by converting these characteristic words into word codes, "ao cn be sl mtbssl, sz ao al 1/100000, ao mo phms hv." Becomes

즉, 원자핵의 특성 단어는 "ao cn be sl mtbssl, sz ao al 1/100000, ao mo phms hv." 이 된다. 물론 "원자핵"을 단어 코드로 나타낸다면, 원자핵의 기본 설명인 "원자의 중심부 작은 입자"를 단어 코드로 변경하여 나타낸 것이 된다. 즉 "mtbsslcnao" 이 원자핵의 단어 코드가 된다.That is, the characteristic word of the atomic nucleus is "ao cn be sl mtbssl, sz ao al 1/100000, ao mo phms hv." Becomes Of course, when "atom nucleus" is represented by a word code, "a small particle in the center of an atom" which is a basic description of an atomic nucleus is changed into a word code. In other words, "mtbsslcnao" is the word code of the atomic nucleus.

상기와 같이 통상의 단어를 기본 단어의 단어 코드로 나타내어 정보를 저장하고 검색을 하면, 개념으로 정보를 검색하고 저장하는 효과를 얻을 수 있게 된다.As described above, if a normal word is represented as a word code of a basic word, information is stored and searched, an effect of searching and storing the information by concept can be obtained.

이하에서는 첨부한 도면을 토대로 하여 상세히 설명한다.Hereinafter will be described in detail with reference to the accompanying drawings.

도 1은 본 발명에 따른 정보 검색 시스템의 블록도이다. 도 1을 참조하면,본 발명에 따른 정보 검색 시스템(10)(이하 '정보 검색 서버'라 한다.)은, 검색하려는 정보에 해당하는 단어나 문장을 입력하는 입력부(11), 입력부(11)를 통하여 입력되는 단어나 문장들(이하 '검색어'라 한다.)을 기본 단어로 세분화 및 코드화하고, 코드화된 검색어를 토대로 해당하는 정보를 검색하는 중앙 처리 장치(12), 저장된 정보의 단어들이 기본 단어로 세분화되고 코드화되어 있는 다수의 단어 코드와, 역할 코드 및 각종 단어에 대한 정보가 저장되어 있는 데이터베이스(13), 입력부(11)를 통하여 입력되는 검색어를 표시하고, 중앙 처리 장치(12)에 의하여 검색된 결과를 표시하는 디스플레이부(14), 중앙 처리 장치(12)의 제어에 따라 정보 입력 장치(30)와 데이터를 송수신하는 인터페이스부(15)를 포함하는 구성을 한다.1 is a block diagram of an information retrieval system according to the present invention. Referring to FIG. 1, an information retrieval system 10 according to the present invention (hereinafter referred to as an information retrieval server) may include an input unit 11 and an input unit 11 for inputting a word or sentence corresponding to information to be retrieved. The central processing unit 12 for subdividing and encoding a word or sentences (hereinafter referred to as a 'search term') inputted into a basic word and searching for corresponding information based on the encoded search word, and the words of the stored information A plurality of word codes subdivided and coded into words, a search word input through the database 13 and the input unit 11, which store information on role codes and various words, are displayed on the central processing unit 12. And a display unit 14 for displaying the searched result, and an interface unit 15 for transmitting and receiving data to and from the information input device 30 under the control of the central processing unit 12.

정보 검색 서버(10)는 도 1에서와 같이, 인터넷 또는 유무선 통신망(20)(이하 '인터넷'이라 한다.)과 연결되며, 인터넷(20)을 통하여 정보 입력 장치(30)와 연결된다.The information retrieval server 10 is connected to the Internet or wired / wireless communication network 20 (hereinafter referred to as 'Internet') as shown in FIG. 1, and to the information input device 30 through the Internet 20.

정보 검색 서버(10)는, 저장된 정보 혹은 검색어로 입력된 단어들이 기본 단어로 세분화되고 코드화되어 있는 다수의 단어 코드와, 역할 코드 및 각종 단어에 대한 정보가 저장되어 있는 데이터베이스(13)를 구축하며, 상기 데이터베이스 (13)를 토대로 하여, 인터페이스부(15)를 통해 정보 입력 장치(30)로 입력되는 검색어 또는 입력부(11)를 통하여 입력되는 검색어에 해당하는 정보 혹은 단어를 검색하고, 그 결과를 이용자의 정보 입력 장치(30)로 제공하거나 디스플레이부(14)에 표시한다.The information retrieval server 10 builds a database 13 in which a plurality of word codes in which stored information or words inputted as a search word are subdivided and encoded into basic words, and role codes and information on various words are stored. On the basis of the database 13, a search word or information corresponding to a search word input through the interface unit 15 to the information input device 30 or a search word input through the input unit 11 is searched for, and the result is retrieved. It is provided to the user's information input device 30 or displayed on the display unit 14.

이에 따라, 정보 검색 서버(10)의 데이터베이스(13)는, 인터넷 사이트 운영 및 시스템 운영에 필요한 데이터를 저장하는 운영 데이터베이스(132)와, 기본 단어로 세분화 및 코드화되어 저장되는 다수의 단어 코드와. 각종 단어에 대한 정보를 저장하는 단어 데이터베이스(131)로 이루어진다.Accordingly, the database 13 of the information retrieval server 10 includes an operation database 132 for storing data necessary for Internet site operation and system operation, and a plurality of word codes that are segmented and coded into basic words and stored. It consists of a word database 131 that stores information on various words.

그리고, 중앙 처리 장치(12)는, 운영 데이터베이스(131)에 저장된 데이터를 토대로 하여 사이트 및 시스템을 운영하는 사이트 운영부(121)와, 입력부(11)를 통하여 입력되는 다수의 정보 혹은 검색어로 입력된 단어를 기본 단어로 세분화 및 코드화하여 단어 데이터베이스(131)에 저장하고, 입력부(11) 또는 인터페이스부 (15)를 통하여 입력되는 데이터 즉, 검색어를 기본 단어로 세분화 및 코드화하는 데이터 처리부(122), 데이터 처리부(122)에서 처리된 검색어를 토대로 단어 데이터베이스(131)를 검색하여 검색 데이터에 해당하는 정보를 찾는 데이터 검색부 (123)를 포함한다.The central processing unit 12 is inputted with a site operator 121 operating a site and a system based on data stored in the operation database 131, and a plurality of information or search terms inputted through the input unit 11. A data processor 122 for subdividing and encoding a word into a basic word and storing the word in the word database 131 and subdividing and encoding a data input through the input unit 11 or the interface unit 15, that is, a search word into a basic word; And a data search unit 123 that searches the word database 131 based on the search word processed by the data processor 122 to find information corresponding to the search data.

본 발명에 따른 정보 검색 서버(10)에 접속할 수 있는 정보 입력 장치(30)로는 컴퓨터가 이용되며, 이외에도 인터넷(20)과 연결될 수 있는 다른 통신 장치가 이용될 수 있다.A computer may be used as the information input device 30 that can access the information retrieval server 10 according to the present invention, and other communication devices that may be connected to the Internet 20 may be used.

먼저, 이러한 구조로 이루어지는 정보 검색 시스템에서, 본 발명이 해결하고자 하는 정보 처리 방법에 대하여 설명한다.First, in an information retrieval system having such a structure, an information processing method to be solved by the present invention will be described.

단어 코드를 이용한 정보의 저장과 검색에서, 저장된 정보 혹은 입력된 단어를 단어 코드로 변경하기 위해서는, 단어 데이터베이스(131)를 활용하여 각각의 단어에 대응하는 단어 코드로 변경하면 된다. 하지만 이 중에는 2개 이상의 의미를가진 단어(이하 '중의어'라 한다.)가 존재한다. 본 발명의 단어 코드는 의미를 상징적으로 코드화한 것이므로, 중의어인 경우에는 1개의 단어에 단어 코드가 2개 이상이 있게 된다.In the storage and retrieval of information using a word code, in order to change the stored information or the input word into a word code, the word database 131 may be used to change the word code corresponding to each word. However, there are words that have two or more meanings (hereinafter referred to as 'middle words'). Since the word code of the present invention symbolically encodes the meaning, in the case of Chinese, there are two or more word codes in one word.

예를 들어, "눈"의 경우 "신체에서 보는 기능을 가진 기관"과 "추운 날에 비처럼 내리는 물방울이 얼어서 생긴 것" 의 두가지 의미가 존재한다. 이렇게 두가지 이상의 의미가 존재하는 단어를 중의어라고 하는데, 이 경우에는 단어 코드가 2개 이상이 된다. 이렇게 1개의 단어가 2개 이상의 단어 코드를 가지는 중의어이면, 중의어를 단어 코드로 변경하기 위한 새로운 방법이 필요하게 된다.For example, in the case of "eye", there are two meanings: "the organ with the function of seeing in the body" and "the result of freezing rain drops on a cold day." Words that have more than one meaning are called Chinese, in which case there are more than one word code. If one word is a Chinese word having two or more word codes, a new method for converting the Chinese word to a word code is needed.

그러므로, 본 발명에서는 저장된 정보 혹은 검색어에 중의어가 존재할 경우, 중의어를 단어 코드로 변경하기 위한 방법을 제공하고자 한다. 즉, 중의어의 구성 요소 단어 코드와 다른 단어의 구성 요소 단어 코드를 비교하고, 중의어의 2개 이상의 단어 코드 중에서 하나의 단어 코드를 선택하여, 선택된 단어 코드로 중의어를 변경한다.Therefore, the present invention is to provide a method for converting a Chinese word into a word code when the Chinese word exists in the stored information or the search word. That is, the component word code of the Chinese word is compared with the component word code of another word, one word code is selected from two or more word codes of the Chinese word, and the Chinese word is changed to the selected word code.

여기서 중의어를 다른 단어의 구성 요소 단어 코드와 비교할 때, 비교 대상이 되는 다른 단어의 범위를 정하는 것이 중요한데, 통상 중의어와 동일한 문장 내의 단어나 구, 혹은 근접한 단어가 된다. 그리고 검색어일 경우에는 하나의 논리를 이루는 검색어내가 된다.When comparing the Chinese word with the constituent word codes of other words, it is important to determine the range of other words to be compared, which is usually a word or phrase in the same sentence as the Chinese word, or a close word. And in the case of a search word, it is within a search word forming a logic.

예를 들어, 저장된 정보 혹은 검색어에 "화학 물질 메탄 분자의 크기" 라는 문장이 있다고 하자. 그러면 먼저 상기 문장을 단어 코드로 변경하여야 한다. 우선, "메탄"은 화학 물질의 한 종류로서, 고유 명사이기도 하므로, 화학(chemistry) 분야를 나타내는 단어 코드 "ct" 를 부여하고, 고유 명사를 나타내는 코드 "C"를 부여하면, "메탄"의 단어 코드는 "ct메탄(C)"이 된다. 그리고 "크기(size,sz)"의 단어 코드는 "sz"가 된다. 그러나 "분자"의 단어는 화학 분야에서 사용되는 의미와 수학 분야에서 사용되는 의미가 각각 존재한다. 따라서 분자는 단어 코드가 2개 존재하게 되며, 2개의 단어 코드 중에서 어느 하나의 단어 코드를 선택해야 한다.For example, let's say you have the sentence "size of chemical methane molecules" in the stored information or search term. First, the sentence should be changed to a word code. First, since "methane" is a kind of chemical substance, which is also a proper noun, a word code "ct" indicating a chemistry field is given, and a code "C" indicating a proper noun is given. The word code is "ct methane (C)". And the word code of "size, sz" becomes "sz". However, the word "molecule" has a meaning used in the chemical field and a meaning used in the mathematical field, respectively. Therefore, the molecule has two word codes, and one word code must be selected from the two word codes.

이를 위해서, 우선 "분자"의 단어가 가진 단어 코드를 모두 고려하여야 한다. 화학 분야에서 "분자"의 의미는 "화학(chemistry, ct)에서 물질을 형성하는 입자로서, 원자로 구성됨." 이다. 따라서 이들 단어 중에서 속성 단어를 추출하면, "화학(chemistry, ct)", "물질(material, mt)", "형성(form, fm)", "입자(small(sl)", "basic(bs), material(mt))", "원자(atom, ao)”이다. 따라서 단어 코드는 "ctmtmtbssl=fm-fao" 가 된다.To do this, first consider all the word codes of the word "molecular". In the field of chemistry, "molecule" means "a particle that forms a substance in chemistry (ct), consisting of atoms." to be. Therefore, if you extract attribute words from these words, "chemistry (ct)", "material (mt)", "form (fm)", "particle (small (sl)", "basic (bs) , material (mt)) ", and" atom, ao ". The word code therefore becomes" ctmtmtbssl = fm-fao ".

또한 수학 분야에서 "분자"의 의미는 "수학(mathemathics,mm)에서 전체(whole, wl) 수(number, nb)를 나누는(divide,dd) 부분(part,pt)" 이 된다. 그리고 이중에서 속성 단어는 , "수학(mathemathics,mm)", "전체(whole, wl)", "수(number, nb)", "나누다(divide,dd)", "부분(part,pt)"이다. 그러므로 수학 분야에서 사용되는 "분자"의 단어 코드는 "mmpt=ddnbwl"이 된다.Also, in the field of mathematics, the meaning of "molecule" is "part, pt, which divides the whole (wl) number (num, nb) in mathemathics, mm". And among these, the property words are "mathemathics, mm", "whole, wl", "number, nb", "divide, dd", "part, pt) "to be. Therefore, the word code of "molecule" used in the field of mathematics becomes "mmpt = ddnbwl".

그러므로 상기 문장 "화학 물질 메탄 분자의 크기"가 변경 가능한 단어 코드는 다음 2가지 가지수이다.Therefore, the word code for which the sentence "size of chemical methane molecule" can be changed is two kinds.

1. " ct mt ct메탄(C) ctmtmtbssl=fm-fao sz"1. "ct mt ct methane (C) ctmtmtbssl = fm-fao sz"

2. " ct mt ct메탄(C) mmpt=ddnbwl sz"2. "ct mt ct methane (C) mmpt = ddnbwl sz"

즉, 1번의 경우는 "분자"의 단어가 화학 분야에 사용되는 단어임을 가정해서 단어 코드로 변경한 경우이고, 2번의 경우는 "분자"의 단어가 수학 분야에 사용되는 단어임을 가정해서 단어 코드로 변경한 경우이다.That is, in case 1, the word "molecular" is changed to a word code on the assumption that it is a word used in chemistry. In case 2, the word "molecular" is a word code used in the mathematical field. If changed to.

따라서, "화학 물질 메탄 분자의 크기"라는 문장을 단어 코드로 변경하기 위해서는 1 번째 경우와 2 번째 경우 중에서 하나를 선택하여야 한다. 이러한 선택을 위해서, 본 발명에서는 중의어의 단어 코드의 구성 요소 단어 코드와 다른 단어의 구성 요소 단어 코드를 비교하여, 중의어의 2개 이상의 단어 코드 중에서 하나의 단어 코드를 선택하여, 선택된 단어 코드로 중의어를 변경한다.Thus, to change the sentence "size of chemical methane molecule" to the word code, one of the first case and the second case should be selected. For this selection, in the present invention, the component word code of the Chinese word code is compared with the component word code of another word, one word code is selected from two or more word codes of the Chinese word, and the selected word code is selected. Change the language to.

1번에서는 "분자"의 화학 분야를 나타내는 영역 코드 "ct"가 "메탄"의 단어 코드에도 존재하고, "분자"의 구성 요소 단어 코드 "mt"가 "물질"의 구성 요소 단어 코드에도 존재하게 된다. 하지만, 2번에서는 "분자"의 구성 요소 단어 코드 중에서, 중의어가 아닌 다른 단어의 구성 요소 단어 코드와 일치하는 구성 요소 단어 코드가 존재하지 않게 된다. 따라서, 1번과 2번 중에서 1번이 선택된다.In No. 1, the area code "ct" indicating the chemical field of "molecule" exists in the word code of "methane", and the component word code "mt" of "molecular" also exists in the component word code of "material". do. However, in No. 2, there is no component word code among the component word codes of "molecular" that matches the component word codes of words other than Chinese. Therefore, 1 is selected from 1 and 2.

그러므로, "메탄 물질 분자의 크기" 라는 문장에 있는 "분자"의 단어 코드는 "ctmtmtbssl=fm-fao"으로 선택되고, 이러한 선택에 의해 "분자"의 단어 코드가 변경된다. 따라서 해당 문장이 전부 단어 코드로 변경될 수 있게 된다.Therefore, the word code of "molecule" in the sentence "size of the molecule of methane substance" is selected as "ctmtmtbssl = fm-fao", and this selection changes the word code of "molecule". Therefore, all the sentences can be changed to a word code.

즉, "화학 물질 메탄 분자의 크기"를 단어 코드로 변경하면, 1번의 경우가 선택되어, "ct mt ct메탄(C) ctmtmtbssl=fm-fao sz" 이 된다.In other words, changing the "size of the chemical methane molecule" to the word code, the first case is selected, and "ct mt ct methane (C) ctmtmtbssl = fm-fao sz".

한편, 저장된 정보 혹은 검색어의 단어가 "아보가드로(고유명사,C)가설명한(explain, ep) 분자"라고 한다면, 해당 문장을 단어 코드로 변경할 수가 있다. 마찬가지로 "분자"가 중의어에 해당되므로, 상기 단어를 아래와 같이 두가지 경우의 단어 코드로 변경할 수가 있다.On the other hand, if the words of the stored information or search word "a molecule described by Avogadro (proprietary noun, C) (explain, ep)", the sentence can be changed to a word code. Similarly, since "molecule" corresponds to the Chinese word, the word can be changed into the word code in two cases as follows.

1. 아보가드로(C) ep ctmtmtbssl=fm-fao1.Avogadro (C) ep ctmtmtbssl = fm-fao

2. 아보가드로(C) ep mmpt=ddnbwl2. Avogadro (C) ep mmpt = ddnbwl

하지만, 상기 두가지 경우 모두 중의어의 구성 요소 단어 코드와 다른 단어의 구성 요소 단어 코드가 서로 일치하는 것이 하나도 없다. 이러한 경우에는 중의어인 "분자"의 특성 단어 코드를 비교해 보아야 한다. 화학 분야에서 사용되는 "분자"의 특성은 "물질을 구성하는 입자로서, 원자의 화학 결합에 의하여 만들어지고, 이탈리아의 화학자 아보가드로가 도입하였다. 그리고 물질의 특성을 나타내는 기본이 된다."이다.However, in both cases, none of the constituent word codes of the Chinese words and the constituent word codes of other words match each other. In this case, the characteristic word codes of the Chinese word "molecule" should be compared. The property of "molecules" used in chemistry is "particles, which are made of chemical bonds of atoms, introduced by the Italian chemist Avogadro, and are the basis for the characterization of substances."

여기서 "결합(Combination)"은 "join(jn) tigether(tt)"의 의미이므로, "결합"의 단어 코드는 "jntt" 이 되며, "화학자(chemist)"는 "person(pr) who work chemistry(ct)"이므로 단어 코드는 "prct"가 된다. 그리고 "도입(introduction)"의 뜻은 "make(mk) known(kn) first(fs)" 이므로 "도입"을 단어 코드로 나타내면, "mkknfs"이 된다.Since "Combination" means "join (jn) tigether (tt)", the word code for "Combination" is "jntt" and "chemist" is "person (pr) who work chemistry (ct) ", so the word code is" prct ". And because the word "introduction" means "make (mk) known (kn) first (fs)", when "introduction" is expressed as a word code, it is "mkknfs".

또한 그 밖에 단어의 단어 코드는 각각 "물질(material, mt)", "구성하다(compose=form, fm)", "화학(chemistry, ct)", "입자(material base small, mtbssl)", "원자(atom, ao)" 이다.In addition, the word codes of the words are "material (mt)", "compose (form, fm)", "chemistry (ct)", "material base small (mtbssl)", "Atom, ao".

따라서, "분자"를 꼬리표(tag)인 특성 단어 코드로 나타내 보면 다음과 같이할 수 있다. 즉, 분자 "ma fm mtbssl, mk ao ct intt, 이탈리아(C) prct 아보가드로(C) mkknfi."의 형태가 된다.Thus, when "molecule" is represented by a characteristic word code that is a tag, the following can be obtained. Namely, the molecule "ma fm mtbssl, mk ao ct intt, Italy (C) prct avogadro (C) mkknfi.".

이때, 화학 분야에서 사용되는 "분자"의 특성 단어 중에 "아보가드로"라는 고유명사가 존재하게 된다는 사실을 알 수가 있다. 따라서 "아보가드로가 설명한 분자"를 단어 코드로 바꾼다면, "분자"의 단어를 화학 분야에서 사용한 단어의 의미를 가지는 단어 코드로 변경하여야 한다.At this time, it can be seen that the proper noun “Avogadro” exists among the characteristic words of “molecule” used in the chemical field. Thus, if you change the "molecule described by Avogadro" to a word code, you must change the word "molecule" to a word code that has the meaning of the word used in the chemical field.

이와 같이, 중의어의 구성 요소 단어 코드를 다른 단어의 구성 요소 단어 코드와 비교함에 있어서, 중의어의 단어 코드 이외에, 중의어의 특성 단어 코드를 이루는 구성 요소 단어 코드도 비교 대상이 될 수 있다.As described above, in comparing the component word codes of the Chinese words with the component word codes of other words, the component word codes constituting the characteristic word codes of the Chinese words can be compared in addition to the word codes of the Chinese words.

또한 중의어의 구성 요소 단어 코드를 다른 단어의 구성 요소 단어 코드와 비교하는 코드 내에는 단어의 영역을 나타내는 코드도 포함되게 된다.In addition, a code indicating an area of a word is included in a code for comparing a component word code of a Chinese word with a component word code of another word.

여기서 단어의 영역의 예는 "화학 분야", "수학 분야" 등으로, 각 단어가 속하는 영역을 의미하며, 사용되는 영역에 따라 단어의 의미가 달라질 수 있으므로 영역 표시도 중요한 비교 대상이 된다.Here, examples of the word region are "chemical field", "math field", etc., which means the area to which each word belongs, and the meaning of the word may vary depending on the area used, so the area display is also an important comparison object.

도 2a, 도 2b, 도 2c, 도 2d, 도 2e는 본 발명의 제 1 실시례에 따르는 중의어를 단어 코드로 변경하는 방법의 흐름도이다.2A, 2B, 2C, 2D, and 2E are flowcharts of a method of changing a Chinese word into a word code according to the first embodiment of the present invention.

먼저 도 2a와 도2b의 흐름도에 대해서 먼저 설명한다.First, the flowcharts of FIGS. 2A and 2B will be described.

인터넷(20)을 통하여 얻어지는 정보나 운영 데이터베이스(132) 등에 저장된 정보 혹은 입력부(11)를 통하여 입력되는 검색어에서, 단어 코드로 변경하기 위한 단어를 설정한다.(1100 단계)A word for changing to a word code is set from information obtained through the Internet 20, information stored in the operation database 132 or the like, or a search word input through the input unit 11 (step 1100).

검색어가 존재하거나 단어 코드로 변경되지 않은 저장된 정보가 있을 경우에는 해당 정보나 단어를 단어 코드로 변경하여야 하며, 해당 정보나 단어를 단어 코드로 변경하기 위한 작업을 수행한다.If there is a search word or stored information that is not changed to a word code, the corresponding information or word should be changed to a word code, and a task for changing the information or word to a word code is performed.

설정된 단어에서 2개 이상의 단어 코드를 가진 단어가 존재하는지를 판단한다.(1110 단계) 여기서 2개 이상의 단어 코드를 가진 단어는 중의어를 의미한다. 이러한 판단은 단어 데이터베이스(131)에 저장된 정보를 근거로, 중앙 처리 장치(12)에서 수행된다. 즉 입력된 단어를 단어 데이터베이스(131)에서 검색하여, 한 개의 단어에 두 개의 단어 코드가 대응되어 있는 단어가 있으면, 해당 단어는 2개의 단어 코드를 가진 단어가 되는 것이고 중의어가 되는 것이다.It is determined whether there is a word having two or more word codes in the set word (step 1110). Here, the word having two or more word codes means a Chinese word. This determination is performed in the central processing unit 12 based on the information stored in the word database 131. In other words, if a word that is input is searched in the word database 131, and a word has two word codes corresponding to one word, the word becomes a word having two word codes and becomes a Chinese word.

이하 중앙 처리 장치(12) 및 데이터베이스(13)를 통해서 수행되는 알고리즘을 설명하겠다. 이하에서 설명되는 알고리즘은 도 1의 중앙처리장치(12) 및 데이터베이스(13)를 통해서 수행되어 진다.The algorithm performed through the central processing unit 12 and the database 13 will now be described. The algorithm described below is performed through the central processing unit 12 and the database 13 of FIG.

설정된 단어에서 2 개 이상의 단어 코드를 가진 단어가 없으면, 설정된 단어를 단어 코드로 변경한다.(1150 단계)If there is no word having two or more word codes in the set word, the set word is changed to a word code (step 1150).

설정된 단어에서 2개 이상의 단어 코드를 가진 단어가 있으면, 설정된 단어 중에서 1개의 단어 코드를 가진 단어를 단어 코드로 변경한다.(1120 단계)If there is a word having two or more word codes in the set word, the word having one word code among the set words is changed to the word code (step 1120).

예를 들어, 설정 단어가 "화학 물질 메탄 분자의 크기"라면, 이 중에서 중의어가 아닌 단어는 "화학 물질 메탄 크기"이므로, 우선, 이들 단어를 단어 코드로 변경한다.For example, if the set word is "size of chemical methane molecule", the non-word word among these is "chemical methane size", so first of all, these words are changed to a word code.

그리고, 2개 이상의 단어 코드를 가진 단어가 1개인가를 판단한다.(1130 단계)Then, it is determined whether there is one word having two or more word codes (step 1130).

설정된 단어에서 2개 이상의 단어 코드를 가진 단어는 "분자" 로서 1개이다.Words with two or more word codes in the set word are one as "molecules".

다음에는, 중의어가 가진 단어 코드에 1 부터 n 까지 임의의 순서를 부여한다.(1140 단계)Next, a random order of 1 to n is given to the word code of the Chinese word (step 1140).

설정 단어에서 "분자"의 단어 코드는 2개 이므로, "ctmtmtbssl=fm-fao"의 단어 코드에는 1번을 부여하고, "mmpt=ddnbwl"의 단어 코드에는 2번을 부여한다. 또한, 중의어의 단어 코드가 4개라면, 각각의 단어 코드에 1, 2, 3, 4 와 같이 임의의 순서를 부여할 수 있다.Since the word code of "molecular" is two in the set word, the word code of "ctmtmtbssl = fm-fao" is assigned with 1 and the word code of "mmpt = ddnbwl" with 2. If the word code of the Chinese language is four, each word code can be given an arbitrary order such as 1, 2, 3, 4, respectively.

한편 중의어의 제 1 단어 코드 부터 제 n 단어 코드까지, 프로그램 상에 루프(loop)를 형성하여 각 단어 코드의 구성 요소 단어 코드와 다른 단어의 구성 요소 단어 코드를 비교한다. 그리고 각각 일치하는 구성 요소 단어 코드 수를 kn이라고 한다.(1200∼1220 단계)On the other hand, a loop is formed on the program, from the first word code to the nth word code of the Chinese language, and the component word codes of each word code are compared with the component word codes of other words. The number of component word codes that match each is called kn (steps 1200 to 1220).

실시례에서, 중의어인 "분자"의 제 1 단어 코드는 "ctmtmtbssl=fm-fao"이고, 제 2 단어 코드는 "mmpt=ddnbwl"이다. 따라서 먼저 제 1 단어 코드의 구성 요소 단어 코드와 다른 단어의 구성 요소 단어 코드를 비교한다. 다른 단어의 구성 요소 단어 코드는 "ct mt ct메탄(C)"이다. 이 중에서 "ct" 는 2차례 일치하고 mt 는 1차례 일치하므로, 일치하는 구성 요소 단어 코드의 수는 3이다, 따라서 "k1=3" 이 된다. 그러나 제 2 단어 코드의 구성 요소 단어 코드와 다른 단어의 구성 요소 단어 코드 중에서는 일치하는 구성 요소 단어 코드가 존재하지 않는다. 따라서 "k2=0"이 된다.In an embodiment, the first word code of the Chinese word "molecule" is "ctmtmtbssl = fm-fao" and the second word code is "mmpt = ddnbwl". Therefore, first, the component word code of the first word code is compared with the component word code of another word. The component word code for another word is "ct mt ct methane (C)". Since "ct" matches twice and mt matches once, the number of constituent word codes to match is 3, thus "k1 = 3". However, there is no corresponding component word code among the component word codes of the second word code and the component word codes of other words. Therefore, "k2 = 0" is obtained.

이와 같이 중의어의 단어 코드 수에 따라 kn의 가지수가 결정된다. 그리고, kn 번째 단어 코드의 구성 요소 단어 코드와 다른 단어의 구성 요소 단어 코드를 서로 비교하여, 일치하는 구성 요소 단어 코드의 수에 따라 kn의 값이 정해지고, 가장 큰 값을 가진 kx가 선택된다. (1230 단계)Thus, the number of branches of kn is determined by the number of word codes of the Chinese language. Then, by comparing the component word code of the kn-th word code with the component word code of another word, the value of kn is determined according to the number of matching component word codes, and kx having the largest value is selected. . (1230 steps)

선택된 kx와 순서가 같은 단어 코드를 선택하고(1240 단계), 중의어에 선택된 단어 코드를 부여하여, 선택된 단어 코드로 중의어를 변경한다.(1250 단계)The word code having the same order as the selected kx is selected (step 1240), and the selected word code is given to the Chinese word, and the Chinese word is changed to the selected word code (step 1250).

실시례에서 보면, "k1=3" 이고, "k2=0" 이므로, k1이 선택되고, 선택된 k1과 순서가 동일한 단어 코드 즉 제 1 단어 코드가 선택된다. 따라서 "분자"의 제 1 단어 코드인 "ctmtmtbssl=fm-fao"이 선택된다. 그리고 중의어인 "분자"의 단어 코드에 제 1 단어 코드 "ctmtmtbssl=fm-fao"를 부여하여, "분자"의 단어 코드를 "ctmtmtbssl=fm-fao"로 변경한다.In the embodiment, since "k1 = 3" and "k2 = 0", k1 is selected, and a word code, that is, a first word code having the same order as the selected k1 is selected. Therefore, "ctmtmtbssl = fm-fao" which is the first word code of "molecule" is selected. Then, the first word code "ctmtmtbssl = fm-fao" is assigned to the word code of "molecular" which is the Chinese word, and the word code of "molecular" is changed to "ctmtmtbssl = fm-fao".

그리고 나머지 설정된 단어들도 단어 코드로 변경하게 되면, 설정된 전체의 단어가 단어 코드로 변경된다.(1260 단계)If the other set words are also changed to a word code, the entire set word is changed to a word code (step 1260).

즉 실시례에서 설정 단어가 "화학 물질 메탄 분자의 크기" 이므로, 설정 단어는 " ct메탄(C) mt ctmtmtbssl=fm-fao sz" 의 단어 코드로 변경된다.That is, in the embodiment, since the set word is "size of the chemical methane molecule", the set word is changed to the word code of "ct methane (C) mt ctmtmtbssl = fm-fao sz".

도 2c 는 제 1 실시예에서, 중의어가 2개 이상인 경우의 실시례에 따르는 정보 검색 방법의 흐름도이다.2C is a flowchart of an information retrieval method according to an embodiment in the case where there are two or more Chinese words in the first embodiment.

중의어가 2개 이상인 경우에 각각의 중의어에 대해서 1 부터 j까지 순서를 부여하고(1300 단계), 순서가 부여된 1 부터 j까지의 각각의 단어의 단어 코드에 1부터 n까지 순서를 부여한다.(1310 단계)If there are two or more Chinese words, the order of 1 to j is assigned to each Chinese word (step 1300), and the order of 1 to n is assigned to the word codes of the ordered words of 1 to j. (Step 1310)

예를 들어, 단어 코드로 변경하기 위하여 설정된 단어가 다음과 같은 형태를 취한다고 가정해보자.For example, suppose a word set up to change to a word code takes the form:

"중의어1, 일반 단어, 중의어2, 중의어3, 일반 단어""Chinese 1, common word, Chinese 2, Chinese 3, common word"

즉 중의어가 3개이며, 중의어가 아닌 일반 단어가 2개로 이루어진 문장을 하나의 예로 생각해 볼 수 있다. 중의어가 3개이면, 각가의 중의어에 제 1번 부터 3번까지 순서를 부여한다. 그리고 각각의 중의어는 단어 코드가 2개 이상이므로, 제 1번 부터 제 3번까지 순서가 부여된 중의어의 각각의 단어 코드에 제 1번부터 n번까지 임의의 순서를 부여한다.In other words, a sentence composed of three Chinese words and two non-Chinese general words can be considered as an example. If there are three Chinese words, the first to third numbers are given to each Chinese word. Since each Chinese word has two or more word codes, a random order is given from first to n times to each word code of the first to third Chinese words.

예를 들어, 중의어1의 단어 코드가 "(1)(2)(10)(20)(20),(22)(23)(24)(25), (30)(35)(36)(38)(40)(41)"로 3개이면, 중의어 1의 단어 코드에서 "(1)(2)(10)(20) (20)"는 제 1 단어 코드로, "(22)(23)(24)(25)"는 제 2 단어 코드로 "(30)(35) (36)(38)(40)(41)"는 제 3 단어 코드로 각각 임의의 순서를 부여한다.For example, the word code of Chinese 1 is "(1) (2) (10) (20) (20), (22) (23) (24) (25), (30) (35) (36). (38) (40) (41) ", " (1) (2) (10) (20) (20) " is the first word code in " (22) " (23) (24) (25) " is the second word code, and " (30) (35) (36) 38 (40) (41) &quot; imparts an arbitrary order to the third word code, respectively.

상기 중의어 1의 예에서, 단어 코드로 나타낸 "(1)(2)(10)(20)(20)"에서, 각각의 괄호는 하나의 구성 요소 단어 코드를 의미한다. 그리고 괄호 안의 숫자는 구성 요소 단어 코드를 나타내는 기본 단어를 서로 구별하기 위해서이다. 즉 (1), (2), (20) 등은 각각 별개의 구성 요소 단어 코드를 나타낸다.In the example of Chinese 1 above, in "(1) (2) (10) (20) (20)" denoted by the word code, each parenthesis means one component word code. The numbers in parentheses are to distinguish the base words that represent the component word codes. That is, (1), (2), (20), and the like each represent a separate component word code.

마찬가지로 제 2 중의어와 제 3 중의어의 단어 코드도 각각 제 n번의 단어 코드와 같이 임의의 순서를 부여하여 다른 단어 코드와 구별되게 된다. 이렇게 각각의 중의어와 각각의 단어 코드에 순서가 부여되면, 모든 단어 코드는 제 j번째 중의어의 제 n 번째 단어 코드와 같이, 단어 코드 간에 서로를 구별할 수 있는 식별 부호가 부여되게 된다.Similarly, the word codes of the second and third Chinese words are given a random order like the nth word code, respectively, to distinguish them from other word codes. In this way, when each Chinese word and each word code is given an order, all the word codes are given an identification code that can distinguish between the word codes, such as the nth word code of the j-th Chinese word.

다음으로, 제 1번부터 제 j 번까지 중의어를 교대로 선택하고, 각각의 중의어에서 제 1 번 단어 코드 부터 제 n 번 단어 코드까지 교대로 선택한다.(1320 단계) 그리고 각각의 중의어의 가지 수와 각각의 단어 코드의 가지수로써 경우의 수의 조합을 만든다.(1330 단계) 이렇게 만든 경우의 수의 조합에 의하여, 설정된 단어가 단어 코드로 변경될 수 있는 가능한 단어 코드 세트(Set)를 모두 나열하고, 각각의 단어 코드 세트에 제 1번 부터 제 k번까지 순서를 정한다.(1340 단계)Next, the first to j j Chinese words are alternately selected, and each Chinese word is alternately selected from the first word code to the n th word code (step 1320). The number of cases is made by the number of branches of each word code and the number of cases of each word code (step 1330). The set of possible word codes in which the set word can be changed to a word code by the combination of the numbers of cases made in this way ) And list each word code set from 1st to kth (step 1340).

예를 들어 설정된 단어가 아래와 같은 형태를 가진다고 가정해보자.For example, suppose the set word has the following form:

"중의어 1(단어 코드 3개), 일반 단어1, 중의어 2(단어 코드 2개), 중의어 3(단어 코드 4개), 일반 단어2""Middle 1 (3 word codes), Generic word 1, Chinese 2 (2 word codes), Chinese 3 (4 word codes), Generic word 2"

그러면 비교할 수 있는 단어들의 경우의 수의 조합의 가지수는 24개가 된다. 따라서 설정된 단어가 단어 코드로 변경될 수 있는 가능한 단어 코드의 세트(Set)는 다음과 같은 형태의 24개가 된다. 이를 다음과 같이 나열 할 수 있다. 그리고 다음과 같이 나열된 단어 코드의 24개의 가지수가, 설정된 단어가 단어 코드로 변경될 수 있는 가능한 단어 코드이다.The number of combinations of the number of cases of comparable words is then 24. Accordingly, the set of possible word codes in which the set word can be changed into a word code is 24 in the following form. You can list it like this: The 24 kinds of word codes listed as follows are possible word codes in which a set word can be changed into a word code.

1) 중의어 1의 제 1 단어 코드, 일반 단어 1, 중의어 2의 제 1 단어 코드, 중의어 3의 제 1 단어 코드, 일반 단어 2.1) first word code of Chinese 1, general word 1, first word code of Chinese 2, first word code of Chinese 3, general word 2.

2) 중의어 1의 제 1 단어 코드, 일반 단어 1, 중의어 2의 제 1 단어 코드, 중의어 3의 제 2 단어 코드, 일반 단어 2.2) first word code of Chinese 1, general word 1, first word code of Chinese 2, second word code of Chinese 3, general word 2.

3) 중의어 1의 제 1 단어 코드, 일반 단어 1, 중의어 2의 제 1 단어 코드,중의어 3의 제 3 단어 코드, 일반 단어 2.3) first word code of Chinese 1, general word 1, first word code of Chinese 2, third word code of Chinese 3, general word 2.

4) 중의어 1의 제 1 단어 코드, 일반 단어 1, 중의어 2의 제 1 단어 코드, 중의어 3의 제 4 단어 코드, 일반 단어 2.4) 1st word code of Chinese 1, general word 1, 1st word code of Chinese 2, 4th word code of Chinese 3, general word 2.

................

................

................

22) 중의어 1의 제 3 단어 코드, 일반 단어 1, 중의어 2의 제 2 단어 코드, 중의어 3의 제 2 단어 코드, 일반 단어 2.22) Third word code of Chinese 1, general word 1, second word code of Chinese 2, second word code of Chinese 3, general word 2.

23) 중의어 1의 제 3 단어 코드, 일반 단어 1, 중의어 2의 제 2 단어 코드, 중의어 3의 제 3 단어 코드, 일반 단어 2.23) Third word code of Chinese 1, general word 1, second word code of Chinese 2, third word code of Chinese 3, general word 2.

24) 중의어 1의 제 3 단어 코드, 일반 단어 1, 중의어 2의 제 2 단어 코드, 중의어 3의 제 4 단어 코드, 일반 단어 2.24) Third word code of Chinese 1, general word 1, second word code of Chinese 2, fourth word code of Chinese 3, general word 2.

제 1번 부터 제 k번까지 각각의 경우에서, 구성 요소 단어 코드를 서로 비교하여 일치하는 구성 요소 단어 코드 수를 파악한다.(1350 단계) 그런 다음 1번 부터 k번까지 중에서 일치하는 구성 요소 단어 코드 수가 가장 많은 경우를 선택한다.(1360 단계)In each case of the first to kth cases, the component word codes are compared with each other to determine the number of matching component word codes (step 1350). Then, the corresponding component words among the first to k times are matched. Select the case with the largest number of codes (step 1360).

상기 예에서처럼 24개 세트 각각에 번호 k를 순서대로 부여한다. 그리고, 각각의 set 내에서 구성 요소 단어 코드의 수가 가장 많이 일치하는 번호를 선택한다.As in the above example, the number k is assigned to each of the 24 sets in order. Then, in each set, the number with the highest number of component word codes is selected.

예를 들어 23)번의 단어 코드가 "(20)(27)(28)(29), (20)(31)(11)(37),(40)(41)(31)(99), (11)(55)(1), (11)(60)" 라면, (20)의 구성 요소 단어 코드가 2번, (31)의 구성 요소 단어 코드가 2번, (11)의 구성 요소 단어 코드가 3번, 일치한다. 따라서 이들을 모두 더하면 7이 되고, 결과적으로 23)번의 일치하는 구성 요소 단어 코드 수는 7이 된다. 동일한 방법으로 제 1)번 부터 24)번까지 모두 일치하는 구성 요소 단어 코드의 수를 파악하여 수를 구한다.For example, the word code 23 is "(20) (27) (28) (29), (20) (31) (11) (37), (40) (41) (31) (99), ( 11) (55) (1), (11) (60) ", the component word code of (20) is 2, the component word code of (31) is 2, and the component word code of (11) Matches 3 times. Therefore, adding them all up to 7 results in a number of 23) component word codes that match. In the same way, the number of component word codes that match all of 1) through 24) is obtained and found.

만일 제 11)번째에 일치하는 구성 요소 단어 코드의 수를 모두 더한 값이 11로 가장 많다고 한다면, 11)번째로 설정된 단어 코드의 set가 선택되게 된다. 즉, 단어 코드로 변경하기 위하여 설정된 단어는 11)번째의 단어 코드로 변경되게 된다.If the sum of the number of component word codes corresponding to the eleventh) is the most, 11, the set of the word code set for the eleventh) is selected. That is, a word set to change to a word code is changed to the 11th word code.

상기와 같이 일치하는 구성 요소 단어 코드를 모두 더한 값이 가장 큰 경우가 선택되면, 저장된 정보 혹은 검색어에서 단어 코드로 변경하기 위해 설정된 단어를 선택된 경우의 단어 코드로 변경한다. (1370 단계)When the case where the value of the sum of all the matching component word codes is selected as described above is selected, the word set for changing from the stored information or the search word to the word code is changed to the word code of the selected case. (1370 steps)

즉, 제 11)번 세트에서, 일치하는 구성 요소 단어 코드의 수를 모두 더한 값이 11로 가장 많다고 한다면, 11)번째로 설정된 단어 코드의 세트가 선택되게 된다. 다시 말해 단어 코드로 변경하기 위하여 설정된 단어는 11)번째의 단어 코드로 변경되게 된다.In other words, in the eleventh set, if the sum of the number of the corresponding component word codes is 11, the set of the eleventh set word codes is selected. In other words, a word set to change to a word code is changed to the 11th word code.

도 2c의 실시례의 흐름도에서 보여 주는, 경우의 수의 조합을 만들기 위한 프로그램 상의 루프(loop)는 도 2d에 도시되어 있다.A loop in the program for making a combination of the number of cases, shown in the flow chart of the embodiment of FIG. 2C, is shown in FIG. 2D.

도 2d는 j 개의 중의어가 있고 각 중의어 마다 n 개의 단어 코드가 존재한다고 가정했을 때, 경우의 수의 조합을 만드는 프로그램 상의 루프(loop)를 나타낸흐름도이다.FIG. 2D is a flow diagram illustrating a loop in a program that makes a combination of the number of cases, assuming that there are j Chinese words and n word codes for each Chinese word.

도 2d에 따르면, 제 1 중의어의 제 1 단어 코드부터 제 n 단어 코드까지 형성되는 루프(loop)가 가장 바깥쪽의 루프를 형성하고, 제 j 중의어의 제 1 단어 코드 부터 제 n 단어 코드까지 형성되는 루프가 가장 안쪽의 루프를 형성한다.(1400 단계∼1430 단계)According to FIG. 2D, a loop formed from the first word code of the first Chinese word to the nth word code forms the outermost loop, and the first word code of the j Chinese word from the nth word code The loops formed up to form the innermost loop (steps 1400 to 1430).

즉, 단어 코드로 변경하기 위하여 설정된 단어 중에서, 중의어가 5개 있으면 루프는 5개 존재하게 된다. 그리고, 제 1 중의어의 단어 코드가 3개 존재하면, 가장 바깥 쪽에 존재하는 제 1 중의어의 루프는 제 1 단어 코드부터 제 3 단어 코드까지 3회 수행되게 된다. 또한 중의어 5의 단어 코드가 4개 존재한다면, 가장 안쪽에 존재하는 제 5 중의어의 루프는 제 1 단어 코드부터 제 4 단어 코드까지 4회 수행되게 된다.That is, if there are five Chinese words among the words set to change to word codes, five loops exist. When there are three word codes of the first Chinese word, the loop of the first Chinese word which is located at the outermost side is performed three times from the first word code to the third word code. In addition, if there are four word codes of the Chinese word 5, the innermost loop of the fifth Chinese word is executed four times from the first word code to the fourth word code.

따라서 설정된 단어가 단어 코드로 변경될 수 있는 가능한 단어 코드의 경우의 수 k 는 다음과 같다.Therefore, the number k of possible word codes in which the set word can be changed into a word code is as follows.

k = (제 1 중의어의 단어 코드의 수) X (제 2 중의어의 단어 코드의 수) X ..... X (제 j-1 중의어의 단어 코드의 수) X (제 j 중의어의 단어 코드의 수)k = (number of word codes of the first Chinese) X (number of word codes of the second Chinese) X ..... X (number of word codes of the Chinese word j-1) X (of j Number of word codes)

도 2e는 중의어가 2개 이상인 경우에 설정된 단어를 단어 코드로 변경하는 또 다른 실시례의 흐름도이다.FIG. 2E is a flowchart of still another embodiment in which the set word is changed to a word code when there are two or more Chinese words.

각각의 중의어에 제 1번 부터 j번까지 번호를 부여하고(1500 단계), 각각의 중의어의 단어 코드에 제 1번부터 제 n번까지 순서를 부여한다. (1510 단계)Each Chinese word is numbered from first to j (step 1500), and the word code of each Chinese word is assigned a first to nth order. (1510 steps)

그리고, 제 1 중의어의 제 1 단어 코드부터 제 j 중의어의 제 n 단어 코드까지 각각의 단어 코드의 구성 요소 단어 코드와 다른 단어의 구성 요소 단어 코드를 비교하여, 일치하는 구성 요소 단어 코드 수를 파악한다. 즉 제 j 번째 중의어의 제 n번째 단어 코드의 구성 요소 단어 코드가, 다른 단어의 구성 요소 단어 코드와 일치하는 숫자를 kjn에 대응시킨다. (1520∼1560 단계)And comparing the component word codes of the respective word codes with the component word codes of the other words, from the first word code of the first Chinese word to the nth word code of the j chinese language, and matching the number of component word codes. Figure out. That is, the component word code of the nth word code of the j-th Chinese word corresponds to the number kjn corresponding to the component word code of another word. (1520-1560 steps)

예를 들어, 어떠한 설정된 단어의 제 3 중의어의 단어 코드가 3개라면, 제 3 중의어의 제 1 단어 코드부터 제 3 단어 코드까지 각각의 단어 코드의 구성 요소 단어 코드와 다른 단어의 구성 요소 단어 코드를 비교한 다음, 일치하는 구성 요소 단어 코드 수를 파악한다. 만일 제 3 중의어의 제 1 단어 코드에서 일치하는 구성 요소 단어 코드의 수가 3 이고, 제 2 단어 코드에서 일치하는 구성 요소 단어 코드의 수가 4 이라면, k31=3 이며, k32=4 가 된다.For example, if there are three word codes of a third Chinese word of a set word, the component of each word code from the first word code to the third word code of the third Chinese word is different from the word code of the word word. Compare the word codes, then determine the number of component word codes that match. If the number of constituent word codes that match in the first word code of the third middle word is three and the number of constituent word codes that match in the second word code is four, k31 = 3 and k32 = 4.

kj1부터 kjn까지 중에서, 가장 큰수를 가진 kjx를 선택하면(1570 단계), 제 j 번째 중의어에 제 x 번째 단어 코드를 부여하여, 제 j 번째 중의어를 단어 코드로 변경한다.(1580 단계)If kjx having the largest number is selected from kj1 to kjn (step 1570), the x-th word code is assigned to the j-th Chinese word and the j-th Chinese word is changed to a word code (step 1580).

예를 들어, 3개의 단어 코드를 가진 제 3 중의어의 제 1 단어 코드의 구성 요소 단어 코드가 다른 단어의 구성 요소 단어 코드와 일치하는 수를 3이라 하고, 제 3 중의어의 제 2 단어 코드의 구성 요소 단어 코드가 다른 단어의 구성 요소 단어 코드와 일치하는 수를 4라 하고, 제 3 중의어의 제 3 단어 코드의 구성 요소 단어 코드가 다른 단어의 구성 요소 단어 코드와 일치하는 수를 5라고 하면, 제 3 중의어는 제 3 중의어의 제 3번째 단어 코드로 변경되게 된다.For example, the number of constituent word codes of the first word code of the third Chinese word having three word codes matches the constituent word codes of the other words is 3, and the second word code of the third Chinese word is The number of constituent word codes of the word matching the constituent word codes of the other words is 4, and the number of constituent word codes of the third word code of the third Chinese word matches the constituent word codes of the other words. In this case, the third Chinese word is changed into the third word code of the third Chinese word.

다시 한번, 중의어의 단어 코드의 구성 요소 단어 코드와 다른 단어의 구성요소 단어 코드와의 일치하는 수를 파악하는 방법의 예를 들어 보겠다. 제 3 중의어 경우 제 1,2,3의 단어 코드가 각각 (10)(15)(18)(19), (20)(30)(35)(36), (35)(42) (43)(44) 라고 가정할 수 있다.Once again, let's take an example of how to determine the number of matches between a component word code of a Chinese word code and a component word code of another word. In the third Chinese word, the first, second, and third word codes are (10) (15) (18) (19), (20) (30) (35) (36), (35) (42) (43 (44) can be assumed.

이때, 제 1 단어 코드의 (10)(15)(18)(19)에서 각 구성 요소 단어 코드 하나 하나를 다른 단어의 구성 요소 단어 코드와 비교한다. 즉 (10), (15), (18), (19) 각각을 다른 단어의 구성 요소 단어 코드와 몇 번 일치하는가를 판단한다. (10) 번 코드가 2회, (15)번 코드가 1회, (18)번 코드가 0회, (19)번 코드가 0회 일치한다면, 제 3 중의어의 제 1 단어 코드에서 일치하는 구성 요소 단어 코드 수는 3이 된다.At this time, each of the component word codes is compared with the component word codes of other words in (10) (15) (18) and (19) of the first word code. That is, it is determined how many times each of (10), (15), (18), and (19) coincides with a component word code of another word. If code (10) is twice, code (15) is one time, code (18) is zero, code (19) is zero times, the first word code of the third Chinese word matches. The number of component word codes is three.

여기서 다른 단어의 구성 요소 단어 코드와 비교한다는 의미는 다른 단어의 모든 구성 요소 단어 코드와 비교를 한다는 의미이다. 즉 제 3 중의어의 제 1 단어 코드와 다른 단어의 단어 코드를 비교할 때, 다른 단어가 중의어이면, 해당 중의어가 가지는 단어 코드의 구성 요소 단어 코드와 모두 비교를 한다는 의미이다. 다시 말해서, 다른 단어가 제 2 중의어이고, 제 2 중의어가 3 개의 단어 코드를 가졌다면, 제 3 중의어의 제 1 단어 코드의 구성 요소 단어 코드를 제 2 중의어의 구성 요소 단어 코드와 비교할 때, 제 2 중의어의 제 1,2,3, 단어 코드의 구성 요소 단어 코드와 모두 비교를 한다는 의미이다. 마찬가지로 다른 중의어 및 다른 일반 단어의 구성 요소 단어 코드도 모두 비교하게 된다.Here, comparing with a component word code of another word means comparing with all component word codes of another word. That is, when comparing the first word code of the third Chinese word and the word code of the other word, if the other word is the Chinese word, it means that all of the component word codes of the word code of the Chinese word are compared. In other words, if the other word is the second Chinese word and the second Chinese word has three word codes, the component word code of the first word code of the third Chinese word is compared with the component word code of the second Chinese word. In other words, the first, second and third words of the second Chinese word, and the word codes of the components of the word code are all compared. Similarly, component word codes for other Chinese and other common words are compared.

이와 같은 방법을 반복 수행하여 중의어를 단어 코드로 변경하고, 중의어가 아닌 단어도 단어 코드로 변경하면, 설정된 단어 코드를 모두 단어 코드로 변경하게 된다.(1590 단계)By repeating the above method, if the Chinese word is changed to a word code, and the non-Chinese word is also changed to a word code, all of the set word codes are changed to word codes (step 1590).

이상에서와 같이 2개 이상인 단어 코드를 가진 중의어를 단어 코드로 변경하는 방법을 설명하였다.As described above, a method of changing a Chinese word having two or more word codes into a word code has been described.

그러나 중의어의 각 단어 코드의 구성 요소 단어 코드를 비교할 때, 일치되는 구성 요소 단어 코드가 존재하지 않거나, 일치하는 구성 요소 단어 코드의 수가 동일한 단어 코드가 2개 이상 있을 때는 좀 더 확장된 비교를 해야 한다. 여기서 일치하는 구성 요소 단어 코드의 수가 동일한 단어 코드가 2개 이상 있다는 의미는, 예를 들자면, 제 j 중의어의 제 1 단어 코드와 제 2 단어 코드 모두, 다른 단어의 구성 요소 단어 코드와 일치하는 수가 동일한 경우를 의미한다. 즉 제 1 단어 코드와 일치하는 다른 단어의 구성 요소 단어 코드의 수가, 제 2 단어 코드와 일치하는 다른 단어의 구성 요소 단어 코드의 수와 동일하다는 의미이다.However, when comparing the component word codes of each word code in Chinese, a more extended comparison is made when no matching component word codes exist or when there are two or more word codes with the same number of component word codes. Should be. Here, the meaning that there are two or more word codes having the same number of constituent word codes corresponds, for example, that the first word code and the second word code of the j-th Chinese word match the constituent word codes of the other words. It means the same number. That is, the number of component word codes of other words that match the first word code is equal to the number of component word codes of other words that match the second word code.

이때는 좀 더 확장된 구성 요소 단어 코드를 비교하여야 한다. 확장된 구성 요소 단어 코드를 비교한다는 의미는 중의어의 특성 단어 코드의 구성 요소 단어 코드와 비교를 한다는 의미이다.In this case, the extended component word codes should be compared. Comparing extended component word codes means comparing them with component word codes of Chinese characteristic word codes.

"분자"를 화학 분야에서 사용되는 의미로서 특성 단어로 나타내보면, "물질을 구성하는 입자로서, 원자의 화학 결합에 의하여 만들어지고, 이탈리아의 화학자 아보가드로가 도입하였다. 그리고 물질의 특성을 나타내는 기본이 된다."이다. 따라서, 이들 특성 단어를 단어 코드로 변경하여 나타내면, "ma fm mtbssl, mk aoA ctA intt, 이탈리아(C) prct 아보가드로(C) mkknfi."의 형태가 된다. 그리고 이 특성 단어의 구성 요소 단어 코드와 다른 단어의 구성 요소 단어 코드를 비교하여일치하는 수를 파악한다.When the term "molecule" is used as a characteristic word in the field of chemistry, the term "molecular" constitutes a substance, made by chemical bonds of atoms, and introduced by the Italian chemist Avogadro. " Therefore, when these characteristic words are converted into word codes, they are in the form of "ma fm mtbssl, mk aoActA intt, Italy (C) prct avogadro (C) mkknfi.". The component word codes of this feature word and the component word codes of other words are compared to determine the number of matches.

그리고 특성 단어의 구성 요소 단어 코드와 다른 단어의 구성 요소 단어 코드를 비교하여, 중의어를 단어 코드로 변경하는 방법은, 중의어의 단어 코드의 구성 요소 단어 코드를 비교하여 중의어를 단어 코드로 변경하는 방법과 동일한 알고리즘에 의한다.The method of changing a Chinese word to a word code by comparing a component word code of a characteristic word with a component word code of another word is performed by comparing the component word codes of a word code of a Chinese word and converting a Chinese word into a word code. By the same algorithm as the changing method.

또한 이러한 구성 요소 단어 코드를 비교할 때, 비교하는 구성 요소 단어 코드에는 해당 단어가 속하는 영역을 나타내는 단어도 포함됨은 물론이다. 영역을 나타내는 단어 코드의 예로써, 화학(chemistry, ct) 분야의 영역을 나타내는 "ct"의 코드를 들 수 있다.In addition, when comparing the component word codes, the component word codes to be compared also include a word indicating a region to which the word belongs. As an example of the word code indicating an area | region, the code of "ct" which represents the area | region of a chemistry (ct) field is mentioned.

이와 같이 저장된 정보 혹은 검색어의 단어가 단어 코드로 변경되면, 단어 코드로 변경된 정보들 사이에 유사한 정도를 판단하여, 찾고자 하는 정보와 동일하거나 가장 유사한 정보를 검색할 필요가 있다.When the stored information or the word of the search word is changed to a word code, it is necessary to determine the degree of similarity between the information changed to the word code and search for the same or most similar information as the information to be searched for.

도 3은 벡터 계산을 이용하여, 유사한 문서를 검색하는 방법의 흐름도이다.3 is a flowchart of a method for retrieving similar documents using vector calculations.

기준 정보와 비교 대상 정보를 설정하여(1600 단계), 기준 정보를 A라고 하고, 비교 대상 정보를 β라고 하여, β를 k1에서 kn 까지 라고 한다. (1610 단계)The reference information and the comparison target information are set (step 1600), the reference information is called A, the comparison target information is called β, and the β is called k1 to kn. (1610 steps)

즉, A라는 정보와 동일하거나 유사한 정보를 비교 대상 정보 β에서 검색하는 것이며, β는 정보 K1에서 정보 kn 까지로 구성된 여러 개의 정보의 집합이다. 그리고 여러 개의 정보의 집합 β에서 A라는 정보와 동일하거나 유사한 정보를 검색하는 것이다. 이때 각각의 정보는 문장, 페이지(page), 요약문 등 다양한 형태가 될 수 있음은 당연하다.That is, the same or similar information as that of A is retrieved from the comparison target information β, and β is a set of several pieces of information K1 to information kn. Then, the same or similar information as that of A is retrieved from the set β of several pieces of information. In this case, each piece of information may be in various forms such as a sentence, a page, a summary.

A를 구성하고 있는 구성 요소 단어 코드의 종류를 분석하고(1620 단계), 각각의 구성 요소 단어 코드의 빈도수를 분석한다.(1630 단계)The type of component word codes constituting A is analyzed (step 1620), and the frequency of each component word code is analyzed (step 1630).

본 발명은 일정 수의 기본 단어를 설정하여 기본 단어의 조합으로 단어 코드를 만드는 것이므로, 구성 요소 단어 코드의 종류를 분석하는 것은 기본 단어의 종류를 분석하는 것이다.Since the present invention is to set a certain number of basic words to make a word code with a combination of basic words, analyzing the type of the component word code is to analyze the type of the basic word.

기본 단어의 분석을 하기 위해서는 제일 먼저 언어학적인 분석을 실시해야 한다. 즉, 정보를 이루고 있는 각 단어들의 형태소를 분석하여,각 단어들의 기본형을 추출한 다음, 기본형에 근거하여 해당 단어를 단어 코드로 변경하는 것이다, 그리고, 이렇게 정보를 이루는 단어가 단어 코드로 변경되면, 해당 정보를 형성하고 있는 구성 요소 단어 코드의 종류와 빈도수를 분석할 수가 있는 것이다.In order to analyze basic words, linguistic analysis must be performed first. That is, by analyzing the morphemes of the words forming information, extracting the basic form of each word, and then changing the word to a word code based on the basic form, and when the words forming the information are changed to the word code, You can analyze the type and frequency of the component word codes that form the information.

예를 들어, 기본 단어의 수가 1400개 라면, 각 기본 단어에 제 1번 부터 제 1400번까지 번호를 부여할 수 있다. 그러면 구성 요소 단어 코드의 종류를 분석하고 구성 요소 단어 코드의 빈도수를 분석하게 되면, 분석 대상 정보에 어떠한 번호를 가지는 기본 단어가 몇차례 사용되었는가를 알 수가 있는 것이다.For example, if the number of basic words is 1400, each basic word may be numbered from the first to the 1400th number. Then, if the type of component word codes are analyzed and the frequency of the component word codes is analyzed, it is possible to know how many times the basic word having a number is used in the analysis target information.

예를 들어, 분석 대상 정보 A의 분석 결과를 다음과 같은 형태로 나타낼 수 있다.For example, an analysis result of the analysis target information A may be represented in the following form.

20번 : 520th: 5

25번 : 725 times: 7

30 번 :1230 times: 12

......

......

1300 번 : 3 번1300 times: 3 times

기본 단어의 빈도 수를 조사한 다음 벡터(Vector)공간에서의 위치 값을 설정한다.(1640 단계)The frequency of the basic word is examined, and then the position value in the vector space is set (step 1640).

기본 단어의 빈도수를 벡터 공간에서의 위치값으로 변환시켜 준다. 즉, 각각의 기본 단어를 가상 벡터 공간에서 하나의 축이라고 한다면, 기본 단어가 1400개이므로, 분석을 위한 벡터 공간의 죄표축의 숫자는 1400개가 된다. 그리고 각 축의 눈금은 각 축에 해당되는 기본 단어의 빈도수가 되는 것이다.It converts the frequency of the basic word to its position in vector space. That is, if each basic word is one axis in the virtual vector space, since the basic word is 1400, the number of sin axes in the vector space for analysis is 1400. And the scale of each axis is the frequency of the basic word corresponding to each axis.

즉 제 1 기본 단어의 사용 빈도수가 0 이면, 1400 개의 축을 가진 가상 벡터 공간에서 제 1 축의 눈금은 0이 된다. 그리고, 제 20번 기본 단어의 사용 빈도수가 5이면, 제 20 번 축의 눈금은 5가 되는 것이다.That is, when the frequency of use of the first basic word is 0, the scale of the first axis is 0 in the virtual vector space having 1400 axes. And, if the frequency of use of the 20th basic word is 5, the scale of the 20th axis is 5.

이러한 방법에 의해서 벡터 공간에서 정보 A의 값이 설정될 수가 있다. 즉 상기 정보 A의 위치를 벡터 공간에서 위치를 다음과 같이 표현할 수 있다.In this way, the value of the information A can be set in the vector space. That is, the position of the information A can be expressed in a vector space as follows.

(1,0),....,(20.5),....(25,7),..,(30,12),....(1200.0),...(1300,3),.., (1400,0)(1,0), ...., (20.5), .... (25,7), .., (30,12), .... (1200.0), ... (1300,3) , .., (1400,0)

즉 괄호의 형태로 나타내어, 괄호 안의 처음 숫자는 좌표축의 순서이고 괄호안의 두번째 숫자는 해당 좌표축의 눈금이 된다.In other words, in the form of parentheses, the first number in parentheses is the order of the axes, and the second number in parentheses is the scale of the axes.

마찬가지로 비교 대상의 정보 β에 대해서, 정보 k1 부터 정보 kn까지 벡터 공간에서의 위치를 설정한다.(1650∼1670 단계)Similarly, for the information β to be compared, the position in the vector space from information k1 to information kn is set (steps 1650 to 1670).

비교 대상의 정보 β의 벡터 공간에서의 위치 설정도 정보 A를 벡터 공간에서 위치 설정하는 방법과 동일하게 한다.The position setting in the vector space of the information β to be compared is also the same as the method for positioning the information A in the vector space.

각각 벡터 공간에서의 위치 값이 설정되었으면, A의 위치 값과 kn의 위치값의 차이를 Akn이라고 할 때, Akn의 값을 계산한다.(1675 단계)When the position values in the vector space are set, respectively, when the difference between the position value of A and the position value of kn is Akn, the value of Akn is calculated (step 1675).

즉 A의 위치값과 k1에서 kn까지의 위치값의 차이를 모두 계산한다. 이때 위치값의 계산은 수학식 1에 의한다.That is, the difference between the position of A and the position between k1 and kn is calculated. At this time, the position value is calculated by Equation 1.

이때, │a│는 a 벡터의 절대값이고, │b│는 b 벡터의 절대값이며, a ㆍb 는 a 벡터와 b 벡터와의 도트(dot) 벡터이다.Where a is the absolute value of the a vector, b is the absolute value of the b vector, and ab is a dot vector of the a vector and the b vector.

즉 수학식 1에서 cosα값을 구할 수 있고, 벡터 a와 벡터 b의 각도인 α값도 구할 수 있게 된다. 즉 α값은 두 벡터 사이의 각도 이며, 이 값이 작을수록 두 벡터 사이의 거리가 가까운 것이 된다. 따라서, 본 발명에서 기본 단어를 분석하여 기본 단어의 빈도수를 벡터 공간에서의 위치 값으로 설정하여 계산하면, 두 정보 사이에서 얻어진 각도 α값을 구할 수 있고, α값이 작을수록 두 정보 사이는 유사한 정보가 되는 것이다.That is, the cosα value can be obtained from Equation 1, and the α value, which is the angle between the vector a and the vector b, can also be obtained. That is, the α value is an angle between two vectors, and the smaller this value is, the closer the distance between the two vectors is. Therefore, in the present invention, if the basic word is analyzed and the frequency of the basic word is set as the position value in the vector space, the calculated angle α value obtained between the two pieces of information can be obtained. It is information.

참고적으로, 1400 개의 좌표 축을 가진 벡터 공간에서 위치값을 설정하는 방법에 대한 설명을 하겠다.For reference, a method of setting a position value in a vector space having 1400 coordinate axes will be described.

우선, 1400개 죄표는 다음과 같이 나타낼 수 있다.First of all, the 1400 guilt can be expressed as follows.

(1, V1), (2, V2), (3, V3), (4, V4), (5, V5), (6, V6), (7, V7), (8,V8),...............(1395, V1395), (1396, V1396), (1397, V1397), (1398, V1398),(1399, V1399),(1400, V1400),(1, V1), (2, V2), (3, V3), (4, V4), (5, V5), (6, V6), (7, V7), (8, V8), ... ............. (1395, V1395), (1396, V1396), (1397, V1397), (1398, V1398), (1399, V1399), (1400, V1400),

괄호안의 첫번째 숫자는 좌표축의 순서를 나타낸 값이고, 괄호 안의 두번째 숫자 "Vn" 은 각 좌표축의 값 즉 눈금값을 나타낸다.The first number in parentheses indicates the order of the axes, and the second number "Vn" in parentheses indicates the value, or scale value, of each axis.

만일 벡터 a 의 값이 다음과 같고,If the value of vector a is

(1, a1), (2, a2), (3, a3), (4, a4), (5, a5), (6, a6), (7, a7), (8, a8),...............(1395, a1395), (1396, a1396), (1397, a1397), (1398, a1398),(1399, a1399),(1400, a1400),(1, a1), (2, a2), (3, a3), (4, a4), (5, a5), (6, a6), (7, a7), (8, a8), ... ............. (1395, a1395), (1396, a1396), (1397, a1397), (1398, a1398), (1399, a1399), (1400, a1400),

벡터 b의 값이 다음과 같다고 가정하자.Suppose the value of vector b is

(1, b1), (2, b2), (3, b3), (4, b4), (5, b5), (6, b6), (7, b7), (8, b8),...............(1395, b1395), (1396, b1396), (1397, b1397), (1398, b1398),(1399, b1399),(1400, b1400),(1, b1), (2, b2), (3, b3), (4, b4), (5, b5), (6, b6), (7, b7), (8, b8), ... ............. (1395, b1395), (1396, b1396), (1397, b1397), (1398, b1398), (1399, b1399), (1400, b1400),

그러면, │a│값은 다음과 같이 구한다..Then, the value of a is obtained as follows.

A= (a1)2+ (a2)2+ (a3)2+ (a4)2+ (a5)2+ (a6)2+ (a7)2+ (a8)2+ ................. +.(a1395)2+ (a1396)2+ (a1397)2+ (a1398)2+ (a1399)2+ (a1400)2 A = (a1)2+ (a2)2+ (a3)2+ (a4)2+ (a5)2+ (a6)2+ (a7)2+ (a8)2+ ..................(a1395)2+ (a1396)2+ (a1397)2+ (a1398)2+ (a1399)2+ (a1400)2

A를 위의 식과 같이 각 죄표값의 제곱의 합이라고 했을 때, │a│의 값은 A 의 제곱근이다.When A is the sum of the squares of the values of each sin table, as in the equation above, the value of │a│ is the square root of A.

그리고, a 의 벡터와 b의 백터의 도트 값인 "a ㆍb" 는 다음 식과 같다.And the dot value "ab" of the vector of a and the vector of b is as follows.

a ㆍb = a1 x b1 + a2 x b2 + a3 x b3 + a4 x b4 + a5 x b5 + a6 x b6 + a7 x b7 + a8 x b8 + .............. a1395 x b1395 + a1396 x b1396 + a1397 x b1397 + a1398 x b1398 + a1399 x b1399 + a1400 x b1400a ㆍ b = a1 x b1 + a2 x b2 + a3 x b3 + a4 x b4 + a5 x b5 + a6 x b6 + a7 x b7 + a8 x b8 + .............. a1395 x b1395 + a1396 x b1396 + a1397 x b1397 + a1398 x b1398 + a1399 x b1399 + a1400 x b1400

즉, a 벡터와 b 벡터의 각 좌표 값의 곱이다.That is, the product of the coordinate values of the vector a and the vector b.

이와 같이 │a│, │b│및 a ㆍb 각각의 값을 구한 후에 식 (1)에 대입하면, a 벡터와 b 벡타 사이의 각도를 구할 수 있고, 이렇게 구한 각도가 작을수록 a 벡터와 b 벡터의 성질은 유사한 것이 된다. 즉 정보 a와 정보 b는 유사한 정보가 된다.In this way, if each value of ʻa│, │b│ and a ㆍ b is obtained and then substituted into Eq. (1), the angle between the vector a and the vector vector can be obtained. The properties of the vector become similar. That is, information a and information b become similar information.

이와 같이 각 정보들의 벡터 공간에서의 위치 값이 정해지고, 각 정보들 사이의 위치 값의 차이가 벡터 공간에서 각도로 구해지면, Ak1 부터 Akn까지 중에서 가장 작은 값 Akx를 선택한다.(1685 단계)In this way, if the position values in the vector space of the pieces of information are determined and the difference in the position values between the pieces of information is obtained as the angle in the vector space, the smallest value Akx from Ak1 to Akn is selected (step 1685).

벡터 공간에서, A 정보의 위치와 가장 가까운 정보 kx를 선택하는 것이다. 당연히 각도로서 구해지며, A 정보와 가장 가까운 위치 즉 가장 가까운 각도를 가진 정보 kx를 선택하는 것이다.In vector space, the information kx nearest to the position of the A information is selected. Naturally, it is obtained as an angle, and the information kx having the closest position to the A information, that is, the closest angle is selected.

이렇게 정보 kx가 선택되면, 정보 kx는 정보 A와 가장 유사한 정보로 판단되게 된다.(1690 단계)If the information kx is selected in this way, the information kx is determined to be the most similar information to the information A (step 1690).

물론 벡터 공간에서 구한 두 정보 사이의 각도를 표시할 때, 가장 작은 각도를 가진 정보부터 차례로 나열하여, A 정보와 가장 유사한 정보부터 순서대로 나열할 수 있음은 물론이다.Of course, when displaying the angle between the two information obtained in the vector space, it is possible to list in order from the information most similar to the A information in order from the information with the smallest angle.

그리고 이와 같이 검색된 최종 정보는 디스플레이부(14)에 표시되거나, 인터넷(20)을 통해 사용자 정보 검색 서버(30)에 제공된다.The final information thus retrieved is displayed on the display unit 14 or provided to the user information retrieval server 30 through the Internet 20.

이상에서와 같이 본 발명의 실시례에 따라, 정보를 단어 코드의 구성 요소 단어 코드로서 처리하여, 중의어의 단어를 단어 코드로 변경할 수 있으며, 또한, 정보를 나타내는 개념의 의미로 해당 정보를 용이하게 검색할 수 있어, 보다 정확하게 해당 정보를 검색할 수 있다.As described above, according to an embodiment of the present invention, the information can be processed as a constituent word code of a word code, so that the word of the Chinese word can be changed into a word code, and the information can be easily used in the sense of a concept representing the information. Can be searched, so that the information can be retrieved more accurately.

본 발명의 바람직한 실시례가 특정 용어들을 사용하여 기술되어 왔지만, 그러한 기술은 오로지 설명을 하기 위한 것이며, 다음의 청구범위의 기술적 사상 및 범위로부터 이탈되지 않고서 여러 가지 변경 및 변화가 가해질 수 있는 것으로 이해되어져야 한다.While the preferred embodiments of the present invention have been described using specific terms, such descriptions are for illustrative purposes only, and it is understood that various changes and modifications may be made without departing from the spirit and scope of the following claims. Should be done.

Claims (11)

저장된 정보의 단어들이 기본 단어를 코드화하기 위한 데이터베이스를 구비하고, 저장된 정보 혹은 검색어로 입력된 단어들을 설정된 규칙에 따라 코드화함으로써 정보를 검색하는 정보 검색 방법으로,An information retrieval method in which words of stored information have a database for encoding basic words, and information is retrieved by encoding words inputted as stored information or search terms according to a set rule. 입력부를 통하여 입력되는 검색어로부터 단어 코드로 변경하기 위한 설정 단어를 설정하는 단계;Setting a setting word for changing from a search word input through an input unit to a word code; 상기 설정 단어를 두 가지 이상의 의미를 갖는 중의어와 한 가지 의미만을 갖는 일반어로 구분하는 단계; 및Dividing the set word into a Chinese word having at least two meanings and a general word having only one meaning; And 상기 일반어는 상기 데이터베이스를 이용하여 단어 코드로 변경하고,The general language is converted into a word code using the database, 상기 중의어는 상기 데이터베이스를 이용하여 복수 개 중의어 단어 코드로 변환한 후, 상기 각 중의어 단어 코드를 상기 중의어 단어 코드 외의 단어 코드와 일치성을 판단한 후, 일치도가 가장 높은 중의어 단어 코드를 선정하고, 상기 중의어를 상기 선정된 중의어 단어 코드로 변경하는 코드 변환 단계를 포함하는 것을 특징으로 하는 정보 검색 방법.After the Chinese is converted into a plurality of Chinese word codes using the database, the Chinese word code is determined to be consistent with a word code other than the Chinese word code, and then the Chinese word code having the highest match is obtained. And a code conversion step of changing the Chinese word into the selected Chinese word code. 제 1항에 있어서, 상기 코드 변환 단계에서 중의어가 두 개 이상인 경우에는The method of claim 1, wherein when there are two or more Chinese words in the code conversion step, 각 중의어에 대해서 순서를 부여하고, 순서가 부여된 중의어에 해당하는 각 단어 코드에도 순서를 부여하여, 각 중의어가 가질 수 있는 모든 단어 코드의 조합을 통해 상기 검색어가 가질 수 있는 복수 개 단어 코드 세트를 만드는 단계;A plurality of words that the search word can have through a combination of all the word codes that each Chinese word can have by assigning an order to each Chinese word and assigning the order to each word code corresponding to the ordered Chinese word. Creating a code set; 상기 각 세트 내에서 구성 요소 단어 코드를 서로 비교하여, 가장 많이 일치하는 구성 요소 단어 코드를 가지는 단어 코드 세트를 선택하고, 상기 검색어를 상기 선택된 단어 코드 세트의 단어 코드로 변경하는 단계를 포함하는 것을 특징으로 하는 정보 검색 방법.Comparing the component word codes within each set, selecting a word code set having the most matching component word codes, and changing the search term to a word code of the selected word code set. Characteristic information retrieval method. 제 1항에 있어서, 상기 코드 변환 단계에서, 중의어가 두 개 이상인 경우,The method of claim 1, wherein in the code conversion step, when there are two or more Chinese words, 각 중의어가 가지는 각 중의어 단어 코드를, 상기 중의어 단어 코드를 제외한 다른 중의어 및 일반어의 단어 코드와 비교한 후, 일치도가 가장 높은 중의어 단어 코드를 선정하고, 상기 중의어를 상기 선정된 중의어 단어 코드로 변경하는 코드 변환 단계를 포함하는 것을 특징으로 하는 정보 검색 방법.After comparing each Chinese word code of each Chinese word with other Chinese and general word codes except the Chinese word code, the Chinese word code having the highest degree of matching is selected, and the Chinese word is selected. And a code conversion step of changing to a Chinese word code. 제 1항에 있어서, 상기 코드 변환 단계에서,The method of claim 1, wherein in the code conversion step, 중의어의 단어 코드와 다른 단어의 구성 요소 단어 코드에서 일치하는 코드가 없을 경우,If there is no matching code in the Chinese word code and the component word code of another word, 중의어의 특성 단어 코드와 다른 단어의 구성 요소 단어 코드를 비교하는 단계; 및Comparing the characteristic word code of the Chinese word with the component word code of another word; And 비교 대상이 되는 구성 요소 단어 코드를 작성함에 있어, 각 단어가 속하는 분야 또는 영역을 나타내는 코드를 포함시키는 단계; 를 포함하는 것을 특징으로 하는 정보 검색 방법.In preparing the component word codes to be compared, including a code indicating a field or a region to which each word belongs; Information retrieval method comprising a. 정보를 나타내는 모든 단어들이 기본 단어와 기본 단어에 의해 설명될 수 있는 복합 단어로 이루어진 것으로 분류되는 시스템에서,In a system where all words representing information are classified as consisting of a base word and a compound word that can be explained by the base word, 정보를 나타내는 단어를 입력하는 입력부;An input unit for inputting a word representing information; 저장된 정보의 단어들이 기본 단어로 세분화되고 코드화되어 있는 다수의 단어 코드와, 역할 코드 및 각종 단어에 대한 정보가 저장되어 있는 데이터베이스;A database storing a plurality of word codes in which words of stored information are subdivided and coded into basic words, role codes, and information on various words; 상기 입력부를 통하여 입력되는 검색어의 입력 단어를 설정된 규칙에 따라 코드화하고, 상기 코드화된 검색어를 토대로 상기 데이터베이스를 검색하여 동일하거나 가장 많이 일치하는 정보를 찾는 중앙 처리 장치를 포함하고,A central processing unit for encoding an input word of a search word input through the input unit according to a set rule, searching the database based on the coded search word, and searching for the same or most matching information; 상기 중앙 처리 장치에서 저장된 정보 혹은 검색어를 단어 코드로 코드화할 때, 중의어가 있으면, 상기 중의어의 구성 요소 단어 코드와 다른 단어의 구성 요소 단어 코드를 비교하고, 상기 중의어의 2개 이상의 단어 코드 중에서 하나의 단어 코드를 선택하여, 상기 중의어를 선택된 단어 코드로 변경하는 정보 검색 시스템.When encoding information or a search word stored in the central processing unit into a word code, if there is a Chinese word, a component word code of the Chinese word is compared with a component word code of another word, and two or more word codes of the Chinese word are compared. An information retrieval system which selects one word code from among and changes the Chinese word to the selected word code. 제 5항에 있어서,The method of claim 5, 정보를 나타내는 모든 단어들이 기본 단어와 복합 단어로 분류되고,All words representing information are classified as basic words and compound words, 검색하고자 하는 입력 정보와 검색 대상이 되는 기준 정보를 구성하고 있는 구성 요소 단어 코드의 종류와 빈도수를 조사하여 유사한 정보를 검색하는 것을 특징으로 하는 정보 검색 시스템.An information retrieval system comprising: searching similar information by investigating the type and frequency of component word codes constituting input information to be searched and reference information to be searched. 제 5항에 있어서,The method of claim 5, 상기 검색하고자 하는 기준 정보와 상기 검색 대상이 되는 정보를 정해진 기본 단어에 번호를 부여하여 각 기본 단어를 벡터 공간에서의 좌표축으로 하고, 상기 기본 단어의 빈도 수를 각 좌표축의 눈금으로 하여 벡터 공간에서의 위치값으로 나타내는 것을 특징으로 하는 정보 검색 시스템.The reference information to be searched and the information to be searched are assigned a number to a predetermined basic word, and each basic word is a coordinate axis in a vector space, and the frequency of the basic word is a scale of each coordinate axis in a vector space. An information retrieval system, characterized by the position value of. 삭제delete 삭제delete 제 9항에 있어서,The method of claim 9, 상기 변환된 검색어의 기본 단어별 빈도수와 상기 비교대상 정보의 기본 단어별 빈도수의 비교가 상기 각 기본 단어를 벡터 공간에서의 하나의 좌표축으로 하고, 상기 기본 단어의 빈도 수를 상기 각 좌표축의 눈금으로 하는 벡터 공간에서의 위치값으로 나타내는 것을 특징으로 하는 정보 검색 방법.The comparison between the frequency of each basic word of the converted search word and the frequency of each basic word of the comparison target information makes each basic word one coordinate axis in a vector space, and the frequency number of the basic word is the scale of each coordinate axis. And a position value in the vector space. 제 9항에 있어서,The method of claim 9, 상기 변환된 검색어의 기본 단어별 빈도수와 상기 비교대상 정보의 기본 단어별 빈도수의 비교가 상기 각 기본 단어를 벡터 공간에서의 하나의 좌표축으로 하고, 상기 기본 단어의 빈도 수를 상기 각 좌표축의 눈금으로 하는 벡터 공간에서의 두개 벡터의 사이 각도를 이용하여 이루어지는 것을 특징으로 하는 정보 검색 방법.The comparison between the frequency of each basic word of the converted search word and the frequency of each basic word of the comparison target information makes each basic word one coordinate axis in a vector space, and the frequency number of the basic word is the scale of each coordinate axis. An information retrieval method characterized by using an angle between two vectors in a vector space.
KR20000069722A 1999-12-17 2000-11-22 Information storing and retrieval system and method thereof KR100389166B1 (en)

Priority Applications (7)

Application Number Priority Date Filing Date Title
KR20000069722A KR100389166B1 (en) 2000-11-22 2000-11-22 Information storing and retrieval system and method thereof
JP2001546007A JP2003517686A (en) 1999-12-17 2000-12-14 Information coding and retrieval system and method
AU20296/01A AU2029601A (en) 1999-12-17 2000-12-14 Information coding and retrieval system and method thereof
US09/890,365 US6775663B1 (en) 1999-12-17 2000-12-14 Information coding and retrieval system and method thereof
PCT/KR2000/001460 WO2001044986A1 (en) 1999-12-17 2000-12-14 Information coding and retrieval system and method thereof
EP00983554A EP1238349A4 (en) 1999-12-17 2000-12-14 Information coding and retrieval system and method thereof
US10/841,271 US7069265B2 (en) 1999-12-17 2004-05-07 Information coding and retrieval system and method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR20000069722A KR100389166B1 (en) 2000-11-22 2000-11-22 Information storing and retrieval system and method thereof

Publications (2)

Publication Number Publication Date
KR20020039896A KR20020039896A (en) 2002-05-30
KR100389166B1 true KR100389166B1 (en) 2003-06-27

Family

ID=19700687

Family Applications (1)

Application Number Title Priority Date Filing Date
KR20000069722A KR100389166B1 (en) 1999-12-17 2000-11-22 Information storing and retrieval system and method thereof

Country Status (1)

Country Link
KR (1) KR100389166B1 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100915295B1 (en) * 2008-01-22 2009-09-03 성균관대학교산학협력단 System and method for search service having a function of automatic classification of search results
KR101479899B1 (en) * 2014-03-28 2015-01-09 영남대학교 산학협력단 Apparatus and method of searching point pattern

Also Published As

Publication number Publication date
KR20020039896A (en) 2002-05-30

Similar Documents

Publication Publication Date Title
US7653530B2 (en) Method and mechanism for the creation, maintenance, and comparison of semantic abstracts
Patel et al. Text mining: A Brief survey
US7197451B1 (en) Method and mechanism for the creation, maintenance, and comparison of semantic abstracts
JP5514165B2 (en) Database construction device, trademark infringement detection device, database construction method, and program
WO2019093172A1 (en) Similarity index computation device, similarity search device, and similarity index computation program
Alian et al. Arabic word sense disambiguation using wikipedia
JPH10116290A (en) Document classification managing method and document retrieving method
KR100389166B1 (en) Information storing and retrieval system and method thereof
Tran et al. Ijs at textgraphs-16 natural language premise selection task: Will contextual information improve natural language premise selection?
Van Hooydonk et al. A bibliotheconomic analysis of the impact factors of scientific disciplines
Smadja et al. Translating collocations for use in bilingual lexicons
Kmetty et al. The presence of occupational structure in online texts based on word embedding NLP models
Samsir et al. BERTopic modeling of natural language processing abstracts: Thematic structure and trajectory
KR20170135333A (en) A translation system for for medical terms based on the common terminology
Rizun et al. The method of a two-level text-meaning similarity approximation of the customers’ opinions
Göler et al. The Bundeswehr in German Newspaper Coverage–Using Text Mining for Analysing Strategic Culture
Deyshappriya The causality direction of the stock market–growth nexus: application of GMM dynamic panel data and the panel ganger non-causality tests
CN114428859A (en) Text abstract generating method and device
Hegde et al. An entity-centric approach for overcoming knowledge graph sparsity
Finch et al. AQ 3-based permutation test for assessing local independence
Güler A Bibliometric Analysis on Power Analysis Studies
KR20220015129A (en) Method and Apparatus for Providing Book Recommendation Service Based on Interactive Form
Kutlača Scientific research publication productivity in the areas of mathematics and physics in South Eastern Europe
Čech et al. The development of context specificity of lemma. A word embeddings approach
KR101562748B1 (en) Transfer method of technology by matching supply technology with demand technology

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20060614

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee