KR101567870B1 - 가중치 기반 데이터 랭킹 산출 방법 - Google Patents

가중치 기반 데이터 랭킹 산출 방법 Download PDF

Info

Publication number
KR101567870B1
KR101567870B1 KR1020130102840A KR20130102840A KR101567870B1 KR 101567870 B1 KR101567870 B1 KR 101567870B1 KR 1020130102840 A KR1020130102840 A KR 1020130102840A KR 20130102840 A KR20130102840 A KR 20130102840A KR 101567870 B1 KR101567870 B1 KR 101567870B1
Authority
KR
South Korea
Prior art keywords
data
weight
feature word
variable
server
Prior art date
Application number
KR1020130102840A
Other languages
English (en)
Other versions
KR20150025330A (ko
Inventor
민덕기
예쉬화
Original Assignee
건국대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 건국대학교 산학협력단 filed Critical 건국대학교 산학협력단
Priority to KR1020130102840A priority Critical patent/KR101567870B1/ko
Publication of KR20150025330A publication Critical patent/KR20150025330A/ko
Application granted granted Critical
Publication of KR101567870B1 publication Critical patent/KR101567870B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions

Abstract

가중치 기반 데이터 랭킹 산출 방법이 제공된다. 본 발명의 일 실시예에 따른 가중치 기반 데이터 랭킹 산출 방법은, 데이터를 검색하기 위한 서비스를 제공하는 서버에서 실행되는 방법에 있어서, 상기 서버가 제1 데이터를 수신하는 단계, 상기 서버가 제2 데이터 그룹을 결정하는 단계, 상기 서버가 상기 제1 데이터와 상기 제2 데이터 그룹간의 연관레벨을 설정하는 단계, 상기 서버가 상기 제1 데이터와 상기 제2 데이터 그룹간의 제1 가중치를 산출하는 단계, 상기 서버가 제2 가중치를 이용하여 상기 제1 데이터와 상기 제2 데이터 그룹간의 유사도 순위를 결정하는 단계를 포함하되, 상기 제2 가중치는 상기 연관레벨과 상기 제1 가중치를 기초로 산출한다.

Description

가중치 기반 데이터 랭킹 산출 방법{METHOD FOR DATA RANK BASED ON WEIGHT}
본 발명은 가중치 기반 데이터 랭킹 산출 방법에 관한 것으로, 보다 자세하게는 데이터간의 인용 그래프 및 가중치를 이용하여 연관 데이터 검색의 정확도를 향상시킨 데이터 랭킹 산출 방법에 관한 것이다.
사용자는 포털 사이트 및 검색 사이트를 이용하여 필요한 문서, 파일 등 여러 가지 정보를 취득하고 있다. 예를 들어, 여행을 가고자 하는 사용자는 목적지, 일정 및 비용 등에 관한 정보를 포털 사이트를 이용하여 얻게 된다. 일본 여행을 계획하고 있는 사용자는 포털 사이트의 검색창에서 '일본 여행'이라는 키워드를 입력할 수 있다. 특히, 인터넷 망과 같이 광범위하게 문서 등이 분산되어 있는 경우에는 사용자가 입력한 키워드와 관련된 문서 등을 빨리 검색할 수 있어야 한다. 더 나아가, '일본 여행'이라는 키워드를 입력 받은 포털 사이트의 검색 서비스는 사용자가 입력한 키워드와 관련하여 검색된 정보를 무작위로 제공하여서는 효율적으로 검색 서비스를 제공할 수 없게 된다. 왜냐 하면, 사용자는 검색된 결과 중에서 자신이 원하는 정보와 관련된 정보를 찾기 위하여 또 다시 많은 시간을 소모해야 하기 때문이다.
따라서, 포털 사이트의 검색 서비스는 사용자가 입력한 키워드와 관련된 문서 등을 신속하면서도 풍부하게 검색해야 할 뿐만 아니라, 검색된 문서 등에서 사용자가 입력한 키워드와 가장 밀접하면서도 내용이 우수한 문서를 중점적으로 제공해야 할 필요성이 있다.
웹페이지 문서의 중요도를 평가함에 있어, 학술 논문의 중요도 평가 기법을 그대로 채용하여 링크(link) 수를 고려한 웹페이지 중요도 평가 기법이 제시된 바 있다. 그러나, 학술 논문들과는 달리 웹페이지와 같은 문서는 출판 비용이 들지 않고, 문서의 품질도 엄격히 관리될 수 없는 특성이 있다. 또한, 웹페이지와 같은 문서는 새로이 생성되는 속도가 매우 빠르고, 쉽게 대량으로 복제 및 생산할 수 있는 특성도 갖고 있다. 따라서, 웹페이지 문서의 중요도 평가를 위해 학술 논문의 중요도 평가에서와 같이 인용 횟수만을 고려한다면, 용이하게 문서의 중요도를 조작할 수 있는 문제가 있다.
또한, 링크 수만을 고려하여 중요도를 평가하는 방식은 웹페이지 문서의 복제가 쉬운 만큼 링크 수를 인위적으로 조작하여 쉽게 웹페이지 문서의 중요도를 왜곡할 수 있는 심각한 단점도 존재한다.
위와 같은 문제점으로부터 안출된 본 발명이 해결하고자 하는 기술적 과제는, 연관레벨 및 가중치를 이용하여 데이터간의 유사도순으로 산출함으로써, 데이터 검색의 정확도를 높인 데이터 랭킹 산출 시스템을 제공하고자 하는 것이다.
본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
상기 언급된 기술적 과제들을 해결하기 위한, 본 발명의 일 실시예에 따른 가중치 기반 데이터 랭킹 산출 방법은, 데이터를 검색하기 위한 서비스를 제공하는 서버에서 실행되는 방법에 있어서, 상기 서버가 제1 데이터를 수신하는 단계, 상기 서버가 제2 데이터 그룹을 결정하는 단계, 상기 서버가 상기 제1 데이터와 상기 제2 데이터 그룹간의 연관레벨을 설정하는 단계, 상기 서버가 상기 제1 데이터와 상기 제2 데이터 그룹간의 제1 가중치를 산출하는 단계 및 상기 서버가 제2 가중치를 이용하여 상기 제1 데이터와 상기 제2 데이터 그룹간의 유사도 순위를 결정하는 단계를 포함하되, 상기 제2 가중치는 상기 연관레벨과 상기 제1 가중치를 기초로 산출한다.
상기 연관레벨은 상기 제1 데이터와 상기 제2 데이터 그룹을 기초로 관계도를 생성할 수 있다.
상기 제2 데이터 그룹은 데이터 저장부에 저장된 데이터를 이용하여 구성할 수 있다.
상기 제2 데이터 그룹은 제3 데이터를 포함할 수 있다.
상기 제1 가중치는 상기 제1 데이터와 상기 제3 데이터의 공통된 특징단어, 상기 제1 데이터의 특징단어와 상기 제3 데이터의 특징단어의 빈도를 기초로 산출할 수 있다.
상기 공통된 특징단어는 상기 제1 데이터에서 상기 공통된 특징단어의 출현빈도를 나타내는 제1 변수와 상기 제3 데이터에서 상기 공통된 특징단어의 출현빈도를 나타내는 제2 변수를 포함할 수 있다.
상기 제1 가중치는 상기 제1 데이터의 특정단어 출현빈도를 나타내는 제3 변수와 상기 제3 데이터의 특징단 출현빈도를 나타내는 제4 변수를 포함할 수 있다.
상기 특징단어는 자연어로 구성될 수 있다.
상기 제1 가중치는 제1 결과값과 제2 결과값의 역수를 곱셈하여 산출할 수 있다.
상기 제1 결과값은 상기 제1 변수와 상기 제2 변수를 곱한 결과들을 더하여 산출할 수 있다.
상기 제2 결과값은 제3 변수를 제곱하여 합산한 결과의 제곱근과 제4 변수를 제곱하여 합산한 결과의 제곱을을 곱하여 산출할 수 있다.
상기 제3 데이터의 상기 제2 가중치는 상기 제1 가중치의 합과 제3 데이터의 상기 제1 가중치의 비를 기초로 결정될 수 있다.
상기 제3 데이터의 상기 제2 가중치는 상기 제1 데이터의 상기 제2 가중치를 기초로 결정하되,
상기 제3 데이터의 상기 제2 가중치는 상기 제1 가중치의 합에 반비례하고, 상기 제3 데이터의 상기 제1 가중치에 비례할 수 있다.
상기 데이터는 문서 및 파일 중 적어도 하나를 포함한다.
상기와 같은 본 발명에 따르면, 가중치와 연관레벨을 이용하여 랭킹을 산출함으로써, 신뢰성 있는 데이터 검색 및 데이터 유사도 파악이 가능하다.
도 1은 본 발명의 일 실시예에 따른 가중치 기반 데이터 랭킹 산출 방법의 개략적인 흐름을 나타내는 도면이다.
도 2는 본 발명의 일 실시예에 따른 가중치 기반 데이터 랭킹 산출 방법에서 제1 데이터와 제2 데이터 그룹간의 연관레벨을 설정내는 도면이다.
도 3은 본 발명의 일 실시예에 따른 가중치 기반 데이터 랭킹 산출 방법에서 제1 가중치를 산출하는 과정을 나타내는 도면이다.
도 4 내지 도 9는 본 발명의 다른 실시예에 따른 가중치 기반 데이터 랭킹 산출 방법에서 제2 가중치를 산출하는 과정을 나타내는 도면이다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명한다. 본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 게시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 게시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.
본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다.
이하, 도면을 참조하여 본 발명의 일 실시예에 따른 가중치 기반 데이터 랭킹 산출 방법에 대해 설명하기로 한다.
도 1 내지 도 2 를 참조하면, 본 발명의 일 실시예에 따른 가중치 기반 데이터 랭킹 산출 방법의 개략적인 흐름이 도시된다. 도 1은 본 발명의 일 실시예에 따른 가중치 기반 데이터 랭킹 산출 방법의 개략적인 흐름을 나타내는 도면, 도 2는 본 발명의 일 실시예에 따른 가중치 기반 데이터 랭킹 산출 방법에서 제1 데이터와 제2 데이터 그룹간의 연관레벨을 설정내는 도면, 도 3은 본 발명의 일 실시예에 따른 가중치 기반 데이터 랭킹 산출 방법에서 제1 가중치를 산출하는 과정을 나타내는 도면, 도 4 내지 도 9은 본 발명의 일 실시예에 따른 가중치 기반 데이터 랭킹 산출 방법에서 제2 가중치를 산출하는 과정을 나타내는 도면이다.
구체적으로, 본 실시예에 따른 가중치 기반 데이터 랭킹 산출 방법은, 제1 데이터를 수신하는 단계(S10), 제2 데이터 그룹을 결정하는 단계(S20, S30), 상기 제1 데이터와 상기 제2 데이터 그룹간의 연관레벨을 설정하는 단계(S40), 상기 제1 데이터와 상기 제2 데이터 그룹간의 제1 가중치를 산출하는 단계(S50) 및 제2 가중치를 이용하여 상기 제1 데이터와 상기 제2 데이터 그룹간의 유사도 순위를 결정하는 단계(S70)를 포함하되, 상기 제2 가중치는 상기 연관레벨과 상기 제1 가중치를 기초로 산출한다(S60).
제1 데이터(100)와 유사한 데이터를 찾기 위한 과정을 수행하는데 있어, 제1 데이터(100)와 유사성을 가진 제2 데이터 그룹(200)을 결정하는 단계가 선행될 수 있다(S30). 데이터간 유사성의 정확도를 위해, 제2 데이터 그룹(200)은 외부 데이터베이스 스토리지를 이용할 수 있다. 예를 들어, Dbpia와 같은 데이터베이스를 이용하면, 방대한 양의 데이터를 용이하게 이용할 수 있으나, 이에 한정되는 것은 아니다.
외부 데이터베이스 스토리지를 이용하여 검색된 제2 데이터 그룹(200)을 효율적으로 사용자에게 제공하기 위해서는 그 문서의 중요도 및 순위를 평가해야 할 필요성이 있다. 데이터의 랭킹을 산출하는 방법은 여러가지가 있다.
예를 들어 학술 논문의 중요도를 평가하는 기법으로는 인용 횟수를 고려한 기법이 제시된 바 있다. 다른 논문에서 인용되는 횟수가 많은 논문이 중요한 논문으로 평가되는 것이다. 웹페이지 문서의 중요도를 평가함에 있어서도, 학술 논문의 중요도 평가 기법을 그대로 채용하여 링크(link) 수를 고려한 웹페이지 중요도 평가 기법이 제시된 바 있다.
본 실시예에 따른 가중치 기반 데이터 랭킹 산출 방법에서는 인용 특허 네트워크 그래프를 이용하였으나, 이에 한정되는 것은 아니며, 데이터간의 연관레벨을 설정할 수 있는 다양한 알고리즘이 이용될 수 있다. 인용 특허 네트워크 그래프를 이용하여 제1 데이터(100)와 제2 데이터 그룹(200)의 관계도를 생성할 수 있다(S40).
제1 데이터(100)와 제2 데이터 그룹(200)의 연관레벨이 설정되면, 제1 데이터와 제2 데이터 그룹(200)에 포함된 복수의 데이터, 예를 들어 제3 데이터(300)와의 제1 가중치를 산출하는 단계를 수행할 수 있다(S50).
기존의 랭킹 시스템은 전술한 바와 같이 인용횟수만을 고려하는 경우, 웹페이지와 같은 문서는 새로이 생성되는 속도가 매우 빠르고, 쉽게 대량으로 복제 및 생산할 수 있는 특성도 갖고 있다. 따라서, 웹페이지 문서의 중요도 평가를 위해 학술 논문의 중요도 평가에서와 같이 인용 횟수만을 고려한다면, 용이하게 문서의 중요도를 조작할 수 있는 문제가 있다.
또한, 링크 수만을 고려하여 중요도를 평가하는 방식은 웹페이지 문서의 복제가 쉬운 만큼 링크 수를 인위적으로 조작하여 쉽게 웹페이지 문서의 중요도를 왜곡할 수 있는 심각한 단점도 존재한다.
게다가 링크의 수만 고려하여 중요도를 평가한다면, 웹페이지를 검색하는 경우에 있어서 객관적으로 납득될 수없는 결과가 발생하는 경우도 자주 발생한다.
예를 들어, a 문서에서 b 문서로 연결된 링크를 이용하는 사용자 수는 10만명이고, a 문서에서 c 문서로 연결된 링크를 이용하는 사용자 수는 100명에 불과하다고 가정했을 때, 링크 접근량이 높은 b 문서가 c 문서에 비해 더 중요할 가능성이 높음에도 불구하고, 링크의 수만 고려한 결과 양 문서의 중요도가 같게 평가될 수 있다. 또한, 검색 서비스에서 웹페이지 문서의 중요도를 평가해야 할 필요성이 있는 만큼 검색 서비스가 아닌 다른 네트워크 서비스에서도 서비스의 그룹별 중요도, 블로그 서비스에서 블로그의 중요도 등을 평가할 필요성이 요구된다.
이에, 본 발명에서는 제1 및 제2 가중치를 적용하여 데이터간의 유사도 및 중요도를 결정할 수 있다.
제1 가중치를 산출하기 위해, 제1 데이터(100)와 제3 데이터(300)의 명사, 형용사, 동사 등의 자연어를 검색하는 단계를 수행할 수 있다. 다음으로, 제1 데이터(100)와 제3 데이터(300)간의 특징단어를 추출하고 비교하여 제1 가중치를 산출할 수 있다.
제2 가중치를 산출하는 단계를 수행할 수 있다(S60). 제2 가중치는 전술한 연관레벨과 제1 가중치를 이용하여 산출할 수 있다. 제1 가중치와 제2 가중치를 산출하는 구체적인 과정은 후술하기로 한다.
마지막으로, 제2 가중치를 이용하여 제2 데이터 그룹(200)의 랭킹을 산출하여 제1 데이터(100)와 유사도를 확인하는 단계를 수행할 수 있다(S70).
도 3 을 참조하면, 본 발명의 일 실시예에 따른 가중치 기반 데이터 랭킹 산출 방법의 구체적인 제1 가중치를 산출하는 방법이 개시된다.
먼저, 제1 데이터(100)와 제3 데이터(300)를 비교하는데 있어 자연어를 기초로 특징단어를 추출하는 과정을 수행할 수 있다. 제1 데이터(100) 및 제3 데이터(300)에 포함된 명사, 동사, 형용사 등과 같은 자연어를 분석하고, 두 데이터간에 공통적으로 출현하는 특징단어와 독립적으로 출현하는 특징단어를 추출할 수 있다. 분석된 특징단어들을 네 개의 변수로 구분하고, 제1 가중치는 전술된 변수를 기초로 하여 식 1에 의하여 산출될 수 있다.
Figure 112013078851467-pat00001
A 는 제1 데이터(100), B 는 제3 데이터, FA K는 제1 데이터(100)에 포함된 제3 데이터와 공통된 특징단어 k의 출현빈도, FB k는 제3 데이터(300)에 포함된 제1 데이터(100)와 공통된 특징단어 k의 출현빈도, FA i는 제1 데이터(100)에 포함된 특징단어 i의 출현빈도, FB j는 제3 데이터(300)에 포함된 특징단어 j의 출현빈도로 나타낼 수 있다. 편의상 FA K를 제1 변수, FB k를 제2 변수, FA i를 제3 변수, FB j를 제4 변수로 치환한다.
식 1에 도시된 것과 같이, 제1 가중치는 제1 데이터(100)와 제3 데이터(300)간의 특징단어를 기초로 산출될 수 있다. 따라서 두 데이터간의 유사한 자연어 또는 특징단어가 중복될수록 제1 가중치의 결과값은 높아질 수 있다.
예를 들어 제1 데이터(100)의 특징단어는 ‘음식’과 ‘쌀’을 포함하고, ‘음식’의 출현 빈도수는 3번, ‘쌀’의 출현 빈도수는 7번이라고 가정할 수 있다. 또한 제3 데이터(300)의 특징단어는 ‘음식’과 ‘고기’를 포함하고, ‘음식’의 출현 빈도수는 5번, ‘고기’의 출현 빈도수도 5번이라 가정할 수 있다.
여기서, 공통된 특징단어는 ‘음식’이며, 제1 데이터(100)의 특징단어는 ‘쌀’, 제3 데이터(300)의 특징단어는 ‘고기’로 구분할 수 있으며, 이에 따른 각각의 변수를 추출할 수 있다. 제1 데이터(100)에 포함된 공통된 특징단어의 빈도수를 나타내는 제1 변수는 0.3이며, 이와 같은 방법으로 제2 변수는 0.5, 제3 변수는 0.7, 제4 변수는 0.5로 나타낼 수 있다.
추출된 네 개의 변수를 식 1에 대입하면 다음과 같은 결과를 얻을 수 있다.
Figure 112013078851467-pat00002
따라서 제1 데이터(100)의 제3 데이터의 제1 가중치는 0.10213으로 산출될 수 있다.
도 4 내지 도 9 를 참조하면, 본 발명의 다른 실시예에 따른 가중치 기반 데이터 랭킹 시스템에서 구체적인 제2 가중치를 산출하는 방법이 개시된다.
제2 가중치는 제1 가중치와 연관레벨을 기초로 산출될 수 있다. 본 실시예의 연관레벨은 페이지랭크 알고리즘을 이용하여 구현하였으나, 이에 한정하는 것은 아니다.
페이지랭크는 월드 와이드 웹과 같은 하이퍼링크 구조를 가지는 문서에 상대적 중요도에 따라 가중치를 부여하는 방법이다. 페이지 랭크는 더 중요한 페이지는 더 많은 다른 사이트로부터 링크를 받는다는 관찰에 기초하고 있다. 예를들어 페이지 A가 페이지 B, C, D 로 총 3개의 링크를 걸었다면 B는 A의 페이지 랭크 값의 1/3만큼을 가져온다.
또한 페이지 랭크에서는 랜덤 서퍼(Random Sufer)라는 페이지를 임의로 방문하며 탐색하는 모델을 가정한다. 이 모델에서는 위 예의 A페이지를 방문한 서퍼는 A페이지를 보고 만족하여 탐색을 중단하거나, 혹은 A페이지에서 만족하지 못하여 다른 페이지를 방문할 것이다. 이러한 확률(Damping Factor)을
Figure 112013078851467-pat00003
라 한다면, B페이지는
Figure 112013078851467-pat00004
만큼 페이지 랭크를 받게 된다.
이를 일반화 하면 식 2와 같이 표현될 수 있다.
Figure 112013078851467-pat00005
PR 은 PageRank의 줄임말이고, PR(A)는 ‘A’라는 웹페이지의 페이지 랭크를 의미한다. T1, T2, … Tn은 그 페이지를 가리키는 다른 페이지들을 의미한다. 그리고 PR(T1) 는 T1이라는 페이지의 페이지 랭크값이다. d는 Damping Factor이다. C(T1) 는 T1이라는 페이지가 가지고 있는 링크의 총 갯수를 의미한다.
다시 말해, 어떤 페이지 A의 페이지 랭크는 그 페이지를 인용하고 있는 다른 페이지 T1, T2, T3, .. 가 가진 페이지 랭크를 정규화시킨 값의 합이다. 다시 말해 페이지 A의 페이지 랭크는 A라는 페이지를 가리키고 있는 다른 페이지의 페이지 랭크값이 높을수록 더 높아진다. 페이지 랭크의 단순 합산이 아니다. 예를 들어, T1의 페이지 랭크가 높다고 하더라도, 그 페이지에서 링크를 수천 개 달아놓았다면, 즉 C(T1)값이 높다면, 그 페이지가 기여하는 비중은 낮아진다.
페이지 랭크 알고리즘을 이용한 제2 가중치의 수식은 다음과 같다.
Figure 112013078851467-pat00006
A는 제1 데이터(100),
Figure 112013078851467-pat00007
는 데이터 A에 대한 제2 가중치, CPi는 데이터 i에 대한 제2 가중치, W는 제1 가중치, i는 제1 데이터(100)를 인용하는 데이터의 개수로 나타낼 수 있다.
도 4 내지 도 8 에 예시된 바와 같이, 제1 데이터(100)와 제2 데이터 그룹(200)의 유사도 랭킹을 산출하는 단계를 수행할 수 있다.
먼저, 제1 데이터(100)와 제2 데이터 그룹(200)의 연관레벨을 설정할 수 있다. 연관레벨은 특허인용네트워크 그래프와 같이 데이터간의 연관성을 구현할 수 있는 다양한 알고리즘으로 나타낼 수 있다.
다음으로, 제1 가중치를 산출하는 단계를 수행할 수 있다. 예를 들어, 제1 데이터(100)와 제3 데이터 간의 제1 가중치를 산출하는 경우, 두 데이터의 자연어를 분석하여 특징단어를 추출한 다음, 식 3을 이용하여 제1 가중치를 산출 할 수 있다. 본 실시예에서 제1 데이터(100)와 제3 데이터(300)간의 제1 가중치는 0.002로 가정하였다. 이와 같은 방법으로 도 4 에 도시된 바와 같이 데이터간의 제1 가중치를 산출할 수 있다.
제2 가중치를 산출하는 단계를 수행할 수 있다. 제2 가중치의 값은 0과 1 사이의 값을 가질 수 있으며, 가중치 값이 높을수록 높은 유사도를 나타낼 수 있다. 본 실시예에서는 제1 데이터(100)의 제2 가중치를 1로 설정하였으므로, 1과 가장 가까운 결과값을 가지는 데이이터가 가장 높은 유사도를 나타낼 수 있다.
도 4 에 나타난 바와 같이 제1 데이터(100)는 제3, 제4, 제5 데이터와 연결되어 있고, 이들과의 제1 가중치는 각각 0.002, 0.012, 0.032를 가지도록 가정하였다. 따라서 전술한 식 3을 이용하여 제1 데이터(100)와 제3 데이터(300)의 제2 가중치를 산출하면, 식 4와 같이 나타날 수 있다.
Figure 112013078851467-pat00008
마찬가지 방법으로 제4 데이터 및 제5 데이터의 제2 가중치는 도 6 에 도시된 바와 같이 각각 0.260869, 0.695652의 값을 가질 수 있다.
한편, 제4 데이터는 제3 데이터(300)와 제6 데이터와 연결되어 있고, 각각의 제1 가중치는 0.021, 0.013이므로, 제3 데이터와 제4 데이터간의 제2 가중치는
Figure 112013078851467-pat00009
와 같고, 따라서 제3 데이터(300)의 최종적인 제2 가중치는 0.0043478과 0.161125를 합한 0.204603이 될 수 있다. 제6 데이터와 제7 데이터는 하나의 연결레벨을 가지고 있으므로, 제6 데이터의 제2 가중치와 제7 데이터의 제2 가중치는 같은 결과값을 가지게 될 수 있다.
이와 같은 방법으로 제2 데이터 그룹(200)에 포함된 모든 데이터에 제2 가중치를 적용하여, 결과값이 1에 가장 가까운 순서대로 정렬하여 랭킹을 산출할 수 있다. 본 실시예에서는 제5 데이터가 제1 데이터(100)와 가장 높은 유사도를 가지는 데이터로 결정되었다.
이상 첨부된 도면을 참조하여 본 발명의 실시예들을 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.
100: 제1 데이터
200: 제2 데이터 그룹
300: 제3 데이터

Claims (14)

  1. 데이터를 검색하기 위한 서비스를 제공하는 서버에서 실행되는 방법에 있어서,
    상기 서버가 제1 데이터를 수신하는 단계;
    상기 서버가 제2 데이터 그룹을 결정하는 단계;
    상기 서버가 상기 제1 데이터와 상기 제2 데이터 그룹간의 연관레벨을 설정하는 단계;
    상기 서버가 상기 제1 데이터와 상기 제2 데이터 그룹간의 제1 가중치를 산출하는 단계;
    상기 서버가 제2 가중치를 이용하여 상기 제1 데이터와 상기 제2 데이터 그룹간의 유사도 순위를 결정하는 단계를 포함하되,
    상기 제2 가중치는 상기 연관레벨과 상기 제1 가중치를 기초로 산출하는, 가중치 기반 데이터 랭킹 산출 방법.
  2. 제1항에 있어서,
    상기 연관레벨은 상기 제1 데이터와 상기 제2 데이터 그룹을 기초로 관계도를 생성하는, 가중치 기반 데이터 랭킹 산출 방법.
  3. 제1항에 있어서,
    상기 제2 데이터 그룹은 데이터 저장부에 저장된 데이터를 이용하여 구성하는, 가중치 기반 데이터 랭킹 산출 방법.
  4. 제1항에 있어서,
    상기 제2 데이터 그룹은 제3 데이터를 포함하는, 가중치 기반 데이터 랭킹 산출 방법.
  5. 제4항에 있어서,
    상기 제1 가중치는 상기 제1 데이터와 상기 제3 데이터의 공통된 특징단어, 상기 제1 데이터의 특징단어와 상기 제3 데이터의 특징단어의 빈도를 기초로 산출하는, 가중치 기반 데이터 랭킹 산출 방법.
  6. 제5항에 있어서,
    상기 공통된 특징단어는 상기 제1 데이터에서 상기 공통된 특징단어의 출현빈도를 나타내는 제1 변수와 상기 제3 데이터에서 상기 공통된 특징단어의 출현빈도를 나타내는 제2 변수를 포함하는, 가중치 기반 데이터 랭킹 산출 방법.
  7. 제5항에 있어서,
    상기 제1 가중치는 상기 제1 데이터의 특정단어 출현빈도를 나타내는 제3 변수와 상기 제3 데이터의 특징단어 출현빈도를 나타내는 제4 변수를 포함하는, 가중치 기반 데이터 랭킹 산출 방법.
  8. 제5항에 있어서,
    상기 특징단어는 자연어로 구성되는, 가중치 기반 데이터 랭킹 산출 방법.
  9. 제4항에 있어서,
    상기 제1 가중치는 제1 결과값과 제2 결과값의 역수를 곱셈하여 산출하는, 가중치 기반 데이터 랭킹 산출 방법.
  10. 제9항에 있어서,
    상기 제1 결과값은 상기 제1 변수와 상기 제2 변수를 곱한 결과들을 더하여 산출하는, 가중치 기반 데이터 랭킹 산출 방법.
  11. 제9항에 있어서,
    상기 제2 결과값은 제3 변수를 제곱하여 합산한 결과의 제곱근과 제4 변수를 제곱하여 합산한 결과의 제곱을을 곱하여 산출하는, 가중치 기반 데이터 랭킹 산출 방법.
  12. 제4항에 있어서,
    상기 제3 데이터의 상기 제2 가중치는 상기 제1 가중치의 합과 제3 데이터의 상기 제1 가중치의 비를 기초로 결정되는, 가중치 기반 데이터 랭킹 산출 방법.
  13. 제12항에 있어서,
    상기 제3 데이터의 상기 제2 가중치는 상기 제1 데이터의 상기 제2 가중치를 기초로 결정하되,
    상기 제3 데이터의 상기 제2 가중치는 상기 제1 가중치의 합에 반비례하고, 상기 제3 데이터의 상기 제1 가중치에 비례하는, 가중치 기반 데이터 랭킹 산출 방법.
  14. 제1항에 있어서,
    상기 데이터는 문서 및 파일 중 적어도 하나를 포함하는, 가중치 기반 데이터 랭킹 산출 방법.
KR1020130102840A 2013-08-29 2013-08-29 가중치 기반 데이터 랭킹 산출 방법 KR101567870B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020130102840A KR101567870B1 (ko) 2013-08-29 2013-08-29 가중치 기반 데이터 랭킹 산출 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130102840A KR101567870B1 (ko) 2013-08-29 2013-08-29 가중치 기반 데이터 랭킹 산출 방법

Publications (2)

Publication Number Publication Date
KR20150025330A KR20150025330A (ko) 2015-03-10
KR101567870B1 true KR101567870B1 (ko) 2015-11-10

Family

ID=53021583

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130102840A KR101567870B1 (ko) 2013-08-29 2013-08-29 가중치 기반 데이터 랭킹 산출 방법

Country Status (1)

Country Link
KR (1) KR101567870B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101931859B1 (ko) * 2016-09-29 2018-12-21 (주)시지온 전자문서의 대표 단어 선정 방법, 전자 문서 제공 방법, 및 이를 수행하는 컴퓨팅 시스템

Also Published As

Publication number Publication date
KR20150025330A (ko) 2015-03-10

Similar Documents

Publication Publication Date Title
JP5369154B2 (ja) クリックディスタンスを用いて検索結果をランク付けするシステムおよび方法
Clough et al. Evaluating the performance of information retrieval systems using test collections
KR101076894B1 (ko) 앵커 텍스트를 랭킹 검색 결과에 통합하는 시스템 및 방법
CA2618854C (en) Ranking search results using biased click distance
RU2387005C2 (ru) Способ и система ранжирования объектов на основе отношений внутри типа и между типами
Halpin et al. Evaluating ad-hoc object retrieval.
EP1717720A1 (en) Discovery of related documents based on a proximal neighborhood measure
Derhami et al. Applying reinforcement learning for web pages ranking algorithms
US20130297827A1 (en) Method and server for intelligent categorization of bookmarks
Prajapati A survey paper on hyperlink-induced topic search (HITS) algorithms for web mining
US20150134632A1 (en) Search method
Caro et al. Are web visibility and data quality related concepts?
KR101567870B1 (ko) 가중치 기반 데이터 랭킹 산출 방법
Ansari et al. Architecture for checking trustworthiness of websites
Srinath Page ranking algorithms–a comparison
Rodrigues et al. An Efficient Page Ranking Approach Based on Hybrid Model
JP5890413B2 (ja) 多数のデータレコードをサーチする方法及びサーチエンジン
Mukhopadhyay et al. FlexiRank: an algorithm offering flexibility and accuracy for ranking the web pages
Bar-Yossef et al. Estimating the impressionrank of web pages
Ding et al. A generalized site ranking model for web IR
Goutam et al. Performance evaluation of search engines via user efforts measures
CN107423298A (zh) 一种搜索方法和装置
Pawar et al. Effective utilization of page ranking and HITS in significant information retrieval
Kahng et al. Exploiting paths for entity search in rdf graphs
JP2012099002A (ja) ウェブ上の情報をネットワーク可視化する装置及び方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20181102

Year of fee payment: 4