KR20100035355A

KR20100035355A - 개인화된 검색 정보 제공 장치 및 방법

Info

Publication number: KR20100035355A
Application number: KR1020080094693A
Authority: KR
Inventors: 유승열
Original assignee: 삼성전자주식회사
Priority date: 2008-09-26
Filing date: 2008-09-26
Publication date: 2010-04-05

Abstract

사용자 질의를 고려한 개인화된 검색 정보를 제공하는 개인화된 검색 정보 제공 장치 및 방법이 제공된다. 일 양상에 따르면, 검색의 대상이 되는 콘텐츠들에 대한 세그먼트화가 수행되고, 각 콘텐츠마다 세그먼트들간의 포함관계에 관한 정보를 포함하는 연관관계 정보와 키워드를 기반으로 세그먼트를 검색하기 위한 역색인 정보가 추출된다. 사용자 질의가 입력되면, 역색인 정보를 이용하여 사용자 질의에 따른 개인화된 검색 결과가 제공된다. 개인화된 검색 결과는 세그먼트들에 대한 연관관계 정보를 참조하여 각 콘텐츠별로 연관된 세그먼트들이 제공될 수 있다.

질의, 개인화, 검색 엔진, 세그멘테이션, 웹 페이지

Description

개인화된 검색 정보 제공 장치 및 방법{Apparatus and method for providing personalized information retrieval}

본 발명의 하나 이상의 양상은 검색 시스템에 관한 것으로, 사용자 질의를 고려한 개인화된 검색 정보를 제공하는 개인화된 검색 정보 제공 장치 및 방법에 관한 것이다.

사용자는 인터넷상에서 원하는 정보를 얻기 위하여 다양한 검색 엔진을 사용한다. 검색 엔진은 사용자가 특정 단어 또는 구문을 포함하는 인터넷 상의 정보 또는 자료를 포함하는 웹 페이지를 찾을 수 있도록 한다. 일반적인 키워드 검색에 대해 검색 엔진은 지정된 임의의 키워드 및 구문에 관련된 임의의 정보를 갖는 모든 웹 사이트를 찾을 것이다.

통상적인 검색 엔진은 사용자에 상관없이 동일한 방법으로 검색 질의를 처리한다. 어느 누가 질의를 하는지와 상관없이 검색 질의 자체, 즉 얼마나 많은 용어가 질의 내용에 어떠한 순서로 존재하는지가 검색 결과에 영향을 미친다. 또한, 하나의 콘텐츠에 다양한 주제의 내용이 포함되어 있는 경우 사용자가 찾는 정보와는 무관한 콘텐츠가 검색되기도 한다.

그러나, 실제로 동일한 검색 질의를 입력하더라도 사용자마다 다른 검색 결과를 원할 수 있다. 따라서, 개인화된 검색 정보를 제공하기 위한 연구가 진행되고 있다.

사용자가 사용자 질의에 따라 콘텐츠에 포함되는 세그먼트들 단위로 접근가능하며 사용자마다 원하는 개인화된 검색 정보를 제공하기 위한 검색 정보 제공 장치 및 방법이 제안된다.

일 양상에 따른 개인화된 검색 정보 제공 장치는, 검색의 대상이 되는 콘텐츠에 대하여 콘텐츠별로 세그먼트화하고, 세그먼트화 결과 생성되는 콘텐츠 세그먼트들간의 연관관계 정보 및 키워드를 기반으로 세그먼트를 검색하기 위한 역색인 정보를 추출하는 콘텐츠 전처리부; 및 입력되는 사용자 질의, 콘텐츠 세그먼트들간의 연관관계 정보 및 역색인 정보를 이용하여 검색 결과를 생성하는 검색 정보 생성부를 포함한다. 여기에서, 콘텐츠는 복수의 웹 페이지를 포함할 수 있다.

콘텐츠 세그먼트화부는 콘텐츠에 포함되는 콘텐츠 세그먼트들의 성격 또는 분류를 나타내는 태그들의 배치에 관한 적어도 하나의 규칙을 이용하여 콘텐츠를 세그먼트화할 수 있다. 세그먼트들간의 연관관계 정보는 콘텐트 단위별 세그먼트들간의 포함 관계에 관한 정보를 포함할 수 있다. 역색인 정보는 키워드별로 각각의 키워드가 위치하는 세그먼트 및 세그먼트가 속한 각 콘텐츠를 식별하는 정보를 포함할 수 있다.

검색 정보 생성부는 세그먼트화 결과 추출된 세그먼트들 중에서 사용자 질의에 대응하는 키워드에 따른 역색인 정보를 이용하여, 사용자 질의어와 연관된 세그먼트들을 선택하고, 선택된 세그먼트들간의 연관관계 정보를 참조하여 선택된 세그먼트들을 제공할 수 있다.

또한, 검색 정보 생성부는 사용자 질의어가 검색되는 연관된 세그먼트들로부터 사용자 질의어와 연관된 적어도 하나의 확장 질의어를 추출하고, 추출된 확장 질의어에 기초하여 세그먼트화 결과 추출된 세그먼트들에 대한 검색을 다시 수행할 수 있다. 이를 위해, 검색 정보 생성부는 사용자 질의어가 검색되는 연관된 세그먼트들로부터 확장 질의어 후보들을 추출하고, 확장 질의어 후보들 중에 사용자 입력 신호에 의해 선택된 적어도 하나의 확장 질의어 후보를 확장 질의어로 추출할 수 있다.

또한, 검색 정보 생성부는 사용자가 이전에 검색을 위해 입력한 질의어별 액세스된 웹 페이지 정보를 포함하는 사용자 히스토리 정보 또는 사용자 질의어와 연관된 세그먼트들 중 사용자 입력 신호에 의해 선택되는 적어도 하나의 세그먼트에 기초하여, 사용자 질의어가 검색되는 연관된 세그먼트들로부터 확장 질의어가 추출될 세그먼트들을 클러스터링할 수 있다. 검색 정보 생성부는 사용자 질의어가 검색되는 연관된 세그먼트들로부터 확장 질의어가 추출될 세그먼트들을 클러스터링하기 위하여 K-평균 알고리즘을 이용할 수 있다.

일 양상에 따르면, 개인화된 검색 정보 제공 장치는 검색 결과로서 적어도 하나의 세그먼트들이 추출된 경우, 추출된 적어도 하나의 세그먼트들에 대한 요약 정보를 제공하는 검색 정보 제공부를 더 포함하여 구성될 수 있다.

다른 양상에 따른 개인화된 검색 정보 제공 방법은 검색의 대상이 되는 콘텐츠를 세그먼트화하는 단계; 세그먼트화 결과 생성되는 콘텐츠 세그먼트들간의 연관관계 정보 및 키워드를 기반으로 세그먼트를 검색하기 위한 역색인 정보를 추출하는 단계; 및 사용자 질의가 입력되면, 사용자 질의, 콘텐츠 세그먼트들간의 연관관계 정보 및 역색인 정보를 이용하여 검색 결과를 생성하는 단계를 포함한다.

일 양상에 따르면, 사용자가 사용자 질의에 따라 콘텐츠에 포함되는 세그먼트들 단위로 원하는 정보를 제공하며, 사용자마다 개인화된 검색 정보를 제공할 수 있다.

이하, 첨부된 도면을 참조하여 본 발명의 일 실시예를 상세하게 설명한다. 본 발명을 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 또한, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

도 1은 일 실시예에 따른 개인화된 검색 정보를 제공하기 위한 시스템을 나타내는 도면이다.

사용자 단말(110)이 인터넷과 같은 네트워크(120)를 통하여 개인화된 검색 정보 제공 장치(130) 및 콘텐츠 제공 장치(140)에 접속된다. 사용자 단말(110), 개인화된 검색 정보 제공 장치(130) 및 콘텐츠 제공 장치(140)는 각각 다수 개 존재할 수 있다. 개인화된 검색 정보 제공 장치(130)는 검색 엔진으로서 사용자 단말(110)로부터 입력되는 검색 질의를 처리하고, 검색 질의에 따라서 검색 결과를 생성하고, 사용자 단말(100)에 그 결과를 리턴한다. 콘텐츠 제공 장치(140)는 콘텐츠 제공 서버로서 다수의 콘텐츠를 제공한다. 콘텐츠의 종류 및 형태에는 제한이 없으나, 이하에서는 콘텐츠가 웹 페이지인 경우를 중심으로 설명한다.

콘텐츠는 콘텐츠 저작자의 의도에 따른 의미별로 구분되는 세그먼트들로 구성될 수 있다. 세그먼트는 세그먼트 자체에 포함되고 있는 내용만으로도 특정 주제와의 관련성이 있는 것으로 판단될 수 있는 단위를 의미한다. 세그먼트는 일예로 웹 페이지에서 <div> 태그에 의해 구별되는 부분일 수 있고, 또는 문장 단위일 수 있으며, 다양한 형태의 단위를 가질 수 있다. 또한, 하나의 콘텐츠가 세그먼트화되면 여러 타입 또는 형태의 세그먼트들이 추출될 수 있다.

일 실시예에 따르면, 개인화된 검색 정보 제공 장치(130)는 검색의 대상이 되는 콘텐츠의 저작자가 전달하고자 하는 정보의 내용과 사용자가 필요로 하는 정보 간의 의미적인 매칭을 통하여 연관된 세그먼트들을 선택하여 개인화된 검색 정보를 사용자 단말(110)에 제공할 수 있다. 여기서, 연관된 세그먼트들은 특정 주제 측면에서 서로 연관성이 있는 세그먼트들을 의미한다.

이와 같은 개인화된 검색 정보 제공은 하나의 콘텐츠에 다양한 주제들의 서 브 콘텐츠들이 혼재되어 있거나, 사용자 질의어와 실질적으로 관련성이 없는 노이즈성 정보들이 포함되어 있는 경우 유용할 수 있다. 노이즈성 정보는, 예를 들어, 콘텐츠가 웹 페이지인 경우, 사용자에게 웹 페이지의 다른 부분으로 안내하기 위한 하이퍼 링크와 같은 내비게이션 정보, 관심이나 광고 목적의 사진, 동영상, 로그 등의 장식 정보, 사용자 정보를 수집하거나 검색 서비스들을 제공하기 위한 형태의 인터랙션 정보 등일 수 있다.

도 2는 일 실시예에 따른 개인화된 검색 정보를 제공하기 위한 장치의 구성을 나타내는 블록도이다. 일 실시예에 따른 개인화된 검색 정보 제공 장치(130)는 콘텐츠 전처리부(210) 및 검색 정보 생성부(220)를 포함하여 구성될 수 있다.

콘텐츠 전처리부(210)는 검색의 대상이 되는 콘텐츠를 세그먼트화하고, 세그먼트화 결과 생성되는 콘텐츠 세그먼트들간의 연관관계 정보를 추출한다. 또한, 콘텐츠 전처리부(210)는 키워드를 기반으로 세그먼트를 검색하기 위한 역색인 정보를 추출할 수 있다. 한편, 검색 정보 생성부(220)는 사용자 질의에 기초하여 콘텐츠 전처리부(210)의 처리 결과 추출된 콘텐츠 세그먼트들간의 연관관계 정보 및 역색인 정보를 이용하여 검색 결과를 생성한다.

우선, 도 2를 참조하여 일 실시예에 따른 콘텐츠 전처리부(210)의 구성에 대하여 상세하게 설명한다. 도 2를 참조하면, 콘텐츠 전처리부(210)는 콘텐츠 세그먼트화부(212), 연관관계 정보 추출부(214) 및 역색인 정보 추출부(216)를 포함할 수 있다.

콘텐츠 세그먼트화부(212)는 콘텐츠를 세그먼트화하여 콘텐츠별로 적어도 하 나의 세그먼트들을 생성한다. 일 실시예에 따르면, 콘텐츠 세그먼트화부(212)는 콘텐츠에 포함되는 세그먼트들의 성격 또는 분류를 나타내는 태그들의 배치에 관한 적어도 하나의 규칙을 이용하여 세그먼트화할 수 있다.

일예로, 콘텐츠 세그먼트화부(212)는 웹 페이지에 포함되는 태그들 간의 암시적 내포 관계를 일반화한 발견적(heuristic) 규칙을 돔 기반 세그멘테이션(Dom-based segmentation) 방법에 적용시켜 수행될 수 있다. 태그들 간의 암시적 내포 관계는 다양한 웹 페이지 저자들의 의도를 일반화하여 반영할 수 있으므로, 태그들 간의 암시적 내포 관계에 기반한 규칙을 돔 기반 세그멘테이션 방법에 적용시키면 저자들의 의도가 반영된 세그먼트들이 추출될 수 있다.

일 실시예에 따른 콘텐츠 세그먼트화의 일 예를 도 3a 및 도 3b를 참조하여 이하에서 설명한다.

도 3a 및 도 3b는 각각 일반적인 돔 기반 세그멘테이션 방법에 의해 해석된 웹 페이지의 세그먼트들 구조 및 일 실시예에 따른 발견적 규칙을 적용한 돔 기반 세그멘테이션 방법에 의해 해석된 웹 페이지의 세그먼트들 구조의 일 예를 나타낸 도면이다.

도 3a는 일반적인 돔 기반 세그멘테이션 방법으로 웹 페이지의 세그먼트를 추출한 결과를 나타낸다. 웹 페이지 예를 들어, HTML 페이지의 구조는 DOM(Document Object Model)에 의해 태그 트리로 나타내질 수 있다. 돔 기반 세그멘테이션 방법은 유용한 태그들 또는 태그 타입들을 이용하여 웹 페이지를 세그먼트화하는 방법이다. 예를 들어, <P>(단락), <TABLE>(테이블), <UL>(리스트), <H1>~<H6>(헤딩)들의 태그들에 의해 세그먼트들이 구분될 수 있다.

도 3b는 일 실시예에 따른 발견적 방법에 기반한 돔 기반 세그멘테이션 방법으로 웹 페이지의 세그먼트를 추출한 결과를 나타낸다. 일 실시예에 따른 발견적 규칙을 적용한 돔 기반 세그멘테이션 방법은 태그들간의 영역 정보(boundary information)을 해석하여 일부 분실된 태그의 위치를 자동을 찾아내어 복구하거나 오류를 정정하여 콘텐츠 저자가 의도하는 세그멘테이션의 구조를 파악하는데 신뢰성을 높일 수 있다.

예를 들어, 다음과 같은 발견적 규칙들이 적용될 수 있다.

(1)쌍의 관계에 있는 태그들(예를 들어, <li> 및 </li>, <DIV> 및 </DIV)이 있다.

(2) <tag> content-element </tag> 들 중에 서로 근접해야만 하는 것들이 있다. 예를 들어, 이웃하는 <li>, <option>, <tr>, <td> 목록 태그들은 하나의 상위 세그먼트에 포함된다.

(3) 부모 태그와 자식 태그의 관계를 가지는 태그들이 있다. 예를 들어, <ol>, <ul>, <select>, <table>, <tr>, <tbody>, <tfoot>의 세그먼트 영역은 <li>, <option>, <tr>, <td>로 표현된 하위 세그먼트들을 포함한다.

(4) 태그들 간의 포함관계에는 우선 순위가 있다. 예를 들어, 헤더 태그 <h1>는 이웃하는 헤더 태그 <h2>를 포함할 수 있지만, 반대인 경우는 불가하다.

이러한 발견적 규칙들은 이외에도 다양하게 발견되어 적용될 수 있으며, 사용자에게 GUI 인터페이스를 제공하여 사용자 입력에 따라서 수정, 보완 및 추가하 도록 할 수 있다. 또한, 사용자 입력에 따라 발견적 규칙들이 수정됨으로써 변경된 세그먼트들간의 연관성은, 이후에 세그먼트들 간의 연관관계 정보를 추출할 때 태그들 간의 암시적 내포 또는 포함 관계를 콘텐츠 세그먼트화부(212)에서 학습하도록 하는데 이용될 수 있다.

도 3a를 참조하면, "Forest Elephants"라는 주제 아래에 소주제 "Habitat"가 있고, 소주제 "Habitat" 아래에 또 소주제 "Coservation"가 있는 것으로 세그먼트들간의 연관관계가 해석되었음을 나타낸다. 한편, 도 3b에서, 일 실시예에 따라 발견적 규칙이 적용되면, "Habitat"와 "Conservative"에 대한 내용이 "Forest Elephants"에 관한 2개의 다른 소주제들로 세그먼트들간의 연관관계가 해석되었음을 나타낸다. 동일한 형태의 웹 페이지라도 일 실시예에 따른 세그먼트화 방법에 의하면, 일반적인 돔 기반 세그먼트화 방법과 다른 연관관계를 가지도록 세그먼트들이 추출될 수 있으며, 웹 페이지 태그들 간의 암시적 내포 관계를 일반화한 발견적 규칙을 이용한 세그먼트 추출 방법이 보다 나은 세그먼트들 간의 의미적 관계를 밝혀낼 수 있다.

다시 도 2를 참조하면, 연관관계 정보 추출부(214)는 콘텐츠 단위별 세그먼트들 간의 포함관계를 포함하는 세그먼트들간의 연관관계 정보를 추출할 수 있다. 일예로, 각 웹 페이지별로 웹 페이지에 포함된 세그먼트들간의 연관관계(예를 들어, 세그먼트들 간의 포함관계, 병렬 관계 등)를 나타내는 세그먼트 연관관계 정보로서 추출될 수 있다.

역색인 정보 추출부(216)는 키워드를 기반으로 세그먼트들을 검색하기 위한 역색인 정보(inverse index)를 추출한다. 역색인 정보는 각 키워드가 존재하는 웹 페이지 상의 구조적 위치 정보 및 구조적 위치를 통한 암묵적인 연관관계를 나타내기 위한 정보이다. 역색인 정보는 키워드별로 각각의 키워드가 위치하는 세그먼트 및 그 세그먼트가 속한 각 콘텐츠를 각각 식별하는 정보를 포함할 수 있다.

예를 들어, 키워드들 간의 역색인 정보는 다음과 같이 생성될 수 있다. 다수의 웹 페이지로부터의 역색인 정보가 생성되는 경우에 대하여 설명하면, 우선 웹 페이지 식별 정보로 식별될 수 있는 웹 페이지별로, 각 웹 페이지에 포함된 각 세그먼트들에 고유 번호를 할당한다. 그런 다음, 키워드별로 각 키워드가 추출된 웹 페이지 및 세그먼트 식별 정보가 역색인 정보로서 추출될 수 있다.

추출된 세그먼트 연관관계 정보 및 역색인 정보는 콘텐츠 전처리부(210)의 소정의 저장 공간(도시되지 않음)에 저장될 수 있다. 한편, 콘텐츠 전처리부(210)는 세그먼트화된 콘텐츠를 세그먼트 연관관계 정보 및 역색인 정보를 기반으로 하여 검색을 용이하게 하기 위한 디렉토리 형태로 형성하여 저장하고, 콘텐츠에 접근하기 위한 디렉토리 정보를 사용자에게 제공할 수도 있다. 세그먼트 연관관계 정보 및 역색인 정보의 일 예는 도 4를 참조하여 설명한다.

도 4는 일 실시예에 따른 세그먼트 연관관계 정보 및 역색인 정보를 설명하기 위한 도면이다.

도 4에서, 웹 페이지 #w1(410)는 2개의 세그먼트(세그먼트 1 및 세그먼트 2)를 포함하며, 세그먼트 1은 2개의 서브 세그먼트(세그먼트 1.1 및 세그먼트 1.2)를 포함하며, 세그먼트 2는 2개의 서브 세그먼트(세그먼트 2.1 및 세그먼트 2.2)를 포 함하는 것으로 해석됨을 나타낸다.

테이블(420)은 웹페이지 #w1(410)로부터 추출될 수 있는 세그먼트 연관관계 정보의 일 예를 나타낸다. 테이블(420)은 전술한 바와 같이 웹 페이지 #1(410)에 포함된 세그먼트들 간의 구조적 정보를 나타낸다. 일 예로, 세그먼트 1.1.에 대하여 해석될 수 있는 구조적 정보는 다음과 같다. 세그먼트 1.1은 세그먼트 1에 포함되어 있고, 세그먼트 1.2와는 구조적으로 이웃관계에 있으며, 세그먼트 2에 포함되어 있는 세그먼트 2.1 및 세그먼트 2.2와는 웹 페이지 #w1(410)에 포함되어 있다는 것 외에는 다른 구조적 관련이 없다.

테이블(430)은 웹페이지 #w1(410)로부터 추출될 수 있는 역색인 정보의 일 예를 나타낸다. 테이블(430)은 키워드 1 각각 웹페이지 #w1(410)상의 세그먼트 1.1에 위치하고, 키워드 2는 웹페이지 #w1(410)상의 세그먼트 2.2. 상에 위치함을 나타낸다.

이하에서는 다시 도 2를 참조하여 검색 정보 생성부(220)의 구성에 대하여 상세하게 설명한다. 검색 정보 생성부(220)는 세그먼트 선택부(222), 확장 질의어 생성부(224) 및 확장 질의어 선택부(226)를 포함할 수 있다.

세그먼트 선택부(222)는 사용자 단말(110)로부터 입력된 검색 질의어와 관련된 적어도 하나의 연관된 세그먼트를 선택하여 추출한다. 검색 대상이 되는 웹 페이지들 중 일부 웹 페이지에서는 검색 질의어와 관련된 세그먼트가 없을 수 있고, 다른 웹 페이지에서는 검색 질의어와 관련된 세그먼트가 적어도 하나 이상 존재할 수 있다.

또한, 세그먼트 선택부(222)는 선택된 세그먼트들에 검색 질의어와 관련도에 기초하여 가중치를 부여하고 계산하여, 선택된 각각의 세그먼트들에 순위를 부여할 수 있다. 일 실시예에 따르면, 개인화된 검색 정보 제공 장치에는 순위대로 정렬된 세그먼트들은 사용자에게 제공하기 위해 출력하기 위한 검색 정보 제공부(도시되지 않음)이 더 포함될 수 있다.

세그먼트 연관관계 정보가 웹 페이지별로 생성될 수 있으므로, 검색 정보 제공부는 웹 페이지별로 사용자 질의와 관련된다고 검색된 세그먼트들을 정렬하여 제공할 수 있다. 검색 결과로서 제공되는 세그먼트들은 세그먼트들 사이의 연관관계가 나타나도록 제공될 수 있다. 또한, 사용자 질의와 관련된 세그먼트가 다수 개 추출되는 경우, 추출된 세그먼트들에 대한 요약 정보를 생성하여 제공하도록 구성될 수 있으며, 개인화된 검색 결과는 다양한 형태로 사용자에게 제공될 수 있다.

한편, 검색 정보 생성부(220)는 다수개의 세그먼트들이 선택되는 경우, 사용자 질의어와 관련성이 높다고 판단되는 새로운 질의어를 추가함으로써 생성될 수 있는 확장 질의어를 이용하여 연관 세그먼트를 추출하는 동작을 다시 수행할 수 있다. 이를 위해, 확장 질의어 생성부(224)는 사용자 질의어와 관련된다고 밝혀진 세그먼트들에 대한 적어도 하나의 확장 질의어 후보들을 추출할 수 있다. 확장 질의어 선택부(226)는 사용자의 선택 또는 다양한 특성치 선택(feature selection) 알고리즘에 따라서 확장 질의어 후보들 중에서 확장 질의어를 결정할 수 있다. 구현예에 따라, 확장 질의어 생성부(224) 및 확장 질의어 선택부(226)가 통합되어 구성될 수 있다.

확장 질의어가 결정되면, 기존의 사용자 질의어와 결합되어 질의어에 관련된 세그먼트 선택부(222)로 피드백될 수 있다. 그러면, 세그먼트 선택부(222)는 입력된 결정된 확장 질의어 및 기존 사용자 질의어에 기초하여, 콘텐츠 세그먼트화부(212)에서 세그먼트화 결과 생성된 적어도 하나의 세그먼트에 대하여 연관 세그먼트 선택 동작을 다시 수행하여 개인화된 검색 결과를 생성할 수 있다. 이와 같은 과정은 사용자의 만족도 또는 시스템이 요구하는 최소 응집성(cohesion)에 따라서 반복 수행될 수 있다.

이와 같이, 검색 정보 생성부(220)가 사용자 질의어와 관련성이 높다고 판단되는 새로운 질의어를 추가함으로써 생성되는 확장 질의어를 이용하여 연관 세그먼트를 추출하는 동작을 다시 수행하면, 이전에 놓친 세그먼트들이 검색될 수 있다. 따라서, 이와 같이 확장 검색어를 세그먼트 선택부(222)에 피드백함으로써 검색 성능을 높일 수 있다.

이하에서는, 확장 질의어를 결정하는 방법에 대하여 상세하게 설명한다.

일 실시예에 따르면, 사용자의 확장 질의어 선택에 의해 확장 질의어가 결정될 수 있다. 이를 위해, 확장 질의어 생성부(224)가 사용자 질의어가 검색되는 연관된 세그먼트들로부터 확장 질의어 후보들을 추출하면, 확장 질의어 후보들에 대한 정보를 사용자에게 제공한다. 그런 다음, 확장 질의어 후보들 중에 사용자 입력 신호가 확장 질의어 선택부(226)로 입력되어 적어도 하나의 확장 질의어가 선택됨으로써 최종적인 확장 질의어가 추출될 수 있다.

다른 실시예에 따르면, 확장 질의어 생성부(224)는 사용자 질의와 연관된 세 그먼트들 중에서 사용자의 히스토리 정보 또는 세그먼트를 선택하기 위한 사용자 입력에 따라서 확장 질의어가 추출될 세그먼트를 분류할 수 있다.

확장 질의어 생성부(224)는 사용자 질의와 연관된 세그먼트들 중에서, 사용자 히스토리 정보에 의해 선택되는 적어도 하나의 세그먼트에 기초하여 확장 질의어가 추출될 세그먼트들을 클러스터링할 수 있다. 사용자 히스토리 정보는 사용자가 이전에 이용했던 특정 질의어에 대하여 사용자에게 제공된 검색 정보들 중에서 사용자가 브라우징했거나 사용자가 북마크에 저장하는 방법 등에 의해 지정한 웹 페이지 정보들을 포함한다. 따라서, 사용자 히스토리 정보는 질의어별 적어도 하나의 웹 페이지 정보로 구성될 수 있다. 이는 사용자가 제공한 질의어와 저장된 웹페이지들의 세그먼트들에 포함되었던 주제(topics)들 간의 연관 관계를 재사용하는 것을 의미한다.

확장 질의어가 추출될 클러스터가 결정되면, 확장 질의어 선택부(226)는 결정된 클러스터에 포함된 세그먼트들로부터 확장 질의어를 추출하여 선택할 수 있다. 여기에서, 확장 질의어가 추출될 세그먼트들을 클러스터링하기 위하여 K-평균 알고리즘이 이용될 수 있다. K-평균 알고리즘이 적용되는 단위 엘리먼트들은 사용자 질의와 연관된 세그먼트들을 포함하는 웹 페이지일 수 있다. 또한, 여기에서의 웹 페이지는 사용자 질의와 연관된 세그먼트들만을 포함한 웹 페이지일 수 있다. 다시 말하면, 사용자가 특정 질의어를 입력할 때 바로 그 특정 질의어와 관련되어 저장된 웹 페이지들의 관련 세그먼트들에 포함된 내용을 사용자의 관심 주제와 매칭된다고 간주하고 사용자 히스토리 정보에 포함된 웹 페이지를 K-평균 알고리즘의 센트로이드로 사용하여 확장 질의어가 추출될 세그먼트들을 선택하고, 선택된 세그먼트들로부터 확장 질의어를 추출한다.

다른 방법으로, 확장 질의어 생성부(224)는 사용자 질의어와 연관된 세그먼트에 대한 정보가 사용자에게 제공되고, 사용자가 적어도 하나의 세그먼트를 선택하면, 선택된 세그먼트에 기초하여, 사용자 질의어와 연관된 세그먼트들로부터 확장 질의어가 추출된 세그먼트들을 클러스터링할 수 있다. 예를 들어, 사용자 질의와 연관된 세그먼트들이 속한 웹 페이지들에 대해 K-평균 알고리즘을 적용하여 웹 페이지들을 클러스터링할 때, 사용자가 선택한 세그먼트들이 속한 웹 페이지를 K-평균 알고리즘의 센트로이드로 사용할 수 있다, 그런 다음, 확장 질의어 선택부(226)는 클러스터링된 세그먼트들로부터 확장 질의어를 추출하여 선택할 수 있다.

기존의 K-평균 클러스터링 방법에서, 반복적인 클러스터링의 횟수와 최종적으로 형성되는 클러스터들의 질을 결정짓는 2개지 중요 요인들은 최초에 선택되어진 센트로이드들(centroids)의 개수와 질이다. 일 실시예에 따른 변형된 K-평균 클러스터링 방법은 최초에 선택되는 센트로이드의 선택을 질의어와 관련되어서 추출된 연관된 세그먼트들의 세트 중의 하나를 사용자 선택 또는 사용자 히스토리 정보에 기초하여 선택함으로써, 다수 개의 센트로이드들을 선택할 필요가 없게 한다.

이와 같은 일 실시예에 따르면, 확장 질의어를 선택할 때 사용자의 현재 또는 과거의 질의 의도와 관련된 주관적으로 중요도가 높은 세그먼트들을 선택한 다음, 선택된 세그먼트들에서 확장 질의어를 선택할 수 있으므로 신뢰성있는 확장 질 의어를 선택할 수 있다. 따라서, 일 실시예에 따라 선택된 확장 질의어를 기반으로 사용자의 질의와 관련된 세그먼트들을 다시 검색할 수 있으므로 사용자마다 원하는 검색 결과를 제공할 수 있다.

도 5는 일 실시예에 따른 개인화된 검색 정보 제공 방법을 나타내는 순서도이다.

검색의 대상이 되는 콘텐츠를 세그먼트화한다(S 510). 콘텐츠를 세그먼트화할 때 콘텐츠에 포함되는 콘텐츠 세그먼트들의 성격 또는 분류를 나타내는 태그들의 배치에 관한 적어도 하나의 발견적 규칙을 이용하여 콘텐츠를 세그먼트화할 수 있다.

세그먼트화 결과 생성되는 콘텐츠 세그먼트들간의 연관관계 정보 및 키워드를 기반으로 세그먼트를 검색하기 위한 역색인 정보를 추출한다(S 520). 세그먼트들간의 연관관계 정보는 세그먼트들간의 포함 관계를 포함한다. 역색인 정보는 키워드별로 각각의 키워드가 위치하는 세그먼트 및 그 세그먼트가 속한 각 콘텐츠를 식별하는 정보를 포함할 수 있다.

사용자 질의어가 입력되면(S 530), 사용자 질의어, 콘텐츠 세그먼트들간의 연관관계 정보 및 역색인 정보를 이용하여 검색 결과를 생성한다(S 540). 이후에, 검색 결과로서 적어도 하나의 세그먼트가 추출된 경우, 추출된 적어도 하나의 세그먼트에 대한 요약 정보를 제공하는 과정이 더 수행될 수 있다.

도 6은 다른 실시예에 따른 개인화된 검색 정보를 제공하는 방법을 나타내는 순서도이다.

검색의 대상이 되는 콘텐츠를 세그먼트화한다(S 610).

콘텐츠의 세그먼트화를 통해 추출되는 콘텐츠 세그먼트들 간의 연관관계 정보 및 역색인 정보를 추출한다(S 620).

사용자 질의어가 입력되면(S 630), 세그먼트화 결과 추출된 세그먼트들 중에서 역색인 정보를 이용하여 사용자 질의가 검색되는 사용자 질의어와 연관된 세그먼트들을 선택한다(S 640).

검색 질의어가 검색되는 연관된 세그먼트들로부터 검색 질의어에 대한 확장 질의어를 추출한다(S 650). 확장 질의어는 전술한 바와 같이, 신뢰성있는 확장 질의어를 추출하기 위하여, 사용자가 선택한 세그먼트가 속한 웹 페이지 또는 사용자 히스토리 정보에서 이전 사용자 질의어에 대해 액세스되었던 웹 페이지에 대한 정보를 센트로이드로 하는 K-평균 알고리즘에 의해 수렴되는 클러스터에 속한 웹 페이지에 포함된 세그먼트들로부터 추출될 수 있다.

단계 S 630에서 입력된 사용자 질의어와 단계 S 650에서 추출된 확장 질의어에 기초하여 단계 S 610 단계의 콘텐츠 세그먼트화 결과 생성된 세그먼트들에 대한 검색을 다시 수행한다(S 660). 그런 다음, 단계 S 640 내지 S 660의 과정은 사용자 만족도 또는 검색 결과를 측정하는 소정의 방법에 따른 기준이 만족될 때까지 반복하여 수행될 수 있다.

본 발명의 일 양상은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로서 구현될 수 있다. 상기의 프로그램을 구현하는 코드들 및 코드 세그먼트들은 당해 분야의 컴퓨터 프로그래머에 의하여 용이하게 추론될 수 있다. 컴 퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 디스크 등을 포함한다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드로 저장되고 실행될 수 있다.

이상의 설명은 본 발명의 일 실시예에 불과할 뿐, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명의 본질적 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현할 수 있을 것이다. 따라서, 본 발명의 범위는 전술한 실시예에 한정되지 않고 특허 청구범위에 기재된 내용과 동등한 범위 내에 있는 다양한 실시 형태가 포함되도록 해석되어야 할 것이다.

도 1은 일 실시예에 따른 개인화된 검색 정보를 제공하기 위한 시스템을 나타내는 도면이고,

도 2는 일 실시예에 따른 개인화된 검색 정보를 제공하기 위한 장치의 구성을 나타내는 블록도이고,

도 3a 및 도 3b는 각각 일반적인 돔 기반 세그멘테이션 방법에 의해 해석된 웹 페이지의 세그먼트들 구조 및 일 실시예에 따른 발견적 규칙을 적용한 돔 기반 세그멘테이션 방법에 의해 해석된 웹 페이지의 세그먼트들 구조의 일 예를 나타낸 도면이고,

도 4는 일 실시예에 따른 세그먼트 연관관계 정보 및 역색인 정보를 설명하기 위한 도면이고,

도 5는 일 실시예에 따른 개인화된 검색 정보 제공 방법을 나타내는 순서도이고,

도 6은 다른 실시예에 따른 개인화된 검색 정보 제공 방법을 나타내는 순서도이다.

Claims

검색의 대상이 되는 콘텐츠에 대하여 콘텐츠별로 세그먼트화하고, 세그먼트화 결과 추출되는 콘텐츠 세그먼트들간의 연관관계 정보 및 키워드를 기반으로 세그먼트를 검색하기 위한 역색인 정보를 추출하는 콘텐츠 전처리부; 및

입력되는 사용자 질의어, 상기 콘텐츠 세그먼트들간의 연관관계 정보 및 역색인 정보를 이용하여 검색 결과를 생성하는 검색 정보 생성부를 포함하는 개인화된 검색 정보 제공 장치.
제1항에 있어서,

상기 콘텐츠는 복수의 웹 페이지를 포함하는 개인화된 검색 정보 제공 장치.
제1항에 있어서,

상기 콘텐츠 세그먼트화부는 콘텐츠에 포함되는 콘텐츠 세그먼트들의 성격 또는 분류를 나타내는 태그들의 배치에 관한 적어도 하나의 규칙을 이용하여 상기 콘텐츠를 세그먼트화하는 개인화된 검색 정보 제공 장치.
제1항에 있어서,

상기 세그먼트들간의 연관관계 정보는 콘텐트 단위별 세그먼트들간의 포함 관계에 관한 정보를 포함하는 검색 정보 제공 장치.
제1항에 있어서,

상기 역색인 정보는 키워드별로 각각의 키워드가 위치하는 세그먼트 및 상기 세그먼트가 속한 각 콘텐츠를 식별하는 정보를 포함하는 검색 정보 제공 장치.
제1항에 있어서,

상기 검색 정보 생성부는 상기 세그먼트화 결과 추출된 세그먼트들 중에서 상기 사용자 질의어에 대응하는 키워드에 따른 역색인 정보를 이용하여, 상기 사용자 질의어와 연관된 세그먼트들을 선택하고, 상기 선택된 세그먼트들간의 연관관계 정보를 참조하여 상기 선택된 세그먼트들을 제공하는 개인화된 검색 정보 제공 장치.
제6항에 있어서,

상기 검색 정보 생성부는 상기 사용자 질의어가 검색되는 연관된 세그먼트들로부터 상기 사용자 질의어와 연관된 적어도 하나의 확장 질의어를 추출하고, 상기 추출된 확장 질의어에 기초하여 상기 세그먼트화 결과 추출된 세그먼트들에 대한 검색을 다시 수행하는 개인화된 검색 정보 제공 장치.
제7항에 있어서,

상기 검색 정보 생성부는 상기 사용자 질의어가 검색되는 연관된 세그먼트들 로부터 확장 질의어 후보들을 추출하고, 상기 확장 질의어 후보들 중에 사용자 입력 신호에 의해 선택된 적어도 하나의 확장 질의어 후보를 상기 확장 질의어로 추출하는 개인화된 검색 정보 제공 장치.
제7항에 있어서,

상기 검색 정보 생성부는 사용자가 이전에 검색을 위해 입력한 질의어별 액세스된 웹 페이지 정보를 포함하는 사용자 히스토리 정보 또는 상기 사용자 질의어와 연관된 세그먼트들 중 사용자 입력 신호에 의해 선택되는 적어도 하나의 세그먼트에 기초하여, 상기 사용자 질의어가 검색되는 연관된 세그먼트들로부터 상기 확장 질의어가 추출될 세그먼트들을 클러스터링하는 개인화된 검색 정보 제공 장치.
제9항에 있어서,

상기 검색 정보 생성부는 상기 사용자 질의어가 검색되는 연관된 세그먼트들로부터 상기 확장 질의어가 추출될 세그먼트들을 클러스터링하기 위하여 K-평균 알고리즘을 이용하는 개인화된 검색 정보 제공 장치.
제1항에 있어서,

상기 검색 결과로서 적어도 하나의 세그먼트가 추출된 경우, 상기 추출된 적어도 하나의 세그먼트에 대한 요약 정보를 제공하는 검색 정보 제공부를 더 포함하는 개인화된 검색 정보 제공 장치.
검색의 대상이 되는 콘텐츠를 세그먼트화하는 단계;

세그먼트화 결과 추출되는 콘텐츠 세그먼트들간의 연관관계 정보 및 키워드를 기반으로 세그먼트를 검색하기 위한 역색인 정보를 추출하는 단계; 및

사용자 질의어가 입력되면, 상기 사용자 질의어, 상기 콘텐츠 세그먼트들간의 연관관계 정보 및 역색인 정보를 이용하여 검색 결과를 생성하는 단계를 포함하는 개인화된 검색 정보 제공 방법.
제12항에 있어서,

상기 콘텐츠를 세그먼트화하는 단계는 콘텐츠에 포함되는 콘텐츠 세그먼트들의 성격 또는 분류를 나타내는 태그들의 배치에 관한 적어도 하나의 규칙을 이용하여 상기 콘텐츠를 세그먼트화하는 개인화된 검색 정보 제공 방법.
제12항에 있어서,

상기 세그먼트들간의 연관관계 정보는 콘텐츠 단위별 세그먼트들간의 포함관계에 대한 정보를 포함하는 개인화된 검색 정보 제공 방법.
제12항에 있어서,

상기 역색인 정보는 키워드별로 각각의 키워드가 위치하는 세그먼트 및 상기 세그먼트가 속한 각 콘텐츠를 식별하는 정보를 포함하는 개인화된 검색 정보 제공 방법.
제12항에 있어서,

상기 검색 정보를 생성하는 단계는,

사용자 질의어가 입력되면, 상기 세그먼트화 결과 추출된 세그먼트들 중에서 상기 사용자 질의어에 대응하는 키워드에 따른 역색인 정보를 이용하여, 상기 사용자 질의어와 연관된 세그먼트들을 선택하는 단계; 및

상기 선택된 세그먼트들간의 연관관계 정보를 참조하여 상기 선택된 세그먼트들을 제공하는 단계를 포함하는 개인화된 검색 정보 제공 방법.
제16항에 있어서,

상기 검색 정보를 생성하는 단계는,

상기 사용자 질의어가 검색되는 연관된 세그먼트들로부터 상기 사용자 질의어와 연관된 적어도 하나의 확장 질의어를 추출하는 단계; 및

상기 확장 질의어 및 상기 사용자 질의어에 기초하여 상기 세그먼트화 결과 생성된 세그먼트들에 대한 검색을 다시 수행하는 단계를 포함하는 개인화된 검색 정보 제공 방법.
제17항에 있어서,

상기 적어도 하나의 확장 질의어를 추출하는 단계는,

상기 사용자 질의어가 검색되는 연관된 세그먼트들로부터 확장 질의어 후보들을 추출하는 단계; 및

상기 확장 질의어 후보들 중에 사용자 입력 신호에 의해 선택된 적어도 하나의 확장 질의어 후보를 상기 확장 질의어로 추출하는 단계를 포함하는 개인화된 검색 정보 제공 방법.
제17항에 있어서,

상기 적어도 하나의 확장 질의어를 추출하는 단계는,

사용자가 이전에 검색을 위해 입력한 질의어별 액세스된 웹 페이지 정보를 포함하는 사용자 히스토리 정보 또는 상기 사용자 질의어와 연관된 세그먼트들 중 사용자 입력 신호에 의해 선택되는 적어도 하나의 세그먼트에 기초하여, 상기 사용자 질의어가 검색되는 연관된 세그먼트들로부터 상기 확장 질의어가 추출될 세그먼트들을 클러스터링하는 단계를 포함하는 개인화된 검색 정보 제공 방법.
제19항에 있어서,

상기 적어도 하나의 확장 질의어를 추출하는 단계는,

상기 사용자 질의어가 검색되는 연관된 세그먼트들로부터 상기 확장 질의어가 추출될 세그먼트들을 클러스터링하기 위하여 K-평균 알고리즘을 이용하는 개인화된 검색 정보 제공 방법.