KR20090007626A

KR20090007626A - 문서 데이터베이스에서 문서들의 도메인 식별방법

Info

Publication number: KR20090007626A
Application number: KR1020087029573A
Authority: KR
Inventors: 마가렛 엠. 크네퍼; 케빈 리 폭스; 오피어 프리더
Original assignee: 해리스 코포레이션
Priority date: 2006-05-05
Filing date: 2007-05-03
Publication date: 2009-01-19
Also published as: JP5063682B2; US20060206483A1; CA2651217A1; CN101438285A; JP2009536401A; KR101118454B1; WO2007130544A3; TWI341489B; CN101438285B; EP2024883A2; WO2007130544A2; TW200817998A; EP2024883A4; US7814105B2; IL195064A0

Abstract

문서 데이터베이스에서 문서들을 처리하는 방법은 각 문서에 대한 어휘단어들을 판별하는 단계, 및 상기 모든 문서들에서 그들의 발생에 기초하여 각 어휘단어에 대한 개별적인 관련성을 판별하는 단계를 포함한다. 유사성들은 상기 어휘단어들 및 그들의 개별적인 관련성들에 기초하여 문서들 사이에서 판별된다. 적어도 하나의 도메인 식별은 상기 판별된 유사성들에 기초하여 문서들에 대해 판별된다.

도메인 식별, 문서 데이터베이스, 어휘단어, 역치, 피드백

Description

문서 데이터베이스에서 문서들의 도메인 식별방법{METHOD FOR DOMAIN IDENTIFICATION OF DOCUMENTS IN A DOCUMENT DATABASE}

본 발명은 정보검색의 분야에 대한 것이며, 더욱 상세하게는 문서 데이터베이스에서 문서들을 식별하는 방법에 관한 것이다.

정보검색 시스템 및 관련된 방법들은 사용자 검색 질의에 응답하여 정보를 탐색 및 검색한다. 어떤 주어진 검색의 결과로서, 방대한 양의 데이터가 검색될 수도 있다. 이 데이터들은 예를 들어 구조화된 및 비 구조화된 데이터, 비정형 텍스트(free text), 태그된 데이터(tagged data), 메타데이터(metadata), 오디오 이미저리(imagery), 및 모션 이미저리(비디오)를 포함할 수 있다. 문제를 악화시켜, 정보검색 시스템들은 매년 정보의 더 큰 볼륨(volum)을 탐색하고 있다. 캘리포니아의 버클리대에 의해 수행된 연구는 새로운 정보의 생산이 1999년과 2002년 사이에 거의 두 배가 증가했다고 결론지었다.

정보검색 시스템이 사용자 탐색질문에 응답하여 검색을 수행할 때, 사용자는 그 결과들로 인해 압도될 수도 있다. 예를 들어, 전형적인 검색은 수백 및 심지어 수천의 내용들을 사용자에게 제공한다. 검색정보는 관련 및 관련되지 않은 정보를 포함한다. 사용자는 관련없는 정보로부터 관련 있는 정보를 판별하는 무거운 짐을 가지게 되는 것이다.

이 문제에 대한 한 접근은 분류법(taxonomy)을 확립하는 것이다. 분류법은 하위 카테고리로 나누어지는 카테고리로, 소정의 카테고리의 수로 광대한 주제를 나누는 오래된 분류법이다. 이는 사용자가 동시에 검색될 문서들을 제한하는 동안 관련된 정보를 찾기 위해 가능한 데이터를 통하여 인터넷을 순항하게 한다. 그러나, 분류법 생성 및 정확한 분류로 문서들을 식별함은 매우 시간이 소비된다. 더욱이, 분류법은 가능함에 따라 새로운 정보를 분류하기 위해 계속된 유지를 요구한다. 미국 특허 제 6,938,046호는 동일한 저 레벨코드에 적용된 복합적 고 레벨 코드를 사용하여 포함하는, 다두지배적 코딩(polyarchical coding)을 포함한 분류법을 발표했다. 다두지배적 코딩은 예를 들어, 코더(coder)가 데이터 조각을 위한 하나의 저 레벨코드를 입력하는 것이 필요하고 고 레벨 다두지배적 코드들은 자동으로 적용된다.

다른 접근은 사용자를 보조하기 위해 결과들을 분류하는 정보검색 시스템을 사용하는 것이다. 예를 들어, 펜실베니아, 피츠버그의 비비시모(vivisimo)사에 의해 개발된 비비시모 클러스터링 엔진(clustering engine^TM)은 자동으로 검색결과를 의미있는 동작중의 계층적 폴더들로 분류한다. 정보가 수집됨에 따라, 그것은 그들의 검색결과들에 포함된 단어들 및 숙어들로부터 총명하게 선택된 카테고리로 밀집된다. 특히, 비비시모 클러스터링 엔진은 반환된 제목 및 각 결과의 개요들만을 사용한다. 문서들 사이의 유사점은 정제하지 않은 재료(예를 들어, 검색결과의 가시 적인 텍스트 및 전체 기사가 아닌 것) 및 그 밖의 것에 기초한다. 문서들은 이어서 문자그대로의 유사성에 기초하여 같이 밀집된다. 그러나. 이 미숙한 유사성은 그들이 밀집된 문서들을 검사할 때 사용자가 알고 싶은 사용자가 인지로 확대된다. 이는 최신이 되는 카테고리를 초래하고 그 내용들처럼 신선하다.

시각적 항해검색 접근들은 미국 특허 제 6,574,632호 및 제 6,701,318호 등에 제공되고, 이로 인하여 여기 병합되는 내용들은 사용자 입력질문들에 기초하여 문서 데이터베이스로부터 문서들을 검색하는 복합검색엔진들을 이용하는 정보검색과 시각화 시스템을 공개하였다. 각 검색엔진은 각 검색된 문서의 공통의 수학적 표현을 생산한다. 검색된 문서들은 이어서 조합되고 정렬된다. 각각의 개별적인 문서를 위한 수학적인 표현은 표시화면에 위치한다. 표시된 정보는 사용자 입력 질의로부터 키보드의 3차원 표시를 포함한다. 정보검색과 시각화 시스템 내의 정보의 시각화 표현에 기초한 3차원 시각화 능력은 높은 검색 정확도를 초래하며, 더 좋게 사용될 수 있는 검색능력 피드백(feedback)/질의 정제기술로 사용자에게 직관에 의한 이해를 제공한다.

검색엔진과 결과 시각화 기술의 계속적인 발전에도 불구 하고, 아직까지 의미 있는 방법에서 사용자에게 검색결과를 나타내기 위해 문서 데이터베이스에서 유사한 문서들을 함께 빠르고 효율적으로 분류할 필요가 있다.

앞서 서술한 배경기술의 관점에서는, 그것이 따라서 문서 데이터베이스에서 문서들을 분류함에 있어서 사용자를 돕는 것이 본 발명의 목적이다.

본 발명에 따른 이들 및 다른 목적들, 특징들, 이점들은 그들의 복수의 각 문서용 어휘 단어들을 판별하는 단계, 및 복수의 문서들에서 그들의 발생에 의거하여 각 어휘 단어를 위한 개별적인 정보검색을 판별하는 단계를 포함하는 문서 데이터베이스에서 복수의 문서들을 처리하는 방법에 의해 제공된다.

상기 방법은 어휘 단어 및 그들의 개별적인 정보검색에 의거하여 복수의 문서들 사이의 유사성을 판별하는 단계를 추가로 포함한다. 적어도 하나의 도메인 식별은 판별된 유사성들에 기초하여 문서들을 위해 판별된다.

복수의 문서들 사이의 유사성들을 판별하는 단계는, 복수의 문서들 사이의 유사성을 설명하고 그들과 관련된 전체의 도메인 식별을 가지는 어휘단어의 상위집합으로, 어휘단어들의 상위집합을 정의하기 위한 그들의 개별적인 정보검색에 기초하여 어휘단어의 부분을 선택하는 단계를 포함할 수 있다.

상기 방법은 각각의 개별적인 저 레벨 도메인 식별과 관련된 어휘단어들을 선택하는 단계에 기초하여 저 레벨 도메인 식별로 전체의 도메인 식별을 나누는 단계를 추가로 포함한다. 결과적으로, 각 저 레벨 도메인 식별과 관련된 어휘단어들의 정보검색은 유사한 문서들이 각 저 레벨 도메인 식별을 위해 함께 분류되도록 변화한다.

상기 어휘단어의 개별적인 정보검색을 판별하는 단계는 각 어휘단어가 복수의 문서들에서 몇 번이나 사용되었는지 계산하는 단계, 및 얼마나 많은 복수의 문서들이 각 어휘단어를 사용하였는지 계산하는 단계를 포함할 수 있다. 상기 방법은 상기 계산에 기초하여 각 개별적인 어휘단어용 단어/문서 비율을 생성하는 단계를 포함하고, 만약 상기 단어/문서 비율이 역치보다 작다면, 단어의 정보검색은 복수의 문서들 사이의 유사성을 판별할 때 사용되지 않는다. 대안으로, 상기 방법은 적어도 하나의 어휘단어의 개별적인 정보검색의 사용자 설정을 허가하는 단계를 포함할 수 있다. 각 어휘단어용 개별적인 정보검색은 정보검색 피드백요소에 추가로 기초할 수 있다. 정보검색 피드백요소는 예를 들어, 사용자 검색 질의 또는 알고리즘에 기초할 수 있다.

문서들 사이의 유사성들은 어휘단어에서 단어의 반복을 식별하는 단계에 기초하여 판별될 수 있다. 단어의 반복은 예를 들어, n≥2 일 때, n-단어 문구를 포함할 수 있다. 바꾸어 말하면, 유사한 문서들에 관한 도메인 식별은 어휘단어가 중복됨에 기초하여 컴퓨터에 의해 판별될 수 있다.

게다가, 상기 방법은 소정의 도메인 식별에 상응하는 어휘단어를 판별하는 단계를 추가로 포함할 수 있다. 유사성은 복수의 문서들을 위한 어휘단어와 소정의 도메인 식별에 상응하는 어휘단어 사이에서 판별된다. 소정의 도메인 식별은 소정의 유사성에 기초하여 적어도 하나의 문서들로 이어서 할당될 수 있다.

문서는 웹 사이트 문서, 전자메일 메시지, 및 그들에 관련된 메타데이터를 가지는 비 텍스트 문서들을 포함할 수 있다. 비 텍스트 문서들은 비디오 이미지 파일, 사진파일, 오디오 파일들을 포함할 수 있을 것이다.

본 발명의 다른 측면은 상기 정의된 것처럼, 컴퓨터가 문서 데이터베이스에서 문서들을 처리하도록 하는 컴퓨터 실행가능 명령을 가진 컴퓨터 판독가능매체로 향한다.

본 발명이 또 다른 측면은 상기 정의된 것처럼 문서 데이터베이스에서 문서들을 처리하는 컴퓨터로 실행가능한 시스템으로 향한다.

도 1은 본 발명에 따른 문서 데이터베이스에서 문서들을 처리하는 흐름도이다.

도 2는 본 발명에 따른 초기의 질문표시 화면이다.

도 3a 및 3b는 본 발명에 따른 새로운 어휘를 시작하고 존재하는 어휘를 사용하는 표시화면을 개별적으로 설명한다.

도 4는 본 발명에 따른 "piracy" 어휘를 사용하여 질의결과를 설명하는 표시화면이다.

도 5 및 6은 본 발명에 따른 선택된 문서로부터 단어목록을 설명하는 표시화면이다.

도 7은 본 발명에 따른 선택된 문서로부터 단어목록의 다른 버전을 설명하는 표시화면이다.

도 8-11은 본 발명에 따른 다른 순위 파라미터를 위한 문서순위들을 설명하는 표시화면이다.

도 12는 본 발명에 따른 다른 순위 파라미터에 의해 제공된 검색된 문서에서 관련 문서들의 수를 설명하는 막대그래프이다.

도 13은 본 발명에 따른 문서 데이터베이스에서 문서들을 처리하는 컴퓨터기반 시스템의 블럭도이다.

도 14는 본 발명에 따른 문서 데이터베이스에서 문서들을 분류하는 흐름도이다.

도 15-19는 본 발명에 따른 문서들을 분류하기 위해 사용된 문서 데이터베이스에서 문서들로부터 어휘단어들을 설명하는 표시화면이다.

본 발명은 발명의 바람직한 실시예들이 도시된 수반하는 도면들을 참조하여 이하에서 더욱 상세히 설명될 것이다. 이 발명은 그러나, 많은 다른 형식에서 구체화될 것이고, 여기 설명된 실시예들에 한정으로서 제한되지 않아야 한다. 다소, 이 실시예들은 이 명세서가 철저하고 완벽하도록 제공되고, 당해 기술분야의 당업자에게 발명의 기술영역을 완전히 시사할 것이다. 시종일관 부품들을 표시하는 숫자들, 및 프라임 표시는 대체적인 실시예들에서 유사한 요소를 표시하기 위해 사용된다.

우선, 도 1을 참조하면, 본 발명은 문서 데이터베이스에서 문서들을 처리하는 컴퓨터로 실행되는 방법에 대한 것이다.

시작(블럭 20)으로부터, 상기 방법은 정보검색 시스템을 블럭(22)에서 사용자 검색질의에 기초하여 검색된 문서들의 초기 순위를 생성하는 단계를 포함한다. 적어도 어느 정도 검색된 문서들에서 그들의 발생에 기초한 복수의 어휘단어는 블럭(24)에서 생성되고, 그들의 발생에 기초한 어휘단어의 개별적인 검색들 및 사용자 검색질의는 블럭(26)에서 생성된다. 어휘단어의 정보검색에 기초하여 검색된 문서들의 재순위(reranking)는 블럭(28)에서 생성된다. 상기 방법은 블럭(30)에서 재순위화된 후에 검색된 문서들을 표시하는 단계를 추가로 포함한다. 상기 방법은 블 럭(32)에서 종결된다.

문서 데이터베이스에서 문서들을 처리하는 컴퓨터로 실행되는 방법은 문서들이 정보검색 시스템을 사용하여 검색된 후에 사용자가 관련된 문서들을 식별하고 관련되지 않은 문서들을 버리도록 한다. 상기 사용자는 인간 사용자 또는 컴퓨터로 실행되는 사용자일 수 있다. 사용자가 컴퓨터로 실행될 때, 관련된 문서들을 식별하는 단계 및 관련되지 않은 문서들을 버리는 단계는 자발적이다. 정보검색 시스템은 사용자 검색질의를 수신하는 입력 인터페이스, 및 문서 데이터베이스로부터 문서들을 선택적으로 검색하는 검색엔진을 포함한다.

검색엔진은 어떤 특정 검색엔진에 한정되지 않는다. 본보기가 되는 검색엔진은 일리노이스 테크놀로지 연구소(IIT)의 정보검색 실험실에서 개발된 고급 정보검색엔진(AIRE)이다. AIRE는 자바로 쓰여진 휴대용 정보검색엔진이고, 새로운 정보검색 기술들을 탐구하기 위한 기초를 제공한다. AIRE는 큰 텍스트 집합, 일정한 스코링(scoring)절차, 및 그들의 결과를 비교하는데 관심있는 조직화용 포럼(forum)을 제고하여 큰 텍스트 어플리케이션으로부터의 정보검색의 검색을 촉진하는 워크샵 시리즈인, 매년 열리는 택스트 검색 회의(TREC)에서 정기적으로 사용된다.

TREC가 알려진 결과들로 데이터세트를 사용하므로, 이것은 본 발명의 평가를 용이하게 한다. TREC로부터의 예가 되는 검색주제는 본 발명을 설명하고 평가하는데 사용되는 "piracy"이다. AIRE는 "piracy" 사용자 검색질의에 기초한 검색된 문서들의 초기 순위를 제공한다. 초기 순위에서의 관련된 문서들의 수 및/또는 순서는 재순위화된 문서들에서 관련된 문서들의 수와 비교되는 기준 또는 참조이다.

아래에 더욱 상세한 설명에서 논의됨에 따라, 사용자가 이용가능한 다양한 단어 및 문서 검색능력 선택권이 있다. 개별적으로 또는 조합으로, 이 선택들은 사용자 검색질문의 정보검색 정확도를 개선한다. 본 발명의 실행은 사용자 입력을 요구하는 알고리즘의 형식에 있고, 이 입력은 AIRE와 관련된 그래픽 사용자 인터페이스(GUI)를 통하여 제공된다.

검색된 문서를 재순위화하는 관련된 피드백을 제공하기 위한 사용자를 돕는 초기의 AIRE 질의 화면은 도 2에 제공된다. "piracy" 사용자 검색질의는 섹션(40)에 제공되고, 상기 사용자는 새로운 어휘를 시작하거나 존재하는 어휘를 사용하는 섹션(42)에서의 선택을 가진다. 이 경우에서는, 새로운 어휘가 시작되고 있다.

관심의 주제인 설명은, "좋은 구식의 해적행위의 현대 사례가 무엇이 있는가, 보트에의 탑승 또는 장악인가?"로 향하는, 섹션(44)에서 제공된다. 설명에 관하여 더욱 상세한 정보를 제공하는 이야기는 섹션(46)에서 제공된다. 이 경우의 이야기는 "물의 어떤 본체 위의 해적행위를 논의하는 문서들이 관련되고, 법적인 배들의 취득 또는 국가적 권위에 의한 그들의 콘텐츠(contents)를 논의하는 문서들은 관련되지 않으며, 낚시하는 중의 낚시보트 사이의 충돌은 어떤 사람이 승선 되지 않는 한 관련되지 않는다."를 진술한다. 설명에서의 단어들 및 이야기 섹션들(44, 46)은 사용자 검색질문의 부분으로서 포함되지 않는다. 그럼에도 불구 하고, 사용자는 섹션(40)과 함께 이 섹션들을 선택하여 사용자 검색질문의 해설 및 설명부분 섹션(44, 46) 부분에서 단어를 구성하는 선택권을 가진다.

사용자가 섹션(42)에서 새로운 어휘를 시작함을 선택할 때, 새로운 어휘화면 은 도 3A에서 설명된 것처럼 나타난다. 여기서 사용자는 설명된 예가 "piracy"인 섹션(50)에서 새로운 어휘용 명칭을 입력한다. 이 경우에서, 새로운 어휘의 제목은 또한 사용자 검색질의이다. 대안으로, 만약 사용자가 섹션(42)에서 존재하는 어휘를 사용하여 선택하면, 존재하는 어휘화면은 도 3B에서 설명된 것처럼 나타난다. 관심의 주제는 두 개의 다른 어휘들을 중복할 수 있으므로 바람직한 어휘를 선택하는 것이 도움이 될 것이라는 것이다. 설명된 예에 관하여, piracy는 영화 및 노래들의 불법복사 대신에 해상에 관한 것이다. 따라서, "maritime"과 같은 존재하는 어휘는, 검색된 문서들에서 발견되는 관련된 단어들을 이미 포함하는 섹션(52)에서 선택될 수 있다. 사실, 존재하는 어휘들에서의 어휘단어는 사용자 검색질의에 관련되도록 알려진 바람직한 문서들에서의 단어들로부터 취해질 수 있다. 바람직한 문서는 검색된 문서들의 부분일 수도 아닐 수도 있다.

검색된 문서들의 초기의 순위는 관련된 및 관련되지 않은 문서들을 포함하는, "piracy"에 관한 매우 큰 수이다. 새로운 어휘를 생성하기 전에, 사용자는 도 2에서의 섹션(48)에서 상위 N에 순위화된 문서들을 선택한다. 설명된 예에서, 재 순위화될 정상에 순위화된 문서들의 수는 100이다.

새로운 어휘를 만들어 내기 위해, 알고리즘은 상위 100에 걸쳐 사용된 단어들의 사용된 수를 계산한다. 단어들은 비록 이것이 절대적으로 필요하지 않더라고, 그들의 유래한 설명에서 계산될 것이다. 도메인 어휘는 관련된 문서들의 목록을 제공하여 또한 형성될 수 있다. 각 문서에서의 각 단어를 위해 수집된 정보는 문서에 사용된 단어들의 수이고, 단어가 사용된 정상에 순위화된 상위 100에서의 문서들의 수이다.

다음에, 문서통계는 상위 N에 순위화된 문서들에 얼마나 각 단어가 유용한지 판별하기 위해 계산된다. 무익한 단어들은 문서에 관하여 정보를 계산하기 위해 사용되지 않는다. 무익한 단어들은 정지단어(stop word)(예를 들어, am, are, we) 또는 도메인 내에서 정지단어들로서 동작하는 단어(예를 들어, 컴퓨터 과학문헌에서의 컴퓨터)와 같은 의미를 제공하지 않는 단어이다. 무익한 단어를 판별하기 위해 사용된 통계는 다음의 것들을 포함하지만, 한정되지는 않는다:

a) 단어/문서 비율 = 1 (단어는 유용한 문서에서 한번 이상 나타날 필요가 있다);

b) 단어/문서 비율 > 20 (이는 의미 있는 역치를 판별하고, 역치들의 범위는 단일 역치 대신에 사용될 수 있다); 및

c) 문서들의 수 = 1 (단어는 하나의 문서 이상에서 나타날 필요가 있다).

a) 내지 c)에서의 척도에 기초하여, 어휘는 따라서 각 유용한 단어에 관하여 그 단어가 사용된 횟수(단일 문서 내에서만 전통적인 용어 빈도, 상기 단어를 사용한 문서들의 수(전통적인 문서빈도)), 및 단어/문서 비율을 포함한다.

상위 100의 순위화된 문서들에 제공된 어휘단어들의 목록 및 사용자 검색질문(예를 들어, "piracy")이 컴파일(compile)된 후에, 어휘단어들의 관련성이 설정된다. 어떤 어휘단어는 다른 단어들보다 더 관련성/무관련성 일 수 있다. 단어 관련성은 이 경우에서 "maritime"와 관련된 것으로서 "piracy"인 주제에 의해 설정된다. 관련성이 없는 단어들은 주제를 설명하지 않는 단어들이고, 관련성이 없는 문 서들의 지표이다.

관련성은 사용자에 의해 공급된 질의용어들을 위해 1의 값으로 설정된다. 어휘단어들의 관련성 값은 관련된 단어의 수 및 관련되지 않은 단어의 수에 기초한다. 단어의 관련성 값은 다음과 같이 다시 쓰여 질 수 있다: 관련성 값 = (#Rel-#Irrel)/(#Rel+#Irrel). 단어는 예를 들어, 만약 관련성 값 > 0.5이면 관련성 있는 것으로, 만약 관련성 값 < -0.5이면 관련성 없는 것으로 간주 된다. 상기 0.5 및 -0.5는 예가 되는 값들이고 당해 기술분야의 당업자들에 의해 즉시 인지된 것으로서 다른 값들로 설정될 수도 있다. 게다가, 역치의 범위는 단일 역치 대신에 사용될 수 있다.

문서 통계를 계산하기 위해, 정보는 상위 N에 순위화된 문서들에서 단어들에 기초하여 계산된다. 문서는 일련의 단어들을 포함하고, 단어는 거기에 1번 이상 나타날 수 있다. 각 문서는 필수적으로 비 구조화된 텍스트이고, 단어는 유용하지 않거나 유용한 것으로, 새롭게 분류될 수 있다. 새로운 단어는 어휘에 새롭다. 예를 들어, 트레이닝(training) 세션에서, 새로운 어휘로 시작하며, 모든 단어들은 어휘 내에 있다. 무용한 단어는 문서계산에서 사용되지 않고, 상기 주목된 것처럼, 이 단어들은 의미를 제공하지 않는다. 무용한 단어들은 am, are, we, 또는 컴퓨터 과학문헌에서의 컴퓨터와 같은 도메인 내에서의 정지단어로서 행동하는 단어들은 정지단어들이다. 유용한 단어는 문서통계에서 사용될 단어이다.

유용한 단어는 관련되고, 관련되지 않거나, 중립에 따라 추가로 분류된다. 이 분류용어들에 의해 정의됨에 따라, 관련된 단어는 주제에 중요하고, 관련되지 않은 단어는 주제에 유용하지 않으며 보통 부당한 문서의 지표이다. 중립 단어는 주제에 관련된 것인지 단어의 상태가 판별되지 않은 것이다.

검색된 문서들의 재 순위화를 계산하기 위해, 알고리즘 접근은 문서들의 비율에 사용된다. 알고리즘 접근은 상기 논의된 관련성 정보를 사용한다. AIRE에 의해 순위화된 초기문서의 출력은 100이 사용자에 의해 선택된 때, 1 내지 100으로부터 평가된 문서들의 목록이다. 최하의 수는 가장 좋은 순위를 표시한다. 반대로, 최상의 수가 가장 좋은 순위가 될 수도 있다.

3개의 다른 관련성 값들은 문서들을 재 순위화하는데 사용된다. 제 1 관련성 값은 다음 수학식(1)에 기초한다:

Unique Rel - Unique Irel → UniqueRel

문서에서 고유의 관련된 단어들의 수는 계산되고, 문서에서 관련성 없는 단어들의 수도 계산된다. 상기 관련성 없는 단어의 합은 관련된 단어들의 합으로부터 뺀다. 경험에 따라, 이 계산은 오직 개별적인 식별된 단어들이 있을 때 더욱 유용하게 된다. 즉, 전체 문서들은 관련성/무관련성으로서 식별되지 않는다.

제 2 관련성 값은 다음의 수학식(2)에 기초한다:

Rel NO Freq - Irrel NO Freq → RelNOFreq

여기서 문서에서의 고유한 관련성/무관련성 단어들의 중요성이 판별된다. 어휘에서 관련이 없는 단어의 수의 합은 어휘에서 관련된 단어의 수의 합으로부터 뺀 다. 어휘에서 더욱 자주 나타나는 단어는 수 번 단지 나타난 단어보다 더 고도의 비중을 가질 것이다. 경험에 따라, 이값은 특히 모든 값들이 양일 때, 수학식 (1)에서의 Unique Rel - Irrel value 와 단단히 관련된다.

제 3 관련성 값은 다음의 수학식(3)에 기초한다:

Rel Freq - Ir Feq → RelFreq

여기서 고유한 관련성/무관련성 단어의 중요성과 그들의 문서에서의 빈도가 판별된다. 어휘에서 관련된 단어의 수의 합은 문서에서 사용된 단어의 수에 의해 곱해진다. 어휘에서 관련된 단어의 수의 합은 문서에서 사용된 단어의 수에 의해 곱해진다. 무관련성 빈도 합은 관련성 빈도 합으로부터 뺀다. 어휘에서 더욱 자주 나타나는 단어는 단지 수 번 나타난 단어들보다 고도의 비중을 가진다. 경험에 따라, 이값은 관련성/무관련성의 문서의 예들이 시스템에서 양성된 때 더욱 유용하다. 부적당한 문서들을 식별하기 위해 두 가지 기술이 있다. 하나는 특정 단어들의 초과 사용에 기초한 것이고, 다른 것은 수학식(1)에서 정의된 것처럼 낮은 UniqueRel 값에 기초하는 것이다. 특정 단어들의 초과사용에 관하여, 예를 들어, 문서에서 100번 이상 나타나는 단어를 가진 문서들은 부적당한 문서들로서 식별된다. 또한, 어느 정도의 문서들에서 매우 자주 사용되는 단어들은 0으로의 유용하지 않은 설정을 가지기 위해 판별된다. 사용자는 부적당한 값으로 고려되는 문서에서 나타나는 단어의 수를 설정하는 선택을 가진다.

상위 N에 순위화된 검색된 문서의 초기의 순위는 표현들 1) UniqueRel, 2) RelNOFreq 및 3) RelFreq 을 위해 최고의 관련성 값들로부터 최하의 관련성 값들로 재 순위화된다. 각 문서의 재 순위화는 검색된 문서들의 최종 재 순위화를 얻기 위해 3개의 표현들을 위해 평균화된다. 각각의 개별적인 문서순위에서, 부적당한 문서들은 문서목록의 바닥으로 보내진다. 2개의 다른 기술들은 바닥으로 부적당한 문서를 이동하는데 사용될 수 있다. 하나의 기술은 그것이 바닥에서 남겨지도록 문서들의 순위에 큰 값들을 할당하는 도약하는 번호배열이다. 다른 기술은 연속적인 순위번호를 문서로 할당하는 매끄러운 번호배열이다.

문서들을 위해 얻어진 UniqueRel 수에 관하여, 가장 작은 UniqueRel 수를 가진 모든 문서들은 부적당한 것으로서 식별된다. 만약 2번째로 가장 작은 UniqueRel 수들이 예를 들어 30% 미만이면, 이 문서들은 역시 부적당하다고 특징 지워진다. 부가적인 작은 UniqueRel 문서들은 문서들의 총합이 30%를 초과하지 않을 때까지 부가될 수 있다. 바꾸어 말하면, UniqueRel의 가장 높은 수의 백분율로부터 UniqueRel의 가장 낮은 수의 백분율을 입수함은 30%를 초과하지 않아야 한다. 사용자는 당해 기술분야의 당업자에 의해 즉시 인지됨에 따라, 30%를 제외한 값으로 이 역치를 설정하는 선택권을 가진다.

상위 N에 순위화된 검색된 문서들을 재 순위화함에 있어서, 또한 문서의 소스에 기초한 문서에 우선권을 할당하는 것이 가능하다. 예를 들어, 국가적 과학적은 국가적 탐지자보다 큰 비중을 차지할 것이다.

데이터의 관리는 도 4-7에 제공된 사용자 표시화면들을 참조하여 논의될 것이다. 데이터는 2개의 레벨에서 처리된다: 어휘 및 주제. 어휘는 도메인을 정의하 기 위해 사용되고, 각 문서에서 사용된 각 단어의 수 및 단어가 나타난 문서의 수를 포함한다. 어휘는 소정의 어휘의 형성의 경우와 같이 다수의 주제들에 의해 사용될 수 있다. 그러나, 몇 번을 조작하기 위해 동일한 문서를 사용하는 것을 회피함이 바람직하다. 주제에 의해 데이터를 관리함에 관하여, 단어 및 문서들의 관련성/무관련성이 질의 검색용어를 사용함과 마찬가지로 사용된다.

데이터 관리의 대다수는 사용자 인터페이스를 처리한다. 사용자는 어떤 문서 및 그것과 함께 관련된 단어를 검토하기 위한 능력을 가진다. 사용자는, 예를 들어 어휘를 확립하는, 조작용으로 사용하는 관련성/무관련성의 문서들 및 단어들을 식별하기 위한 능력을 가진다. 사용자는 미래의 AIRE 질의용 단어를 식별하기 위한 능력을 가진다. 사용자는 시스템에 공급된 정보에 기초하여 현재데이터의 본 발명에 따라서 새로운 AIRE 질의를 구동하거나 순위화 알고리즘을 재구동하기 위한 능력을 가진다.

"piracy" 어휘를 사용하여 검색된 문서들의 초기의 순위는 도 4에 도시되었다. 열(60)은 높은 쪽에서 낮은 쪽의 순서로 문서들의 제목들을 열거한다. AIRE 관련성은 열(62)에 제공된다. 검색된 문서들이 "piracy" 어휘를 참작하는 동안 재순위화된 후에, 이 재순위화는 열(62)에서 AIRE에 의해 제공된 초기 순위와 평균화된다. 2개의 순위들의 조합은 열(64)에서 제공된다. 예를 들어, 열(62)에서 가장 높은 순위화된 문서는 지금 열(64)에서의 6번째 순위화된 문서이다.

열(60)에서의 열거된 제목들 중 어느 하나를 선택함은 문서 단어들을 표시할 것이다. 각 문서와 관련된 각 어휘단어의 관련성은 열(66)에서 제공된다. 각 문서 에 대하여, 문서는 관련된(열(68)), 조금 관련된(열(70)) 또는 주제를 벗어남(열(72))과 같이 표시된다. 게다가, 각 문서에 대한 총 단어 계산은 열(74)에서 제공되고, 상기 어떤 문서들과 관련된 해설들은 열(76)에서의 아이콘(icon)을 선택하여 부가되거나 검토될 것이다.

만약 사용자가 전체의 문서를 검토하길 소망한다면, 상기 사용자는 관심 있는 제목 다음의 열(78)에 있는 아이콘에 흥미를 집중시킨다. 각 문서용 정보는 열(80)에 의해 나타난 것처럼, 각 파일에 저장된다. 사용자를 더울 돕기 위해, 문서가 관련된 것으로 표시될 때, 관련된 문서와 연관된 행은 강조된다.

열(60)에서의 특정 문서의 제목 상에서 선택함으로써, 그 문서 내의 단어들은 그 문서에서 얼마나 많이 사용되었는지에 기초하여 순차적으로 열(81)에서 표시된다(도 5). 이 화면은 또한 어떻게 단어들이 관련성에 관하여 설정되었는지 나타낸다. 각 어휘단어의 수는 열(82)에 열거된 문서에서 사용되고, 단어를 사용하는 문서들의 수는 열(84)에서 열거된다. 단어/문서 비율은 열(86)에서 제공된다. 관련된 것으로 사용자에 의해 초기에 표시된 어휘단어는 열(88 및 92)에서 숫자 1로 표시된다. 만약 어휘단어가 관련되지 않았다면, 숫자 -1 이 열(90)에 대신 위치한다.

도 5에서의 강조된 섹션은 관련된 단어를 표시한다. 그러나, 단어 "저작권" 및 "소프트웨어"는 주제 "piracy"에 관련되지 않는다. 이 화면에 아직 있는 동안, 사용자는 관련성에 의한 단어 및 적절한 특징화에 의한 사용을 선택하여 분류할 수 있다: 관련된 것을 위한 R(열 100), 관련되지 않은 것을 위한 I(열 102), 중간을 위한 N(열 104) 및 쓸모없는 U(열 106). 만약 단어가 관련성 있는 것으로서 표시되 면, 어떤 액션도 그 단어를 위해 요구되지 않는다.

도 6에 도시된 표시화면은 관련성이 없는 것으로서 열(102)을 통하여 어떤 어휘단어들의 선택을 도시한다. 특정 문서의 단어를 검토할 때, 도 6 및 6에 있는 표시화면의 대안은 도 7에 도시된다. 특정 화면에서, 사용자는 또한 문서가 관련된 것인지, 조금 관련된 것인지 또는 주제를 벗어나는지 섹션(110')에서의 선택의 선택권을 가진다. 사용자는 또한 섹션(112')을 통하여 어휘에 새로운 단어들을 부가하는 선택권을 가진다.

사용자는 또한 사용자 편애에 따라서 다수의 검토(라벨 붙은 것에 따라)를 선택하는 선택권을 가진다. 예를 들어, 탭(tab)(120)은 문서에서의 모든 어휘단어들을 열거하고, 탭(122)은 알파벳 순서로 어휘단어들을 열거하고, 탭(124)은 관련된 것으로서 표시된 어휘단어를 열거하며, 탭(126)은 관련되지 않은 것으로서 표시된 어휘단어들을 열거하며, 탭(128)은 새로운 것으로서 표시된 어휘단어들을 열거하며, 어휘단어들의 통계는 탭(130)을 선택하여 얻어질 수 있다. 도 7에서, 사용자는 문서들에서 관련된/관련되지 않은/중간의 단어들에 관하여 탭들을 선택하는 선택권을 가진다. 탭(140')은 문서들에서 관련된 단어들을 열거하고, 탭(142')은 문서들에서 관련되지 않은 단어들을 열거하며, 탭(144')은 문서들에서 중간의 단어들을 열거하고, 그리고 탭(146')은 문서들에서 쓸모없는 단어들을 열거한다.

본 발명에 따른 문서 데이터베이스에서 문서들을 처리하는 컴퓨터로 실행되는 방법의 다양한 문서 순위화 결과들을 비교하는 것은 AIRE에 의해서 제공된 기초결과와 지금부터 비교될 것이다, 즉, 검색된 문서들의 초기 순위화. 도 4 및 8-11 에 제공된 표시화면들은 지금 참조될 것이다. 검색된 문서들의 1부터 20(열 62)의 초기 순위는 도 5에 도시된 것처럼 열(60)에서 제공된다. 1부터 20의 "piracy" 어휘순위들에 상응하는 문서 제목들은 도 8의 열(60)에서 열거된다. 시각적 비교는 순위화된 기초문서들에서의 관계들 대 가장 관련된 "piracy" 어휘단어들에 의해 제공된 순위화된 문서들 사이에서 행해질 수 있다.

1에서 20(열 64)의 새로운 순위를 얻기 위해 AIRE 순위 및 "piracy" 어휘순위를 조합하는 것은 도 9에서의 열(60)에 제공된다. 상기 논의된 것처럼 새로운 어휘를 생성하는 대신에, 존재하는 어휘가 사용될 것이다. 예를 들어, 소정의 "maritime" 어휘의 결과들은 AIRE 결과들로 조합되었다. 이 재순위화에 상응하는 1에서 20까지 순위화된 문서들(열 64)은 도 10에서의 열(60)에서 열거된다. 아직까지 다른 비교로서, 1에서 20까지의 "maritime" 어휘순위들에 오직 상응하는 1에서 20까지 순위화된 문서들(열 64)은 도 10에서의 열(60)에 열거된다. 시각적 비교는 도 4에서의 AIRE에 의해 제공된 순위화된 기초문서들에서의 관계들 대 도 11에서의 가장 관련된 "maritime" 어휘단어에 의해 제공된 순위화된 문서들 사이에서 행해질 수 있다.

검색된 문서들을 재순위화하기 위해 방금 논의된 다양한 접근들의 결과들은 지금부터 도 12를 참조하여 논의될 것이다. 이 논의는 상위 5, 10, 15, 20, 및 30으로 순위화되거나 재순위화된 문서들에서의 관련된 문서들의 수에 기초한다. 막대그래프의 제 1 설정은 도 4에서의 열(60 및 62)에서 제공된 기초 AIRE 순위화에 상응한다. 상위 5에 순위화된 문서들에서 1개의 관련된 문서가 있었고; 상위 10 순위 화된 문서들에서는 2개의 관련된 문서들이 있으며; 상위 15에 순위화된 문서들에서 4개의 관련된 문서들이 있고; 상위 20에 순위화된 문서들에서는 5개의 관련된 문서들이 있으며, 그리고 상위 30에 순위화된 문서들에서, 6개의 관련된 문서들이 있다.

AIRE 순위가 도 9에서의 행(60, 64)에서 제공됨에 따라 "piracy" 어휘순위와 조합될 때, 막대그래프의 제 2 설정에 의해 도시된 것처럼, 재순위화된 문서들에서 관련된 문서들의 수에서 감소가 있었다. 이와 대조적으로, 관련된 문서들의 수는 막대 그래프의 제 3 설정에 의해 도시된 것처럼, AIRE 순위 및 관련되지 않은 단어들의 식별을 사용하여 "piracy" 어휘순위가 조합될 때, 감소한다.

막대그래프의 제 4 설정은 AIRE 순위화의 순위와 도 10에 도시된 열(60, 64)에서 제공된 것처럼 "maritime" 어휘순위를 조합한 것에 기초한다. 여기서, 재순위화된 문서들에서 관련된 문서들의 수에서 큰 감소가 있다.

재순위화된 문서들에서 관련된 문서들의 수에서의 추가적인 감소는 도 11에 도시된 열(60, 66)에 제공된 것처럼 단지 "maritime" 어휘에 기초한다. 상위 5에서 순위화된 문서들에서는 5개의 관련된 문서들이 있고; 상위 10에 순위화된 문서들에서는 10개의 관련된 문서들이 있으며; 상위 15와 20에 순위화된 문서들에서는 각각을 위한 12개의 관련된 문서들이 있으며; 그리고 상위 30에 순위화된 문서들에서는 13개의 관련된 문서들이 있다.

도 12에 최적으로 도시된 것처럼, 본 발명은 유리하게도 사용자가, 더욱 정상에 순위화된 문서들이 관련된 문서들이 되도록 문서로부터 검색된 문서들을 재순 위화하도록 한다. 어휘는 사용자 검색질의에 기초하여 확립되거나, 존재하는 어휘가 선택된다. 새롭게 생성된 어휘는 특정 단어들의 중요성을 식별하고 문제단어들을 또한 식별하기 위해 분석된다. 관련성/무관련성의 단어들은 사용자 검색질의, 적용가능한 알고리즘 및 사용자 입력을 통하여 식별된다. 게다가, 단어들의 관련성에 기초하여, 관련성/무관련성의 문서들은 식별된다. 관련되지 않는 문서들은 순위의 바닥으로 이동한다.

상기 방법은 도 13에 도시된 것처럼, 문서 데이터베이스에서 문서들을 처리하는 컴퓨터기반 시스템(150)에서 실행될 수 있다. 컴퓨터기반 시스템(150)은 복수의 제 1 내지 제 4 모듈(152-158)로 구성된다. 제 1 모듈(152)은 정보검색 시스템을 사용하고 사용자 검색질의에 기초하여 검색된 문서들의 초기 순위를 생성한다. 제 2 모듈(154)은 적어도 어느 정도 검색된 문서들에서 그들의 발생에 기초하여 복수의 어휘단어들을 생성한다. 제 3 모듈(156)은 그들의 발생 및 사용자 검색질의에 기초하여 어휘단어들의 개별적인 관련성들을 생성한다. 제 4 모듈(158)은 어휘단어들의 관련성에 기초하여 검색된 문서들의 재순위를 생성한다. 표시장치(160)는 재순위화된 문서들을 표시하는 컴퓨터기반 시스템(150)에 접속된다.

본 발명의 다른 면은 문서 데이터베이스에서 문서들을 분류함에 있어 사용자를 돕는 방법으로 향한다. 문서들은 사용자 검색질의에 응답한 정보검색 시스템 동작의 결과일 수 있다. 대안으로, 문서들은 선택된 웹 사이트 문서들, 예를 들어, 대화(예를 들어, 오디오파일), 이메일 메시지, 및 뉴스그룹 트랜잭션(transaction)을 감시함에 응답하여 수집된다. 얼마나 문서들이 사용자에게 제공되었는지는 재쳐 두고, 그들은 문서 데이터베이스를 형성한다.

도 14를 참조하여, 문서 데이터베이스에서 복수의 문서들을 위한 도메인 식별을 판별하는 방법은 지금부터 논의될 것이다. 시작(블럭 200)으로부터, 어휘단어는 블럭(202)에서 각 문서를 위해 판별된다.

각 문서용 어휘단어들은 수많은 방법으로 판별될 수 있다. 한 접근은 각 문서에서 모든 단어들을 간단히 사용하는 것이다. 다른 접근은 특정 의미들을 가진 단어들을 선택하기 위한 단어 추출기를 사용하는 것이다.

게다가 다른 접근은 동작중의 어휘를 형성하는 것이다. 예를 들어, 문서들의 목록 M으로부터의 N 문서들은 M≥N 일 때 선택된다. N 문서들은 문서 데이터베이스를 형성한다. 대안으로, 어휘는 특정 문서들로부터 형성된다. 예를 들어, 사용자는 관련된 문서들의 목록을 식별한다. 관련된 문서들의 목록은 문서들의 목록으로부터 어휘를 형성하기 위한 문서들을 처리하는 상기 설명된 컴퓨터로 실행되는 방법으로 주어진다. 사용자가 관련된 문서들을 식별함에 따라, 그들은 문서의 단어들을 어휘들에 부가한다. 특정 문서들로부터 어휘를 형성하는 것은 동작중의 어휘를 형성하는 것과 비교됨으로써 더 좋은 문서 순위들을 제공한다.

일단 어휘단어들이 각 문서를 위해 판별되면, 개별적인 관련성은 블럭(204)에서 복수의 문서들에서 그들의 발생에 기초하여 각 어휘단어를 위해 판별된다.

상기 설명된 것처럼, 어휘단어들의 개별적인 관련성들은 통계에 기초하여 판별될 수 있다. 예를 들어, 어휘단어의 관련성은 얼마나 각 어휘단어가 복수의 문서들에서 사용되었는지, 그리고 얼마나 많이 복수의 문서들이 각 어휘단어들을 사용 했는지에 기초한다. 다른 통계는 계산에 기초하여 각 개별적인 어휘단어용 단어/문서 비율을 생성함에 기초하고, 만약 단어/문서 비율이 역치보다 작으면, 단어의 관련성은 복수의 문서들 사이의 유사성을 판별할 때 사용되지 않는다.

특정 어휘단어의 관련성을 판별하는 다른 접근은 사용자에 의해 판별된다. 대안으로, 관련성 피드백 요소는 판별되고, 각 어휘단어의 개별적인 관련성은 이 관련성 피드백 요소에 더욱 기초할 것이다. 관련성 피드백 요소는 예를 들어, 사용자 검색질의 또는 알고리즘에 기초할 것이다.

유사성은 어휘단어들에 기초한 복수의 문서들과 그들의 개별적인 관련성들 사이의 블럭(206)에서 판별된다. 한 접근에서, 이것은 문서들 사이의 유사성을 더 잘 설명하는 어휘단어들의 상위집합으로, 어휘단어들의 상위집합을 정의하는 그들의 개별적인 관련성들에 기초하여 적어도 어휘단어들의 부분에서 선택하는 것을 포함한다. 바꾸어 말하면, 문서 데이터베이스에서의 문서로부터의 상위 X 단어들(관련성들에 관한)은 어휘단어들의 상위집합을 정의하기 위해 선택된다. 예를 들어, X는 100과 등가이다.

유사성들은 사위 100 단어 내에서의 관련성의 높은 정도로 단일 단어들을 식별함에 기초할 수 있다. 게다가, 유사성들은 상위 100 어휘단어들에서 단어들의 반복에 기초할 수도 있다. 단어의 반복은 n≥2일 때, n-단어 어구를 포함한다. "New York City"는 예를 들어, 3-단어 어구이다.

유사한 문서들을 위한 적어도 하나의 도메인 식별은 블럭(208)에서 판별된다. 접근들의 수는 도메인 식별을 판별하기 위해 사용될 수 있다. 한 접근은 사용 자에 의해 판별되는 도메인 식별을 위한 것이다. 다른 접근은 어휘단어들을 중복함에 기초하여 컴퓨터에 의해 판별되는 도메인 식별을 위한 것이다.

도메인 식별을 판별하는 다른 접근은 소정의 도메인 식별에 상응하는 어휘단어들을 판별하기 위한 것이고, 이어서 소정의 도메인 식별에 상응하는 문서들 및 어휘단어들을 휘해 어휘단어들(예를 들어, 상위 100단어들) 사이의 유사성들을 판별한다. 소정의 도메인 식별은 소정의 도메인 식별에 상응하는 어휘단어들과 유사한 어휘단어들을 가지는 문서들에 할당된다. 소정의 도메인 식별에 상응하는 어휘단어들은 예를 들어, 사용자 정의일 수 있고, 또는 그들은 미리 결정될 수 있다. 상기 방법은 블럭(210)에서 종결된다.

설명의 목적을 위해, 예가 되는 문서 데이터베이스는 "cancer"로 지시된 사용자 검색질의들에 기초하여 형성될 수 있다. 수집된 문서들은 다른 cancer 질의들로부터 온다. 일단 문서들이 수집되면, 각 수집된 문서들로부터의 어휘단어들은 판별된다. 또한, 각 어휘단어들의 개별적인 관련성은 문서들의 집합에서 그들의 발생에 기초하여 판별된다. 어휘단어들이 그들의 개별적인 관련성들에 관하여 판별된 후에, 상위 단어들은 도 15 및 16에서 제공된 화면들에 의해 도시된 것처럼, "cancer"로 지시된다.

상위 단어들은 예를 들어, cancer를 설명하며, 100 단어들로 제한될 수 있다. 바꾸어 말하면, 선택된 문서들의 cancer 어휘 구성이 정의된다. 각 어휘단어들의 중요성은 도 15 및 16에서 화면들에 의해 또한 제공된다.

도 15 및 16에서의 화면들은 얼마나 상위 단어들(181)이 관련성에 관하여 설 정되었는지를 나타낸다. 각 어휘단어(181)의 수는 열(182)에서 열거된 문서에서 사용되고, 단어를 사용하는 문서들의 수는 열(184)에서 열거된다. 단어/문서 비율은 열(186)에서 제공된다.

그러나, 그것은 단어들(181)의 관련성을 판별하기 위해 중요하다. 관련성의 정도는 열(188 및 190)에서 제공된다. 열(191)에서, -1 과 1 사이에서 전체의 관련성 번호가 판별된다. 예를 들어, 관련성 ≥ 0.50 을 가지는 단어들은 관련된 것으로 강조된다. 물론, 사용자는 역치를 변화하기 위한 선택권을 가지고 단어들을 필요에 따라 cancer 어휘에/어휘로부터 부가/제거하는 선택권을 가진다. 0 관련성 숫자를 가지는 단어들(181)은 cancer 어휘로부터 제거된다.

도 15 및 16에서 화면에 의해 부분적으로 도시됨에 따른 cancer 어휘에 기초하여, cancer 에 관련되는 문서들은 지금 분리되거나 다른 카테고리들 또는 도메인 식별들로 분류된다. 지금, 도 17-19에 제공된 화면들을 참조하면, 3 개의 카테고리들이 생성되었다: skin cancer, brain cancer, 및 breast cancer. 이 카테고리들의 각각은 cancer 어휘를 사용한 것이다. 설명된 단어들 및 이 단어들과 연관된 문서들은 이 카테고리들의 각각을 위한 cancer 어휘의 개별적인 질의에 기초한다. 개별적인 질의들의 결과로서, 열(188-192)에서의 단어 관련성은 각 카테고리를 위해 다르게 설정된다. 도 17-19에 제공된 화면들에서의 어휘단어들에 기초하여, 이 단어들과 연관된 문서들은 주어진 개별적인 도메인 식별이다.

상기에 설명한 것처럼, 문서들은 웹 사이트 문서들, 전자메일 메시지, 및 그들과 관련된 메타데이터를 가지는 비 텍스트 문서들을 포함할 수 있다. 비 텍스트 문서들은 비디오 이미지 파일들, 사진 파일들, 및 오디오 파일들을 포함한다. 예를 들어, 선택된 기간에 걸쳐 신문에 의해 수집된 뉴스 기사는 분류될 수 있다. 그러나, 많은 기사들은 오직 사진들일 수 있다. 이 사진들과 관련된 메타데이터는 도메인 식별을 위해 필요한 어휘단어들을 제공하기 위해 사용될 수 있다. 유사하게, 비디오와 관련된 메타데이터는 도메인 식별을 위해 필요한 어휘단어들을 제공하기 위해 사용될 수 있다. 사진 파일들은 JPEG 포맷일 수 있고, 반면에 비디오 이미지 파일들은 예를 들어, MPEG 포맷일 수 있다. 오디오 파일들은 예를 들어, 다음의 포맷들일 수 있다: 마이크로소프트 "웨이브" 포맷(Wave format, WAV), 오디오 인터체인지 파일 포맷(Audio interchange file format, AIFF) 및 리소스 인터체인지 파일 포맷(Resource interchange file format, RIFF).

본 발명의 다른 측면은 컴퓨터가 상기 정의된 것처럼 문서 데이터베이스에서 문서들을 처리할 수 있게 하는 컴퓨터로 실행가능한 지시들을 가지는 컴퓨터로 판독가능한 매체로 향한다. 그러나 본 발명이 다른 면은 상기 정의된 것처럼 문서 데이터베이스에서 문서들을 처리하는 컴퓨터로 실행되는 시스템으로 향한다.

다양한 실시예 및 변형은 본 발명의 기술영역 및 기술사상으로부터 벗어남 없이 구현될 수 있다. 상술된 실시예는 본 발명을 설명하기 위한 것으로, 본 발명의 기술 영역에 국한되지는 않는다. 본 발명의 기술영역은 실시예보다는 첨부된 청구항에 의해 제시된다. 본 발명의 청구항의 균등성 의미 내에서 그리고 청구항 내 에서 구현된 다양한 변형은 본 발명의 기술 영역에서 고려되어야 한다.

Claims

문서 데이터베이스에서 복수의 문서들을 처리하는 방법으로서:

복수의 문서들의 각 문서에 대해 어휘단어들을 판별하는 단계;

상기 복수의 문서들에서 각 문서의 발생에 기초하여 각 어휘단어에 대한 개별적인 관련성을 판별하는 단계;

상기 어휘단어들 및 개별적인 관련성들에 기초하여 상기 복수의 문서들 사이의 유사성들을 판별하는 단계; 및

상기 소정의 유사성들에 기초하여 문서들을 위해 적어도 하나의 도메인 식별을 판별하는 단계를 포함하는 복수의 문서들을 처리하는 방법.
제 1항에 있어서,

상기 복수의 문서들 사이의 유사성을 판별하는 단계는, 상기 복수의 문서들 사이의 유사성들을 설명하고 그들과 연관된 전체의 도메인 식별을 가지는 어휘단어들의 상위 집합으로서, 어휘단어들의 상위집합을 정의하기 위한 그들의 개별적인 관련성들에 기초하여 상기 어휘단어들의 부분을 선택하는 단계를 포함하는 복수의 문서들을 처리하는 방법.
제 2항에 있어서,

각각의 개별적인 하위 레벨 도메인 식별과 연관된 어휘단어들을 선택함에 기 초하여 하위 레벨 도메인 식별들로 상기 전체의 도메인 식별을 나누는 단계를 추가로 포함하고; 각 하위 레벨 도메인 식별과 연관된 어휘단어들의 관련성들은 유사한 문서들이 각 하위 레벨 도메인 식별에 대해 함께 분류되도록 변화하는 복수의 문서들을 처리하는 방법.
제 1항에 있어서,

상기 어휘 단어들의 상기 개별적인 관련성들을 판별하는 단계는:

각 어휘단어가 상기 복수의 문서들에서 사용된 횟수를 계산하는 단계; 및

상기 복수의 문서들이 각 상기 어휘단어들을 사용한 횟수를 계산하는 단계를 포함하는 복수의 문서들을 처리하는 방법.
제 4항에 있어서,

상기 계산에 기초하여 각 개별적인 어휘단어에 대한 단어/문서 비율을 생성하는 단계를 추가로 포함하고,

상기 단어/문서 비율이 역치보다 작으면, 상기 단어의 상기 관련성은 상기 복수의 문서들 사이의 유사성들을 판별할 때 사용되지 않는 복수의 문서들을 처리하는 방법.
문서 데이터베이스에서 문서들을 처리하는 컴퓨터로 실행되는 시스템으로서:

상기 복수의 문서들의 각 문서에 대한 어휘단어들을 판별하는 제 1 모듈;

상기 복수의 문서들에서 각 문서의 발생에 기초하여 각 어휘단어에 대한 개별적인 관련성을 판별하는 제 2 모듈;

상기 어휘단어들 및 그 개별적인 관련성들에 기초하여 상기 복수의 문서들 사이의 유사성들을 판별하는 제 3 모듈;

상기 판별된 유사성들에 기초하여 문서들에 대한 적어도 하나의 도메인 식별을 판별하는 제 4 모듈을 포함하는 문서 데이타베이스의 문서들을 처리하기 위한 컴퓨터로 실행되는 시스템.
제 6항에 있어서,

상기 복수의 문서들 사이의 유사성들을 판별하는 상기 제 3 모듈은, 상기 복수의 문서들 사이의 유사성들을 설명하고 그들과 연관된 전체의 도메인 식별을 가지는 어휘단어들의 상위 집합으로, 어휘단어들의 상위집합을 정의하기 위한 그 개별적인 관련성들에 기초하여 상기 어휘단어들의 부분을 선택하는 단계를 포함하는 컴퓨터로 실행되는 시스템.
제 7항에 있어서,

각 개별적인 하위 레벨 도메인 식별과 연관된 어휘단어들을 선택함에 기초하여 하위 레벨 도메인 식별들로 상기 전체의 도메인 식별을 나누는 제 5 모듈을 추가로 포함하고; 각 하위 레벨 도메인 식별과 연관된 어휘단어들의 관련성은 유사한 문서들이 각 하위 레벨 도메인 식별에 대해 함께 분류되도록 변화하는 컴퓨터로 실 행되는 시스템.
제 6항에 있어서,

상기 어휘단어들의 상기 개별적인 관련성들을 판별하는 상기 제 2 모듈은:

각 어휘단어가 상기 복수의 문서들에서 사용된 횟수를 계산하는 단계; 및

상기 복수의 문서들이 각각의 상기 어휘단어들을 사용한 횟수를 계산하는 단계를 포함하는 컴퓨터로 실행되는 시스템.
제 9항에 있어서,

상기 제 2 모듈은 상기 계산에 기초하여 각 개별적인 어휘단어에 대한 단어/문서 비율을 생성하는 단계를 추가로 포함하고, 상기 단어/문서 비율이 역치보다 작다면, 상기 단어의 관련성은 상기 복수의 문서들 사이의 유사성들을 판별할 때 사용되지 않는 컴퓨터로 실행되는 시스템.