KR20010105241A - 정보검색 시스템 - Google Patents

정보검색 시스템 Download PDF

Info

Publication number
KR20010105241A
KR20010105241A KR1020010026934A KR20010026934A KR20010105241A KR 20010105241 A KR20010105241 A KR 20010105241A KR 1020010026934 A KR1020010026934 A KR 1020010026934A KR 20010026934 A KR20010026934 A KR 20010026934A KR 20010105241 A KR20010105241 A KR 20010105241A
Authority
KR
South Korea
Prior art keywords
document
question
cluster
documents
user
Prior art date
Application number
KR1020010026934A
Other languages
English (en)
Inventor
나이토에이이치
아라키쇼이치
구츠미히로시
오자와준
마루노스스무
Original Assignee
마츠시타 덴끼 산교 가부시키가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 마츠시타 덴끼 산교 가부시키가이샤 filed Critical 마츠시타 덴끼 산교 가부시키가이샤
Publication of KR20010105241A publication Critical patent/KR20010105241A/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99943Generating database or data structure, e.g. via user interface

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 정보검색에 소요되는 이용자의 부담을 줄이고 검색대상정보의 자동갱신을 실현하기 위한 정보검색 시스템에 관한 것이다. 주요 구성으로서, 서로 대응된 질문과 회답을 문서기억부(11)에 기억하고, 클러스터 분류부(16)는 문서기억부(11) 중의 각 회답의 특징벡터에 기초하여 회답을 클러스터 분류하고, 데이터베이스 검색갱신부(33)는 이용자로부터 자유문에 의한 질문이 입력된 경우에 유사질문을 검색하여 대응하는 회답을 클러스터별로 정리하여 이용자 또는 전문가에게 제시하고, 데이터베이스 검색갱신부(33)는 이용자 또는 전문가가 가장 적절하다고 판단한 회답을 선택하였을 때에는 그 선택된 회답을 기초로 적절한 회답이 없을 경우 전문가가 새로 입력한 회답을 기초로 문서기억부(11)를 자동갱신함으로써 전문가가 입력한 자유문에 의한 회답이 그대로 이용자에게 제시되는 것을 특징으로 한다.

Description

정보검색 시스템{INFORMATION RETRIEVAL SYSTEM}
본 발명은 대량의 정보 중에서 이용자가 구하는 정보를 용이하게 찾을 수 있게 하기 위한 정보검색 시스템에 관한 것이다.
최근 인터넷의 보급에 따라 WWW(World Wide Web) 상에 HTML(Hyper Text Markup Language)로 기술된 여러가지 홈페이지가 게재되는 등으로 인해 일반 이용자는 대량의 정보를 액세스할 수 있다. 또 빈번히 문의되는 질문과 그 회답을 쌍으로 한 FAQ(Frequently Asked Questions) 모음집이라는 리스트가 공개되어 있어 이용자는 질문에 대한 회답을 얻을 수 있다. 이들 정보는 이용자가 구하는 정보의 소재를 알면 바로 열람할 수 있으므로 편리하지만 반대로 대량의 정보 중에서 자기가 구하는 정보를 찾는 것은 대단한 작업이 되고 있다.
이 때문에 문서로부터 키워드를 잘라내어 그 문서의 특징량으로 하고, 특징량 사이의 내적을 산출하고 문서간의 유사도를 구하여 질문에 대한 유사문서를 검색하는 검색기술이 알려져 있다.
그러나 인터넷 상의 정보나 또는 사례를 기초로 축적된 FAQ 모음집은 많은 사람이 독립적으로 정보를 제공하고 있으므로 정보의 중복을 피할 수 없어 같은 내용의 문서가 대량 존재한다. 따라서 종래의 기술에서는 질문문에 유사한 문서로서 같은 내용의 문서가 대량 검색되는 일이 많으므로 이용자는 결국 대량의 검색결과 중에서 원하는 정보를 찾는 작업이 필요하였다. 검색결과를 일정한 수로 제한하면 자기가 원하는 정보가 없거나 하는 문제점이 있었다.
또 이용자가 검색결과로부터 원하는 정보를 찾는데 성공하더라도 그것이 FAQ 모음집에 반영되지 않으므로 다른 이용자가 같은 조건으로 검색한 경우에도 마찬가지로 찾는 수고가 필요하였다. 정보의 중복을 피하면서 FAQ 모음집을 보다 충실하게 하려면 같은 정보가 이미 존재하고 있는지의 여부를 체크해야 하므로 정보제공자에게 부담이 되고 있었다.
본 발명의 목적은 이용자의 정보검색에 소요되는 부담을 줄이는 정보검색 시스템을 제공하는 것에 있다.
본 발명의 다른 목적은 검색대상의 정보를 용이하게 갱신할 수 있는 정보검색 시스템을 제공하는 것에 있다.
도 1은 본 발명의 제 1 실시예에 관한 정보검색 시스템의 구성을 도시한 블록도
도 2는 도 1 중의 문서기억부에 기억된 문서의 예를 도시한 도면
도 3은 도 1 중의 이용자 표시부에서의 검색결과의 표시예를 도시한 도면
도 4는 도 1 중의 특징벡터 추출부의 처리순서를 도시한 플로우차트
도 5는 추출된 문서특징벡터의 예를 도시한 도면
도 6은 도 1 중의 클러스터 분류부의 처리순서를 도시한 플로우차트
도 7은 클러스터 분류결과의 예를 도시한 도면
도 8은 도 1 중의 클러스터 라벨작성부에서의 단어라벨작성순서를 도시한 플로우차트
도 9는 작성된 단어라벨의 예를 도시한 도면
도 10은 도 1 중의 클러스터 라벨작성부에서의 문서라벨 작성순서를 도시한 플로우차트
도 11은 작성된 문서라벨의 예를 도시한 도면
도 12는 도 1 중의 문서라벨 작성부의 처리순서를 도시한 플로우차트
도 13은 작성된 문서라벨의 예를 도시한 도면
도 14는 본 발명의 제 2 실시예에 관한 정보검색 시스템의 구성을 도시한 블록도
도 15는 도 14 중의 문서기억부에 기억된 문서 중의 질문표 부분의 예를 도시한 도면
도 16은 도 14 중의 문서기억부에 기억되어 있는 문서중의 회답표 부분의 예를 도시한 도면
도 17은 도 14 중의 전문가 표시부에서의 검색결과의 표시예를 도시한 도면
도 18은 도 14 중의 이용자 표시부에서의 검색결과의 표시예를 도시한 도면
도 19는 도 14 중의 특징벡터 추출부에서의 이용자 질문의 특징벡터 추출순서를 도시한 플로우차트
도 20은 이용자 질문으로부터 추출된 특징벡터의 예를 도시한 도면
도 21은 도 14 중의 유사도 연산부의 처리순서를 도시한 플로우차트
도 22는 도 14 중의 데이터베이스 검색갱신부의 처리순서를 중심으로 도시한 플로우차트
* 도면의 주요 부분에 대한 부호의 설명 *
11 : 문서기억부 12 : 클러스터 기억부
13 : 클러스터라벨 기억부 14 : 문서라벨 기억부
15 : 특징벡터 추출부 16 : 클러스터 분류부
17 : 클러스터라벨 작성부 18 : 문서라벨 작성부
19 : 데이터베이스 검색부 20 : 인터페이스부
21 : 이용자 입력부 22 : 이용자 표시부
31 : 특징벡터 기억부 32 : 유사도 연산부
33 : 데이터베이스 검색갱신부 41 : 전문가 입력부
42 : 전문가 표시부
상기 목적을 달성하기 위해 본 발명은 문서의 특징벡터를 산출하고 특징벡터에 기초하여 문서를 클러스터분류하고, 문서의 검색결과를 클러스터별로 정리하여 표시하는 것이다. 이로 인하여 이용자는 검색결과를 유사한 문서의 집합으로서 파악하기가 용이해 진다.
또 본 발명은 이용자로부터의 질문이 입력된 경우에 유사질문을 검색하여 대응하는 회답을 이용자 또는 전문가에게 제시하고 이용자 또는 전문가가 가장 적절하다고 판단한 회답을 선택하였을 때 그 선택된 회답을 기초로 문서 데이터베이스를 자동적으로 갱신하는 것이다. 적절한 회답이 없을 때에는 전문가가 새롭게 입력한 회답을 기초로 문서 데이터베이스를 갱신한다. 이로 인하여 다음에 같은 질문이 입력된 경우에 적절한 회답을 할 수 있다.
(실시예)
이하 본 발명의 두가지 실시예에 대하여 도면을 참조하여 설명한다.
(제 1 실시예)
도 1은 본 발명의 제 1 실시예에 관한 정보검색 시스템의 구성을 도시한다. 도 1의 정보검색 시스템은 문서기억부(11), 클러스터 기억부(12), 클러스터라벨 기억부(13), 문서라벨 기억부(14), 특징벡터 추출부(15), 클러스터 분류부(16), 클러스터 라벨작성부(17), 문서라벨 작성부(18), 데이터베이스 검색부(19), 인터페이스부(20), 이용자 입력부(21) 및 이용자 표시부(22)로 구성되고, 예를 들어 인터넷을 통해 서로 접속된 문서서버와 이용자단말로 실현된다. 문서기억부(11)는 복수의 문서를 기억한다. 특징벡터 추출부(15)는 문서기억부(11)에 기억된 문서로부터 특징벡터를 추출한다. 클러스터 분류부(16)는 특징벡터 추출부(15)가 구한 특징벡터에 기초하여 문서기억부(11)에 기억된 문서를 클러스터 분류한다. 클러스터 기억부(12)는 클러스터 분류부(16)가 클러스터 분류한 문서의 클러스터를 기억한다. 클러스터 라벨작성부(17)는 클러스터 분류부(16)가 작성한 각 클러스터에 대하여 당해 클러스터의 내용을 나타내는 클러스터 라벨을 작성한다. 클러스터 라벨은 단어로 이루어지는 단어라벨 또는 문장으로 이루어지는 문장라벨이다. 클러스터 라벨기억부(13)는 클러스터 라벨작성부(17)가 작성한 클러스터 라벨을 기억한다. 문서라벨 작성부(18)는 클러스터 분류부(16)가 작성한 클러스터의 요소인 각 문서에 대하여 그 문서의 내용을 나타내는 문서라벨을 작성한다. 문서라벨 기억부(14)는 문서라벨 작성부(18)가 작성한 문서라벨을 기억한다. 이용자 입력부(21)는 이용자로부터 주어진 검색조건을 접수한다. 검색조건으로서는 문서의 키워드, 문서 ID 등 문서검색의 조건이 된다면 무엇이든지 좋다. 인터페이스부(20)는 이용자와의 입출력을 관리한다. 데이터베이스 검색부(19)는 문서기억부(11)로부터 검색조건을 만족하는 문서를 검색한다. 이용자 표시부(22)는 검색결과를 이용자에게 제시한다.
도 2는 도 1 중 문서기억부(11)에 기억된 문서의 예를 도시한다. 문서기억부(11)에는 검색의 대상이 되는 주어진 n(n ≥2)개의 문서가 기억된다. 각 문서는 독특한 문서 ID와 문장형식의 본문으로 이루어진다. i번째의 문서를 Di라 한다(1 ≤i ≤n).
도 3은 도 1 중의 이용자 표시부(22)에서의 검색결과의 표시예를 도시한다. 도 3에 의하면 어떤 검색조건에 대한 문서의 검색결과가 클러스터별로 정리되어 표시된다. 구체적으로는 클러스터 ID와 그 클러스터에 포함되는 문서의 문서 ID 및 본문을 클러스터별로 표형식으로 표시하고, 마우스로「이전 클러스터」버튼이나 「다음 클러스터」버튼을 눌러 다른 클러스터를 표시함으로써 모든 검색결과를 표시할 수 있다. 이로 인하여 이용자는 검색결과를 유사한 문서의 집합으로서 파악하는것이 용이해 진다. 더구나 표시된 클러스터에는 당해 클러스터의 내용을 나타내는 클러스터 라벨이 표시되는 동시에 문서라벨에 지정된 문장이 밑줄로 표시된다. 따라서 클러스터의 내용을 이용자가 파악하기 쉽게 된다. 또 검색결과로서 클러스터 ID, 문서 ID까지도 표시하였지만 표시하지 않아도 된다.
이하 상기 제 1 실시예의 상세한 사항을 문서등록시의 동작과 문서검색시의 동작으로 나누어 설명한다. 문서등록시의 동작이란 처음으로 문서가 문서기억부(11)에 등록되는 경우 또는 그 이후에 문서의 추가/변경/삭제가 있는 경우의 동작이다. 문서검색시 동작이란 등록문서를 검색하여 열람하는 경우의 동작이다.
(문서등록시의 동작)
도 4는 도 1 중의 특징벡터 추출부(15)의 처리순서를 도시한다. 우선 특징벡터 추출부(15)는 문서기억부(11)에 기억된 모든 문서 Di를 차례로 인출하고, 각 문서 Di의 특징벡터 Vi를 추출한다. 특징벡터는 문서의 특징을 나타내는 단어 Tj와 그 가중값 Wij의 그룹을 요소로 하는 벡터이고, 그 요소의 수는 문서에 따라 다르다. 여기에서 j는 단어를 식별하는 독특한 번호이다. 도 4에서 단계 S101에서는 문서의 카운터 i에 i=1을 설정한다. 단계 S102에서는 문서기억부(11)로부터 문서 Di를 인출하여 형태소 해석, 구문 해석, 불필요어 제거 등 일반적으로 알려진 방법으로 출현하는 단어 Tj를 본문에서 추출하여 문서 Di 내에서의 단어 Tj의 출현횟수 Fij를 카운트한다. 종료판정단계 S103에서는 전체 문서에 대해 단계 S102의 처리가 종료된 경우, 즉 i=n인 경우에는 S105로 진행한다. 그렇지 않은 경우에는 S104로진행한다. 단계 S104에서는 카운터 i를 1 증가하여 단계 S102로 진행한다. 단계 S105에서는 단어 Tj의 전체 문서에 대한 중요도로서 단어 Tj가 출현하는 문서수의 적음을 나타내는 정도, 즉 IDF(inverse document frequency)값을 수학식 1로 산출한다.
여기에서 Mj는 단어 Tj가 출현하는 문서의 수를 나타낸다. 단계 S106에서는 문서의 카운터 i에 i=1을 설정한다. 단계 S107에서는 단어 Tj가 문서 Di를 특징짓는 가중값 Wij로서 문서 Di 내에서의 단어 Tj의 출현비율을 나타내는 TF(term frequency)값과 상기 IDF값을 곱한 TFIDF값을 수학식 2로 산출한다.
종료판정단계 S108에서는 전체 문서에 대하여 단계 S107의 처리가 종료된 경우, 즉 i=n인 경우에는 종료한다. 그렇지 않은 경우에는 S109로 진행한다. 단계 S109에서는 카운터 i를 1 증가하여 단계 S107로 진행한다.
도 5는 추출된 문서특징벡터 Vi의 예를 도시한다. 또 상기 특징벡터의 산출에서는 TFIDF값을 이용하고 있었지만 단순히 단어의 출현횟수로 하는 등 다른 방법으로 해도 된다.
도 6은 도 1 중의 클러스터 분류부(16)의 처리순서를 도시한다. 클러스터 분류부(16)는 특징벡터 추출부(15)가 추출한 특징벡터를 이용하여 모든 문서를 m개의 클러스터로 분류한다(1 < m < n). 여기에서 k번째의 클러스터를 Ck라 한다(1 ≤k ≤m). 클러스터 분류의 순서로서 트리형으로 점차 클러스터에 분류해 가는 계층적 클러스터링을 이용한다. 도 6에서 단계 S111에서는 클러스터간 거리의 초기계산을 한다. 여기에서는 초기 클러스터로서 각각 1개의 문서 Di만을 요소로서 갖는 n개의 클러스터 Ci를 설정하거나 각 클러스터 Ck, C1(1 ≤k, l ≤n) 사이의 거리 Lk1로서 각 문서의 특징벡터간의 거리를 나타내는 수학식 3의 유사비를 채용한다.
단계 S112에서는 클러스터링 횟수의 카운터 i에 i=1을 설정한다. 단계 S113에서는 모든 클러스터의 조합 중에서 클러스터간 거리 Lk1이 가장 작은 클러스터 Ck, C1(k<1)의 그룹을 탐색한다. 단계 S114에서는 클러스터 Ck, Cl을 통합하여 클러스터 Cg라 한다. 즉 Cg=Ck∪C1, C1=로 한다(는 공집합을 나타낸다). 클러스터의 통합에 따라 클러스터 Cg와 다른 클러스터 Ch(1 ≤h ≤n)의 클러스터간 거리를 워드(woad)법을 이용하여 수학식 4로 산출한다.
여기에서 Nk는 클러스터 Ck의 요소의 수이다. 종료판정단계 S115에서는 클러스터링 횟수가 n-1인 경우, 즉 모든 초기 클러스터가 1개의 클러스터에 통합된 경우에는 단계 S117로 진행한다. 그렇지 않은 경우에는 S116으로 진행한다. 단계 S116에서는 카운터 i를 1 증가하여 단계 S112로 진행한다. 단계 S117에서는 클러스터 수를 결정한다. 단계 S111부터 단계 S115까지의 클러스터 분류과정에서는 클러스터링 횟수마다 클러스터의 수는 하나씩 감소한다. 단계 S117에서는 클러스터 분류과정을 되돌아보아 적절한 클러스터링 횟수를 결정한다. 여기에서는 요소를 2개 이상 갖는 클러스터의 수가 최대가 되는 클러스터링 횟수를 적절한 클러스터링 횟수라 한다. 단계 S118에서는 단계 S117에서 결정한 클러스터링 횟수까지 클러스터 분류를 한 시점에서의 각 클러스터에 포함되는 요소를 클러스터 기억부(12)에 기입한다.
도 7은 클러스터 기억부(12)에 기입된 클러스터의 예를 도시한다. 각 클러스터는 클러스터 ID와 그 클러스터에 포함되는 문서의 문서 ID로 이루어진다. 예를 들면 클러스터 1에는 1, 190, 432, 644번의 4개의 문서가 포함된다. 이것은 이들 4개의 문서의 특징벡터끼리가 다른 문서에 비해 유사한 것을 나타낸다. 또 상기의 예에서는 클러스터 분류방법으로서 계층적 클러스터링을 이용하였지만 비계층적 클러스터링이라도 된다. 초기클러스터간 거리로서 수학식 3의 유사비를 이용하였지만유클리드 평방거리 등 다른 거리를 이용해도 된다. 클러스터 통합시의 클러스터간 거리의 산출방법으로서 수학식 4의 워드법을 이용하였지만, 최장거리법 등 다른 방법을 이용해도 된다. 클러스터수의 결정방법으로서 요소를 2개 이상 갖는 클러스터의 수가 최대가 되는 클러스터링 횟수로 하였지만 클러스터 수를 문서수의 일정한 비율로 하는 등 다른 결정방법이라도 된다.
도 8은 도 1 중의 클러스터라벨 작성부(17)에서의 단어라벨 작성순서를 도시한다. 단계 S201에서는 클러스터의 카운터 k에 k=1을 설정한다. 단계 S202에서는 클러스터 Ck의 요소인 모든 문서 Di의 특징벡터 Vi에 포함되는 단어 Tj마다 클러스터 Ck의 요소인 문서 Di 중 단어 Tj가 출현하는 출현문서수를 카운트한다. 단계 S203에서는 클러스터 Ck의 요소인 모든 문서 Di에 포함되는 단어 Tj마다 단어 Tj의 TFIDF값(=Wij)의 클러스터 Ck의 요소인 모든 문서 Di에 대한 합계를 산출한다. 단계 S204에서는 클러스터 Ck의 요소인 모든 문서 Di의 특징벡터 Vi에 포함되는 모든 단어 Tj를 단계 S202에서 구한 출현문서수가 많은 순서로 분류한다. 출현문서수가 같은 경우는 단계 S203에서 구한 TFIDF값의 합계가 큰 차례로 분류한다. 단계 S205에서는 단계 S204에서 분류된 상위의 3개의 단어를 선택하고 클러스터의 단어라벨로서 클러스터라벨 기억부(13)에 기입한다. 종료판정단계 S206에서는 전체 클러스터에 대해 단계 S202부터 단계 S205까지의 처리가 종료된 경우, 즉 k=m인 경우에는 종료한다. 그렇지 않은 경우에는 S207로 진행한다. 단계 S207에서는 카운터 k를 1 증가하고 단계 S202로 진행한다.
도 9는 클러스터 라벨기억부(13)에 기입된 단어라벨의 예를 도시한다. 예를들어 클러스터 1에는 「과자」「간식」「치즈」라는 단어라벨이 붙어 있는 것을 나타낸다. 또 단어라벨의 작성방법으로서 단어의 출현문서수로 분류하였지만, TFIDF값만으로 분류하는 등 다른 방법이라도 된다. 또 단어라벨의 단어수를 3개로 하였으나 3개가 아니어도 된다.
도 10은 도 1 중의 클러스터라벨 작성부(17)에서의 문장라벨 작성순서를 도시한다. 단계 S301에서는 클러스터의 카운터 k에 k=1을 설정한다. 단계 S302에서는 클러스터 Ck의 요소인 모든 문서 Di의 특징벡터 Vi에 포함되는 단어 Tj마다 클러스터 Ck의 요소인 문서 Di 중 단어 Tj가 출현하는 출현문서수를 카운트한다. 단계 S303에서는 클러스터 Ck의 요소인 모든 문서 Di를 구성하는 문장별로 그 문장에 포함되는 단어 Tj의 합계, 즉 단계 S302에서 카운트한 출현문서수의 합계를 산출한다. 여기에서 문장이란 문서를「. 」등의 구점으로 구분한 하나하나의 문자열을 말한다. 단계 S304에서는 클러스터 Ck의 요소인 모든 문서 Di를 구성하는 문장을 단계 S303에서 구한 출현문서수의 합계가 큰 순서로 분류한다. 단계 S305에서는 단계 S304에서 분류된 최상위의 문장을 선택하고 클러스터의 문장라벨로서 클러스터라벨 기억부(13)에 기입한다. 최상위의 문장이 복수 있는 경우에는 그 중에서 문자수가 최소인 문장을 선택한다. 종료판정단계 S306에서는 전체 클러스터에 대하여 단계 S302부터 단계 S305까지의 처리가 종료된 경우, 즉 k=m인 경우에는 종료한다. 그렇지 않은 경우에는 S307로 진행한다. 단계 S307에서는 카운터 k를 1 증가하여 단계 S302로 진행한다.
도 11은 클러스터라벨 기억부(13)에 기입된 문장라벨의 예를 도시한다. 예를들어 클러스터 1에는 「수분이 많은 것(젤리, 푸딩, 요구르트)을···」이라는 문장라벨이 붙어 있는 것을 나타낸다. 또 문장라벨의 작성방법으로서 단어의 출현문서수의 합계로 분류하였으나 TFIDF값의 합계로 분류하는 등 다른 방법이라도 된다. 또 출현문서수의 합계가 최상위의 문장이 복수개 있는 경우에 문자수가 최소인 문장을 선택하였으나 문장의 개시위치가 가장 앞쪽인 문장을 선택하는 등 다른 방법으로 해도 된다.
도 12는 도 1 중의 문서라벨 작성부(18)의 처리순서를 도시한다. 단계 S401에서는 문서의 카운터 i에 i=1을 설정한다. 단계 S402에서는 문서 Di를 구성하는 각 문장마다 그 문장에 포함되는 모든 단어 Tj의 TFIDF값(=Wij)의 합계를 산출한다. 종료판정단계 S403에서는 모든 문서에 대해 단계 S402의 처리가 종료된 경우, 즉 i=n인 경우에는 S405로 진행한다. 그렇지 않은 경우에는 S404로 진행한다. 단계 S404에서는 카운터 i를 1 증가하고 단계 S402로 진행한다. 단계 S405에서는 클러스터의 카운터 k에 k=1을 설정한다. 단계 S406에서는 클러스터 Ck의 요소인 모든 문서 Di를 구성하는 문장을 단계 S402에서 구한 합계가 많은 순서로 분류한다. 단계 S407에서는 문서 Di의 문서라벨로서 단계 S406에서 분류된 최상위의 문장을 선택한다. 단 선택된 문장이 클러스터 라벨작성부(17)가 작성한 클러스터의 문장라벨과 동일한 경우에는 문서 Di의 문서라벨로서 단계 S406에서 분류된 상위로부터 두번째의 문장을 선택한다. 단계 S408에서는 단계 S407에서 선택된 문서 Di의 문서라벨을 문서라벨 기억부(14)에 기입한다. 종료판정단계 S409에서는 전체 클러스터에 대해 단계 S406부터 단계 S408까지의 처리가 종료된 경우, 즉 k=m인 경우에는 종료한다.그렇지 않은 경우에는 S410으로 진행한다. 단계 S410에서는 카운터 k를 1 증가하고 단계 S406으로 진행한다.
도 13은 문서라벨 기억부(14)에 기입한 문서라벨의 예를 도시한다. 예를 들어 클러스터 1에 포함되는 문서 1에는 「씹는 효과가 있고 미련이 남지 않는 것으로, ···」라는 문서라벨이 붙어 있는 것을 나타낸다.
이상의 동작에 의해 문서등록시에 각 문서에 대하여 특징벡터를 추출하고 클러스터라벨 및 문서라벨을 작성하여 각각의 기억부에 기억해 둔다.
(문서검색시의 동작)
우선 인터페이스부(20)는 이용자 입력부(21)를 통해 문서의 검색조건을 접수한다. 데이터베이스 검색부(19)는 검색조건을 만족하는 문서를 문서기억부(11)로부터 검색하고 당해 검색된 문서가 포함되는 클러스터를 클러스터 기억부(12)로부터 검색하고 당해 검색된 클러스터에 포함되는 문서를 다시 문서기억부(11)에서 검색하여 그 결과를 클러스터라벨 및 문서라벨과 함께 인터페이스부(20)로 보낸다. 인터페이스부(20)는 이용자 표시부(22)를 통해 검색결과를 이용자에게 제시한다(도 3).
또 본 실시예에서는 주어진 것이 문서에 미리 기억되어 있었으나 광디스크 등의 기억매체나 인터넷 등의 네트워크 매체 등에 의해 뒤에서부터 새롭게 도입하거나 개정되어도 된다. 또 문서의 검색은 키워드나 문서 ID에 의한 것 이외에 전문검색이거나 연산자검색이어도 된다.
(제 2 실시예)
도 14는 본 발명의 제 2 실시예에 관한 정보검색 시스템의 구성을 도시한다. 도 14의 정보검색 시스템은 이용자의 자유문에 의한 질문에 대하여 과거의 사례검색에 기초하는 적절한 회답을 하는 시스템으로서, 예를 들어 인터넷을 통해 서로 접속된 문서 서버, 이용자 단말 및 전문가 단말로 실현된다. 도 14의 구성은 도 1의 구성에 특징벡터 기억부(31), 유사도 연산부(32), 전문가 입력부(41) 및 전문가 표시부(42)를 추가하며, 도 1 중의 데이터베이스 검색부(19)를 데이터베이스 검색갱신부(33)로 치환한 것이다. 문서기억부(11)는 서로 대응된 복수의 질문문서와 복수의 회답문서를 기억한다. 전문가 표시부(42)는 전문가에게 검색결과를 제시한다. 전문가 입력부(41)는 전문가로부터의 선택입력 및 자유문에 의한 회답입력을 접수한다. 인터페이스부(20)는 이용자 및 전문가와의 입출력을 관리한다. 특징벡터 추출부(15)는 문서기억부(11)의 질문문서 및 회답문서의 각각으로부터 특징벡터를 추출하는 기능과, 이용자의 자유문에 의한 질문입력으로부터 특징벡터를 추출하는 기능과, 전문가의 자유문에 의한 회답입력으로부터 특징벡터를 추출하는 기능을 갖는다. 특징벡터 기억부(31)는 특징벡터 추출부(15)가 문서기억부(11)의 질문문서 및 회답문서의 각각으로부터 추출한 특징벡터를 기억한다. 유사도 연산부(32)는 이용자 질문입력으로부터 추출된 특징벡터와, 특징벡터 기억부(31)가 기억하고 있는 질문문서의 특징벡터의 유사도를 구하는 기능과, 전문가 회답입력으로부터 추출된 특징벡터와 특징벡터 기억부(31)가 기억하고 있는 회답문서의 특징벡터의 유사도를 구하는 기능을 갖는다. 데이터베이스 검색갱신부(33)는 문서기억부(11)의 문서를 검색하는 기능에 덧붙여서 이용자 또는 전문가의 응답에 기초하여 문서기억부(11)를 갱신하는 기능을 갖는다.
도 15 및 도 16은 도 14 중의 문서기억부(11)에 기억된 문서의 예를 도시한다. 도 15는 질문문서를 모은 질문표의 부분을 나타낸다. 이 질문표는 독특한 질문 ID, 문장형식의 질문 및 그 질문에 대응하는 회답 ID로 이루어진다. 도 16은 회답문서를 모은 회답표의 부분을 나타낸다. 이 회답표는 독특한 회답 ID 및 문장형식의 회답으로 이루어진다. i번째의 질문을 Qi로 하고 k번째의 회답을 Ak로 한다(1 ≤i ≤n 이되 1 ≤k ≤m). 여기에서 n ≥m의 관계가 성립된다. 즉 복수의 질문에 대하여 1개의 회답이 대응하는 경우가 있다.
도 17은 도 14 중의 전문가 표시부(42)에서의 검색결과의 표시예를 도시한다. 도 17에서는 이용자로부터의 질문에 덧붙여서 회답 후보가 클러스터에 분류된 상태에서 클러스터의 문서라벨 및 클러스터 중의 문서라벨과 함께 표시된다. 도 17에서는 마우스로 「이전 페이지」버튼이나 「다음 페이지」버튼을 눌러 다른 페이지를 표시함으로써 모든 검색결과를 표시할 수 있다. 이로 인하여 전문가는 유사한 문서의 집합으로서 표시된 검색결과를 참조하여 가장 적절한 회답을 용이하게 선택할 수 있다. 또는 자유문에 의한 전문가 회답을 입력할 수도 있다. 또 도 17의 예에서는 클러스터 라벨로서 문서라벨을 표시하였으나 이것과 함께 또는 이것 대신에 단어라벨을 표시해도 된다. 또 검색결과로서 클러스터 ID, 문서 ID까지도 표시하였으나, 표시하지 않아도 된다.
도 18은 도 14 중의 이용자 표시부(22)에서의 검색결과의 표시예를 도시한다. 여기에서는 번호 1의 문서가 전문가회답으로서 선택된 것이다.
이하 상기 제 2 실시예의 상세한 내용을 제 1 실시예와 마찬가지로 문서등록시의 동작과 문서검색시의 동작으로 나누어 설명한다.
(문서등록시의 동작)
우선 특징벡터 추출부(15)는 문서기억부(11)에 기억된 모든 문서로부터 질문의 특징벡터 VQi와 회답의 특징벡터 VAk를 추출하여, 추출된 특징벡터를 특징벡터 기억부(31)에 기입한다. 특징벡터의 추출순서는 제 1 실시예와 같다. 제 1 실시예와의 차이는 질문과 회답부분에 대하여 각각 특징벡터를 산출하는 점과, 특징벡터를 특징벡터 기억부(31)에 기입하는 점이다.
다음으로 클러스터 분류부(16)는 특징벡터 기억부(31)로부터 회답의 특징벡터 VAk를 판독하고 모든 회답문서를 클러스터에 분류하여 클러스터 기억부(12)에 클러스터를 기입한다. 클러스터 분류의 순서는 제 1 실시예와 같다. 제 1 실시예와의 차이는 회답의 특징벡터 VAk를 이용하여 클러스터를 분류하는 점이다. 클러스터 라벨 작성부(17) 및 문서라벨 작성부(18)의 각각의 동작은 제 1 실시예와 같다.
이상의 동작에 의해 문서등록시에 질문과 회답에 대하여 각각 특징벡터를 추출하고, 또 회답에 대하여 클러스터, 클러스터라벨 및 문서라벨을 작성하여 각각의 기억부에 기억시킨다.
(문서검색시의 동작)
우선 인터페이스부(20)는 이용자 입력부(21)를 통해 자유문에 의한 이용자질문 Q를 접수한다. 특징벡터 추출부(15)는 이용자질문의 특징벡터 VQ를 추출한다.
도 19는 도 14 중의 특징벡터 추출부(15)에서의 이용자질문의 특징벡터 추출순서를 도시한다. 단계 S501에서는 출현하는 단어 Tj를 이용자질문 Q에서 추출하고 단어 Tj의 문서 내에서의 출현횟수 Fij를 카운트한다. 단어의 추출방법은 제 1 실시예와 같다. 단계 S502에서는 단어 Tj의 IDF값을 산출한다. 단어 Tj가 문서기억부(11) 중 어떤 문서 내에 있는 경우는 그 IDF값이 문서등록시에 이미 산출되어 있으므로 그것을 단계 S502에서 이용한다. 단어 Tj가 존재하지 않는 경우는 수학식 5에 의해 단어 Tj의 IDF값(IDFj)을 산출한다.
단계 S503에서는 이용자질문 Q에서의 단어 Tj의 가중값 WQj(TFIDF값)를 산출한다. TFIDF값의 산출방법은 제 1 실시예와 같다. 도 20은 이용자질문 Q에서 추출된 특징벡터 VQ의 예를 도시한다.
이어서 유사도 연산부(32)는 특징벡터 기억부(31)로부터 모든 질문의 특징벡터 VQi를 인출하여 이들의 특징벡터 VQi와 이용자질문의 특징벡터 VQ의 유사도를 산출한다.
도 21은 도 14 중의 유사도 연산부(32)의 처리순서를 도시한다. 단계 S511에서는 문서의 카운터 i에 i=1을 설정한다. 단계 S512에서는 특징벡터 VQi와 이용자로부터의 질문의 특징벡터 VQ의 유사도 Ei를 수학식 6에 의해 벡터의 내적으로 산출한다.
종료판정 단계 S513에서는 전체질문에 대해 단계 S512의 처리가 종료된 경우, 즉 i=n의 경우에는 S515로 진행한다. 그렇지 않은 경우에는 S514로 진행한다. 단계 S514에서는 카운터 i를 1 증가하여 단계 S512로 진행한다. 단계 S515에서는 모든 질문문서를 단계 S512에서 구한 유사도 Ei가 높은 순서로 분류한다.
이어서 데이터베이스 검색갱신부(33)는 유사도 연산부(32)가 산출한 유사도 Ei가 상위의 소정의 수의 질문문서와 그것에 대응하는 회답문서를 문서기억부(11)에서 검색하고 그 검색된 회답문서가 포함되는 클러스터를 클러스터 기억부(12)에서 검색하고 그 검색된 클러스터에 포함되는 회답문서를 다시 문서기억부(11)에서 검색하여 그 결과를 클러스터라벨 및 문서라벨과 함께 인터페이스부(20)로 보낸다. 또 특징벡터의 유사도 연산방법으로서 벡터의 내적을 이용하였으나 벡터의 유사비를 이용하는 등 다른 방법이어도 된다.
다음으로 인터페이스부(20)는 전문가 표시부(42)를 통해 검색결과의 회답부분을 전문가에게 제시하고(도 17), 전문가 입력부(41)를 통해 전문가 표시부(42)의 표시를 참조한 전문가의 회답선택 또는 자유문에 의한 회답의 입력을 접수한다. 또 인터페이스부(20)는 이용자 표시부(22)를 통해 전문가회답을 이용자에게 제시한다(도 18). 따라서 이용자에게는 유용한 정보만이 제시된다.
도 22는 도 14 중의 데이터베이스 검색갱신부(33)의 처리순서를 플로우차트 형식으로 도시한다. 단계 S601에서는 회답사례 검색표시를 한다. 구체적으로, 인터페이스부(20)는 자유문에 의한 이용자질문 Q를 접수하고 전문가 표시부(42)를 통해 검색결과를 전문가에게 제시한다(도 17). 단계 S602에서는 검색결과를 판단한다. 전문가는 도 17의 표시를 보고 이용자질문 Q에 대하여 적절하다고 생각되는 회답이 있는지의 여부를 판단한다. 적절하다고 생각되는 회답이 있는 경우에는 S603으로 진행한다. 적절하다고 생각되는 회답이 없는 경우에는 S606으로 진행한다. 단계 S603에서, 전문가는 이용자질문 Q에 대하여 가장 적절하다고 생각되는 회답의 문서 ID를 선택한다. 인터페이스부(20)는 전문가 입력부(41)를 통해 선택된 문서 ID의 입력을 접수한다. 또 당해 문서 ID를 후술하는 단계 S605를 위해 데이터베이스 검색갱신부(33)에 주고받는다. 단계 S604에서 인터페이스부(20)는 이용자 표시부(22)를 통해 전문가가 선택한 문서 ID의 문서를 회답으로서 이용자에게 제시한다(도 18).
단계 S605에서는 질문추가처리를 한다. 데이터베이스 검색갱신부(33)는 주고받은 문서 ID의 회답에 대응하는 1 이상의 질문중 이용자질문 Q와의 유사도가 가장 높은 질문의 유사도가 소정의 값 이하인 경우에는 적절한 자동회답이 이루어지지 않은 것으로 하여 도 15의 질문표에 신규의 독특한 질문 ID, 이용자질문 Q 및 선택된 문서 ID로 이루어지는 행을 추가한다. 이어서 단계 S612로 진행한다. 단계 S612에서는 특징벡터 추출부(15)는 문서등록시와 마찬가지로 문서기억부(11)에 기억된 모든 질문 Qi 및 회답 Ak로부터 각각의 특징벡터 VQi, VAk를 추출하여 추출된 특징벡터를 특징벡터 기억부(31)에 기입한다.
단계 S602에서 적절한 회답이 없는 경우, 전문가는 단계 S606에서 이용자질문 Q에 대하여 적절한 회답 A를 자유문으로 입력한다. 인터페이스부(20)는 전문가입력부(41)를 통해 자유문의 회답을 접수한다. 단계 S607에서 인터페이스부(20)는 전문가가 입력한 회답 A를 이용자에게 제시한다. 단계 S608에서 특징벡터 추출부(15)는 전문가가 입력한 회답 A의 특징벡터 VA를 추출한다. 이 특징벡터의 추출순서는 도 19에서 설명한 이용자질문 Q의 특징벡터 VQ의 추출순서와 같다. 단계 S609에서 유사도 연산부(32)는 특징벡터 기억부(31)로부터 모든 회답의 특징벡터 VAk를 인출하여 전문가가 입력한 회답 A의 특징벡터 VA와의 유사도 Ek를 산출한다. 이 유사도의 산출순서는 도 21에서 설명한 이용자질문 Q의 유사도의 산출순서와 같다. 단계 S610에서 유사도 연산부(32)는 단계 S609에서 구한 유사도 Ek 중에서 가장 큰 것이 소정의 값 이상인 경우는 문서기억부(11) 내에 전문가가 입력한 회답 A와 유사한 회답이 있는 것으로 판단하여 유사한 회답 Ak의 문서 ID를 데이터베이스 검색갱신부(33)에 교환하고 단계 S605로 진행한다. 그렇지 않은 경우는 단계 S611로 진행한다. 단계 S611에서는 질문회답 추가처리를 한다. 데이터베이스 검색갱신부(33)는 도 16의 회답표에 신규의 독특한 문서 ID 및 전문가가 입력한 회답 A로 이루어지는 행을 추가한다. 또 도 15의 질문표에 신규의 독특한 질문 ID, 이용자질문 Q 및 추가한 회답에 부여한 문서 ID로 이루어지는 행을 추가한다. 그리고 단계 S612로 진행한다. 단계 S612에서의 처리는 상술한 바와 같다.
한편 회답을 선택 또는 입력할 수 있는 전문가가 없는 경우에인터페이스부(20)는 이용자 표시부(22)를 통해 도 17과 같은 검색결과를 이용자에게 제시한다. 이용자는 도 17의 표시를 보고 자기의 질문 Q에 대하여 가장 적절하다고 생각되는 회답의 문서 ID를 선택하고, 인터페이스부(20)는 이용자 입력부(21)를 통해 선택된 문서 ID의 입력을 접수한다. 데이터베이스 검색갱신부(33)는 입력된 문서 ID의 회답에 대응하는 1 이상의 질문중 이용자질문 Q와의 유사도가 가장 높은 질문의 유사도가 소정의 값 이하인 경우에는 적절한 자동회답이 이루어지지 않은 것으로 하여 도 15의 질문표에 신규의 독특한 질문 ID, 이용자질문 Q 및 선택된 문서 ID로 이루어지는 행을 추가한다(단계 S605와 같음). 그리고 특징벡터 추출부(15)는 문서등록시와 마찬가지로 문서기억부(11)에 기억된 모든 질문 Qi 및 회답 Ak에서 각각의 특징벡터 VQi, VAk를 추출하여 추출된 특징벡터를 특징벡터 기억부(31)에 기입한다(단계 S612와 같음).
이상과 같이 제 2 실시예에 의하면 이용자 또는 전문가의 응답에 따라 문서기억부(11)가 자동적으로 갱신되도록 하였으므로 다음에 같은 질문이 입력된 경우에 적절한 회답을 할 수 있는 정보검색 시스템을 제공할 수 있다.
이상 설명한 바와 같이 본 발명에 의하면 문서의 특징벡터를 산출하여 특징벡터에 기초하여 문서를 클러스터 분류하고 문서의 검색결과를 클러스터별로 정리하고 표시하였으므로 이용자는 검색결과를 유사한 문서의 집합으로서 쉽게 파악할 수 있게 된다. 따라서 이용자의 정보검색에 소요되는 부담을 경감시키는 정보검색 시스템을 제공할 수 있다.
또 본 발명에 의하면 이용자로부터 질문이 입력된 경우에 유사질문을 검색하고 대응하는 회답을 이용자 또는 전문가에게 제시하여 이용자 또는 전문가가 가장 적절하다고 판단한 회답을 선택하였을 때에는 그 선택된 회답을 기초로 또 적절한 회답이 없을 때에는 전문가 새롭게 입력한 회답을 기초로 문서 데이터베이스를 자동적으로 갱신하는 것이므로 검색대상의 정보를 용이하게 갱신할 수 있는 정보검색 시스템을 제공할 수 있다.

Claims (18)

  1. 복수의 문서 중에서 이용자가 구하는 정보를 검색하기 위한 정보검색 시스템에 있어서,
    상기 복수의 문서를 기억하기 위한 문서기억수단과,
    상기 문서기억수단에 기억된 복수의 문서의 각각의 특징량을 추출하기 위한 특징량 추출수단과,
    상기 추출된 특징량에 기초하여 상기 문서기억수단에 기억된 복수의 문서를 각 클러스터가 하나의 문서 또는 서로 근사한 특징량을 갖는 복수의 문서로 이루어지도록 복수의 클러스터로 분류하기 위한 클러스터 분류수단과,
    상기 문서기억수단에 기억된 복수의 문서 중에서 상기 이용자로부터 주어진 검색조건을 만족하는 문서를 검색하기 위한 문서검색수단과,
    상기 검색된 문서를 당해 문서가 속하는 클러스터가 복수의 문서로 이루어지는 경우에 당해 클러스터 중 다른 문서와 함께 검색결과로서 제시하기 위한 인터페이스수단을 구비하는 것을 특징으로 하는 정보검색 시스템.
  2. 제 1항에 있어서,
    상기 특징량 추출수단은 상기 문서기억수단에 기억된 복수의 문서의 각각으로부터 당해 문서 중에 출현하는 1 또는 복수의 단어와 당해 단어가 당해 문서를 특징짓는 가중값과의 그룹을 요소로 하는 특징벡터를 상기 특징량으로서 추출하도록 구성된 것을 특징으로 하는 정보검색 시스템.
  3. 제 1항에 있어서,
    상기 클러스터 분류수단은 복수의 문서로 된 클러스터의 수가 최대가 되는 클러스터링을 채용하도록 구성된 것을 특징으로 하는 정보검색 시스템.
  4. 제 1항에 있어서,
    각각 상기 복수의 클러스터중 대응하는 클러스터의 내용을 나타내는 복수의 클러스터라벨을 작성하기 위한 클러스터라벨 작성수단을 추가로 구비하며,
    상기 인터페이스수단은 상기 작성된 복수의 클러스터 라벨중 상기 검색된 문서가 속하는 클러스터의 내용을 나타내는 클러스터라벨을 상기 검색결과와 함께 제시하도록 구성된 것을 특징으로 하는 정보검색 시스템.
  5. 제 4항에 있어서,
    상기 클러스터라벨 작성수단은 상기 복수의 클러스터의 각각에 대하여 당해 클러스터에 속하는 모든 문서 중에서 당해 클러스터를 특징짓는 1 또는 복수의 단어를 상기 클러스터 라벨로서 선택하도록 구성된 것을 특징으로 하는 정보검색 시스템.
  6. 제 4항에 있어서,
    상기 클러스터라벨 작성수단은 상기 복수의 클러스터의 각각에 대하여 당해 클러스터에 속하는 모든 문서 중에서 당해 클러스터를 특징짓는 하나의 문장을 상기 클러스터 라벨로서 선택하도록 구성된 것을 특징으로 하는 정보검색 시스템.
  7. 제 4항에 있어서,
    각각 상기 문서기억수단에 기억된 복수의 문서중 대응하는 문서의 내용을 나타내는 복수의 문서라벨을 작성하기 위한 문서라벨 작성수단을 추가로 구비하며,
    상기 인터페이스수단은 상기 작성된 복수의 문서라벨중 상기 검색된 문서가 속하는 클러스터 중의 각 문서의 내용을 나타내는 문서 라벨을 상기 검색결과와 함께 제시하도록 구성된 것을 특징으로 하는 정보검색 시스템.
  8. 제 7항에 있어서,
    상기 문서라벨 작성수단은 상기 문서기억수단에 기억된 복수의 문서의 각각에 대하여 당해 문서 중의 모든 문서 중에서 당해 문서를 특징짓는 하나의 문장을 상기 문서라벨로서 선택하도록 구성된 것을 특징으로 하는 정보검색 시스템.
  9. 제 1항에 있어서,
    상기 복수의 문서는 서로 대응된 복수의 질문문서와 복수의 회답문서를 포함하며,
    상기 검색조건은 자유문에 의한 이용자 질문이고,
    상기 특징량 추출수단은 상기 문서기억수단에 기억된 복수의 회답문서가 상기 클러스터 분류수단에 의해 복수의 클러스터에 분류되도록 상기 문서기억수단에 기억된 복수의 회답문서의 각각의 특징량을 추출하고,
    상기 정보검색 시스템은 상기 문서기억수단에 기억된 복수의 질문문서의 각각에 대하여 상기 이용자 질문에 관한 문서와의 사이의 유사도를 산출하기 위한 유사도 연산수단을 추가로 구비하며,
    상기 문서검색수단은 상기 산출된 유사도에 기초하여 상기 문서기억수단에 기억된 복수의 질문문서 중에서 유사도가 높은 질문문서를 검색하고, 상기 문서기억수단에 기억된 복수의 회답문서 중에서 상기 검색된 질문문서에 대응된 회답문서를 검색하며,
    상기 인터페이스수단은 상기 검색된 회답문서를 그 검색된 회답문서가 속하는 클러스터가 복수의 회답문서로 이루어지는 경우에 당해 클러스터중 다른 회답문서와 함께 상기 검색결과로서 제시하도록 구성된 것을 특징으로 하는 정보검색 시스템.
  10. 제 9항에 있어서,
    상기 인터페이스수단은 상기 검색결과를 상기 이용자에게 제시하도록 구성된 것을 특징으로 하는 정보검색 시스템.
  11. 제 10항에 있어서,
    상기 인터페이스수단은 상기 제시된 검색결과 중에서 상기 이용자에 의한 회답문서의 선택을 접수하도록 구성되고,
    상기 정보검색 시스템은 상기 문서기억수단에 기억된 복수의 질문문서 중에서 상기 선택된 회답문서에 대응된 질문문서를 검색하여 그 검색된 질문문서와 상기 이용자질문에 관한 문서와의 유사도가 소정의 값보다 낮은 경우에 상기 이용자질문에 관한 문서를 상기 선택된 회답문서와 대응하여 상기 문서기억수단에 새롭게 기억시키기 위한 문서갱신수단을 추가로 구비하는 것을 특징으로 하는 정보검색 시스템.
  12. 제 9항에 있어서,
    상기 인터페이스수단은 상기 검색결과를 상기 이용자질문에 관한 문서와 함께 전문가에게 제시하고, 당해 제시된 검색결과 중에서 상기 전문가에 의해 선택된 회답문서를 상기 이용자에게 제시하도록 구성된 것을 특징으로 하는 정보검색 시스템.
  13. 제 12항에 있어서,
    상기 문서기억수단에 기억된 복수의 질문문서 중에서 상기 선택된 회답문서에 대응된 질문문서를 검색하고 당해 검색된 질문문서와 상기 이용자질문에 관한 문서와의 유사도가 소정의 값보다 낮은 경우에는 상기 이용자질문에 관한 문서를 상기 선택된 회답문서와 대응하여 상기 문서기억수단에 새롭게 기억시키기 위한 문서갱신수단을 추가로 구비하는 것을 특징으로 하는 정보검색 시스템.
  14. 제 9항에 있어서,
    상기 인터페이스수단은 상기 검색결과를 상기 이용자질문에 관한 문서와 함께 전문가에게 제시하고, 당해 제시된 검색결과를 참조하여 상기 전문가가 자유문으로 입력한 회답문서를 상기 이용자에게 제시하도록 구성된 것을 특징으로 하는 정보검색 시스템.
  15. 제 14항에 있어서,
    상기 문서기억수단에 기억된 복수의 회답문서의 각각과 상기 입력된 회답문서와의 유사도가 어느 것이나 소정의 값보다 낮은 경우에는 상기 이용자질문에 관한 문서와 상기 입력된 회답문서를 서로 대응하여 상기 문서기억수단에 새롭게 기억시키기 위한 문서갱신수단을 추가로 구비하는 것을 특징으로 하는 정보검색 시스템.
  16. 복수의 문서 중에서 이용자가 구하는 정보를 검색하기 위한 정보검색 시스템에 있어서,
    서로 대응된 복수의 질문문서와 복수의 회답문서를 기억하기 위한 문서기억수단과,
    상기 이용자로부터 자유문에 의한 이용자질문이 주어졌을 때 상기 문서기억수단에 기억된 복수의 질문문서의 각각에 대하여 상기 이용자질문에 관한 문서와의 사이의 유사도를 산출하기 위한 유사도 연산수단과,
    상기 산출된 유사도에 기초하여 상기 문서기억수단에 기억된 복수의 질문문서 중에서 유사도가 높은 복수의 질문문서를 검색하고, 상기 문서기억수단에 기억된 복수의 회답문서 중에서 상기 검색된 복수의 질문문서의 각각에 대응된 회답문서를 검색하기 위한 문서검색수단과,
    상기 이용자질문에 관한 문서와 함께 상기 검색된 복수의 회답문서를 검색결과로서 전문가에게 제시하고, 당해 제시된 검색결과 중에서 상기 전문가에 의해 선택된 회답문서 또는 당해 제시된 검색결과를 참조하여 상기 전문가가 자유문으로 입력한 회답문서를 상기 이용자에게 제시하기 위한 인터페이스수단을 구비하는 것을 특징으로 하는 정보검색 시스템.
  17. 제 16항에 있어서,
    상기 문서기억수단에 기억된 복수의 질문문서 중에서 상기 선택된 회답문서에 대응된 질문문서를 검색하고, 당해 검색된 질문문서와 상기 이용자질문에 관한 문서와의 유사도가 소정의 값보다 낮은 경우에 상기 이용자 질문에 관한 문서를 상기 선택된 회답문서와 대응하여 상기 문서기억수단에 새롭게 기억시키기 위한 문서갱신수단을 추가로 구비하는 것을 특징으로 하는 정보검색 시스템.
  18. 제 16항에 있어서,
    상기 문서기억수단에 기억된 복수의 회답문서의 각각과 상기 입력된 회답문서와의 유사도가 어느 것이나 소정의 값보다 낮은 경우에는 상기 이용자질문에 관한 문서와 상기 입력된 회답문서를 서로 대응하여 상기 문서기억수단에 새롭게 기억시키기 위한 문서갱신수단을 추가로 구비하는 것을 특징으로 하는 정보검색 시스템.
KR1020010026934A 2000-05-17 2001-05-17 정보검색 시스템 KR20010105241A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP??2000-145168 2000-05-17
JP2000145168 2000-05-17

Publications (1)

Publication Number Publication Date
KR20010105241A true KR20010105241A (ko) 2001-11-28

Family

ID=18651710

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020010026934A KR20010105241A (ko) 2000-05-17 2001-05-17 정보검색 시스템

Country Status (4)

Country Link
US (1) US6993517B2 (ko)
EP (1) EP1156430A2 (ko)
KR (1) KR20010105241A (ko)
CN (1) CN1324046A (ko)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030069639A (ko) * 2002-02-22 2003-08-27 이의범 계층적 및 개념적 클러스터링에 의한 증권정보 검색시스템및 그 방법
WO2005059777A1 (en) * 2003-12-16 2005-06-30 Joon-Soo Youn Real-time knowledge information search system using wired/wireless networks, method for searching knowledge information in real time, and method for registering/managing knowledge information in real time
KR100811288B1 (ko) * 2002-07-18 2008-03-07 주식회사 로앤비 통신망을 이용한 상담 시스템, 그의 컨텐츠 제작 방법 및그를 실행하는 프로그램을 저장한 기록 매체
KR101027848B1 (ko) * 2003-10-10 2011-04-07 마이크로소프트 코포레이션 컴퓨터를 이용한 질의-태스크 벌크 매핑 시스템 및 방법
KR102085217B1 (ko) * 2019-10-14 2020-03-04 (주)디앤아이파비스 특허문서의 유사도 판단 방법, 장치 및 시스템
KR20210044145A (ko) * 2019-10-14 2021-04-22 (주)디앤아이파비스 유사도 점수 및 비유사도 점수를 바탕으로 특허문서의 유사도를 판단하기 위한 방법, 장치 및 시스템
KR20210044144A (ko) * 2019-10-14 2021-04-22 (주)디앤아이파비스 중요도 스코어를 바탕으로 특허문서의 유사도를 판단하기 위한 방법, 장치 및 시스템

Families Citing this family (87)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6519603B1 (en) * 1999-10-28 2003-02-11 International Business Machine Corporation Method and system for organizing an annotation structure and for querying data and annotations
US6804665B2 (en) * 2001-04-18 2004-10-12 International Business Machines Corporation Method and apparatus for discovering knowledge gaps between problems and solutions in text databases
US7899825B2 (en) * 2001-06-27 2011-03-01 SAP America, Inc. Method and apparatus for duplicate detection
US20030028441A1 (en) * 2001-08-02 2003-02-06 International Business Machines Corporation Answer fulfillment-based marketing
US6868411B2 (en) * 2001-08-13 2005-03-15 Xerox Corporation Fuzzy text categorizer
US6978274B1 (en) * 2001-08-31 2005-12-20 Attenex Corporation System and method for dynamically evaluating latent concepts in unstructured documents
GB2382678A (en) * 2001-11-28 2003-06-04 Symbio Ip Ltd a knowledge database
JP4142881B2 (ja) * 2002-03-07 2008-09-03 富士通株式会社 文書類似度算出装置、クラスタリング装置および文書抽出装置
JP4177031B2 (ja) * 2002-05-31 2008-11-05 富士通株式会社 通知方法及び通知装置
US7596553B2 (en) * 2002-10-11 2009-09-29 Avaya Inc. String matching using data bit masks
US7315982B2 (en) 2003-02-26 2008-01-01 Xerox Corporation User-tailorable romanized Chinese text input systems and methods
US7296010B2 (en) * 2003-03-04 2007-11-13 International Business Machines Corporation Methods, systems and program products for classifying and storing a data handling method and for associating a data handling method with a data item
US8666983B2 (en) * 2003-06-13 2014-03-04 Microsoft Corporation Architecture for generating responses to search engine queries
US7376752B1 (en) 2003-10-28 2008-05-20 David Chudnovsky Method to resolve an incorrectly entered uniform resource locator (URL)
US20050149546A1 (en) * 2003-11-03 2005-07-07 Prakash Vipul V. Methods and apparatuses for determining and designating classifications of electronic documents
CN1629833A (zh) * 2003-12-17 2005-06-22 国际商业机器公司 实现问与答功能和计算机辅助写作的方法及装置
US7478317B2 (en) * 2004-02-12 2009-01-13 International Business Machines Corporation Method and apparatus for presenting a summary of selected values
US7191175B2 (en) 2004-02-13 2007-03-13 Attenex Corporation System and method for arranging concept clusters in thematic neighborhood relationships in a two-dimensional visual display space
US20050210038A1 (en) * 2004-03-18 2005-09-22 International Business Machines Corporation Method for providing workflow functionality and tracking in an annotation subsystem
JP2006004005A (ja) * 2004-06-15 2006-01-05 Fuji Xerox Co Ltd 文書処理装置、文書処理方法及びプログラム
US7567895B2 (en) * 2004-08-31 2009-07-28 Microsoft Corporation Method and system for prioritizing communications based on sentence classifications
JP2006092473A (ja) * 2004-09-27 2006-04-06 Toshiba Corp 回答支援システムおよび装置、回答支援プログラム
US7805446B2 (en) * 2004-10-12 2010-09-28 Ut-Battelle Llc Agent-based method for distributed clustering of textual information
US8244689B2 (en) * 2006-02-17 2012-08-14 Google Inc. Attribute entropy as a signal in object normalization
US7769579B2 (en) * 2005-05-31 2010-08-03 Google Inc. Learning facts from semi-structured text
US20060179038A1 (en) * 2005-02-04 2006-08-10 Sbc Knowledge Ventures, L.P. Presenting FAQ's during a task of entering an e-mail message
US7587387B2 (en) 2005-03-31 2009-09-08 Google Inc. User interface for facts query engine with snippets from information sources that include query terms and answer terms
US9208229B2 (en) 2005-03-31 2015-12-08 Google Inc. Anchor text summarization for corroboration
US8682913B1 (en) 2005-03-31 2014-03-25 Google Inc. Corroborating facts extracted from multiple sources
US7831545B1 (en) 2005-05-31 2010-11-09 Google Inc. Identifying the unifying subject of a set of facts
US8996470B1 (en) 2005-05-31 2015-03-31 Google Inc. System for ensuring the internal consistency of a fact repository
US20090307194A1 (en) * 2005-06-03 2009-12-10 Delefevre Patrick Y Neutral sales consultant
JP4752623B2 (ja) * 2005-06-16 2011-08-17 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
DE102005045625B4 (de) * 2005-09-23 2008-06-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung, Verfahren und Computerprogramm zum Zusammenstellen eines Tests sowie Vorrichtung, Verfahren und Computerprogramm zum Prüfen eines Prüflings
US7991797B2 (en) 2006-02-17 2011-08-02 Google Inc. ID persistence through normalization
US8260785B2 (en) 2006-02-17 2012-09-04 Google Inc. Automatic object reference identification and linking in a browseable fact repository
US8700568B2 (en) 2006-02-17 2014-04-15 Google Inc. Entity normalization via name normalization
JP4251652B2 (ja) * 2006-06-09 2009-04-08 インターナショナル・ビジネス・マシーンズ・コーポレーション 検索装置、検索プログラムおよび検索方法
JP4234740B2 (ja) * 2006-08-03 2009-03-04 株式会社東芝 キーワード提示装置、プログラムおよびキーワード提示方法
US20080040339A1 (en) * 2006-08-07 2008-02-14 Microsoft Corporation Learning question paraphrases from log data
GB2455025A (en) 2006-09-15 2009-06-03 Nielsen Co Methods and apparatus to identify images in print advertisements
US8122026B1 (en) 2006-10-20 2012-02-21 Google Inc. Finding and disambiguating references to entities on web pages
US8347202B1 (en) 2007-03-14 2013-01-01 Google Inc. Determining geographic locations for place names in a fact repository
US8239350B1 (en) 2007-05-08 2012-08-07 Google Inc. Date ambiguity resolution
US7966291B1 (en) 2007-06-26 2011-06-21 Google Inc. Fact-based object merging
US7970766B1 (en) 2007-07-23 2011-06-28 Google Inc. Entity type assignment
US8738643B1 (en) 2007-08-02 2014-05-27 Google Inc. Learning synonymous object names from anchor texts
US8812435B1 (en) 2007-11-16 2014-08-19 Google Inc. Learning objects and facts from documents
JP4970301B2 (ja) * 2008-02-08 2012-07-04 シャープ株式会社 画像処理方法、画像処理装置、画像読取装置、画像形成装置、画像処理システム、プログラムおよび記録媒体
JP5157551B2 (ja) * 2008-03-17 2013-03-06 株式会社リコー オブジェクト連携システム、オブジェクト連携方法およびプログラム
US8332394B2 (en) * 2008-05-23 2012-12-11 International Business Machines Corporation System and method for providing question and answers with deferred type evaluation
US8275803B2 (en) 2008-05-14 2012-09-25 International Business Machines Corporation System and method for providing answers to questions
US8407042B2 (en) * 2008-12-09 2013-03-26 Xerox Corporation Cross language tool for question answering
US20100235343A1 (en) * 2009-03-13 2010-09-16 Microsoft Corporation Predicting Interestingness of Questions in Community Question Answering
US20100235311A1 (en) * 2009-03-13 2010-09-16 Microsoft Corporation Question and answer search
US8515957B2 (en) 2009-07-28 2013-08-20 Fti Consulting, Inc. System and method for displaying relationships between electronically stored information to provide classification suggestions via injection
US8612446B2 (en) 2009-08-24 2013-12-17 Fti Consulting, Inc. System and method for generating a reference set for use during document review
US20110125734A1 (en) * 2009-11-23 2011-05-26 International Business Machines Corporation Questions and answers generation
KR101419623B1 (ko) 2009-12-09 2014-07-15 인터내셔널 비지네스 머신즈 코포레이션 검색 키워드로부터 문서 데이터를 검색하는 방법, 그 컴퓨터 시스템 및 컴퓨터 프로그램
US9110882B2 (en) * 2010-05-14 2015-08-18 Amazon Technologies, Inc. Extracting structured knowledge from unstructured text
US8892550B2 (en) 2010-09-24 2014-11-18 International Business Machines Corporation Source expansion for information retrieval and information extraction
US8473499B2 (en) * 2011-10-17 2013-06-25 Microsoft Corporation Question and answer forum techniques
US9117194B2 (en) * 2011-12-06 2015-08-25 Nuance Communications, Inc. Method and apparatus for operating a frequently asked questions (FAQ)-based system
US9436758B1 (en) * 2011-12-27 2016-09-06 Google Inc. Methods and systems for partitioning documents having customer feedback and support content
US10621880B2 (en) 2012-09-11 2020-04-14 International Business Machines Corporation Generating secondary questions in an introspective question answering system
US9015097B2 (en) 2012-12-19 2015-04-21 Nuance Communications, Inc. System and method for learning answers to frequently asked questions from a semi-structured data source
US9064001B2 (en) * 2013-03-15 2015-06-23 Nuance Communications, Inc. Method and apparatus for a frequently-asked questions portal workflow
US9230009B2 (en) 2013-06-04 2016-01-05 International Business Machines Corporation Routing of questions to appropriately trained question and answer system pipelines using clustering
US9146987B2 (en) * 2013-06-04 2015-09-29 International Business Machines Corporation Clustering based question set generation for training and testing of a question and answer system
CN104424290A (zh) * 2013-09-02 2015-03-18 佳能株式会社 基于语音的问答系统和用于交互式语音系统的方法
US9348900B2 (en) 2013-12-11 2016-05-24 International Business Machines Corporation Generating an answer from multiple pipelines using clustering
KR102222318B1 (ko) * 2014-03-18 2021-03-03 삼성전자주식회사 사용자 인식 방법 및 장치
CN103902733B (zh) * 2014-04-18 2017-02-01 北京大学 基于疑问词扩展的信息检索方法
WO2016041181A1 (en) * 2014-09-18 2016-03-24 Google Inc. Clustering communications based on classification
US9984772B2 (en) * 2016-04-07 2018-05-29 Siemens Healthcare Gmbh Image analytics question answering
US11068546B2 (en) 2016-06-02 2021-07-20 Nuix North America Inc. Computer-implemented system and method for analyzing clusters of coded documents
US10331684B2 (en) 2016-06-03 2019-06-25 International Business Machines Corporation Generating answer variants based on tables of a corpus
US9817806B1 (en) * 2016-06-28 2017-11-14 International Business Machines Corporation Entity-based content change management within a document content management system
US11681942B2 (en) 2016-10-27 2023-06-20 Dropbox, Inc. Providing intelligent file name suggestions
US9852377B1 (en) * 2016-11-10 2017-12-26 Dropbox, Inc. Providing intelligent storage location suggestions
WO2018194603A1 (en) * 2017-04-20 2018-10-25 Hewlett-Packard Development Company, L.P. Document security
US11068479B2 (en) * 2018-01-09 2021-07-20 GlobalWonks, Inc. Method and system for analytic based connections among user types in an online platform
JP7139728B2 (ja) 2018-06-29 2022-09-21 富士通株式会社 分類方法、装置、及びプログラム
US10909180B2 (en) 2019-01-11 2021-02-02 International Business Machines Corporation Dynamic query processing and document retrieval
US10949613B2 (en) * 2019-01-11 2021-03-16 International Business Machines Corporation Dynamic natural language processing
JP7187411B2 (ja) * 2019-09-12 2022-12-12 株式会社日立製作所 コーチングシステム及びコーチング方法
CN113127616B (zh) * 2021-03-25 2023-09-15 白鹭 应用于现场对话场景中的智能话术推荐方法及装置

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6029195A (en) * 1994-11-29 2000-02-22 Herz; Frederick S. M. System for customized electronic identification of desirable objects
JP3565239B2 (ja) 1996-09-03 2004-09-15 日本電信電話株式会社 情報検索装置
JPH10187761A (ja) 1996-10-29 1998-07-21 Matsushita Electric Ind Co Ltd 情報検索装置
JPH10154182A (ja) 1996-11-25 1998-06-09 Nippon Telegr & Teleph Corp <Ntt> 問い合わせ回答方法及びシステム
US6028601A (en) * 1997-04-01 2000-02-22 Apple Computer, Inc. FAQ link creation between user's questions and answers
JPH11134364A (ja) 1997-10-31 1999-05-21 Omron Corp 体系化知識解析方法及び装置並びに分類方法及び装置
US6256648B1 (en) * 1998-01-29 2001-07-03 At&T Corp. System and method for selecting and displaying hyperlinked information resources
US6421065B1 (en) * 1998-02-09 2002-07-16 Microsoft Corporation Access of online information featuring automatic hide/show function
JPH11272710A (ja) 1998-03-20 1999-10-08 Omron Corp 情報検索システム、情報検索方法および記録媒体
JPH11275137A (ja) 1998-03-23 1999-10-08 Hitachi Information Systems Ltd 電子メール管理支援方法およびそのプログラム記録媒体
JPH11296552A (ja) 1998-04-13 1999-10-29 Ricoh Co Ltd 文書分類装置、文書分類方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2000020541A (ja) 1998-07-03 2000-01-21 Nec Corp 問題解決支援システム
US6177932B1 (en) * 1998-08-21 2001-01-23 Kana Communications, Inc. Method and apparatus for network based customer service
JP2000105768A (ja) 1998-09-28 2000-04-11 Nippon Telegr & Teleph Corp <Ntt> 問合わせ文書の特徴量計算装置および方法
JP2000123028A (ja) 1998-10-13 2000-04-28 Mitsubishi Electric Corp 手順ベースヘルプデスクシステム、事例検索方法および事例検索装置
WO2001061565A1 (en) * 2000-02-16 2001-08-23 Askit Systems Inc. Customer service system and method
US6434550B1 (en) * 2000-04-14 2002-08-13 Rightnow Technologies, Inc. Temporal updates of relevancy rating of retrieved information in an information search system

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030069639A (ko) * 2002-02-22 2003-08-27 이의범 계층적 및 개념적 클러스터링에 의한 증권정보 검색시스템및 그 방법
KR100811288B1 (ko) * 2002-07-18 2008-03-07 주식회사 로앤비 통신망을 이용한 상담 시스템, 그의 컨텐츠 제작 방법 및그를 실행하는 프로그램을 저장한 기록 매체
KR101027848B1 (ko) * 2003-10-10 2011-04-07 마이크로소프트 코포레이션 컴퓨터를 이용한 질의-태스크 벌크 매핑 시스템 및 방법
WO2005059777A1 (en) * 2003-12-16 2005-06-30 Joon-Soo Youn Real-time knowledge information search system using wired/wireless networks, method for searching knowledge information in real time, and method for registering/managing knowledge information in real time
KR102085217B1 (ko) * 2019-10-14 2020-03-04 (주)디앤아이파비스 특허문서의 유사도 판단 방법, 장치 및 시스템
KR20210044145A (ko) * 2019-10-14 2021-04-22 (주)디앤아이파비스 유사도 점수 및 비유사도 점수를 바탕으로 특허문서의 유사도를 판단하기 위한 방법, 장치 및 시스템
KR20210044144A (ko) * 2019-10-14 2021-04-22 (주)디앤아이파비스 중요도 스코어를 바탕으로 특허문서의 유사도를 판단하기 위한 방법, 장치 및 시스템

Also Published As

Publication number Publication date
US20020065845A1 (en) 2002-05-30
CN1324046A (zh) 2001-11-28
EP1156430A2 (en) 2001-11-21
US6993517B2 (en) 2006-01-31

Similar Documents

Publication Publication Date Title
KR20010105241A (ko) 정보검색 시스템
CN103678576B (zh) 基于动态语义分析的全文检索系统
US6366908B1 (en) Keyfact-based text retrieval system, keyfact-based text index method, and retrieval method
US20110295857A1 (en) System and method for aligning and indexing multilingual documents
US6389412B1 (en) Method and system for constructing integrated metadata
US7113943B2 (en) Method for document comparison and selection
CN101055585B (zh) 文档聚类系统和方法
US20070244915A1 (en) System and method for clustering documents
US6725217B2 (en) Method and system for knowledge repository exploration and visualization
CN105045875B (zh) 个性化信息检索方法及装置
CN111949758A (zh) 医疗问答推荐方法、推荐系统和计算机可读存储介质
US20020021838A1 (en) Adaptively weighted, partitioned context edit distance string matching
US20060155662A1 (en) Sentence classification device and method
JP5754019B2 (ja) 同義語抽出システム、方法およびプログラム
CN108595525B (zh) 一种律师信息处理方法和系统
CN110633407B (zh) 信息检索方法、装置、设备及计算机可读介质
JP3654850B2 (ja) 情報検索システム
KR20190038243A (ko) 맥락을 이용하여 문서를 검색하는 시스템 및 방법
CN101692223A (zh) 响应于用户输入精炼搜索空间
WO2012124608A1 (ja) 話題抽出装置及びプログラム
CN108681548B (zh) 一种律师信息处理方法和系统
CN108664509B (zh) 一种即席查询的方法、装置及服务器
JP2003288362A (ja) 特定要素ベクトル生成装置、文字列ベクトル生成装置、類似度算出装置、特定要素ベクトル生成プログラム、文字列ベクトル生成プログラム及び類似度算出プログラム、並びに特定要素ベクトル生成方法、文字列ベクトル生成方法及び類似度算出方法
KR100396826B1 (ko) 정보검색에서 질의어 처리를 위한 단어 클러스터 관리장치 및 그 방법
CN110134970B (zh) 标题纠错方法和装置

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid