KR100408637B1 - 유사어 추출 및 문서 검색을 위한 방법 및 시스템 - Google Patents

유사어 추출 및 문서 검색을 위한 방법 및 시스템 Download PDF

Info

Publication number
KR100408637B1
KR100408637B1 KR10-2000-0044283A KR20000044283A KR100408637B1 KR 100408637 B1 KR100408637 B1 KR 100408637B1 KR 20000044283 A KR20000044283 A KR 20000044283A KR 100408637 B1 KR100408637 B1 KR 100408637B1
Authority
KR
South Korea
Prior art keywords
query
feature vector
word
document database
document
Prior art date
Application number
KR10-2000-0044283A
Other languages
English (en)
Other versions
KR20010067045A (ko
Inventor
사토미쓰히로
이토하야시
Original Assignee
마츠시타 덴끼 산교 가부시키가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 마츠시타 덴끼 산교 가부시키가이샤 filed Critical 마츠시타 덴끼 산교 가부시키가이샤
Publication of KR20010067045A publication Critical patent/KR20010067045A/ko
Application granted granted Critical
Publication of KR100408637B1 publication Critical patent/KR100408637B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

문서 집합의 문서 데이터베이스로부터 소정의 문자열에 대한 유사어(類似語)를 추출하는 방법 및 시스템이 제공된다. 유사어의 출현 패턴은 소정의 문자열의 출현 패턴에 유사하다. 문서 데이터베이스의 각각의 단어에 대한 제1특징(feature) 벡터를 포함하는 특징 벡터 테이블이 구성된다. 소정의 문자열에 대한 통계 정보는 소정의 문자열에 대한, 문서 데이터베이스의 검색(retrieval)을 통하여 취득된다. 통계 정보로부터, 소정의 문자열에 대한 제2특징 벡터를 계산한다. 제2특징 벡터와, 각각의 제1특징 벡터와의 사이의 유사도(類似度)를 계산한다. 소정의 값보다 높은 유사도를 생성하는 단어를 선택한다.

Description

유사어 추출 및 문서 검색을 위한 방법 및 시스템{METHOD AND SYSTEM FOR SIMILAR WORD EXTRACTION AND DOCUMENT RETRIEVAL}
본 발명은 통상적으로 문서 검색 시스템, 및 특히, 출현 패턴 기준의 유사어 (類似語) 추출기와, 질의 확장(query expansion) 및 다언어(多言語; multilingual language)의 검색에 대한 응용에 관한 것이다. 인터넷과 개인용 컴퓨터의 보급으로 인하여 수 많은 문서가 컴퓨터화되고 유통되었다. 종래의 문서 검색 시스템은 통상적으로 사용자가 입력한 질의 키워드(query keyword)에 대한 기준을 설정하고 검색 결과로서 키워드를 포함하는 문서를 제공한다. 그러나 동일한 주제를 상이한 표현으로써 기술하는 다수의 문서가 혹시 있을 수 있기 때문에, 사용자로서는 사용자가 입력한 키워드만을 사용하여 자신의 희망에 부합하는 모든 이러한 문서를 검색하는것은 어렵다. 이러한 목적을 위해서, 검색을 위한 소정의 질의(query)를 확장하는 각종 질의 확장 기술이 지금까지 제안되었다.
또한, 인터넷의 보급에 의하여 세계의 정보에 액세스할 수 있게 하는 환경의 개선에 따라서 사용자의 모국어 이외의 언어로 된 정보의 검색 요구가 증가하고 있다. 이러한 요구를 충족시키기 위하여, 최근에 다언어의 문서 검색 방법에 대한 연구가 증가하고 있다.
질의 확장 기술의 예는, 제52회 일본 정보처리학회(IPSJ) 전국대회 논문집, 1996, pp.4-201 - 4-202의, 아카미네(Akamine) 등에 의한 "Information Retrieval System with Querry Expansion Using WorldNet"에 제안되어 있다. 이 시스템에서, 고정 시소러스(thesaurus)를 사용하여 질의어(query term)에 대한 유사어가 검색되고, 검색된 유사어로써 질의가 확장된다. 그러나, 검색된 유사어는 고정 시소러스의 어휘에 의한 것이기 때문에 특정 분야에서의 검색에는 적합하지 않을 수도 있다.
또 다른 질의 확장 기술의 예는, 케이 사이토(K. Saito) 등에 의한, Information Study Fundamentals, 47-10, 1997, pp.67-74.의 일본 정보처리학회 연구 그룹 보고서 "Concept-Based Querry Expansions"에 제안되어 있다. 이 시스템에서, 검색해야 하는 문서 데이터베이스에서 출현하는 각각의 단어, 즉, 사전(辭典)의 각각의 단어는, 문서 데이터베이스를 구성하는 문서 집합을 차원(次元)으로 하는 벡터 공간 상에 매핑(mapping)된다. 두 단어간의 유사도(類似度; degree of similarity)는 벡터 공간에서 두 단어에 대하여 정의되는 벡터 간의 내적치(內積値; inner product)에 의하여 결정된다. 필요한 문서에 적절한 유사어가 취득되어 질의 확장에 사용된다.
그러나, 지금 언급한 질의 확장 기술에서는 사전의 어휘에 포함되어 있지 않은 단어에 대해서는 유사도를 취득할 수 없다. 이러한 이유로 이하여, 사전에 포함되어 있지 않은 어떠한 질의어를 포함하는 질의에 이 기술은 적용할 수 없다.
다언어의 문서 검색 시스템은, 엘 발레스테로스(L. Ballesteros) 등에 의한, ACMSIGIR 98, 1998, pp.64-71.의 "Resolving Ambiguity for Cross-language Retrieval"에 기재되어 있다. 참조 문헌 3에서, 문서 집합 및 이에 대한 하나 이상의 언어의 번역어를 포함하는 대역(對譯) 사전을 사용하여 소정의 원시(原始; source) 언어에 대하여 모든 가능한 목적(object) 언어의 번역어가 리스트(list)된다. 목적 언어의 검색은 동시 출현 통계표(co-occurrence statics)를 사용하여 리스트된 번역어를 좁혀감으로써 생성된다.
이 다언어 시스템에서는 하나 이상의 번역어 사전의 사용을 가정하고 있으므로, 선택된 번역어는 번역어 사전의 어휘에 따르며, 이것은 어휘에 포함되어 있지 않은 용어에 대해서는 아무런 번역이 되지 않는다는 것을 의미한다. 일본어의 경우와 같이 단어 사이에 공백이 없는 문서 데이터베이스에 본 시스템이 적용되면, 또한, 소정의 질의어가 어휘에 포함되지 않은 문자열(통상적으로 한자)을 포함하면, 문자열에 대하여 아무런 번역이 이루어지지 않는다.
본 발명은 상기 및 기타의 문제를 해결하고자 하는 것이며, 소정의 문서 데이터베이스로부터, 아직 널리 허용되지 않은 소정의 질의어에 대한 유사어를 추출할 수 있는 유사어 추출기(similar word extractor)를 제공하는 것을 목적으로 한다.
본 발명의 또 다른 목적은 유사어 추출기를 포함하는 질의 확장 기술을 제공하는 것이다.
본 발명의 추가적인 목적은 유사어 추출기를 포함하는 다언어의 문서 검색 시스템을 제공하는 것이다.
도 1은 본 발명을 구체화한 문서 검색 컴퓨터 시스템의 구성예를 나타내는 개략 블록도.
도 2는 본 발명에 의한 유사어 추출기의 구성예를 나타내는 도면.
도 3은 본 발명에 의한 유사어 추출기(130)의 제어 상태에서 프로세서(20)의 동작을 나타내는 플로우 차트.
도 4는 특징(feature) 벡터 테이블(160)의 구성예를 나타내는 도면.
도 5는 도 3의 유사어 추출기(130)를 사용하는 질의 확장기(query expander)의 동작을 나타내는 플로우 차트.
도 6은 언어간 검색을 위한 질의 확장기에 사용하는 번역어 추출기 시스템 (1300a)의 구성도.
도 7은 추출기(130)에 관련하여 실행되는 질의 확장기 프로그램(31b)의 플로우 차트.
도 8은 본 발명에 의한 문자열 분할기의 동작예를 나타내는 플로우 차트.
도 9는 문자열 "自律移動ロボッド"의 검색식(retrieval expression)의 예를 나타내는 도면.
도 10은 문자열 "自律移動ロボッド"에 대한 7가지의 분할 문자열을 나타내는 도면.
도 11은 단계 212의 처리예를 나타내는 도면.
도 12는 각각의 분할된 문자열이 충분한 분할 적정도(適正度)를 갖는 가를 판단하는 방법을 나타내는 도면.
도 13은 본 발명에 의한 변형 검색기(variant finder)(300)의 동작예를 나타내는 플로우 차트.
도면 전체에 걸쳐서 하나 이상의 도면에 나타낸 동일한 요소는 동일한 참조 번호로써 표시된다.
본 발명의 특징에 따라서, 문서 집합의 문서 데이터베이스로부터 소정의 문자열에 대한 유사어를 추출하는 방법 및 시스템이 제공된다. 유사어의 출현 패턴은 소정의 문자열의 출현 패턴에 유사하다. 문서 데이터베이스의 각각의 단어에 대한 제1특징(feature) 벡터를 포함하는 특징 벡터 테이블이 구성된다. 소정의 문자열에 대한 통계 정보는 소정의 문자열에 대한, 문서 데이터베이스의 검색을 통하여 취득된다. 통계 정보로부터, 소정의 문자열에 대한 제2특징 벡터를 계산한다. 제2특징 벡터와, 각각의 제1특징 벡터와의 사이의 유사도를 계산한다. 소정의 값보다 높은 유사도를 생성하는 단어를 선택한다.
특징 벡터 테이블은, 문서 데이터베이스의 단어를 포함하는 단어 집합을 작성하고, 문서 데이터베이스로부터, 문서 데이터베이스에서 사용되는 각각의 단어에 대한 통계 정보를 인덱스 파일로부터 취득할 수 있는 인덱스 파일을 작성하고, 또한, 인덱스 파일로부터 각각의 제1특징 벡터를 계산함으로써 구성된다. 통계 정보를 취득하기 위하여, 소정의 문자열에 대하여 인덱스 파일을 검색한다.
본 발명의 특징에 따라서, 제1문서 데이터베이스와 검색기를 포함하는 문서 검색 장치에 사용하는 질의 확장 방법 및 시스템이 제공된다. 소정의 질의는 확장되어 검색기에 인가된다. 이러한 목적을 위해서, 소정의 질의에서의 질의어의 유사어가 사용된다. 질의어의 유사어는 문서 집합의 제2문서 데이터베이스로부터 추출된다. 유사어의 출현 패턴은 질의어의 출현 패턴에 유사하다. 유사어의 추출은, 제2문서 데이터베이스의 각각의 단어에 대한 제1특징 벡터를 포함하는 특징 벡터 테이블을 구성하고, 질의어에 대한, 제2문서 데이터베이스의 검색을 통하여 질의어에 대한 통계 정보를 취득하고, 통계 정보로부터 질의어에 대한 제2특징 벡터를 계산하고, 제2특징 벡터와 각각의 제1특징 벡터와의 사이의 유사도를 계산하고, 또한 소정의 값보다 높은 유사도를 생성하는 단어를 유사어로서 선택함으로써 이루어진다.
제1 및 제2문서 데이터베이스는 동일한 것이 바람직하다.
본 발명의 또 다른 특징에 따라서, 번역어 추출 방법 및 시스템이 제공된다. 두 문서 데이터베이스의 하나가 다른 하나의 번역어이면, 원시 언어의 소정의 단어에 대하여, 원시 언어 문서 데이터베이스의 소정의 단어의 출현 패턴이 목적 언어 문서 데이터베이스의 번역어의 출현 패턴에 동일하게 되는, 목적 언어의 번역어가 제공된다. 목적 언어의 번역어는, 목적 언어 문서 데이터베이스의 각각의 단어에 대한 제1특징 벡터를 포함하는 특징 벡터 테이블을 구성하고, 질의어에 대한, 원시 언어 문서 데이터베이스의 검색을 통하여 질의어에 대한 통계 정보를 취득하고, 통계 정보로부터 질의어에 대한 제2특징 벡터를 계산하고, 제2특징 벡터와 각각의 제1특징 벡터와의 사이의 유사도를 계산하고, 또한 소정의 값보다 높은 유사도를 생성하는 목적 언어의 단어를 번역어로서 선택함으로써 취득한다.
특징 벡터 테이블은, 목적 언어 문서 데이터베이스로부터, 목적 언어 문서 데이터베이스에서 사용되는 각각의 단어에 대한 통계 정보를 인덱스 파일로부터 취득할 수 있는 인덱스 파일을 작성하고, 또한, 인덱스 파일로부터 소정의 사전(또는 소정의 단어 집합)의 각각의 단어에 대한 제1특징 벡터를 계산함으로써 구성된다. 통계 정보를 취득하기 위하여, 질의어에 대하여 인덱스 파일을 검색한다.
본 발명의 추가적인 특징에 따라서, 제1문서 데이터베이스 및 검색기를 포함하는 문서 검색 시스템에서 사용하기 위한 질의 확장 방법 및 시스템이 제공된다. 질의 확장 수단은 원시 언어 질의를 목적 언어 질의로 변환하여 검색기에 인가한다. 질의 확장은, 목적 언어 문서 집합의 제2문서 데이터베이스로부터, 원시 언어 질의의 각각의 질의어의 번역어를 추출하고, 또한 원시 언어 질의에서의 각각의 질의어를, 질의어의 번역어로 대체함으로써 이루어진다. 번역어의 출현 패턴은 질의어의 출현 패턴에 유사하다. 번역어의 추출은, 목적 언어 문서 데이터베이스의 각각의 단어에 대한 제1특징 벡터를 포함하는 특징 벡터 테이블을 구성하고, 질의어에 대한, 원시 언어 문서 데이터베이스의 검색을 통하여 질의어에 대한 통계 정보를 취득하고, 통계 정보로부터 질의어에 대한 제2특징 벡터를 계산하고, 제2특징 벡터와 각각의 제1특징 벡터와의 사이의 유사도를 계산하고, 또한 소정의 값보다 높은 유사도를 생성하는 목적 언어의 단어를 번역어로서 선택함으로써 이루어진다.
본 발명의 특징에 따라서, 소정의 문자열을 수신하고, 충분한 분할 적정도(適正度)로써 2등분된 문자열을 구성하는 방법이 제공된다. 본 방법은, 문자열의 모든 문자를 포함하지만 문자열 자체는 포함하지 않는 문서 집합에 대한 검색식(檢索式; retrieval expression)을 형성하는 단계와, 검색식에 따라서 검색을 실행함으로써 통계 정보를 취득하는 단계와, 통계 정보로부터 검색식에 대한 특징 벡터로서, "마스크(mask) 특징 벡터"라고 하는 특징 벡터를 작성하는 단계와, N이 문자열에서의 문자의 수인 경우, 분할점(division point)을 하나씩 이동하여 문자열을 2개의 소문자열로 분할하여 N-1개 세트의 2등분된 문자열을 취득하는 단계와, 각각의 N-1개 세트의 각각의 2등분된 문자열에 대한 특징 벡터를 계산하는 단계와, 각각의 계산된 특징 벡터를 마스크 특징 벡터로써 마스킹하여 마스킹된 계산된 특징 벡터를 정규화(normalizing)하는 단계와, N-1개 세트의 각각에 대한 유사도로서, N-1개 세트의 각각의 2등분된 문자열의 내적치로서 정의되는 유사도를 계산하는 단계, 및 한계치보다 큰 유사도를 갖는 2등분된 문자열을 출력하는 단계를 포함한다.
본 발명의 또 다른 특징에 따라서, 소정의 단어에 대하여, 상기의 번역어 추출 시스템을 사용하여 소정의 단어를 포함하는 최소한 하나의 변형(variant; 단어의 변형)을 취득할 수 있다. 이를 달성하기 위해서, 번역어 추출 시스템을 사용하여 소정 단어에 대한 번역어를 우선 취득한다. 번역어 추출 시스템은, 특징 벡터 테이블을, 제1언어 문서 데이터베이스의 각각의 단어에 대한 제3특징 벡터를 포함하는 특징 벡터 테이블로 대체하고, 제1언어 문서 데이터베이스와 제2언어 문서 데이터베이스를 교환함으로써 구성된다. 번역어의 각각에 대한 제2번역어는 재구성된번역어 추출 시스템을 사용함으로써 변형으로서 취득된다.
도 1은 본 발명을 구체화한 문서 검색 컴퓨터 시스템의 구성예를 나타내는 개략 블록도이다. 문서 검색 컴퓨터 시스템(1)은 통상적으로 서버(server)(10), 통신 매체 (12) 및 다수의 클라이언트(client)(14)를 포함한다. 시스템(1)에서, 서버는 클라이언트(통상적으로 멀리 있는)로부터 질의를 수신하고 이에 응답해서 검색 결과를 클라이언트에 회송한다. 통신 매체는 통상적으로 인터넷, LAN 등의 각종 통신 네트워크를 포함한다. 클라이언트-서버 구성이 도 1에 나와 있지만, 본 발명은 독립적인 컴퓨터 시스템으로서 실시될 수도 있으며, 이 경우에 통신 매체(12)와 클라이언트(14)는 도면에서 삭제된다.
통상적으로 클라이언트들(14)에게 일시에 문서 검색 서비스를 제공하는 데에 필요한 용량과 속도를 갖춘 컴퓨터인 서버(10)는, 컴퓨터의 핵심 역할을 하는 하나 이상의 프로세서(들) 및 메모리(20)와, 각종 프로그램과 데이터를 저장하는 대용량 기억 장치(30)와, 클라이언트(14)와의 통신을 위한 통신 인터페이스(40), 및 관리자가 서버(10)를 운영할 수 있게 하는 입출력 장치(60)를 포함한다. 대용량 기억 장치(30)는 문서 검색에 필요한 프로그램 및 데이터를 저장하는 하드 디스크(도면에 나타내지 않음)를 포함하는 것이 바람직하다. 대용량 기억 장치(30)는 또한, 예로서, 문서 데이터베이스(33)를 저장하는 하나 이상의 광 디스크(들)(도면에 나타내지 않음)를 포함할 수도 있다. 상기의 서버(10) 및/또는 구성 부분(20, 30, 및 40 내지 60)은 적합한 표준품이면 어느 것이라도 좋다.
각각의 클라이언트(14)는 모뎀 또는 네트워크 인터페이스 등의 통신 인터페이스(도면에 나타내지 않음)를 갖춘 적합한 단말기 또는 개인용 컴퓨터이면 어느 것이라도 될 수 있다.
대용량 기억 장치(30)는 통상적으로 문서 데이터베이스/검색 엔진(32), 및 이후에 상세하게 설명하는 본 발명의 원리에 따라서 클라이언트(14)로부터 질의를 수신하고 질의 확장 버전(version)을 제공하는 질의 확장기(31)를 저장한다. 문서 데이터베이스/검색 엔진(32), 및 질의 확장기(31)는 어떠한 적절한 문서 데이터베이스와 어떠한 적절한 검색 엔진의 조합일 수도 있고, 또한 통상적으로 다수의 문서를 포함하는 문서 데이터베이스(33)와, 인덱스 작성기(34)와, 인덱스 작성기(34)에 의해서 데이터베이스(33)로부터 작성되는 인덱스 파일(35), 및 인덱스 파일(35)을 사용하여 질의에 가장 적합한 문서를 검색하는 문서 검색기(36)를 포함한다.
이하의 실시예의 설명에 앞서서 사용되는 용어를 정의하는 것이 본 발명을 더 잘 이해하는 데에 유용하다.
별도로 언급하지 않는 한, "문서"라는 용어는 전체 문서 또는 제목, 초록, 하나 이상의 절(節), 문장, 또는 항(項) 등의, 문서의 어느 일부를 의미하는 것으로 한다.
별도로 언급하지 않는 한, "질의(querry)"라는 용어는 문서 데이터베이스 (33)로부터 문서의 부분을 선택할 목적으로 입력되는 텍스트(text)를 의미하는 것으로 한다. 질의는 통상적으로논리식(logical expression) 또는 자연 언어 형태의다수의 질의어를 포함한다. 각각의 질의어는 지원 언어로 된 문자열이고, 문자열은 통상적으로 지원 언어의 하나 이상의 단어를 포함한다. 즉, 질의를 구성하는 각각의 문자열(또는 질의어)은 한 단어, 복합어, 구(句), 및 기타의 여러 단어의 구성일 수도 있다. 공백은 사용 언어에 따라서 문자열의 한 단어들 사이에 있을 수도 있고 없을 수도 있다.
별도로 언급하지 않는 한, "단어"라는 용어는 한 단어, 복합어, 구(句), 및 기타의 여러 단어의 구성일 수도 있다. 또한 "단어"와 "용어(term)"라는 용어는 때때로 서로 바꾸어서 사용된다. 용어와 단어는, 예로서, 명사, 고유명사, 복합명사, 명사구, 동사, 부사, 수식, 및 형용사를 포함한다.
이하에서,
(1) 유사어 추출기,
(2) 유사어 추출기를 사용하는 질의 확장기(31a),
(3) 질의에 사용되는 언어와 상이한 언어를 지원하는 문서 데이터베이스/검색 엔진(32)에 적응시킨 질의 확장기(31b)(즉, 언어간 검색을 위한 질의 확장기),
(4) 문자열 분할기,
(5) 변형(또는 동의어) 검색기, 및
(6) 문자열 분할기와 변형 검색기를 포함하면서, 유사어 추출기를 기본으로 하는 바람직한 질의 확장기(31c)를 개시한다.
유사어 추출기, 문자열 분할기 및 변형 검색기는 질의 확장기(31)에 사용하기에 강력한 도구이다. 문자열 분할기 및 변형 검색기는 이하의 설명으로부터 알 수 있는 바와 같이 유사어 추출기와 함께 실행된다.
유사어 추출기
도 2는 본 발명에 의한 유사어 추출기 시스템(1300)의 구성예를 나타내는 도면이다. 도 2에서, 발신지로부터 수신지까지 그려져 있는 일방향 화살표는 수신지의 데이터를 발신지로부터 취득하고, 프로그램을 나타내는 블록과 데이터 구조를 나타내는 블록과의 사이에 그려진 양방향 화살표는 프로그램이 데이터 구조에 관련되는 것을 나타낸다.
실제적인 유사어 추출 동작에 선행해서, 제2문서 데이터베이스(33a)로부터 유사어 추출 동작에 사용하기 위한 제2인덱스 파일(134) 및 특징 벡터 테이블(160)을 구성하는 것이 바람직하다.
제2문서 데이터베이스(33a)는 문서 데이터베이스/검색 엔진(32)의 문서 데이터베이스(33)와는 상이하지만, 제2문서 데이터베이스(33a)는 문서 데이터베이스 (33)에 동일해야 할 것을 강하게 권장하고 있다. 제2문서 데이터베이스(33a)가 문서 데이터베이스(33)와는 상이할지라도, 추출된 단어의 정확도(즉, 적절성)를 증가시키기 위해서는 제2문서 데이터베이스(33a)는 문서 데이터베이스(33)에 동일한 특성을 갖는 것이 바람직하다.(이러한 이유로 인하여, 제2문서 데이터베이스(33a)는 이하에서 "문서 데이터베이스(33a)" 또는 단순히 "데이터베이스(33a)"라고 한다).
다른 한 편으로는, 제2인덱스 파일(134)은 문서 데이터베이스/검색 엔진(32)의 인덱스 파일(34)에 반드시 동일한 것일 필요는 없다. 그러나, 제2인덱스 파일 (134)이 클라이언트(14)로부터의 질의에 포함된 질의어에 대하여 문서 검색기(136)에 의해서 검색될 때, 문서 검색기(136)는 데이터베이스(33a)의 문서 집합의 각각에서의 질의어의 출현 빈도("문서-기준의 용어 빈도"라고 함), 및 질의어가 어떠한문자열일지라도, 즉, 질의어가 사전에서 검색할 수 없는 단어일지라도, 질의어를 포함하는 문서의 수 등의 통계 정보를 취득할 수 있도록 제2인덱스 파일(134)이 정렬되는 것이 바람직하다는 것을 유념해야 한다. 이러한 인덱스 파일(134)은 본 출원자에 의한 일본국 특허 출원 공고 번호 Hei08-249354호의 원리에 따라서 실현될 수 있다.
특징 벡터 테이블(160)은 이하와 같이 작성한다. 데이터베이스(33a)내의 문서 {Di|i=1, 2,..., M}의 수는 M이고, 또한 N이 데이터베이스(33a)내의 단어의 종류의 총수인 경우, 용어(또는 단어) {Tj|j=1, 2,..., N}를 포함하는 적합한 단어 집합(WORD SET)(150)이 제공되는 것으로 가정한다. 단어 집합(150)의 각각의 단어 Tj에 대하여, M차원의 특징 벡터tj를 계산한다. 각각의 특징 벡터tj는,
tj = (w(j,1),w(j,2),...,w(j,i),...,w(j,M) ㆍㆍㆍㆍ(1)로서 정의된다.
식(1)으로부터 알 수 있는 바와 같이, 특징 벡터tj의 원소 w(j,1), w(j,2), ..., w(j,i), ..., w(j,M)은 문서 D1, D2, ..., Di, ...DM에 대응한다. 특징 벡터tj의 i번째 원소 w(j,i)는 기술적으로 공지된 tf(j,i)*idf(j) 스코어(score)에 의한 가중치로서 계산된다. "tf(j,i)"는 소정의 문서 Di내에서 용어 Tj의 출현 횟수이고, 문서 Di에서 용어 Tj의 "용어 빈도"라고 부른다. "idf(j)"는 용어 Tj에 대한 "문서 빈도의 역수(the inverse document frequency)"이고,
idf(j) = log(M/dj)
로서 정의되며, 여기서 dj는 용어 Tj가 출현하는 문서의 수이다(tf(j,i)*idf(j) 스코어에 대한 추가적인 상세는 G.Salton and M.J.McGill, "Introduction to Modern Information Retrieval", McGraw-Hill Publishing Company, 1983을 참조할 것). 이 경우에, 특징 벡터tj는 크기 또는 길이가 1로 되도록 정규화할 수도 있다. 이러한 방법으로, 특징 벡터 테이블(160)이 작성되고, 이제 유사어 추출 동작에 대하여 준비되어 있다.
도 3은 본 발명에 의한 유사어 추출기(130)의 제어 상태에서 프로세서(20)의 동작을 나타내는 플로우 차트이다. 유사어 추출기(130)는 원격 클라이언트(14)로부터의 질의의 수신에 응답하여 호출된다. 이하의 특정 예에서 소정의 질의의 각각의 질의어에 대하여 유사어가 취득되지만, 하기에 동일한 방법으로 소정의 질의 자체에 대해서 유사어가 취득될 수도 있는 것을 주목해야 한다.
수신된 질의에서 k번 째의 질의어 qk가 수신되면, 프로세서(20)는, 단계 (136)에서, 수신된 질의어 qk에 근거하여 제2인덱스 파일(134)을 검색하고, 각각의 문서 Di에 대한 질의어, tf(qk,i)의 용어 빈도와, 질의어에 대한 문서 빈도의 역수, idf(qk)를 출력한다. 프로세서(20)는, 단계(138)에서, 문서 빈도의 역수, idf(qk)로부터 소정의 질의어 qk에 대한 특징 벡터q k, 및 질의어, tf(qk,1), tf(qk,2), ..., tf(qk,M)의 용어 빈도를 계산한다.
단계(140)는 특징 벡터 테이블(160)에서 후속 처리를 받아야 하는 레코드를 표시한다. 이 단계를 용이하게 하기 위하여, 특징 벡터 테이블(160)의 구조를 도 4에 나타낸 바와 같이 구성하는 것이 바람직하다. 특징 벡터 테이블(160)의 각각의레코드는, 카테고리 코드, 서브카테고리 코드 등을 포함하는 하나 이상의 카테고리 필드(CATE1, CATE2,...)(168)와, 레코드가 표시되어 있다는 것을 나타내는 특정 코드를 포함하는 마크 필드(166)와, 단어 필드(162), 및 특징 벡터 필드(164)를 포함할 수도 있다. 후속 단계에서 하나 이상의 특정 필드에 대해서만 유사도의 계산이 필요하면, 카테고리 필드(168)의 값이 특정 필드에 해당하는, 레코드의 마크 필드(166)에 특정 코드가 기록된다. 또한 후속 처리에서 질의어 자체를 제외하는 것이 필요하면, 용어 qk가 특징 벡터 테이블(160)에, 즉, 단어 집합(150)에 존재하는 경우, 질의어 qk에 대하여 특정 코드가 레코드의 마크 필드(166)로부터 삭제되기만 하면 된다.
그러나, 문서 검색기(136)를 통하여 질의어 qk에 대하여 문서 빈도의 역수 및 용어 빈도가 성공적으로 취득되었다는 것만으로 질의어 qk가 단어 집합(150) 또는 특징 벡터 테이블(160)에서 항상 검색될 수 있는 것은 아니라는 것을 유념해야 한다. 이것은 상기와 같이 어떠한 질의어 qk에 대해서도 문서 빈도의 역수와 용어 빈도가 취득되도록 제2인덱스 파일(134)이 정렬되어 있기 때문이다. 환언하면, 이러한 통계 정보는 단어 집합(150)에서 검색되지 않는 질의어에 대해서 조차도(또는 질의 자체에 대해서 조차도) 제2인덱스 파일(134)을 사용하여 검색함으로써 취득될 수 있다.
이어서, 단계(142)에서는 계산된 특징 벡터q k와, 특징 벡터 테이블(160)에서의 각각의 표시된 레코드의 특징 벡터와의 사이의 유사도를 계산한다. 예로서, 질의어 "www"와 단어 "인터넷"의 유사도, 즉, SIM(www,인터넷)은 이하와 같이 계산된다.
SIM(www, 인터넷)
= 1.10*0.15 + 0.00*0.00 +0.12*0.01 + ... + 0.07*0.10
= 0.9
또 다른 방법으로는, 상호 정보 및 t-score 등의 통계 정보를 사용하여 벡터 사이의 유사도를 계산할 수 있다. 상호 정보 및 t-score에 대한 추가적인 상세는 "K.W.Church and R.L.Mercer, 'Introduction to the Special Issue on Computational Linguistics Using Large Corpora', Computational Linguistics, Vol.19,No.1, 1993,PP.1-24"을 참조하기 바란다.
단계(144)는 계산된 유사도의 순서로, 표시된 레코드의 단어를 정렬한다. 단계(146)는 소정의 값보다 큰 유사성을 갖는 단어를 유사어로서 출력하고 동작을 종료한다. 도 2에서, 단어 "인터넷"과 "HTML"은 질의어 "www"에 대한 유사어로서 출력된다. 따라서, 유사어는 어떠한 질의어에 대해서도 취득할 수 있다.
상기 실시예에서, 문서 데이터베이스(33a)의 M개의 모든 문서가 이용되었다. 그러나, 데이터베이스(33a)는 필드로 분할되어 각각의 필드에 대한 문서의 부분으로 나누어질 수 있고, 각각의 문서의 부분에 대하여 제2인덱스 파일(134)과 특징 벡터 테이블(160)이 구성되며, 또한, 소정의 필드에 대하여, 소정의 필드에 관련되는 제2인덱스 파일(134)과 특징 벡터 테이블(160)이 사용된다. 또 다른 방법으로는, 각각의 필요한 필드에 대하여 문서 데이터베이스(33a), 제2인덱스 파일(134) 및 특징 벡터 테이블(160)이 구성될 수도 있다.
상기 실시예에서는, 실제적인 유사어 추출에 선행해서 제2인덱스 파일(134) 및 특징 벡터 테이블(160)이 구성되었다. 그러나, 단어 집합(150)이, 매우 적은 단어를 포함하면, 제2인덱스 파일(134) 및 특징 벡터 테이블(160)은 단계(138)의 특징 벡터의 계산 후에 작성될 수도 있다.
특징 벡터 테이블(160)을 작성하는 데에 단어 집합(150)이 사용되었지만, 특징 벡터 테이블(160)은 데이터베이스(33a)로부터 직접 작성될 수도 있다.
단어 집합(150)은 문서 데이터베이스(33a)에서 출현하는 모든 단어, 또는 하나 이상의 필드의 단어만의, 어느 하나를 포함할 수도 있다. 단어 집합(150)의 어휘를 한정함으로써, 특징 벡터 테이블(160)의 레코드는 따라서 한정된다.
유사어 추출기를 사용하는 질의 확장기
도 5는 도 3의 유사어 추출기(130)를 사용하는 질의 확장기의 동작을 나타내는 플로우 차트이고, 질의 확장기(31a)는 도 1의 질의 확장기(31)의 실시예의 설명이다. 도 5에서, 단계(102)는 소정의 질의로부터 제1질의어를 선택한다. 단계(104)에서는 유사어 추출기(130)를 사용함으로써 선택된 질의어에 대한 유사어를 검색한다. 단계(106)에서는 질의에서의 선택된 질의어를, 예로서, 검색된 유사어의 논리합 (logical sum)으로 대체한다. 결정 단계(108)에서는 질의에서 용어가 소진되었는가(또는 대체되었는가) 확인하는 테스트를 한다. 그렇지 않다면, 절차는 단계 (110)로 진행하여, 소정의 질의의 다음 용어가 선택되고, 단계(104)로 되돌아 간다. 단계(108)에서 테스트 결과가 "예"이면, 절차는 단계(112)로 진행하여, 문서 검색기(36)에 확장 질의가 부여되고, 동작이 종료된다.
확장 질의를 수신하면, 문서 검색기(36)는 수신된 확장 질의에 따라서 종래의 방법으로 인덱스 파일(35)을 검색한다.
예로서, 클라이언트 측의 사용자가 WWW(world wide web) 상의 검색 엔진에 관하여 알기 위하여 질의로서 「wwwand"검색엔진"」을 입력하면, 유사어 추출기 (130)는 질의어 "www"에 대한 유사어로서 "인터넷"을, 또한, 질의어 "검색 엔진"에 대한 유사어로서 "검색"을 제공하고, 따라서 질의 확장기(31a)는 질의어, 「wwwand"검색엔진"」을 확장된 질의, 「(wwwor인터넷)and("검색엔진"or검색)」으로 확장한다. 이 것으로 인하여 검색 결과에 "인터넷 상의 검색 서비스"라는 표현이 있는 문서를 포함하게 한다.
질의 확장기(31a)에서, 모든 질의어는 유사어 추출기(130)로써 확장되었다. 또 다른 방법으로는, 질의어 중에서 단어 집합(130)에서 검색되지 않는 용어만이 단어 추출기(130)로써 확장된다.
단계(104)에서 선택된 질의어에 대하여 검색된 유사어가 단계(106)의 질의에서 선택된(또는 원시) 용어 대신에 사용되었다. 또 다른 방법으로는, 검색된 유사어가 원시 용어에 부가될 수도 있다.
질의 확장기(31a)가 소정의 질의에서 각각의 질의어를 확장하지만, 질의 확장기(31a)는 유사어 추출을 위한 단일 검색 조건을 작성하고, 작성된 검색 조건을유사어 추출기(130)에 인가하여 유사어를 취득하며, 또한 취득한 유사어를 문서 검색기(36)에 인가한다.
언어 간의(cross-language) 검색을 위한 질의 확장기
도 6은 언어 간의 검색을 위한 질의 확장기에 사용하는 번역어 추출기 시스템(1300a)의 구성도이다. 도 6에서 알 수 있는 바와 같이, 번역어 추출기 시스템 (1300a)은 도 2의 유사어 추출기 시스템(1300)에 매우 유사하다.
두 추출기 시스템(1300a 및 1300)은 실제 추출 동작에서 번역어 추출기 시스템(1300a)이 제2인덱스 파일(134) 대신에 원시 언어 인덱스 파일(235)을 사용하는 것을 제외하고는 동일하다. 원시 언어(SL; source language) 인덱스 파일(235)은 SL 문서 데이터베이스(233)로부터 작성된다. 이러한 이유로 인하여, 도 3의 플로우 차트로서 나타낸 유사어 추출기(130)는 제2인덱스 파일(134)을 SL 인덱스 파일 (235)로 대체함으로써 번역어 추출 동작에 사용할 수 있다. 또한, 이 경우에, 단계 (146)에서 하나 이상의 번역어가 추출된다면, 번역어는 논리곱(logical product)의 형태로 출력되는 것이 바람직하다.
또한, 유사어 추출기 시스템(1300)과 상이한 것은 특징 벡터 테이블(160)이 소정의 목적 언어(TL; target language) 단어 집합(350), 및 TL 문서 데이터베이스 (333)로부터 작성되는 TL 인덱스 파일(335)로부터 작성되는 것이다. 도 6의 TL 문서 데이터베이스(333)는 도 1의 문서 데이터베이스(33)에 동일한 것이 바람직하다. 그러나, TL 문서 데이터베이스(333)가 도 1의 문서 데이터베이스(33)에 상이할 수도 있지만, 만일 상이하면, 두 개의 데이터베이스(333 및 33)는 동일한 언어 및 동일한 필드의 것이어야 한다.
SL 문서 데이터베이스(233)와 TL 문서 데이터베이스(333)는 서로의 번역어이어야 한다. 하나의 문서 데이터베이스의 번역어 버전을 취득할 수 없다면, 하나의 문서 데이터베이스(233 또는 333)는 또 다른 문서 데이터베이스(333 또는 233)의 기계 번역을 통하여 각각 취득할 수 있다.
도 7은 번역어 추출기 시스템(1300a)에서 번역어 추출기(130)에 관련하여 실행되는 언어간의 검색을 위한 질의 확장기로서 동작하는 프로그램(31b)의 플로우 차트이다. 질의 확장기 프로그램(31b)은 질의의 수신에 응답하여 실행된다. 도 7의 단계(122)에서 프로세서(20)는 소정의 질의를 곱의 합(sum of product) 형태로 변환한다. 단계(124)는 합에서 각각의 곱을 추출기(130)에 인가하여 결과(이 경우에는 번역어)를 취득한다. 이어서 단계(126)에서는 결과의 논리합을 문서 검색기(36)에 인가한다.
이러한 방법으로, 질의 확장기(31b)는 질의에 사용된 언어(즉, 원시 언어)와는 상이한 언어(즉, 목적 언어)를 지원하는 문서 데이터베이스/검색 엔진(32)에 적응된다. 질의 확장기(31a 및 31b)는 서로 바꾸어서 사용될 수 있고, 단일 언어 검색에서의 질의 확장 및 언어간 검색에 대한 질의 확장 모두에 사용될 수 있는 것을 주목해야 한다. 단계(122)에서 소정의 질의는 곱의 합 형태로 변환되지만, 소정의 질의는 있는 그대로 질의 확장기(130)에 인가될 수도 있다.
도 6에서 알 수 있는 바와 같이, 클라이언트(14) 측의 사용자가 영어로 ("information retrieval"or"information extraction")에 해당하는 일본어 (情報檢索or情報抽出)을 입력하면, 번역어 추출기 시스템(1300a)의 추출기(130)는 질의어 "情報檢索"에 대한 번역어 "information"과 "retrieval"을 제공하고, 또한 질의어 "情報抽出"에 대한 번역어 "information"과 "extraction"을 제공한다. 질의어에 대하여 하나 이상의 번역어가 추출되면, 번역어 추출기 시스템(1300a)의 추출기(130)는 상기와 같이 논리곱 형태의 번역어를 출력한다. 따라서, 검색 조건,
「(informationandretrieval)or(informationandextraction)」이 문서 검색기(36)에 인가된다.
도 6에서 알 수 있는 바와 같이, 특징 벡터 테이블(160)과 SL 인덱스 파일 (235)이 작성되면, SL 및 TL 데이터베이스(233 및 333), TL 단어 집합(350) 및 TL 인덱스 파일(335)은 더 이상 필요하지 않다. 하나의 언어의 문서 데이터베이스를 기계 번역함으로써 각종 언어에 대한 특징 벡터 테이블(160)을 구성하면, 질의 확장기는 다언어의 문서 검색에 적응된다.
문자열 분할기
도 8은 본 발명에 의한 문자열 분할기(200)의 동작예를 나타내는 플로우 차트이다. 문자열 분할기(200)가 질의어, 즉, 문자열(예로서, s가 문자의 수인 경우, L1L2L3.....Ls)을 수신하면, 단계(202)에서는 검색식,
(L1andL2andL3.....andLs)notL1L2L3.....Ls 를 형성한다.
도 9는 "autonomous mobile robot"를 의미하는 일본어 용어인 문자열 "自律移動ロボット"에 대한 검색식에 대한 예를 나타낸다.
단계(204)에서는 단계(136)에 기재된 바와 같이 검색식을 만족시키는 문서를 검색하고 통계 정보를 취득한다. 단계(206)에서는 검색식에 대한 특징 벡터("마스크 특징 벡터"라고 함)를 작성한다. 검색식을 만족시키는 문서 집합은 문자열 중의 어느 문자든지 포함하고 문자열 그 자체는 포함하지 않는 문서 집합이다. 예로서, "自律的に移動するロボット"라는 표현만을 포함하는 문서가 선택되지만, "自律移動ロボットについで"라는 표현만을 포함하는 문서는 선택되지 않는다.
단계(208)에서는 분할점을 하나씩 이동하여 문자열을 2개의 부분으로 분할하여 s-1개 세트의 분할된 문자열을 취득한다. 분할은, 분할된 문자열을 생성하는가 하는 언어 형태소(形態素; morpheme) 분석에 의하여 실행될 수도 있다. 도 10은 문자열 "自律移動ロボット"에 대한 7세트의 분할된 문자열을 나타낸다. 각각의 세트의 각각 분할된 문자열에 대하여, 단계(210)에서는 특징 벡터를 계산한다. 예로서, 분할된 문자열 세트(自, 律移動ロボット)에 대하여, 단계(210)에서는 문자열 "自"에 대한 특징 벡터와, 문자열 "律移動ロボット"에 대한 특징 벡터를 계산한다. 문자열 "自"에 대한 특징 벡터는 문자열 "自"를 포함하는 문서 집합에 대한 차원에 대응하는 원소가 정의 값을 갖는다. 예로서, "自由の追求"만을 포함하는 문서에 대해서 문자열 "自"에 대한 특징 벡터는 차원이 정의 값을 갖는다.
이어서, 단계(212)는 단계(206)에서 취득되는 마스크 특징 벡터로써 각각의 계산된 특징 벡터를 마스킹하고, 마스킹된 벡터를 길이가 1이 되도록 정규화한다. 특징 벡터를 마스크 특징 벡터로써 마스킹하는 것은, 정의 값을 갖는 특징 벡터의 원소에 대응하는 특징 벡터의 원소를 있는 그대로 유지하고, 또한 특징 벡터의 나머지 원소는 0으로 하는 것을 의미한다. 도 11은 단계(212)의 처리예를 나타내는 도면이다. 도 11에서, 문자열 세트 (自, 律移動ロボット)에 대한 특징 벡터는 마스크 특징 벡터로써 마스킹되어 있다. 도면에서, 0의 값을 갖는 원소 또는 차원은 "0"으로 표시되고, 정의 값을 갖는 원소 또는 차원은 "x"로 표시되어 있다. 본 예의 결과적인 특징 벡터에서, "自由の追求"만을 포함하는 문서, "自律移動ロボット"만을 포함하는 문서 등에 대한 차원은 0의 값을 가지며, 문자열 "自"와 "律移動ロボット" 모두가 서로 연속되지 않고 독립적으로 출현하는 문서에 대한 차원만은 정의 값을 갖는다.
단계(214)에서는 문자열 세트의 특징 벡터의 내적치를 계산함으로써 각각의 세트에 대한 유사도를 검색한다. 도 12는 분할된 문자열 세트, 각각의 유사도, 및 0.35의 한계치로써 판단한 각각의 분할 적정도를 나타내는 도면이다. 본 발명에 따라서, 문자열 세트의 분할된 문자열이 통상적으로 문서에서 더욱 빈번하게 출현하면, 문자열 세트의 분할된 문자열 사이의 유사도는 더 커진다. 문자열을 있는 그대로 포함하는 문서 집합은 단계(203 및 212)에서 제외되므로. 분할된 문자열의 빈번하고 독립적인 출현은 유사도를 더욱 크게 한다. 독립적으로 출현하는 문자열은 자체적으로 뜻이 통하는 것으로 간주된다.
단계(216)에서는 유사도가 한계치에 동일하거나 또는 그 이상인, 문자열의 분할된 문자열을 출력한다. 도 12의 예에서, 한계치는 0.35에 설정되어 있기 때문에, 분할된 문자열 세트 중 2개, 즉, (自律, 移動ロボット)와 (自律移動, ロボット)가 양호한 분할 적정도의 것으로 판단됨에 따라서 출력된다.
상기와 같이, 본 발명에 의한 문자열 분할기(200)는 소정의 문자열에 대하여 모든 가능한 분할을 시도하여 충분한 분할 적정도를 갖는 2등분된 문자열을 작성한다.
도 5 및 도 7의 "A"로 표지된 점이 있는 통로에서, 문자열 분할기(200)가 이용된다. 도 5에서, 예로서, 용어가 단어 집합(150)에서 검색되지 않으면, 문자열 분할기(200)를 사용함으로써 용어로부터 2등분된 문자열이 취득되어 용어 대신에 사용된다.
변형 검색기
도 13은 본 발명에 의한 변형 검색기(300)의 동작예를 나타내는 플로우 차트이다. 도 13에서, 단계(302)에서는 도 3의 번역어 추출기(130)에 제1언어 인덱스 파일과 제2언어 특징 벡터 테이블(160a)을 부가한다. 단계(304)에서는 번역어 추출기(130)를 사용하여 입력된 제1언어 질의어의 제2언어 번역어(들)을 검색한다. 입력 제1언어 질의어가, 예로서, 영어 단어로 "Greek"에 해당하는 일본어 용어인, "ギリシャ"이면, 제2언어(말하자면, 영어) 번역어인 "GREECE"가 번역어로서 입력되는 것으로 가정한다.
이어서, 단계(306)에서는 번역어 추출기(130)에서 제1언어 인덱스 파일과 제2언어 특징 벡터 테이블을 각각 제2언어 인덱스 파일과 제1언어 특징 벡터 테이블로 대체한다. 단계(308)에서는 번역어 추출기(130)를 사용하여 각각의 제2언어 번역어(들)의 제1언어 번역어(들)을 검색한다. 이 단계에서, 입력 용어 "GREECE"는 3가지의 번역어, "ギリシャ", "ギリシヤ", "ギリシア"를 출력하게 한다. 이 경우에, 입력 용어 "ギリシャ"에 대하여 이 들 3개의 변형이 취득된다.
단어가 변형(들)을 가지면, 문서에서 하나의 동일한 표현이 통상적으로 사용된다. 단일 문서에서는 변형이 거의 사용되지 않으므로, 변형이 서로 밀접하게 비슷하더라도, 유사어 추출기(130)는 이러한 변형을 통상적으로 추출할 수 없다.
본 발명의 변형 검색기(300)에 의해서, 입력 용어의 제2언어 번역어에 동등한 제2언어 번역어의 문자열이 입력 용어의 변형으로써 취득된다. 환언하면, 단어가 하나 이상의 제1언어의 변형을 갖고 있고, 제2언어는 이 단어에 대응하는 하나의 표현 만을 갖고 있는 경우에, 이러한 단어 그룹의 일부에 대해서, 변형 검색기 (300)를 사용함으로써 나머지 변형(들)을 취득할 수 있다.
도 5 및 도 7의 "A"로 표지된 점이 있는 통로에서, 변형 검색기(300)가 이용된다. 상세하게는, 입력된 질의는, 변형(들)을 갖기 쉬운 일본어 "카타카나" 문자로 기록된 단어에 대해서 검색된다. 각각의 검색된 단어에 대해서, 변형 검색기 (300)를 사용함으로써 변형(들)을 검색하고, 검색된 변형(들)과 원시 단어의 논리합이 원시 단어 대신에 사용된다. 이렇게 함으로써 질의의 추가 확장이 가능하게되어, 효과적으로 문서를 검색할 수 있게 된다.
본 출원에서 언급한 특허 문서를 포함하는, 발표된 모든 논문과 참조 문헌은 충분한 설명을 위하여 여기에 참조로서 포함된다.
본 발명의 개념과 범위를 벗어남이 없이 본 발명의 많은 폭 넓게 상이한 실시예가 구성될 수 있다. 본 발명은, 첨부된 청구 범위에 정의된 것을 제외하고, 본 명세서에 기재된 특정 실시예에 한정되지 않는 다는 것을 이해하여야 한다.
문서 데이터베이스의 각각의 단어에 대한 제1특징 벡터를 포함하는 특징 벡터 테이블을 구성하고, 소정의 질의에 대하여 문서 데이터베이스의 검색을 통하여 통계 정보를 취득하고, 통계 정보로부터, 소정의 질의에 대한 제2특징 벡터를 계산하고, 제2특징 벡터와, 각각의 제1특징 벡터와의 사이의 유사도를 계산하고, 또한 소정의 값보다 높은 유사도를 생성하는 단어를 선택함으로써, 유사어의 출현 패턴이 소정의 질의의 출현 패턴에 유사한 유사어를 문서 데이터베이스로부터 추출할 수 있게 되어, 소정의 문서 데이터베이스로부터, 아직 널리 허용되지 않은 소정의 질의어에 대한 유사어를 추출할 수 있는 유사어 추출기가 구성될 수 있고, 이러한 유사어 추출기를 포함하는 질의 확장 기술, 및 다언어 문서 검색 시스템이 구성될 수 있다.

Claims (13)

  1. 유사어의 출현 패턴이 소정의 질의의 출현 패턴에 유사한, 소정의 질의에 대한 유사어를 문서 집합의 문서 데이터베이스로부터 추출하는 방법에 있어서, 상기 방법은
    상기 문서 데이터베이스의 각각의 단어에 대한 제1특징 벡터를 포함하는 특징 벡터 테이블을 구성하는 단계,
    상기 소정의 질의에 대하여 상기 문서 데이터베이스의 검색을 통하여 상기 소정의 질의에 대한 통계 정보를 취득하는 단계,
    상기 통계 정보로부터, 상기 소정의 질의에 대한 제2특징 벡터를 계산하는 단계,
    상기 제2특징 벡터와, 각각의 상기 제1특징 벡터와의 사이의 유사도를 계산하는 단계, 및
    소정의 값보다 높은 유사도를 생성하는 단어를 선택하는 단계를 포함하는 것을 특징으로 하는 유사어 추출 방법.
  2. 제1항에 있어서, 상기 특징 벡터 테이블을 구성하는 단계는
    상기 문서 데이터베이스로부터, 상기 문서 데이터베이스에서 사용되는 각각의 단어에 대한 통계 정보를 취득할 수 있도록 하는 인덱스 파일을 작성하는 단계, 및,
    상기 인덱스 파일로부터 각각의 제1특징 벡터를 계산하는 단계를 포함하며,
    상기 통계 정보를 취득하는 단계는
    상기 소정의 질의에 대하여 상기 인덱스 파일을 검색하는 단계를 포함하는 것을 특징으로 하는 유사어 추출 방법.
  3. 유사어의 출현 패턴이 소정의 문자열의 출현 패턴에 유사한, 소정의 문자열에 대한 유사어를 문서 집합의 문서 데이터베이스로부터 추출하는 방법에 있어서, 상기 방법은
    상기 문서 데이터베이스의 각각의 단어에 대한 제1특징 벡터를 포함하는 특징 벡터 테이블을 구성하는 단계,
    상기 소정의 문자열에 대하여 상기 문서 데이터베이스의 검색을 통하여 상기 소정의 문자열에 대한 통계 정보를 취득하는 단계,
    상기 통계 정보로부터, 상기 소정의 문자열에 대한 제2특징 벡터를 계산하는 단계,
    상기 제2특징 벡터와, 각각의 상기 제1특징 벡터와의 사이의 유사도를 계산하는 단계, 및
    소정의 값보다 높은 유사도를 생성하는 단어를 선택하는 단계를 포함하는 것을 특징으로 하는 유사어 추출 방법.
  4. 제1문서 데이터베이스와 검색기를 포함하는 문서 검색 시스템에서, 확장된 질의를 검색기에 제공하기 위해 소정의 질의를 확장하는 방법에 있어서, 상기 방법은
    유사어의 출현 패턴이 상기 소정의 질의 또는 상기 소정의 질의에서의 질의어의 출현 패턴에 유사한, 상기 소정의 질의 또는 상기 질의어의 유사어를 문서 집합의 제2문서 데이터베이스로부터 추출하는 단계, 및
    상기 소정의 질의 또는 상기 소정의 질의에 대한 상기 질의어의 상기 유사어를 사용하는 단계를 포함하며,
    상기 유사어를 추출하는 단계는
    상기 제2문서 데이터베이스의 각각의 단어에 대한 제1특징 벡터를 포함하는 특징 벡터 테이블을 구성하는 단계,
    상기 질의 또는 상기 질의어에 대한 상기 제2문서 데이터베이스의 검색을 통하여, 상기 질의 또는 상기 질의어에 대한 통계 정보를 취득하는 단계,
    상기 통계 정보로부터 상기 질의 또는 상기 질의어에 대한 제2특징 벡터를 계산하는 단계,
    상기 제2특징 벡터와 각각의 상기 제1특징 벡터와의 사이의 유사도를 계산하는 단계, 및
    소정의 값보다 높은 유사도를 생성하는 단어를 상기 유사어로서 선택하는 단계를 포함하는 것을 특징으로 하는 질의 확장 방법.
  5. 제4항에 있어서, 상기 제1문서 데이터베이스 및 상기 제2문서 데이터베이스는 동일한 것임을 특징으로 하는 질의 확장 방법.
  6. 원시 언어 문서 데이터베이스에서의 소정의 문자열의 출현 패턴이 목적 언어 문서 데이터베이스에서의 번역어의 출현 패턴과 동일하고, 상기 두 문서 데이터베이스 중 하나는 다른 하나의 번역어가 되는, 원시 언어로 된 소정의 문자열이면 어느 것이든지 수신하고 목적 언어의 번역어를 제공하는 방법에 있어서,
    상기 방법은
    상기 목적 언어 문서 데이터베이스의 각각의 단어에 대한 제1특징 벡터를 포함하는 특징 벡터 테이블을 구성하는 단계,
    상기 소정의 문자열에 대한 상기 원시 언어 문서 데이터베이스의 검색을 통하여, 상기 소정의 문자열에 대한 통계 정보를 취득하는 단계,
    상기 통계 정보로부터 상기 소정의 문자열에 대한 제2특징 벡터를 계산하는 단계,
    상기 제2특징 벡터와 각각의 상기 제1특징 벡터와의 사이의 유사도를 계산하는 단계, 및
    소정의 값보다 높은 유사도를 생성하는 목적 언어의 단어를 상기 번역어로서 선택하는 단계를 포함하는 것을 특징으로 하는 번역어 제공 방법.
  7. 제6항에 있어서, 상기 특징 벡터 테이블을 구성하는 단계는
    상기 목적 언어 문서 데이터베이스로부터, 상기 목적 언어 문서 데이터베이스에서 사용되는 각각의 단어에 대한 통계 정보를 취득할 수 있도록 하는 인덱스 파일을 작성하는 단계, 및
    상기 인덱스 파일로부터 각각의 제1특징 벡터를 계산하는 단계를 포함하며,
    상기 통계 정보를 취득하는 단계는
    상기 소정의 문자열에 대하여 상기 인덱스 파일을 검색하는 단계를 포함하는 것을 특징으로 하는 번역어 제공 방법.
  8. 제1문서 데이터베이스 및 검색기를 포함하는 문서 검색 시스템에서, 원시 언어 질의를 목적 언어 질의로 변환하여 검색기에 인가하는 질의 확장 방법에 있어서, 상기 방법은
    번역어의 출현 패턴이 각각의 질의어의 출현 패턴에 유사한, 상기 원시 언어 질의에서의 각 질의어의 번역어를 목적 언어 문서 집합의 제2문서 데이터베이스로부터 추출하는 단계, 및
    상기 원시 언어 질의에서의 각각의 질의어를, 상기 질의어의 상기 번역어로 대체하는 단계를 포함하며,
    상기 번역어를 추출하는 단계는
    상기 목적 언어 문서 데이터베이스의 각각의 단어에 대한 제1특징 벡터를 포함하는 특징 벡터 테이블을 구성하는 단계,
    상기 질의어에 대한 상기 원시 언어 문서 데이터베이스의 검색을 통하여, 상기 질의어에 대한 통계 정보를 취득하는 단계,
    상기 통계 정보로부터 상기 질의어에 대한 제2특징 벡터를 계산하는 단계,
    상기 제2특징 벡터와 각각의 상기 제1특징 벡터와의 사이의 유사도를 계산하는 단계, 및
    소정의 값보다 높은 유사도를 생성하는 목적 언어의 단어를 상기 번역어로서 선택하는 단계를 포함하는 것을 특징으로 하는 질의 확장 방법.
  9. 소정의 문자열을 수신하고, 충분한 분할 적정도로서 2등분된 문자열을 구성하는 방법에 있어서, 상기 방법은
    상기 문자열의 모든 문자를 포함하지만 상기 문자열 자체는 포함하지 않는 문서 집합을 검색하기 위한 검색식(檢索式)을 형성하는 단계,
    상기 검색식에 따라서 검색을 실행함으로써 통계 정보를 취득하는 단계,
    "마스크(mask) 특징 벡터"라고 하는, 상기 통계 정보로부터 상기 검색식에 대한 특징 벡터를 작성하는 단계,
    N이 상기 문자열에서의 문자의 수인 경우, 분할점(division point)을 하나씩 이동하여 상기 문자열을 2개의 소문자열로 분할하여, N-1개 세트의 2등분된 문자열을 취득하는 단계,
    각각의 상기 N-1개 세트의 각각의 상기 2등분된 문자열에 대한 특징 벡터를 계산하는 단계,
    각각의 상기 계산된 특징 벡터를 마스크 특징 벡터로써 마스킹하여, 마스킹된 계산된 특징 벡터를 정규화하는 단계,
    각각의 상기 N-1개 세트에 대한 상기 2등분된 문자열의 내적치로서 정의되는, 상기 N-1개 세트의 각각에 대한 유사도를 계산하는 단계, 및
    한계치보다 큰 유사도를 갖는 2등분된 문자열을 출력하는 단계를 포함하는 것을 특징으로 하는 문자열 수신 및 구성 방법.
  10. 제1언어 문서 데이터베이스의 상기 소정의 단어의 출현 패턴이 제2언어 문서 데이터베이스의 번역어의 출현 패턴과 동일하고, 또한 상기 두 문서 데이터베이스의 하나는 다른 하나의 번역어가 되는, 제1언어의 소정의 단어를 수신하고 제2언어의 번역어를 제공하는 번역 수단이
    상기 제2언어 문서 데이터베이스의 각각의 단어에 대한 제1특징 벡터를 포함하는 특징 벡터 테이블, 상기 질의어에 대한 상기 제1언어 문서 데이터베이스의 검색을 통하여, 상기 질의어에 대한 통계 정보를 취득하는 수단, 상기 통계 정보로부터 상기 질의어에 대한 제2특징 벡터를 계산하는 수단, 상기 제2특징 벡터와 각각의 상기 제1특징 벡터와의 사이의 유사도를 계산하는 수단, 및 소정의 값보다 높은 유사도를 생성하는 제2언어의 단어를 상기 번역어로서 선택하는 수단을 포함하고 있는 시스템에서,
    소정의 단어에 대하여, 소정의 단어를 포함하는 최소한 하나의 변형 (variant)을 검색하는 방법에 있어서, 상기 방법은
    상기 번역 수단을 사용하여 상기 소정의 단어에 대한 상기 번역어를 취득하는 단계,
    상기 특징 벡터를 상기 제1언어 문서 데이터베이스의 각각의 단어에 대한 제3특징 벡터를 포함하는 특징 벡터 테이블로서 대체하고, 상기 제1언어 문서 데이터베이스와 상기 제2언어 문서 데이터베이스를 서로 바꾸어서 상기 번역 수단을 재구성하는 단계, 및
    재구성된 번역 수단을 사용하여 상기 번역어의 각각에 대한 제2번역어를 상기의 최소한 하나의 변형으로서 취득하는 단계를 포함하는 것을 특징으로 하는 검색 방법.
  11. 유사어의 출현 패턴이 소정의 질의의 출현 패턴에 유사한, 소정의 질의에 대한 유사어를 문서 집합의 문서 데이터베이스로부터 추출하는 시스템에 있어서, 상기 시스템은,
    상기 문서 데이터베이스의 각각의 단어에 대한 제1특징 벡터를 포함하는 특징 벡터 테이블을 구성하는 수단,
    상기 소정의 질의에 대하여 상기 문서 데이터베이스의 검색을 통하여 상기 소정의 질의에 대한 통계 정보를 취득하는 수단,
    상기 통계 정보로부터, 상기 소정의 질의에 대한 제2특징 벡터를 계산하는 수단,
    상기 제2특징 벡터와, 각각의 상기 제1특징 벡터와의 사이의 유사도를 계산하는 수단, 및
    소정의 값보다 높은 유사도를 생성하는 단어를 선택하는 수단을 포함하는 것을 특징으로 하는 유사어 추출 시스템.
  12. 제1문서 데이터베이스와 검색기를 포함하는 문서 검색 시스템에서, 확장된 질의를 검색기에 제공하기 위해 소정의 질의를 확장하는 시스템에 있어서, 상기 시스템은
    유사어의 출현 패턴이 상기 소정의 질의 또는 상기 소정의 질의에서의 질의어의 출현 패턴에 유사한, 상기 소정의 질의 또는 상기 질의어의 유사어를 문서 집합의 제2문서 데이터베이스로부터 추출하는 수단, 및
    상기 소정의 질의 또는 상기 소정의 질의에 대한 상기 질의어의 상기 유사어를 사용하는 수단을 포함하며,
    상기 유사어를 추출하는 수단은
    상기 제2문서 데이터베이스의 각각의 단어에 대한 제1특징 벡터를 포함하는 특징 벡터 테이블을 구성하는 수단,
    상기 질의 또는 상기 질의어에 대한 상기 제2문서 데이터베이스의 검색을 통하여, 상기 질의 또는 상기 질의어에 대한 통계 정보를 취득하는 수단,
    상기 통계 정보로부터 상기 질의 또는 상기 질의어에 대한 제2특징 벡터를 계산하는 수단,
    상기 제2특징 벡터와 각각의 상기 제1특징 벡터와의 사이의 유사도를 계산하는 수단, 및
    소정의 값보다 높은 유사도를 생성하는 단어를 상기 유사어로서 선택하는 수단을 포함하는 것을 특징으로 하는 질의 확장 시스템.
  13. 제12항에 있어서, 상기 제1문서 데이터베이스 및 상기 제2문서 데이터베이스는 동일한 것을 특징으로 하는 질의 확장 시스템.
KR10-2000-0044283A 1999-07-30 2000-07-31 유사어 추출 및 문서 검색을 위한 방법 및 시스템 KR100408637B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP99-216617 1999-07-30
JP11216617A JP2001043236A (ja) 1999-07-30 1999-07-30 類似語抽出方法、文書検索方法及びこれらに用いる装置

Publications (2)

Publication Number Publication Date
KR20010067045A KR20010067045A (ko) 2001-07-12
KR100408637B1 true KR100408637B1 (ko) 2003-12-06

Family

ID=16691249

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2000-0044283A KR100408637B1 (ko) 1999-07-30 2000-07-31 유사어 추출 및 문서 검색을 위한 방법 및 시스템

Country Status (5)

Country Link
EP (1) EP1072982A3 (ko)
JP (1) JP2001043236A (ko)
KR (1) KR100408637B1 (ko)
CN (1) CN1282934A (ko)
TW (1) TW476034B (ko)

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100467104B1 (ko) * 2001-05-11 2005-01-24 김시환 정보 검색 시스템과 그 방법
CN1310172C (zh) * 2001-07-26 2007-04-11 国际商业机器公司 生成候补同义词的数据处理方法和系统
KR100685023B1 (ko) * 2001-11-13 2007-02-20 주식회사 포스코 유사성 판단을 위한 예제기반 검색 방법 및 검색 시스템
US6792037B2 (en) 2002-02-28 2004-09-14 Interdigital Technology Corporation Apparatus and method of searching for known sequences
JP2003288362A (ja) * 2002-03-27 2003-10-10 Seiko Epson Corp 特定要素ベクトル生成装置、文字列ベクトル生成装置、類似度算出装置、特定要素ベクトル生成プログラム、文字列ベクトル生成プログラム及び類似度算出プログラム、並びに特定要素ベクトル生成方法、文字列ベクトル生成方法及び類似度算出方法
JP4253483B2 (ja) * 2002-09-20 2009-04-15 株式会社リコー 異表記辞書作成装置および異表記辞書作成方法およびその方法をコンピュータに実行させるためのプログラム
US7165119B2 (en) 2003-10-14 2007-01-16 America Online, Inc. Search enhancement system and method having rankings, explicitly specified by the user, based upon applicability and validity of search parameters in regard to a subject matter
US7640232B2 (en) 2003-10-14 2009-12-29 Aol Llc Search enhancement system with information from a selected source
JP4428036B2 (ja) * 2003-12-02 2010-03-10 ソニー株式会社 情報処理装置および方法、プログラム、並びに、情報処理システムおよび方法
JP4622589B2 (ja) * 2005-03-08 2011-02-02 ソニー株式会社 情報処理装置および方法、プログラム、並びに記録媒体
US8600997B2 (en) 2005-09-30 2013-12-03 International Business Machines Corporation Method and framework to support indexing and searching taxonomies in large scale full text indexes
JP4995750B2 (ja) * 2008-02-06 2012-08-08 日本電信電話株式会社 Web検索装置、Web検索方法、プログラムおよび記録媒体
KR101126406B1 (ko) * 2008-11-27 2012-04-20 엔에이치엔(주) 유사어 결정 방법 및 시스템
US20100299132A1 (en) * 2009-05-22 2010-11-25 Microsoft Corporation Mining phrase pairs from an unstructured resource
AU2010284738B2 (en) * 2009-08-21 2013-09-19 Samsung Electronics Co., Ltd. Method and apparatus for providing contents via network, method and apparatus for receiving contents via network, and method and apparatus for backing up data via network, backup data providing device, and backup system
WO2011021909A2 (en) 2009-08-21 2011-02-24 Samsung Electronics Co., Ltd. Method and apparatus for providing contents via network, method and apparatus for receiving contents via network, and method and apparatus for backing up data via network, backup data providing device, and backup system
EP2423830A1 (de) * 2010-08-25 2012-02-29 Omikron Data Quality GmbH Verfahren zum Suchen in einer Vielzahl von Datensätzen und Suchmaschine
KR101272254B1 (ko) * 2011-08-31 2013-06-13 주식회사 다음커뮤니케이션 검색 서비스 제공 시스템 및 그의 동일의도 검색어 생성 방법
WO2013043146A1 (en) * 2011-09-19 2013-03-28 Cpa Global Patent Research Limited Searchable multi-language electronic patent document collection and techniques for searching the same
JP5611173B2 (ja) * 2011-11-10 2014-10-22 日本電信電話株式会社 単語属性推定装置及び方法及びプログラム
JP5697256B2 (ja) * 2011-11-24 2015-04-08 楽天株式会社 検索装置、検索方法、検索プログラム及び記録媒体
EP2693346A1 (en) * 2012-07-30 2014-02-05 ExB Asset Management GmbH Resource efficient document search
WO2014208427A1 (ja) * 2013-06-24 2014-12-31 日本電信電話株式会社 セキュリティ情報管理システム及びセキュリティ情報管理方法
US20170206202A1 (en) * 2014-07-23 2017-07-20 Hewlett Packard Enterprise Development Lp Proximity of data terms based on walsh-hadamard transforms
FR3040808B1 (fr) 2015-09-07 2022-07-15 Proxem Procede d'etablissement automatique de requetes inter-langues pour moteur de recherche
KR101753768B1 (ko) * 2015-10-01 2017-07-04 한국외국어대학교 연구산학협력단 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템
WO2017082875A1 (en) 2015-11-10 2017-05-18 Hewlett Packard Enterprise Development Lp Data allocation based on secure information retrieval
CN105868236A (zh) * 2015-12-09 2016-08-17 乐视网信息技术(北京)股份有限公司 一种同义词数据挖掘方法和系统
CN106294639B (zh) * 2016-08-01 2020-04-21 金陵科技学院 基于语义的跨语言专利新创性预判分析方法
US11080301B2 (en) 2016-09-28 2021-08-03 Hewlett Packard Enterprise Development Lp Storage allocation based on secure data comparisons via multiple intermediaries
JP7138410B2 (ja) * 2016-11-08 2022-09-16 株式会社Nttドコモ 拠点推定装置
KR102027471B1 (ko) * 2017-06-20 2019-10-01 라인 가부시키가이샤 소셜 네트워크 컨텐츠를 기반으로 단어 벡터화 기법을 이용하여 일상 언어로 확장하기 위한 방법 및 시스템
JP7016237B2 (ja) * 2017-10-18 2022-02-04 三菱重工業株式会社 情報検索装置、検索処理方法、およびプログラム
CN109165331A (zh) * 2018-08-20 2019-01-08 南京师范大学 一种英文地名的索引建立方法及其查询方法和装置
JP7388256B2 (ja) 2020-03-10 2023-11-29 富士通株式会社 情報処理装置及び情報処理方法
CN116431837B (zh) * 2023-06-13 2023-08-22 杭州欧若数网科技有限公司 基于大型语言模型和图网络模型的文档检索方法和装置

Also Published As

Publication number Publication date
EP1072982A3 (en) 2004-05-26
CN1282934A (zh) 2001-02-07
TW476034B (en) 2002-02-11
EP1072982A2 (en) 2001-01-31
KR20010067045A (ko) 2001-07-12
JP2001043236A (ja) 2001-02-16

Similar Documents

Publication Publication Date Title
KR100408637B1 (ko) 유사어 추출 및 문서 검색을 위한 방법 및 시스템
US6654717B2 (en) Multi-language document search and retrieval system
JP4544674B2 (ja) 選択文字列に関連する情報を提供するシステム
US20050203900A1 (en) Associative retrieval system and associative retrieval method
US8280721B2 (en) Efficiently representing word sense probabilities
KR20010071841A (ko) 데이터의 검색을 위한 서치 시스템 및 방법
KR20010004404A (ko) 키팩트기반 텍스트 검색시스템과, 이를 이용한 키팩트기반 텍스트 색인방법 및 검색방법
JPH1125129A (ja) テキスト・データベース内の情報の検索方法
Capstick et al. A system for supporting cross-lingual information retrieval
KR20020058639A (ko) 엑스엠엘 문서 검색 시스템 및 그 방법
US20060259510A1 (en) Method for detecting and fulfilling an information need corresponding to simple queries
US8229970B2 (en) Efficient storage and retrieval of posting lists
Chien et al. Internet Chinese information retrieval using unconstrained mandarin speech queries based on a client-server architecture and a PAT-tree-based language model
JP5186165B2 (ja) 組織名抽出装置、方法及びプログラム
JP3249743B2 (ja) 文書検索システム
KR20020054254A (ko) 사전구조를 이용한 한국어 형태소 분석방법
KR100374114B1 (ko) 에이치티엠엘 기반 한글 용어/약어 하이퍼링크 생성기
Kanlayanawat et al. Automatic indexing for Thai text with unknown words using trie structure
Chien et al. Incremental extraction of domain-specific terms from online text resources
Chow et al. Hybrid term indexing for weighted Boolean and vector space models
JP2002032411A (ja) 関連文書検索方法および装置
Wang et al. Toward Web mining of cross-language query translations in digital libraries
JP2654533B2 (ja) データベース日本語表記候補生成方式
JP4262529B2 (ja) 全文検索装置、方法、プログラム及び記録媒体
JPH03229367A (ja) テキストベース検索方式

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee