KR100572797B1 - 데이터베이스 검색 방법, 데이터베이스 검색 시스템 및 컴퓨터 판독 가능 기록 매체 - Google Patents
데이터베이스 검색 방법, 데이터베이스 검색 시스템 및 컴퓨터 판독 가능 기록 매체 Download PDFInfo
- Publication number
- KR100572797B1 KR100572797B1 KR1020047011829A KR20047011829A KR100572797B1 KR 100572797 B1 KR100572797 B1 KR 100572797B1 KR 1020047011829 A KR1020047011829 A KR 1020047011829A KR 20047011829 A KR20047011829 A KR 20047011829A KR 100572797 B1 KR100572797 B1 KR 100572797B1
- Authority
- KR
- South Korea
- Prior art keywords
- language
- search
- keyword
- languages
- document
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3337—Translation of the query language, e.g. Chinese to English
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/319—Inverted lists
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99934—Query formulation, input preparation, or translation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99942—Manipulating data structure, e.g. compression, compaction, compilation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99943—Generating database or data structure, e.g. via user interface
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99944—Object-oriented database structure
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99944—Object-oriented database structure
- Y10S707/99945—Object-oriented database structure processing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
본 발명에 따른 양방향 역색인 수단을 포함하는 검색 엔진을 사용하면 검색 시간을 단축시킬 수 있는데, 이 검색 엔진은 다수의 언어들 중 하나의 언어로 된 키워드 검색에 의해 액세스될 수 있고, 이러한 언어 전체에 포함되는 문서의 리스트를 제공한다. 모든 지원되는 언어로 이루어진 키워드는 키워드를 포함하는 언어들로 이루어진 문서에 대해 교차 참조되는 역색인 룩업 테이블(inverted index lookup table) 내에 저장되는 것이 바람직하다. 서로 다른 언어로 이루어지고, 동일한 의미를 갖는 키워드들은 이들 언어 중 하나의 언어로 된 키워드가 질의되었을 때 모두 액세스될 수 있다. 룩업 테이블을 포함하는 검색 엔진은 사용자의 결정에 따라서 선택 언어인 제 2의 언어 또는 모든 지원되는 언어로 이루어진 적절한 문서를 식별할 수 있다. 각 문서에 대한 정보는 문서의 식별 정보뿐만 아니라 키워드의 빈도수 및 키워드의 근접도 등과 같이 문서의 등급을 설정하는 데 사용되는 정보를 포함할 수 있다.
Description
관련 특허
본원에 대응하는 미국 특허 출원은 2002년 2월 1일에 미국 출원된 "Method and System for Searching a Multi-lingual Database"라는 제목의 미국 특허 출원 제 10/066,346 호의 부분 계속 출원이다.
기술 분야
본 발명은 사용자에 의해 입력된 키워드 검색어를 사용하는 데이터베이스 검색 분야에 관한 것이다. 보다 구체적으로, 본 발명은 서로 다른 언어로 이루어진 문서를 포함하는 데이터베이스를 검색하기 위한 시스템 및 방법에 관한 것으로, 여기에서 검색어는 데이터베이스 언어들 중 하나의 언어로 입력되고, 다른 언어로 이루어진 적용 가능한 데이터베이스 문서를 식별한다.
다수의 언어로 이루어진 자료를 포함하는 데이터베이스를 검색하기 위한 여 러 접근법이 제안되어 왔다. 하나의 접근법은 전체 데이터베이스를 검색어가 입력된 언어로 번역하거나 사용자의 언어로 번역하는 것이다. 그러나, 이 경우에 상당한 크기의 데이터베이스에 대한 다량의 번역을 포함할 수 있다(데이터베이스가 서로 다른 언어를 사용하는 사용자에 의해서 사용된다면 다중 번역이 포함됨). 또한, 문서를 번역하는 각각의 프로세스는 원래의 텍스트의 몇몇 의미를 손실(또는 왜곡)할 가능성이 있다.
다른 접근법은 상술된 함께 계류 중인 특허 출원에 개시된 바와 같이 동의어 또는 키워드 사전을 사용하는 것이다. 위 특허 출원에 개시된 시스템은, 양방향식(bi-directional)이고 제 1의 언어와 다른 언어 사이에서 키워드의 번역을 가능하게 하는 동의어 또는 키워드 사전을 포함한다. 해당 문서에 대한 번역된 단어 키워드는, 사용자의 결정에 따라서 제 2의 언어 또는 모든 언어 중 어느 하나의 선택된 언어로 검색하기 위해 사용되는 역색인(inverted index) 내에 저장된다. 이와 같이 다중 검색 또는 번역된 동의어 사전을 사용하면, 전체 문서를 번역할 필요가 없고, 전체 데이터베이스의 번역으로부터 발생될 수 있는 상술된 부정확성이 회피된다. 그러나, 이러한 검색을 수행하고 분석하기 위해서는 긴 시간이 소요될 것이며, 이는 사용자가 중요한 결과를 얻기 위해 검색을 대화식(interactively)으로 수정하는 것을 방해할 수 있다.
문서를 검색하고 목록을 작성하는 검색 툴을 형성하고 이용하는 방법은 유럽 특허 출원 번호 제 EP 0 964 344 A2 호에 개시되어 있다. 검색된 문서는 검색 키워드와 동등한 의미를 갖는 키워드를 포함하는데, 이 문서의 언어는 검색 키워드의 언어와는 상이하다. 색인은 키워드와 모든 문서의 다른 지원되는 언어로 번역된 키워드의 번역문을 포함하게 하여 생성된다. 키워드와 그 번역문은 키워드가 존재하는 문서에 할당된다. 문서의 집합체로부터 정보를 검색하기를 원하는 경우, 정보 검색 시스템을 이용하여 해당 문서의 언어 또는 다른 지원되는 언어로 된 질의어를 색인에 인가할 수 있다. 정보 검색 시스템은 색인에 이러한 질의어를 인가하고, 색인의 피처와 일치되는 것이 발견되면, 관련 문서 번호(들)를 반환시켜서 관심 대상이 되는 주제를 포함하고 있을 문서(들)를 식별한다. 이는 동일한 언어로 기록된 모든 문서를 검색하기 위한 쉽고 빠른 방법이다. 그러나, EP 0 964 344 A2에 개시된 검색 툴은 문서의 언어들을 구분하지 못한다는 것이 단점이다. 그러므로, 이러한 검색 툴은 하나 이상의 언어로 기록된 문서의 데이터베이스에 적합하도록 축소된 형태일 뿐이다.
인터넷에서 온라인으로 입수 가능한 PETERS C 등에 의한 "Multilingual access for information systems"라는 제목의 문헌(2001.09.16∼25, pp.1∼8, XP002255023 67th IFLA Council and General Conference Retrieved from the Internet : URL:http://citeseer.nj.nec.com/pertes01 multilingual.html(2003.09.19일 검색됨))에서 개시된 방법과의 연관 순서에 따라서 검색된 문서의 등급을 설정할 수 있다. 그러나, 이 방법은 상술된 EP 0 964 344 A2 에 개시된 방법의 단점을 제거하지 못한다.
문서를 검색하고 목록을 작성하는 검색 툴을 형성하고 이용하는 방법은 유럽 특허 출원 번호 제 EP 0 964 344 A2 호에 개시되어 있다. 검색된 문서는 검색 키워드와 동등한 의미를 갖는 키워드를 포함하는데, 이 문서의 언어는 검색 키워드의 언어와는 상이하다. 색인은 키워드와 모든 문서의 다른 지원되는 언어로 번역된 키워드의 번역문을 포함하게 하여 생성된다. 키워드와 그 번역문은 키워드가 존재하는 문서에 할당된다. 문서의 집합체로부터 정보를 검색하기를 원하는 경우, 정보 검색 시스템을 이용하여 해당 문서의 언어 또는 다른 지원되는 언어로 된 질의어를 색인에 인가할 수 있다. 정보 검색 시스템은 색인에 이러한 질의어를 인가하고, 색인의 피처와 일치되는 것이 발견되면, 관련 문서 번호(들)를 반환시켜서 관심 대상이 되는 주제를 포함하고 있을 문서(들)를 식별한다. 이는 동일한 언어로 기록된 모든 문서를 검색하기 위한 쉽고 빠른 방법이다. 그러나, EP 0 964 344 A2에 개시된 검색 툴은 문서의 언어들을 구분하지 못한다는 것이 단점이다. 그러므로, 이러한 검색 툴은 하나 이상의 언어로 기록된 문서의 데이터베이스에 적합하도록 축소된 형태일 뿐이다.
인터넷에서 온라인으로 입수 가능한 PETERS C 등에 의한 "Multilingual access for information systems"라는 제목의 문헌(2001.09.16∼25, pp.1∼8, XP002255023 67th IFLA Council and General Conference Retrieved from the Internet : URL:http://citeseer.nj.nec.com/pertes01 multilingual.html(2003.09.19일 검색됨))에서 개시된 방법과의 연관 순서에 따라서 검색된 문서의 등급을 설정할 수 있다. 그러나, 이 방법은 상술된 EP 0 964 344 A2 에 개시된 방법의 단점을 제거하지 못한다.
본 발명에 따라, 양방향 역색인 수단을 포함하는 검색 엔진을 사용하면 검색 시간을 단축시킬 수 있는데, 이 검색 엔진은 다수의 언어들 중 하나의 언어로 된 키워드 검색에 의해 액세스될 수 있고, 이러한 언어 전체에 포함되는 문서의 리스트를 제공한다. 모든 지원되는 언어로 이루어진 키워드는 키워드를 포함하는 언어들로 이루어진 문서에 대해 교차 참조되는 역색인 룩업 테이블(inverted index lookup table) 내에 저장되는 것이 바람직하다. 서로 다른 언어로 이루어지고, 동일한 의미를 갖는 키워드들은 언어들 중 하나의 언어로 된 키워드가 질의되었을 때 모두 액세스될 수 있다. 룩업 테이블을 포함하는 검색 엔진은 사용자에 의한 결정에 따라서 선택 언어인 제 2의 언어 또는 모든 지원되는 언어로 이루어진 적절한 문서를 식별할 수 있다. 각 문서에 대한 정보는 문서의 식별 정보뿐만 아니라 해당 문서 내에서 키워드가 나타난 회수 및 키워드의 다른 키워드에 대한 근접도 등과 같이 문서의 등급을 설정하는 데 사용되는 정보를 포함할 수 있다. 그러므로, 역색인 테이블을 사용하면 키워드를 번역하고, 문서 내에서 키워드를 식별하며, 검색 런타임(runtime) 동안에 등급 정보를 누적시킬 필요성이 제거되어 검색 시간이 단축되고, 문서의 전체 텍스트 번역으로부터 발생될 수 있는 부정확성이 회피된다.
그러므로, 본 발명의 목적은 다중 언어로 된 문서를 위한 개선된 검색 엔진을 제공하는 것이다.
본 발명의 다른 목적은 키워드의 번역 및 이들 키워드를 포함하는 문서를 찾는데 소요되는 런타임을 감소시키는 것이다.
본 발명의 또 다른 목적은 임의의 지원되는 언어로 된 키워드를 가지고 데이터베이스를 검색하여 해당 지원되는 언어 및 임의의 다른 지원되는 언어로 기록된 문서를 찾을 수 있게 하는 것이다.
따라서, 지금까지 설명된 몇몇 본 발명에 따른 목적 및 이점을 가지고 첨부된 도면과 함께 본 발명에 대한 이하의 설명을 고려하면, 당업자들에게 있어서 본 발명에 대한 다른 목적 및 이점은 명확할 것이다.
도 1은 문서가 2개의 서로 다른 언어로 존재하는 경우에 종래의 검색 기법에 대한 개략도,
도 2는 본 발명에 따른 개선된 다중 언어 문서 데이터베이스 색인 시스템 및 역색인 테이블에 대한 개략도,
도 3은 하나의 언어로 된 키워드와 다른 언어로 된 그에 대응되는 키워드를 연관시키고, 질의된 키워드를 포함하는 모든 언어로 된 문서를 식별하는 본 발명에 따른 색인 테이블을 도시하는 도면,
도 4는 동의어 테이블의 일부를 도시하는 도면,
도 5는 본 발명에 따른 다중 언어 데이터베이스 검색 시스템을 도시하는 도면,
도 6은 본 발명에서 구현된 검색 시스템에 검색 질의어를 입력하는 데 사용될 수 있는 컴퓨터 디스플레이 스크린의 일부를 도시하는 도면,
도 7은 본 발명을 실행하는 데 있어서 수행된 샘플 로직을 도시하는 흐름도.
삭제
도 1은 영어(제 1의 언어)로 이루어진 문서를 기호(102)로 나타내고, 자국 언어(national language : NL) 등의 제 2의 언어로 이루어진 문서를 기호(122)로 나타내는 종래의 검색 시스템을 도시한다. 각 문서의 세트는 별도로 유지되지만, 각각의 문서 세트는 키워드를 추출하고 색인을 생성하는 프로세스를 통해서 색인이 지정되는데, 이 프로세스는 영어 문서(102)에 대해서는 블록(104)으로 표시되고, 제 2의 언어로 된 문서(122)에 대해서는 블록(124)으로 표시되어 있다. 다음 단계는 각 문서 세트에 대해 역색인을 수행하는 것으로서, 영어에 대한 역색인은 블록(106)에 표시되고, 제 2의 언어에 대한 역색인은 블록(126)에 표시되어 있다. 다음에는, 데이터베이스 중 선택된 데이터베이스에 대해 포매팅되고 적용된 검색 또는 질의를 수행하는 단계로서, 영어 질의에 대해서는 블록(108)으로 나타내고 자국 언어 질의에 대해서는 블록(128)으로 나타내었다. 영어 질의에 대한 결과는 블록(110)에 표시되어 있고 자국 언어 질의에 대한 결과는 블록(130)에 표시되어 있다. 그러므로, 프로세스의 단계는 각 데이터베이스에 대해 별도로 수행되고, 블록(112)에서의 문서 색인 지정 단계와, 블록(114)에서의 역색인 생성 단계와, 블록(116)에서의 검색 수행 및 출력 공급 단계를 포함한다.
데이터베이스에 관계없이 이 단계들은 동일하고, 각 데이터베이스는 별도로 유지되며, 각 데이터베이스는 별도로 검색되어 별도의 결과를 생성한다. 임의의 개수를 갖는 별도의 데이터베이스에 대해서도 동일한 구조를 적용할 수 있기 때문에, 이 시스템은 원하는 개수의 언어를 지원하도록 확장될 수 있다. 그러나, 몇몇 기술 문서는 모국어(스페인어 등)로 작성되었음에도 다른 언어(예를 들면, 영어)에서 도입된 기술 용어를 사용할 수 있다. 이러한 시스템 내에서, 검색어에 대응되는 자국 언어에 대하여 자국 언어 데이터베이스를 검색하면, 검색어가 다른 언어로 된 문서 내에 포함되어 있을 경우 해당 검색어를 찾을 수 없을 것이다. 또한, 이러한 시스템 내에서, 자국 언어를 검색하게 되면, 다수의 서로 다른 언어로 이루어진 검색된 주제에 대해 다루는 문서를 찾아내지 못할 것이다.
도 2는 서로 다른 언어로 된 문서 내의 키워드를 도 3에 도시된 단일 확장형 키워드 색인 테이블 내에 통합시키는 시스템을 도시한다. 도 2에 도시된 바와 같이, 임의의 언어(즉, 영어)로 이루어진 데이터베이스(200) 내의 문서를 기호(202)로 표시하였다. 데이터베이스 내의 각 문서로부터의 키워드는 크롤러(crawler)(204)를 이용함으로써 오프-라인(off-line) 방식으로 식별되는데, 이 크롤러(204)는 문서 텍스트 내의 키워드를 식별하는 추출기(extractor)(206)를 위해서 문서를 스캐닝한다. 다음에 추출된 영문 키워드는 키워드 번역기(208)에 의해서 다른 지원되는 언어로 번역되어, 모든 지원되는 언어로 된 동의어를 갖는 키워드에 대한 확장된 역색인(210)이 생성된다. 키워드의 번역은 다른 자국 언어로 이루어지고 대응되는 의미를 갖는 키워드와 연관된 영문 키워드를 포함하여 도 3에 도시된 색인에 대한 동의어 리스트를 작성하는 키워드 사전(212)을 이용하여 달성되는 것이 바람직한데, 도 3은 다른 지원되는 언어로 이루어지고 대응되는 의미를 갖는 각각의 지원되는 언어 키워드 내의 각 키워드에 대해 효과적으로 목록을 작성한다. 또한 본 발명을 이용하기 위해서 정확하고 일정한 임의의 다른 시스템을 사 용할 수도 있지만, 다양한 언어를 다루기 위해서는, 유니코드 시스템(Unicode system)(UTF8)을 이용하여 각각의 키워드를 번역하도록 제안하였다. 키워드에 대한 조회 문서(interrogating documents)를 위한 하나의 언어로서 영어를 제시하였으나, 본 발명은 키워드에 있어서 영어로 된 조회 문서로 한정되지는 않는다. 임의의 지원되는 언어(En, NL1, ... NLi...NLn)를 사용하여 영어로 찾을 수 없는 문서 내의 키워드를 찾을 수 있다.
도 2에 도시된 확장된 색인 테이블(210)에 대한 보다 세부적인 도면을 도 3에 도시하였다. 도 2와 관련하여 설명된 방법을 이용하여 문서(D1∼Dn)에서 영문 키워드(K1∼Kn)를 추출한다. 모든 지원되는 언어로 이루어진 대응되는 키워드를 상술된 바와 같이 획득하고 각각의 영어 키워드(Ki)에 있어서 모든 지원되는 언어에 대한 동의어 키워드가 존재하게 한다. 도 3에 도시된 바와 같이, X는 하나 이상의 목록이 작성된 키워드가 나타나는 문서(D1∼Dn)를 표시한다. 그러므로, 도시된 바와 같이, 키워드(K1)는 문서(D1, Dj) 내에서 영어로 나타나고, 동의어를 갖는 키워드(K11, K12)는 문서들 내에서 언어(NL1, NL2)로 나타난다. 이와 유사하게, 동의어 키워드(Ki1, Ki2)는 문서(D2) 내에서 자국 언어(NL1, NL2)로 이용될 수 있지만 영어로는 이용될 수 없다. 동의어 키워드(Kn, Kn2)는 문서(Dj) 내에서 영어 및 자국 언어(NL2)로 이용될 수 있지만 자국 언어(NL1)로는 이용될 수 없다. X로 표시된 각각의 위치에 저장되는 것은, 문서 내에서 해당 단어가 나타나는 횟수, 문서 내에서 나타나는 다른 키워드에 대한 근접도, 키워드를 포함하는 문서의 타입( 즉, 기술 잡지 또는 광고지) 등과 같은 등급 인자에 대한 정보이다. 다음에 이 정보를 사용하여 검색에 의해 발견된 다른 문서에 대한 각 문서의 등급을 설정한다.
임의의 지원되는 언어로 된 키워드를 가지고 도 3의 테이블을 조회하면, 질의 내에서 해당 키워드에 대한 동의어를 갖는 키워드를 포함하는 임의의 언어로 된 문서가 식별되고, 그 문서의 등급 정보가 제공된다. 예를 들어, 질의가 키워드(Ki, Kn)를 포함한다고 가정하면, 문서(D2 내지 Dj 및 Dn)는 자신의 이용 가능한 언어로 식별될 수 있을 것이다. 따라서, 문서(D2)의 경우에, 이 문서는 영어 및 자국 언어(NL1, NL2)로 이용 가능한 것으로 식별되지만, 문서(Dj)는 자국 언어(NL1, NL2)로 이용 가능한 것으로 식별된다. 제목 또는 파일 번호를 이용하여 문서를 식별하는 것과 함께, 본 명세서에 참조 문서로 인용되고, 2002년 4월 10일에 본 특허와 동시에 미국 출원된 미국 특허 출원 제 10/120.071 호에 개시된 것과 같은 문서 등급 설정 알고리즘(document ranking algorithm)에 저장된 등급 인자에 대한 정보를 제공할 수 있다.
도 4는 도 3에 도시된 확장된 역색인을 생성하는 데 유용한 키워드 동의어 테이블(400)의 일부분을 나타낸다. 이 테이블은 복수의 열(columns)을 포함하는데, 각 열은 서로 다른 지원되는 언어와 연관된다. 도시된 바와 같이, 이들 지원되는 언어로 열(410)에는 영어, 열(420)에는 스페인어, 열(430)에는 프랑스어, 열(440)에는 이탈리아어가 있다. 추가적인 열(450)은, 물론, 영어와는 다른 타입의 문자를 갖는 독일어와 같은 몇몇 언어와, 해당 언어를 나타내기 위해서는 2바이트 문자 세트를 사용해야 하는 아예 상이한 기호를 갖는 일본어와 같은 몇몇 언어인 임의의 다른 지원되는 언어를 위해 제공된 것으로 도시되었다. 도 4의 행 내에 2개의 동의어 세트가 도시되어 있는데, 행(460) 내에는 영단어인 "network"와 연관되는 하나의 동의어 세트가 있고, 행(470) 내에는 영단어인 "processor"와 연관되는 하나의 동의어 세트가 있다. 실제적으로, 동의어 테이블(400)은 기호(490)에 의해서 도시된 바와 같이 원하는 만큼의 추가적인 열을 가질 수 있고(또는, 더 소수의 언어만이 지원된다면 더 소수의 열을 가질 수 있고, 지원되는 언어의 선택은 설계 선택 사항의 문제이지 본 발명의 특징에 해당되지는 않는다), 기호(480)에 의해 도시된 바와 같이 각각의 키워드마다 하나의 행을 가질 수 있다. 각 엔트리는 하나의 언어와 연관되므로, 임의의 단어를 해당 언어와 연관시키고, 원하는 경우에 네트워크를 의미하는 스페인어 단어 "red"와 적색을 의미하는 영어 단어 "red"를 구분할 수 있다는 것을 주지하는 것은 중요하다. 이 테이블은 동의어 테이블의 개념에 대한 이해를 위해서 각각 표 형태로 도시되었으나, 이 테이블은 종래의 데이터 처리 기법에 따른 저장 장치 내에서 그 외의 알려진 포맷으로도 존재할 수 있다.
도 5는 본 발명에서 구현된 검색 시스템을 나타낸다. 임의의 지원되는 언어로 된 질의(510)는 검색 엔진(520)에 입력되고 도 2 및 도 3과 관련하여 설명된 확장된 키워드 역색인(210)으로 전달된다. 역색인(210)은 복수의 언어를 지원하고, 임의의 지원되는 언어로 된 키워드 질의를 번역할 수 있다. 영문으로 된 질의의 경우에, 해당 언어로 된 키워드(5301)와 다른 지원되는 언어로 된 키워드(5302∼ 530n)의 리스트를 이용하여 역색인(210)에 질의를 입력한다. 이는 영문 히트 리스트(English-language hit list)(5401) 및 자국 언어 히트 리스트(5402∼540n)를 생성한다. 다음에, 사용자는 사용자의 관심 대상인 임의의 언어로 된 결과(5401∼540n)를 선택할 수 있다. 사용자는 하나의 리스트(즉, 리스트(5402))를 선택하고, 그 리스트가 부적당한지 결정하며, 그 경우에 다른 선택을 시도할 수 있다. 사용자가 영어를 이해하는 데 무리가 있다면, 그는 임의의 다른 자국 언어(5402∼540n)로 된 결과를 검색하는 것을 선호할 것이다. 자국 언어로 된 결과(즉, 5401)로도 충분하지 않으면(또는 존재하지 않으면), 사용자는 영문으로 된 결과(5401)에 대한 검색을 진행할 수 있다. 이와 다르게, 사용자는 관심 대상인 결과가 대부분 영어로 된 결과(5401)라는 것을 인식하고 이들 결과를 가지고 검색을 시작할 수도 있다. 또 다르게, 사용자가 너무 많은 영어로 된 결과를 찾게 되어 자신의 모국어(550)로 된 보다 선택적인 리스트를 검토하도록 결정할 수도 있다. 자국 언어로 된 결과가 빈약하거나 이용할 수 없는 경우에, 검색 엔진은 다른 언어로 된 문서를 제공하여 선택된 리스트(560) 내에 열거된 검색 결과를 증가시키게 되는데, 여기에서 영어는 디폴트 리스트 언어(default listing language)가 되고, 영어로 이용될 수 없는 문서는 이용 가능한 언어로 제공된다. 사용자에게 등급 설정된 리스트(580)를 제공하기 위해서 선택된 리스트 내의 문서는 등급 설정 알고리즘(570)에 의해 분석된다.
도 6에 도시된 바와 같이, 본 발명의 시스템을 조회하는 컴퓨터 스크린은 키워드 질의(600)를 입력하기 위한 공간을 포함할 것이다. 검색 영역(search area)(602)은 검색의 범위를 나타내기 위한 것이다. 604로 표시된 부분은 검색되는 언어를 지정하기 위한 것이다. 606으로 표시된 부분은 질의어가 제공되는 언어를 표시하기 위한 것이고, 608로 표시된 공간은 등급 설정 리스트가 제공되는 언어를 나타내기 위해 사용되었다. 따라서, 도면 내의 "laptop" 및 "IBM"은 검토될 키워드이다. 검색 영역은 "Any Country"이다. 그러나, 원하는 경우, 검색은 말하자면 특정한 나라에 제한되거나, 예를 들면, 검색 영역이 국회 도서관으로 한정되거나 미국의 도서관으로 한정되는 것과 같이 특정한 문서 리포지터리(repositories)에 제한될 수도 있다. 검색이 수행되는 언어는 "All"로 기입되어 있다. 이는 도 3에 도시된 테이블 내에 포함된 모든 지원되는 언어를 검색하게 하여, 도 3과 관련하여 논의된 바와 같이 동일한 문서의 다수의 복제본이 테이블에서 판독되게 할 것이다. 606으로 표시된 공간은 검색 단어가 영어라는 사실을 나타낸다. 그러나, 임의의 다른 지원되는 언어를 사용할 수도 있다. 예를 들어, 독일어가 지원되는 언어라면 검색어(600)는 독일어 단어일 수 있고, 질의 언어는 독일어로 표시될 수 있다. 마지막으로, 질의 언어와는 상이한 언어로 결과를 제공할 수 있는데, 이 도면에서 도시된 바와 같이 검색어는 영어로 되어 있지만, 등급 설정된 문서는 해당 문서가 독일어로 이용 가능한 한도 내에서 독일어로 제공될 수 있다. 임의의 문서가 독일어로 이용될 수 없다면, 리스트에는 제 1 디폴트 언어로서 영어로 이용 가능한 소정 언어로 된 문서가 포함될 수 있다. 상술된 600 내지 608로 표시된 공간 을 이용하면 검색이 수행되고 결과가 제공되는 범위 및 언어를 제어할 수 있다.
다음으로 도 7을 참조하면, 단계(702, 704)에서, 사용자는 도 6의 600 내지 608로 표시된 공간에서 제시된 검색 정보를 입력하여 시스템을 조회한다. 다음으로, 단계(706)에서 입력된 질의 및 다른 정보를 사용하여 확장된 역색인 테이블을 조회한 다음, 테이블(210)로부터 문서 리스트를 획득한다. 다음에 단계(710)에서 검색자(searcher)는 자신이 선호하는 언어로 이루어진 등급 설정된 문서의 리스트를 제공받고, 단계(712)에서 결과가 만족스러운지 여부를 결정한다. 결과가 만족스럽다면, 프로세스는 종료된다. 그러나 검색자가 만족하지 못한다면, 그는 단계(702, 704)에서 공급된 데이터를 수정함으로써 단계(714)에서 자신의 검색 범위를 확장하거나 변경시킬 수 있다.
본 발명은, 복수의 인스트럭션을 포함하는 컴퓨터 프로그램 수단을 포함하여 저장된 프로그램을 갖는 범용 컴퓨터 등과 같은 데이터 처리 시스템에서 사용되기에 특히 적합하다는 것을 인식할 수 있을 것이다. 이러한 인스트럭션은 일반적으로 인간에 의해서 판독 가능한 상위 언어로 기록되고, 기계어, 즉 데이터 처리 시스템이 이해할 수 있는 단순한 인스트럭션으로 번역된다. 적절한 예에서, 이러한 인스트럭션은 원하는 경우에 기계어 프로그래밍 언어로 시스템에 직접 기록될 수 있는데, 이는 실행의 효율성을 제공하기는 하지만 프로그래밍하기가 더 어렵다. 본 발명은 임의의 특정한 입력된 언어에 한정되지 않는다. 2002년 4월 10일에 미국 출원된 본 발명과 함께 계류 중인 미국 특허 제 10/120,071 호는 본 발명을 이용하도록 적용될 수 있는 네트워크에 대해 개시한다. 상기 출원의 청구 대상은 본 명세서에 참조로 인용되어 있다. 본 발명의 소프트웨어는 서버에서 제공될 수 있으며, 도 6의 디스플레이 표시가 나타나는 컴퓨터를 이용하여 인터넷을 통해 액세스될 수 있다.
본 명세서에서 이용된 소프트웨어, 컴퓨터 프로그램 및 컴퓨터 프로그램 수단은 서로 바꿔서 이용될 수 있다. 이러한 문맥에서의 소프트웨어는 임의의 언어, 코드 또는 표기법을 의미하거나, 정보 처리 능력을 갖는 시스템이 직접 및/또는 간접적으로 특정한 기능, 즉 a) 다른 언어, 코드 또는 표기법으로의 변환 기능 및 b) 서로 다른 자료 형태로의 재생 기능을 수행하게 하도록 의도되는 인스트럭션의 세트를 의미한다. 서로 다른 언어를 처리하기 위해 유니코드 시스템을 이용하는 방법은 본 발명의 바람직한 실시예에 대한 설명 내에서 사용되었으나 원하는 경우에 본 발명을 효과적으로 이용하기 위해 서로 다른 언어를 나타내는 다른 적절한 방법을 사용할 수도 있다.
자국 언어(들)라는 용어를 사용하여 연관된 언어(들)를 나타내었다. 자국 언어는 시스템에 의해 지원되는 임의의 언어일 수 있고, 서로 다른 사용자에 대한 서로 다른 언어를 포함할 수 있다. 따라서, "자국 언어"는 멕시코인 또는 스페인인에게는 스페인어일 수 있고 프랑스 또는 프랑스어권 지역 출신인 사람에게는 프랑스어일 것이다. 키워드의 원문 정보를 제공하고, 고려 대상이 되는 문서를 설명하는 키워드에 대해 약간의 차이를 갖는 공통 텍스트를 분리해내는 시스템에서, 다양한 공통 언어에 대한 적절한 동의어 테이블을 입수할 수 있을 것이다. 이러한 키워드 원문 정보 제공 시스템은 때때로 기술적 내용에 관련되고, 고려 대상이 되 는 기술에 관련된 단어를 식별한다.
물론, 첨부된 도면 및 청구항과 함께 본 발명의 바람직한 실시예에 대한 상술된 설명을 고려하면, 당업자에게 있어서 본 발명에 대한 여러 수정이 명확할 것이다. 예를 들면 몇몇 경우에, 지원되는 언어를 조합하여 해당 문서를 기록할 수 있다. 추가하여, 본 발명의 몇몇 요소는 그에 대응되어 사용되는 다른 요소가 없어도 유용하게 사용될 수 있다. 예를 들면, 동의어 또는 키워드 사전을 이용하는 것은 키워드를 다른 언어로 번역하기 위한 유일한 수단은 아니다. 또한, 환경적 상황에 따라서 여러 다른 장치를 대체하는 것이 유리할 수 있다. 따라서, 바람직한 실시예에 관한 상술된 설명은 본 발명의 원리를 예시하는 것에 불과하고 본 발명의 범주를 제한하지 않는 것으로 간주되어야 한다.
Claims (14)
- 문서를 포함하는 데이터베이스를 검색하는 방법으로서,다른 지원 언어로 된 동의어(a synonymous meaning in other supported language)를 갖는 자신의 키워드와 관련된 각각의 문서에 대해 키워드 검색어를 식별하는 검색 툴(searching tool)을 생성하는 단계와,임의의 지원 언어로 된 키워드 검색어를 이용하여 검색 문서를 식별하고, 상기 검색 언어 및 상기 다른 지원 언어로 된 키워드 검색어에 응답하는 검색 엔진을 이용하여 상기 검색 툴을 조회하는 단계와,상기 검색어 및 관련 동의어에 기반하여 검색된 문서의 리스트를 제공하는 단계와,하나 이상의 언어로 기록된 문서를 처리하는 단계와,이중 색인(double index)을 가지고, 키워드가 문서에 대해 나열되어 있는 역색인 테이블(inverted index table)을 사용하는 단계-상기 키워드는 다중 언어 동의어의 블록 내에 나열되고, 제 1 색인 번호를 제공하여 제각기의 키워드에 대한 언어적 의미(semantic meaning)를 식별하며, 제 2 색인 번호를 제공하여 키워드의 언어를 식별함-와,다중 언어로 된 검색된 문서의 리스트를 출력하는 단계를 특징으로 하는 데이터베이스 검색 방법.
- 제 1 항에 있어서,상기 검색 툴 생성 단계는,추출기(extractor)를 사용하여 각 문서로부터 키워드를 추출하는 단계와,키워드 사전을 이용함으로써 상기 키워드를 상기 지원 언어들로 번역하는 단계와,각각의 상기 지원 언어로 된 각각의 상기 문서에 대한 키워드 리스트를 생성하는 단계와,각각의 지원 언어로 된 상기 키워드를 사용하여 상기 키워드를 포함하는 상기 문서의 역색인(inverted index)을 생성하는 단계를 포함하는 데이터베이스 검색 방법.
- 제 2 항에 있어서,상기 키워드를 이용하여 상기 역색인을 생성하는 단계는 유니코드 시스템(Unicode system)을 이용하여 지원 언어를 처리하는 단계를 포함하는 데이터베이스 검색 방법.
- 제 1 항에 있어서,상기 검색 툴 내의 등급 설정 정보(ranking information)에 기반하여 문서의 순차화된 리스트를 제공하는 단계를 더 포함하는 데이터베이스 검색 방법.
- 제 4 항에 있어서,상기 등급 설정 정보는 상기 역색인 내에 포함되는 데이터베이스 검색 방법.
- 제 1 항에 있어서,상기 키워드 검색어가 제공된 언어의 식별을 포함하는 질의(inquiry) 생성 단계를 더 포함하는 데이터베이스 검색 방법.
- 제 1 항에 있어서,상기 검색 결과를 다른 언어로 변환하는 단계를 포함하는 데이터베이스 검색 방법.
- 제 1 항에 있어서,상기 검색된 문서의 리스트를 제공하는 단계는, 검색자가 선택한 지원 언어로 된 문서가 존재할 때 해당 지원 언어로 된 문서 리스트를 제공하는 단계를 포함하는 데이터베이스 검색 방법.
- 입력 검색어에 기반하여 문서를 포함하는 데이터베이스를 검색하는 시스템으로서,다른 지원 언어로 된 동의어를 갖는 자신의 키워드와 관련된 각 문서에 대해 키워드 검색어를 식별하는 검색 툴을 생성하는 수단과,상기 검색 언어 및 다른 지원 언어로 된 키워드 검색어에 응답하여, 임의의 지원되는 언어로 된 키워드 검색어를 이용하여 검색 문서를 식별하는 상기 검색 툴에 조회하는 검색 엔진과,상기 검색어 및 관련된 동의어에 기반하여 검색된 문서의 리스트를 제공하는 수단과,하나 이상의 언어로 기록된 문서를 처리하는 수단과,이중 색인을 가지고, 키워드가 문서에 대해 나열되어 있는 역색인 테이블-상기 키워드는 다중 언어 동의어의 블록 내에 나열되고, 제 1 색인 번호를 제공하여 제각기의 키워드에 대한 시맨틱 의미를 식별하며, 제 2 색인 번호를 제공하여 키워드의 언어를 식별함-과,다중 언어로 된 검색된 문서의 리스트를 출력하는 수단을 포함하는 데이터베이스 검색 시스템.
- 제 9 항에 있어서,상기 리스트는 검색어를 제 1의 언어로부터 제 2의 언어로, 제 2의 언어로부터 제 1의 언어로 변환하는 데 이용될 수 있는 양방향 리스트(two-way list)인 데이터베이스 검색 시스템.
- 제 9 항에 있어서,상기 검색어의 변환에서 다수의 언어를 처리하기 위해 상기 유니코드 시스템을 이용하는 데이터베이스 검색 시스템.
- 입력 검색어에 기반하여 문서를 포함하는 데이터베이스를 검색하기 위한 컴퓨터 사용 가능 매체 상의 컴퓨터 판독 가능 기록 매체로서,다른 지원되는 언어로 된 동의어를 갖는 자신의 키워드와 관련된 각 문서에 대해 키워드 검색어를 식별하는 검색 툴을 생성하는 수단과,상기 검색 언어 및 다른 지원 언어로 된 키워드 검색어에 응답하여, 임의의 지원 언어로 된 키워드 검색어를 이용하여 검색 문서를 식별하는 상기 검색 툴에 조회하는 검색 엔진과,상기 검색어 및 관련 동의어에 기반하여 검색된 문서의 리스트를 제공하는 프로그래밍 수단과,하나 이상의 언어로 기록된 문서를 처리하는 수단과,이중 색인을 가지고, 키워드가 문서에 대해 나열되어 있는 프로그래밍된 역색인 테이블-상기 키워드는 다중 언어 동의어의 블록 내에 나열되고, 제 1 색인 번호를 제공하여 제각기의 키워드에 대한 시맨틱 의미를 식별하며, 제 2 색인 번호를 제공하여 키워드의 언어를 식별함-과,다중 언어로 된 검색된 문서의 리스트를 출력하는 수단을 포함하는 컴퓨터 판독 가능 기록 매체.
- 제 12 항에 있어서,상기 리스트는 검색어를 제 1의 언어로부터 제 2의 언어로, 제 2의 언어로부터 제 1의 언어로 변환하는 데 이용될 수 있는 양방향 리스트인 컴퓨터 판독 가능 기록 매체.
- 제 12 항에 있어서,상기 검색어의 변환에서 다수의 언어를 처리하기 위해 상기 유니코드 시스템을 이용하는 컴퓨터 판독 가능 기록 매체.
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/066,346 | 2002-02-01 | ||
US10/066,346 US6952691B2 (en) | 2002-02-01 | 2002-02-01 | Method and system for searching a multi-lingual database |
US10/180,195 US7260570B2 (en) | 2002-02-01 | 2002-06-26 | Retrieving matching documents by queries in any national language |
US10/180,195 | 2002-06-26 | ||
PCT/EP2003/000761 WO2003065248A2 (en) | 2002-02-01 | 2003-01-24 | Retrieving matching documents by queries in any national language |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20040077918A KR20040077918A (ko) | 2004-09-07 |
KR100572797B1 true KR100572797B1 (ko) | 2006-04-24 |
Family
ID=27667790
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020047011829A KR100572797B1 (ko) | 2002-02-01 | 2003-01-24 | 데이터베이스 검색 방법, 데이터베이스 검색 시스템 및 컴퓨터 판독 가능 기록 매체 |
Country Status (9)
Country | Link |
---|---|
US (1) | US7260570B2 (ko) |
EP (1) | EP1485830B1 (ko) |
JP (1) | JP4634715B2 (ko) |
KR (1) | KR100572797B1 (ko) |
CN (1) | CN100375090C (ko) |
AT (1) | ATE322045T1 (ko) |
CA (1) | CA2474814A1 (ko) |
DE (1) | DE60304331T2 (ko) |
WO (1) | WO2003065248A2 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101656357B1 (ko) | 2015-11-04 | 2016-09-09 | 국방과학연구소 | 데이터 표를 이용하여 공학용 데이터베이스를 구성하는 방법 |
Families Citing this family (69)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6952691B2 (en) * | 2002-02-01 | 2005-10-04 | International Business Machines Corporation | Method and system for searching a multi-lingual database |
US7039625B2 (en) * | 2002-11-22 | 2006-05-02 | International Business Machines Corporation | International information search and delivery system providing search results personalized to a particular natural language |
WO2004088479A2 (en) * | 2003-03-26 | 2004-10-14 | Victor Hsieh | Online intelligent multilingual comparison-shop agents for wireless networks |
US7483877B2 (en) * | 2003-04-11 | 2009-01-27 | International Business Machines Corporation | Dynamic comparison of search systems in a controlled environment |
JP2004355069A (ja) * | 2003-05-27 | 2004-12-16 | Sony Corp | 情報処理装置および方法、プログラム、並びに記録媒体 |
US7854009B2 (en) * | 2003-06-12 | 2010-12-14 | International Business Machines Corporation | Method of securing access to IP LANs |
US20050065774A1 (en) * | 2003-09-20 | 2005-03-24 | International Business Machines Corporation | Method of self enhancement of search results through analysis of system logs |
US8014997B2 (en) * | 2003-09-20 | 2011-09-06 | International Business Machines Corporation | Method of search content enhancement |
US20050138007A1 (en) * | 2003-12-22 | 2005-06-23 | International Business Machines Corporation | Document enhancement method |
US7716211B2 (en) * | 2004-02-10 | 2010-05-11 | Microsoft Corporation | System and method for facilitating full text searching utilizing inverted keyword indices |
DE202004005008U1 (de) * | 2004-03-30 | 2004-06-24 | E.I. Du Pont De Nemours And Company, Wilmington | Textiles Flächengebilde für Schutzbekleidung |
US7594277B2 (en) * | 2004-06-30 | 2009-09-22 | Microsoft Corporation | Method and system for detecting when an outgoing communication contains certain content |
US8473475B2 (en) | 2004-09-15 | 2013-06-25 | Samsung Electronics Co., Ltd. | Information storage medium for storing metadata supporting multiple languages, and systems and methods of processing metadata |
EP1825395A4 (en) * | 2004-10-25 | 2010-07-07 | Yuanhua Tang | FULL TEXT INTERROGATION AND RESEARCH SYSTEMS AND METHODS OF USE |
US20080077570A1 (en) * | 2004-10-25 | 2008-03-27 | Infovell, Inc. | Full Text Query and Search Systems and Method of Use |
US20070022134A1 (en) * | 2005-07-22 | 2007-01-25 | Microsoft Corporation | Cross-language related keyword suggestion |
US7672831B2 (en) * | 2005-10-24 | 2010-03-02 | Invention Machine Corporation | System and method for cross-language knowledge searching |
KR100643801B1 (ko) * | 2005-10-26 | 2006-11-10 | 엔에이치엔(주) | 복수의 언어를 연동하는 자동완성 추천어 제공 시스템 및방법 |
US7835903B2 (en) * | 2006-04-19 | 2010-11-16 | Google Inc. | Simplifying query terms with transliteration |
US8762358B2 (en) * | 2006-04-19 | 2014-06-24 | Google Inc. | Query language determination using query terms and interface language |
US8442965B2 (en) * | 2006-04-19 | 2013-05-14 | Google Inc. | Query language identification |
US8255376B2 (en) | 2006-04-19 | 2012-08-28 | Google Inc. | Augmenting queries with synonyms from synonyms map |
US8380488B1 (en) | 2006-04-19 | 2013-02-19 | Google Inc. | Identifying a property of a document |
US20070271231A1 (en) * | 2006-05-22 | 2007-11-22 | Jimmy Jong-Yuan Lin | Search method on the Internet |
CN100416570C (zh) * | 2006-09-22 | 2008-09-03 | 浙江大学 | 一种基于问答库的中文自然语言问答方法 |
WO2008086889A1 (de) * | 2007-01-16 | 2008-07-24 | Netbreeze Gmbh | Transkriptionsvorrichtung zur automatisierten transkription und transphrasierung sowie entsprechendes verfahren |
KR100893629B1 (ko) * | 2007-02-12 | 2009-04-20 | 주식회사 이지씨앤씨 | 전자교재 컨텐츠의 구문에 식별코드를 부여하는 시스템 및방법, 전자교재 컨텐츠의 데이터 검색 시스템 및 방법,전자교재 컨텐츠의 사용과 제공에 관한 포인트 관리 시스템및 방법 |
US8051061B2 (en) | 2007-07-20 | 2011-11-01 | Microsoft Corporation | Cross-lingual query suggestion |
US7917488B2 (en) * | 2008-03-03 | 2011-03-29 | Microsoft Corporation | Cross-lingual search re-ranking |
US8065739B1 (en) * | 2008-03-28 | 2011-11-22 | Symantec Corporation | Detecting policy violations in information content containing data in a character-based language |
US8171041B2 (en) * | 2008-05-15 | 2012-05-01 | Enpulz, L.L.C. | Support for international search terms |
US20110295857A1 (en) * | 2008-06-20 | 2011-12-01 | Ai Ti Aw | System and method for aligning and indexing multilingual documents |
US8782061B2 (en) | 2008-06-24 | 2014-07-15 | Microsoft Corporation | Scalable lookup-driven entity extraction from indexed document collections |
US8135580B1 (en) * | 2008-08-20 | 2012-03-13 | Amazon Technologies, Inc. | Multi-language relevance-based indexing and search |
JP5751537B2 (ja) * | 2008-09-17 | 2015-07-22 | 有限会社新英プラナーズ | 国際対応型日本語入力システム |
US20100145923A1 (en) * | 2008-12-04 | 2010-06-10 | Microsoft Corporation | Relaxed filter set |
US8666730B2 (en) | 2009-03-13 | 2014-03-04 | Invention Machine Corporation | Question-answering system and method based on semantic labeling of text documents and user questions |
US8572109B1 (en) | 2009-05-15 | 2013-10-29 | Google Inc. | Query translation quality confidence |
US8577909B1 (en) * | 2009-05-15 | 2013-11-05 | Google Inc. | Query translation using bilingual search refinements |
US8577910B1 (en) | 2009-05-15 | 2013-11-05 | Google Inc. | Selecting relevant languages for query translation |
US8538957B1 (en) | 2009-06-03 | 2013-09-17 | Google Inc. | Validating translations using visual similarity between visual media search results |
CN102053991B (zh) * | 2009-10-30 | 2014-07-02 | 国际商业机器公司 | 用于多语言文档检索的方法及系统 |
WO2011061556A1 (en) * | 2009-11-20 | 2011-05-26 | Kim Mo | Intelligent search system |
US8773706B2 (en) * | 2010-03-29 | 2014-07-08 | Konica Minolta Laboratory U.S.A., Inc. | Apparatus, systems, and methods for dynamic language customization |
CN101944108A (zh) * | 2010-09-07 | 2011-01-12 | 深圳市彩讯科技有限公司 | 一种索引文件及索引文件建立方法 |
US8862595B1 (en) * | 2010-11-23 | 2014-10-14 | Google Inc. | Language selection for information retrieval |
US8498972B2 (en) * | 2010-12-16 | 2013-07-30 | Sap Ag | String and sub-string searching using inverted indexes |
US8527518B2 (en) * | 2010-12-16 | 2013-09-03 | Sap Ag | Inverted indexes with multiple language support |
EP2702509A4 (en) * | 2011-04-28 | 2015-05-20 | Microsoft Technology Licensing Llc | SEARCH RESULTS FOR ALTERNATIVE MARKETS |
AU2012360732B2 (en) * | 2011-12-29 | 2018-02-01 | P2S Media Group Oy | Method and apparatus for providing metadata search codes to multimedia |
US20130332450A1 (en) * | 2012-06-11 | 2013-12-12 | International Business Machines Corporation | System and Method for Automatically Detecting and Interactively Displaying Information About Entities, Activities, and Events from Multiple-Modality Natural Language Sources |
CN103488648B (zh) * | 2012-06-13 | 2018-03-20 | 阿里巴巴集团控股有限公司 | 一种多语种混合检索方法和系统 |
CN104281583B (zh) * | 2013-07-02 | 2018-01-12 | 索意互动(北京)信息技术有限公司 | 信息检索方法及装置 |
CN104731828B (zh) | 2013-12-24 | 2017-12-05 | 华为技术有限公司 | 一种跨领域文档相似度计算方法及装置 |
CN103699675B (zh) * | 2013-12-30 | 2017-07-04 | 语联网(武汉)信息技术有限公司 | 一种译员分级索引的方法 |
US9524293B2 (en) * | 2014-08-15 | 2016-12-20 | Google Inc. | Techniques for automatically swapping languages and/or content for machine translation |
US9984110B2 (en) | 2014-08-21 | 2018-05-29 | Dropbox, Inc. | Multi-user search system with methodology for personalized search query autocomplete |
US9183303B1 (en) | 2015-01-30 | 2015-11-10 | Dropbox, Inc. | Personal content item searching system and method |
US9384226B1 (en) | 2015-01-30 | 2016-07-05 | Dropbox, Inc. | Personal content item searching system and method |
TWI712899B (zh) | 2015-07-28 | 2020-12-11 | 香港商阿里巴巴集團服務有限公司 | 資訊查詢方法及裝置 |
US9606990B2 (en) | 2015-08-04 | 2017-03-28 | International Business Machines Corporation | Cognitive system with ingestion of natural language documents with embedded code |
CN105404688A (zh) * | 2015-12-11 | 2016-03-16 | 北京奇虎科技有限公司 | 搜索方法和搜索设备 |
WO2017223133A1 (en) * | 2016-06-21 | 2017-12-28 | Pinho Fernando J | Indoor positioning and recording system |
US10824795B2 (en) | 2016-06-21 | 2020-11-03 | Fernando J. Pinho | Indoor positioning and recording system |
US10691734B2 (en) * | 2017-11-21 | 2020-06-23 | International Business Machines Corporation | Searching multilingual documents based on document structure extraction |
CN108345694B (zh) * | 2018-03-19 | 2021-09-03 | 华北电力大学(保定) | 一种基于主题数据库的文献检索方法及系统 |
US11392853B2 (en) * | 2019-02-27 | 2022-07-19 | Capital One Services, Llc | Methods and arrangements to adjust communications |
CN110347904A (zh) * | 2019-05-28 | 2019-10-18 | 成都美美臣科技有限公司 | 一个多语言电子商务网站处理语言搜索方法 |
CN112380410A (zh) * | 2020-11-10 | 2021-02-19 | 北京字节跳动网络技术有限公司 | 信息处理方法、装置和电子设备 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01181123A (ja) * | 1988-01-14 | 1989-07-19 | Hitachi Ltd | 情報検索装置 |
US6278967B1 (en) * | 1992-08-31 | 2001-08-21 | Logovista Corporation | Automated system for generating natural language translations that are domain-specific, grammar rule-based, and/or based on part-of-speech analysis |
JP2737662B2 (ja) * | 1994-08-29 | 1998-04-08 | 日本電気株式会社 | 外国語キーワード文献検索処理装置 |
US5799307A (en) * | 1995-10-06 | 1998-08-25 | Callware Technologies, Inc. | Rapid storage and recall of computer storable messages by utilizing the file structure of a computer's native operating system for message database organization |
US6055528A (en) * | 1997-07-25 | 2000-04-25 | Claritech Corporation | Method for cross-linguistic document retrieval |
US5991713A (en) * | 1997-11-26 | 1999-11-23 | International Business Machines Corp. | Efficient method for compressing, storing, searching and transmitting natural language text |
JP3181548B2 (ja) * | 1998-02-03 | 2001-07-03 | 富士通株式会社 | 情報検索装置及び情報検索方法 |
JP3601653B2 (ja) * | 1998-03-18 | 2004-12-15 | 富士通株式会社 | 情報検索装置および方法 |
GB2338089A (en) * | 1998-06-02 | 1999-12-08 | Sharp Kk | Indexing method |
US6275789B1 (en) * | 1998-12-18 | 2001-08-14 | Leo Moser | Method and apparatus for performing full bidirectional translation between a source language and a linked alternative language |
US6336117B1 (en) * | 1999-04-30 | 2002-01-01 | International Business Machines Corporation | Content-indexing search system and method providing search results consistent with content filtering and blocking policies implemented in a blocking engine |
CN1176432C (zh) | 1999-07-28 | 2004-11-17 | 国际商业机器公司 | 提供本国语言查询服务的方法和系统 |
US7027974B1 (en) * | 2000-10-27 | 2006-04-11 | Science Applications International Corporation | Ontology-based parser for natural language processing |
JP4194947B2 (ja) * | 2001-11-21 | 2008-12-10 | コンテクス:ディーディー・エルエルシー | デジタル権利管理データ辞書 |
-
2002
- 2002-06-26 US US10/180,195 patent/US7260570B2/en not_active Expired - Fee Related
-
2003
- 2003-01-24 AT AT03734691T patent/ATE322045T1/de not_active IP Right Cessation
- 2003-01-24 CA CA002474814A patent/CA2474814A1/en not_active Abandoned
- 2003-01-24 DE DE60304331T patent/DE60304331T2/de not_active Expired - Lifetime
- 2003-01-24 CN CNB038024179A patent/CN100375090C/zh not_active Expired - Lifetime
- 2003-01-24 KR KR1020047011829A patent/KR100572797B1/ko not_active IP Right Cessation
- 2003-01-24 JP JP2003564770A patent/JP4634715B2/ja not_active Expired - Fee Related
- 2003-01-24 WO PCT/EP2003/000761 patent/WO2003065248A2/en active IP Right Grant
- 2003-01-24 EP EP03734691A patent/EP1485830B1/en not_active Expired - Lifetime
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101656357B1 (ko) | 2015-11-04 | 2016-09-09 | 국방과학연구소 | 데이터 표를 이용하여 공학용 데이터베이스를 구성하는 방법 |
Also Published As
Publication number | Publication date |
---|---|
JP4634715B2 (ja) | 2011-02-16 |
WO2003065248A3 (en) | 2004-03-11 |
DE60304331D1 (de) | 2006-05-18 |
CA2474814A1 (en) | 2003-08-07 |
CN100375090C (zh) | 2008-03-12 |
DE60304331T2 (de) | 2006-11-09 |
WO2003065248A2 (en) | 2003-08-07 |
KR20040077918A (ko) | 2004-09-07 |
ATE322045T1 (de) | 2006-04-15 |
CN1620661A (zh) | 2005-05-25 |
US20030149687A1 (en) | 2003-08-07 |
US7260570B2 (en) | 2007-08-21 |
EP1485830A2 (en) | 2004-12-15 |
JP2005516306A (ja) | 2005-06-02 |
EP1485830B1 (en) | 2006-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100572797B1 (ko) | 데이터베이스 검색 방법, 데이터베이스 검색 시스템 및 컴퓨터 판독 가능 기록 매체 | |
US6662152B2 (en) | Information retrieval apparatus and information retrieval method | |
US6952691B2 (en) | Method and system for searching a multi-lingual database | |
EP1217535A2 (en) | Method and apparatus for generating normalized representations of strings | |
Capstick et al. | A system for supporting cross-lingual information retrieval | |
US20080162115A1 (en) | Computer program, apparatus, and method for searching translation memory and displaying search result | |
JP4254763B2 (ja) | 文書検索システム、文書検索方法及び文書検索プログラム | |
Hinze et al. | Improving access to large-scale digital libraries throughsemantic-enhanced search and disambiguation | |
JP2003150623A (ja) | 言語横断型特許文献検索方法 | |
JP2001184358A (ja) | カテゴリ因子による情報検索装置,情報検索方法およびそのプログラム記録媒体 | |
KR101037091B1 (ko) | 자동 언어 번역을 통한 다국어의 전거 표목에 대한 온톨로지 기반 의미 검색 시스템 및 방법 | |
KR20010107810A (ko) | 웹 검색시스템 및 그 방법 | |
Pantelia | ‘Noûs, INTO CHAOS’: THE CREATION OF THE THESAURUS OF THE GREEK LANGUAGE | |
Aksan et al. | The Turkish National Corpus (TNC): comparing the architectures of v1 and v2 | |
JP2005018146A (ja) | 各国法律/規格/基準の比較,検索,翻訳システム | |
Bryer et al. | Analysis of Clustering Algorithms to Clean and Normalize Early Modern European Book Titles | |
JPH02253474A (ja) | テキストベース検索方法 | |
Larouk | Retrieval textual Information on the web: Multilingual documentary information or linguistic Open Data | |
Mizera-Pietraszko | Model design of user interfaces for multilingual digital libraries | |
Golub | Subject access in online information services for humanities: the case of LGBTQI fiction: Invited speech | |
JPH0540783A (ja) | 自然言語解析装置 | |
JP2001337969A (ja) | 知識獲得方法、文書情報構造化方法および装置と前記方法を実施するプログラムを記録した記録媒体 | |
Wouda | Similarity between Index Expressions | |
IES20000407A2 (en) | A System and Method for Categorising and Retrieving Documents on a Network | |
JP2003196309A (ja) | 文書検索装置、文書検索方法およびその方法をコンピュータに実行させるプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
LAPS | Lapse due to unpaid annual fee |