KR101122942B1

KR101122942B1 - 단어-분해에 사용하기 위한 새로운 단어 수집 방법 및 시스템

Info

Publication number: KR101122942B1
Application number: KR1020050017754A
Authority: KR
Inventors: 가오루 오꾸무라
Original assignee: 마이크로소프트 코포레이션
Priority date: 2004-03-03
Filing date: 2005-03-03
Publication date: 2012-03-20
Also published as: US20050197829A1; CN1664818A; US7424421B2; KR20060043381A; JP2005251206A; CN1664818B

Abstract

교착어에 있어서, 사전에 추가할 새로운 단어를 수집하는 방법, 컴퓨터 판독가능 매체 및 시스템이 제공된다. 상기 방법에서, 검색 엔진에 제출된 질의의 로그가 획득된다. 질의의 로그는 소팅(sorting)되어 소팅된 질의를 획득한다. 소팅된 질의는 복수의 귀납적 기준을 사용하여 필터링되어, 새로운 단어의 후보 목록을 획득한다. 새로운 단어의 후보 목록으로부터의 단어는 사전에 추가된다.

교착어, 단어 수집, 검색 엔진, 질의 로그, 후보 목록

Description

단어-분해에 사용하기 위한 새로운 단어 수집 방법 및 시스템{NEW WORD COLLECTION AND SYSTEM FOR USE IN WORD-BREAKING}

도 1은 본 발명이 사용될 수 있는 한 예시적인 환경의 블록도.

도 2는 본 발명이 유용한 검색 엔진 인덱싱 시스템의 한 실시예를 도시하는 블록도.

도 3은 본 발명이 유용한 검색 엔진 시스템의 한 실시예를 도시하는 블록도.

도 4는 본 발명의 새로운 단어 수집 시스템 및 방법의 한 실시예를 도시하는 블록도.

도 5는 도 4에 도시된 귀납적 필터링 모듈(들)의 한 실시예를 도시하는 블록도.

<도면의 주요 부분에 대한 부호의 설명>

210 : 문자 스트링 추출 모듈

211 : 문자 스트링

215 : 문서 또는 사이트

220 : 단어-분해 모듈

221 : 키워드

225 : 사전 및/또는 맞춤 사전

230 : 문법

235 : 통계적 데이터

240 : 노이즈 단어 목록

250 : 인덱스

본 발명은 단어-분해에 관한 것이다. 특히, 본 발명은 단어-분해에 사용하기 위한 새로운 단어 수집 방법에 관한 것이다.

단어-분해는 텍스트 입력을 처리하는 자연 언어 프로세싱 어플리케이션의 중요한 구성요소이다. 특히, 단어-분해는 대부분의 검색 엔진에서 중요하다. 검색 엔진은 몇몇 목적으로 입력 스트링에 대해 단어-분해를 수행한다. 예를 들어, 단어-분해는 입력 스트링에 적용되어, 합성의 구성 단어를 결정한다.

단어-분해는 특히, 일본어, 중국어 및 한국어와 같은 교착어에서 중요하다. 교착어는 단어가 별개의 형태소의 순차적 순서로 구성되고, 각각의 의미 구성요소가 자신의 형태소에 의해 나타나는 언어이다. 교착어의 다른 예로는, 수메르어, 호우리트어(hourrite), 오랄토우어(ourartou), 바스크어(Basque) 및 터키어가 있다. 일반적으로, 교착어에서, 단어는 구성 단어를 분리하는 스페이스 없이 합성될 수 있다.

검색은 종종, 아직 사전에 있지 않고 맞춤 사전(custom lexicon)에 나타나지 않는 다양한 새로운 단어를 포함하는 것을 목표로 한다. 검색 엔진 질의의 입력 스트링 또는 인덱싱되고 검색되는 문서 내에 알려지지 않은 단어가 포함되면, 단어-분해자가 그 스트링을 적절히 단어-분해하는 것은 곤란하다. 이것은 특히, 단어가 스페이스로 분리되어 있지 않은 언어에서 그러하다. 이것은 검색 결과의 보다 더 낮은 정밀도/포괄성에 대한 잠재성을 제공한다.

단어-분해자에 의해 사용된 맞춤 사전을 위해 새로운 단어를 수집하는 것은 끝이 없는 일이다. 맞춤 사전을 위해 새로운 단어를 수집하기 위한 기존 기술은 시간 소모적이고 부담스러운 것이다. 일반적으로, 검색 사이트에 의해 사용된 맞춤 사전에 추가하기 위한 새로운 단어는, 검색 사이트 소유자에 의해 수동적으로 수집된다. 또한, 다음 제품 세대의 시스템 사전에 포함시키기 위한 새로운 단어가 개발자에 의해 수동적으로 수집된다. 이 새로운 단어 수집 기술의 시간 소모적이고 노동 집약적인 특성은 계속 요구된다.

교착어에 있어서, 사전에 추가하기 위한 새로운 단어를 수집하는 방법, 컴퓨터 판독가능 매체 및 시스템이 제공된다. 상기 방법에서, 검색 엔진에 제출된 질의의 로그가 획득된다. 질의의 로그는 소팅(sorting)되어 소팅된 질의를 획득한다. 소팅된 질의는 복수의 귀납적 기준을 사용하여 필터링되어, 새로운 단어의 후보 목록을 획득한다. 새로운 단어의 후보 목록으로부터의 단어는 사전에 추가된다.

몇몇 실시예에서, 복수의 귀납적 기준을 사용하여 소팅된 질의를 필터링하여, 새로운 단어의 후보 목록을 획득하는 것은 또한, 복합 단어일 수 있는 소정의 임계 길이보다 더 긴 질의를 새로운 단어의 후보 목록으로부터 제거하는 것을 포함한다. 요구된다면, 몇몇 실시예에서, 질의가 단어가 아니고 오히려 사용자가 우연히 엔터 키를 친 결과로 결정된 경우, 길이 기반 필터링은 소정의 임계 길이보다 짧은 질의를 제거하는 데 사용될 수 있다.

몇몇 실시예에서, 복수의 귀납적 기준을 사용하여 저장된 질의를 필터링하여, 새로운 단어의 후보 목록을 획득하는 것은 또한, 질의 로그에서의 발생 빈도수가 소정의 임계 발생 빈도수보다 더 작은 질의를 후보 목록으로부터 제거하는 것을 포함한다.

몇몇 실시예에서, 복수의 귀납적 기준을 사용하여 저장된 질의를 필터링하여 새로운 단어의 후보 목록을 획득하는 것은 또한, 단어-분해자에 의해 단일 단어인 것으로 이미 분석된 질의를 후보 목록으로부터 제거하는 것을 포함한다.

다음의 상세한 설명을 읽고 관련 도면을 참조할 때, 본 발명의 실시예를 특징짓는 다른 특징 및 이점이 명백해질 것이다.

도 1은 본 발명이 구현될 수 있는 적합한 컴퓨팅 시스템 환경(100)의 예를 도시한다. 컴퓨팅 시스템 환경(100)은 적합한 컴퓨팅 환경의 일례일 뿐이며, 본 발명의 사용 또는 기능의 범위에 관한 임의의 제한을 제시하는 것은 아니다. 컴퓨팅 환경(100)은 예시적인 오퍼레이팅 환경(100)에 도시된 컴포넌트들 중 임의의 하나 또는 그 조합에 관하여 임의의 종속성 또는 요구사항을 갖는 것으로 해석되어서 는 안된다.

본 발명은 다수의 다른 범용 또는 특수 목적 컴퓨팅 시스템 환경 또는 구성과 동작한다. 본 발명과 함께 사용하기에 적합할 수 있는 잘 알려진 컴퓨팅 시스템, 환경 및/또는 구성의 예로는, 퍼스널 컴퓨터, 서버 컴퓨터, 핸드-헬드 또는 랩탑 장치, 멀티프로세서 시스템, 마이크로프로세서 기반 시스템, 셋탑 박스, 프로그램가능한 전자제품, 네트워크 PC, 미니컴퓨터, 메인프레임 컴퓨터, 상술한 시스템 또는 장치들 중 임의의 것을 포함하는 분산 컴퓨팅 환경 등이 있지만, 이것으로 한정되지 않는다.

본 발명은 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터-실행가능 명령어의 일반 문맥에서 설명될 수 있다. 일반적으로, 프로그램 모듈로는, 특정 태스크를 수행하거나 특정 추상 데이터 타입을 구현하는 루틴, 프로그램, 오브젝트, 컴포넌트, 데이터 구조 등이 있다. 본 발명은 또한, 태스크가 통신 네트워크를 통해 링크되어 있는 원격 프로세싱 장치에 의해 수행되는 분산 컴퓨팅 환경에서 실시될 수 있다. 분산 컴퓨팅 환경에서, 프로그램 모듈은 메모리 저장 장치를 포함하는 로컬 컴퓨터 저장 매체와 원격 컴퓨터 저장 매체 모두 내에 배치될 수 있다.

도 1을 참조하면, 본 발명을 구현하기 위한 예시적인 시스템은 컴퓨터(110)의 형태의 범용 컴퓨팅 장치를 포함한다. 컴퓨터(110)의 컴포넌트로는 프로세싱 유닛(120), 시스템 메모리(130), 및 시스템 메모리를 프로세싱 유닛(120)에 연결시키는 것과 같이 다양한 시스템 컴포넌트를 연결시키는 시스템 버스(121)가 있을 수 있지만, 이것으로 한정되지 않는다. 시스템 버스(121)는 메모리 버스 또는 메모리 제어기, 주변장치 버스, 및 다양한 버스 아키텍처 중 임의의 것을 사용하는 로컬 버스를 포함하는 여러 유형의 버스 구조 중 임의의 것일 수 있다. 예를 들어, 그러한 아키텍처로는 ISA(Industry Standard Architecture) 버스, MCA(Micro Channel Architecture) 버스, EISA(Enhanced ISA) 버스, VESA(Video Electronics Standards Association) 로컬 버스, 및 메자닌(Mezzanine) 버스라고도 불리는 PCI(Peripheral Component Interconnect) 버스가 있지만, 이것으로 한정되지 않는다.

컴퓨터(110)는 일반적으로, 다양한 컴퓨터 판독가능 매체를 포함한다. 컴퓨터 판독가능 매체는 컴퓨터(110)에 의해 액세스될 수 있는 임의의 사용가능한 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체 모두를 포함한다. 예를 들면, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 포함할 수 있지만, 이것으로 한정되지 않는다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장 장치를 위한 임의의 방법 또는 기술로 구현된 휘발성과 비휘발성, 분리형과 비분리형 매체 모두를 포함한다. 컴퓨터 저장 매체로는, RAM, ROM, EEPROM, 플래시 메모리 또는 기타 메모리 기술, CD-ROM, DVD(digital versatile disk) 또는 기타 광 디스크 저장 장치, 자기 카세트, 자기 테이프, 자기 디스크 저장 장치 또는 기타 자기 저장 장치, 또는 요구된 정보를 저장하는 데 사용될 수 있고 컴퓨터(110)에 의해 액세스될 수 있는 임의의 기타 매체가 있지만, 이것으로 한정되지 않는다. 통신 매체는 일반적으로, 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파 또는 기타 전송 매커니즘과 같은 변조된 데이터 신호 내의 기타 데이터를 실시하며, 임의의 정보 전달 매체를 포함한다. 용어 "변조된 데이터 신호"는 신호 내의 정보를 인코딩하는 방식으로 설정 또는 변경된 특징 중 하나 이상을 갖는 신호를 의미한다. 예를 들어, 통신 매체로는, 유선 네트워크 또는 직접-유선 접속과 같은 유선 매체와, 초음파, RF, 적외선 및 기타 무선 메체와 같은 무선 매체를 포함하지만, 이것으로 한정되지 않는다. 또한, 상술된 매체의 임의의 조합이 컴퓨터 판독가능 매체의 범위 내에 포함될 수 있다.

시스템 메모리(130)는 판독 전용 메모리(ROM; 131) 및 랜덤 액세스 메모리(RAM; 132)와 같은 휘발성 및/또는 비휘발성 메모리의 형태의 컴퓨터 저장 매체를 포함한다. 시동중과 같은 컴퓨터(110) 내의 엘리먼트들 간의 정보 전송을 돕는 기본 루틴을 포함하는 기본 입출력 시스템(133; BIOS)은 일반적으로, ROM(131) 내에 저장된다. RAM(132)은 일반적으로, 프로세싱 유닛(120)에 의해 즉시 액세스가능하고/액세스가능하거나 현재 동작되는 데이터 및/또는 프로그램 모듈을 포함한다. 예를 들어, 도 1은 오퍼레이팅 시스템(134), 어플리케이션 프로그램(135), 기타 프로그램 모듈(136) 및 프로그램 데이터(137)를 도시하지만, 이것으로 한정되지 않는다.

컴퓨터(110)는 또한, 다른 분리형/비분리형, 휘발성/비휘발성 컴퓨터 저장 매체를 포함할 수 있다. 예를 들어, 도 1은 비분리형, 비휘발성 자기 매체로부터 판독하고 그곳에 기록하는 하드 디스크 드라이브(141), 분리형, 비휘발성 자기 디스크(152)로부터 판독하고 그곳에 기록하는 자기 디스크 드라이브(151), 및 CD-ROM 또는 기타 광 매체와 같은 분리형, 비휘발성 광 디스크(156)로부터 판독하고 그곳에 기록하는 광 디스크 드라이브(155)를 도시한다. 예시적인 오퍼레이팅 환경에서 사용될 수 있는 다른 분리형/비분리형, 휘발성/비휘발성 컴퓨터 저장 매체로는, 자기 테이프 카세트, 플래시 메모리 카드, DVD, 디지털 비디오 테이프, 고체상태 RAM, 고체상태 ROM 등이 있지만, 이것으로 제한되지 않는다. 하드 디스크 드라이브(141)는 일반적으로, 인터페이스(140)와 같은 비분리형 메모리 인터페이스를 통해 시스템 버스(121)에 접속되고, 자기 디스크 드라이브(151) 및 광 디스크 드라이브(155)는 일반적으로, 인터페이스(150)와 같은 분리형 메모리 인터페이스에 의해 시스템 버스(121)에 접속된다.

상술되고 도 1에 도시된 드라이브 및 그와 관련된 컴퓨터 저장 매체는 컴퓨터(110)를 위한 컴퓨터 판독가능 명령, 데이터 구조, 프로그램 모듈 및 기타 데이터의 저장 장치를 제공한다. 도 1에서는, 예를 들어, 하드 디스크 드라이브(141)가 오퍼레이팅 시스템(144), 어플리케이션 프로그램(145), 기타 프로그램 모듈(146) 및 프로그램 데이터(147)를 저장하는 것으로 도시된다. 이 컴포넌트들은 오퍼레이팅 시스템(134), 어플리케이션 프로그램(135), 기타 프로그램 모듈(136) 및 프로그램 데이터(137)와 동일할 수도 있고 다를 수도 있음을 유의한다. 오퍼레이팅 시스템(144), 어플리케이션 프로그램(145), 기타 프로그램 모듈(146) 및 프로그램 데이터(147)는 최소한 그들이 상이한 복사본이라는 것을 나타내기 위하여 여기에서 상이한 번호를 부여받는다.

사용자는 키보드(162), 마이크로폰(163), 및 마우스, 트랙볼 또는 터치 패드 와 같은 포인팅 장치(161) 등의 입력 장치를 통해 명령 및 정보를 컴퓨터(110)에 입력할 수 있다. 다른 입력 장치(도시되지 않음)는 조이스틱, 게임 패드, 위성 접시, 스캐너 등을 포함할 수 있다. 이러한 입력 장치 및 다른 입력 장치는 종종, 시스템 버스에 연결되어 있는 사용자 입력 인터페이스(160)를 통해 프로세싱 유닛(120)에 접속되지만, 병렬 포트, 게임 포트 또는 USB(universal serial bus)와 같은 다른 인터페이스 및 버스 구조에 의해 접속될 수 있다. 모니터(191) 또는 다른 유형의 디스플레이 장치는 또한, 비디오 인터페이스(190)와 같은 인터페이스를 통해 시스템 버스(121)에 접속된다. 모니터 외에, 컴퓨터는 또한, 출력 주변장치 인터페이스(195)를 통해 접속될 수 있는 스피커(197) 및 프린터(196)와 같은 다른 주변 출력 장치를 포함할 수 있다.

컴퓨터(110)는 원격 컴퓨터(180)와 같은 하나 이상의 원격 컴퓨터로의 논리적인 접속을 사용한 네트워크 환경에서 동작할 수 있다. 원격 컴퓨터(180)는 퍼스널 컴퓨터, 핸드-헬드 장치, 서버, 라우터, 네트워크 PC, 피어 장치 또는 다른 흔한 네트워크 노드일 수 있고, 일반적으로, 컴퓨터(110)와 관련하여 상술된 엘리먼트들 중 다수 또는 전부를 포함한다. 도 1에 도시된 논리적인 접속은 근거리 네트워크(LAN; 171) 및 광역 네트워크(WAN; 173)를 포함하지만, 다른 네트워크도 포함할 수 있다. 그러한 네트워킹 환경은 사무실, 기업형 컴퓨터 네트워크, 인트라넷 및 인터넷에서 흔하다.

LAN 네트워킹 환경에서 사용될 때, 컴퓨터(110)는 네트워크 인터페이스 또는 어댑터(170)를 통해 LAN(171)에 접속된다. WAN 네트워킹 환경에서 사용될 때, 컴 퓨터(110)는 일반적으로, 모뎀(172), 또는 인터넷과 같은 WAN(173)을 통한 통신을 설립하기 위한 다른 수단을 포함한다. 내장 또는 외장일 수 있는 모뎀(172)은 사용자 입력 인터페이스(160) 또는 다른 적절한 메커니즘을 통해 시스템 버스(121)에 접속될 수 있다. 네트워크 환경에서, 컴퓨터(110)와 관련되어 도시된 프로그램 모듈, 또는 그 일부는 원격 메모리 저장 장치에 저장될 수 있다. 예를 들어, 도 1은 원격 어플리케이션 프로그램(185)을 원격 컴퓨터(180)에 상주하는 것으로 도시하지만, 이것으로 제한되지 않는다. 도시된 네트워크 접속은 예시적인 것이며, 컴퓨터들 간의 통신 링크를 설립하는 다른 수단이 사용될 수 있음을 이해할 것이다.

본 발명은 새로운 단어를 수집하여, 단어-분해자에 의해 사용된 사전에 추가되도록 하기 위한 개선된 방법을 포함한다. 수집 방법과 단어-분해자 중 하나 또는 둘 다는 도 1에 도시된 것과 같은 컴퓨팅 환경, 또는 다른 유형의 컴퓨팅 환경에서 구현될 수 있다. 일반적으로, 맞춤 사전 또는 시스템 사전에 포함시키기 위해 새로운 단어를 수집하는 강도 높은 수동적 노력을 포함하는 통상적인 방법과는 반대로, 본 발명의 방법 및 시스템은 검색 질의 로그를 사용하여 자동적으로 또는 반자동적으로 새로운 단어를 획득한다. 본 발명의 새로운 단어 수집 방법은 특히, 단어가 단어들 간의 스페이스나 하이픈을 사용하지 않고 복합되어 있는 교착어에 유용하다.

도 2는 나중에 검색 엔진에서 사용하기 위하여, 문서 또는 웹 사이트를 인덱싱하는 프로세스 동안 단어-분해를 사용한 것을 도시하는 검색 엔진 인덱싱 시스템(200)의 블록도이다. 시스템(200)은 문자 스트링 추출 모듈(210)을 포함한다. 인 덱스 시에, 모듈(210)은 215에 도시된 문서 또는 웹 사이트(총체적으로 "문서"라고 지칭함)로부터 문자 스트링(211)을 추출한다.

시스템(200)은 또한, 문자 스트링(211)을 분석하여 키워드(221)를 생성하는 단어-분해 모듈(220)을 포함한다. 단어-분해 모듈(220)은 통상적인 단어-분해 모듈 함수로서 기능할 수 있다. 문자 스트링(211)으로부터 키워드(221)를 생성하는 프로세스에서, 단어-분해 모듈(220)은 사전(225)을 사용한다. 사전(225)은 다양한 어플리케이션에 의해 사용된 통상적인 완전한 사전, 특정 어플리케이션에 특정적인 맞춤 사전 또는 이들의 조합일 수 있다. 통상적인 방식으로, 단어-분해 모듈(220)은 또한, 문자 스트링의 특정 교착어에 대하여 적절한 문법(230) 및 통계적 데이터(235)를 사용할 수 있다.

몇몇 검색 엔진은 특정 노이즈 단어를 배제하기 때문에, 단어-분해 모듈(220)은 또한, 노이즈 단어 데이터베이스 또는 목록(240)에 액세스할 수 있고, 결국 키워드(221)로서 제공될 결과로서의 단어의 그룹으로부터 노이즈 단어를 빼거나 배제할 수 있다. 이 기능은 또한, 요구되는 경우, 개별 노이즈 단어 배제 모듈에 의해 개별 노이즈 단어 배제 단계에서 구현될 수 있다. 노이즈 단어 목록(240) 내의 노이즈 단어는 모든 검색 엔진이 동일한 노이즈 단어를 배제하는 것은 아니기 때문에, 개별화가능형(customizable)일 수도 있고, 특정 검색 엔진에 특정적일 수도 있다. 예시적인 노이즈 단어는 영어의 "a" 및 "the"에 대응하는 단어와 같은 기능적 단어를 포함할 수 있다. 또 다른 예로, 일본어의 경우에는, 단일-문자의 일본어 가나 단어가 있다. 다른 유형의 노이즈 단어에 대한 다수의 다른 예가 있 을 수 있으며, 이것은 특정 교착어에 따라 달라진다.

단어-분해 모듈(220)에 의해 제공된 결과로서의 키워드(221)는 인덱스(250)에 추가된다. 인덱스(250)는 원래의 문자 스트링이 추출되었던 문서(215)에 키워드를 상호관련시킨다. 이 키워드는 키워드를 포함하는 검색 엔진 질의에 응답하여 적절한 문서를 검색하는 데 사용된다.

도 3은 자연 언어 사용자 질의에 응답하여 문서 또는 웹사이트 검색 동안의 단어-분해 사용을 도시하는 검색 엔진 시스템(300)의 블록도이다. 시스템(300)은 텍스트 입력(305) 형태로 사용자 질의를 수신하는 단어-분해 모듈(220)을 포함한다. 예를 들어, 교착어의 경우에, 텍스트 입력(305)은 일반적으로 텍스트 스트링 형태이다. 단어-분해 모듈은 도 2에 도시된 시스템(200)에서 사용된 것과 동일한 단어-분해 모듈로서 도시된다. 그러나, 이것은 필수적인 것은 아니며, 다양한 시스템에서 사용된 단어-분해 모듈들 간의 차이점이 존재할 수 있다.

단어-분해 모듈(220)은 사전(225)을 사용하여 알려진 방식으로 단어-분해 기능을 수행한다. 전술된 바와 같이, 단어-분해 모듈은 또한, 문법, 통계적 데이터 및 다른 자원을 사용하여, 분석되고 있는 특정 언어에 가장 유용하거나 요구되는 단어-분해 기능을 수행할 수 있다. 단어-분해 모듈(220)의 출력은 텍스트 입력(305)으로부터 파생된 단어 목록(310)이다.

상술된 인덱싱 시스템(200)과 마찬가지로, 검색 엔진 시스템(300)은 노이즈 단어를 배제할 수 있다. 다시, 노이즈 단어는 "a" 및 "the" 등과 같은 기능적 단어, 또는 내용이 충분하지 않고 중요한 의미를 지니지 않는 다른 단어를 포함할 수 있다. 노이즈 단어는 특정 언어에 특정적일 수 있으며, 그 예로는 일본어 가나 단어를 들 수 있다. 노이즈 단어 배제는 선택적이며, 별개의 노이즈 단어 배제 모듈(320)로 구현될 수도 있고, 단어-분해 모듈(220) 내에서 구현될 수도 있다. 노이즈 단어 배제 후에, 그 결과는 키워드(330)의 목록 또는 그룹이 된다.

시스템(300)은 또한, 키워드(330)를 인덱스(250) 내에 저장된 키워드와 비교하는 키워드 룩업 모듈(340)을 포함한다. 키워드(330)가 인덱스(250) 내의 키워드와 일치하는 경우, 대응하는 문서 또는 사이트(215)(또는 대응하는 문서 또는 사이트의 목록)가 검색된다. 키워드 룩업 모듈(340)은 일반적으로, 검색된 문서 또는 사이트를 순위매김하여 그 결과(350)가 질의에 대한 의도된 결과일 가능성이 크게 되도록 할 것이다, 예를 들어, 모듈(340)은 문서 또는 사이트 내의 키워드의 빈도수에 근거하여, 또는 개개의 문서 또는 사이트에서 실제로 발견된 키워드의 퍼센트에 근거하여, 또는 다른 순위매김 기준에 의해 그 결과를 순위매김할 수 있다.

이제, 도 4를 참조하면, 본 발명의 실시예에 따른 새로운 단어 수집 시스템(400)이 도시된다. 도 4에 도시된 다양한 모듈은 유사하게, 본 발명의 방법을 나타낸다. 시스템(400) 및 그와 대응하는 방법은 본 발명을 더욱 잘 설명하기 위해 함께 설명된다.

본 발명의 새로운 단어 수집 방법의 제1 단계는 검색, 또는 검색 엔진의 질의 로그를 획득하여, 특정 언어(들)로 제출된 질의의 목록을 수집하는 것이다. 이것은 도 4에서 질의 로그(410)로서 도시된다. 다음으로, 질의 로그는 로그 내에서 발생하는 빈도수의 함수로서 소팅된다. 이 단계, 및 시스템(400)에서 그와 대응하 는 컴포넌트는 소팅된 질의(421)를 출력으로서 제공하는 질의 로그 소팅 모듈(420)에 의해 나타낸다. 질의 로그는 다수의 기술 중 임의의 것을 사용하여 발생 빈도수에 의해 소팅될 수 있다. 예를 들어, 발생 빈도수는 질의가 정확히(또는 거의 정확히) 동일한 형태로 몇 번 발생하였는지에 근거할 수 있다. 그러나, 발생 빈도수는 또한, 질의가 정확히 동일한 형태로 나타나지 않더라도, 유사한 질의를 질의 번들(bundle)로 함께 그룹핑하는 것에 근거할 수 있다.

다음으로, 방법은 임의의 소정의 귀납법에 근거하여 소팅된 질의를 필터링하는 것을 포함한다. 이것은 도 4에서 귀납적 필터링 모듈(들)(430)로서 도시되며, 필터링 모듈은 필터링 후, 출력(431)에서 새로운 단어의 후보 목록을 제공한다. 소팅된 질의를 필터링하는 데 사용된 귀납법은 특정 구현 및/또는 상이한 언어에 대해 매우 다양할 수 있지만, 도 5에서 귀납적 필터링 기준의 예가 더 설명된다.

도 5에서 도시되는 바와 같이, 귀납적 필터링 모듈(430; 귀납적 필터링 기준으로 표현됨)은 질의 길이 필터(510)를 포함할 수 있다. 질의 길이 필터(510)는 임의의 소정의 개수의 글자 또는 문자보다 길고/길거나 짧은 질의 스트링을 필터링하여, 출력(511)에서 이 기준을 통과하는 질의만을 제공한다. 이 필터링 기준은 (상한 임계치보다 긴) 합성어이거나, 예를 들어, 사용자가 우연히 엔터 키를 쳐서 새로운 단어가 되기에는 너무 짧은(하한 임계치보다 짧은) 스트링을 새로운 단어의 후보 목록으로부터 제거한다. 너무 긴 단어를 제거하는 필터링이 너무 짧은 단어를 필터링하는 것과 반드시 함께 사용될 필요는 없음을 주지해야 한다. 몇몇 실시예에서는, 너무 짧은 단어에 근거한 필터링이 존재하지 않는다.

다음으로, 남아있는 질의는 필터링되어 질의 로그에서 충분히 자주 나타나지 않는 단어들을 제거한다. 이것은 도 5에서 질의 빈도수 필터(520)로서 도시된다. 질의 빈도수 필터(520)는 질의 로그에서 임의의 소정의 임계 횟수보다 더 자주 나타나지 않는 질의 스트링을 필터링하여, 츨력(521)에서, 이 기준을 통과할 만큼 충분히 자주 발생하는 질의만을 제공한다. 다른 실시예에서, 질의 빈도수 필터(520)는 질의 길이 필터(510) 전에 그 기능을 수행할 수 있음을 유념해야 한다. 마찬가지로, 필터링 순서에서의 다른 변화가 가능하다.

다음으로, 남아있는 질의는 단어-분해 결과에 근거하여 필터링된다. 이것은 단어-분해 결과 필터(530)로서 도시된다. 단어-분해 결과 필터(530)는 남아있는 질의를 단어-분해 결과와 비교하고, 단어-분해 모듈(220)에 의해 단일 단어로서 이미 분석된 임의의 질의를 제거한다. 단어-분해 결과를 제공할 때, 모듈(220)은 사전(225)을 사용하고, 필요 시, 상술된 문법, 통계 데이터, 노이즈 단어 목록 등을 포함하는 다른 자원을 사용한다. 단어-분해 모듈에 의해 단일 단어로서 이미 분석되지 않은 남아있는 질의는 출력(531)에서 필터(530)에 의해 제공된다.

다음으로, 요구되는 경우, 도 5에서 총체적으로 필터(540)로 표현되는 다른 필터 기준이 적용될 수 있다. 예를 들어, 새로운 일본어 단어를 수집할 때, 히라가나는 단어를 알지 못하고 분석할 때 단어-분석이 곤란해지는 주요 영역이기 때문에, 필터(540)는 히라가나 또는 가타가나, 또는 스트링이 아닌 모든 단어 후보를 제거할 수 있다. 마찬가지로, 필터(540)는 히라가나 또는 가타가나 단어, 또는 스트링이 아닌 모든 단어 후보를 제거할 수 있다. 하나 이상의 일본어 문자 유형 제 약에 근거한 필터링에 대해서 2가지 예가 있다. 보다 일반적으로, 일본어 문자 유형 제약에 근거하여 후보 목록으로부터 질의를 제거하는 것은 소팅된 질의의 문자 유형의 조합에 대한 귀납법에 근거하여 질의를 제거하는 것을 포함할 수 있다. 다수의 다른 필터링 기준도 가능하다.

다시 도 4를 참조하면, 새로운 단어(431)의 결과 후보 목록은 440으로 도시되는 바와 같이 인간에 의해(즉, 인간이 후보 목록으로부터 단어를 선택 또는 제거하게 함으로써) 더 필터링될 수 있다. 인간의 필터링을 포함할 지에 관한 결정은 선택적이며, 특정 요구사항과 작업부하/효과 또는 이익의 상충관계에 의존할 것이다. 본 발명의 방법 및 시스템의 하나의 장점은 특히, 교착어에서 새로운 단어를 식별하는 인간의 작업부하를 감소시키는 것이다. 이 점에서 인간의 필터링을 추가하는 것은 또한, 지나치게 부담스러운 작업부하를 추가하지 않고 결과를 향상시킬 수 있다.

인간의 필터링 후에, 남아있는 질의 엔트리는 새로운 단어 목록(441)으로서 제공된다. 이 새로운 단어는 상술한 인덱싱 및 검색 엔진 질의 태스크에서 단어-분해에 사용된 맞춤 또는 전체 사전{총제적으로, 도 2, 도 3 및 도 5에서 사전(225)으로서 도시됨}에 추가되거나 통합된다. 새로운 단어 목록(441)이 추가된 업데이트된 사전(들)은 도 4에서 450으로 표현된다. 이 업데이트된 사전은 상술된 시스템 및 방법의 앞으로의 사용에서 원래 사전(225)을 대신하여 사용될 것이다. 또한, 결과로서의 새로운 단어는 검색 엔진의 단어-분해 기능에 대해서뿐만 아니라, 단어-분해를 포함하는 임의의 다른 자연 언어 분석에 대해서도 사용될 수 있 다. 그 예로는, 오식(typo) 검출 기능, 대안적인 제시 기능(즉, "...을 의미합니까?" 검색 엔진 특징) 등이 있다.

본 발명을 사용하여 식별된 새로운 단어로 사전(들)을 업데이트한 후에, 상술된 시스템은 전체 문서를 업데이트된 사전으로 다시 인덱싱하는 데 사용될 수 있다. 업데이트되거나 새로운 인덱스는 검색 엔진 질의 분석에 사용하기 위해 원래 인덱스를 대신할 수 있다. 본 발명의 방법 및 시스템을 사용하여 사전에 추가하기 위한 새로운 단어를 식별함으로써, 개선된 언어 분석 결과가 달성될 수 있다. 검색 시나리오에서, 보다 나은 검색 결과가 달성될 수 있다. 본 발명은 맞춤 사전을 유지하는 데 필요한 작업부하를 많이 감소시킨다. 결과는 또한, 다음 세대 사전으로 이식되어, 사전을 업데이트하는 데 요구되는 작업부하를 감소시킬 수 있다.

다음은 새로운 단어를 식별하는 본 발명의 방법 및 시스템을 필요로하는 일본어 예와, 본 발명의 방법 및 시스템이 이 예의 문맥에서 어떻게 수행되는 지에 관한 예이다. 새로운 일본 단어 "らるく"(라루쿠)에 대해 생각해보자. 이것은 팝 음악 그룹의 새로 만들어낸 별명(짧은 형태)이기 때문에, 시스템 사전에 추가되지 않았을 수 있다. 배경 정보로서, 일본어로, 팝 음악 그룹에 대한 공식적인 이름은 "ラルクアンシエル"(가타가나로 "라루쿠안시에루")이다. 알파벳 표식은 "L'ArcenCiel"이다. 이 예를 설명하기 위하여, らるく가 사실, 시스템 사전에 추가되지 않았다고 가정하자.

단어-분해자가 이 단어를 인식하지 못한다면 어떤 일이 발생할까?

경우 A: 단어-분해자는 알려지지 않은 단어를 상위분해(over-break)하려고 한다(이것은 이하 설명되는 경우 B보다 더 흔함). 경우 A에서:

● 단어 분해 결과는 ら/る/く(라/루/쿠) 또는 이와 유사할 것이다.

● 단어-분해자가 한 문자로 된 가나(kana)를 노이즈 단어로서 누락시키면, 모든 내용 또는 청크(chunk)가 누락되고, 이 용어는 전혀 검색될 수 없다.

● 단어-분해자가 한 문자로 된 가나를 노이즈 단어로서 누락시키지 않는다 하더라도, ら 또는 る 또는 く(라 또는 루 또는 쿠)와 일치되는 것은 많을 것이고, 이것은 수행에 대한 부정적인 요인이 되고 일치하는 문서를 순위매김하는 데 문제를 일으킬 수 있다.

● 또한, 단어-분해자는 어떤 문맥에서는 일관되게 잘 수행하지 않을 수 있다. 문서가 구절 らるくに

った(라루쿠니앗따, 의미는 "라루쿠를 만났다"임)를 포함한다고 가정하자. 이 구절의 단어-분해 결과는 ら/る/くに/

/った/(라/루/쿠니/앗/따)일 수 있고, 이것은 (라/루/쿠)와 일치하지 않는다.

경우 B: 단어-분해자는 (알려지지 않은 단어 추측 메커니즘을 사용하여) 알려지지 않은 단어를 하위분해(under-break)하려고 한다. 경우 B에서:

● 단어-분해 결과는 らるく(라루쿠) 또는 이와 유사할 것이다. 이것은 나쁜 결과는 아니다.

● 그러나, 아직도, 단어 분해자는 몇몇 문맥에서 일관되게 잘 수행하지 않을 수 있다. 문서가 구절 らるくに

った(라루쿠니앗따, 의미는 "라루쿠를 만났다"임)를 포함한다고 가정하자. 이 구절의 단어-분해 결과는 らる/くに/

/った/(라루/쿠니/앗/따)일 수 있고, 이것은 (라루쿠)와 일치하지 않는다.

이 단어가 맞춤 사전에 추가된다면(또는 시스템 사전에 통합된다면) 어떤 일이 발생할까? 상술한 A와 B 모든 경우에서, 예상된 결과가 달성될 것이다.

질의 : らるく(라루쿠) -> 하나의 단어로서의 らるく(라루쿠).

문서에서 : らるくに

った(라루쿠니앗따) -> らるく/に/

/った/(라루쿠/니/앗/따).

따라서, 이 단어를 사전에 추가하기 위한 새로운 단어로서 인식하는 것이 중요하다. 이 단어가 상술된 필터링에 의해 픽업되는 프로세스를 생각해보자.

이것은 매우 빈번한 질의인 것으로 알려져 있다. 이 질의는 충분히 짧다. 이것은 이 질의가 복합 단어 또는 구절과는 대조적으로 하나의 단어일 수 있음을 의미한다.

단어-분해가 이 질의에 대해 실행될 경우, 2가지 경우 A와 B가 있다.

경우 A: 단어-분해자는 알려지지 않은 단어를 상위분해하려고 한다(이것은 경우 B보다 더 흔함).

● 단어-분해 결과는 ら/る/く(라/루/쿠) 또는 이와 유사할 것이다.

● 단어-분해자가 한 문자로 된 가나(kana)를 노이즈 단어로서 누락시키고, 질의의 대부분이 노이즈 단어로서 누락되면, 이 용어는 분명히 새로운 단어 후보가 된다.

● 단어-분해자가 한 문자로 된 가나를 노이즈 단어로서 누락시키지 않는다면, 단어-분해 결과가 너무 작은 가나 청크인지를 확인하기 위해 검사한다. 이 경우에, 질의는 다시 새로운 단어가 될 좋은 후보가 된다. 일반적으로, 표문자 (ideographic) 문자(들)를 갖는 짧은 청크는 심각한 검색 문제를 야기하지 않는다. 따라서, 이러한 경우는 배제될 수 있다.

경우 B: 단어-분해자는 알려지지 않은 단어를 하위분해하려고 한다.

● 단어-분해 결과는 らるく(라루쿠)이다.

● 스트링 らるく(라루쿠)가 사전 내에 있는 지를 검사한다. 사전 내에 존재하지 않으면, 특히, 질의가 모두 가나로 이루어져 있는 경우, 질의는 사전에 새로운 단어로서 추가될 좋은 후보가 된다.

본 발명은 특정 실시예를 참조하여 설명되었지만, 본 분야에 숙련된 자들은 본 발명의 취지 및 범주를 벗어나지 않고 형태 및 상세사항에서의 변경이 이루어 질 수 있음을 인식할 것이다.

본 발명의 방법 및 시스템은 검색 질의 로그를 사용하여 자동적으로 또는 반자동적으로 새로운 단어를 획득한다

Claims

교착어(agglutinative language)에 대하여, 사전(lexicon)에 추가할 새로운 단어들을 수집하는 방법으로서,

질의 로그에 의해, 검색 엔진에 제출된 질의들의 로그를 획득하는 단계;

질의 로그 소팅 모듈에 의해, 상기 질의들의 로그를 로그 내에서 발생하는 빈도수의 함수로서 소팅(sort)하여 소팅된 질의들을 획득하는 단계;

귀납적 필터링 모듈에 의해, 복수의 귀납적 필터링 기준(heuristic filtering criteria)을 사용하여 상기 소팅된 질의들을 필터링하여, 새로운 단어들의 후보 목록(candidate list)을 획득하는 단계 - 상기 복수의 귀납적 필터링 기준을 사용하여 상기 소팅된 질의들을 필터링하여, 새로운 단어들의 후보 목록을 획득하는 단계는, 상기 소팅된 질의들을 단어-분해 결과와 비교하고, 단어-분해자(word-breaker)에 의해 단어 분해의 결과에서 단일 단어인 것으로서 이미 분석된 질의들을 상기 후보 목록으로부터 제거하는 단계를 포함함 -; 및

프로세서를 이용하여, 상기 새로운 단어들의 후보 목록으로부터의 단어들을 상기 사전에 추가하는 단계

를 포함하는 방법.
제1항에 있어서,

상기 복수의 귀납적 필터링 기준을 사용하여 상기 소팅된 질의들을 필터링하여, 새로운 단어들의 후보 목록을 획득하는 단계는, 미리 정해진 임계 길이보다 더 긴 길이를 갖는 질의들을 상기 후보 목록으로부터 제거하는 단계를 더 포함하는 방법.
제2항에 있어서,

상기 복수의 귀납적 필터링 기준을 사용하여 상기 소팅된 질의들을 필터링하여, 새로운 단어들의 후보 목록을 획득하는 단계는, 질의 로그에서의 발생 빈도수가 미리 정해진 임계 발생 빈도수보다 더 적은 질의들을 상기 후보 목록으로부터 제거하는 단계를 더 포함하는 방법.
삭제
삭제
제1항에 있어서,

상기 교착어는 일본어인 방법.
제6항에 있어서,

상기 복수의 귀납적 필터링 기준을 사용하여 상기 소팅된 질의들을 필터링하여 새로운 단어들의 후보 목록을 획득하는 단계는, 일본어 문자 유형 제약에 근거하여 상기 후보 목록으로부터 질의들을 제거하는 단계를 더 포함하는 방법.
제7항에 있어서,

상기 일본어 문자 유형 제약에 근거하여 상기 후보 목록으로부터 질의들을 제거하는 단계는 히라가나 또는 가타가나 스트링들이 아닌 질의들을 제거하는 단계를 더 포함하는 방법.
제7항에 있어서,

상기 일본어 문자 유형 제약에 근거하여 상기 후보 목록으로부터 질의들을 제거하는 단계는 상기 소팅된 질의의 문자 유형들의 조합에 대한 귀납법에 근거하여 질의들을 제거하는 단계를 더 포함하는 방법.
컴퓨터 실행가능 명령어들을 포함하는 컴퓨터 판독가능 기록 매체로서,

상기 컴퓨터 실행가능 명령어들은

질의 로그 소팅 모듈에 의해, 교착어의 검색 엔진에 제출된 질의들의 로그를 로그 내에서 발생하는 빈도수의 함수로서 소팅하여 소팅된 질의들을 획득하는 단계; 및

귀납적 필터링 모듈에 의해, 복수의 귀납적 필터링 기준을 사용하여 상기 소팅된 질의들을 필터링하여, 사전에 추가할 새로운 단어들의 후보 목록을 획득하는 단계

를 수행하기 위한 것이고,

상기 복수의 귀납적 필터링 기준을 사용하여 상기 소팅된 질의들을 필터링하는 단계는, 질의 길이 필터에 의해, 미리 정해진 임계 길이보다 더 긴 길이를 갖는 질의들을 상기 새로운 단어들의 후보 목록으로부터 제거하는 단계를 더 포함하는 컴퓨터 판독가능 기록 매체.
제10항에 있어서,

상기 복수의 귀납적 필터링 기준을 사용하여 상기 소팅된 질의들을 필터링하는 단계는, 단어-분해자에 의해 단일 단어인 것으로서 이미 분석된 질의들을 상기 후보 목록으로부터 제거하는 단계를 더 포함하는 컴퓨터 판독가능 기록 매체.
제10항에 있어서,

상기 컴퓨터 실행가능 명령어들은 새로운 단어들의 후보 목록으로부터의 단어들을 사전에 추가하는 단계를 수행하기 위한 컴퓨터 실행가능 명령어들을 더 포함하는 컴퓨터 판독가능 기록 매체.
검색 엔진에 제출된 질의들의 로그로부터 사전에 추가할 교착어의 새로운 단어들을 수집하기 위한 새로운 단어 수집 시스템으로서,

상기 질의들의 로그를 상기 로그 내에서 발생하는 빈도수의 함수로서 소팅하여 상기 교착어의 소팅된 질의들을 획득하도록 구성된 질의 로그 소팅 컴포넌트; 및

복수의 귀납적 필터링 기준을 사용하여 상기 교착어의 상기 소팅된 질의들을 필터링하여, 새로운 단어들의 후보 목록을 획득하도록 구성된 귀납적 필터링 컴포넌트 - 상기 귀납적 필터링 컴포넌트는, 상기 소팅된 질의들을 단어-분해 결과와 비교하고, 단어-분해자에 의해 단어 분해의 결과에서 단일 단어인 것으로서 이미 분석된 질의들을 상기 새로운 단어들의 후보 목록으로부터 제거하도록 구성된 단어 분해 결과 필터를 포함함 -

를 포함하는 새로운 단어 수집 시스템.
제13항에 있어서,

상기 귀납적 필터링 컴포넌트는, 미리 정해진 임계 길이보다 더 긴 길이를 갖는 질의들을 상기 새로운 단어들의 후보 목록으로부터 제거하도록 구성된 질의 길이 필터를 더 포함하는 새로운 단어 수집 시스템.
제14항에 있어서,

상기 귀납적 필터링 컴포넌트는, 질의 로그에서의 발생 빈도수가 미리 정해진 임계 발생 빈도수보다 더 적은 질의들을 상기 새로운 단어들의 후보 목록으로부터 제거하도록 구성된 질의 빈도수 필터를 더 포함하는 새로운 단어 수집 시스템.
제10항에 있어서,

상기 교착어는 일본어이고, 상기 복수의 귀납적 필터링 기준을 사용하여 상기 소팅된 질의들을 필터링하여 새로운 단어들의 후보 목록을 획득하는 단계는, 일본어 문자 유형 제약에 근거하여 상기 후보 목록으로부터 질의들을 제거하는 단계를 더 포함하는 컴퓨터 판독가능 기록 매체.
제16항에 있어서,

상기 일본어 문자 유형 제약에 근거하여 상기 후보 목록으로부터 질의들을 제거하는 단계는 히라가나 또는 가타가나 스트링들이 아닌 질의들을 제거하는 단계를 더 포함하는 컴퓨터 판독가능 기록 매체.
제13항에 있어서,

상기 교착어는 일본어이고, 상기 복수의 귀납적 필터링 기준을 사용하여 상기 소팅된 질의들을 필터링하여 새로운 단어들의 후보 목록을 획득하는 단계는, 일본어 문자 유형 제약에 근거하여 상기 후보 목록으로부터 질의들을 제거하는 단계를 더 포함하는 새로운 단어 수집 시스템.
제18항에 있어서,

상기 일본어 문자 유형 제약에 근거하여 상기 후보 목록으로부터 질의들을 제거하는 단계는 히라가나 또는 가타가나 스트링들이 아닌 질의들을 제거하는 단계를 더 포함하는 새로운 단어 수집 시스템.
제18항에 있어서,

상기 일본어 문자 유형 제약에 근거하여 상기 후보 목록으로부터 질의들을 제거하는 단계는 상기 소팅된 질의의 문자 유형들의 조합에 대한 귀납법에 근거하여 질의들을 제거하는 단계를 더 포함하는 새로운 단어 수집 시스템.