KR101122942B1 - 단어-분해에 사용하기 위한 새로운 단어 수집 방법 및 시스템 - Google Patents

단어-분해에 사용하기 위한 새로운 단어 수집 방법 및 시스템 Download PDF

Info

Publication number
KR101122942B1
KR101122942B1 KR1020050017754A KR20050017754A KR101122942B1 KR 101122942 B1 KR101122942 B1 KR 101122942B1 KR 1020050017754 A KR1020050017754 A KR 1020050017754A KR 20050017754 A KR20050017754 A KR 20050017754A KR 101122942 B1 KR101122942 B1 KR 101122942B1
Authority
KR
South Korea
Prior art keywords
queries
word
candidate list
sorted
query
Prior art date
Application number
KR1020050017754A
Other languages
English (en)
Other versions
KR20060043381A (ko
Inventor
가오루 오꾸무라
Original Assignee
마이크로소프트 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 마이크로소프트 코포레이션 filed Critical 마이크로소프트 코포레이션
Publication of KR20060043381A publication Critical patent/KR20060043381A/ko
Application granted granted Critical
Publication of KR101122942B1 publication Critical patent/KR101122942B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

교착어에 있어서, 사전에 추가할 새로운 단어를 수집하는 방법, 컴퓨터 판독가능 매체 및 시스템이 제공된다. 상기 방법에서, 검색 엔진에 제출된 질의의 로그가 획득된다. 질의의 로그는 소팅(sorting)되어 소팅된 질의를 획득한다. 소팅된 질의는 복수의 귀납적 기준을 사용하여 필터링되어, 새로운 단어의 후보 목록을 획득한다. 새로운 단어의 후보 목록으로부터의 단어는 사전에 추가된다.
교착어, 단어 수집, 검색 엔진, 질의 로그, 후보 목록

Description

단어-분해에 사용하기 위한 새로운 단어 수집 방법 및 시스템{NEW WORD COLLECTION AND SYSTEM FOR USE IN WORD-BREAKING}
도 1은 본 발명이 사용될 수 있는 한 예시적인 환경의 블록도.
도 2는 본 발명이 유용한 검색 엔진 인덱싱 시스템의 한 실시예를 도시하는 블록도.
도 3은 본 발명이 유용한 검색 엔진 시스템의 한 실시예를 도시하는 블록도.
도 4는 본 발명의 새로운 단어 수집 시스템 및 방법의 한 실시예를 도시하는 블록도.
도 5는 도 4에 도시된 귀납적 필터링 모듈(들)의 한 실시예를 도시하는 블록도.
<도면의 주요 부분에 대한 부호의 설명>
210 : 문자 스트링 추출 모듈
211 : 문자 스트링
215 : 문서 또는 사이트
220 : 단어-분해 모듈
221 : 키워드
225 : 사전 및/또는 맞춤 사전
230 : 문법
235 : 통계적 데이터
240 : 노이즈 단어 목록
250 : 인덱스
본 발명은 단어-분해에 관한 것이다. 특히, 본 발명은 단어-분해에 사용하기 위한 새로운 단어 수집 방법에 관한 것이다.
단어-분해는 텍스트 입력을 처리하는 자연 언어 프로세싱 어플리케이션의 중요한 구성요소이다. 특히, 단어-분해는 대부분의 검색 엔진에서 중요하다. 검색 엔진은 몇몇 목적으로 입력 스트링에 대해 단어-분해를 수행한다. 예를 들어, 단어-분해는 입력 스트링에 적용되어, 합성의 구성 단어를 결정한다.
단어-분해는 특히, 일본어, 중국어 및 한국어와 같은 교착어에서 중요하다. 교착어는 단어가 별개의 형태소의 순차적 순서로 구성되고, 각각의 의미 구성요소가 자신의 형태소에 의해 나타나는 언어이다. 교착어의 다른 예로는, 수메르어, 호우리트어(hourrite), 오랄토우어(ourartou), 바스크어(Basque) 및 터키어가 있다. 일반적으로, 교착어에서, 단어는 구성 단어를 분리하는 스페이스 없이 합성될 수 있다.
검색은 종종, 아직 사전에 있지 않고 맞춤 사전(custom lexicon)에 나타나지 않는 다양한 새로운 단어를 포함하는 것을 목표로 한다. 검색 엔진 질의의 입력 스트링 또는 인덱싱되고 검색되는 문서 내에 알려지지 않은 단어가 포함되면, 단어-분해자가 그 스트링을 적절히 단어-분해하는 것은 곤란하다. 이것은 특히, 단어가 스페이스로 분리되어 있지 않은 언어에서 그러하다. 이것은 검색 결과의 보다 더 낮은 정밀도/포괄성에 대한 잠재성을 제공한다.
단어-분해자에 의해 사용된 맞춤 사전을 위해 새로운 단어를 수집하는 것은 끝이 없는 일이다. 맞춤 사전을 위해 새로운 단어를 수집하기 위한 기존 기술은 시간 소모적이고 부담스러운 것이다. 일반적으로, 검색 사이트에 의해 사용된 맞춤 사전에 추가하기 위한 새로운 단어는, 검색 사이트 소유자에 의해 수동적으로 수집된다. 또한, 다음 제품 세대의 시스템 사전에 포함시키기 위한 새로운 단어가 개발자에 의해 수동적으로 수집된다. 이 새로운 단어 수집 기술의 시간 소모적이고 노동 집약적인 특성은 계속 요구된다.
교착어에 있어서, 사전에 추가하기 위한 새로운 단어를 수집하는 방법, 컴퓨터 판독가능 매체 및 시스템이 제공된다. 상기 방법에서, 검색 엔진에 제출된 질의의 로그가 획득된다. 질의의 로그는 소팅(sorting)되어 소팅된 질의를 획득한다. 소팅된 질의는 복수의 귀납적 기준을 사용하여 필터링되어, 새로운 단어의 후보 목록을 획득한다. 새로운 단어의 후보 목록으로부터의 단어는 사전에 추가된다.
몇몇 실시예에서, 복수의 귀납적 기준을 사용하여 소팅된 질의를 필터링하여, 새로운 단어의 후보 목록을 획득하는 것은 또한, 복합 단어일 수 있는 소정의 임계 길이보다 더 긴 질의를 새로운 단어의 후보 목록으로부터 제거하는 것을 포함한다. 요구된다면, 몇몇 실시예에서, 질의가 단어가 아니고 오히려 사용자가 우연히 엔터 키를 친 결과로 결정된 경우, 길이 기반 필터링은 소정의 임계 길이보다 짧은 질의를 제거하는 데 사용될 수 있다.
몇몇 실시예에서, 복수의 귀납적 기준을 사용하여 저장된 질의를 필터링하여, 새로운 단어의 후보 목록을 획득하는 것은 또한, 질의 로그에서의 발생 빈도수가 소정의 임계 발생 빈도수보다 더 작은 질의를 후보 목록으로부터 제거하는 것을 포함한다.
몇몇 실시예에서, 복수의 귀납적 기준을 사용하여 저장된 질의를 필터링하여 새로운 단어의 후보 목록을 획득하는 것은 또한, 단어-분해자에 의해 단일 단어인 것으로 이미 분석된 질의를 후보 목록으로부터 제거하는 것을 포함한다.
다음의 상세한 설명을 읽고 관련 도면을 참조할 때, 본 발명의 실시예를 특징짓는 다른 특징 및 이점이 명백해질 것이다.
도 1은 본 발명이 구현될 수 있는 적합한 컴퓨팅 시스템 환경(100)의 예를 도시한다. 컴퓨팅 시스템 환경(100)은 적합한 컴퓨팅 환경의 일례일 뿐이며, 본 발명의 사용 또는 기능의 범위에 관한 임의의 제한을 제시하는 것은 아니다. 컴퓨팅 환경(100)은 예시적인 오퍼레이팅 환경(100)에 도시된 컴포넌트들 중 임의의 하나 또는 그 조합에 관하여 임의의 종속성 또는 요구사항을 갖는 것으로 해석되어서 는 안된다.
본 발명은 다수의 다른 범용 또는 특수 목적 컴퓨팅 시스템 환경 또는 구성과 동작한다. 본 발명과 함께 사용하기에 적합할 수 있는 잘 알려진 컴퓨팅 시스템, 환경 및/또는 구성의 예로는, 퍼스널 컴퓨터, 서버 컴퓨터, 핸드-헬드 또는 랩탑 장치, 멀티프로세서 시스템, 마이크로프로세서 기반 시스템, 셋탑 박스, 프로그램가능한 전자제품, 네트워크 PC, 미니컴퓨터, 메인프레임 컴퓨터, 상술한 시스템 또는 장치들 중 임의의 것을 포함하는 분산 컴퓨팅 환경 등이 있지만, 이것으로 한정되지 않는다.
본 발명은 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터-실행가능 명령어의 일반 문맥에서 설명될 수 있다. 일반적으로, 프로그램 모듈로는, 특정 태스크를 수행하거나 특정 추상 데이터 타입을 구현하는 루틴, 프로그램, 오브젝트, 컴포넌트, 데이터 구조 등이 있다. 본 발명은 또한, 태스크가 통신 네트워크를 통해 링크되어 있는 원격 프로세싱 장치에 의해 수행되는 분산 컴퓨팅 환경에서 실시될 수 있다. 분산 컴퓨팅 환경에서, 프로그램 모듈은 메모리 저장 장치를 포함하는 로컬 컴퓨터 저장 매체와 원격 컴퓨터 저장 매체 모두 내에 배치될 수 있다.
도 1을 참조하면, 본 발명을 구현하기 위한 예시적인 시스템은 컴퓨터(110)의 형태의 범용 컴퓨팅 장치를 포함한다. 컴퓨터(110)의 컴포넌트로는 프로세싱 유닛(120), 시스템 메모리(130), 및 시스템 메모리를 프로세싱 유닛(120)에 연결시키는 것과 같이 다양한 시스템 컴포넌트를 연결시키는 시스템 버스(121)가 있을 수 있지만, 이것으로 한정되지 않는다. 시스템 버스(121)는 메모리 버스 또는 메모리 제어기, 주변장치 버스, 및 다양한 버스 아키텍처 중 임의의 것을 사용하는 로컬 버스를 포함하는 여러 유형의 버스 구조 중 임의의 것일 수 있다. 예를 들어, 그러한 아키텍처로는 ISA(Industry Standard Architecture) 버스, MCA(Micro Channel Architecture) 버스, EISA(Enhanced ISA) 버스, VESA(Video Electronics Standards Association) 로컬 버스, 및 메자닌(Mezzanine) 버스라고도 불리는 PCI(Peripheral Component Interconnect) 버스가 있지만, 이것으로 한정되지 않는다.
컴퓨터(110)는 일반적으로, 다양한 컴퓨터 판독가능 매체를 포함한다. 컴퓨터 판독가능 매체는 컴퓨터(110)에 의해 액세스될 수 있는 임의의 사용가능한 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체 모두를 포함한다. 예를 들면, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 포함할 수 있지만, 이것으로 한정되지 않는다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장 장치를 위한 임의의 방법 또는 기술로 구현된 휘발성과 비휘발성, 분리형과 비분리형 매체 모두를 포함한다. 컴퓨터 저장 매체로는, RAM, ROM, EEPROM, 플래시 메모리 또는 기타 메모리 기술, CD-ROM, DVD(digital versatile disk) 또는 기타 광 디스크 저장 장치, 자기 카세트, 자기 테이프, 자기 디스크 저장 장치 또는 기타 자기 저장 장치, 또는 요구된 정보를 저장하는 데 사용될 수 있고 컴퓨터(110)에 의해 액세스될 수 있는 임의의 기타 매체가 있지만, 이것으로 한정되지 않는다. 통신 매체는 일반적으로, 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파 또는 기타 전송 매커니즘과 같은 변조된 데이터 신호 내의 기타 데이터를 실시하며, 임의의 정보 전달 매체를 포함한다. 용어 "변조된 데이터 신호"는 신호 내의 정보를 인코딩하는 방식으로 설정 또는 변경된 특징 중 하나 이상을 갖는 신호를 의미한다. 예를 들어, 통신 매체로는, 유선 네트워크 또는 직접-유선 접속과 같은 유선 매체와, 초음파, RF, 적외선 및 기타 무선 메체와 같은 무선 매체를 포함하지만, 이것으로 한정되지 않는다. 또한, 상술된 매체의 임의의 조합이 컴퓨터 판독가능 매체의 범위 내에 포함될 수 있다.
시스템 메모리(130)는 판독 전용 메모리(ROM; 131) 및 랜덤 액세스 메모리(RAM; 132)와 같은 휘발성 및/또는 비휘발성 메모리의 형태의 컴퓨터 저장 매체를 포함한다. 시동중과 같은 컴퓨터(110) 내의 엘리먼트들 간의 정보 전송을 돕는 기본 루틴을 포함하는 기본 입출력 시스템(133; BIOS)은 일반적으로, ROM(131) 내에 저장된다. RAM(132)은 일반적으로, 프로세싱 유닛(120)에 의해 즉시 액세스가능하고/액세스가능하거나 현재 동작되는 데이터 및/또는 프로그램 모듈을 포함한다. 예를 들어, 도 1은 오퍼레이팅 시스템(134), 어플리케이션 프로그램(135), 기타 프로그램 모듈(136) 및 프로그램 데이터(137)를 도시하지만, 이것으로 한정되지 않는다.
컴퓨터(110)는 또한, 다른 분리형/비분리형, 휘발성/비휘발성 컴퓨터 저장 매체를 포함할 수 있다. 예를 들어, 도 1은 비분리형, 비휘발성 자기 매체로부터 판독하고 그곳에 기록하는 하드 디스크 드라이브(141), 분리형, 비휘발성 자기 디스크(152)로부터 판독하고 그곳에 기록하는 자기 디스크 드라이브(151), 및 CD-ROM 또는 기타 광 매체와 같은 분리형, 비휘발성 광 디스크(156)로부터 판독하고 그곳에 기록하는 광 디스크 드라이브(155)를 도시한다. 예시적인 오퍼레이팅 환경에서 사용될 수 있는 다른 분리형/비분리형, 휘발성/비휘발성 컴퓨터 저장 매체로는, 자기 테이프 카세트, 플래시 메모리 카드, DVD, 디지털 비디오 테이프, 고체상태 RAM, 고체상태 ROM 등이 있지만, 이것으로 제한되지 않는다. 하드 디스크 드라이브(141)는 일반적으로, 인터페이스(140)와 같은 비분리형 메모리 인터페이스를 통해 시스템 버스(121)에 접속되고, 자기 디스크 드라이브(151) 및 광 디스크 드라이브(155)는 일반적으로, 인터페이스(150)와 같은 분리형 메모리 인터페이스에 의해 시스템 버스(121)에 접속된다.
상술되고 도 1에 도시된 드라이브 및 그와 관련된 컴퓨터 저장 매체는 컴퓨터(110)를 위한 컴퓨터 판독가능 명령, 데이터 구조, 프로그램 모듈 및 기타 데이터의 저장 장치를 제공한다. 도 1에서는, 예를 들어, 하드 디스크 드라이브(141)가 오퍼레이팅 시스템(144), 어플리케이션 프로그램(145), 기타 프로그램 모듈(146) 및 프로그램 데이터(147)를 저장하는 것으로 도시된다. 이 컴포넌트들은 오퍼레이팅 시스템(134), 어플리케이션 프로그램(135), 기타 프로그램 모듈(136) 및 프로그램 데이터(137)와 동일할 수도 있고 다를 수도 있음을 유의한다. 오퍼레이팅 시스템(144), 어플리케이션 프로그램(145), 기타 프로그램 모듈(146) 및 프로그램 데이터(147)는 최소한 그들이 상이한 복사본이라는 것을 나타내기 위하여 여기에서 상이한 번호를 부여받는다.
사용자는 키보드(162), 마이크로폰(163), 및 마우스, 트랙볼 또는 터치 패드 와 같은 포인팅 장치(161) 등의 입력 장치를 통해 명령 및 정보를 컴퓨터(110)에 입력할 수 있다. 다른 입력 장치(도시되지 않음)는 조이스틱, 게임 패드, 위성 접시, 스캐너 등을 포함할 수 있다. 이러한 입력 장치 및 다른 입력 장치는 종종, 시스템 버스에 연결되어 있는 사용자 입력 인터페이스(160)를 통해 프로세싱 유닛(120)에 접속되지만, 병렬 포트, 게임 포트 또는 USB(universal serial bus)와 같은 다른 인터페이스 및 버스 구조에 의해 접속될 수 있다. 모니터(191) 또는 다른 유형의 디스플레이 장치는 또한, 비디오 인터페이스(190)와 같은 인터페이스를 통해 시스템 버스(121)에 접속된다. 모니터 외에, 컴퓨터는 또한, 출력 주변장치 인터페이스(195)를 통해 접속될 수 있는 스피커(197) 및 프린터(196)와 같은 다른 주변 출력 장치를 포함할 수 있다.
컴퓨터(110)는 원격 컴퓨터(180)와 같은 하나 이상의 원격 컴퓨터로의 논리적인 접속을 사용한 네트워크 환경에서 동작할 수 있다. 원격 컴퓨터(180)는 퍼스널 컴퓨터, 핸드-헬드 장치, 서버, 라우터, 네트워크 PC, 피어 장치 또는 다른 흔한 네트워크 노드일 수 있고, 일반적으로, 컴퓨터(110)와 관련하여 상술된 엘리먼트들 중 다수 또는 전부를 포함한다. 도 1에 도시된 논리적인 접속은 근거리 네트워크(LAN; 171) 및 광역 네트워크(WAN; 173)를 포함하지만, 다른 네트워크도 포함할 수 있다. 그러한 네트워킹 환경은 사무실, 기업형 컴퓨터 네트워크, 인트라넷 및 인터넷에서 흔하다.
LAN 네트워킹 환경에서 사용될 때, 컴퓨터(110)는 네트워크 인터페이스 또는 어댑터(170)를 통해 LAN(171)에 접속된다. WAN 네트워킹 환경에서 사용될 때, 컴 퓨터(110)는 일반적으로, 모뎀(172), 또는 인터넷과 같은 WAN(173)을 통한 통신을 설립하기 위한 다른 수단을 포함한다. 내장 또는 외장일 수 있는 모뎀(172)은 사용자 입력 인터페이스(160) 또는 다른 적절한 메커니즘을 통해 시스템 버스(121)에 접속될 수 있다. 네트워크 환경에서, 컴퓨터(110)와 관련되어 도시된 프로그램 모듈, 또는 그 일부는 원격 메모리 저장 장치에 저장될 수 있다. 예를 들어, 도 1은 원격 어플리케이션 프로그램(185)을 원격 컴퓨터(180)에 상주하는 것으로 도시하지만, 이것으로 제한되지 않는다. 도시된 네트워크 접속은 예시적인 것이며, 컴퓨터들 간의 통신 링크를 설립하는 다른 수단이 사용될 수 있음을 이해할 것이다.
본 발명은 새로운 단어를 수집하여, 단어-분해자에 의해 사용된 사전에 추가되도록 하기 위한 개선된 방법을 포함한다. 수집 방법과 단어-분해자 중 하나 또는 둘 다는 도 1에 도시된 것과 같은 컴퓨팅 환경, 또는 다른 유형의 컴퓨팅 환경에서 구현될 수 있다. 일반적으로, 맞춤 사전 또는 시스템 사전에 포함시키기 위해 새로운 단어를 수집하는 강도 높은 수동적 노력을 포함하는 통상적인 방법과는 반대로, 본 발명의 방법 및 시스템은 검색 질의 로그를 사용하여 자동적으로 또는 반자동적으로 새로운 단어를 획득한다. 본 발명의 새로운 단어 수집 방법은 특히, 단어가 단어들 간의 스페이스나 하이픈을 사용하지 않고 복합되어 있는 교착어에 유용하다.
도 2는 나중에 검색 엔진에서 사용하기 위하여, 문서 또는 웹 사이트를 인덱싱하는 프로세스 동안 단어-분해를 사용한 것을 도시하는 검색 엔진 인덱싱 시스템(200)의 블록도이다. 시스템(200)은 문자 스트링 추출 모듈(210)을 포함한다. 인 덱스 시에, 모듈(210)은 215에 도시된 문서 또는 웹 사이트(총체적으로 "문서"라고 지칭함)로부터 문자 스트링(211)을 추출한다.
시스템(200)은 또한, 문자 스트링(211)을 분석하여 키워드(221)를 생성하는 단어-분해 모듈(220)을 포함한다. 단어-분해 모듈(220)은 통상적인 단어-분해 모듈 함수로서 기능할 수 있다. 문자 스트링(211)으로부터 키워드(221)를 생성하는 프로세스에서, 단어-분해 모듈(220)은 사전(225)을 사용한다. 사전(225)은 다양한 어플리케이션에 의해 사용된 통상적인 완전한 사전, 특정 어플리케이션에 특정적인 맞춤 사전 또는 이들의 조합일 수 있다. 통상적인 방식으로, 단어-분해 모듈(220)은 또한, 문자 스트링의 특정 교착어에 대하여 적절한 문법(230) 및 통계적 데이터(235)를 사용할 수 있다.
몇몇 검색 엔진은 특정 노이즈 단어를 배제하기 때문에, 단어-분해 모듈(220)은 또한, 노이즈 단어 데이터베이스 또는 목록(240)에 액세스할 수 있고, 결국 키워드(221)로서 제공될 결과로서의 단어의 그룹으로부터 노이즈 단어를 빼거나 배제할 수 있다. 이 기능은 또한, 요구되는 경우, 개별 노이즈 단어 배제 모듈에 의해 개별 노이즈 단어 배제 단계에서 구현될 수 있다. 노이즈 단어 목록(240) 내의 노이즈 단어는 모든 검색 엔진이 동일한 노이즈 단어를 배제하는 것은 아니기 때문에, 개별화가능형(customizable)일 수도 있고, 특정 검색 엔진에 특정적일 수도 있다. 예시적인 노이즈 단어는 영어의 "a" 및 "the"에 대응하는 단어와 같은 기능적 단어를 포함할 수 있다. 또 다른 예로, 일본어의 경우에는, 단일-문자의 일본어 가나 단어가 있다. 다른 유형의 노이즈 단어에 대한 다수의 다른 예가 있 을 수 있으며, 이것은 특정 교착어에 따라 달라진다.
단어-분해 모듈(220)에 의해 제공된 결과로서의 키워드(221)는 인덱스(250)에 추가된다. 인덱스(250)는 원래의 문자 스트링이 추출되었던 문서(215)에 키워드를 상호관련시킨다. 이 키워드는 키워드를 포함하는 검색 엔진 질의에 응답하여 적절한 문서를 검색하는 데 사용된다.
도 3은 자연 언어 사용자 질의에 응답하여 문서 또는 웹사이트 검색 동안의 단어-분해 사용을 도시하는 검색 엔진 시스템(300)의 블록도이다. 시스템(300)은 텍스트 입력(305) 형태로 사용자 질의를 수신하는 단어-분해 모듈(220)을 포함한다. 예를 들어, 교착어의 경우에, 텍스트 입력(305)은 일반적으로 텍스트 스트링 형태이다. 단어-분해 모듈은 도 2에 도시된 시스템(200)에서 사용된 것과 동일한 단어-분해 모듈로서 도시된다. 그러나, 이것은 필수적인 것은 아니며, 다양한 시스템에서 사용된 단어-분해 모듈들 간의 차이점이 존재할 수 있다.
단어-분해 모듈(220)은 사전(225)을 사용하여 알려진 방식으로 단어-분해 기능을 수행한다. 전술된 바와 같이, 단어-분해 모듈은 또한, 문법, 통계적 데이터 및 다른 자원을 사용하여, 분석되고 있는 특정 언어에 가장 유용하거나 요구되는 단어-분해 기능을 수행할 수 있다. 단어-분해 모듈(220)의 출력은 텍스트 입력(305)으로부터 파생된 단어 목록(310)이다.
상술된 인덱싱 시스템(200)과 마찬가지로, 검색 엔진 시스템(300)은 노이즈 단어를 배제할 수 있다. 다시, 노이즈 단어는 "a" 및 "the" 등과 같은 기능적 단어, 또는 내용이 충분하지 않고 중요한 의미를 지니지 않는 다른 단어를 포함할 수 있다. 노이즈 단어는 특정 언어에 특정적일 수 있으며, 그 예로는 일본어 가나 단어를 들 수 있다. 노이즈 단어 배제는 선택적이며, 별개의 노이즈 단어 배제 모듈(320)로 구현될 수도 있고, 단어-분해 모듈(220) 내에서 구현될 수도 있다. 노이즈 단어 배제 후에, 그 결과는 키워드(330)의 목록 또는 그룹이 된다.
시스템(300)은 또한, 키워드(330)를 인덱스(250) 내에 저장된 키워드와 비교하는 키워드 룩업 모듈(340)을 포함한다. 키워드(330)가 인덱스(250) 내의 키워드와 일치하는 경우, 대응하는 문서 또는 사이트(215)(또는 대응하는 문서 또는 사이트의 목록)가 검색된다. 키워드 룩업 모듈(340)은 일반적으로, 검색된 문서 또는 사이트를 순위매김하여 그 결과(350)가 질의에 대한 의도된 결과일 가능성이 크게 되도록 할 것이다, 예를 들어, 모듈(340)은 문서 또는 사이트 내의 키워드의 빈도수에 근거하여, 또는 개개의 문서 또는 사이트에서 실제로 발견된 키워드의 퍼센트에 근거하여, 또는 다른 순위매김 기준에 의해 그 결과를 순위매김할 수 있다.
이제, 도 4를 참조하면, 본 발명의 실시예에 따른 새로운 단어 수집 시스템(400)이 도시된다. 도 4에 도시된 다양한 모듈은 유사하게, 본 발명의 방법을 나타낸다. 시스템(400) 및 그와 대응하는 방법은 본 발명을 더욱 잘 설명하기 위해 함께 설명된다.
본 발명의 새로운 단어 수집 방법의 제1 단계는 검색, 또는 검색 엔진의 질의 로그를 획득하여, 특정 언어(들)로 제출된 질의의 목록을 수집하는 것이다. 이것은 도 4에서 질의 로그(410)로서 도시된다. 다음으로, 질의 로그는 로그 내에서 발생하는 빈도수의 함수로서 소팅된다. 이 단계, 및 시스템(400)에서 그와 대응하 는 컴포넌트는 소팅된 질의(421)를 출력으로서 제공하는 질의 로그 소팅 모듈(420)에 의해 나타낸다. 질의 로그는 다수의 기술 중 임의의 것을 사용하여 발생 빈도수에 의해 소팅될 수 있다. 예를 들어, 발생 빈도수는 질의가 정확히(또는 거의 정확히) 동일한 형태로 몇 번 발생하였는지에 근거할 수 있다. 그러나, 발생 빈도수는 또한, 질의가 정확히 동일한 형태로 나타나지 않더라도, 유사한 질의를 질의 번들(bundle)로 함께 그룹핑하는 것에 근거할 수 있다.
다음으로, 방법은 임의의 소정의 귀납법에 근거하여 소팅된 질의를 필터링하는 것을 포함한다. 이것은 도 4에서 귀납적 필터링 모듈(들)(430)로서 도시되며, 필터링 모듈은 필터링 후, 출력(431)에서 새로운 단어의 후보 목록을 제공한다. 소팅된 질의를 필터링하는 데 사용된 귀납법은 특정 구현 및/또는 상이한 언어에 대해 매우 다양할 수 있지만, 도 5에서 귀납적 필터링 기준의 예가 더 설명된다.
도 5에서 도시되는 바와 같이, 귀납적 필터링 모듈(430; 귀납적 필터링 기준으로 표현됨)은 질의 길이 필터(510)를 포함할 수 있다. 질의 길이 필터(510)는 임의의 소정의 개수의 글자 또는 문자보다 길고/길거나 짧은 질의 스트링을 필터링하여, 출력(511)에서 이 기준을 통과하는 질의만을 제공한다. 이 필터링 기준은 (상한 임계치보다 긴) 합성어이거나, 예를 들어, 사용자가 우연히 엔터 키를 쳐서 새로운 단어가 되기에는 너무 짧은(하한 임계치보다 짧은) 스트링을 새로운 단어의 후보 목록으로부터 제거한다. 너무 긴 단어를 제거하는 필터링이 너무 짧은 단어를 필터링하는 것과 반드시 함께 사용될 필요는 없음을 주지해야 한다. 몇몇 실시예에서는, 너무 짧은 단어에 근거한 필터링이 존재하지 않는다.
다음으로, 남아있는 질의는 필터링되어 질의 로그에서 충분히 자주 나타나지 않는 단어들을 제거한다. 이것은 도 5에서 질의 빈도수 필터(520)로서 도시된다. 질의 빈도수 필터(520)는 질의 로그에서 임의의 소정의 임계 횟수보다 더 자주 나타나지 않는 질의 스트링을 필터링하여, 츨력(521)에서, 이 기준을 통과할 만큼 충분히 자주 발생하는 질의만을 제공한다. 다른 실시예에서, 질의 빈도수 필터(520)는 질의 길이 필터(510) 전에 그 기능을 수행할 수 있음을 유념해야 한다. 마찬가지로, 필터링 순서에서의 다른 변화가 가능하다.
다음으로, 남아있는 질의는 단어-분해 결과에 근거하여 필터링된다. 이것은 단어-분해 결과 필터(530)로서 도시된다. 단어-분해 결과 필터(530)는 남아있는 질의를 단어-분해 결과와 비교하고, 단어-분해 모듈(220)에 의해 단일 단어로서 이미 분석된 임의의 질의를 제거한다. 단어-분해 결과를 제공할 때, 모듈(220)은 사전(225)을 사용하고, 필요 시, 상술된 문법, 통계 데이터, 노이즈 단어 목록 등을 포함하는 다른 자원을 사용한다. 단어-분해 모듈에 의해 단일 단어로서 이미 분석되지 않은 남아있는 질의는 출력(531)에서 필터(530)에 의해 제공된다.
다음으로, 요구되는 경우, 도 5에서 총체적으로 필터(540)로 표현되는 다른 필터 기준이 적용될 수 있다. 예를 들어, 새로운 일본어 단어를 수집할 때, 히라가나는 단어를 알지 못하고 분석할 때 단어-분석이 곤란해지는 주요 영역이기 때문에, 필터(540)는 히라가나 또는 가타가나, 또는 스트링이 아닌 모든 단어 후보를 제거할 수 있다. 마찬가지로, 필터(540)는 히라가나 또는 가타가나 단어, 또는 스트링이 아닌 모든 단어 후보를 제거할 수 있다. 하나 이상의 일본어 문자 유형 제 약에 근거한 필터링에 대해서 2가지 예가 있다. 보다 일반적으로, 일본어 문자 유형 제약에 근거하여 후보 목록으로부터 질의를 제거하는 것은 소팅된 질의의 문자 유형의 조합에 대한 귀납법에 근거하여 질의를 제거하는 것을 포함할 수 있다. 다수의 다른 필터링 기준도 가능하다.
다시 도 4를 참조하면, 새로운 단어(431)의 결과 후보 목록은 440으로 도시되는 바와 같이 인간에 의해(즉, 인간이 후보 목록으로부터 단어를 선택 또는 제거하게 함으로써) 더 필터링될 수 있다. 인간의 필터링을 포함할 지에 관한 결정은 선택적이며, 특정 요구사항과 작업부하/효과 또는 이익의 상충관계에 의존할 것이다. 본 발명의 방법 및 시스템의 하나의 장점은 특히, 교착어에서 새로운 단어를 식별하는 인간의 작업부하를 감소시키는 것이다. 이 점에서 인간의 필터링을 추가하는 것은 또한, 지나치게 부담스러운 작업부하를 추가하지 않고 결과를 향상시킬 수 있다.
인간의 필터링 후에, 남아있는 질의 엔트리는 새로운 단어 목록(441)으로서 제공된다. 이 새로운 단어는 상술한 인덱싱 및 검색 엔진 질의 태스크에서 단어-분해에 사용된 맞춤 또는 전체 사전{총제적으로, 도 2, 도 3 및 도 5에서 사전(225)으로서 도시됨}에 추가되거나 통합된다. 새로운 단어 목록(441)이 추가된 업데이트된 사전(들)은 도 4에서 450으로 표현된다. 이 업데이트된 사전은 상술된 시스템 및 방법의 앞으로의 사용에서 원래 사전(225)을 대신하여 사용될 것이다. 또한, 결과로서의 새로운 단어는 검색 엔진의 단어-분해 기능에 대해서뿐만 아니라, 단어-분해를 포함하는 임의의 다른 자연 언어 분석에 대해서도 사용될 수 있 다. 그 예로는, 오식(typo) 검출 기능, 대안적인 제시 기능(즉, "...을 의미합니까?" 검색 엔진 특징) 등이 있다.
본 발명을 사용하여 식별된 새로운 단어로 사전(들)을 업데이트한 후에, 상술된 시스템은 전체 문서를 업데이트된 사전으로 다시 인덱싱하는 데 사용될 수 있다. 업데이트되거나 새로운 인덱스는 검색 엔진 질의 분석에 사용하기 위해 원래 인덱스를 대신할 수 있다. 본 발명의 방법 및 시스템을 사용하여 사전에 추가하기 위한 새로운 단어를 식별함으로써, 개선된 언어 분석 결과가 달성될 수 있다. 검색 시나리오에서, 보다 나은 검색 결과가 달성될 수 있다. 본 발명은 맞춤 사전을 유지하는 데 필요한 작업부하를 많이 감소시킨다. 결과는 또한, 다음 세대 사전으로 이식되어, 사전을 업데이트하는 데 요구되는 작업부하를 감소시킬 수 있다.
다음은 새로운 단어를 식별하는 본 발명의 방법 및 시스템을 필요로하는 일본어 예와, 본 발명의 방법 및 시스템이 이 예의 문맥에서 어떻게 수행되는 지에 관한 예이다. 새로운 일본 단어 "らるく"(라루쿠)에 대해 생각해보자. 이것은 팝 음악 그룹의 새로 만들어낸 별명(짧은 형태)이기 때문에, 시스템 사전에 추가되지 않았을 수 있다. 배경 정보로서, 일본어로, 팝 음악 그룹에 대한 공식적인 이름은 "ラルクアンシエル"(가타가나로 "라루쿠안시에루")이다. 알파벳 표식은 "L'ArcenCiel"이다. 이 예를 설명하기 위하여, らるく가 사실, 시스템 사전에 추가되지 않았다고 가정하자.
단어-분해자가 이 단어를 인식하지 못한다면 어떤 일이 발생할까?
경우 A: 단어-분해자는 알려지지 않은 단어를 상위분해(over-break)하려고 한다(이것은 이하 설명되는 경우 B보다 더 흔함). 경우 A에서:
● 단어 분해 결과는 ら/る/く(라/루/쿠) 또는 이와 유사할 것이다.
● 단어-분해자가 한 문자로 된 가나(kana)를 노이즈 단어로서 누락시키면, 모든 내용 또는 청크(chunk)가 누락되고, 이 용어는 전혀 검색될 수 없다.
● 단어-분해자가 한 문자로 된 가나를 노이즈 단어로서 누락시키지 않는다 하더라도, ら 또는 る 또는 く(라 또는 루 또는 쿠)와 일치되는 것은 많을 것이고, 이것은 수행에 대한 부정적인 요인이 되고 일치하는 문서를 순위매김하는 데 문제를 일으킬 수 있다.
● 또한, 단어-분해자는 어떤 문맥에서는 일관되게 잘 수행하지 않을 수 있다. 문서가 구절 らるくに
Figure 112005011403176-pat00001
った(라루쿠니앗따, 의미는 "라루쿠를 만났다"임)를 포함한다고 가정하자. 이 구절의 단어-분해 결과는 ら/る/くに/
Figure 112005011403176-pat00002
/った/(라/루/쿠니/앗/따)일 수 있고, 이것은 (라/루/쿠)와 일치하지 않는다.
경우 B: 단어-분해자는 (알려지지 않은 단어 추측 메커니즘을 사용하여) 알려지지 않은 단어를 하위분해(under-break)하려고 한다. 경우 B에서:
● 단어-분해 결과는 らるく(라루쿠) 또는 이와 유사할 것이다. 이것은 나쁜 결과는 아니다.
● 그러나, 아직도, 단어 분해자는 몇몇 문맥에서 일관되게 잘 수행하지 않을 수 있다. 문서가 구절 らるくに
Figure 112005011403176-pat00003
った(라루쿠니앗따, 의미는 "라루쿠를 만났다"임)를 포함한다고 가정하자. 이 구절의 단어-분해 결과는 らる/くに/
Figure 112005011403176-pat00004
/った/(라루/쿠니/앗/따)일 수 있고, 이것은 (라루쿠)와 일치하지 않는다.
이 단어가 맞춤 사전에 추가된다면(또는 시스템 사전에 통합된다면) 어떤 일이 발생할까? 상술한 A와 B 모든 경우에서, 예상된 결과가 달성될 것이다.
질의 : らるく(라루쿠) -> 하나의 단어로서의 らるく(라루쿠).
문서에서 : らるくに
Figure 112005011403176-pat00005
った(라루쿠니앗따) -> らるく/に/
Figure 112005011403176-pat00006
/った/(라루쿠/니/앗/따).
따라서, 이 단어를 사전에 추가하기 위한 새로운 단어로서 인식하는 것이 중요하다. 이 단어가 상술된 필터링에 의해 픽업되는 프로세스를 생각해보자.
이것은 매우 빈번한 질의인 것으로 알려져 있다. 이 질의는 충분히 짧다. 이것은 이 질의가 복합 단어 또는 구절과는 대조적으로 하나의 단어일 수 있음을 의미한다.
단어-분해가 이 질의에 대해 실행될 경우, 2가지 경우 A와 B가 있다.
경우 A: 단어-분해자는 알려지지 않은 단어를 상위분해하려고 한다(이것은 경우 B보다 더 흔함).
● 단어-분해 결과는 ら/る/く(라/루/쿠) 또는 이와 유사할 것이다.
● 단어-분해자가 한 문자로 된 가나(kana)를 노이즈 단어로서 누락시키고, 질의의 대부분이 노이즈 단어로서 누락되면, 이 용어는 분명히 새로운 단어 후보가 된다.
● 단어-분해자가 한 문자로 된 가나를 노이즈 단어로서 누락시키지 않는다면, 단어-분해 결과가 너무 작은 가나 청크인지를 확인하기 위해 검사한다. 이 경우에, 질의는 다시 새로운 단어가 될 좋은 후보가 된다. 일반적으로, 표문자 (ideographic) 문자(들)를 갖는 짧은 청크는 심각한 검색 문제를 야기하지 않는다. 따라서, 이러한 경우는 배제될 수 있다.
경우 B: 단어-분해자는 알려지지 않은 단어를 하위분해하려고 한다.
● 단어-분해 결과는 らるく(라루쿠)이다.
● 스트링 らるく(라루쿠)가 사전 내에 있는 지를 검사한다. 사전 내에 존재하지 않으면, 특히, 질의가 모두 가나로 이루어져 있는 경우, 질의는 사전에 새로운 단어로서 추가될 좋은 후보가 된다.
본 발명은 특정 실시예를 참조하여 설명되었지만, 본 분야에 숙련된 자들은 본 발명의 취지 및 범주를 벗어나지 않고 형태 및 상세사항에서의 변경이 이루어 질 수 있음을 인식할 것이다.
본 발명의 방법 및 시스템은 검색 질의 로그를 사용하여 자동적으로 또는 반자동적으로 새로운 단어를 획득한다

Claims (20)

  1. 교착어(agglutinative language)에 대하여, 사전(lexicon)에 추가할 새로운 단어들을 수집하는 방법으로서,
    질의 로그에 의해, 검색 엔진에 제출된 질의들의 로그를 획득하는 단계;
    질의 로그 소팅 모듈에 의해, 상기 질의들의 로그를 로그 내에서 발생하는 빈도수의 함수로서 소팅(sort)하여 소팅된 질의들을 획득하는 단계;
    귀납적 필터링 모듈에 의해, 복수의 귀납적 필터링 기준(heuristic filtering criteria)을 사용하여 상기 소팅된 질의들을 필터링하여, 새로운 단어들의 후보 목록(candidate list)을 획득하는 단계 - 상기 복수의 귀납적 필터링 기준을 사용하여 상기 소팅된 질의들을 필터링하여, 새로운 단어들의 후보 목록을 획득하는 단계는, 상기 소팅된 질의들을 단어-분해 결과와 비교하고, 단어-분해자(word-breaker)에 의해 단어 분해의 결과에서 단일 단어인 것으로서 이미 분석된 질의들을 상기 후보 목록으로부터 제거하는 단계를 포함함 -; 및
    프로세서를 이용하여, 상기 새로운 단어들의 후보 목록으로부터의 단어들을 상기 사전에 추가하는 단계
    를 포함하는 방법.
  2. 제1항에 있어서,
    상기 복수의 귀납적 필터링 기준을 사용하여 상기 소팅된 질의들을 필터링하여, 새로운 단어들의 후보 목록을 획득하는 단계는, 미리 정해진 임계 길이보다 더 긴 길이를 갖는 질의들을 상기 후보 목록으로부터 제거하는 단계를 더 포함하는 방법.
  3. 제2항에 있어서,
    상기 복수의 귀납적 필터링 기준을 사용하여 상기 소팅된 질의들을 필터링하여, 새로운 단어들의 후보 목록을 획득하는 단계는, 질의 로그에서의 발생 빈도수가 미리 정해진 임계 발생 빈도수보다 더 적은 질의들을 상기 후보 목록으로부터 제거하는 단계를 더 포함하는 방법.
  4. 삭제
  5. 삭제
  6. 제1항에 있어서,
    상기 교착어는 일본어인 방법.
  7. 제6항에 있어서,
    상기 복수의 귀납적 필터링 기준을 사용하여 상기 소팅된 질의들을 필터링하여 새로운 단어들의 후보 목록을 획득하는 단계는, 일본어 문자 유형 제약에 근거하여 상기 후보 목록으로부터 질의들을 제거하는 단계를 더 포함하는 방법.
  8. 제7항에 있어서,
    상기 일본어 문자 유형 제약에 근거하여 상기 후보 목록으로부터 질의들을 제거하는 단계는 히라가나 또는 가타가나 스트링들이 아닌 질의들을 제거하는 단계를 더 포함하는 방법.
  9. 제7항에 있어서,
    상기 일본어 문자 유형 제약에 근거하여 상기 후보 목록으로부터 질의들을 제거하는 단계는 상기 소팅된 질의의 문자 유형들의 조합에 대한 귀납법에 근거하여 질의들을 제거하는 단계를 더 포함하는 방법.
  10. 컴퓨터 실행가능 명령어들을 포함하는 컴퓨터 판독가능 기록 매체로서,
    상기 컴퓨터 실행가능 명령어들은
    질의 로그 소팅 모듈에 의해, 교착어의 검색 엔진에 제출된 질의들의 로그를 로그 내에서 발생하는 빈도수의 함수로서 소팅하여 소팅된 질의들을 획득하는 단계; 및
    귀납적 필터링 모듈에 의해, 복수의 귀납적 필터링 기준을 사용하여 상기 소팅된 질의들을 필터링하여, 사전에 추가할 새로운 단어들의 후보 목록을 획득하는 단계
    를 수행하기 위한 것이고,
    상기 복수의 귀납적 필터링 기준을 사용하여 상기 소팅된 질의들을 필터링하는 단계는, 질의 길이 필터에 의해, 미리 정해진 임계 길이보다 더 긴 길이를 갖는 질의들을 상기 새로운 단어들의 후보 목록으로부터 제거하는 단계를 더 포함하는 컴퓨터 판독가능 기록 매체.
  11. 제10항에 있어서,
    상기 복수의 귀납적 필터링 기준을 사용하여 상기 소팅된 질의들을 필터링하는 단계는, 단어-분해자에 의해 단일 단어인 것으로서 이미 분석된 질의들을 상기 후보 목록으로부터 제거하는 단계를 더 포함하는 컴퓨터 판독가능 기록 매체.
  12. 제10항에 있어서,
    상기 컴퓨터 실행가능 명령어들은 새로운 단어들의 후보 목록으로부터의 단어들을 사전에 추가하는 단계를 수행하기 위한 컴퓨터 실행가능 명령어들을 더 포함하는 컴퓨터 판독가능 기록 매체.
  13. 검색 엔진에 제출된 질의들의 로그로부터 사전에 추가할 교착어의 새로운 단어들을 수집하기 위한 새로운 단어 수집 시스템으로서,
    상기 질의들의 로그를 상기 로그 내에서 발생하는 빈도수의 함수로서 소팅하여 상기 교착어의 소팅된 질의들을 획득하도록 구성된 질의 로그 소팅 컴포넌트; 및
    복수의 귀납적 필터링 기준을 사용하여 상기 교착어의 상기 소팅된 질의들을 필터링하여, 새로운 단어들의 후보 목록을 획득하도록 구성된 귀납적 필터링 컴포넌트 - 상기 귀납적 필터링 컴포넌트는, 상기 소팅된 질의들을 단어-분해 결과와 비교하고, 단어-분해자에 의해 단어 분해의 결과에서 단일 단어인 것으로서 이미 분석된 질의들을 상기 새로운 단어들의 후보 목록으로부터 제거하도록 구성된 단어 분해 결과 필터를 포함함 -
    를 포함하는 새로운 단어 수집 시스템.
  14. 제13항에 있어서,
    상기 귀납적 필터링 컴포넌트는, 미리 정해진 임계 길이보다 더 긴 길이를 갖는 질의들을 상기 새로운 단어들의 후보 목록으로부터 제거하도록 구성된 질의 길이 필터를 더 포함하는 새로운 단어 수집 시스템.
  15. 제14항에 있어서,
    상기 귀납적 필터링 컴포넌트는, 질의 로그에서의 발생 빈도수가 미리 정해진 임계 발생 빈도수보다 더 적은 질의들을 상기 새로운 단어들의 후보 목록으로부터 제거하도록 구성된 질의 빈도수 필터를 더 포함하는 새로운 단어 수집 시스템.
  16. 제10항에 있어서,
    상기 교착어는 일본어이고, 상기 복수의 귀납적 필터링 기준을 사용하여 상기 소팅된 질의들을 필터링하여 새로운 단어들의 후보 목록을 획득하는 단계는, 일본어 문자 유형 제약에 근거하여 상기 후보 목록으로부터 질의들을 제거하는 단계를 더 포함하는 컴퓨터 판독가능 기록 매체.
  17. 제16항에 있어서,
    상기 일본어 문자 유형 제약에 근거하여 상기 후보 목록으로부터 질의들을 제거하는 단계는 히라가나 또는 가타가나 스트링들이 아닌 질의들을 제거하는 단계를 더 포함하는 컴퓨터 판독가능 기록 매체.
  18. 제13항에 있어서,
    상기 교착어는 일본어이고, 상기 복수의 귀납적 필터링 기준을 사용하여 상기 소팅된 질의들을 필터링하여 새로운 단어들의 후보 목록을 획득하는 단계는, 일본어 문자 유형 제약에 근거하여 상기 후보 목록으로부터 질의들을 제거하는 단계를 더 포함하는 새로운 단어 수집 시스템.
  19. 제18항에 있어서,
    상기 일본어 문자 유형 제약에 근거하여 상기 후보 목록으로부터 질의들을 제거하는 단계는 히라가나 또는 가타가나 스트링들이 아닌 질의들을 제거하는 단계를 더 포함하는 새로운 단어 수집 시스템.
  20. 제18항에 있어서,
    상기 일본어 문자 유형 제약에 근거하여 상기 후보 목록으로부터 질의들을 제거하는 단계는 상기 소팅된 질의의 문자 유형들의 조합에 대한 귀납법에 근거하여 질의들을 제거하는 단계를 더 포함하는 새로운 단어 수집 시스템.
KR1020050017754A 2004-03-03 2005-03-03 단어-분해에 사용하기 위한 새로운 단어 수집 방법 및 시스템 KR101122942B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/792,443 2004-03-03
US10/792,443 US7424421B2 (en) 2004-03-03 2004-03-03 Word collection method and system for use in word-breaking

Publications (2)

Publication Number Publication Date
KR20060043381A KR20060043381A (ko) 2006-05-15
KR101122942B1 true KR101122942B1 (ko) 2012-03-20

Family

ID=34911853

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020050017754A KR101122942B1 (ko) 2004-03-03 2005-03-03 단어-분해에 사용하기 위한 새로운 단어 수집 방법 및 시스템

Country Status (4)

Country Link
US (1) US7424421B2 (ko)
JP (1) JP2005251206A (ko)
KR (1) KR101122942B1 (ko)
CN (1) CN1664818B (ko)

Families Citing this family (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050149388A1 (en) * 2003-12-30 2005-07-07 Scholl Nathaniel B. Method and system for placing advertisements based on selection of links that are not prominently displayed
US7783476B2 (en) * 2004-05-05 2010-08-24 Microsoft Corporation Word extraction method and system for use in word-breaking using statistical information
US7752200B2 (en) * 2004-08-09 2010-07-06 Amazon Technologies, Inc. Method and system for identifying keywords for use in placing keyword-targeted advertisements
US8051096B1 (en) 2004-09-30 2011-11-01 Google Inc. Methods and systems for augmenting a token lexicon
WO2007029348A1 (ja) 2005-09-06 2007-03-15 Community Engine Inc. データ抽出システム、端末装置、端末装置のプログラム、サーバ装置、及び、サーバ装置のプログラム
US7624099B2 (en) * 2005-10-13 2009-11-24 Microsoft Corporation Client-server word-breaking framework
US7941418B2 (en) * 2005-11-09 2011-05-10 Microsoft Corporation Dynamic corpus generation
US8176128B1 (en) * 2005-12-02 2012-05-08 Oracle America, Inc. Method of selecting character encoding for international e-mail messages
JP4720570B2 (ja) * 2006-03-27 2011-07-13 カシオ計算機株式会社 情報表示制御装置及び情報表示制御プログラム
US20080027911A1 (en) * 2006-07-28 2008-01-31 Microsoft Corporation Language Search Tool
US8131722B2 (en) * 2006-11-20 2012-03-06 Ebay Inc. Search clustering
US7818341B2 (en) 2007-03-19 2010-10-19 Microsoft Corporation Using scenario-related information to customize user experiences
US7797311B2 (en) * 2007-03-19 2010-09-14 Microsoft Corporation Organizing scenario-related information and controlling access thereto
US8078604B2 (en) 2007-03-19 2011-12-13 Microsoft Corporation Identifying executable scenarios in response to search queries
KR20100029221A (ko) * 2007-06-01 2010-03-16 구글 인코포레이티드 명칭 엔터티와 신규 단어를 검출하는 것
CN101779200B (zh) 2007-06-14 2013-03-20 谷歌股份有限公司 词典词和短语确定方法和设备
CN102124459B (zh) * 2007-06-14 2013-06-12 谷歌股份有限公司 词典词和短语确定
US8046355B2 (en) * 2007-09-04 2011-10-25 Google Inc. Word decompounder
US7877404B2 (en) * 2008-03-05 2011-01-25 Microsoft Corporation Query classification based on query click logs
US8407236B2 (en) * 2008-10-03 2013-03-26 Microsoft Corp. Mining new words from a query log for input method editors
CN101430680B (zh) * 2008-12-31 2011-01-19 阿里巴巴集团控股有限公司 一种无词边界标记语言文本的分词序列选择方法及系统
CN101477542B (zh) * 2009-01-22 2013-02-13 阿里巴巴集团控股有限公司 一种抽样分析方法、系统和设备
JP4831787B2 (ja) * 2009-02-09 2011-12-07 日本電信電話株式会社 引用検出装置、そのプログラム及び記録媒体
CN101615204A (zh) * 2009-07-24 2009-12-30 中兴通讯股份有限公司 输入法词库中添加自定义词的方法、装置及汉字输入设备
CN102270048B (zh) * 2010-06-03 2016-04-20 北京搜狗科技发展有限公司 一种名词输入的方法及系统
CN102411563B (zh) * 2010-09-26 2015-06-17 阿里巴巴集团控股有限公司 一种识别目标词的方法、装置及系统
CN102479191B (zh) * 2010-11-22 2014-03-26 阿里巴巴集团控股有限公司 提供多粒度分词结果的方法及其装置
CN102654873A (zh) * 2011-03-03 2012-09-05 苏州同程旅游网络科技有限公司 基于中文分词的旅游信息抽取与聚合方法
US10198506B2 (en) * 2011-07-11 2019-02-05 Lexxe Pty Ltd. System and method of sentiment data generation
US9483459B1 (en) * 2012-03-31 2016-11-01 Google Inc. Natural language correction for speech input
CN103425691B (zh) 2012-05-22 2016-12-14 阿里巴巴集团控股有限公司 一种搜索方法和系统
US8589164B1 (en) * 2012-10-18 2013-11-19 Google Inc. Methods and systems for speech recognition processing using search query information
US9298703B2 (en) 2013-02-08 2016-03-29 Machine Zone, Inc. Systems and methods for incentivizing user feedback for translation processing
US8996355B2 (en) 2013-02-08 2015-03-31 Machine Zone, Inc. Systems and methods for reviewing histories of text messages from multi-user multi-lingual communications
US9031829B2 (en) 2013-02-08 2015-05-12 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US8996353B2 (en) * 2013-02-08 2015-03-31 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US10650103B2 (en) 2013-02-08 2020-05-12 Mz Ip Holdings, Llc Systems and methods for incentivizing user feedback for translation processing
US9231898B2 (en) 2013-02-08 2016-01-05 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US8990068B2 (en) 2013-02-08 2015-03-24 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US9600473B2 (en) 2013-02-08 2017-03-21 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US8996352B2 (en) 2013-02-08 2015-03-31 Machine Zone, Inc. Systems and methods for correcting translations in multi-user multi-lingual communications
CN103136191A (zh) * 2013-03-14 2013-06-05 姚明东 一种电子商务字典中单字词的自动抽取方法
CN104076940A (zh) * 2013-03-27 2014-10-01 北京千橡网景科技发展有限公司 一种辅助输入方法和设备
US10162811B2 (en) 2014-10-17 2018-12-25 Mz Ip Holdings, Llc Systems and methods for language detection
US9372848B2 (en) 2014-10-17 2016-06-21 Machine Zone, Inc. Systems and methods for language detection
US10765956B2 (en) 2016-01-07 2020-09-08 Machine Zone Inc. Named entity recognition on chat data
CN106021430B (zh) * 2016-05-16 2018-01-19 武汉斗鱼网络科技有限公司 基于Lucence自定义词库的全文检索匹配方法及系统
CN107391504B (zh) * 2016-05-16 2021-01-29 华为技术有限公司 新词识别方法与装置
US10769387B2 (en) 2017-09-21 2020-09-08 Mz Ip Holdings, Llc System and method for translating chat messages
CN108733831B (zh) * 2018-05-25 2022-05-17 腾讯音乐娱乐科技(深圳)有限公司 一种对词库进行处理的方法及装置
US10740381B2 (en) * 2018-07-18 2020-08-11 International Business Machines Corporation Dictionary editing system integrated with text mining
CN111737950B (zh) * 2020-08-27 2020-12-08 北京安帝科技有限公司 一种电厂区域设备异常判断方法
CN113761170A (zh) * 2020-09-15 2021-12-07 北京沃东天骏信息技术有限公司 更新语料库的方法和装置
US11868341B2 (en) * 2020-10-15 2024-01-09 Microsoft Technology Licensing, Llc Identification of content gaps based on relative user-selection rates between multiple discrete content sources
CN113111655B (zh) * 2021-05-12 2023-01-31 数库(上海)科技有限公司 分离词典的构建方法、基于分离词典的分词方法及设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7113950B2 (en) * 2002-06-27 2006-09-26 Microsoft Corporation Automated error checking system and method

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01234975A (ja) * 1988-03-11 1989-09-20 Internatl Business Mach Corp <Ibm> 日本語文章分割装置
JPH04222055A (ja) * 1990-12-25 1992-08-12 Nippon Telegr & Teleph Corp <Ntt> 個人シソーラス作成支援装置
JPH081642B2 (ja) * 1991-01-28 1996-01-10 株式会社ピーエフユー キーワード検索方式
JPH09204437A (ja) * 1996-01-26 1997-08-05 Fuji Xerox Co Ltd 文書検索装置
US5963893A (en) * 1996-06-28 1999-10-05 Microsoft Corporation Identification of words in Japanese text by a computer system
JP2001505330A (ja) * 1996-08-22 2001-04-17 ルノー・アンド・オスピー・スピーチ・プロダクツ・ナームローゼ・ベンノートシャープ テキストストリーム中の単語の切れ目を与える方法及び装置
KR100749289B1 (ko) * 1998-11-30 2007-08-14 코닌클리케 필립스 일렉트로닉스 엔.브이. 텍스트의 자동 세그멘테이션 방법 및 시스템
US7505905B1 (en) * 1999-05-13 2009-03-17 Nuance Communications, Inc. In-the-field adaptation of a large vocabulary automatic speech recognizer (ASR)
JP2001043221A (ja) * 1999-07-29 2001-02-16 Matsushita Electric Ind Co Ltd 中国語単語分割装置
CN1360261A (zh) * 2001-11-29 2002-07-24 上海复旦光华信息科技股份有限公司 旁路式数据库访问侦听与还原的方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7113950B2 (en) * 2002-06-27 2006-09-26 Microsoft Corporation Automated error checking system and method

Also Published As

Publication number Publication date
CN1664818A (zh) 2005-09-07
KR20060043381A (ko) 2006-05-15
JP2005251206A (ja) 2005-09-15
US7424421B2 (en) 2008-09-09
CN1664818B (zh) 2015-08-05
US20050197829A1 (en) 2005-09-08

Similar Documents

Publication Publication Date Title
KR101122942B1 (ko) 단어-분해에 사용하기 위한 새로운 단어 수집 방법 및 시스템
US7783476B2 (en) Word extraction method and system for use in word-breaking using statistical information
US8392175B2 (en) Phrase-based document clustering with automatic phrase extraction
US8407236B2 (en) Mining new words from a query log for input method editors
US7461056B2 (en) Text mining apparatus and associated methods
US8122022B1 (en) Abbreviation detection for common synonym generation
CN105045852A (zh) 一种教学资源的全文搜索引擎系统
US20110264997A1 (en) Scalable Incremental Semantic Entity and Relatedness Extraction from Unstructured Text
KR101174057B1 (ko) 인덱스 분석장치와 인덱스 검색장치 및 그 방법
CN107844493B (zh) 一种文件关联方法及系统
US9875305B2 (en) System, method and computer program product for protecting derived metadata when updating records within a search engine
JP2011118689A (ja) 検索方法及びシステム
Al-Lahham et al. Conditional arabic light stemmer: condlight.
CN111104801A (zh) 基于网址域名的文本分词方法、系统、设备及介质
Wijeratne et al. Sinhala language corpora and stopwords from a decade of sri lankan facebook
Tonkin Searching the long tail: Hidden structure in social tagging
US8484221B2 (en) Adaptive routing of documents to searchable indexes
JP4143085B2 (ja) 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
Paramita et al. Methods for collection and evaluation of comparable documents
KR100659370B1 (ko) 시소러스 매칭에 의한 문서 db 형성 방법 및 정보검색방법
Bradford Use of latent semantic indexing to identify name variants in large data collections
Kasthuri et al. An improved rule based iterative affix stripping stemmer for Tamil language using K-mean clustering
Milić-Frayling Text processing and information retrieval
JP4059501B2 (ja) 自然語辞書更新装置
Malumba et al. AfriWeb: a web search engine for a marginalized language

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20150121

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee