KR101027848B1 - 컴퓨터를 이용한 질의-태스크 벌크 매핑 시스템 및 방법 - Google Patents

컴퓨터를 이용한 질의-태스크 벌크 매핑 시스템 및 방법 Download PDF

Info

Publication number
KR101027848B1
KR101027848B1 KR1020040065838A KR20040065838A KR101027848B1 KR 101027848 B1 KR101027848 B1 KR 101027848B1 KR 1020040065838 A KR1020040065838 A KR 1020040065838A KR 20040065838 A KR20040065838 A KR 20040065838A KR 101027848 B1 KR101027848 B1 KR 101027848B1
Authority
KR
South Korea
Prior art keywords
query
queries
mapping
list
training data
Prior art date
Application number
KR1020040065838A
Other languages
English (en)
Other versions
KR20050035066A (ko
Inventor
애드웨이트 라트나파크히
보리스 고로드니스키
펠리페루이스 나란조
로버트존 라그노
Original Assignee
마이크로소프트 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 마이크로소프트 코포레이션 filed Critical 마이크로소프트 코포레이션
Publication of KR20050035066A publication Critical patent/KR20050035066A/ko
Application granted granted Critical
Publication of KR101027848B1 publication Critical patent/KR101027848B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually

Abstract

주석 시스템은 검색 컴포넌트를 훈련시키기 위한 훈련 데이터를 획득하기 위해 사용자가 많은 수의 질의를 태스크에 매핑하는 것을 돕는다. 주석 시스템은 검색 엔진에 이전에 전송되었던 대량의 질의를 갖는 질의 로그를 포함한다. 복수의 가능한 태스크를 갖는 태스크 리스트가 저장된다. 머신 학습 컴포넌트는 질의 로그 데이터 및 태스크 리스트 데이터를 처리한다. 질의 로그에 대응하는 복수의 질의 엔트리 각각에 대해, 머신 학습 컴포넌트는 훈련 데이터의 함수로서 잠재적인 질의-태스크 매핑에 대한 최선의 추측 태스크를 제안한다. 그래픽 사용자 인터페이스 생성 컴포넌트는 질의 로그 내의 복수의 질의 엔트리를 디스플레이하되 디스플레이된 복수의 질의 엔트리 각각을 그의 대응하는 제안된 최선의 추측 태스크와 관련시키는 방식으로 디스플레이하도록 구성되어 있다.
Figure R1020040065838
주석 시스템, 훈련 데이터, 질의 로그, 머신 학습

Description

컴퓨터를 이용한 질의-태스크 매핑{COMPUTER AIDED QUERY TO TASK MAPPING}
도 1은 본 발명이 사용될 수 있는 한 예시적인 환경의 블록도.
도 2는 본 발명에 따른 주석 시스템의 한 예시적인 실시예를 나타낸 블록도.
도 3 내지 도 7은 사용자가 질의-태스크 매핑을 효과적으로 수행하도록 돕기 위해 도 2에 도시된 시스템을 사용하여 생성될 수 있는 그래픽 사용자 인터페이스를 개략적으로 나타낸 도면.
도 8 내지 도 12는 본 발명의 방법의 실시예를 나타낸 흐름도.
도 13 및 도 14는 도 3 내지 도 7에 나타낸 질의 중심 동작과는 반대로 사용자가 질의-태스크 매핑을 태스크 중심 동작으로서 효과적으로 수행하도록 돕기 위해 도 2에 도시된 시스템을 사용하여 생성될 수 있는 그래픽 사용자 인터페이스를 개략적으로 나타낸 도면.
도 15는 본 발명이 사용될 수 있는 한 예시적인 실시예를 나타낸 블록도.
도 16은 본 발명의 방법의 실시예를 나타낸 흐름도.
<도면의 주요부분에 대한 부호의 설명>
161, 162: 입력 장치
191: 모니터
205: 질의 로그
210: 태스크 리스트
215: 머신 학습 컴포넌트
220: 훈련 데이터 스토어
225: 그래픽 사용자 인터페이스 생성기
본 발명은 사용자 인터페이스의 머신 학습 컴포넌트를 훈련시키는 것에 관한 것이다. 보다 상세하게는, 본 발명은 질의를 태스크로 매핑함으로써 훈련 데이터를 획득하는 것에 관한 것이다.
자연스런 사용자 인터페이스(natural user interface, NUI)는 자연어 질의를 받아들이며, 그에 응답하여 의도한 질의 주제에 대응할 가능성이 높은 결과의 리스트를 반환한다. 이 결과들은 일반적으로 질의에 대한 대답이기를 바라는 태스크, 문서, 파일, 이메일, 또는 기타 항목(이 모두를 본 명세서에서는 총괄하여 태스크라고 함)을 포함한다. 질의에 대한 결과를 생성하는 유망한 기술은 머신 학습 기술이다. 머신 학습 알고리즘은 통계적 데이터를 사용하여 특정의 질의에 대해 원하는 결과를 예측한다. 머신 학습 알고리즘을 사용하여, 통계적 데이터는 초기 훈련 이후에 사용자로부터의 추가 질의에 대한 결과에 기초하여 끊임없이 또는 빈번히 갱신될 수 있다.
자연스런 사용자 인터페이스가 의미있는 결과를 제공할 것으로 기대하면서 이 인터페이스와 함께 사용하기 위해 임의의 머신 학습 알고리즘이 제공될 수 있기 전에, 이 알고리즘은 정확한 주석달린 데이터(annotated data)로 "훈련"되어야만 한다. 즉, 이 알고리즘은 대규모의 질의-태스크 매핑 리스트로부터의 통계를 나타내는 훈련 데이터를 필요로 한다. 자연스런 사용자 인터페이스 및 대응하는 머신 학습 알고리즘이 고객에게 배포되어질 때, 그 배포 이전에 머신 학습 알고리즘이 정확한 주석달린 데이터로 훈련되어야만 하는 것이 더욱 필수적이다. 예를 들어, 머신 학습 알고리즘의 한가지 출력 유형이 "프린터 설치" 또는 "프린터 문제 해결" 등의 태스크 리스트인 경우, 머신 학습 알고리즘은 이들 태스크가 그에 대한 원하는 결과인 것인 자연어 질의의 예들을 나타내는 데이터를 필요로 한다.
자연스런 사용자 인터페이스의 머신 학습 알고리즘의 정확성을 향상시키기 위해, 훈련 데이터는 아주 대규모의 질의-태스크 매핑예 리스트를 나타내야만 한다. 종래에는, 많은 수의 질의-태스크 매핑이 검색 엔진으로 전송되는 아주 많은 수의 실제 질의를 포함하는 질의 로그(query log)를 획득함으로써 생성되었다. 예를 들어, 질의 로그는 일반적으로 10,000개 이상의 질의를 포함한다. 이어서, 사용자나 저작자는 이들 질의를 하나씩 거쳐가면서 수작업으로 그에 주석을 붙인다(그와 특정 태스크를 관련시킨다).
태스크에 대한 질의에 주석을 붙이는 통상의 방법은 스프레드 쉬트 데이터베이스의 첫번째 열에 각각의 질의를 나타내고 이 스프레드 쉬트의 두번째 열의 동일 행에 그의 대응하는 의도한 태스크를 나타내는 것이다. 따라서, 이 과정은 많은 수고를 필요로 하고 시간이 많이 걸린다. 게다가, 그로부터 선택하게 될 대규모 잠재적 태스크 리스트가 주어지면, 어느 태스크에 특정의 질의로 주석을 붙일 것인지 선택하는 것은 아주 성가신 일이 된다.
따라서, 훈련 데이터를 획득하기 위해 보다 빠르고 보다 정확한 질의-태스크 매핑을 용이하게 하는 데 사용될 수 있는 시스템 또는 방법은 기술 분야에 상당한 개선이 될 것이다.
주석 시스템은 검색 컴포넌트를 훈련시키기 위한 훈련 데이터를 획득하기 위해 사용자가 많은 수의 질의를 태스크에 매핑하는 것을 돕는다. 이 주석 시스템은 검색 엔진으로 이전에 전송되었던 대량의 질의를 갖는 질의 로그를 포함한다. 복수의 가능한 태스크를 갖는 태스크 리스트가 저장된다. 머신 학습 컴포넌트는 질의 로그 데이터 및 태스크 리스트 데이터를 처리한다. 질의 로그에 대응하는 복수의 질의 엔트리 각각에 대해, 머신 학습 컴포넌트는 훈련 데이터의 함수로서 잠재적인 질의-태스크 매핑에 대한 최선의 추측 태스크를 제안한다. 그래픽 사용자 인터페이스 생성 컴포넌트는 질의 로그 내의 복수의 질의 엔트리를 디스플레이하되 그 디스플레이된 복수의 질의 엔트리 각각를 그의 대응하는 제안된 최선의 추측 태스크와 관련시키도록 디스플레이하게 구성되어 있다.
<실시예>
검색 컴포넌트를 훈련시키기 위한 훈련 데이터를 획득하기 위해 사용자가 질의 로그로부터의 질의를 태스크에 벌크 매핑하는 것을 돕는 주석 시스템을 참조하 여 본 발명에 대해 기술된다. 본 발명은 또한 사용자가 훈련 데이터를 획득 및/또는 갱신하기 위해 많은 수의 질의를 대응하는 태스크에 매핑하는 것을 돕는 방법 및 이 방법을 구현하는 컴퓨터 판독가능 매체를 포함한다.
도 1은 본 발명이 구현될 수 있는 적절한 컴퓨팅 시스템 환경(100)의 예를 나타낸다. 컴퓨팅 시스템 환경(100)은 단지 적절한 컴퓨팅 환경의 일 예이며 본 발명의 사용 또는 기능의 범위에 제한을 가하도록 의도된 것은 아니다. 컴퓨팅 환경(100)은 예시적인 오퍼레이팅 환경(100)에 도시된 컴포넌트들 중의 임의의 하나 또는 조합에 관하여 임의의 종속성(dependency) 또는 요구사항(requirement)을 갖는 것으로 해석되어서는 안된다.
본 발명은 많은 다른 범용 또는 특수목적 컴퓨팅 시스템 환경들 또는 구성들과 함께 동작될 수 있다. 본 발명과 함께 사용하기에 적합할 수 있는 잘 알려진 컴퓨팅 시스템, 환경, 및/또는 구성의 예로는, 퍼스널 컴퓨터, 서버 컴퓨터, 핸드헬드(hand-held) 또는 랩탑 장치, 멀티프로세서 시스템, 마이크로프로세서-기반 시스템, 셋 탑 박스(set top box), 프로그램가능한 가전제품(programmable consumer electronics), 네트워크 PC, 미니컴퓨터, 메인프레임 컴퓨터, 상기의 시스템 또는 장치 중의 임의의 것을 포함하는 분산형 컴퓨팅 환경 등이 포함될 수 있지만, 이에 한정되지 않는다.
본 발명은 컴퓨터에 의해 실행되는, 프로그램 모듈과 같은 컴퓨터 실행가능한 명령과 일반적으로 관련하여 기술될 수 있다. 일반적으로, 프로그램 모듈은 특정 태스크를 수행하거나 특정 추상 데이터 유형을 구현하는 루틴, 프로그램, 오브 젝트, 컴포넌트, 데이터 구조 등을 포함한다. 본 발명은 또한 통신 네트워크를 통해 링크된 원격 프로세싱 장치에 의해 태스크를 수행하는 분산형 컴퓨팅 환경에서 실행될 수 있다. 분산 컴퓨팅 환경에서, 프로그램 모듈은 메모리 저장 장치를 포함하는 국부 및 원격 컴퓨터 저장 매체 내에 위치할 수 있다.
도 1을 참조하면, 본 발명을 구현하기 위한 예시적인 시스템은 컴퓨터(110)의 형태의 범용 컴퓨팅 장치를 포함한다. 컴퓨터(110)의 컴포넌트들로는, 프로세싱 유닛(120), 시스템 메모리(130), 및 시스템 메모리를 포함하는 다양한 시스템 컴포넌트를 프로세싱 유닛(120)에 연결시키는 시스템 버스(121)가 포함될 수 있지만, 이에 한정되는 것은 아니다. 시스템 버스(121)는 다양한 버스 아키텍처 중의 임의의 것을 사용하는 로컬 버스, 주변 버스, 및 메모리 버스 또는 메모리 컨트롤러를 포함하는 몇가지 유형의 버스 구조 중의 임의의 것일 수 있다. 예로서, 이러한 아키텍처는 산업 표준 아키텍처(ISA) 버스, 마이크로 채널 아키텍처(MCA) 버스, 인핸스드 ISA(Enhanced ISA; EISA) 버스, 비디오 일렉트로닉스 표준 어소시에이션(VESA) 로컬 버스, 및 (메자닌(Mezzanine) 버스로도 알려진) 주변 컴포넌트 상호접속(PCI) 버스를 포함하지만, 이에 한정되는 것은 아니다.
컴퓨터(110)는 통상적으로 다양한 컴퓨터 판독가능 매체를 포함한다. 컴퓨터 판독가능 매체는 컴퓨터(110)에 의해 액세스될 수 있는 임의의 이용가능한 매체일 수 있으며, 휘발성 및 비휘발성 매체, 분리형(removable) 및 비분리형(non-removable) 매체를 둘다 포함한다. 예로서, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 포함할 수 있지만, 이에 한정되는 것은 아니다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령, 데이터 구조, 프로그램 모듈 또는 다른 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현되는 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 둘다 포함한다. 컴퓨터 저장 매체는 RAM, ROM, EEPROM, 플래쉬 메모리 또는 기타 메모리 기술, CD-ROM, DVD(digital versatile disk) 또는 기타 광학 디스크 저장장치, 자기 카세트, 자기 테이프, 자기 디스크 저장장치 또는 기타 자기 저장장치, 또는 컴퓨터(110)에 의해 액세스될 수 있고 원하는 정보를 저장하는 데 사용될 수 있는 임의의 기타 매체를 포함할 수 있지만, 이에 한정되지 않는다. 통신 매체는 통상적으로 반송파 또는 기타 전송 메카니즘 등의 변조된 데이터 신호에 컴퓨터 판독가능 명령, 데이터 구조, 프로그램 모듈, 또는 다른 데이터를 구현하며, 임의의 정보 전달 매체를 포함한다. "변조된 데이터 신호"라는 용어는 신호 내에 정보를 인코딩하도록 설정되거나 변환된 특성을 하나 또는 그 이상을 갖는 신호를 의미한다. 예로서, 통신 매체는 유선 네트워크 또는 직접 유선 접속 등의 유선 매체와, 음향, RF, 적외선 및 기타 무선 매체 등의 무선 매체를 포함하지만, 이에 한정되지 않는다. 상술한 것들 중의의 임의의 조합이 컴퓨터 판독가능 매체의 범위 내에 포함되어야 한다.
시스템 메모리(130)는 ROM(131) 및 RAM(132) 등의 휘발성 및/또는 비휘발성 메모리의 형태의 컴퓨터 저장 매체를 포함한다. 시동중과 같은 때에 컴퓨터(110) 내의 구성요소들간에 정보를 전송하는 것을 돕는 기본 루틴을 포함하는 기본 입출력 시스템(133; BIOS)은 일반적으로 ROM(131)에 저장된다. RAM(132)은 일반적으로 프로세싱 유닛(120)에 즉시 액세스될 수 있고 및/또는 프로세싱 유닛(120)에 의해 현재 작동되는 프로그램 모듈 및/또는 데이터를 포함한다. 예로서, (한정하고자 하는 것은 아님) 도 1은 오퍼레이팅 시스템(134), 애플리케이션 프로그램(135), 기타 프로그램 모듈(136), 및 프로그램 데이터(137)를 도시한다.
컴퓨터(110)는 또한 다른 분리형/비분리형, 휘발성/비휘발성 컴퓨터 저장 매체를 포함할 수 있다. 단지 예로서, 도 1에는 비분리형 비휘발성 자기 매체로부터 판독하거나 그 자기 매체에 기록하는 하드 디스크 드라이브(140), 분리형 비휘발성 자기 디스크(152)로부터 판독하거나 그 자기 디스크에 기록하는 자기 디스크 드라이브(151), 및 CD-ROM 또는 기타 광학 매체 등의 분리형 비휘발성 광학 디스크(156)로부터 판독하거나 그 광학 디스크에 기록하는 광학 디스크 드라이브(155)가 도시되어 있다. 예시적인 오퍼레이팅 환경에서 사용될 수 있는 다른 분리형/비분리형, 휘발성/비휘발성 컴퓨터 저장 매체는 자기 테이프 카세트, 플래쉬 메모리 카드, DVD(Digital versatile disk), 디지털 비디오 테이프, 고체 RAM, 고체 ROM 등을 포함하지만 이에 한정되지 않는다. 하드 디스크 드라이브(141)는 일반적으로 인터페이스(140)와 같은 비분리형 메모리 인터페이스를 통해 시스템 버스(121)에 접속되고, 자기 디스크 드라이브(151) 및 광학 디스크 드라이브(155)는 일반적으로 인터페이스(150)와 같은 분리형 메모리 인터페이스에 의해 시스템 버스(121)에 접속된다.
앞서 기술되고 도 1에 도시된 드라이브 및 그 관련 컴퓨터 저장 매체는 컴퓨터(110)를 위한 컴퓨터 판독가능 명령, 데이터 구조, 프로그램 모듈 및 기타 데이터의 저장을 제공한다. 도 1에서, 예를 들어, 하드 디스크 드라이브(141)는 오퍼 레이팅 시스템(144), 애플리케이션 프로그램(145), 기타 프로그램 모듈(146), 및 프로그램 데이터(147)를 저장하는 것으로 도시된다. 이들 컴포넌트는 오퍼레이팅 시스템(134), 애플리케이션 프로그램(135), 기타 프로그램 모듈(136), 및 프로그램 데이터(137)와 동일할 수도 있고 다를 수도 있다. 오퍼레이팅 시스템(144), 애플리케이션 프로그램(145), 다른 프로그램 모듈(146), 및 프로그램 데이터(147)는 최소한 다른 복사본(different copies)임을 나타내기 위하여 다른 번호를 부여하였다.
사용자는 일반적으로 키보드(162), 마이크로폰(163), 및 마우스, 트랙볼, 또는 터치 패드와 같은 포인팅 장치(161)와 같은 입력 장치를 통해 컴퓨터(110)에 명령 및 정보를 입력할 수 있다. (도시되지 않은) 기타 입력 장치는 마이크로폰, 조이스틱, 게임 패드, 위성 안테나, 스캐너 등을 포함할 수 있다. 이들 입력 장치 및 그외의 입력 장치는 시스템 버스에 연결된 사용자 입력 인터페이스(160)를 통해 종종 프로세싱 유닛(120)에 접속되지만, 병렬 포트, 게임 포트 또는 유니버설 시리얼 포트(USB) 와 같은 기타 인터페이스 및 버스 구조에 의해 접속될 수 있다. 모니터(191) 또는 다른 유형의 디스플레이 장치는 또한 비디오 인터페이스(190) 등의 인터페이스를 통해 시스템 버스(121)에 접속된다. 모니터외에도, 컴퓨터는 또한 출력 주변 인터페이스(195)를 통해 접속될 수 있는 스피커(197) 및 프린터(196) 등의 기타 주변 출력 장치를 포함할 수 있다.
컴퓨터(110)는 원격 컴퓨터(180)와 같은 하나 이상의 원격 컴퓨터로의 논리적 접속을 이용한 네트워크 환경에서 동작할 수 있다. 원격 컴퓨터(180)는 퍼스널 컴퓨터, 휴대용 장치, 서버, 라우터, 네트워크 PC, 피어(peer) 장치, 또는 기타 공통 네트워크 노드일 수 있으며, 컴퓨터(110)에 관하여 상술한 구성요소 중 다수 또는 모든 구성요소를 일반적으로 포함할 수 있다. 도시된 논리적 접속은 근거리 통신망(LAN; 171) 및 원거리 통신망(WAN; 173)을 포함하지만, 그 외의 네트워크를 포함할 수도 있다. 이러한 네트워크 환경은 사무실, 기업 광역 컴퓨터 네트워크(enterprise-wide computer network), 인트라넷, 및 인터넷에서 일반적인 것이다.
LAN 네트워크 환경에서 사용되는 경우, 컴퓨터(110)는 네트워크 인터페이스 또는 어댑터(170)를 통해 LAN(171)에 접속된다. WAN 네트워크 환경에서 사용되는 경우, 컴퓨터(110)는 일반적으로 인터넷 등의 WAN(173)을 통해 통신을 구축하기 위한 모뎀(172) 또는 기타 수단을 포함한다. 내장형 또는 외장형일 수 있는 모뎀(172)은 사용자 입력 인터페이스(160) 또는 기타 적절한 메카니즘을 통해 시스템 버스(121)에 접속될 수 있다. 네트워크 환경에서, 컴퓨터(110)에 관하여 도시된 프로그램 모듈 또는 그 일부분은 원격 메모리 저장 장치에 저장될 수 있다. 예로서 (한정하고자 하는 것은 아님), 도 1은 원격 컴퓨터(180)에 상주하는 원격 애플리케이션 프로그램(185)을 도시한다. 도시된 네트워크 접속은 예시적인 것이며, 컴퓨터들간의 통신 링크를 구축하는 그 외의 수단이 사용될 수 있다.
도 2는 도 1에 도시한 것 같은 프로세싱 환경에서 구현될 수 있는 본 발명에 따른 주석 시스템(200)을 나타내고 있다. 주석 시스템(200)은 검색 컴포넌트를 훈련시키기 위한 훈련 데이터를 획득하기 위해 사용자가 질의를 태스크에 벌크 매핑하는 것을 돕는다. 시스템(200)은 검색 엔진에 이전에 전송되었던 질의를 나타내 는 데이터를 갖는 질의 로그(205)를 포함하거나 다른 실시예들에서는 이를 획득한다. 일반적으로 질의 로그는 많은 수의, 예를 들어 10,000개 이상의 질의를 나타내는 데이터를 포함하게 된다. 그렇지만, 더 작은 질의 로그도 사용될 수 있다. 많은 수의 가능한 태스크를 나타내는 데이터를 갖는 태스크 리스트(210)가 포함되어 있다. 훈련 데이터(220)를 획득하고 연속적으로 갱신하기 위해, 시스템(200)은 사용자가 질의 로그(205) 내의 각각의 질의를 태스크 리스트(210) 내의 태스크로 매핑하는 것을 돕는다.
머신 학습 컴포넌트 또는 분류자(classifier)(215)는 질의 로그(205)로부터 질의 엔트리를 검색하고 태스크 리스트(210)로부터 태스크의 리스트를 검색한다. 본 명세서에 정의되는 바와 같이, 질의 엔트리는 예를 들어 질의 로그로부터의 개별적인 질의일 수 있다. 다른 대안에서, 질의 엔트리는 함께 묶음으로 되어 있는 질의 로그(205) 내의 다수의 질의를 나타내는 질의 묶음(query bundle)일 수 있다. 질의 묶음은 원시 질의 로그(raw query log)의 질의 로그 클러스터링(query log clustering)을 통해 생성된다. 질의 묶음의 예는 질의 내의 여러가지 단어의 사소한 철자 오류를 포함하는 일련의 유사한 질의이다. 각각의 개별적인 질의를 한번에 하나씩 태스크에 매핑하는 대신에 질의 묶음을 태스크에 매핑하는 것은 상당한 시간 절감을 제공한다.
질의 로그에 대응하는 복수의 질의 엔트리 각각에 대해, 머신 학습 컴포넌트는 훈련 데이터(220)를 사용하여 잠재적인 질의-태스크 매핑에 대한 최선의 추측 태스크를 제안한다. 이 추측은 이전에 매핑된 질의로부터의 통계적 정보에 기초하 여 머신 학습 컴포넌트에 의해 생성된다. 초기에, 훈련 데이터(220)에 통계적으로 의미있는 데이터가 적은 경우, 최선의 추측은 원하는 만큼 정확하지 않을 것이다. 그렇지만, 더 많은 질의가 매핑되므로, 추측의 정확도가 향상된다. 이하에서 보다 상세히 기술하는 바와 같이, 사용자 또는 저작자는 항상 시스템으로부터의 추측보다 우선하는 선택을 갖는다.
실제로, 저작자가 추측을 받아들일 때마다, 그 저작자는 어떻게 질의를 태스크에 매핑할지를 시스템에 "가르쳐 준다". 특정의 질의 엔트리를 태스크에 매핑함으로써 훈련 데이터를 갱신할 때, 머신 학습 컴포넌트(215)는 갱신된 훈련 데이터(220)의 함수로서 나머지 질의 엔트리 각각에 대한 최선의 추측 태스크를 자동적으로 갱신하도록 구성되어 있다. 충분한 데이터에 주석이 붙여진 경우, 그 데이터는 자연스런 사용자 인터페이스 플랫폼의 검색 컴포넌트에서 배포를 위한 머신 학습 알고리즘을 훈련시키는 데 사용될 수 있다. 그의 최선의 추측을 이와 같은 방식으로 계속하여 갱신할 수 있는 머신 학습 컴포넌트 또는 분류자 유형의 예는 나이브 베이스 분류자(Naive Bayes classifier)이다.
시스템(200)에서, 그래픽 사용자 인터페이스(GUI) 생성 컴포넌트(225)는 디스플레이(모니터(191) 등)와 입력 장치(장치(161, 162) 등)를 통해 머신 학습 컴포넌트(215)와 사용자 사이에서 인터페이스하기 위해 포함되어 있다. 컴포넌트(225)는 질의 로그 내의 복수의 질의 엔트리를 디스플레이하되 디스플레이된 복수의 질의 엔트리 각각을 그의 대응하는 제안된 최선의 추측 태스크와 관련시키도록 디스플레이하게 구성되어 있다. 컴포넌트(225)는 또한 매핑 프로세스를 진행시키기 위 해 사용자로부터 여러가지 유형의 입력을 수신하도록 구성되어 있다. 예시적인 실시예에 따른 컴포넌트(225)에 의해 생성된 GUI가 도 3 내지 도 7에 도시되어 있다.
이제 도 3을 참조하면, 본 발명의 어떤 실시예들에 따라 모니터(191) 상에 디스플레이될 수 있는 GUI(300)가 도시되어 있다. GUI(300)는 태스크 리스트(302), 질의 엔트리 리스트(질의 묶음 리스트로 나타내어져 있음)(304), 각 질의 묶음 내의 질의의 수를 나타낸 열(306), 질의의 발생 빈도를 나타낸 열(308), 머신 학습 컴포넌트(215)에 의해 생성된 각각의 질의 엔트리에 대한 최선의 추측(310), 및 제안된 최선의 추측이 정확할 확률을 나타내는 열(312)을 포함한다. 태스크 리스트(302)는 질의-태스크 매핑을 위해 최선의 추측 태스크가 저작자에 의해 선택되지 않은 경우 질의 엔트리가 그에 매핑되는 태스크의 리스트이다. 또한, 질의 엔트리(304)가 질의 묶음일 때, 각각의 질의 묶음에 대해 제안된 최선의 추측 태스크(310)는 질의 묶음에 의해 나타내어진 복수의 질의 각각에 대한 최선의 추측의 가중 평균일 수 있다.
이제 도 4를 참조하면, GUI 생성 컴포넌트(225)는 또한 사용자가 특정의 질의 엔트리를 그의 대응하는 제안된 최선의 추측 태스크에 매핑하기를 원할 때 사용자로부터 제1 유형의 입력을 수신하도록 구성되어 있다. 도 4에 도시된 예에서, 사용자는 질의 묶음 "패스워드"로 나타내어진 질의들 모두를 머신 학습 컴포넌트에 의해 생성된 "패스워드 변경"이라는 최선의 추측 태스크로 매핑한다. 이 매핑이 계속되도록 지시하는 데 사용되는 제1 유형의 입력은 예를 들어 커서(340)를 이 질의 엔트리 상에 위치한 상태로 마우스형 포인팅 장치의 우측 클릭일 수 있다. 줄 (350)은 이 질의 엔트리 및 관련 통계와 최선의 추측 태스크의 선택 또는 하이라이트를 나타낸다. GUI(300)를 통해 제1 유형의 입력의 수신 시에, 머신 학습 컴포넌트(215)는 특정의 질의 엔트리를 제안된 최선의 추측 태스크에 매핑함으로써 훈련 데이터를 갱신한다. 전술한 바와 같이, 이어서 나머지 질의 엔트리에 대한 최선의 추측 태스크는 갱신된 훈련 데이터에 기초하여 갱신된다.
이제 도 5를 참조하면, 질의 엔트리를 제안된 최선의 추측 태스크에 매핑하는 대신에 사용자가 통계적으로 결정된 그 다음 최선의 추측 태스크의 리스트를 검토하기를 원하는 경우, 이것은 적절한 입력을 제공함으로써 달성될 수 있다. 예를 들어, 일 실시예에서, 커서(340)를 제안된 최선의 추측 "패스워드 변경" 태스크 상에 위치시킨 상태에서의 마우스를 클릭한 결과, 그 다음 최선의 추측의 리스트를 갖는 드롭 다운 메뉴(360)가 디스플레이된다. 이어서 사용자는 메뉴(360) 내의 원하는 태스크 상에서 클릭함으로써 문제의 질의 엔트리를 그 다음 최선의 추측 태스크 중 임의의 것에 매핑할 수 있다.
이제 도 6을 참조하면, 사용자는 원하는 경우, 질의 묶음 형태의 질의 엔트리로 나타내어진 개별적인 질의를 볼 수 있다. 예를 들어, GUI 생성 컴포넌트(225)는 어떤 실시예들에서 사용자가 특정의 질의 묶음으로 나타내어진 질의의 리스트를 갖는 드롭 다운 메뉴(370)를 보기를 원하는 경우 사용자로부터 제2 유형의 입력을 수신하도록 구성되어 있다. 그 입력에 응답하여, GUI 생성 컴포넌트는 메뉴(370)를 디스플레이한다. 제2 유형의 입력의 예는 커서를 "패스워드" 질의 묶음 상에 위치시킨 상태에서의 더블 클릭이다. 메뉴(370)에 열거된 개별적인 질의는 이어서 원하는 경우 한 번에 하나씩 태스크에 매핑될 수 있다.
이제 도 7을 참조하면, 제안된 최선의 추측 태스크 중 어느 것도 질의 엔트리에 대한 매핑에 적절하지 않은 경우, 사용자는 적절한 입력을 제공함으로써 태스크 리스트(302)로부터의 질의 엔트리를 태스크에 매핑할 수 있다. 예로서, 일 실시예에서, 적절한 입력은 질의 엔트리를 선택하고(예를 들어, 줄(380)에 의해 선택된 것으로 도시된 "cd") 이어서 리스트(302)로부터의 태스크 상에서 클릭하는 것을 포함한다.
이제 도 8 내지 도 12를 참조하면, 본 발명의 방법의 어떤 실시예의 여러가지 단계를 나타낸 흐름도(400, 450, 500, 550, 600)가 도시되어 있다. 이들 흐름도는 도 1 내지 도 7을 참조하여 전술한 본 발명의 어떤 특징들을 요약한 것이다. 도 8의 흐름도(400)에 도시한 바와 같이, 검색 컴포넌트를 훈련시키기 위한 훈련 데이터를 획득하기 위해 사용자가 질의를 태스크에 벌크 매핑하는 것을 돕는 방법은 검색 엔진에 이전에 전송되었던 질의들로 된 질의 로그를 획득하는 단계를 포함한다. 이것은 블록 402로 나타내어져 있다. 블록 404에 나타낸 바와 같이, 본 방법은 또한 가능한 태스크의 태스크 리스트를 획득하는 단계를 포함한다. 블록 406에서, 본 방법은 질의 로그에 대응하는 복수의 질의 엔트리의 각각에 대하여 잠재적인 질의-태스크 매핑을 위한 최선의 추측 태스크를 결정하는 단계를 포함한다. 최선의 추측 태스크는 머신 학습 컴포넌트를 사용하여 훈련 데이터의 함수로서 결정된다. 블록 408에서, 본 방법은 질의 로그 내의 복수의 질의 엔트리를 디스플레이하되 디스플레이된 복수의 질의 엔트리의 각각을 그의 대응하는 제안된 최선의 추측 태스크와 관련시키도록 디스플레이하는 단계를 포함하는 것으로 도시되어 있다.
이제 도 9를 참조하면, 본 방법은 또한 블록 452에 나타낸 바와 같이 사용자가 특정의 질의 엔트리를 그의 대응하는 제안된 최선의 추측 태스크에 매핑하기를 원하는 경우 사용자로부터 제1 유형의 입력을 수신하는 단계, 및 블록 454로 나타낸 바와 같이 머신 학습 컴포넌트를 사용하여 훈련 데이터를 갱신하는 단계를 포함할 수 있다.
이제 도 10을 참조하면, 어떤 실시예들에서, 본 발명의 방법은 블록 502로 나타낸 바와 같이 사용자가 잠재적인 매핑을 위해 특정의 질의 엔트리에 대한 그 다음 최선의 추측 태스크의 리스트를 보고자 하는 경우 그 사용자로부터 제2 유형의 입력을 수신하는 단계를 더 포함한다. 이들 실시예에서, 본 방법은 이어서 블록 504로 나타낸 바와 같이 특정의 질의 엔트리에 대해 머신 학습 컴포넌트를 사용하여 훈련 데이터의 함수로서 결정된 그 다음 최선의 추측 태스크의 리스트를 디스플레이하는 단계를 포함한다.
어떤 실시예들에서, 본 발명의 방법은 도 11의 흐름도(550)에 나타낸 추가의 단계들을 포함한다. 블록 552에 나타낸 바와 같이, 이들 실시예에서, 본 방법은 사용자가 특정의 질의 묶음에 의해 나타내어진 질의의 리스트를 보고자 하는 경우 사용자로부터 제2 유형의 입력을 수신하는 단계를 더 포함한다. 블록 554에 나타낸 바와 같이, 질의 묶음으로 나타낸 질의의 리스트는 이어서 제2 유형의 입력의 수신에 응답하여 디스플레이된다.
이제 도 12를 참조하면, 사용자가 특정의 질의 엔트리를 태스크 리스트(302)로부터의 태스크에 매핑할 수 있도록 해주기 위해 어떤 실시예들에서 포함될 수 있는 본 방법의 추가의 단계들이 도시되어 있다. 예를 들어, 흐름도(600)의 블록 602에 나타낸 바와 같이, 본 방법은 사용자가 특정의 질의 엔트리를, 제안된 최선의 추측 태스크와는 다른 디스플레이된 태스크 리스트로부터의 태스크에 매핑하고자 하는 경우 사용자로부터 제2 유형의 입력을 수신하는 추가의 단계를 포함할 수 있다. 블록 604의 단계에 나타낸 바와 같이, 이어서 훈련 데이터가 머신 학습 컴포넌트를 사용하여 특정의 질의 엔트리를 디스플레이된 태스크 리스트로부터의 태스크에 매핑함으로써 갱신된다.
도 3 내지 도 7에 도시한 GUI 실시예는 본 발명의 방법을 "질의-중심" 동작으로서 구현한다. 즉, 이들 실시예에서, 사용자는 최선의 추측 태스크를 복수의 질의 각각에 할당한다. 그렇지만, 본 발명은 최선의 추측 질의가 특정의 태스크에 할당되는 것인 "태스크-중심" 동작으로서 구현될 수도 있다.
예를 들어, 도 13을 참조하면, 본 발명의 어떤 실시예들에 따라 모니터(191)상에 디스플레이될 수 있는 GUI(700)가 도시되어 있다. GUI(700)는 계층적 태스크 리스트(702)를 포함한다. 질의-태스크 매핑을 수행하는 사용자 또는 저작자는 태스크와 함께 매핑하기 위한 제안된 질의들로 된 리스트를 보기 위해 계층적 태스크 리스트(702)로부터 태스크를 선택한다. 이것이 도 14에 도시되어 있다.
GUI 생성 컴포넌트(225)는 사용자가 태스크 리스트(702)로부터의 특정의 태스크를 대응하는 제안된 최선의 추측 질의 중 하나 이상으로 매핑하기를 원하는 경 우, 사용자로부터 제1 유형의 입력을 수신하도록 구성되어 있다. 예를 들어, 커서(740)를 갖는 마우스 형태의 포인팅 장치의 클릭은 이러한 입력을 제공하는 데 사용될 수 있다. 줄(750)은 이 태스크의 선택 또는 하이라이트를 나타낸다. 이 입력에 응답하여, 시스템 또는 툴은 이어서 머신 학습 컴포넌트에 의해 제안된 질의들로 된 리스트(704)를 보여준다. 질의들은 선택된 태스크에 매핑할 가능성의 순서로 디스플레이된다. 이 프로세스는 사용자가 질의로부터 가능한 태스크로의 매핑과는 반대로 태스크로부터 가능한 질의로 매핑할 수 있게 해준다. 다른 측면에서 보면, 결과로서 얻어지는 추측의 시간에 따른 향상을 포함하여, 이 프로세스는 전술한 "질의-중심" 동작과 동일한 거동을 갖는다.
본 발명의 실시예들에서, 2명 이상의 사용자가 질의-태스크 매핑 시스템을 사용하여 질의를 태스크에 매핑할 수 있다. 예를 들어, 도 15에 도시한 컴퓨팅 환경(800)을 생각해보자. 컴퓨팅 환경(800)은 중앙 서버(802) 및 다수의 사용자 컴퓨터(810)(컴퓨터(810-1, 810-2, 810-3)가 도시되어 있음)를 포함한다. 중앙 서버 컴퓨터는 분류자 모델(classifier model)(806)을 확립하는 데 사용되는 훈련 데이터를 저장하는 훈련 데이터 스토어(804)를 포함한다. 예시된 시스템 또는 프로세싱 환경(800)에서, 사용자에게 추측을 제공하기 위해 머신 학습 컴포넌트에 의해 사용되는 분류자 모델(806)의 생성은 모든 사용자에 의해 행해지는 일련의 매핑에 의해 훈련된다. 이들 매핑은 중앙 데이터베이스 훈련 데이터 스토어(804)에 저장된다. 분류자 모델(806)은 이들 매핑을 사용하여 주기적으로 훈련된다. 훈련 데이터 스토어(804) 및 분류자 모델(806) 둘다가 중앙 서버(802) 상에 저장되어 있는 것으로 도시되어 있지만, 다른 실시예들에서 분류자 모델(806)은 다른 곳에 저장되고, 이어서 중앙 서버(802)에 계속 연결되어 있을 수 있으며, 이 서버로부터 사용자는 매핑 세션 사이에 갱신된 모델을 다운로드할 수 있다.
모델의 다운로드된 복사본(로컬 분류자 복사본(814-1 내지 814-3)으로 도시됨)은 각각의 사용자의 컴퓨터 상에 로컬적으로 존속된다. 사용자는 이어서 모든 사용자로부터 수집된 매핑 데이터를 사용하여 적어도 주기적으로 훈련된 모델을 사용할 수 있다. 특정의 사용자가 매핑 작업을 계속함에 따라, 모델의 로컬 복사본(814)은 그 개별적인 사용자의 매핑에 적합하게 된다. 이것은 각각의 사용자 컴퓨터 상에 로컬 매핑 데이터 스토어(812-1 내지 812-3)를 포함하는 것에 의해 나타내어져 있다. 따라서, 로컬 분류자 모델이 그의 가장 최근의 매핑을 고려하기 때문에 사용자는 이득을 본다. 이것은 원래 존속된 모델(806)보다 추측의 정확도를 향상시킨다. 게다가, 사용자는 추측이 최근의 매핑에 주문화되는 정도를 조정할 수 있다. 주기적으로, 로컬 사용자 컴퓨터에서 행해진 매핑에 대응하는 매핑 데이터(812-1 내지 812-3)는 분류자 모델(806)의 장래의 갱신을 위해 중앙 서버(802) 상의 훈련 데이터 스토어(804)로 제공된다.
본 발명의 다중 사용자 컴퓨터 특징은 또한 중앙 서버 및 로컬 컴퓨터 둘다를 사용하여 질의를 태스크에 벌크 매핑하는 일반적인 방법을 설명하는 도 16에 나타낸 흐름도(850)에 나타내어져 있다. 도 16의 블록 852에 도시한 바와 같이, 본 방법은 중앙 서버로부터 사용자 컴퓨터로 분류자 모델의 복사본을 다운로드하는 단계를 포함한다. 블록 854에서, 본 방법은 다운로드된 분류자 모델을 사용하여 생 성된 추측에 기초하여 사용자 컴퓨터에서 질의-태스크 매핑을 행하는 단계를 포함하는 것으로 도시되어 있다. 블록 856에서, 본 방법은 로컬 매핑에 기초하여 로컬 훈련 데이터 스토어를 생성 또는 갱신하는 단계를 포함하는 것으로 도시되어 있다. 즉, 사용자의 컴퓨터 상에 저장된 분류자 모델의 로컬 버전을 갱신하기 위해 로컬 매핑이 사용된다. 마지막으로, 블록 858에 도시된 바와 같이, 본 방법은 로컬 매핑 데이터를 사용하여 중앙 서버의 훈련 데이터 스토어를 갱신하는 단계를 포함한다. 따라서, 중앙 서버에 저장되거나 그로 다운로드된 분류자 모델(806)은 개별적인 사용자 컴퓨터 각각에서 수행되는 매핑을 포함하는 훈련 데이터 스토어(804)를 사용하여 갱신된다.
조밀하지 않은 질의-태스크 매핑 데이터가 이용가능한 경우, 분류자 모델(806)은 다른 정보 소스를 사용하여 사전 훈련될 수 있다. 예를 들어, 이러한 사전 훈련은 종종 매핑 프로세스의 초기 단계에서 사용된다. 이어서 이 모델은 로컬 컴퓨터로부터의 모든 사용자에 의해 행해진 일련의 매핑을 사용하여 훈련될 수 있다. 이들 정보 소스 각각의 상대적 영향은 조정될 수 있다. 이러한 사전 훈련은 모델 생성 프로세스에 언제라도 적용될 수 있다.
표준 사전 훈련 기술은 태스크와 관련된 데이터로부터 일련의 특징을 추출하는 것이다. 이어서 모델은 특징과 태스크 사이의 연관을 바탕으로 훈련될 수 있다. 그 효과는 질의를 태스크에 매핑하는 것에 의해 발생되는 것과 유사하다. 가장 간단한 형태의 이러한 사전 훈련에서, 태스크 이름은 질의로서 기능하며, 그 질의에 대해 태스크로의 매핑이 도입된다(비록 이 질의는 명시적으로 존속되지 않음 ). 사전 훈련은 또한 다른 소스로부터의 텍스트 매핑을 사용하여 달성될 수 있다. 이들 매핑은 훈련 데이터 스토어에 노출되거나 존속될 필요가 없다.
로컬 컴퓨터(810-1 내지 810-3) 중 하나에서의 사용자 세션 동안, 모델의 추측은 또한 그것이 생성될 때에 영향을 받을 수 있다. 예를 들어, 질의가 이미 태스크에 매핑되어 있는 경우 그 질의는 추측으로서 나타나지 않는다. 이것은 다수의 사용자에 의해 중복 매핑이 일어나지 않도록 할 수 있다. 사용자는 또한 제공된 추측을 제약하기 위해 명시적으로 필터를 적용할 수 있다.
본 발명이 특정의 실시예를 참조하여 기술되어 있지만, 당업자라면 본 발명의 사상 및 범위를 벗어나지 않고 형태 및 세부 사항에 있어서 변경이 행해질 수 있음을 잘 알 것이다.
본 발명의 주석 시스템을 이용하여 사용자가 많은 수의 질의를 태스크에 매핑하는 것을 도와 검색 컴포넌트를 훈련시키기 위한 훈련 데이터를 획득할 수 있다.

Claims (30)

  1. 검색 컴포넌트(search component)를 훈련(training)시키기 위한 훈련 데이터를 갱신하기 위해 사용자가 질의들을 질의 결과들에 벌크 매핑(bulk mapping)하는 것을 돕기 위한 주석 시스템(annotating system)으로서,
    검색 엔진에 이전에 전송되었던 질의들을 포함하는 질의 로그(205);
    복수의 가능한 질의 결과를 포함하는 질의 결과 리스트(210);
    상기 질의 로그로부터의 질의를 상기 질의 결과 리스트로부터의 질의 결과에 매핑하는 질의-질의 결과 매핑에 대한 예를 나타내는 훈련 데이터를 포함하는 훈련 데이터 스토어(220);
    상기 훈련 데이터의 함수로서 최선의 추측 질의-질의 결과 매핑(query-to-query result mapping)을 제안하는 머신 학습 컴포넌트(machine learning component; 215); 및
    상기 제안된 최선의 추측 질의-질의 결과 매핑들을 나타내는 방식으로 상기 질의 결과 리스트 내의 복수의 질의 결과들 중 적어도 일부 및 상기 질의 로그 내의 복수의 질의 중 적어도 일부를 디스플레이하도록 구성된 그래픽 사용자 인터페이스 생성 컴포넌트(225)를 포함하고,
    상기 그래픽 사용자 인터페이스 생성 컴포넌트(225)는 또한 사용자로부터, 사용자가 특정의 질의를 특정의 질의 결과에 매핑하고자 함을 나타내는 제1 유형의 입력을 수신하도록 구성되고,
    상기 그래픽 사용자 인터페이스를 통해 상기 제1 유형의 입력의 수신 시에, 상기 머신 학습 컴포넌트는 특정의 질의 엔트리를 상기 특정의 질의 결과에 매핑함으로써 상기 훈련 데이터를 갱신하는 주석 시스템.
  2. 제1항에 있어서,
    상기 그래픽 사용자 인터페이스 생성 컴포넌트(225)는 상기 질의 로그(205) 내의 복수의 질의를 디스플레이하되 그 디스플레이된 복수의 질의 각각을 그의 대응하는 제안된 최선의 추측 질의 결과와 관련시키는 방식으로 디스플레이하도록 구성되는 주석 시스템.
  3. 제1항 또는 제2항에 있어서,
    상기 그래픽 사용자 인터페이스 생성 컴포넌트(225)는 또한 사용자가 잠재적인 매핑을 위해 상기 특정의 질의에 대한 그 다음 최선의 추측 질의 결과들의 리스트를 보고자 할 때, 사용자로부터 제2 유형의 입력을 수신하도록 구성되는 주석 시스템.
  4. 제1항 또는 제2항에 있어서,
    상기 질의 로그(205)에 포함된 상기 복수의 질의 각각이 질의 묶음(query bundle)이고,
    각각의 질의 묶음은 함께 묶음으로 되어 있는(bundled) 복수의 단일 질의를 나타내는 주석 시스템.
  5. 제4항에 있어서,
    상기 그래픽 사용자 인터페이스를 통해 상기 제1 유형의 입력을 수신하면, 상기 머신 학습 컴포넌트(215)는 상기 질의 묶음으로 표현된 상기 복수의 단일 질의 각각을 상기 제안된 최선의 추측 질의 결과에 매핑함으로써 상기 훈련 데이터를 갱신하는 주석 시스템.
  6. 제4항에 있어서,
    각각의 질의 묶음에 대한 상기 제안된 최선의 추측은 상기 질의 묶음으로 표현된 상기 복수의 단일 질의 각각에 대한 최선의 추측들의 가중 평균인 주석 시스템.
  7. 제4항에 있어서,
    상기 그래픽 사용자 인터페이스 생성 컴포넌트(225)는 또한 사용자가 특정의 질의 묶음으로 표현된 단일 질의들의 리스트를 보고자 할 때, 사용자로부터 제2 유형의 입력을 수신하도록 구성되어 있으며,
    상기 제2 유형의 입력의 수신에 응답하여, 상기 그래픽 사용자 인터페이스 생성 컴포넌트(225)는 상기 질의 묶음으로 표현된 단일 질의들의 리스트를 디스플레이하도록 구성되는 주석 시스템.
  8. 제1항에 있어서,
    상기 그래픽 사용자 인터페이스 생성 컴포넌트(225)는 또한 상기 질의 결과 리스트를 디스플레이하도록 구성되는 주석 시스템.
  9. 제8항에 있어서,
    상기 그래픽 사용자 인터페이스 생성 컴포넌트(225)는 또한 사용자가 특정의 질의 엔트리를 상기 디스플레이된 질의 결과 리스트 중의 상기 제안된 최선의 추측 질의 결과와 다른, 특정의 질의 결과에 매핑하고자 할 때, 사용자로부터 제2 유형의 입력을 수신하도록 구성되어 있으며,
    상기 그래픽 사용자 인터페이스를 통해 제2 유형의 입력을 수신하면, 상기 머신 학습 컴포넌트(215)는 상기 특정의 질의 엔트리를 상기 디스플레이된 질의 결과 리스트로부터의 상기 특정의 질의 결과에 매핑함으로써 상기 훈련 데이터를 갱신하도록 구성되는 주석 시스템.
  10. 제1항에 있어서,
    상기 특정의 질의 엔트리를 특정의 질의 결과에 매핑함으로써 상기 훈련 데이터를 갱신하면, 상기 머신 학습 컴포넌트(215)는 상기 갱신된 훈련 데이터의 함수로서 상기 복수의 질의들 중 나머지 질의들 각각에 대한 최선의 추측 질의 결과를 자동적으로 갱신하도록 구성되는 주석 시스템.
  11. 제10항에 있어서,
    상기 머신 학습 컴포넌트(215)는 나이브 베이스 분류자(Naive Bayes classifier)인 주석 시스템.
  12. 제1항에 있어서,
    상기 머신 학습 컴포넌트(215)는 상기 질의 결과 리스트 내의 복수의 가능한 질의 결과 각각에 대해, 상기 훈련 데이터의 함수로서 질의-질의 결과 매핑에 대해 가능성 있는 상기 질의 로그(205)로부터의 질의들의 리스트를 제안하도록 구성되는 주석 시스템.
  13. 검색 컴포넌트를 훈련시키기 위한 훈련 데이터를 갱신하기 위해 사용자가 질의들을 질의 결과들에 벌크 매핑하는 것을 돕는 방법으로서,
    검색 엔진에 이전에 전송되었던 질의들을 포함하는 질의 로그를 획득하는 단계;
    복수의 가능한 질의 결과를 포함하는 질의 결과 리스트를 획득하는 단계(402);
    상기 질의 로그로부터의 질의를 상기 질의 결과 리스트로부터의 질의 결과에 매핑하는 질의-질의 결과 매핑에 대한 예를 나타내는 훈련 데이터를 획득하는 단계(404);
    상기 질의 로그에 포함되는 질의 각각에 대해, 잠재적인 질의-질의 결과 매핑을 위한 최선의 추측 질의 결과를 결정하는 단계(406) - 상기 최선의 추측 질의 결과는 머신 학습 컴포넌트를 사용하여 상기 훈련 데이터의 함수로서 결정됨 - ; 및
    상기 질의 로그 내의 복수의 질의 중 적어도 일부를 디스플레이하되 상기 디스플레이된 질의 각각을 그의 대응하는 제안된 최선의 추측 질의 결과와 관련시키는 방식으로 디스플레이하는 단계(408);
    사용자로부터, 사용자가 특정의 질의를 특정의 질의 결과에 매핑하고자 함을 나타내는 제1 유형의 입력을 수신하는 단계(452), 및
    상기 제1 유형의 입력을 수신하면 특정의 질의 엔트리를 상기 특정의 질의 결과에 매핑함으로써 상기 머신 학습 컴포넌트를 사용하여 상기 훈련 데이터를 갱신하는 단계(454)
    를 포함하는, 벌크 매핑을 돕는 방법.
  14. 제13항에 있어서,
    사용자가 잠재적인 매핑을 위해 상기 특정의 질의에 대한 그 다음 최선의 추측 질의 결과들의 리스트를 보고자 할 때, 사용자로부터 제2 유형의 입력을 수신하는 단계(502), 및
    상기 머신 학습 컴포넌트를 사용하여 상기 훈련 데이터의 함수들로서 결정된, 상기 특정 질의에 대한 그 다음 최선의 추측 질의 결과들의 리스트를 디스플레이하는 단계(504)
    를 더 포함하는, 벌크 매핑을 돕는 방법.
  15. 제13항에 있어서,
    상기 질의 로그에 포함되는 복수의 질의 각각은 질의 묶음이고,
    각각의 질의 묶음은 함께 묶음으로 되어 있는 복수의 단일 질의를 나타내는, 벌크 매핑을 돕는 방법.
  16. 제15항에 있어서,
    상기 제1 유형의 입력을 수신하면, 상기 질의 묶음으로 표현된 복수의 단일 질의 각각을 상기 제안된 최선의 추측 질의 결과에 매핑함으로써 상기 머신 학습 컴포넌트를 사용하여 상기 훈련 데이터를 갱신하는 단계
    를 더 포함하는, 벌크 매핑을 돕는 방법.
  17. 제15항에 있어서,
    사용자가 특정의 질의 묶음으로 표현된 단일 질의들의 리스트를 보고자 할 때, 사용자로부터 제2 유형의 입력을 수신하는 단계(552), 및
    상기 제2 유형의 입력의 수신에 응답하여 상기 질의 묶음으로 표현된 단일 질의들의 리스트를 디스플레이하는 단계(554)
    를 더 포함하는, 벌크 매핑을 돕는 방법.
  18. 제13항에 있어서,
    태스크 리스트를 디스플레이하는 단계를 더 포함하는, 벌크 매핑을 돕는 방법.
  19. 제18항에 있어서,
    사용자가 상기 특정의 질의를 상기 디스플레이된 질의 결과 리스트 중의 상기 제안된 최선의 추측 질의 결과와 다른, 특정의 질의 결과에 매핑하고자 할 때, 사용자로부터 제2 유형의 입력을 수신하는 단계(602), 및
    상기 제2 유형의 입력을 수신하면, 상기 특정의 질의를 디스플레이된 태스크 리스트로부터의 상기 특정의 질의 결과에 매핑함으로써 상기 머신 학습 컴포넌트를 사용하여 상기 훈련 데이터를 갱신하는 단계(604)
    를 더 포함하는, 벌크 매핑을 돕는 방법.
  20. 제13항에 있어서,
    상기 특정의 질의를 질의 결과에 매핑함으로써 상기 훈련 데이터를 갱신하면, 상기 갱신된 훈련 데이터의 함수로서 상기 복수의 질의들 중 나머지 질의들 각각에 대한 최선의 추측 질의 결과를 상기 머신 학습 컴포넌트를 사용하여 자동적으로 갱신하는 단계를 더 포함하는, 벌크 매핑을 돕는 방법.
  21. 제20항에 있어서,
    상기 머신 학습 컴포넌트는 나이브 베이스 분류자(Naive Bayes classifier)인, 벌크 매핑을 돕는 방법.
  22. 제13항에 있어서,
    상기 질의 로그에 포함되는 복수의 질의 각각에 대해 최선의 추측 질의 결과를 결정하는 단계는 상기 질의 결과 리스트 내의 각각의 질의 결과에 대해, 상기 머신 학습 컴포넌트를 사용하여 상기 훈련 데이터의 함수로서 질의-질의 결과 매핑에 대해 가능성 있는 상기 질의 로그로부터의 질의들의 리스트를 결정하는 단계를 더 포함하는, 벌크 매핑을 돕는 방법.
  23. 제13항에 있어서,
    상기 머신 학습 컴포넌트는 분류자 모델을 이용하고,
    상기 분류자 모델을 서버로부터 다운로드하는 단계
    를 더 포함하는, 벌크 매핑을 돕는 방법..
  24. 제13항의 단계들을 구현하기 위한 컴퓨터 실행가능한 명령어들을 포함하는 컴퓨터 판독가능 기록 매체.
  25. 삭제
  26. 삭제
  27. 삭제
  28. 삭제
  29. 삭제
  30. 삭제
KR1020040065838A 2003-10-10 2004-08-20 컴퓨터를 이용한 질의-태스크 벌크 매핑 시스템 및 방법 KR101027848B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/683,807 2003-10-10
US10/683,807 US7231375B2 (en) 2003-10-10 2003-10-10 Computer aided query to task mapping

Publications (2)

Publication Number Publication Date
KR20050035066A KR20050035066A (ko) 2005-04-15
KR101027848B1 true KR101027848B1 (ko) 2011-04-07

Family

ID=34314164

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020040065838A KR101027848B1 (ko) 2003-10-10 2004-08-20 컴퓨터를 이용한 질의-태스크 벌크 매핑 시스템 및 방법

Country Status (7)

Country Link
US (1) US7231375B2 (ko)
EP (1) EP1522933B1 (ko)
JP (1) JP4634105B2 (ko)
KR (1) KR101027848B1 (ko)
CN (1) CN100589095C (ko)
AT (1) ATE430965T1 (ko)
DE (1) DE602004020955D1 (ko)

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DK1666074T3 (da) 2004-11-26 2008-09-08 Bae Ro Gmbh & Co Kg Steriliseringslampe
EP1715414A1 (en) * 2005-04-18 2006-10-25 Research In Motion Limited System and method for automated building of component based applications for visualising complex data structures
US20060236254A1 (en) * 2005-04-18 2006-10-19 Daniel Mateescu System and method for automated building of component based applications for visualizing complex data structures
US8438142B2 (en) 2005-05-04 2013-05-07 Google Inc. Suggesting and refining user input based on original user input
US7328199B2 (en) * 2005-10-07 2008-02-05 Microsoft Corporation Componentized slot-filling architecture
US7822699B2 (en) * 2005-11-30 2010-10-26 Microsoft Corporation Adaptive semantic reasoning engine
US20070106496A1 (en) * 2005-11-09 2007-05-10 Microsoft Corporation Adaptive task framework
US7606700B2 (en) * 2005-11-09 2009-10-20 Microsoft Corporation Adaptive task framework
US7831585B2 (en) * 2005-12-05 2010-11-09 Microsoft Corporation Employment of task framework for advertising
US20070130134A1 (en) * 2005-12-05 2007-06-07 Microsoft Corporation Natural-language enabling arbitrary web forms
US7933914B2 (en) * 2005-12-05 2011-04-26 Microsoft Corporation Automatic task creation and execution using browser helper objects
US20070203869A1 (en) * 2006-02-28 2007-08-30 Microsoft Corporation Adaptive semantic platform architecture
US7996783B2 (en) * 2006-03-02 2011-08-09 Microsoft Corporation Widget searching utilizing task framework
US7620634B2 (en) * 2006-07-31 2009-11-17 Microsoft Corporation Ranking functions using an incrementally-updatable, modified naïve bayesian query classifier
US8316309B2 (en) * 2007-05-31 2012-11-20 International Business Machines Corporation User-created metadata for managing interface resources on a user interface
US20090182732A1 (en) * 2008-01-11 2009-07-16 Jianwei Dian Query based operation realization interface
US7984004B2 (en) * 2008-01-17 2011-07-19 Microsoft Corporation Query suggestion generation
CN101533296A (zh) * 2008-03-12 2009-09-16 深圳富泰宏精密工业有限公司 手持行动电子装置触摸控制系统及方法
KR20100135789A (ko) * 2008-04-16 2010-12-27 인터내셔널 비지네스 머신즈 코포레이션 질의 처리 시각화 시스템 및 방법과 컴퓨터 프로그램 제품
CN102124444A (zh) * 2008-05-20 2011-07-13 本特利系统公司 采用生成组件的可复制程序流的系统、方法和计算机程序产品
US20090313286A1 (en) * 2008-06-17 2009-12-17 Microsoft Corporation Generating training data from click logs
US8001101B2 (en) * 2008-06-23 2011-08-16 Microsoft Corporation Presenting instant answers to internet queries
US20100057719A1 (en) * 2008-09-02 2010-03-04 Parashuram Kulkarni System And Method For Generating Training Data For Function Approximation Of An Unknown Process Such As A Search Engine Ranking Algorithm
US8799279B2 (en) * 2008-12-31 2014-08-05 At&T Intellectual Property I, L.P. Method and apparatus for using a discriminative classifier for processing a query
US8373741B2 (en) * 2009-11-20 2013-02-12 At&T Intellectual Property I, Lp Apparatus and method for collaborative network in an enterprise setting
US8768861B2 (en) * 2010-05-31 2014-07-01 Yahoo! Inc. Research mission identification
US8707198B2 (en) * 2010-06-04 2014-04-22 Microsoft Corporation Related tasks and tasklets for search
US8639679B1 (en) * 2011-05-05 2014-01-28 Google Inc. Generating query suggestions
US8612496B2 (en) * 2012-04-03 2013-12-17 Python4Fun, Inc. Identification of files of a collaborative file storage system having relevance to a first file
WO2014045291A1 (en) * 2012-09-18 2014-03-27 Hewlett-Packard Development Company, L.P. Mining questions related to an electronic text document
US10585927B1 (en) 2013-06-26 2020-03-10 Google Llc Determining a set of steps responsive to a how-to query
JP6440732B2 (ja) * 2013-11-27 2018-12-19 株式会社Nttドコモ 機械学習に基づく自動タスク分類
US9990610B2 (en) 2014-08-29 2018-06-05 Google Llc Systems and methods for providing suggested reminders
US10042336B2 (en) * 2014-09-09 2018-08-07 Savant Systems, Llc User-defined scenes for home automation
US9977815B2 (en) * 2014-12-22 2018-05-22 Sap Se Generating secured recommendations for business intelligence enterprise systems
RU2606309C2 (ru) * 2015-06-09 2017-01-10 Общество С Ограниченной Ответственностью "Яндекс" Способ создания аннотированного поискового индекса и сервер, используемый в нем
KR101822404B1 (ko) * 2015-11-30 2018-01-26 임욱빈 Dnn 학습을 이용한 세포이상 여부 진단시스템
EP3188038B1 (en) * 2015-12-31 2020-11-04 Dassault Systèmes Evaluation of a training set
JPWO2017159614A1 (ja) * 2016-03-14 2019-01-10 オムロン株式会社 学習サービス提供装置
US10789538B2 (en) 2016-06-23 2020-09-29 International Business Machines Corporation Cognitive machine learning classifier generation
US10789546B2 (en) 2016-06-23 2020-09-29 International Business Machines Corporation Cognitive machine learning classifier generation
JP6636678B2 (ja) * 2016-12-08 2020-01-29 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. 画像内物体の注釈付けの学習
US11210836B2 (en) 2018-04-03 2021-12-28 Sri International Applying artificial intelligence to generate motion information
CN112292732A (zh) * 2018-06-22 2021-01-29 皇家飞利浦有限公司 用于实现对对象的磁共振成像的方法
US20220318283A1 (en) * 2021-03-31 2022-10-06 Rovi Guides, Inc. Query correction based on reattempts learning

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR19990047854A (ko) * 1997-12-05 1999-07-05 정선종 메타데이타에 의한 정보 검색의 지능형 사용자 인터페이스 방법
JPH11338864A (ja) 1998-05-25 1999-12-10 Sharp Corp 学習機能付き検索装置
KR20010105241A (ko) * 2000-05-17 2001-11-28 마츠시타 덴끼 산교 가부시키가이샤 정보검색 시스템

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6269368B1 (en) 1997-10-17 2001-07-31 Textwise Llc Information retrieval using dynamic evidence combination
US6006225A (en) * 1998-06-15 1999-12-21 Amazon.Com Refining search queries by the suggestion of correlated terms from prior searches
US6269386B1 (en) * 1998-10-14 2001-07-31 Intel Corporation 3X adder
US6751606B1 (en) * 1998-12-23 2004-06-15 Microsoft Corporation System for enhancing a query interface
US6285998B1 (en) * 1999-02-23 2001-09-04 Microsoft Corporation System and method for generating reusable database queries
US6868525B1 (en) * 2000-02-01 2005-03-15 Alberti Anemometer Llc Computer graphic display visualization system and method
US20020152202A1 (en) * 2000-08-30 2002-10-17 Perro David J. Method and system for retrieving information using natural language queries
US6751614B1 (en) * 2000-11-09 2004-06-15 Satyam Computer Services Limited Of Mayfair Centre System and method for topic-based document analysis for information filtering
US6701311B2 (en) * 2001-02-07 2004-03-02 International Business Machines Corporation Customer self service system for resource search and selection
US6728702B1 (en) * 2001-06-18 2004-04-27 Siebel Systems, Inc. System and method to implement an integrated search center supporting a full-text search and query on a database
US6820075B2 (en) * 2001-08-13 2004-11-16 Xerox Corporation Document-centric system with auto-completion
US20030115191A1 (en) * 2001-12-17 2003-06-19 Max Copperman Efficient and cost-effective content provider for customer relationship management (CRM) or other applications
WO2003075186A1 (en) * 2002-03-01 2003-09-12 Paul Jeffrey Krupin A method and system for creating improved search queries

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR19990047854A (ko) * 1997-12-05 1999-07-05 정선종 메타데이타에 의한 정보 검색의 지능형 사용자 인터페이스 방법
JPH11338864A (ja) 1998-05-25 1999-12-10 Sharp Corp 学習機能付き検索装置
KR20010105241A (ko) * 2000-05-17 2001-11-28 마츠시타 덴끼 산교 가부시키가이샤 정보검색 시스템

Also Published As

Publication number Publication date
CN1606000A (zh) 2005-04-13
CN100589095C (zh) 2010-02-10
EP1522933B1 (en) 2009-05-06
US7231375B2 (en) 2007-06-12
US20050080782A1 (en) 2005-04-14
KR20050035066A (ko) 2005-04-15
JP4634105B2 (ja) 2011-02-16
ATE430965T1 (de) 2009-05-15
EP1522933A2 (en) 2005-04-13
EP1522933A3 (en) 2006-05-03
JP2005115931A (ja) 2005-04-28
DE602004020955D1 (de) 2009-06-18

Similar Documents

Publication Publication Date Title
KR101027848B1 (ko) 컴퓨터를 이용한 질의-태스크 벌크 매핑 시스템 및 방법
US10832008B2 (en) Computerized system and method for automatically transforming and providing domain specific chatbot responses
US10713571B2 (en) Displaying quality of question being asked a question answering system
CN110914824B (zh) 用于从文档中去除敏感内容的设备和方法
CN101208689B (zh) 创建语言模型和假名-汉字转换的方法和设备
US20160196265A1 (en) Tailoring Question Answer Results to Personality Traits
US9697099B2 (en) Real-time or frequent ingestion by running pipeline in order of effectiveness
JP2022003512A (ja) 品質評価モデルを構築するための方法および装置、電子機器、記憶媒体並びにコンピュータプログラム
US20090063132A1 (en) Information Processing Apparatus, Information Processing Method, and Program
EP2092447A1 (en) Email document parsing method and apparatus
US20160103822A1 (en) Natural language consumer segmentation
US8458187B2 (en) Methods and systems for visualizing topic location in a document redundancy graph
JP2012248161A (ja) 対話型検索システム及びプログラム、並びに、対話シナリオ生成システム及びプログラム
AU2011201127A1 (en) Collaborative Knowledge Management
US20210357440A1 (en) Context-based Recommendation System for Feature Search
JP2010140154A (ja) 検索結果分類装置、方法及びプログラム
US20090216739A1 (en) Boosting extraction accuracy by handling training data bias
Liu Python machine learning by example: implement machine learning algorithms and techniques to build intelligent systems
JP7438769B2 (ja) 文章構造描画装置
JP2006286026A (ja) 意見収集分析装置及びそれに用いる意見収集分析方法並びにそのプログラム
JP6549173B2 (ja) 計算機システム及び文章データの検索方法
JP5661708B2 (ja) 広告入札システム、文書検索システム、広告入札方法、文書検索方法、及びプログラム
US20210149900A1 (en) Method, system and computer program for semantic triple-based knowledge extension
US20200356603A1 (en) Annotating Documents for Processing by Cognitive Systems
JP2009271671A (ja) 情報処理装置、情報処理方法、プログラム及び記録媒体

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee