KR20060045069A

KR20060045069A - 의미 관리를 이용하는 언어 모델 적응

Info

Publication number: KR20060045069A
Application number: KR1020050026978A
Authority: KR
Inventors: 알레잔드로 아세로; 씨프리안 아이. 첼바; 밀린드 마하잔; 와이크-?? 탐
Original assignee: 마이크로소프트 코포레이션
Priority date: 2004-03-31
Filing date: 2005-03-31
Publication date: 2006-05-16
Also published as: US7478038B2; EP1582998A3; CN1677487B; JP2005292832A; JP4855701B2; US20050228641A1; EP1582998A2; CN1677487A; KR101122954B1

Abstract

언어 모델을 적응적으로 변화시키기 위한 방법 및 장치가 제공된다. 상기 방법 및 장치는 영역 내 의미 정보(in-domain semantic information)를 이용하여 관리되는 언어 모델의 클래스 기반 적응을 제공한다.

배경 데이터, 의미 엔티티, 의미 클래스, 배경 n-그램 클래스, 언어 모델, 학습, 적응 데이터, 적응 n-그램 클래스, 배경 n-그램 단어, 적응 n-그램 단어

Description

의미 관리를 이용하는 언어 모델 적응{LANGUAGE MODEL ADAPTATION USING SEMANTIC SUPERVISION}

도 1은 본 발명이 실시될 수 있는 일반적인 컴퓨터 환경의 블록도.

도 2는 언어 모델을 적응적으로 변화시키기 위한 순서도.

도 3A 및 3B는 언어 모델을 적응적으로 변화시키기 위한 시스템의 블록도.

본 발명은 언어 처리에서 사용되는 언어 모델에 관한 것으로 특히, 요청되는 영역에 대한 언어 모델들을 적응적으로 변화시키는 것에 관련되어 있다.

자동 음성 인식(automatic speech recognition, ASR)과 같은 언어 처리 시스템에서는 종종, 학습(training) 및 테스트 데이터와 실제 영역 데이터 사이의 미스매치(mismatch)에서 비롯되는 성능 저하를 다루어야 한다. 잘 알려져 있는 바와 같이 음성 인식 시스템에서는 인식을 제공하기 위해 음향 모델과 통계적 언어 모델(statistical language model, LM)을 채택한다. 새로운 영역으로 음향 모델을 적응적으로 변화시키는 것은 어느 정도 성공을 거두었으나, 언어 모델의 적응적 변화는 만족스러운 결과를 이루지 못했다.

통계적 언어 모델(LM)은 단어 시퀀스(word sequence)들에 대해 사전 확률 추정(prior probability estimate)을 제공한다. LM은 가장 그럴듯한 단어 시퀀스에 대한 가상 검색(hypothesis search)을 안내하므로 ASR 및 기타 언어 처리 형태에서 중요한 구성 요소가 된다. 언어 처리 성능이 탁월하기 위해서는, 성능이 좋은 LM이 필수적이라고 알려져 있다.

일반적으로 LM에서는, 테스트 데이터와 유사할 것으로 예상되는 상당량의 학습 데이터로부터 수집된 평활 n-그램(smoothed n-gram) 통계를 사용한다. 그러나 유사도의 정의는 엄격하지 않고, 보통 주어진 관심 영역에 대해 어떤 데이터 소스를 사용해야하는가는 모델 제작자의 결정으로 남겨지며, 대부분 시행착오를 겪게 된다.

학습 또는 테스트 데이터와 실제 영역 또는 "영역 내(in-domain)" 데이터 사이에 미스매치가 존재하고, 결과적으로 오류를 일으키는 일이 꾸준히 있어 왔다. 미스매치의 한 가지 원인은 테스트 데이터의 어휘 범주를 벗어난 단어들에서 비롯된다. 예를 들면, 어떤 항공 여행 정보 시스템이 원래 특정 항공사를 위해 설계된 것이라면, 다른 항공사에 대해서는 문제가 되는 도시 이름(city name)들, 항공기 이름들 및 기타 항공사가 서비스하는 것들과 미스매치가 생기기 때문에 잘 동작하지 않을 수 있다.

미스매치의 다른 잠재적 원인은 상이한 언어 스타일에서 비롯된다. 예를 들면, 뉴스 영역의 언어 스타일은 항공 여행 정보 영역과는 차이가 있다. 뉴스선(newswire)이나 기타 일반 텍스트 상에서 학습된 언어 모델은 항공 여행 정 보 영역에서는 잘 동작하지 않을 수 있다.

각기 다른 기술들을 사용하여 상당량의 배경 데이터로 학습된 LM을 적응적으로 변화시키기 위해 다양한 접근 방식들이 시도되었으나, 어떤 것도 탁월한 결실을 이루지 못했고, 따라서 LM 적응에 대한 개선이 지속적으로 요구된다. 하나 이상의 상술된 문제들을 다루는 방법이 유용할 것이다.

언어 모델을 적응적으로 변화시키기 위한 방법 및 장치가 제공된다. 이 방법 및 장치는 영역 내 의미 정보(in-domain semantic information)를 이용하여 관리되는 클래스 기반 언어 모델 적응을 제공한다.

일반적으로 적응적 변화를 수행하는데 사용되는 자원들은, 일반 텍스트로 지시되는 배경 데이터 및 선택된 영역에서 사용되고 클래스들로 조직되는 의미 엔티티들(semantic entities)의 집합으로부터 유도된다. 좀 더 구체적인 실시예에서는, 모델이 될 선택 영역을 지시하는 적응 데이터도 또한 사용된다.

상기 좀 더 구체적인 실시예에서, 그러한 데이터에는, 의미 엔티티들의 집합 클래스들과 상호 관련되어 있으며 일반 텍스트를 지시하는 배경 데이터에 기초하는 배경 n-그램 클래스 카운트 데이터 및 의미 엔티티들의 집합 클래스들과 상호 연관되어 있으며, 모델이 될 선택 영역을 지시하는 적응 데이터에 기초하는 적응 n-그램 클래스 카운트 데이터가 포함된다. 배경 단어 카운트 데이터 및 적응 단어 카운트 데이터는, 상기 데이터와 의미 엔티티들의 집합을 사용하여 계산될 수 있으 며, 상기 적응 데이터의 영역 및 상기 의미 항목들의 집합으로 언어 모델을 적응적으로 변화시키는데 기초로 사용될 수 있다.

본 발명은 언어 모델 적응을 위한 시스템 및 방법에 관련된 것이다. 그러나 본 발명을 좀 더 구체적으로 논의하기에 앞서, 본 발명이 사용될 수 있는 일 예시 환경이 논의될 것이다.

도 1은 본 발명이 구현될 수 있는 적합한 컴퓨터 시스템 환경(100)의 예시도이다. 컴퓨터 시스템 환경(100)은 단지 적합한 컴퓨터 환경의 일 예시일 뿐이며, 사용의 범위나 본 발명의 기능에 어떤 제한을 암시하려는 의도가 아니다. 또한, 컴퓨터 환경(100)은 예시적 운영 환경(100)에 도시된 임의의 구성 요소 하나 또는 그 조합과 관련하여 어떤 의존성이나 요구사항도 갖는 것으로 해석되어서는 안된다.

본 발명은 다른 일반적인 목적 또는 특별한 목적의 수많은 컴퓨터 시스템 환경이나 구성에서 작동 가능하다. 본 발명이 사용되기에 적합할 수 있는 잘 알려진 컴퓨터 시스템, 환경 및/또는 구성의 예로서 개인용 컴퓨터, 서버 컴퓨터, 핸드헬드(hand-held) 또는 랩탑 장치, 다중처리 시스템, 마이크로프로세서-기반 시스템, 셋탑 박스(set top boxes), 프로그램 가능한 소비자 전자기기(programmable consumer electronics), 네트워크 PC, 미니컴퓨터, 메인프레임 컴퓨터(mainframe computers), 임의의 상기 시스템 또는 장치를 포함하는 분산 컴퓨터 환경 및 그 유사 장치를 들 수 있으며, 다만 이에 한정되지 않는다.

본 발명은 프로그램 모듈과 같은 컴퓨터-실행 가능한 명령어들의 일반적인 컨텍스트로 서술되어 컴퓨에서 실행될 수 있다. 일반적으로, 프로그램 모듈은 특정한 임무를 수행하거나 특정의 추상 데이터 유형(abstract data types)을 구현하는 루틴(routine), 프로그램, 개체, 구성 요소, 데이터 구조(data structure) 등을 포함한다. 당업자는 컴퓨터 실행 가능한 명령어들로 본 명세서의 설명 및/또는 도면을 구현할 수 있다. 이 때 컴퓨터 실행 가능한 명령어들은 이하에서 논의되는 임의의 컴퓨터 판독 가능 매체 상에서 실체화될 수 있다.

본 발명은 또한, 통신 네트워크를 통해 연결된 원격 처리 장치에 의해 임무가 수행되는 분산 컴퓨터 환경에서 실시될 수 있다. 분산 컴퓨터 환경에서 프로그램 모듈은, 메모리 저장 장치를 포함하는 로컬 컴퓨터 저장 매체 및 원격 컴퓨터 저장 매체 모두에 위치할 수 있다.

도 1의 본 발명을 구현하는 시스템의 일 예시에는, 컴퓨터(110) 형태의 범용 컴퓨터 장치가 포함되어 있다. 컴퓨터(110)의 구성 요소들에는 처리 유닛(120), 시스템 메모리(130) 및 시스템 메모리를 비롯하여 다양한 시스템 구성 요소들을 처리 유닛에 연결하는 시스템 버스(121)가 포함되며, 다만 이에 한정되지는 않는다. 시스템 버스(121)는 몇몇 유형의 임의의 버스 구조물이 될 수 있다. 여기에서 버스 구조물에는 메모리 버스 또는 메모리 제어기, 주변 장치 버스 및 임의의 다양한 버스 구조를 사용하는 로컬 버스가 포함된다. 그러한 구조의 예로서, Industry Standard Architecture(ISA) 버스, Micro Channel Architecture(MCA) 버스, Enhanced ISA(EISA) 버스, Video Electronics Standards Association(VESA) 로컬 버스 및 Mezzanine 버스로 또한 알려진 Peripheral Component Interconnect(PCI) 버스를 들 수 있으며, 다만 이에 한정되지는 않는다.

컴퓨터(110)는 일반적으로 다양한 컴퓨터 판독 가능 매체를 포함한다. 컴퓨터 판독 가능 매체란 컴퓨터(110)로 액세스 가능한 임의의 이용 가능 매체일 수 있으며, 휘발성 및 비휘발성 매체, 착탈식 및 고정식 매체를 포함한다. 컴퓨터 판독 가능 매체의 예로서, 컴퓨터 저장 매체 및 통신 매체를 들 수 있으며 다만, 이에 한정되지 않는다. 컴퓨터 저장 매체에는 임의의 정보 저장소에 대한 방법 또는 기술로 구현되는 휘발성 및 비휘발성, 착탈식 및 고정식 매체 모두가 포함된다. 여기서 정보라함은 컴퓨터 판독 가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 것이다. 컴퓨터 저장 매체에는 RAM, ROM, EEPROM, 플래시 메모리 또는 기타 메모리 기술, CD-ROM, DVD 또는 기타 광디스크 저장소, 자기 카세트, 자기 테이프, 자기 디스크 저장소, 또는 기타 자기 저장소 장치 또는 원하는 정보를 저장하는데 사용될 수 있고, 또 컴퓨터(100)로 액세스 가능한 기타 임의의 매체가 포함되며, 다만 이에 한정되지는 않는다. 통신 매체는 일반적으로 컴퓨터 판독 가능 명령어, 데이터 구조, 프로그램 모듈 또는 반송파 주파수(carrier WAV)와 같은 변조 데이터 신호 내에 있는 다른 데이터로 구체화되며, 임의의 정보 전달 매체를 포함한다. 용어“변조 데이터 신호”는 그 특성 집합을 하나 이상 포함하는 신호 또는 신호 내에 정보를 인코드(encode)하는 방식으로 변경된 신호를 의미한다. 통신 매체의 예로서, 유선 네트워크 또는 유선 직선 연결(direct-wired connection)과 같은 유선 매체 및 음향, FR, 적외선 및 기타 무선 매체와 같은 무선 매체를 들 수 있으며, 다만 이에 한정되지는 않는다. 또한 상기에 대한 임의의 조합에 대해 서도 컴퓨터 판독 가능 매체의 범주에 포함되어야 한다.

시스템 메모리(130)는 ROM(131) 및 RAM(132)과 같은 휘발성 및/또는 비휘발성 메모리 형태의 컴퓨터 저장 매체를 포함한다. 시동하는 동안과 같이 컴퓨터(110) 내에 소자들 간 정보 전달을 돕는 기본 루틴을 포함하는 기본 입/출력 시스템(BIOS)(133)은 일반적으로 ROM(131)에 저장된다. RAM(132)은 일반적으로 즉시 액세스 가능하고 및/또는 처리 유닛(120)에 의해 현재 동작 중인 데이터 및/또는 프로그램 모듈을 포함한다. 예로서, 도 1에 운영 체제(134), 응용 프로그램(135), 기타 프로그램 모듈(136) 및 프로그램 데이터(137)가 도시되었으며 다만, 이에 한정되지는 않는다.

컴퓨터(110)는 또한, 다른 착탈식/고정식 휘발성/비휘발성 컴퓨터 저장 매체를 포함할 수 있다. 단지 예시로, 도 1에 고정식, 비휘발성 자기 매체로부터 읽거나 상기 매체에 쓰는 하드 디스크 드라이브(141), 착탈식, 비휘발성 자기 디스크(152)로부터 읽거나 상기 디스크에 쓰는 자기 디스크 드라이브(151) 및 CD ROM 또는 기타 광학성 매체와 같은 착탈식, 비휘발성 광디스크(156)로부터 읽거나 상기 광디스크에 쓰는 광디스크 드라이브(155)를 도시한다. 예시적 운영 환경에서 사용될 수 있는 다른 착탈식/고정식, 휘발성/비휘발성 컴퓨터 저장 매체에는 자기 테이프 카세트, 플래시 메모리 카드, DVD, 디지털 비디오 테이프, 고형 상태 RAM, 고형 상태 ROM 및 그 유사물을 들 수 있으며 다만, 이에 한정되지는 않는다. 하드 디스크 드라이브(141)는 일반적으로 인터페이스(140)와 같은 고정식 메모리 인터페이스를 통해 시스템 버스(121)에 연결되고, 자기 디스크 드라이브(151) 및 광디스크 드라이브(155)는 일반적으로 인터페이스(150)와 같은 착탈식 메모리 인터페이스에 의해 시스템 버스(121)에 연결된다.

도 1에 도시되고, 앞에서 설명한 드라이브 및 그와 연관된 컴퓨터 저장 매체는 컴퓨터 판독 가능 명령어, 데이터 구조, 프로그램 모듈 및 기타 컴퓨터(110)에 대한 데이터 저장소를 제공한다. 예를 들면 도 1에서, 하드 디스크 드라이브(141)는 저장 운영 체제(144), 응용 프로그램(145), 기타 프로그램 모듈(146) 및 프로그램 데이터(147)로 도시되어 있다. 이러한 구성 요소들은 운영 체제(134), 응용 프로그램(135), 기타 프로그램 모듈(136) 및 프로그램 데이터(137)와 같거나, 또는 다를 수 있다는 것에 주목한다. 운영 체제(144), 응용 프로그램(145), 기타 프로그램 모듈(146) 및 프로그램 데이터(147)는 최소한 그들이 별개의 사본임을 설명하기 위해 여기에서는 다른 번호로 표시되었다.

사용자는, 키보드(162), 마이크로폰(163) 및 마우스, 트랙볼 또는 터치패드와 같은 포인팅 장치(pointing device)(161)와 같은 입력 장치를 통해서 컴퓨터(110)로 명령어 및 정보를 입력할 수 있다. 다른 입력 장치들(도시 생략)은 조이스틱, 게임 패드, 위성 접시, 스캐너 또는 그 유사물을 포함할 수 있다. 이러한, 또 이외 입력 장치들은 종종 시스템 버스에 연결된 사용자 입력 인터페이스(160)를 통해 처리 유닛(120)에 접속되지만, 다른 인터페이스 및 병렬 포트, 게임 포트 또는 유니버설 시리얼 버스(USB)와 같은 버스 구조에 의해 접속될 수도 있다. 모니터(191) 또는 다른 유형의 디스플레이 장치는 또한, 비디오 인터페이스(190)와 같은 인터페이스를 통해 시스템 버스(121)에 접속된다. 컴퓨터에는 모니터 이외, 출 력 주변 장치 인터페이스(190)를 통해 접속될 수 있는 스피커(197) 및 프린터(196)와 같은 다른 주변 출력 장치를 또한 포함할 수 있다.

컴퓨터(110)는 원격 컴퓨터(180)와 같은 하나 이상의 원격 컴퓨터에 논리적으로 접속되어 있는 네트워크 환경에서 운영될 수 있다. 원격 컴퓨터(180)는 개인용 컴퓨터, 핸드 헬드 장치, 서버, 라우터, 네트워크 PC, 피어 장치(peer device) 또는 기타 공통 네트워크 노드(common network node)일 수 있으며, 일반적으로 컴퓨터(110)와 관련하여 상술한 요소들을 전부 또는 다수 포함한다. 도 1에 도시된 논리적 접속에는, LAN(local area network)(171) 및 광역 통신망(wide area netwok, WAN)(173)이 포함되며, 다른 네트워크들도 포함될 수 있다. 그러한 네트워크 환경은 사무실, 기업 영역의 컴퓨터 네트워크, 인트라넷 및 인터넷에서 일반적인 것이다.

LAN 네트워크 환경에서 사용될 경우, 컴퓨터(110)는 네트워크 인터페이스 또는 어댑터(170)를 통해서 LAN(171)에 접속된다. WAN 네트워크 환경에서 사용될 경우, 컴퓨터(110)는 일반적으로 모뎀(172) 또는 인터넷과 같은 WAN(173) 상에서 통신을 개설하기 위한 다른 수단들을 포함한다. 모뎀(172)은 내장형 또는 외장형일 수 있으며, 사용자 입력 인터페이스(160) 또는 기타 적절한 메커니즘을 통해서 시스템 버스(121)에 접속될 수 있다. 네트워크 환경에서, 컴퓨터(110) 또는 그 일부와 관련하여 도시된 프로그램 모듈은 원격 메모리 저장 장치에 저장될 수 있다. 예로서, 도 1은 원격 컴퓨터(180)에 상주하는 원격 응용 프로그램(185)을 도시하는데, 다만 이에 한정되지는 않는다. 도시된 네트워크 접속은 예시적인 것이며, 컴 퓨터들 사이에 통신 링크를 개설하기 위한 다른 수단이 사용될 수 있는 것으로 이해될 것이다.

본 발명이 도 1과 관련하여 설명된 것과 같은 컴퓨터 시스템 상에서 수행될 수 있음을 주목해야 한다. 그러나 그 외에도 본 발명은 서버, 메시지 핸들링 전용 컴퓨터 또는 본 발명의 별개의 부분들이 분산 컴퓨터 시스템의 별개의 부분들에서 수행되는 분산 시스템 상에서도 수행될 수 있다.

앞에서 지적한 바와 같이, 본 발명은 언어 모델 적응에 대한 시스템 및 방법과 관련되어 있다. 적응을 수행하기 위해 사용되는 자원에는 적응적 변화를 필요로 하는 배경 LM이 포함된다. 일반적으로 배경 LM은 뉴스 기사 및 그 유사물과 같이 배경 학습 데이터로 이루어진 상당량의 언어 자료(corpus)로부터 얻어지지만, 이에 한정되는 것은 아니다. 배경 학습 데이터는 배경 언어 모델을 위한 n-그램 통계를 얻는데 사용된다.

의미 데이터베이스 또는 의미 정보는 적응을 위한 관리 정보(supervised information)를 제공한다. 이 논의를 위해, 의미 데이터베이스는 의미 엔티티들- 클래스들 형태의 목록을 폭넓게, 그리고 개략적으로 나타내는데, 이들 각각은 영역 내 자연 언어 텍스트에서 동일한 형태로 만날 것이 추측되는 구현예들의 목록을 수반한다. 예를 들면, 의미 데이터베이스는 다수의 클래스들에 대해 일반적으로 잘 정의된 의미 엔티티들로 이루어진 하나의 목록 형태일 수 있다. 예를 들면, 그리고 하기 예시에서 사용된 바와 같이, 예약용 여행 정보를 얻기 위한 항공사의 음성 인식에서, 사용되는 언어 모델의 의미 항목들은 그 항공사에서 서비스하는 도시 (city)들 및 경유(fly to)하는 다양한 공항들의 목록을 포함할 수 있다. 의미 엔티티들 및 클래스들의 다른 예시로 회사의 고용인들, 그 달의 일수 및 그 연도의 월수로 이루어진 하나의 목록을 들 수 있는데, 이는 스케쥴 응용을 위해 영역 안에 포함될 가능성이 있다.

의미 클래스들은 개방 클래스들 및 폐쇄 클래스들로 분류될 수 있다. 개방 클래스들의 클래스 구성원들은 영역들에 따라 달라지는 반면, 폐쇄 클래스들의 구성원들은 달라지지 않는다. 예를 들면, 항공 여행 응용에서 의미 클래스들은 다음과 같을 수 있다:

개방 클래스들: {항공사(AIRLINE), 공항(AIRPORT), 도시(CITY), 주 (STATE)}

폐쇄 클래스들: {일수(DAYS), 월(MONTH, 간격(INTERVAL), 서비스 클래 스(CLASS OF SERVICE), 시간대(TIME ZONE), 음식 서비스(FOOD SERVICE), 그라운드 서비스(GROUND SERVICE)}

응용분야에 따라 의미 클래스들의 개수와 유형은 상당히 달라질 수 있다. 그러나 항공 여행 응용과 같은 일부 응용에서는, 일단 의미 클래스들이 식별되면, 다른 항공사가 사용할 수 있도록 언어 모델을 본질적으로 적응시키는데 변경이 필요한 것은 단지, 의미 엔티티들 또는 단어 수준의 구현이 전부일 수 있다.

언어 모델 적응에 사용되는 셋째 자원은 적응 데이터로서, 선택사항이다. 적응 데이터는 영역 내 응용에서 클래스들의 사용 예시 역할을 할 수 있는 문장, 구문 또는 텍스트 등의 형태의 실제 또는 영역 내 데이터를 포함한다. 배경 데이 터와 비교할 때 적응 데이터는, 배경 데이터보다 그 크기의 수 자리수만큼 작다. 일 실시예에서, 영역 내 데이터는 적응 개발 데이터 및 적응 학습 데이터로 세분된다. 적응 학습 데이터는 배경 학습 집합과 결합하여 더 큰 학습 집합이 된다. 이 때, 양 집합의 n-그램 카운트는 동일한 가중치로 합쳐진다(합치는 방식으로 다른 것 가능: MAP 적응과 같이 별개의 가중치로 n-그램 카운트들을 합칠 수 있다). 적응 개발 데이터는 배경 언어 모델 및 적응 언어 모델 양자를 평활하는 데에만 사용된다. 개발 집합의 n-그램들은 배경/적응 언어 모델에 포함되지 않는다.

실시예의 예시에서, 모든 데이터 집합들은 단어 수준의 자연 언어 텍스트이다.

클래스 기반 적응

관리 의미 정보는 클래스 기반 언어 모델의 사용을 통해 언어 모델로 통합된다. 간략히 말해서, 단일 의미 클래스 c₃에 속하는 새로운 단어 w₃의 확률 추정은 다음과 같이 이루어질 수 있다:

Pr(w₃|w₂w₁) = Pr(w₃|c₃)Pr(c₃|w₂w₁)

모델에서, Pr(w₃|c₃w₂w₁) = Pr(w₃|c₃)라고 가정한다.

예를 들면, Pr(city name| fly to)는 다음과 같이 추정된다.

Pr(city name|fly to) = Pr(city name|CITY)

Pr(CITY|fly to)

여기에서, Pr(CITY|fly to)은 의미 클래스들로 태그가 붙은 학습 데이터를 사용하여 추정되는 반면, Pr(city name|CITY)은 영역 내 의미 데이터베이스를 사용하여 적응적으로 변화된다. 영역 내 사전 지식이 이용 가능한 경우, 일반적인 city name들은 드문 것들에 비해 더 높은 확률을 할당받을 수 있다; 또는, city name들이 균등 분포(unifrom distribution)라고 가정한다. 클래스 기반 적응 접근 방식을 사용함으로써 다음과 같이 장점이 있다:

주어진 단어 컨텍스트에 대해 의미 클래스의 확률이 잘 추정된 것일 수 있 다. 상술한 예에서, Pr(CITY|fly to)은 학습 데이터 내에서와 적응 데이터 내에서 매우 유사할 수 있다;

영역 내 의미 데이터베이스를 사용하여 Pr(w₃|c₃)를 적응시킴으로써 빠른 LM 적응이 수행될 수 있다. 적응적으로 변화된 확률들 Pr(w₃|c₃)은, 그 영역에 특정한 언어 모델을 재학습시키기 위해 임의의 새로운 학습 텍스트 수집없이 카운트들 "w₁w₂w₃"로서 결합된다; 그리고,

의미 클래스들 내에 단어 구문들이 요약되어 있기 때문에, 좀 더 폭넓은 단 어 컨텍스트에 대한 확률 추정이 이루어질 수 있다. 예를 들면, 5-그램 "los angeles to new york"은 3-그램 시퀀스로서 "los angeles to", "angles to new" 및 "to new york"으로 모델되는 것보다 인식면에서 좀 더 만족스러 운 3-그램 클래스 "CITY to CITY"로 모델된다.

적응 절차

도 2에 예시 적응 절차(200)를 도시하였다. 도 3A 및 3B에 상기 절차(200) 를 수행하는 예시 시스템(300)이 도시되어 있다. 앞에서 지적한 바와 같이, 적응 데이터의 사용은 선택사항이나, 본 발명의 구체적 실시예에서는 다루기로 한다. 양자를 사용하는 실시예가 앞으로 설명될 것이나, 필수적이거나 또는 제한적으로 간주되어서는 안된다. 또한 절차(200) 및 시스템(300)은 배경 데이터 및 선택사항인 적응 데이터 상에서 일반적으로 동시에 운영되고 있는 것으로 설명된다는 것을 주목해야 한다. 그러나, 이것은 이해의 편의를 위한 것으로 필수적이거나 제한적으로 간주되어서는 안된다.

202 단계는 일반적으로, 배경 데이터 및 적응 데이터 양자에 대해 태그 붙인 데이터를 획득하는 단계를 의미한다. 도시된 실시예에서, 이것은 202에서 지시되는 대로 단어 수준 데이터에 태그를 붙이는 단계를 포함한다. 도 2의 202 단계에서 특히, 학습(배경 및 적응) 데이터가 첫째로 의미 클래스 레이블들로 태그가 붙여진다. 물론, 태그 붙여진 데이터가 존재하는 경우, 이 단계는 불필요하다. 도 3A에서, 의미 데이터베이스는 301로 지시되어 있다. 반면, 학습 데이터는 언어 자료들(302 및 304)에 상주하며, 태그 붙이기는 태그 붙이기(306)에 의해 수행된다.

태그 붙이기(306)는 언어 자료(304 및 306)에서 제공되는 단어 수준의 텍스트를 변형하고, 단어 내에서 인식되는 의미 엔티티들에 대한 클래스들을 지시하는 태그들을 덧붙인다. 예를 들면, "fly from san francisco to" 가 주어지고, "san francisco"가 의미 클래스 "CITY" 에 속해 있음을 알고 있는 경우, 태그 붙이기(306)의 출력은 "fly from CITY to"가 될 것이다. 308 및 310에는, 의미 엔티티들의 일부가 대응하는 의미 클래스들로 대체된 단어 수준의 학습 데이터가 지시되어 있다.

일 실시예에서, 발견적 학습법(heuristics)을 태그 붙이기에 적용할 수 있다. 그러한 발견적 학습법으로 태그 붙이기 위한 단순 문자열-매칭(string-matching) 접근 방식을 들 수 있다. 태그 붙이기(306)는 주어진 데이터베이스 엔트리(entry)를 텍스트 내에 있는 단어들의 시퀀스들과 매치하며, 그렇게 하여 식별된 가장 긴 구문에 클래스 레이블을 할당한다. 좀 더 구체적인 실시예에서, 별개의 클래스들 사이에서 단어가 애매한 경우, 단어 구문은 태그가 붙지 않은 채로 남겨진다. 다른 실시예에서는, 각 의미 클래스 후보에 대해 확률을 할당함으로써 소프트 태그 붙이기(soft tagging)가 수행될 수 있다.

202 단계에서 태그 붙이기가 수행된 후, 달리 태그 붙인 데이터가 공급되지 않는다면, 절차는 204 단계로 진행한다. 204 단계에서는 모든 학습 텍스트로부터 클래스 n-그램 카운트들을 수집하거나, 또는 태그 붙인 데이터 내에 포함되어 있는 고유의 n-그램을 카운트한다. 도 3A에서 이 단계는, 수집 모듈(312)에 의해 수행된다.

필요한 경우, 클래스의 n-그램 카운트들을 가지치기하는 단계(pruning)를 포함하는 선택사항인 206 단계가 수행될 수 있다. 클래스 기반 적응에서, 클래스 n-그램들이 단어 n-그램들로 확장되는 경우, 각 의미 클래스 내에 있는 요소들의 개수에 의해 언어 모델의 크기가 강하게 영향을 받는다. 예를 들면, "PERSON" 및 "COMPANY"가 의미 클래스들을 포함하는 클래스 3-그램(trigram) "PERSON joins COMPANY"는, "PERSON" 및 "COMPANY" 각각이 수천의 클래스 요소들을 포함하는 경 우, 수백만의 단어 3-그램들을 생성한다. 그러므로 언어 모델의 크기를 관리 가능한 정도로 만들기 위해, 언어 모델 가지치기 단계가 필수일 수 있다. 일 실시예에서, 의미 클래스를 하나보다 많이 포함하는 N-그램들은 버려진다. 계산 자원들이 이용 가능한 경우에는, 그것들이 채용될 수 있다. 덧붙여, 단어 n-그램들로 확장하는 단계 전에, 클래스 n-그램들의 카운트 차단(cutoff) 가지치기 단계가 채택될 수 있다. 도 3A에서, 수집 모듈(312)은 가지치기 모듈(312)을 사용하여 이 기능을 수행하는 단계로 도시되어 있다. 수집 모듈(312)의 출력은, 도 3B에 도시되어 있는 배경 N-그램 카운트 데이터(316) 및 적응 n-그램 카운트 데이터(318)를 포함한다.

208 단계에서, 클래스 n-그램들은 의미 데이터베이스(301)를 사용하여 단어 n-그램들로 확장된다. 도 3B에서 이 단계는 단어 n-그램 생성기(320)에 의해 수행된다. 일 실시예에서, n-그램 단어 생성기(320)는 배경 n-그램 단어 카운트 데이터(322) 및 적응 n-그램 단어 카운트 데이터(324)를 생성하면서 다음의 확장 알고리즘을 구현할 수 있다:

(a) 주어진 n-그램 클래스에 대해, 클래스의 태그를 그 클래스의 각 요소들로 대체한다.

예를 들면, 클래스 3-그램 "analyst for COMPANY"는 단어 4-그램 "analyst for x. y."를 생성할 수 있으며, 이 때 "x. y."는 의미 데이터베이스에서 company 이름(예를 들어 Verizon Wireless)이다.

(b) 클래스 n-그램 카운트로부터 단어 n-그램 카운트를 계산한다.

단어 n-그램 카운트는 Pr(word|class)에 의존하는 대응 클래스 n-그램 카운 트의 분수로 계산된다.

의미 클래스 "COMPANY"의 확률들을 다음과 같이 가정한다:

Pr(microsoft|COMPANY) = 0.5

Pr(oracle|COMPANY) = 0.25

Pr(verizon wireless|COMPANY) = 0.25, 및

n-그램 "analyst for COMPANY"가 5 카운트인 경우,

그러면 단어 수준의 n-그램 카운트 데이터는 다음과 같다.

"analyst for microsoft" = 2.5

"analyst for oracle" = 1.25

"analyst for verizon wireless" = 1.25

상기 예시에서, 생성된 단어 4-그램 "analyst for x. y."의 카운트는 다음과 같다:

# ("analyst for COMPANY")

Pr("x. y."|COMPANY)

(c) 그러나 클래스 기반 n-그램은, 복수 단어 의미 엔트리들 때문에 특정 n-그램의 학습에는 운영할 수 없는 단어 수준의 n-그램들을 생성할 수 있다는 것에 주목한다. 예를 들어 3-단어 n-그램 언어 모델이 요구된다고 가정하면, "analyst for verizon wireless"는 올바른 형태가 아니다. 이 경우, 슬라이딩 윈도우(sliding window)를 사용하여 낮은 차수(order)의 단어 n-그램이 생성된다. 상기 예시에서, "for verizon wireless"가 1.25의 카운트를 갖게 될 뿐만 아니라 "analyst for verizon"도 1.25의 카운트를 갖게 될 것이다.

그러나 만약, 클래스가 제일-오른쪽(right-most)이 아닌 n-그램 내에 어딘가 다른 곳에 나타난다면, 복수 단어 의미 항목들의 확장에 대해 두 번 카운트되는 것을 피하기 위해 다음 단계들이 수행될 수 있다. 상기 예시에서, 확장에 관한 (a) 단계 및 계산에 관한 (b) 단계가 동일한 방식으로 수행된다. 그러나, (c) 단계는 수행되지 않는다. 대신, 확장 후 가장 바람직한 제일 오른쪽 개수의 단어들만 취함으로써 n-그램 컨텍스트가 단축된다.

예로서, 상기 의미 클래스 "COMPANY"에 대해 동일한 확률이면서, 카운트로 5를 갖는 클래스 3-그램 "COMPANY analyst said"를 가정한다:

Pr(microsoft|COMPANY) = 0.5

Pr(oracle|COMPANY) = 0.25

Pr(verizon wireless|COMPANY) = 0.25

단어 수준의 n-그램 카운트 데이터는 다음과 같다.

" microsoft analyst said" = 2.5

"oracle analyst said" = 1.25

"wireless analyst said" = 1.25

여기서, 3-그램을 위해 제일 오른쪽 3 단어만을 취함으로써, "wireless analyst said"로 실현되었다.

비록 의미 데이터베이스(301)가 태그 붙이기(306) 및 단어 n-그램 생성기(302)와 운영 가능한 것으로 도시되었지만, 데이터베이스(301)의 각 예시에서 콘텐 츠는 달라질 수 있고, 다수의 응용에서 콘텐츠가 다르며 그럼으로써 방법이 좀 더 유용해질 수 있음이 이해되어야 한다.

210 단계에서, 배경 데이터 및 선택사항인 적응 데이터에 대해 생성된 단어 n-그램 카운트를 사용하여 언어 모델(326)을 학습시킨다. 이는 학습 모듈(328)에 의해 수행된다. 요구되는 경우, 언어 모델의 크기를 좀 더 줄이기 위해 단어 n-그램들에 대한 차단 카운트 가지치기가 수행될 수 있다.

학습 단계는, n-그램 상대 빈도 추정들(relative frequency estimates)을 평활시키는 단계를 포함할 수 있다. 예를 들면, 본 명세서에 참조로 통합되어 있는 E. Gelsema 및 L. Kanal이 편집한 1980년판 Pattern Recognition in Practice에서 381-397쪽에 걸쳐 나와 있는 "Interpolated Estimation of Markov Source Parameters from Sparse Data"에서 Frederick Jelinek 및 Robert Mercer가 설명한 삭제-보간(deleted-interpolation) 방법이 n-그램 상대 빈도 추정들을 평활시키는 단계에 사용될 수 있다. 간단히 말해서 아래의 반복적인 삭제-보간 공식으로 정의된다:

여기서,

는 단어 n-그램의 상대 빈도이고,

는 이전 n-1 단어들에 걸친 단어 히스토리이다. 별개의 컨텍스트 차수에 균등 단어 분포

를 더한 N-그램 모델들이 선형적으로 보간된다. 보간 가중치(interpolation weight)

은 잘 알려져 있는 최대 공산(maximum likelihood) 기술들을 사용하여 추정될 수 있다. 데이터가 드문드문 있기 때문에, 보간 가중치는 일반적으로 단어 컨텍스트를 클래스들로 그룹지음으로써 추정 파라미터들의 개수를 줄이도록 구속된다. 한 가지 가능한 방법은, 주어진 단어 컨텍스트의 발생 회수에 기초하는 파라미터들을 대량 취급하는 것이다.

이 예시에서, 210 단계는 삭제-보간 언어 모델을 제공하면서 관리 언어 모델 적응을 종료한다. 언어 처리 시스템에서 삭제-보간 언어 모델의 구현은 표준 ARPA 포맷에서 백오프(backoff) 언어 모델로의 변환을 포함할 수 있다. 2004년 3월 26일 출원하여 함께 계류 중인 대리인 사건 번호 M61.12-0625인 "REPRESENTATION OF A DELETED INTERPOLATION N-GRAM LANGUAGE MODEL IN ARPA STANDARD FORMAT"은, 하나의 패스 시스템(pass system)에서 채택될 수 있는 ARPA 포맷으로의 변환 단계에 대한 일 예시를 설명한다.

비록 본 발명이 특정 실시예에 관하여 설명되었지만, 당업자는 본 발명의 사상과 범위를 벗어나지 않고, 형식 및 세부에서 변화들이 이루어질 수 있음을 인식할 것이다.

새로운 언어 모델 적응을 제시하여 테스트 데이터의 어휘 범주를 벗어난 단어들 및 언어 스타일의 상이함에서 비롯되는 학습 또는 테스트 데이터와 실제 영역 또는 영역 내 데이터 간의 미스매치를 개선할 수 있다.

Claims

새로운 영역에 대한 n-그램 언어 모델을 적응적으로 변화시키는 방법에 있어서,

상기 새로운 영역으로 지시되지 않는 일반 텍스트 구문들을 지시하는 배경 데이터를 수신하는 단계;

상기 새로운 영역 내에서 사용되고, 클래스(class)들로 조직되는 의미 엔티티들(semantic entities)의 집합을 수신하는 단계;

상기 배경 데이터와 상기 의미 엔티티들 및 의미 엔티티들의 클래스들에 기초하여 배경 n-그램 클래스 카운트 데이터를 생성하는 단계; 및

상기 배경 n-그램 클래스 카운트 데이터에 기초하여 언어 모델을 학습시키는 단계

를 포함하는 언어 모델을 적응적으로 변화시키는 방법.
제 1항에 있어서,

상기 새로운 영역에서 사용되는 텍스트 구문들을 지시하는 적응 데이터를 수신하는 단계; 및

상기 적응 데이터와 상기 의미 엔티티들 및 의미 엔티티들의 클래스들에 기초하여 적응 n-그램 클래스 카운트 데이터를 생성하는 단계

를 더 포함하고, 상기 언어 모델을 학습시키는 단계는 상기 배경 n-그램 클 래스 카운트 데이터 및 상기 적응 n-그램 클래스 카운트 데이터에 기초하여 학습시키는 단계를 포함하는

언어 모델을 적응적으로 변화시키는 방법.
제 2항에 있어서,

상기 배경 n-그램 클래스 카운트 데이터와 상기 의미 엔티티들 및 의미 엔티티들의 클래스들에 기초하여 배경 n-그램 단어 데이터를 생성하는 단계; 및

상기 적응 n-그램 클래스 카운트 데이터와 상기 의미 엔티티들 및 의미 엔티티들의 클래스들에 기초하여 적응 n-그램 단어 데이터를 생성하는 단계

를 더 포함하고, 상기 배경 n-그램 클래스 카운트 데이터 및 상기 적응 n-그램 클래스 카운트 데이터에 기초하여 상기 언어 모델을 학습시키는 단계는, 상기 배경 n-그램 단어 데이터 및 적응 n-그램 단어 데이터를 사용하는 단계를 포함하는

언어 모델을 적응적으로 변화시키는 방법.
제 3항에 있어서,

상기 배경 n-그램 단어 데이터를 생성하는 단계는, 복수 단어 의미 엔티티들에 대한 배경 n-그램 단어 데이터를 생성하는 단계로서, 데이터 엔트리(entry) 각각은 선택된 개수의 단어들을 포함하는 것인 단계를 포함하는

언어 모델을 적응적으로 변화시키는 방법.
제 4항에 있어서,

상기 적응 n-그램 단어 데이터를 생성하는 단계는, 복수 단어 의미 엔티티들에 대한 적응 n-그램 단어 데이터를 생성하는 단계로서, 데이터 엔트리 각각은 선택된 개수의 단어들을 포함하는 것인 단계를 포함하는

언어 모델을 적응적으로 변화시키는 방법.
제 4항에 있어서,

상기 배경 데이터와 상기 의미 엔티티들 및 의미 엔티티들의 클래스들에 기초하여 상기 배경 n-그램 클래스 카운트 데이터를 생성하는 단계는, 상기 의미 엔티티들 및 의미 엔티티들의 클래스들에 기초하여 단어 수준 배경 데이터에 태그를 붙이는 단계(tagging)를 포함하는

언어 모델을 적응적으로 변화시키는 방법.
제 5항에 있어서,

상기 적응 데이터와 상기 의미 엔티티들 및 의미 엔티티들의 클래스들에 기초하여 상기 적응 n-그램 클래스 카운트 데이터를 생성하는 단계는, 상기 의미 엔티티들 및 상기의 클래스들에 기초하여 단어 수준 적응 데이터에 태그를 붙이는 단계를 포함하는

언어 모델을 적응적으로 변화시키는 방법.
제 6항에 있어서,

상기 배경 데이터와 상기 의미 엔티티들 및 의미 엔티티들의 클래스들에 기초하여 상기 배경 n-그램 클래스 카운트 데이터를 생성하는 단계는, 상기 태그가 붙여진 배경 데이터에 대한 고유의 클래스 수준 n-그램들을 카운트하는 단계를 포함하는

언어 모델을 적응적으로 변화시키는 방법.
제 7항에 있어서,

상기 적응 데이터와 상기 의미 엔티티들 및 의미 엔티티들의 클래스들에 기초하여 상기 적응 n-그램 클래스 카운트 데이터를 생성하는 단계는, 상기 태그가 붙여진 적응 데이터에 대한 고유의 클래스 수준 n-그램들을 카운트하는 단계를 포함하는

언어 모델을 적응적으로 변화시키는 방법.
제 8항에 있어서,

상기 배경 데이터와 상기 의미 엔티티들 및 의미 엔티티들의 클래스들에 기초하여 상기 배경 n-그램 클래스 카운트 데이터를 생성하는 단계는, 상기 태그가 붙여진 배경 데이터로부터 클래스 n-그램들의 일부를 버리는 단계를 포함하는

언어 모델을 적응적으로 변화시키는 방법.
제 9항에 있어서,

상기 적응 데이터와 상기 의미 엔티티들 및 의미 엔티티들의 클래스들에 기초하여 상기 적응 n-그램 클래스 카운트 데이터를 생성하는 단계는, 상기 태그가 붙여진 적응 데이터로부터 클래스 n-그램들의 일부를 버리는 단계를 포함하는

언어 모델을 적응적으로 변화시키는 방법.
언어 모델을 생성하는 단계들을 수행하기 위한 컴퓨터 실행 가능 명령어들을 포함하는 컴퓨터 판독 가능 매체에 있어서, 상기 단계들은,

선택된 영역에서 사용되고, 클래스들로 조직되는 의미 엔티티들의 집합을 수신하는 단계;

상기 의미 엔티티들의 집합에 대한 클래스들과 상호관련이 있고, 일반 텍스트를 지시하는 배경 데이터에 기초하는 배경 n-그램 클래스 카운트 데이터를 수신하는 단계;

상기 의미 엔티티들의 집합에 대한 클래스들과 상호관련이 있고, 모델이 될 선택된 영역을 지시하는 적응 데이터에 기초하는 적응 n-그램 클래스 카운트 데이터를 수신하는 단계; 및

상기 배경 n-그램 클래스 카운트 데이터, 상기 적응 n-그램 클래스 카운트 데이터 및 상기 의미 엔티티들의 집합에 기초하여 언어 모델을 학습시키는 단계

를 포함하는 컴퓨터 판독 가능 매체.
제 12항에 있어서,

상기 언어 모델을 학습시키는 단계는, 상기 배경 n-그램 클래스 카운트 데이터 및 상기 의미 엔티티들의 집합에 기초하여 배경 단어 카운트 데이터를 계산하는 단계를 포함하는

컴퓨터 판독 가능 매체.
제 13항에 있어서,

상기 언어 모델을 학습시키는 단계는, 상기 적응 n-그램 클래스 카운트 데이터 및 상기 의미 엔티티들의 집합에 기초하여 적응 단어 카운트 데이터를 계산하는 단계를 포함하는

컴퓨터 판독 가능 매체.
제 14항에 있어서,

상기 언어 모델을 학습시키는 단계는, n-그램 상대 빈도들을 평활시키는 단계를 포함하는

컴퓨터 판독 가능 매체.
제 15항에 있어서,

상기 평활시키는 단계는, 삭제-보간 알고리즘(deleted-interpolated algorithm)을 이용하는 단계를 포함하는

컴퓨터 판독 가능 매체.