KR101159340B1 - 지수적 모델의 적응 - Google Patents

지수적 모델의 적응 Download PDF

Info

Publication number
KR101159340B1
KR101159340B1 KR1020050066295A KR20050066295A KR101159340B1 KR 101159340 B1 KR101159340 B1 KR 101159340B1 KR 1020050066295 A KR1020050066295 A KR 1020050066295A KR 20050066295 A KR20050066295 A KR 20050066295A KR 101159340 B1 KR101159340 B1 KR 101159340B1
Authority
KR
South Korea
Prior art keywords
features
data
model
weights
background data
Prior art date
Application number
KR1020050066295A
Other languages
English (en)
Other versions
KR20060046538A (ko
Inventor
알레잔드로 아세로
시프리안 아이. 첼바
Original Assignee
마이크로소프트 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 마이크로소프트 코포레이션 filed Critical 마이크로소프트 코포레이션
Publication of KR20060046538A publication Critical patent/KR20060046538A/ko
Application granted granted Critical
Publication of KR101159340B1 publication Critical patent/KR101159340B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • G06F18/295Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

지수적 확률 모델을 적응시키기 위한 방법 및 장비가 제공된다. 첫 번째 단계에서, 범용 배경 모델은 배경 데이터의 집합에 기반하여 확률 모델의 모델 파라미터 집합을 결정함으로써 배경 데이터로부터 구축된다. 그 다음에, 배경 모델 파라미터들은, 관심 대상의 적응 데이터 집합에 적응시켜 더욱 특정화된 적응된 확률 모델의 파라미터들에 대한 프라이어 모델을 정의하는데 사용된다. 적응 데이터 집합의 크기는 일반적으로 배경 데이터 집합보다 더 작다. 그 다음에, 적응 데이터 집합과 프라이어 모델에 기반하여 적응된 확률 모델에 대한 제2 모델 파라미터 집합을 결정한다.
엔트로피, 확률 모델, 지수적, 적응

Description

지수적 모델의 적응{ADAPTATION OF EXPONENTIAL MODELS}
도 1은 본 발명이 실시될 수 있는 임의의 한 컴퓨팅 환경에 대한 블럭도.
도 2는 본 발명이 실시될 수 있는 대체 컴퓨팅 환경에 대한 블럭도.
도 3은 문자열에 있는 단어들의 두문자화(capitalization)를 식별하는 방법에 대한 흐름도.
도 4는 본 발명의 임의의 한 실시예에서 최대 엔트로피 모델을 적응시키는 방법에 대한 흐름도.
도 5는 본 발명의 임의의 한 실시예에서 최대 엔트로피 모델을 적응시키는 데 사용되는 구성 요소들의 블럭도.
<도면의 주요 부분에 대한 부호의 설명>
200: 메모리
202: 프로세서
206: I/O 컴포넌트
502: 트레이너
504: 배경 훈련 데이터
514: 배경 개발 데이터
518: 적응 훈련 데이터
526: 적응 개발 데이터
본 발명은 2004년 7월 21일 출원된 미국가출원 60/590,041의 우선권을 주장한다.
본 발명은 지수적 모델에 관한 것이다. 특히, 본 발명은 지수적 모델들을 특정 데이터에 적응시키는 방법에 관한 것이다.
지수적 확률 모델들은 최대 엔트로피 모델들과 조건 임의 필드(CRF:Conditional Random Field) 모델들과 같은 모델들을 포함한다. 최대 엔트로피 모델에서는, 그 특징이 데이터 집합 안에 존재할 때 1을 갖고 그 특징이 존재하지 않을 때 0을 갖는 지시자 함수들인 특징들의 집합을 갖는 것이 일반적이다. 특징들의 가중치 합은 지수적으로 정규화되어 최대 엔트로피 확률을 형성한다.
전형적으로, 최대 엔트로피 모델의 가중치들은 대규모의 훈련 데이터 집합으로 훈련된다. 가중치들(모델)을 과도하게 훈련(overtraining)시키지 않기 위해, 선행 기술들 중 적어도 하나의 기술은 평활법(smoothing)을 적용시켜 보이지 않는 데이터(unseen data)에 대한 확률 질량을 보관한다.
대규모의 훈련 데이터 집합을 사용하여, 최대 엔트로피 모델이 대규모의 입 력 데이터 집합에 걸쳐 유용하게 될지라도, 이것 역시 특정 타입의 입력 데이터에 최적화되어 있지 않은 최대 엔트로피 모델을 생성하게 된다.
그러므로, 대규모의 훈련 데이터 집합으로 훈련되었던 최대 엔트로피 모델을 예상 데이터의 특정 집합에 적응시켜서, 상기 예상 데이터를 갖고 더 나은 성능을 발휘하도록 하는 것이 바람직하다.
본 발명의 요약
지수적인 확률 모델을 적응시키는 방법 및 장치가 제공된다. 제1 단계에서, 배경 데이터 집합에 기반하여 확률 모델용 모델 파라미터 집합을 결정함으로써 배경 데이터로부터 범용 배경 모델이 구축된다. 그 다음에, 배경 모델 파라미터를 사용하여 관심 대상의 적응 데이터 집합에 더욱 특히 적응시킨 확률 모델용 파라미터에 대한 프라이어 모델(prior model)을 정의한다. 적응 데이터 집합의 크기는 일반적으로 배경 데이터 집합보다 훨씬 더 작다. 그 다음에, 적응 데이터 집합과 프라이어 모델에 기반하는 적응된 확률 모델에 대한 제2 모델 파라미터 집합을 결정한다.
도 1은 본 발명이 구현될 수 있는 적합한 컴퓨팅 시스템 환경(100)을 도시한다. 컴퓨팅 시스템 환경(100)은 적합한 컴퓨팅 환경의 한 실례이며, 본 발명의 기능 또는 이용 범위에 어떤 제한을 가하기 위한 것이 아니다. 컴퓨팅 환경(100)은 예시적인 동작 환경(100)에서 도시된 컴포넌트들 중 임의의 하나 또는 그 조합에 관련되어 임의의 종속성이나 요구사항을 가진 것으로 해석되어서는 안된다.
본 발명은 수많은 기타 범용 혹은 전용의 컴퓨팅 시스템 환경 또는 구성으로 동작한다. 본 발명이 사용되기에 적합한 공지된 컴퓨팅 시스템, 환경, 또는/및 구성의 실례들로서 개인용 컴퓨터, 서버 컴퓨터, 휴대형 또는 랩탑 장치, 멀티프로세서 시스템, 마이크로프로세서 기반의 시스템, 셋탑 박스, 프로그램 가능한 소비자 전자기기, 네트워크 PC, 미니컴퓨터, 메인프레임 컴퓨터, 텔레포니 시스템, 상기 시스템과 장치들 중 임의의 하나를 포함하고 있는 분산 컴퓨팅 환경 등을 포함하나 , 이에만 국한되지 않는다.
본 발명은 컴퓨터에 의해 실행되는 프로그램 모듈들과 같은 컴퓨터 실행가능 명령어들의 일반적인 관점에서 기술될 수 있다. 일반적으로, 프로그램 모듈들은 특정 태스크를 실행하거나 특정 추상화 데이터 타입을 구현하는 루틴들, 프로그램들, 객체들, 컴포넌트들, 데이터 구조 등을 포함한다. 본 발명은 통신 네트워크를 통해 링크된 원격 처리 장치들이 태스크들을 수행하는 분산 컴퓨팅 환경에서도 실시될 수 있도록 설계되어 있다. 분산 컴퓨팅 환경에서, 프로그램 모듈들은 메모리 저장 장치들을 포함한 지역 또는 원격 메모리 저장 매체에 모두 위치한다.
도 1을 참조하면, 본 발명을 구현한 예시적인 시스템은 컴퓨터(110) 형태의 범용 컴퓨팅 장치를 포함한다. 컴퓨터(110)의 컴포넌트들은 프로세싱 유닛(120), 시스템 메모리(130), 및 시스템 메모리를 포함해서 다양한 시스템 컴포넌트들을 프로세싱 유닛(120)에 결합시키는 시스템 버스(121)를 포함하나, 이에만 국한되지 않는다. 시스템 버스(121)는 메모리 버스 또는 메모리 제어기, 주변 장치 버스, 다양한 버스 아키텍처 중 임의의 것을 사용하는 로컬 버스를 포함하여 여러 형태의 버스 구조들 중 임의의 것일 수 있다. 예로서, 이런 아키텍처는 업계 표준 구조(ISA) 버스, 마이크로 채널 아키텍처(MCA) 버스, Enhanced ISA(EISA) 버스, 비디오 전자 공학 표준 협회(VESA) 로컬 버스, 및 메자닌 버스라고 알려진 주변 장치 상호 연결(PCI) 버스도 포함하나, 이에만 국한되지 않는다.
컴퓨터(110)는 전형적으로 다양한 컴퓨터 판독가능 매체를 포함한다. 컴퓨터 판독가능 매체는 컴퓨터(110)에 의해 액세스 될 수 있는 임의의 것이며, 휘발성 혹은 비휘발성 매체, 분리형 혹은 비분리형 매체 모두를 포함한다. 예로서, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체와 통신 매체를 포함하며, 이에만 국한되지 않는다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어들, 데이터 구조, 프로그램 모듈들, 기타 데이터와 같은 정보를 저장하는 임의의 방법 또는 기술이 구현될 수 있는 휘발성 혹은 비휘발성, 분리형 혹은 비분리형 매체 모두를 포함한다. 컴퓨터 저장 매체는 RAM, ROM, EEPROM, 플래시 메모리 또는 기타 메모리 기술, CD-ROM, 디지털 다목적 디스크(DVD), 또는 기타 광디스크 저장장치, 자기 카세트, 자기 테이프, 자기 디스크 저장장치, 또는 기타 자기 저장 장치, 또는 컴퓨터(110)에 의해 액세스 될 수 있는 원하는 정보를 저장하는데 사용될 수 있는 기타 다른 매체들을 포함하나, 이에만 국한되지 않는다. 통신 매체는 전형적으로 컴퓨터 판독가능 명령어들, 데이터 구조, 프로그램 모듈, 또는 반송파와 같은 변조된 데이터 신호에 실린 기타 데이터, 또는 기타 전송 메커니즘을 포함하고, 임의의 정보 전송 매체도 포함한다. "변조된 데이터 신호"란 용어는 신호에 실린 정보를 부호화하는 방식으로 어떤 신호의 하나 이상의 특성을 설정 또는 변경시킨 신호를 의미한다. 예로서, 통신 매 체는 유선 네트워크 또는 유선에 의한 직접 연결과 같은 유선 매체와, 음파, RF, 적외선 같은 무선 매체, 및 기타 무선 매체를 포함하나, 이에만 국한되지 않는다. 상기의 것들을 임의로 조합한 것도 컴퓨터 판독가능 매체 범위에 또한 포함되어야 한다.
시스템 메모리(130)는 판독 전용 메모리(ROM:130) 및 임의 접근 메모리(RAM:132)와 같은 휘발성 및/또는 비휘발성 형태의 컴퓨터 저장 매체를 포함한다. 시작할 때 등에 컴퓨터(110) 내의 구성 요소들 사이의 정보 전달을 돕는 기본적인 루틴들을 포함하는 기본 입력/출력 시스템(BIOS)은 전형적으로 ROM(131)에 저장된다. RAM(132)은 전형적으로 프로세싱 유닛(120)에 의해서 현재 동작하거나/하는 이것에 즉시 액세스 가능한 프로그램 모듈 및/또는 데이터를 포함한다. 실례로서, 도 1은 운영 체제(134), 애플리케이션 프로그램(135), 기타 프로그램 모듈(136), 및 프로그램 데이터(137)를 예시하나, 이에만 국한되지 않는다.
컴퓨터(110)는 또한 기타 분리형/비분리형, 휘발성/비휘발성 컴퓨터 저장 매체를 포함할 수 있다. 단지 예로서, 도 1은 비분리형 비휘발성 자기 매체로부터 판독하거나 이것에 기입하는 하드 디스크 드라이브(141), 분리형 비휘발성 자기 디스크(152)로부터 판독하거나 이것에 기입하는 자기 디스크 드라이브(151), 및 CD-ROM, 또는 기타 광매체와 같은 분리형 비휘발성 광디스크(156)로부터 판독하거나 이것에 기입하는 광디스크 드라이브(155)를 예시한다. 예시적인 동작 환경에서 사용될 수 있는 기타 분리형/비분리형, 휘발성/비휘발성 컴퓨터 저장 매체는 자기 테입 카세트, 플래시 메모리 카드, DVD, 디지털 비디오 테입, 고체 상태 RAM, 고체 상태 ROM 등이 될 수 있으나, 이에만 국한되지 않는다. 하드 디스크 드라이브(141)는 인터페이스(140)와 같은 비분리형 메모리 인터페이스를 통해 시스템 버스(121)에 전형적으로 연결되고, 자기 디스크 드라이브(151) 및 광디스크 드라이브(155)는 인터페이스(150)와 같은 분리형 메모리 인터페이스에 의해 시스템 버스(121)에 전형적으로 연결된다.
도 1에서 예시되고 상기 논의된 드라이브들 및 관련 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 기타 데이터를 컴퓨터(110)에 제공한다. 도 1에서, 예를 들면 하드 디스크 드라이브(141)는 운영 체제(144), 애플리케이션 프로그램들(145), 기타 프로그램 모듈들(146), 및 프로그램 데이터(147)를 저장하는 것으로 도시된다. 이런 컴포넌트들은 운영 체제(134), 애플리케이션 프로그램들(135), 기타 프로그램 모듈들(136), 및 프로그램 데이터(137)와 동일하거나 또는 다를 수 있음에 유의해야 한다. 운영 체제(144), 애플리케이션 프로그램들(145), 기타 프로그램 모듈들(146), 및 프로그램 데이터(147)는 최소한 그것들이 다른 복제본이라는 것을 예시하기 위해 여기서 다른 숫자를 부여하였다. 사용자는 키보드(162), 마이크로폰(163), 마우스나 트랙볼 또는 터치 패드로 지칭되는 포인팅 장치(161) 같은, 입력 장치를 통해 명령어와 정보를 컴퓨터(110)에 입력할 수 있다. 기타 입력 장치(도시되지 않음)는 조이스틱, 게임 패드, 위성 접시형 안테나, 스캐너 등을 포함할 수 있다. 상기 장치들과 기타 입력 장치들은 자주 시스템 버스에 결합한 사용자 입력 인터페이스(160)를 통해 프로세싱 유닛(120)에 연결되는데, 예를 들면, 병렬 포트, 게임 포트, 또는 범용 직렬 버스(USB)와 같은 버스 구조 및 기타 인터페이스에 의해 연결될 수 있다. 모니터(191) 또는 다른 유형의 디스플레이 장치도 비디오 인터페이스(190)와 같은 임의의 인터페이스를 통해 시스템 버스(121)에 연결될 수 있다. 모니터(191) 이외에, 컴퓨터는 출력 장치 인터페이스(195)를 통해 연결될 수 있는 스피커(197)와 프린터(196) 같은 기타 주변 출력 장치들도 포함할 수 있다.
컴퓨터(110)는 원격 컴퓨터(180)와 같은 하나 이상의 원격 컴퓨터들로의 논리적 연결을 사용하는 네트워크 환경에서 동작할 수 있다. 원격 컴퓨터(180)는 개인용 컴퓨터, 휴대형 장치, 서버, 라우터, 네트워크 PC, 피어 장치, 또는 기타 공통 네트워크 노드일 수 있으며, 컴퓨터(110)와 관련되어 상기에 기술된 구성요소들 중 다수 혹은 모두를 전형적으로 포함한다. 도 1에 도시된 논리적 연결들은 근거리 통신망(LAN:171)과 광역 통신망(173:WAN)을 포함하나, 기타 네트워크도 포함할 수 있다. 그러한 네트워킹 환경들은 사무실, 기업 규모 컴퓨터 네트워크, 인트라넷 및 인터넷에서 흔한 것이다.
LAN 네트워킹 환경에서 사용될 때, 컴퓨터(110)는 네트워크 인터페이스(170)나 어댑터를 통해 LAN(171)으로 연결된다. WAN 네트워킹 환경에서 사용될 때, 컴퓨터(110)는 전형적으로 인터넷과 같은 WAN(173)을 거쳐 통신을 설정하기 위한 모뎀(172) 또는 기타 수단을 포함한다. 내장 또는 외장형일 수 있는 모뎀(172)은 사용자 입력 인터페이스(160) 또는 기타 적합한 메커니즘을 통해 시스템 버스(121)에 연결될 수 있다. 네트워크 환경에서, 컴퓨터(110)와 관련되어 도시된 프로그램 모듈이나 그것의 일부는 원격 메모리 저장 장치에 저장될 수 있다. 예로서, 도 1은 원격 컴퓨터(180)에 상주하는 원격 애플리케이션 프로그램(185)을 예시하나, 이에만 국한되지 않는다. 도시된 네트워크 연결들은 예시적이며, 컴퓨터들 사이에 통신 링크를 설정하기 위한 기타 수단들이 사용될 수 있다는 것을 인식할 것이다.
도 2는 예시적인 컴퓨팅 환경인 모바일 장치(200)의 블럭도이다. 모바일 장치(200)는 마이크로프로세서(202), 메모리(204), 입력/출력(I/O) 컴포넌트(206), 및 원격 컴퓨터 또는 기타 모바일 장치와의 통신을 위한 통신 인터페이스(208)를 포함한다. 소정의 실시예에서, 상기 언급한 컴포넌트들은 서로 통신하도록 적합한 버스(210)를 통해 연결된다.
메모리(204)는 배터리 백업 모듈(도시하지 않음)을 갖는 임의 접근 메모리(RAM)와 같은 비휘발성 전자적 메모리로서 구현되므로, 메모리(204)에 저장된 정보는 모바일 장치(200)로의 범용 전력 공급이 중단될 경우에도 사라지지 않는다. 메모리(204)의 일 부분은 프로그램 실행을 위한 주소지정 능력이 있는 메모리로서 할당하는 것이 바람직하고, 반면에 예를 들어 메모리(204)의 다른 부분은 디스크 드라이브 상의 저장 공간에 대해 시뮬레이션하기 위한 저장 공간으로서 사용하는 것이 바람직하다.
메모리(204)는 운영 체제(212), 애플리케이션 프로그램(214) 뿐만 아니라 객체 저장소(216)도 포함한다. 동작 중에, 운영 체제(212)는 메모리(204)로부터 판독되어 프로세서(202)에 의해 실행되는 것이 바람직하다. 바람직한 소정의 실시예에서, 운영 체제(212)는 마이크로소프트사로부터 상업적으로 이용가능한 WINDOWS
Figure 112005039642979-pat00001
CE 브랜드 운영 체제이다. 운영 체제(212)는 바람직하게는 모바일 장치용으로 설 계되고, 공개된 애플리케이션 프로그래밍 인터페이스들 및 메소드들의 집합을 통해 애플리케이션(214)에 의해 이용가능한 데이터베이스 특징들을 구현한다. 객체 저장소(216)에 있는 객체는, 공개된 애플케이션 프로그래밍 인터페이스들 및 메소드들에 대한 호출에 응답하여 애플리케이션(214) 및 운영 체제(212)에 의해 적어도 부분적으로 유지된다.
통신 인터페이스(208)는 모바일 장치(200)가 정보를 송수신할 수 있도록 해주는 다수의 장치들 및 기술들을 나타낸다. 장치로서 몇 가지를 거론하자면, 유선 및 무선 모뎀, 위성 수신기, 브로드캐스트 튜너가 포함된다. 모바일 장치(200)는 컴퓨터에 직접 연결되어 데이터를 교환할 수 있다. 이런 경우에, 통신 인터페이스(208)는 적외선 송수신기 또는 직렬 혹은 병렬 통신 연결이 될 수 있으며, 이것들 모두가 스트리밍 정보를 전송할 능력을 갖추고 있다.
입력/출력 컴포넌트들(206)은 오디오 발생기(audio generator), 진동 장치(vibrating device), 디스플레이를 포함하는 출력 장치 뿐만 아니라 접촉-감지 스크린, 버튼, 롤러(roller), 마이크로폰 같은 다양한 입력 장치를 포함한다. 상기에 열거된 장치들은 실례이며, 모바일 장치(200) 상에 모두 존재할 필요가 없다. 또한, 본 발명의 범위 내에서 기타 입력/출력 장치들이 모바일 장치(200)에 첨가되거나 이와 함께 발견될 수 있다.
본 발명은 문장의 두문자화를 식별하는 문제를 시퀀스 라벨링 문제로 접근하는데, 시퀀스 라벨링 문제에서 단어들의 시퀀스는 그 단어에 적용될 두문자화의 타입과 형태를 지시하는 두문자화 태그들의 시퀀스를 할당받는다. 소정의 실시예에 서, 가능한 두문자화 태그는 다음을 포함한다.
LOC : 소문자
CAP : 두문자화
MXC : 혼합된 경우, 즉 상기 단어들의 두문자화에 관련된 더 이상의 추론을 하지 않음. 훈련 데이터에서 발견되는 가장 빈번한 것을 사용하여 가능하다.
AUC : 모두 대문자
PNC : 구두점화
이런 접근 방법에 기반하여, 본 발명의 소정의 실시예는 주어진 단어 시퀀스 W = w1 ... wn 의 경우, 임의의 가능한 태그 시퀀스 T = t 1 ... t n = T 1 n 에 확률 p(T|W)를 할당하는 마코브(Markov) 모델을 구성한다. 소정의 실시예에서, 이런 확률은 다음과 같이 결정된다.
Figure 112005039642979-pat00002
여기서, t i 는 단어 i에 대응하는 태그이며, x i (W, T 1 i -1)은 확률 모델이 구축된 단어 시퀀스에서의 위치 i에서의 조건 또는 문맥 정보이다.
소정의 실시예에서, 문맥 정보는 단어 시퀀스에 있는 이전 단어, 현재 단어, 다음 단어로부터 결정될 수 있는 정보일 뿐만 아니라, 선행하는 두 개의 대문자 태크들일 수도 있다. 이런 값들에 의해 제공되는 정보는 단어들 및 태그 그 자체일 뿐만 아니라, 그 단어 각각의 일부분, 그 단어들로부터 형성된 바이그램(bigrams) 및 트리그램(trigrams), 및 그 태크들로부터 형성된 바이그램(bigrams)을 포함한다.
본 발명의 소정의 실시예에서, 확률 P(T i |x i (W, T 1 i -1))은 최대 엔트로피 모델을 사용하여 모델링된다. 이런 모델은 특징들을 사용하는데, 이것은 타입에 대한 지시자 함수들이다.
Figure 112005039642979-pat00003
여기서 y는 t i 대신에 사용되고, x 는 문맥 정보 x i (W,T 1 i -1)를 나타낸다. 특징들이 0 또는 1 이란 값을 갖는 것으로 나타날지라도, 다른 실시예에서, 특징 값은 실수가 될 수 있다.
그 집합원의 개수(cardinality)가 F 인 특징 집합
Figure 112005039642979-pat00004
을 가정하면서, 확률 할당은 다음 식들에 따라 행해진다.
Figure 112005039642979-pat00005
Figure 112005039642979-pat00006
여기서 ∧={λ 1 ,...λ n }
Figure 112005039642979-pat00007
R F 는 실수 모델 파라미터 집합이다. 그러므로, 최대 엔트로피 모델은 지시자 함수들의 가중치 합의 지수(exponent)를 취함으로써 계산된다.
도 3은 문자열의 두문자화를 식별하기 위해 최대 엔트로피 확률을 훈련하고 사용하는 방법에 대한 흐름도이다. 단계(300)에서, 예정된 특징 집합으로부터 특징들을 선택한다. 이런 선택은 훈련 코퍼스(training corpus)에서의 각각의 특징이 발생하는 횟수를 계수하는 단순 계수 컷오프 알고리즘(simple count cutoff algorithm)을 사용하여 실행된다. 그 계수값이 미리-명기한 한계값 보다 작은 특징들은 버려진다. 이로써 훈련되어야 하는 파라미터 개수가 줄어든다. 선택적으로, 한계값을 0으로 설정함으로써 미리-명기한 집합내의 모든 특징들을 유지하는 것이 가능하다.
단계(302)에서, 최대 엔트로피 모델의 가중치들을 추정한다. 소정 실시예에서, 모델 파라미터들 ∧={λ 1 ,...λ n }
Figure 112005039642979-pat00008
R F 추정하되, 모델이 최대 로그 근접값(maximum log-liklihood)을, 평활을 보장하는 0 중심의 가우스 프라이어(gaussian prior) 처리된 훈련 데이터에 할당하도록 추정된다. 다른 실시예에서, 지수분포 프라이어(exponetial prior)와 같은 여러 가지 프라이어 분포가 평활을 위해 사용 될 수 있다. 모델 파라미터들을 결정하기 위해 개선된 반복 스케일링(Improved Interative Scaling)을 사용하는 소정의 실시예에서, 이것은 각각의 λ에 대해, 업데이트 수학식을 산출한다.
Figure 112005039642979-pat00009
여기서, δ i 는 다음 식을 만족시킨다.
Figure 112005039642979-pat00010
여기서,
Figure 112005039642979-pat00011
#(x,y)는 이벤트(x,y)에 대해 트리거하는 특징들의 합이다. 수학식(6)에서,
Figure 112005039642979-pat00012
는 적응 훈련 데이터에 있는 문맥 x와 출력 또는 태그 y의 동시발생에 대한 상대적 빈도이며,
Figure 112005039642979-pat00013
는 훈련 데이터에서 문맥의 상대적 빈도이며, σi 2 는 0 평균 가우스 프라이어의 분산이다.
엡데이트 수학식이 개선된 반복 스케일링 추정 기술로 보여지더라도, 일반화된 반복 스케일링(Generalized Iterative Scaling), 고속 반복 스케일링(Fast Scaling), 그레디언트 증가 분산(Gradient Ascent variants), 또는 임의의 다른 공지된 계산 기술과 같은 기타 기술들이 로그-근사값(log-likelihood)을 최대화하여 모델 파라미터를 추정하는데 사용될 수 있다.
일단 최대 엔트로피 모델의 가중치들이 훈련하면, 단계(304)에서 두문자화될 문자열들을 수신한다. 단계(306)에서, 조건 확률 P(T|W)을 최대화하는 문자열에서의 단어들의 시퀀스에 대해 두문자화된 형식의 시퀀스를 찾아내기 위해, 훈련된 최대 엔트로피 가중치들을 사용한다. 이 확률을 최대화하는 두문자 시퀀스를 그 문자열에 대한 두문자로서 선택한다.
조건 확률을 최대화하는 태그들의 시퀀스에 대한 검색은 임의의 수용가능한 검색 기술을 사용하여 실행될 수 있다. 예를 들면, 트릴리스(trellis)라는 열에서의 각각의 단어에 대한 가능한 두문자화 형식을 나타냄으로써 비터비(Viterbi) 검색을 수행할 수 있다. 각각의 단어에서, 선행 단어의 두문자화 형식들로부터 각각의 두문자화 형식으로의 각각의 가능한 경로에 대해서 점수를 결정한다. 이런 점수를 계산할 때, 최대 엔트로피 특징들에 사용되었던 과거 두문자화 형식들은 경로에 따라 발견되는 두문자화 형식으로부터 취해진다. 임의의 두문자화 형식에 대해 최고 점수를 제공하는 경로만을 그 두문자화 형식에 대한 경로로서 선택한다. 그 다음에, 현재 단어의 해당 두문자화 형식에 대하여 결정된 확률을 이용하여 해당 경로에 대한 점수를 업데이트 한다. 최종 단어에서, 최고 점수를 갖는 경로가 선택되고, 그 경로에 따라 존재하는 두문자화 형식의 시퀀스가 단어들의 시퀀스에 대한 두문자화 형식으로서 사용된다.
상기에서는 최대 엔트로피 모델이 사용되고 있지만, 지수적 확률을 이용하는 다른 모델들도 본 발명의 다른 실시예에서 조건 확률을 결정하는데 사용할 수 있 다. 예를 들면, 조건 임의 필드(CRF)들을 사용할 수 있다.
본 발명의 다른 실시예들에서, 최대 엔트로피 모델을 대규모 집단의 배경 데이터로 훈련시키고, 그 다음에 보다 작은 특정 데이터 집단에 대해 적응시켜서, 모델이 보다 작은 특정 데이터 집단에서 발견되는 데이터 타입을 갖고도 동작하게 한다. 도 4는 본 발명에서 최대 엔트로피 모델을 적응시키는 방법에 대한 흐름도를 제공하고, 도 5는 최대 엔트로피 모델을 적응시키는데 사용되는 구성 요소들에 대한 블럭도를 제공한다.
단계(400)에서, 특징 한계값 계수를 선택한다. 단계(401)에서, 이런 한계값 계수는, 배경 훈련 데이터(504)에 기반하여 특징 집합(500)을 선택하기 위해 트레이너(502)에 의해 사용된다. 소정의 실시예에서, 이것은 예정된 특징 집합(506)들 중 각각이 배경 훈련 데이터(504)에서 발생하는 빈도를 계수하는 단계 및 한계값 계수로 표현된 횟수 보다 더 많이 발생하는 특징들만을 선택하는 단계를 포함한다.
단계(402)에서, 가능한 분산 집합(508)으로부터 각각의 가중치에 대한 프라이어 가우스 모델 분산을 선택한다. 단계(404)에서, 트레이너(502)는 상기에 확인된 수학식5 및 6을 통하여 평활 및 선택된 분산들을 이용하면서, 배경 훈련 데이터(504)를 기반으로 하여 훈련된 최대 엔트로피 모델의 가중치를 훈련한다.
상기 수학식5 및 6에서, 개선된 반복 스케일링 기술은 로그-근사값을 최대화하는 가중치들을 계산하는데 사용되었음에 유의해야 한다. 단계(404)에서, 이런 추정 기술에만 한정되는 것이 아니라, 일반화된 반복 스케일링, 고속 반복 스케일링, 그래디언트 증가 또는 임의 다른 추정 기술 등의 임의 다른 추정 기술들을 사 용하여 가중치들을 식별할 수 있다.
단계(406)에서, 트레이너(502)는 평가되어야 하는 분산 집합(508)에서 더 많은 분산들이 존재하는지 판정한다. 본 발명에서, 각각의 가중치 집합 마다 다른 분산 집합을 사용하여 복수의 가중치 집합들을 훈련한다. 단계(406)에서 평가될 필요가 있는 더 이상의 분산 집합이 존재한다면, 프로세스는 단계(402)로 복귀하고, 단계(404)에서 해당 분산 집합에 대한 가중치 집합을 훈련하기 이전에 새로운 분산 집합을 선택한다. 단계(402, 402, 및 406)들은 평가될 분산 집합이 더 이상 존재하지 않을 때까지 반복된다.
단계(406)에서 평가될 분산 집합이 더 이상 존재하지 않을 때, 프로세스는 단계(407)에서 평가될 한계값 계수들이 더 이상 존재하는지 판정한다. 한계값 계수들이 더 이상 존재하면, 새로운 한계값 계수가 단계(400)에서 선택되고, 새로운 한계값 계수에 대해 단계(401, 402, 404 및 406)들이 반복된다. 다른 한계값 계수들을 사용함으로써, 다른 특징 집합들을 최대 엔트로피 모델들을 형성하는데 사용한다.
단계(407)에서 평가될 한계값 계수들이 더 이상 존재하지 않으면, 가능한 모델 집합들이 각자 자신의 가중치 집합을 갖고 산출된다. 그 다음에, 단계(408)에서 선택 유닛(512)은 배경 개발 데이터(514)에 대해 최상의 두문자화 정확도를 제공하는 모델을 선택한다. 선택된 모델이 초기 배경 모델(516)을 형성한다.
단계(409)에서, 특징 한계값 계수를 다시 선택하고, 단계(410)에서 특징 선택 프로세스가 적응 훈련 데이터(518) 집합에 대해 반복되어, 적응 특징(520)을 제 공한다. 이것은 동일한 집합을 생성할 수도 있지만, 일반적으로는 단계(400)에서 선택된 것들로부터 특징 슈퍼 집합을 제공할 것이다.
단계(412)에서, 프라이어 모델의 분산 집합이 분산 수집(508)으로부터 일단 다시 선택된다. 선택된 분산 집합, 적응 훈련 데이터(518) 및 초기 배경 모델(516)의 가중치들을 사용하여, 단계(404)에서 적응 유닛(522)은 적응된 가중치 집합을 훈련한다. 소정의 실시예에서, 가중치들의 프라이어 분포는 가우스 분포로 모델링되어 적응 훈련 데이터의 로그-근사값은 다음과 같이 된다.
Figure 112005039642979-pat00014
여기서, 수학식(7)의 우측의 2번째 항에서의 합,
Figure 112005039642979-pat00015
는 초기 배경 모델(516)에서의 가중치들과 동일한 평균을 갖는 가중치들에 대한 주어진 가우스 프라이어의 가중치 확률과, 단계(412)에서 선택된 분산들을 표현한다. 2번째 항의 합은 단계(400)에서 특징 선택 프로세스를 통해 형성된 일단의 선택된 특징들(500)로부터 형성된 특징들과, 단계(410)에서 특징 선택 프로세스를 통해 형성된 적응 특징들(520)로부터 형성된 모든 특징들에 대해 취해진다. 배경 데이터에 존재하지 않는 특징들에 대해서는, 프라이어 평균은 0으로 설정된다. 다른 실시예들에서, 단계(409 및 410)은 실행되지 않고, 배경 데이터로부터 식별되는 동일한 특징들을 모델을 적응시키기 위해 수학식(7)에 사용한다.
프라이어 모델 및 개선된 반복 스케일링 기술을 사용하여, 단계(414)에서 적응된 가중치들을 훈련하기 위한 업데이트 수학식은 다음과 같다.
Figure 112005039642979-pat00016
여기서, δ i 는 다음을 만족시킨다.
Figure 112005039642979-pat00017
여기서
Figure 112005039642979-pat00018
는 문맥 x 와 적응 훈련 데이터(518)에 있는 출력 또는 태그 y의 동시발생 상대적 빈도이며,
Figure 112005039642979-pat00019
는 적응 훈련 데이터(518)에서의 문맥의 상대적 빈도이다.
프라이어 확률의 효과는 모델 파라미터 λ i 를 배경 데이터로부터 생성된 모델 파라미터에 근접하도록 유지하는 것이다. 초기 모델 파라미터들로부터 멀리 이동할 때의 비용은 분산 σ i 의 크기에 의해서 정해지므로, 분산이 작으면 모델 파라미터들은 초기 모델 파라미터들에 근접하게 유지될 것이고, 분산이 크면 정규화된 로그-근사값을 초기 모델 파라미터들에 덜 민감하게 만들어, 모델 파라미터들로 하여금 적응 데이터에 더욱 순응하게 할 것이다.
임의의 특징이 적응 훈련 데이터(518)에 존재하지 않고 배경 훈련 데이터 (504)에 존재하는 경우에, 그 특징에 대한 가중치는 단계(414)에서 여전히 업데이트된다.
단계(416)에서는, 평가될 분산 집합이 더 이상 존재하는지 판정한다. 평가될 분산 집합이 더 이상 존재하면, 프로세스는 단계(412)로 복귀하고, 새로운 분산 집합을 선택한다. 그 다음에, 단계(414)에서 새로운 분산 및 초기 배경 모델(516)의 가중치들의 집합을 사용하여 다른 가중치 집합을 적응시킨다. 단계(412, 414, 및 416)들은 평가될 분산들이 더 이상 존재하지 않을 때까지 반복된다.
단계(416)에서 평가될 분산 집합이 더 이상 존재하지 않을 경우, 프로세스는 단계(417)에서 평가될 특징 한계값 계수들이 더 존재하는지 판정한다. 특징 계수들이 더 이상 존재하면, 새로운 특징 계수를 단계(409)에서 선택하고, 단계(410, 412, 414, 및 416)들이 새로운 한계값 계수에 대해 반복된다.
단계(412, 414, 및 416)들은 가능한 적응된 모델들(524) 집합을 제공한다. 단계(418)에서, 수학식(7)을 이용하여 적응 개발 데이터(526)의 집합을 위한 최고 근사값을 제공하는 적응된 모델이 최종 적응 모델(530)로서 선택 유닛(528)에 의해 선택된다.
상기의 설명에서, 가우스 프라이어 분포가 수학식(7)의 로그-근사값 판정에 사용됐을지라도, 본 분야의 숙련된 기술자들은 다른 형태의 프라이어 분포를 사용할 수 있음을 인지할 것이다. 특히, 지수분포 프라이어 확률은 가우스 분포 프라이어 확률 대신에 사용될 수 있다.
적응 알고리즘이 두문자화에 관련하여 상기에 논의되었을 지라도, 이것은 스 팸 필터링 및 언어 모델링을 위한 문자 분류와 같은 최대 엔트로피 모델을 이용한 임의의 분류 문제에 적용될 수 있다.
모델 가중치들을 적응 데이터의 작은 집합에 적응시켜서, 최대 엔트로피 모델을 위한 초기 모델 파라미터들을 훈련하고, 이런 모델 파라미터들을 소비자에게 배달되거나 전달되는 임의의 제품에 삽입하는 것이 가능하다. 그 다음에, 소비자는 최대 엔트로피 모델을 소비자의 시스템에 존재하는 특정 데이터에 적응시킬 수 있다. 예를 들면, 소비자는 과학 저널 기사처럼 특정 유형의 문자에 대한 실례를 가질 수 있다. 본 적응 알고리즘의 이런 기사들을 사용하여, 소비자는 최대 엔트로피 모델 파라미터들이 과학 잡지 기사로 더 잘 동작될 수 있도록 적응시킬 수 있다.
본 발명이 특정 실시예에 관하여 기술되었을 지라도, 본 분야의 숙련된 기술을 가진 자는 본 발명의 정신과 범위 내에서 형태와 상세한 내용에 있어서 변경이 가능하다.
지수적 확률 모델을 적응시키기 위한 방법 및 장비가 제공되어, 대규모의 훈련 데이터 집합으로 훈련되었던 최대 엔트로피 모델을 예상 데이터의 특정 집합에 적응시켜서, 예상 데이터를 갖고 더 나은 성능을 발휘하도록 하는 효과를 가져온다.

Claims (24)

  1. 프로세서가, 배경 데이터의 집합 내에서 상기 배경 데이터에 대한 임계 계수(threshold count)로 표현되는 회수(a number of times)보다 많이 발생하는 특징들을 선택함으로써 상기 배경 데이터의 집합으로부터 특징들의 집합을 선택하는 단계;
    상기 프로세서가, 배경 데이터의 집합의 우도(likelihood)를 최대화하는 가중치들의 초기 집합을 결정하는 단계 - 상기 우도는 지수적 확률 모델에 기초하며, 상기 배경 데이터로부터의 상기 선택된 특징들의 집합 내의 각각의 특징에 대한 개별적인 초기 가중치가 존재함 - ;
    상기 프로세서가, 적응 데이터의 집합 내에서 상기 적응 데이터에 대한 임계 계수(threshold count)로 표현되는 회수보다 많이 발생하는 특징들을 선택함으로써 상기 적응 데이터의 집합으로부터 특징들의 집합을 선택하는 단계; 및
    상기 프로세서가, 적응 데이터의 집합의 우도를 최대화하는 가중치들의 적응된 집합을 결정하는 단계 - 상기 적응 데이터의 집합은 상기 배경 데이터의 집합보다 작으며, 상기 적응 데이터의 집합의 우도는 제2 지수적 확률 모델과, 상기 배경 데이터의 집합으로부터의 특징들의 집합과 상기 적응 데이터의 집합으로부터의 특징들의 집합의 통합(union)된 집합 내의 각각의 특징에 대한 개별적인 평균값을 포함하는 가중치들의 분포(distribution of weights)의 프라이어 모델(prior model)에 기초하고, 상기 배경 데이터로부터의 상기 특징들의 집합 내의 특징에 대한 평균 각각은 상기 특징에 대한 초기 가중치의 값과 동일한 값을 가지며, 상기 배경 데이터로부터의 상기 특징들의 집합 내에 존재하지 않고 상기 적응 데이터로부터의 상기 특징들의 집합 내에 존재하는 특징에 대한 각각의 평균의 값은 제로(0)와 동일한 값을 가짐 - ;
    를 포함하는, 방법.
  2. 제1항에 있어서,
    상기 프라이어 모델은 가우시안 모델(Gaussian model)을 포함하는, 방법.
  3. 제1항에 있어서,
    상기 프라이어 모델은 지수적 모델(exponential model)을 포함하는, 방법.
  4. 제1항에 있어서,
    상기 지수적 확률 모델은 상기 배경 데이터로부터 상기 선택된 특징들의 집합의 가중치 합(weighted sum)을 사용하고, 상기 배경 데이터로부터 상기 선택된 특징들 내의 각각의 특징들은 각각의 두문자화 태그와 각각의 문맥 정보에 기초한 지시자 함수(indicator function)를 포함하는, 방법.
  5. 제4항에 있어서,
    상기 적응 데이터로부터의 상기 선택된 특징들의 집합과 배경 데이터로부터의 상기 특징들의 초기 집합을 통합한 각각의 특징들은 각각의 두문자화 태그와 각각의 문맥 정보에 기초한 지시자 함수(indicator function)를 포함하는, 방법.
  6. 컴퓨터 실행가능 명령어들을 갖는 비일시적(non-transitory) 컴퓨터 판독 가능한 기록 매체로서, 상기 컴퓨터 실행가능 명령어들은 프로세서에 의해 실행되었을 때 상기 프로세서가
    특징 임계 계수(feature threshold count)들의 제1 집합 각각에 대해,
    배경 데이터로부터 특징들의 집합(a set of features)을 선택하는 단계 - 상기 선택된 특징들의 집합 내의 각각의 특징은 상기 배경 데이터 내에 상기 특징 임계 계수로 표현되는 회수(a number of times) 이상 나타남 -;
    프라이어 모델(prior model)의 분산(variance)들의 제1 집합 각각에 대해 가중치들의 집합을 훈련시키는 단계 - 상기 가중치들의 집합은 상기 배경 데이터로부터 상기 선택된 특징들의 집합 내의 각각의 특징에 대한 개별적인 가중치로서, 상기 가중치들의 집합은 상기 배경 데이터 내에서 문맥(contexts)과 두문자화 태그(capitalization tags)가 동시 발생하는 것에 대한 지수적 확률 모델 및 상대적 빈도(relative frequency)들에 기초한 상기 가중치들에 대한 업데이트 수학식을 사용하여 상기 배경 데이터의 집합의 우도(likelihood)를 최대화하며, 배경 데이터로부터의 가중치들의 집합들 각각과 선택된 특징들의 집합 각각은 개별적인 모델을 표현함 -
    를 수행하는 단계;
    개별적인 모델 각각을 배경 개발 데이터의 집합에 적용하고, 최고의 정확도를 갖는 모델을 상기 배경 데이터로부터의 가중치들의 초기 집합 및 특징들의 초기 집합을 갖는 초기 모델로서 선택하는 단계;
    특징 임계 계수(feature threshold count)들의 제2 집합 각각에 대해,
    적응 데이터로부터 특징들의 집합을 선택하는 단계 - 상기 선택된 특징들의 집합 내의 각각의 특징은 상기 적응 데이터 내에 상기 특징 임계 계수들의 제2 집합으로부터의 특징 임계 계수로 표현되는 회수 이상 나타나며, 상기 적응 데이터는 상기 배경 데이터보다 작음 -;
    프라이어 모델(prior model)의 분산(variance)들의 제2 집합 각각에 대해 상기 프로세서가 가중치들의 적응된 집합을 결정하는 단계 - 상기 가중치들의 적응된 집합은 상기 적응 데이터로부터 상기 선택된 특징들의 집합과 배경 데이터로부터의 상기 특징들의 초기 집합을 통합(union)한 각각의 특징들에 대한 개별적인 가중치들을 포함하고, 상기 가중치들의 적응된 집합은 적응 데이터의 집합의 우도를 최대화하고, 상기 배경 데이터로부터의 상기 특징들의 초기 집합에는 존재하지만 상기 적응된 데이터로부터의 상기 특징들의 선택된 집합에는 존재하지 않는 특징에 대한 가중치는 특징들의 적응된 집합을 결정할 때 업데이트되며, 상기 적응 데이터의 집합의 우도는 제2 지수적 확률 모델; 상기 가중치들의 집합에 대한 프라이어 모델 - 상기 가중치들의 집합은 상기 배경 데이터로부터의 특징들의 초기 집합에 존재하는 특징들에 대해서는 가중치들의 초기 집합과 동일한 평균(means)값을 갖고, 상기 적응 데이터로부터의 특징들의 집합에는 존재하지만 상기 배경 데이터로부터의 특징들의 초기 집합에 존재하지 않는 특징들에 대해서는 제로(0)의 평균값을 가짐 -; 및 상기 적응 데이터 내에서 문맥(contexts)과 두문자화 태그(capitalization tags)가 동시 발생하는 상대적 빈도(relative frequency)에 기초함 - ;
    를 수행하는 단계; 및
    적응 개발 데이터의 집합에 대해 가중치들의 적응된 집합 중 어느 것이 가장 높은 우도를 제공하는지를 결정함으로써, 하나의 가중치들의 적응된 집합을 최종 적응된 모델로 선택하는 단계;
    를 실행하도록 하는, 컴퓨터 판독 가능한 기록 매체.
  7. 제6항에 있어서,
    상기 프라이어 모델은 가우시안 모델(Gaussian model)을 포함하는, 컴퓨터 판독 가능한 기록 매체.
  8. 제6항에 있어서,
    상기 프라이어 모델은 지수적 모델(exponential model)을 포함하는 컴퓨터 판독 가능한 기록 매체.
  9. 제6항에 있어서,
    상기 지수적 확률 모델은 상기 배경 데이터로부터 상기 선택된 특징들의 집합의 가중치 합(weighted sum)을 사용하고, 상기 배경 데이터로부터 상기 선택된 특징들 내의 각각의 특징들은 각각의 두문자화 태그와 각각의 문맥 정보에 기초한 지시자 함수(indicator function)를 포함하는 컴퓨터 판독 가능한 기록 매체.
  10. 제9항에 있어서,
    상기 적응 데이터로부터의 상기 선택된 특징들의 집합과 배경 데이터로부터의 상기 특징들의 초기 집합을 통합한 각각의 특징들은 각각의 두문자화 태그와 각각의 문맥 정보에 기초한 지시자 함수(indicator function)를 포함하는 컴퓨터 판독 가능한 기록 매체.
  11. 삭제
  12. 삭제
  13. 삭제
  14. 삭제
  15. 삭제
  16. 삭제
  17. 삭제
  18. 삭제
  19. 삭제
  20. 삭제
  21. 삭제
  22. 삭제
  23. 삭제
  24. 삭제
KR1020050066295A 2004-07-21 2005-07-21 지수적 모델의 적응 KR101159340B1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US59004104P 2004-07-21 2004-07-21
US60/590,041 2004-07-21
US10/977,871 2004-10-29
US10/977,871 US7860314B2 (en) 2004-07-21 2004-10-29 Adaptation of exponential models

Publications (2)

Publication Number Publication Date
KR20060046538A KR20060046538A (ko) 2006-05-17
KR101159340B1 true KR101159340B1 (ko) 2012-06-25

Family

ID=34940302

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020050066295A KR101159340B1 (ko) 2004-07-21 2005-07-21 지수적 모델의 적응

Country Status (4)

Country Link
US (1) US7860314B2 (ko)
EP (1) EP1619620A1 (ko)
JP (1) JP5031206B2 (ko)
KR (1) KR101159340B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020017675A (ko) * 2000-08-31 2002-03-07 김복량 발암 억제제

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8214196B2 (en) 2001-07-03 2012-07-03 University Of Southern California Syntax-based statistical translation model
WO2004001623A2 (en) * 2002-03-26 2003-12-31 University Of Southern California Constructing a translation lexicon from comparable, non-parallel corpora
US7711545B2 (en) * 2003-07-02 2010-05-04 Language Weaver, Inc. Empirical methods for splitting compound words with application to machine translation
US8548794B2 (en) * 2003-07-02 2013-10-01 University Of Southern California Statistical noun phrase translation
US8296127B2 (en) 2004-03-23 2012-10-23 University Of Southern California Discovery of parallel text portions in comparable collections of corpora and training using comparable texts
US8666725B2 (en) 2004-04-16 2014-03-04 University Of Southern California Selection and use of nonstatistical translation components in a statistical machine translation framework
DE112005002534T5 (de) * 2004-10-12 2007-11-08 University Of Southern California, Los Angeles Training für eine Text-Text-Anwendung, die eine Zeichenketten-Baum-Umwandlung zum Training und Decodieren verwendet
US8886517B2 (en) 2005-06-17 2014-11-11 Language Weaver, Inc. Trust scoring for language translation systems
US8676563B2 (en) 2009-10-01 2014-03-18 Language Weaver, Inc. Providing human-generated and machine-generated trusted translations
US10319252B2 (en) * 2005-11-09 2019-06-11 Sdl Inc. Language capability assessment and training apparatus and techniques
US8886518B1 (en) * 2006-08-07 2014-11-11 Language Weaver, Inc. System and method for capitalizing machine translated text
US8433556B2 (en) 2006-11-02 2013-04-30 University Of Southern California Semi-supervised training for statistical word alignment
US9122674B1 (en) 2006-12-15 2015-09-01 Language Weaver, Inc. Use of annotations in statistical machine translation
US8468149B1 (en) 2007-01-26 2013-06-18 Language Weaver, Inc. Multi-lingual online community
US8615389B1 (en) 2007-03-16 2013-12-24 Language Weaver, Inc. Generation and exploitation of an approximate language model
US8825466B1 (en) 2007-06-08 2014-09-02 Language Weaver, Inc. Modification of annotated bilingual segment pairs in syntax-based machine translation
US20090198671A1 (en) * 2008-02-05 2009-08-06 Yahoo! Inc. System and method for generating subphrase queries
GB201108200D0 (en) 2011-05-16 2011-06-29 Touchtype Ltd User input prediction
US8990064B2 (en) 2009-07-28 2015-03-24 Language Weaver, Inc. Translating documents based on content
US8380486B2 (en) 2009-10-01 2013-02-19 Language Weaver, Inc. Providing machine-generated translations and corresponding trust levels
US10417646B2 (en) 2010-03-09 2019-09-17 Sdl Inc. Predicting the cost associated with translating textual content
US11003838B2 (en) 2011-04-18 2021-05-11 Sdl Inc. Systems and methods for monitoring post translation editing
US8694303B2 (en) 2011-06-15 2014-04-08 Language Weaver, Inc. Systems and methods for tuning parameters in statistical machine translation
US8886515B2 (en) 2011-10-19 2014-11-11 Language Weaver, Inc. Systems and methods for enhancing machine translation post edit review processes
US8942973B2 (en) 2012-03-09 2015-01-27 Language Weaver, Inc. Content page URL translation
US9569732B2 (en) * 2012-05-01 2017-02-14 Battelle Memorial Institute System and method of designing models in a feedback loop
US10261994B2 (en) 2012-05-25 2019-04-16 Sdl Inc. Method and system for automatic management of reputation of translators
US9152622B2 (en) 2012-11-26 2015-10-06 Language Weaver, Inc. Personalized machine translation via online adaptation
EP2835769A1 (en) * 2013-08-05 2015-02-11 Movea Method, device and system for annotated capture of sensor data and crowd modelling of activities
US9213694B2 (en) 2013-10-10 2015-12-15 Language Weaver, Inc. Efficient online domain adaptation
US9864956B1 (en) * 2017-05-01 2018-01-09 SparkCognition, Inc. Generation and use of trained file classifiers for malware detection
US10305923B2 (en) 2017-06-30 2019-05-28 SparkCognition, Inc. Server-supported malware detection and protection
US10616252B2 (en) 2017-06-30 2020-04-07 SparkCognition, Inc. Automated detection of malware using trained neural network-based file classifiers and machine learning

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020015851A (ko) * 2000-08-23 2002-03-02 전홍건 엔트로피 정보와 베이지안 에스오엠을 이용한 문서군집기반의 순위조정 방법
JP2002373163A (ja) * 2001-04-13 2002-12-26 Mitsubishi Electric Corp 最大エントロピーモデル生成方法および装置ならびにそれを用いた自然言語処理方法および装置
WO2004031916A2 (en) * 2002-10-03 2004-04-15 Google, Inc. Method and apparatus for characterizing documents based on clusters of related words

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6760695B1 (en) 1992-08-31 2004-07-06 Logovista Corporation Automated natural language processing
US5805771A (en) * 1994-06-22 1998-09-08 Texas Instruments Incorporated Automatic language identification method and system
JPH0895592A (ja) * 1994-09-21 1996-04-12 Nippon Telegr & Teleph Corp <Ntt> パターン認識方法
US5778397A (en) 1995-06-28 1998-07-07 Xerox Corporation Automatic method of generating feature probabilities for automatic extracting summarization
US5794177A (en) 1995-07-19 1998-08-11 Inso Corporation Method and apparatus for morphological analysis and generation of natural language text
US5933822A (en) 1997-07-22 1999-08-03 Microsoft Corporation Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision
JPH11143486A (ja) * 1997-11-10 1999-05-28 Fuji Xerox Co Ltd 話者適応装置および方法
US6167369A (en) 1998-12-23 2000-12-26 Xerox Company Automatic language identification using both N-gram and word information
US6490549B1 (en) 2000-03-30 2002-12-03 Scansoft, Inc. Automatic orthographic transformation of a text stream
US7028250B2 (en) 2000-05-25 2006-04-11 Kanisa, Inc. System and method for automatically classifying text
US20060020448A1 (en) 2004-07-21 2006-01-26 Microsoft Corporation Method and apparatus for capitalizing text using maximum entropy

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020015851A (ko) * 2000-08-23 2002-03-02 전홍건 엔트로피 정보와 베이지안 에스오엠을 이용한 문서군집기반의 순위조정 방법
JP2002373163A (ja) * 2001-04-13 2002-12-26 Mitsubishi Electric Corp 最大エントロピーモデル生成方法および装置ならびにそれを用いた自然言語処理方法および装置
WO2004031916A2 (en) * 2002-10-03 2004-04-15 Google, Inc. Method and apparatus for characterizing documents based on clusters of related words

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020017675A (ko) * 2000-08-31 2002-03-07 김복량 발암 억제제

Also Published As

Publication number Publication date
US20060018541A1 (en) 2006-01-26
US7860314B2 (en) 2010-12-28
EP1619620A1 (en) 2006-01-25
JP2006031716A (ja) 2006-02-02
KR20060046538A (ko) 2006-05-17
JP5031206B2 (ja) 2012-09-19

Similar Documents

Publication Publication Date Title
KR101159340B1 (ko) 지수적 모델의 적응
US20060020448A1 (en) Method and apparatus for capitalizing text using maximum entropy
KR101120773B1 (ko) 삭제된 보간 n-그램 언어 모델의 arpa 표준 형식 표현
US10373610B2 (en) Systems and methods for automatic unit selection and target decomposition for sequence labelling
JP6594534B2 (ja) テキスト情報処理方法およびデバイス
JP5157314B2 (ja) 類似性計算方法、文脈モデル導出方法、類似性計算プログラム、文脈モデル導出プログラム
CN110349568B (zh) 语音检索方法、装置、计算机设备及存储介质
US9052748B2 (en) System and method for inputting text into electronic devices
US8275607B2 (en) Semi-supervised part-of-speech tagging
JP5744228B2 (ja) インターネットにおける有害情報の遮断方法と装置
US20040243408A1 (en) Method and apparatus using source-channel models for word segmentation
US20060277033A1 (en) Discriminative training for language modeling
US11817081B2 (en) Learning device, learning method, learning program, retrieval device, retrieval method, and retrieval program
WO2015171875A1 (en) Language model optimization for in-domain application
CN109948140B (zh) 一种词向量嵌入方法及装置
CN107861948B (zh) 一种标签提取方法、装置、设备和介质
CN113053367A (zh) 语音识别方法、语音识别的模型训练方法以及装置
JP6699753B2 (ja) 分析プログラム、情報処理装置および分析方法
CN112466293A (zh) 解码图优化方法、装置及存储介质
CN110457683A (zh) 模型优化方法、装置、计算机设备及存储介质
JP5766152B2 (ja) 言語モデル生成装置、その方法及びプログラム
CN110674397A (zh) 年龄点预测模型的训练方法及装置、设备与可读介质
JP2007011571A (ja) 情報処理装置、およびプログラム
JP4576977B2 (ja) 情報処理装置および方法、並びにプログラム
JP5126737B2 (ja) 情報処理装置、情報処理方法、及びプログラム

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20150515

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20160517

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20170522

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20180516

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20190515

Year of fee payment: 8