KR20100052461A

KR20100052461A - 단어 확률 결정

Info

Publication number: KR20100052461A
Application number: KR1020107001484A
Authority: KR
Inventors: 실리우 탕; 시안핑 지
Original assignee: 구글 잉크.
Priority date: 2007-06-25
Filing date: 2007-06-25
Publication date: 2010-05-19
Also published as: CN101785000B; WO2009000103A1; JP2010531492A; US8630847B2; KR101465770B1; US20080319738A1; CN101785000A

Abstract

본 방법은, 단어 코퍼스를 식별하고, 상기 단어 코퍼스에서의 각각의 단어와 단어 확률 값을 연관시키고, 문장을 식별하고, 상기 단어 코퍼스에 기초하여 상기 문장의 후보 분할들을 결정하고, 상기 단어와 연관된 확률 값들 및 상기 후보 분할들에 기초하여 상기 단어 코퍼스에서의 각각의 단어에 대한 연관된 확률 값을 반복적으로 조정하는 것을 포함한다.

Description

단어 확률 결정{WORD PROBABILITY DETERMINATION}

본 개시는 입력 방법에 관한 것이다.

하나 또는 두 개의 문자(character), 예를 들어 상형문자(glyph)가 대체로 하나의 단어(word) 또는 뜻에 대응하는 상징 문자(logographic script)를 사용하는 언어는 이동 디바이스 키패드 상의 컴퓨터 키보드와 같은 표준 입력 디바이스 상의 키들보다 많은 수의 문자들을 갖는다. 예를 들어, 중국어는 기본 핀인(Pinyin) 문자와 5개의 성조(tones)에 의해 정의되는 수천 개의 문자들을 포함한다. 이러한 다수 대 하나(many-to-one)의 연관(association)의 맵핑은 입력 디바이스 상에서 찾을 수 없는 문자 및 부호의 입력을 용이하게 하는 입력 방법에 의해 구현될 수 있다. 따라서, 서양식 키보드가 중국어, 일본어, 또는 한국어 문자를 입력하는데 사용될 수 있다.

일부 예에서, 사용자가 타이핑한 핀인 문자에 대응하는 후보 단어를 찾도록 단어 사전(dictionary)을 검색하는데 입력 방법 편집기(IME; input method editor)가 사용될 수 있다. 사전은, IME가 사용자의 의도를 예상할 수 있고 후보들을 식별하며 랭킹할 수 있게 해주는, 단어와 연관된 데이터, 예를 들어 확률 스코어(probability score)를 포함할 수 있다. IME는 예를 들어 확률 또는 정확도 스코어에 기초하여 후보들을 랭킹하고, 랭킹에 따른 차례대로 사용자에게 후보 단어들의 리스트를 제공한다.

본 발명은 입력 방법을 제공하고자 한다.

하나의 양상에서, 일반적으로, 컴퓨터 구현 방법은, 단어 코퍼스(word corpus)를 식별하고, 상기 단어 코퍼스에서의 각각의 단어와 단어 확률 값을 연관시키고, 문장(sentence)을 식별하고, 상기 단어 코퍼스에 기초하여 상기 문장의 후보 분할(segmentation)들을 결정하고, 상기 단어와 연관된 확률 값들 및 상기 후보 분할들에 기초하여 상기 단어 코퍼스에서의 각각의 단어에 대한 연관된 확률 값을 반복적으로 조정하는 것을 포함한다.

본 방법의 구현은 다음 특징들 중 하나 이상을 포함할 수 있다. 본 방법은 입력 방법 편집기 사전에 가장 높은 연관된 단어 확률 값들을 갖는 단어들에 의해 정의되는 단어 코퍼스의 일부를 저장하는 것을 포함할 수 있다. 상기 단어 확률 값들은 연관된 단어들이 문장에 나타나는 확률에 대응한다. 적어도 하나의 문장의 가능한 분할들을 결정하는 것은 상기 단어 코퍼스에 기초하여 상기 적어도 하나의 문장의 모든 가능한 분할들을 결정하는 것을 포함한다. 본 방법은 상기 문장의 각각의 후보 분할에 대한 분할 확률 값을 결정하는 것을 포함한다. 상기 문장의 각각의 후보 분할에 대한 분할 확률 값을 결정하는 것은, 상기 후보 분할 내의 단어들과 연관된 단어 확률 값들에 기초하여 각각의 후보 분할에 대한 분할 확률 값을 결정하는 것을 포함한다.

상기 연관된 단어 확률 값들 및 상기 후보 분할들에 기초하여 상기 단어 코퍼스에서의 각각의 단어에 대한 연관된 단어 확률 값을 반복적으로 조정하는 것은, 상기 문장의 후보 분할들에 대한 분할 확률 값들에 기초하여 각각의 단어에 대한 연관된 단어 확률 값을 반복적으로 조정하는 것을 포함한다. 상기 각각의 단어에 대한 연관된 단어 확률 값을 반복적으로 조정하는 것은, 각각의 반복에 대하여, 상기 후보 분할 내의 단어들과 연관된 단어 확률 값들에 기초하여 상기 문장의 각각의 후보 분할에 대한 분할 확률 값을 결정하고, 단어를 포함하는 후보 분할들에 대한 분할 확률 값들에 기초하여 각각의 단어에 대한 연관된 단어 확률 값을 조정하는 것을 포함한다. 문장 내의 단어의 정제된(refined) 확률 값을 결정하는 것은, (a) 상기 단어 앞의 부분 문자열(substring)의 후보 분할들의 확률 값들의 합, (b) 상기 단어의 확률 값, 및 (c) 상기 단어 뒤의 부분 문자열의 후보 분할들의 확률 값들의 합을 곱하는 것을 포함한다. 상기 문장의 후보 분할들을 결정하는 것은 문서 내의 복수의 문장들의 후보 분할들을 결정하는 것을 포함한다. 본 방법은 복수의 문서들 내의 문장들을 식별하고, 각각의 문장에 대하여 상기 단어 코퍼스에 기초하여 상기 문장의 후보 분할들을 결정하는 것을 포함한다. 상이한 유형의 문서들 내의 문장들에 상기 단어 확률 값들을 결정하는데 상이한 가중치(weight)들이 주어진다. 상기 문서들은 공중 네트워크, 인터넷을 통해 액세스가능하거나, 복수의 제3자들에 의해 제공된다. 상기 단어는 중국어, 일본어, 및 한국어 문자 중 적어도 하나를 포함한다. 상기 단어는 한지(Hanzi) 문자를 포함한다.

다른 양상에서, 일반적으로, 컴퓨터 구현 방법은, 단어 코퍼스의 단어들과 연관된 단어 확률 값들을 결정하고, 문서 코퍼스에서의 문서들의 문장들의 후보 분할들을 결정하고, 상기 후보 분할 내의 단어들과 연관된 단어 확률 값들에 기초하여 각각의 문장의 각각의 후보 분할에 대한 분할 확률 값을 반복적으로 결정하고, 단어를 포함하는 후보 분할들에 대한 분할 확률 값들에 기초하여 각각의 단어에 대한 단어 확률 값을 반복적으로 조정하는 것을 포함한다.

본 방법의 구현은 다음 특징들 중 하나 이상을 포함할 수 있다. 본 방법은 상기 문서들에 대한 문서 유형을 식별하고, 상기 식별된 문서 유형에 기초하여 상기 문서들 내의 문장들에 가중치들을 할당하고, 상기 가중치들에 기초하여 분할 확률 값들 또는 단어 확률 값들 중 하나를 결정하는 것을 포함한다. 본 방법은 단어를 포함하는 분할들의 분할 확률 값들에 기초하여 각각의 단어에 대한 카운트를 누적(accumulate)하는 것을 포함한다. 상기 각각의 단어에 대한 카운트를 누적하는 것은 상기 단어를 포함하는 분할들의 분할 확률 값들의 합을 결정하는 것을 포함한다. 본 방법은 정규화 인자(normalization factor)에 기초하여 상기 단어에 대한 카운트를 정규화함으로써 각각의 단어에 대한 단어 확률 값을 결정하는 것을 포함한다. 본 방법은 모든 단어들의 카운트들의 합을 결정함으로써 상기 정규화 인자를 결정하는 것을 포함한다.

또 다른 양상에서, 일반적으로, 시스템은 단어 코퍼스 및 문서 코퍼스를 저장하기 위한 데이터 저장공간, 및 컴퓨터 판독가능한 매체에 저장되며 프로세싱 디바이스에 의해 실행가능한 명령을 포함하는 프로세싱 엔진을 포함한다. 명령의 실행시, 상기 프로세싱 디바이스는 상기 단어 코퍼스에서의 각각의 단어와 단어 확률 값을 연관시키고, 상기 단어 코퍼스에 기초하여 상기 문서 코퍼스에서의 각각의 문서의 각각의 문장의 후보 분할들을 결정하고, 상기 연관된 단어 확률 값들 및 상기 후보 분할들에 기초하여 상기 단어 코퍼스에서의 각각의 단어에 대한 연관된 단어 확률 값을 반복적으로 조정한다.

다른 양상에서, 일반적으로, 시스템은 단어 코퍼스 및 문서 코퍼스를 저장하기 위한 데이터 저장공간, 및 상기 단어 코퍼스에서의 각각의 단어와 단어 확률 값을 연관시키고, 상기 단어 코퍼스에 기초하여 상기 문서 코퍼스에서의 각각의 문서의 각각의 문장의 후보 분할들을 결정하고, 상기 연관된 단어 확률 값들 및 상기 후보 분할들에 기초하여 상기 단어 코퍼스에서의 각각의 단어에 대한 연관된 단어 확률 값을 반복적으로 조정하기 위한 프로세싱 디바이스를 포함한다.

다른 양상에서, 일반적으로, 시스템은 단어 코퍼스 및 문서 코퍼스를 저장하기 위한 데이터 저장공간, 및 프로세싱 디바이스를 포함한다. 상기 프로세싱 디바이스는, 상기 단어 코퍼스의 단어들과 연관된 단어 확률 값들을 결정하고, 상기 문서 코퍼스에서의 문서들의 문장들의 후보 분할들을 결정하고, 상기 후보 분할 내의 단어들과 연관된 단어 확률 값들에 기초하여 각각의 문장의 각각의 후보 분할에 대한 분할 확률 값을 반복적으로 결정하고, 단어를 포함하는 후보 분할들에 대한 분할 확률 값들에 기초하여 각각의 단어에 대한 단어 확률 값을 반복적으로 조정한다.

또 다른 양상에서, 일반적으로, 시스템은 데이터 저장공간 및 프로세싱 디바이스를 포함한다. 상기 데이터 저장공간은 반복 프로세스를 사용하여 결정되는 단어들 및 연관된 단어 확률 값들을 포함하는 사전을 저장하며, 상기 반복 프로세스는, 문서들의 문장들의 후보 분할들에 대한 분할 확률 값들을 반복적으로 결정하고, 상기 분할 확률 값들에 기초하여 단어에 대한 단어 확률 값들을 반복적으로 조정하는 것을 포함한다. 상기 프로세싱 디바이스는 상기 사전으로부터 단어들을 선택하도록 구성되는 입력 방법 편집기를 제공한다.

다른 양상에서, 일반적으로, 시스템은, 단어 코퍼스에서의 단어들과 단어 확률 값을 연관시키기 위한 수단, 복수의 문서들 내의 문장들을 식별하기 위한 수단, 상기 단어 코퍼스에 기초하여 각각의 문장들의 후보 분할들을 결정하기 위한 수단, 및 상기 연관된 단어 확률 값들 및 상기 후보 분할들에 기초하여 상기 단어 코퍼스에서의 각각의 단어에 대한 연관된 단어 확률 값을 반복적으로 조정하기 위한 수단을 포함한다.

또 다른 양상에서, 일반적으로, 시스템은 단어 코퍼스의 단어들과 연관된 단어 확률 값들을 결정하기 위한 수단, 문서 코퍼스에서의 문서들의 문장들의 후보 분할들을 결정하기 위한 수단, 상기 후보 분할 내의 단어들과 연관된 단어 확률 값들에 기초하여 각각의 문장의 각각의 후보 분할에 대한 분할 확률 값을 반복적으로 결정하기 위한 수단, 및 단어를 포함하는 후보 분할들에 대한 분할 확률 값들에 기초하여 각각의 단어에 대한 단어 확률 값을 반복적으로 조정하기 위한 수단을 포함한다.

여기에 개시된 시스템 및 방법은 다음 이점들 중 하나 이상을 가질 수 있다. 사전은 문서들의 코퍼스에 기초하여 자동으로 최적화될 수 있고, 최적화된 사전은 후보 단어들에 대한 식별 및 선택을 용이하게 할 수 있다. 마찬가지로, 사전을 이용하는 IME는 선택을 위한 후보 단어들의 더 적고 그리고/또는 더 정확한 식별을 제공할 수 있다. 상징 문자, 예를 들어 중국어 문자를 처리하는 컴퓨터에 대한 속도 및 효율성이 개선될 수 있다. 사전의 사용자는 가장 높은 확률 값들을 갖는 바람직한 후보 단어들을 쉽게 얻을 수 있으며, 그리하여 사용자의 상징 문자의 입력 속도가 증가될 수 있다.

본 명세서에서 설명되는 내용의 하나 이상의 실시예의 세부 내용은 첨부 도면과 아래의 설명에서 서술된다. 본 내용의 기타 특징, 양상, 및 이점이 상세한 설명, 도면, 및 청구항으로부터 명백하게 될 것이다.

도 1은 여기에 기재되는 시스템 및 방법을 구현하는데 사용될 수 있는 예시적인 디바이스의 블록도이다.
도 2는 예시적인 편집 시스템의 블록도이다.
도 3은 예시적인 입력 방법 편집기 환경의 도면이다.
도 4는 예시적인 단어 확률 결정 엔진의 도면이다.
도 5 내지 도 7은 단어 확률 값을 결정하기 위한 프로세스의 흐름도들이다.
다양한 도면들에 있어서 유사한 참조 번호 및 지정은 유사한 구성요소를 나타낸다.

도 1은 여기에 기재되는 시스템 및 방법을 구현하는데 이용될 수 있는 예시적인 디바이스(100)의 블록도이다. 디바이스(100)는 예를 들어 개인용 컴퓨터 디바이스와 같은 컴퓨터 디바이스, 또는 이동 전화, 이동 통신 디바이스, 개인 휴대 정보 단말기(PDA) 등과 같은 기타 전자 디바이스로 구현될 수 있다.

예시적인 디바이스(100)는 프로세싱 디바이스(102), 제1 데이터 저장공간(104), 제2 데이터 저장공간(106), 입력 디바이스(108), 출력 디바이스(110), 및 네트워크 인터페이스(112)를 포함한다. 예를 들어 데이터 버스와 마더보드를 포함하는 버스 시스템(114)은 컴포넌트들(102, 104, 106, 108, 110, 및 112) 간의 데이터 통신을 확립하고 제어하는데 사용될 수 있다. 기타 예시적인 시스템 아키텍쳐가 또한 사용될 수 있다.

프로세싱 디바이스(102)는 예를 들어 하나 이상의 마이크로프로세서를 포함할 수 있다. 제1 데이터 저장공간(104)은, 예를 들어 동적 랜덤 액세스 메모리와 같은 랜덤 액세스 메모리 저장 디바이스, 또는 기타 유형의 컴퓨터 판독가능한 매체 메모리 디바이스를 포함할 수 있다. 제2 데이터 저장공간(106)은, 예를 들어 하나 이상의 하드 드라이브, 플래시 메모리, 및/또는 판독 전용 메모리, 또는 기타 유형의 컴퓨터 판독가능한 매체 메모리 디바이스를 포함할 수 있다.

예시적인 입력 디바이스(108)는 키보드, 마우스, 스타일러스 등을 포함할 수 있고, 예시적인 출력 디바이스(110)는 디스플레이 디바이스, 오디오 디바이스 등을 포함할 수 있다. 네트워크 인터페이스(112)는, 예를 들어 네트워크(116)에 대하여 데이터를 통신할 수 있는 유선 또는 무선 네트워크 디바이스를 포함할 수 있다. 네트워크(116)는 하나 이상의 로컬 영역 네트워크(LAN) 및/또는 인터넷과 같은 광역 네트워크(WAN)를 포함할 수 있다.

일부 구현에서, 디바이스(100)는 데이터 저장공간(106)과 같은 데이터 저장공간에 입력 방법 편집기(IME) 코드(101)를 포함할 수 있다. 입력 방법 편집기 코드(101)는 실행시 프로세싱 디바이스(102)로 하여금 입력 방법 편집 기능을 수행하도록 하는 명령들에 의해 정의될 수 있다. 일 구현에서, 입력 방법 편집기 코드(101)는, 예를 들어 웹 브라우저 환경에서 실행될 수 있는 스크립트 명령, 예를 들어 JavaScript 또는 ECMAScript 명령과 같은 해석형 명령(interpreted instruction)을 포함할 수 있다. 기타 구현도 또한, 예를 들어 컴파일된 명령, 단독형 애플리케이션, 애플릿, 플러그인 모듈 등이 사용될 수 있다.

입력 방법 편집기 코드(101)의 실행은 입력 방법 편집기 인스턴스(instance)(103)를 생성하거나 시작한다. 입력 방법 편집기 인스턴스(103)는 입력 방법 편집기 환경, 예를 들어 사용자 인터페이스를 정의할 수 있고, 디바이스(100)에서의 하나 이상의 입력 방법의 처리를 용이하게 할 수 있으며, 이 시간 동안 디바이스(100)는 예를 들어 한지 문자와 같은, 입력 문자, 표의문자(ideogram), 또는 부호에 대한 복합 입력(composition input)을 수신할 수 있다. 예를 들어, 사용자는 입력 디바이스(108)(예를 들어, 서양식 키보드와 같은 키보드, 수기 인식 엔진을 구비한 스타일러스 등) 중 하나 이상을 사용하여, 한지 문자의 식별을 위한 복합 입력을 입력할 수 있다. 일부 예에서, 한지 문자는 하나보다 많은 수의 복합 입력과 연관될 수 있다.

제1 데이터 저장공간(104) 및/또는 제2 데이터 저장공간(106)은 복합 입력과 문자의 연관을 저장할 수 있다. 사용자 입력에 기초하여, 입력 방법 편집기 인스턴스(103)는 데이터 저장공간(104) 및/또는 데이터 저장공간(106)에서의 정보를 사용하여, 입력에 의해 나타난 하나 이상의 후보 문자를 식별할 수 있다. 일부 구현에서, 하나보다 많은 수의 후보 문자가 식별되는 경우, 후보 문자들은 출력 디바이스(110) 상에 디스플레이된다. 입력 디바이스(108)를 사용하여, 사용자는 후보 문자들 중에서 사용자가 입력하기를 원하는 한지 문자를 선택할 수 있다.

일부 구현에서, 디바이스(100) 상의 입력 방법 편집기 인스턴스(103)는 하나 이상의 핀인 복합 입력을 수신하고, 그 복합 입력을 한지 문자로 변환할 수 있다. 입력 방법 편집기 인스턴스(103)는, 예를 들어 키 입력(keystroke)으로부터 수신된 핀인 음절(syllable) 또는 문자의 복합을 사용하여, 한지 문자를 나타낼 수 있다. 각각의 핀인 음절은, 예를 들어 서양식 키보드에서의 키에 대응할 수 있다. 핀인 입력 방법 편집기를 사용하여, 사용자는 한지 문자의 소리(sound)를 나타내는 하나 이상의 핀인 음절을 포함하는 복합 입력을 사용함으로써 한지 문자를 입력할 수 있다. 핀인 IME를 사용하여, 사용자는 또한 한지 문자의 소리를 나타내는 둘 이상의 핀인 음절을 포함하는 복합 입력을 사용함으로써 둘 이상의 한지 문자를 포함하는 단어를 입력할 수 있다. 그러나, 다른 언어에 대한 입력 방법도 또한 용이하게 될 수 있다.

웹 브라우저, 워드 프로세싱 프로그램, 이메일 클라이언트 등을 포함하는 다른 애플리케이션 소프트웨어(105)도 또한 데이터 저장공간(104 및/또는 106)에 저장될 수 있다. 이들 애플리케이션의 각각은 대응하는 애플리케이션 인스턴스(107)를 생성할 수 있다. 각각의 애플리케이션 인스턴스는 사용자에게 데이터를 제시하고 사용자로부터의 데이터 입력을 용이하게 함으로써 사용자 경험을 용이하게 할 수 있는 환경을 정의할 수 있다. 예를 들어, 웹 브라우저 소프트웨어는 검색 엔진 환경을 생성할 수 있고, 이메일 소프트웨어는 이메일 환경을 생성할 수 있고, 워드 프로세싱 프로그램은 편집기 환경을 생성할 수 있다.

일부 구현에서, 디바이스(100)에의 액세스를 갖는 원격 컴퓨팅 시스템(118)이 또한 상형 문자를 편집하는데 사용될 수 있다. 예를 들어, 디바이스(100)는 네트워크(116)를 통하여 상징 문자 편집 능력을 제공하는 서버일 수 있다. 일부 예에서, 사용자는 원격 컴퓨팅 시스템, 예를 들어 클라이언트 컴퓨터를 사용하여 데이터 저장공간(104) 및/또는 데이터 저장공간(106)에 저장된 상징 문자를 편집할 수 있다. 디바이스(100)는, 예를 들어 네트워크 인터페이스(112)를 통해 사용자로부터 문자를 선택하고 복합 입력을 수신할 수 있다. 프로세싱 디바이스(102)는, 예를 들어 선택한 문자에 인접한 하나 이상의 문자를 식별할 수 있고, 수신된 복합 입력 및 인접한 문자에 기초하여 하나 이상의 후보 문자를 식별할 수 있다. 디바이스(100)는 후보 문자를 포함하는 데이터 통신을 원격 컴퓨팅 시스템으로 다시 전송할 수 있다.

도 2는 예시적인 입력 방법 편집기 시스템(120)의 블록도이다. 입력 방법 편집기 시스템(120)은, 예를 들어 입력 방법 편집기 코드(101) 및 연관된 데이터 저장공간(104 및 106)을 사용하여 구현될 수 있다. 입력 방법 편집기 시스템(120)은 입력 방법 편집기 엔진(122), 사전(124), 및 복합 입력 테이블(composition input table)(126)을 포함한다. 다른 저장 아키텍쳐도 또한 사용될 수 있다. 사용자는 IME 시스템(120)을 사용하여, 예를 들어 핀인 문자를 타이핑함으로써 중국어 단어 또는 어구(phrase)를 입력할 수 있고, IME 엔진(122)은 사전(124)을 검색하여 핀인 문자와 일치하는 하나 이상의 중국어 단어 또는 어구를 각각 포함하는 후보 사전 엔트리를 식별할 것이다.

사전(124)은, 하나 이상의 언어 모델에서 사용된 상징 문자의 문자, 단어, 또는 어구와, 로마자 기반 또는 서양식 알파벳, 예를 들어 영어, 독일어, 스페인어 등의 문자, 단어, 및 어구에 대응하는 엔트리(128)를 포함한다. 각각의 단어는 뜻에 대응하고, 하나 이상의 문자를 포함할 수 있다. 예를 들어, "사과(apple)"라는 뜻을 갖는 단어(

)는 각각 핀인 입력 "ping" 및 "guo"에 대응하는 2개의 한지 문자

및

를 포함한다. 문자

도 또한 "과일(fruit)"이라는 뜻을 갖는 단어이다. 사전 엔트리(128)는, 예를 들어, 관용구(예를 들어,

), 고유 명사(예를 들어, "Republic of Austria"를 의미하는

), 역사적 캐릭터나 유명한 사람의 이름(예를 들어, "Genghis Khan"을 의미하는

), 기술 용어(예를 들어, "Global Positioning System"를 의미하는

), 구절(예를 들어,

), 책 제목(예를 들어, "Dream of the Red Chamber"를 의미하는

), 예술품의 제목(예를 들어, "Upper River During the Qing Ming Festival"을 의미하는

), 또는 영화 제목(예를 들어, "Crouching Tiger, Hidden Dragon"을 의미하는

) 등을 포함할 수 있으며, 각각은 하나 이상의 문자를 포함한다.

마찬가지로, 사전 엔트리(128)는, 예를 들어, 지리적 개체 또는 정치적 개체의 이름, 비즈니스 업체의 이름, 교육 기관의 이름, 동물이나 식물의 이름, 기계의 이름, 노래 제목, 공연 제목, 소프트웨어 프로그램의 이름, 소비자 제품의 이름 등을 포함할 수 있다. 사전(124)은, 예를 들어 수천 개의 문자, 단어 및 어구를 포함할 수 있다.

일부 구현에서, 사전(124)은 문자들 간의 관계에 대한 정보를 포함한다. 예를 들어, 사전(124)은 문자에 인접한 문자들에 따라 그 문자에 할당된 스코어 또는 확률 값을 포함할 수 있다. 사전(124)은 엔트리(128)가 보통 얼마나 자주 사용되는지 나타내도록 각각 사전 엔트리(128) 중 하나와 연관되어 있는 엔트리 스코어 또는 엔트리 확률 값을 포함할 수 있다.

복합 입력 테이블(126)은 사전(124)에 저장된 엔트리(128)와 복합 입력의 연관을 포함한다. 일부 구현에서, 복합 입력 테이블(126)은 사전(124)에서의 엔트리 각각을 입력 방법 편집기 엔진(122)에 의해 사용된 복합 입력(예를 들어, 핀인 입력)에 연결시킬 수 있다. 예를 들어, 입력 방법 편집기 엔진(122)은 사전(124) 및 복합 입력 테이블(126)에서의 정보를 사용하여, 사전(124)에서의 하나 이상의 엔트리(128)를 복합 입력 테이블(126)에서의 하나 이상의 복합 입력과 연관 및/또는 식별할 수 있다. 기타 연관도 또한 사용될 수 있다.

일부 구현에서, IME 시스템(120)에서의 후보 선택들이 랭킹(ranked)될 수 있고, 랭킹에 따라 입력 방법 편집기에 제시될 수 있다.

도 3은 5개의 랭킹된 후보 선택들(302)을 제시하는 예시적인 입력 방법 편집기 환경(300)의 도면이다. 각각의 후보 선택은 사전 엔트리(128) 또는 사전 엔트리들(128)의 조합일 수 있다. 후보 선택(302)은 핀인 입력(304)에 기초하여 식별된다. 선택 표시자(308)는 첫 번째 후보 선택, 즉

을 둘러싸며, 첫 번째 후보 선택이 선택됨을 표시한다. 사용자는 또한 숫자 키를 사용하여 후보 선택을 선택할 수 있거나, 또는 상향 및 하향 화살표 키를 사용하여 선택 표시자(308)를 이동시킴으로써 후보 선택을 선택할 수 있다.

상기 설명한 바와 같이, IME 엔진(122)은 사용자가 입력한 핀인 문자와 연관되는 후보 엔트리(128)를 식별하도록 사전(124)에 액세스한다. IME 엔진(122)은 엔트리 확률 값들을 사용하여 후보 엔트리들을 랭킹하고, IME 환경(300)에서 후보 엔트리들의 배치를 결정한다. 예를 들어, IME 엔진(122)에 의해 가장 높은 엔트리 확률 값을 갖는 후보 엔트리가 IME 환경(300)에서 제일 첫 번째 위치에 배치될 수 있다.

사전(124)은 주기적으로 새로운 단어, 이름, 또는 어구(phrase)로 업데이트될 수 있다. 사전(124)에서의 엔트리(128)의 확률 값은 시간이 지남에 따라 바뀔 수 있다. 예를 들어, IME 시스템(120)의 사용자에 의해 흔히 타이핑되는 문자, 단어, 및 어구는 사회에서의 변화 및 뉴스 이벤트에 대응하여 시간이 지남에 따라 바뀔 수 있다. 일부 구현에서, 사전(124)의 엔트리(128)와 연관된 엔트리 확률 값은 문서 코퍼스에서의 문자, 단어, 및 어구의 추정 빈도에 기초하여 확립 및/또는 업데이트될 수 있다.

도 4는 예를 들어 선택된 단어 및 선택된 단어와 연관된 확률 값을 저장하는 사전(406)을 생성할 수 있는 예시적인 단어 확률 결정 엔진(400)의 도면이다. 각각의 단어는 하나 이상의 한지 문자와 같은 하나 이상의 문자를 가질 수 있다. 일부 예에서, 단어 코퍼스(402)는 각각의 엔트리가 하나의 단어를 포함하는 것인 엔트리들을 포함하는 테이블로 제공될 수 있다. 단어 코퍼스(402)는 또한 문자가 아닌 부호(예를 들어, 콤마 또는 세미 콜론)에 의해 분리되는 단어들을 포함하는 텍스트 파일일 수 있다. 단어 코퍼스(402)에서의 각각의 단어에 대하여, 단어 확률 결정 엔진(400)은 반복 프로세스를 사용하여 문서 코퍼스(404)에서의 단어의 출현 확률(probability of occurrence)을 결정한다. 단어 코퍼스(402) 및 문서 코퍼스(404)는 데이터 저장공간에 저장될 수 있다.

본 명세서에서, 문맥에 따라 용어 "단어"는 하나 이상의 단어를 포함할 수 있는 일련의 연속 문자들을 포함하는 것으로 광범위하게 정의될 수 있다. 단어 코퍼스(402)에서의 각각의 "단어"는 사전(124)에서의 엔트리에 대한 후보이고, 사전(124)에서의 각각의 엔트리는 하나 이상의 단어를 포함할 수 있다. 예를 들어, 단어 코퍼스(402)가 테이블로 제공되는 경우, 단어 확률 결정 엔진(400)은, 엔트리가 하나보다 많은 수의 단어를 포함할 수 있다해도, 각각의 엔트리를 한 단어로서 취급한다. 예를 들어, 엔트리는 어구, 관용구, 고유 명사, 역사적 캐릭터나 유명한 사람의 이름, 기술 용어, 책 제목, 예술품의 제목, 영화 제목 등을 포함할 수 있다. 마찬가지로, 단어 코퍼스(402)가 문자가 아닌 부호(예를 들어, 콤마)에 의해 단어들이 분리되어 있는 텍스트 파일로서 제공되는 경우에, 단어 확률 결정 엔진(400)은 2개의 부호들 사이의 각각의 일련의 연속 문자들을, 그 일련의 연속 문자들이 하나보다 많은 수의 단어를 포함할 수 있다해도, 한 단어로서 취급한다. 따라서, 예를 들어,

,

등은 단어 확률 결정 엔진(400)에 의해 전부 단어로서 취급된다.

일부 예에서, 단어 코퍼스(402)는 중국어 및 기타 언어의 단어들을 포함할 수 있다. 사전(406)은, 예를 들어 단어 코퍼스(402) 및 문서 코퍼스(404)로부터 생성될 수 있다. 단어 코퍼스(402)는 미리 확립된 사전, 사용자 검색 질의, 또는 다양한 유형의 문서로부터 획득될 수 있다. 단어 코퍼스(402)는, 예를 들어 수천 개 이상의 단어 및 어구를 포함할 수 있다. 일부 구현에서, 사전(406)은 단어 코퍼스(402)에서의 단어 및 어구의 부분집합을 포함할 수 있다.

일부 예에서, 다수의 가장 높은 랭킹의 단어들과 어구들이 집합(402)으로 선택되어 사전(406)에 추가된다. 선택된 단어들과 어구들의 각각은 사전(406)의 엔트리가 된다. 단어 및 어구와 연관된 확률 값은 사전 엔트리와 연관된 확률 값이 된다. 사전(406)의 엔트리가 사전(124)에 추가될 수 있고, 사용자가 입력한 핀인 문자에 부합하는 후보 엔트리를 식별하도록 IME 엔진(122)에 의해 사용될 수 있다.

문서 코퍼스(404)는 네트워크를 통해 액세스될 수 있는 문서, 예를 들어 웹 페이지, 이메일 메시지 등을 포함할 수 있다. 문서 코퍼스(404)는 예를 들어 이북(e-book), 저널 기사, 광고, 인스턴스 메시지, 블로그, 법률 문서, 또는 기타 유형의 문서를 포함할 수 있다. 문서 코퍼스(404)는 뉴스, 영화, 음악, 정치적 토론, 과학적 발견, 법적 이슈, 건강 이슈, 환경 이슈 등과 같은 광범위하게 다양한 주제를 망라하는 문서를 포함할 수 있다. 문서 코퍼스(404)는 예를 들어 기업 인트라넷 또는 공중 인터넷으로부터 문서를 모음으로써 확립될 수 있다. 따라서 처리되는 문서(420)의 수는 수백만 이상의 문서의 범위에 달할 수 있다. 문서는, 예를 들어 한지 문자, 영어 문자, 숫자, 구두점, 부호, HTML 코드 등을 포함할 수 있다. 예를 들어 문학 작품의 전자 수집, 전자 도서관 등의 다른 문서들이 사용될 수도 있다.

상기 설명한 바와 같이, 단어 확률 결정 엔진(400)은 문서 코퍼스(404)에서의 단어의 출현 빈도에 기초하여 단어 코퍼스(402)에서의 단어의 확률 값을 결정하도록 반복 프로세스를 이용한다. 단어 확률 값을 결정하기 위한 반복 프로세스를 구현하기 위해, 단어 확률 결정 엔진(400)은 단어 코퍼스(402)에서의 각각의 단어에 초기 “소프트 카운트(soft-count)”를 할당하고, 각각의 단어에 대하여 초기 확률 값을 결정한다. 소프트 카운트 및 확률 값은 예를 들어, 단어 및 연관된 소프트 카운트 값의 테이블(412), 및 단어 및 연관된 확률 값의 테이블(414)과 같이, 하나 이상의 데이터 저장공간에 저장될 수 있다. 기타 데이터 저장 아키텍쳐도 또한 사용될 수 있다.

단어 확률 결정 엔진(400)은, 각각의 문서(404)를 문장들로 나누며 단어 코퍼스(402)에서의 단어들에 기초하여 각각의 문장의 모든 가능한 분할(각각 "후보 분할"로 칭함)들을 식별하는 단어 분할 엔진(410)을 포함할 수 있다. 문서(404)의 각각의 문장이 세그먼트(segment)들로 분할된 후에, 각각의 세그먼트는 단어 코퍼스(402)에서의 단어이다. 일부 구현에서, “문장”은 2개의 한지 문자가 아닌 것(non-Hanzi character), 예를 들어 구두점, 숫자, 부호, 또는 HTML 코드 사이의 한지 문자들의 연속 문자열(string)을 칭한다. 따라서, 단어 확률 결정 엔진(400)에 의해 처리될 각각의 문장이 반드시 언어 규칙에 의해 정의되는 완전한 문장인 것은 아니다.

일부 구현에서, 반복 프로세스의 각각의 반복에 있어서, 단어 확률 값이 각각의 후보 분할에 대한 확률 값을 결정하는데 사용되고, 분할 확률 값은 단어 확률 값을 조정하는데 사용된다. 수렴(convergence) 조건 또는 종료(termination) 조건이 일어날 때까지, 예를 들어 상위 100,000 개의 단어 확률 값이 안정되거나, 100번의 반복이 완료될 때까지, 반복은 계속될 수 있다. 일부 예에서, 단어 확률 값은 100번 미만의 반복 후에 수렴된다.

일부 구현에서, 문장들은 문장의 정확한 분할들이 미지인(unknown) 것인 은닉 마르코브 모델(Hidden Markov Model)을 사용하여 모델링될 수 있다. 예를 들어, 기대-최대화(Expectation-Maximization) 알고리즘이 기대 프로세스 및 최대화 프로세스를 구현하는데 이용될 수 있다. 기대 프로세스는 문서 코퍼스(404)에서의 모든 문장들의 모든 가능한 분할들에 대하여 각각의 분할의 예상되는 가능성(또는 확률)을 결정한다. 최대화 프로세스는, 단어가 나타나는 모든 분할들의 확률 값들을 더하고 정규화 인자를 사용하여 그 합을 정규화함으로써, 각각의 단어의 확률 값을 결정한다. 기대-최대화 알고리즘은 분할의 확률 값을 최대화하고자 하는 단어 확률 값 및 분할을 식별한다. 예를 들어, 소정의 문장은

가 최대화되도록

로 분할되며, 여기에서,

및

의 각각은 단어 코퍼스(402)에서의 단어일 수 있고,

는 단어

와 연관된 단어 확률 값이다. 다른 반복 프로세스도 또한 단어 확률 값을 최대화하는데 사용될 수 있다.

예를 들어, 단어 코퍼스(402)는 단어

을 포함할 수 있으며, 여기에서

는 단어를 표시한다. 문장

는 다음:

을 포함하는, 단어 코퍼스(402)에서의 단어들에 기초하여 여러 가지 방식의 세그먼트들로 분할될 수 있다. 상기 예시적인 분할들에 있어서, 각각의 세그먼트는 단어 코퍼스(402)에서의 단어이다. 여기에서, 용어 “분할”은 문장이 분할되는 방식을 칭한다. 따라서,

가 하나의 분할이고,

가 또 다른 분할이다. 각각의 분할은 하나 이상의 세그먼트를 가질 수 있다. 예를 들어, 분할

은 9 개의 세그먼트, 즉

및

를 포함한다. 분할

는 3 개의 세그먼트, 즉

및

를 포함한다.

다른 예로서, 단어 코퍼스(402)가 단어 [A],[B],[C],[AB],[BC],[ABC],[D], 및 [E]를 포함하며, 여기에서 "A", "B", "C" 등의 각각은 한지 문자를 나타낸다고 가정하자. 단어 코퍼스(402)에서의 단어들에 기초하여 문장 "ABCDAE"는 4 가지 상이한 방식으로 분할될 수 있다:

단어 확률 결정 엔진(400)은 단어 코퍼스(402)에서의 각각의 단어에 초기 "소프트 카운트"를 할당하고, 각각의 단어에 대하여 초기 확률 값을 결정한다. 단어 소프트 카운트는 문장들의 다양한 분할들 내의 단어의 출현 빈도수에 대응하며, 분할의 확률 값을 고려한다. 일부 구현에서, 단어 코퍼스(402)에는 없는 문서 코퍼스(404)에서의 단어에 낮은 초기 확률 값이 할당될 수 있다. 다른 구현에서, 단어 코퍼스(402)에 없는 문서 코퍼스(404)에서의 단어는 무시될 수 있다.

상기 예에서, 각각의 단어 [A],[B],[C],[AB],[BC],[ABC],[D], 및 [E]에 처음에 1의 소프트 카운트가 할당된다고 가정하자. 모든 단어들의 모든 확률 값의 합이 1이므로, 각각의 단어의 확률 값은 1/8인 것으로 결정된다. 제1 반복에서, 단어 확률 결정 엔진(400)은 분할 내의 단어들의 확률 값들에 기초하여 각각의 분할의 확률 값을 결정한다. 분할 확률 값은, 예를 들어 분할 내의 모든 단어들의 단어 확률 값들을 곱함으로써, 결정될 수 있다. 예를 들어, 문장 "ABCDAE"의 분할들의 확률 값들은 다음과 같을 수 있다:

여기에서,

는 분할

의 확률 값을 나타낸다.

그 다음, 분할 확률 값이 단어의 소프트 카운트를 조정하는데 사용된다. 단어가 가능성 p_i를 가지고 분할 내에 나타나는 경우, 분할 내의 각각의 단어에 대한 소프트 카운트 값은 단어의 각각의 출현마다

만큼 증가되며, 여기에서 t는 가능한 분할들의 총 수이고,

는 모든 가능한 분할들의 가능성의 합인 정규화 인자이다. 특정 단어의 소프트 카운트는, 정규화 인자로 나눈, 단어가 나타나는 모든 세그먼트들의 분할 확률 값들의 기여도(contribution)를 더함으로써 결정될 수 있다. 정규화 인자는, 예를 들어 모든 분할 확률 값들의 합일 수 있다. 상기 예에서, 정규화 인자는

일 수 있다.

상기 예에서, 단어 [A]는 분할 [ABC][D][A][E] 및 [AB][C][D][A][E]에서 한 번씩 나타나고, 분할 [A][BC][D][A][E] 및 [A][B][C][D][A][E]에서 두 번씩 나타나므로, A의 소프트 카운트는,

일 것이다.

단어 [B]는 분할 [A][B][C][D][A][E]에서 한 번 나타나므로, 단어 [B]의 소프트 카운트는

과 같다. 단어 [C]는 분할 [AB][C][D][A][E] 및 [A][B][C][D][A][E] 각각에 한 번씩 나타나므로, 단어 [C]의 소프트 카운트는

과 같다. 단어 [D]와 [E]는 둘 다 각각의 분할에서 한 번씩 나타나므로, 단어 [D]와 [E]의 소프트 카운트는 둘 다

과 같다. 단어 [AB]는 분할 [AB][C][D][A][E]에서 한번 나타나므로, 단어 [AB]의 소프트 카운트는

과 같다. 단어 [BC]는 분할 [A][BC][D][A][E]에서 한번 나타나므로, 단어 [BC]의 소프트 카운트는

과 같다. 단어 [ABC]는 분할 [ABC][D][A][E]에서 한 번 나타나므로, 단어 [ABC]의 소프트 카운트는

와 같다.

제1 반복의 종료시, 단어의 소프트 카운트는 다음과 같다:

S([A]) = 1.11,

S([B]) = 0.0123,

S([C]) = 0.111,

S([D]) = 1,

S([E]) = 1,

S([AB]) = 0.0988,

S([BC]) = 0.0988, 및

S([ABC]) = 0.79,

여기에서, S([ ])는 단어 [ ]의 소프트 카운트이다. 단어 소프트 카운트는 테이블(412)에 저장되고, 다음 문장, 예를 들어, "ABABCDD"가 또 다른 세트의 단어 소프트 카운트를 생성하도록 처리된다. 문서(404) 내의 모든 문장들이 마찬가지의 방식으로 처리되며, 각각의 문장에 대하여 단어 소프트 카운트 세트를 생성한다.

일부 구현에서, 문서 코퍼스(404)에서의 상이한 유형의 문서들에 상이한 가중치들이 주어질 수 있고, 특정 유형의 문서로부터의 문장의 후보 분할들의 확률 값들이 그 특정 유형의 문서와 연관된 가중치 값과 곱해질 수 있다. 예를 들어, 더 공식적이고 더 정확한 단어를 갖는 문서들에, 덜 공식적이고 오기의 단어를 포함할 수 있는 문서들보다 높은 가중치가 주어질 수 있다. 예를 들어, 주요 신문 또는 잡지 출판사에 의해 생성되는 뉴스 문서에는 17의 가중치가 주어질 수 있고, 개인에 의해 생성된 블로그 문서에는 10의 가중치가 주어질 수 있고, 다른 일반 웹 문서에는 1의 가중치가 주어질 수 있고, 이메일 메시지에는 0.7의 가중치가 주어질 수 있다.

상기 예를 사용하여, 주요 신문 또는 잡지 출판사의 뉴스 문서로부터 도출된 분할 확률 값들은 17로 곱해질 수 있고, 개인의 블로그 문서로부터 도출된 분할 확률 값들은 10으로 곱해질 수 있고, 기타 유형의 웹 문서로부터 도출된 분할 확률 값들은 1로 곱해질 수 있고, 이메일 메시지로부터 도출된 분할 확률 값들은 0.7로 곱해질 수 있다. 소프트 카운트는 분할 확률 값으로부터 유도되기 때문에, 따라서 소프트 카운트도 또한 문서 유형에 기초하여 가중화된다.

일부 구현에서, 모든 문서 내의 모든 문장들로부터 유도된 단어 소프트 카운트는 각각의 단어의 각자의 소프트 카운트를 더함으로써 결합된다. 예를 들어, 단어 [A]의 최종 소프트 카운트는 모든 문서들의 모든 문장들로부터 도출된 단어 [A]의 소프트 카운트를 누적함으로써(예를 들어, 더함으로써) 얻어진다. 각각의 단어의 확률 값은 단어의 소프트 카운트를 정규화 인자로 나눔으로써 결정된다. 정규화 인자는 예를 들어 모든 단어들의 소프트 카운트들의 합일 수 있다.

예를 들어, 단어들의 누적된 소프트 카운트들이 다음과 같다고 가정하자:

S([A]) = 10,

S([B]) = 2,

S([C]) = 3,

S([D]) = 1,

S([E]) = 3,

S([AB]) = 2,

S([BC]) = 2, 및

S([ABC]) = 1.

상기 예에서, 정규화 인자는 (10 + 2 + 3 + 1 + 3 + 2 + 2 + 1) = 24와 같을 수 있다. 따라서, 단어 확률 값은 다음과 같이 정규화된다:

P([A]) = 10/24 = 0.417,

P([B]) = 2/24 = 0.083,

P([C]) = 3/24 = 0.125,

P([E]) = 3/24 = 0.125,

P([D]) = 1/24 = 0.0417,

P([AB]) = 2/24 = 0.0833,

P([BC]) = 2/24 = 0.0833, 및

P([ABC]) = 1/24 = 0.0417,

단어 및 연관된 단어 확률 값은 테이블(414)에 저장될 수 있으며, 그에 따라 초기 반복을 완료한다.

제2 반복에 있어서, 분할들의 확률 값들은 제1 반복에서 얻은 단어 확률 값들에 따라 조정된다:

마찬가지로, 단어 소프트 카운트 값은 모든 가능한 분할들의 확률 값들의 합일 수 있는 정규화 인자로 나눈 분할 확률 값에 따라 조정된다. 이 예에서, 정규화 인자는

과 같다. 단어 소프트 카운트 값은 다음과 같다:

모든 문장들로부터의 소프트 카운트들이 누적되고 정규화되어 단어의 확률 값을 얻고, 이는 다음 반복 등등에서 분할 확률 값을 계산하는데 사용된다. 반복 프로세스는 수렴 또는 종료 조건이 일어날 때까지 계속된다. 예를 들어, 반복 프로세스는, 미리 결정된 수의 반복 후에, 또는 하나의 반복에서 다음 번까지의 단어 확률 값의 변화가 미리 결정된 임계치보다 작도록 단어 확률 값들이 수렴된 후에, 종료될 수 있다. 기타 수렴 또는 종료 조건이 또한 사용될 수 있다.

일부 구현에서, 소프트 카운팅(soft-counting)은 동적 프로그래밍에 의해 수행될 수 있다. 예를 들어, 문장이 "C₁C₂C₃...C_N"이며, "C₁", "C₂","C₃" 등의 각각은 문자라고 가정하자. 이 문장 안의 임의의 단어 C_j1...C_j2에 대하여, 그의 카운트는

만큼 증가될 수 있으며, 여기에서,

●

는 C_j1의 왼쪽으로 부분 문자열(substring)의 모든 가능한 분할들의 가능성의 합임

● p(C_j1...C_j2)는 단어 C_j1...C_j2의 확률의 현재 추정치임

●

는 C_j2의 오른쪽으로 부분 문자열의 모든 가능한 분할들의 가능성의 합임

●

는 정규화 상수(normalizing constant)이며, 이는 이 문장의 모든 가능한 분할들의 가능성의 합임.

는

과 같음.

및

의 값은 마찬가지로 동적 프로그래밍에 의해 계산될 수 있다. 예를 들어,

에 대한 재귀 함수(recursive function)는

이다.

의 값은 문장의 왼쪽에서 오른쪽으로 i=1,2,...,n+1에 대하여 계산되며, 이의 종료시

가 얻어진다. 그 다음,

의 값은 문장의 오른쪽에서 왼쪽으로 i=n,n-1,...3,2,1에 대하여 계산된다. 그러면, 공식

을 사용하여 단어 C_j1...C_j2의 소프트 카운트 값이 결정될 수 있다.

일부 구현에서, 문서들의 인덱싱(indexing) 및/또는 병행 처리가 이용될 수 있다. 문서 코퍼스(404)에서의 문서들의 수가 많을 수 있기 때문에, 인덱싱 및/또는 병행 처리는 처리 시간을 감소시킬 수 있다. 일부 구현에서, 문서 코퍼스(404)의 처리는, 예를 들어 "MapReduce: Simplified Data Processing on Large Clusters" by Jeffrey Dean and Sanjay Ghemawat, Sixth Symposium on Operating System Design and Implementation, SanFrancisco, CA, December, 2004에서 설명한 MapReduce 프로그래밍 모델을 사용하여 동시에 수행될 수 있으며, 이의 내용은 참조에 의해 여기에 포함된다.

반복 프로세스의 종료시, 단어 코퍼스(402)에서의 모든 단어의 최종 확률 값이 결정된다. 일부 구현에서, 단어 확률 결정 엔진(400)은 가장 높은 확률 값을 갖는 미리 결정된 수(예를 들어, 300,000개)의 단어들을 선택하고, 선택된 단어 및 그들 연관된 단어 확률 값을 IME 시스템(120)에 의해 액세스될 사전(406)에 저장한다. 사전(406)은 예를 들어 도 2의 사전(124)의 일부일 수 있다. 다른 구현에서, 전체 단어 코퍼스 및 연관된 확률 값이 사전(406)에 저장될 수 있다.

도 5는 문서 코퍼스(예를 들어, 문서 코퍼스(404))에서의 단어의 출현에 기초하여 단어 코퍼스(예를 들어, 단어 코퍼스(402))에서의 단어들의 확률 값들을 결정하기 위한 예시적인 프로세스(500)의 흐름도이다. 프로세스(500)는 예를 들어 하나 이상의 서버 컴퓨터를 포함하는 시스템에서 구현될 수 있다.

프로세스(500)는 단어 코퍼스를 식별한다(501). 예를 들어, 단어 코퍼스는 도 4의 단어 코퍼스(402)일 수 있다. 프로세스(500)에서, 초기 소프트 카운트 값이 단어 코퍼스에서의 단어들에 할당되고, 초기 단어 확률 값이 결정된다(502). 예를 들어, 단어 확률 결정 엔진(400)은 초기 소프트 카운트 값 및 초기 단어 확률 값을 할당할 수 있다.

프로세스(500)는 문서 코퍼스의 문서 내의 문장들을 식별한다(504). 프로세스(500)는 단어 코퍼스에서의 단어들에 기초하여 각각의 문장의 후보 분할들을 결정한다(506). 예를 들어, 후보 분할들은 단어 분할 엔진(410)에 의해 결정될 수 있다.

프로세스(500)는 예를 들어 후보 분할 내의 단어들의 확률 값들에 기초하여 각각의 후보 분할들에 대한 확률 값을 결정한다(508). 예를 들어, 후보 분할에 대한 확률 값은 후보 분할 내의 단어들의 확률 값들을 곱함으로써 결정될 수 있다. 일부 구현에서, 분할 확률 값은 분할들이 도출되는 문서의 유형에 기초한 가중치 값으로 곱해진다.

프로세스(500)는 후보 분할의 확률 값에 기초하여 각각의 단어에 대한 소프트 카운트를 결정한다. 예를 들어, 단어 또는 어구의 소프트 카운트는 단어가 나타나는 모든 분할들의 확률 값들의 기여도들을 더함으로써 결정될 수 있다.

프로세스(500)는 소프트 카운트를 정규화 인자로 나눔으로써 각각의 단어의 확률 값을 결정한다(512). 정규화 인자는 예를 들어 모든 소프트 카운트들의 합일 수 있다.

프로세스(500)는 종료 조건이 일어났는지의 여부를 판정한다(514). 종료 조건은, 예를 들어 미리 결정된 수의 반복의 수행, 또는 확률 값들의 수렴, 또는 일부 기타 조건을 포함할 수 있다.

종료 조건이 일어나지 않은 경우, 분할 확률 값들의 결정(508), 소프트 카운트들의 결정(510), 및 단어 확률 값들의 결정(512)이 반복된다.

종료 조건이 일어난 경우에는, 프로세스(500)는 가장 높은 확률 값들을 갖는 미리 결정된 수(예를 들어, 300,000개)의 단어들을 식별한다(516).

프로세스(500)는 입력 방법 편집기가 액세스할 수 있는 사전에 선택한 미리 결정된 수의 단어들을 추가한다(518). 예를 들어, IME는 도 2의 IME 시스템(120)일 수 있고, 미리 결정된 수의 단어들이 사전(124)에 포함될 수 있다.

도 6은 문서 코퍼스에서의 단어의 출현에 기초하여 단어 코퍼스에서의 단어의 확률 값을 결정하기 위한 예시적인 프로세스(600)의 흐름도이다. 프로세스(600)는 예를 들어 하나 이상의 서버 컴퓨터를 포함하는 시스템에서 구현될 수 있다.

프로세스(600)는 단어 코퍼스를 식별한다(602). 예를 들어, 단어 코퍼스는 도 4의 단어 코퍼스(402)일 수 있다. 프로세스(600)는 단어 코퍼스에서의 각각의 단어와 단어 확률 값을 연관시킨다(604). 예를 들어, 단어 확률 결정 엔진(400)은 단어 코퍼스(402)에서의 각각의 단어와 단어 확률 값을 연관시킬 수 있다. 프로세스(600)는 문장을 식별한다(606). 예를 들어, 단어 확률 결정 엔진(400)은 문서 코퍼스(404)로부터 문장을 식별할 수 있다. 프로세스(600)는 단어 코퍼스에 기초하여 문장의 후보 분할들을 결정한다(608). 예를 들어, 단어 확률 결정 엔진(400)은 문장의 후보 분할들을 결정할 수 있다. 프로세스(600)는 단어와 연관된 확률 값 및 후보 분할에 기초하여 단어 코퍼스에서의 각각의 단어에 대하여 연관된 확률 값을 반복적으로 조정한다(610). 예를 들어, 단어 확률 결정 엔진(400)은 각각의 단어에 대한 연관된 확률 값을 반복적으로 조정할 수 있다.

도 7은 문서 코퍼스에서의 단어의 출현에 기초하여 단어 코퍼스에서의 단어의 확률 값을 결정하기 위한 예시적인 프로세스(700)의 흐름도이다. 프로세스(700)는 예를 들어 하나 이상의 서버 컴퓨터를 포함하는 시스템에서 구현될 수 있다.

프로세스(700)는 단어 코퍼스의 단어와 연관된 단어 확률 값을 결정한다(702). 예를 들어, 단어 코퍼스는 도 4의 단어 코퍼스(402)일 수 있다. 프로세스(700)는 문서 코퍼스에서의 문서들의 문장들의 후보 분할들을 결정한다(704). 예를 들어, 문서 코퍼스는 문서 코퍼스(404)일 수 있다. 프로세스(700)는 후보 분할 내의 단어와 연관된 단어 확률 값에 기초하여 각각의 문장의 각각의 후보 분할에 대한 분할 확률 값을 반복적으로 결정한다(706). 예를 들어, 단어 확률 결정 엔진(400)은 분할 확률 값을 반복적으로 결정할 수 있다. 프로세스(700)는 단어를 포함하는 후보 분할에 대한 분할 확률 값에 기초하여 각각의 단어에 대한 단어 확률 값을 반복적으로 조정한다(708). 예를 들어, 단어 확률 결정 엔진(400)은 단어 확률 값을 반복적으로 조정할 수 있다.

다양한 구현들이 설명되었지만, 다른 구현도 또한 사용될 수 있다. 예를 들어, 입력 엔진(122)은 중국어, 일본어, 한국어 및/또는 인도어 문자를 입력하도록 서양 키보드로부터의 복합 입력들을 맵핑하는 것이 가능할 수 있다. 일부 예에서, 설명한 일부 또는 모든 구현들은 Cangjie 입력 방법, Jiufang 입력 방법, Wubi 입력 방법, 또는 기타 입력 방법과 같은 다른 입력 방법에 적용 가능할 수 있다. 다양한 유형의 문서들에 대한 가중치 값, 및 문서 유형들의 분류가 상기 설명한 것들과 상이할 수 있다. 처리될 단어, 어구, 및 문서의 수, 그리고 문서 코퍼스(404)에서의 문서들의 출처가 상기 설명한 것들과 상이할 수 있다.

일부 구현에서, 여러 사전, 예를 들어 법률 사전, 의학 사전, 과학 사전, 및 일반 사전이 사용될 수 있다. 각각의 사전은 특정 분야와 연관된 사전으로 시작함으로써 확립될 수 있다. 단어 확률 결정 엔진(400)은 사전과 연관된 분야 중심의 문서들을 갖는 문서 코퍼스를 처리하는데 사용된다. 예를 들어, 법률 사전에서 단어의 확률 값을 확립하기 위해, 법률 분야 중심의 문서들을 갖는 문서 코퍼스가 사용될 수 있다. IME 시스템(120)은 문자를 입력할 때 사용자가 관심 분야(예를 들어, 법률, 의학, 과학)를 선택할 수 있게 해줄 수 있고, 관심 분야에 관련된 사전으로부터 후보 단어들이 선택될 수 있다.

본 명세서에서 설명한 내용 및 기능적 동작의 실시예는 디지털 전자 회로로, 또는 본 명세서에서 개시된 구조 및 그들 구조적 등가물을 포함하는 컴퓨터 소프트웨어, 펌웨어, 또는 하드웨어로, 또는 이들 중 하나 이상의 조합으로 구현될 수 있다. 본 명세서에서 설명한 내용의 실시예는 하나 이상의 컴퓨터 프로그램 제품, 즉 데이터 프로세싱 장치에 의한 실행을 위해 또는 데이터 프로세싱 장치의 동작을 제어하도록 실체적 프로그램 캐리어(tangible program carrier) 상에 인코딩되어 있는 컴퓨터 프로그램 명령의 하나 이상의 모듈로서 구현될 수 있다. 실체적 프로그램 캐리어는 전파 신호 또는 컴퓨터 판독가능한 매체일 수 있다. 전파 신호는 인공적으로 생성된 신호, 예를 들어 기계가 발생한 전기, 광학, 또는 전자기 신호이며, 이는 컴퓨터에 의한 실행을 위해 적합한 수신기 장치에의 전송을 위한 정보를 인코딩하도록 생성된다. 컴퓨터 판독가능한 매체는 기계 판독가능한 저장 디바이스, 기계 판독가능한 저장 기판, 메모리 디바이스, 기계 판독가능한 전파 신호에 영향을 미치는 물질 구성, 또는 이들 중 하나 이상의 조합일 수 있다.

용어 "데이터 프로세싱 장치"는 예로써 프로그램가능한 프로세서, 컴퓨터, 또는 다수의 프로세서나 컴퓨터를 포함하여 데이터를 처리하기 위한 모든 장치, 디바이스, 및 기계를 포함한다. 장치는, 하드웨어 이외에도, 해당 컴퓨터 프로그램에 대한 실행 환경을 생성하는 코드, 예를 들어 프로세서 펌웨어를 구성하는 코드, 프로토콜 스택, 데이터베이스 관리 시스템, 운영 시스템, 또는 이들 중 하나 이상의 조합을 포함할 수 있다.

컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션, 스크립트, 또는 코드로도 알려짐)은 컴파일 또는 해석형 언어를 포함하는 프로그래밍 언어, 또는 서술 또는 절차적 언어의 임의의 형태로 기록될 수 있고, 이는 단독형 프로그램으로서 또는 모듈, 컴포넌트, 서브루틴, 또는 컴퓨터 환경에서 사용하기에 적합한 기타 유닛을 포함하는 임의의 형태로 배치될 수 있다. 컴퓨터 프로그램은 반드시 파일 시스템에서의 파일에 대응하는 것은 아니다. 프로그램은 기타 프로그램 또는 데이터를 보유하는 파일의 일부분에(예를 들어, 마크업 언어 문서로 저장된 하나 이상의 스크립트), 해당 프로그램에 전용되는 단일 파일에, 또는 다수의 조정된 파일(예를 들어, 하나 이상의 모듈, 서브 프로그램, 또는 코드 부분들을 저장하는 파일)에 저장될 수 있다. 컴퓨터 프로그램은 하나의 컴퓨터 상에서 또는 하나의 장소에 위치되거나 다수의 장소에 걸쳐 분포되어 있으며 통신 네트워크에 의해 상호접속되어 있는 다수의 컴퓨터 상에서 실행되도록 배치될 수 있다.

본 명세서에서 설명한 프로세스 및 로직 흐름은 입력 데이터를 통해 동작하고 출력을 생성함으로써 기능을 수행하도록 하나 이상의 컴퓨터 프로그램을 실행하는 하나 이상의 프로그램가능한 프로세서에 의해 수행될 수 있다. 프로세스 및 로직 흐름은 또한, 특수 용도 로직 회로, 예를 들어 FPGA(field programmable gate array) 또는 ASIC(application specific integrated circuit)에 의해 수행될 수 있거나, 장치가 또한 특수 용도 로직 회로, 예를 들어 FPGA 또는 ASIC로서 구현될 수 있다.

컴퓨터 프로그램의 실행에 적합한 프로세서는 예로써 범용 및 특수 용도 마이크로프로세서 둘 다를 포함하고, 임의의 종류의 디지털 컴퓨터의 임의의 하나 이상의 프로세서를 포함한다. 일반적으로, 프로세서는 판독 전용 메모리 또는 랜덤 액세스 메모리 또는 둘 다로부터 명령과 데이터를 수신할 것이다. 컴퓨터의 필수 요소는 명령을 수행하기 위한 프로세서 및 명령과 데이터를 저장하기 위한 하나 이상의 메모리 디바이스이다. 일반적으로, 컴퓨터는 또한, 데이터를 저장하기 위한 하나 이상의 대용량 저장 디바이스, 예를 들어 자기, 자기 광학 디스크, 또는 광학 디스크를 포함하거나, 이에 대하여 데이터를 수신하거나 데이터를 전송하도록 동작적으로 연결되거나, 또는 둘 다일 수 있다. 그러나, 컴퓨터가 이러한 디바이스를 가져야 하는 것은 아니다. 또한, 컴퓨터는 또 다른 디바이스, 예를 들어 몇 개를 들자면 이동 전화, 개인 휴대정보 단말기(PDA), 이동 오디오 또는 비디오 플레이어, 게임 콘솔, GPS 수신기에 내장될 수 있다.

컴퓨터 프로그램 명령과 데이터를 저장하기에 적합한 컴퓨터 판독가능한 매체는, 예로써 반도체 메모리 디바이스, 예를 들어 EPROM, EEPROM, 및 플래시 메모리 디바이스, 자기 디스크, 예를 들어 내부 하드 디스크 또는 착탈식 디스크, 자기 광학 디스크, 및 CD ROM과 DVD ROM 디스크를 포함하여, 모든 형태의 비휘발성 메모리, 매체 및 메모리 디바이스를 포함한다. 프로세서 및 메모리는 특수 용도 로직 회로에 의해 보충되거나 이에 통합될 수 있다.

사용자와의 상호작용을 제공하기 위해, 본 명세서에서 설명한 내용의 실시예는 사용자에게 정보를 디스플레이하기 위한 디스플레이 디바이스, 예를 들어 CRT(cathode ray tube) 또는 LCD(liguid crystal display) 모니터, 그리고 사용자가 컴퓨터에 입력을 제공할 수 있는 키보드 및 포인팅 디바이스, 예를 들어 마우스 또는 트랙볼을 갖는 컴퓨터 상에서 구현될 수 있다. 사용자와의 상호작용을 제공하는데 다른 종류의 디바이스도 사용될 수 있으며, 예를 들어 사용자에게 제공된 피드백은 임의의 형태의 감각 피드백, 예를 들어 시각 시드백, 청각 피드백, 또는 촉각 피드백일 수 있고, 사용자로부터의 입력은 음향, 음성, 또는 촉각 입력을 포함하는 임의의 형태로 수신될 수 있다.

본 명세서에서 설명한 내용의 실시예는, 예를 들어 데이터 서버로서 백 엔드 컴포넌트를 포함하거나, 미들웨어 컴포넌트, 예를 들어 애플리케이션 서버를 포함하거나, 또는 프론트 엔드 컴포넌트, 예를 들어 사용자가 본 명세서에서 설명한 내용의 구현과 상호작용할 수 있는 웹 브라우저 또는 그래픽 사용자 인터페이스를 갖는 클라이언트 컴퓨터를 포함하거나, 또는 하나 이상의 이러한 백 엔드, 미들웨어, 또는 프론트 엔드 컴포넌트의 임의의 조합을 포함하는 컴퓨팅 시스템에서 구현될 수 있다. 시스템의 컴포넌트는 디지털 데이터 통신의 임의의 형태 또는 매체, 예를 들어 통신 네트워크에 의해 상호접속될 수 있다. 통신 네트워크의 예는 로컬 영역 네트워크("LAN") 및 광역 네트워크("WAN"), 예를 들어 인터넷을 포함한다.

컴퓨팅 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트 및 서버는 일반적으로 서로에 대하여 원격이고, 통상적으로 통신 네트워크를 통해 상호작용한다. 클라이언트와 서버의 관계는 서로에 대한 클라이언트 서버 관계를 가지며 각각의 컴퓨터 상에서 실행되는 컴퓨터 프로그램 덕분에 생긴다.

본 명세서는 수많은 특정 구현 세부사항을 포함하지만, 이들은 임의의 발명 또는 청구할 수 있는 것의 범위에 대한 제한으로서 해석되어서는 안되고, 특정 발명의 특정 실시예에 특정할 수 있는 특징의 설명으로서 해석되어야 한다. 개별 실시예에 관련하여 본 명세서에서 설명하고 있는 어떤 특징들이 또한 단일 실시예에서 조합되어 구현될 수 있다. 반대로, 단일 실시예에 관련하여 설명하고 있는 다양한 특징들이 또한 다수의 실시예에서 개별적으로 또는 임의의 적합한 부분조합으로 구현될 수 있다. 또한, 특징들은 특정 조합으로 작용하는 것으로 상기에 설명하였고 그로서 처음에서도 청구하였지만, 청구한 조합으로부터의 하나 이상의 특징들은 일부 경우에 그 조합에서 삭제될 수 있고, 청구한 조합이 부분조합 또는 부분조합의 변형으로 될 수 있다.

마찬가지로, 동작들은 특정 순서대로 도면에 도시되어 있지만, 이는 원하는 결과를 달성하기 위해 이러한 동작들이 도시된 특정 순서대로 또는 순차적인 순서대로 수행되어야 하거나 모든 도시된 동작들이 수행되어야 함을 요구하는 것으로 이해하여서는 안된다. 어떤 환경에서는 다중 작업 및 병행 처리가 이로울 수 있다. 또한, 상기에 설명한 실시예에서의 다양한 시스템 컴포넌트들의 분리가 모든 실시예에서 이러한 분리를 요구하는 것으로 이해하여서는 안되고, 설명한 프로그램 컴포넌트 및 시스템이 전반적으로 단일 소프트웨어 제품에 다같이 통합되거나 다수의 소프트웨어 제품으로 패키징될 수 있는 것으로 이해하여야 한다.

본 명세서에서 설명한 내용의 특정 실시예가 설명되었다. 기타 실시예가 다음의 청구항의 범위 내에 속한다. 예를 들어, 청구항에서 인용된 동작들은 상이한 순서대로 수행될 수 있고, 여전히 원하는 결과를 달성할 수 있다. 하나의 예로서, 첨부 도면에 도시된 프로세스는 원하는 결과를 얻기 위해 반드시 도시된 특정 순서 또는 순차적 순서를 요구하는 것은 아니다. 어떤 구현에서는 다중 작업 및 병행 처리가 이로울 수 있다.

102: 프로세싱 디바이스
104, 106: 데이터 저장공간
108: 입력 디바이스
110: 출력 디바이스
112: 네트워크 인터페이스
116: 네트워크
118: 원격 시스템
122: IME 엔진
124, 406: 사전
126: 복합 입력 테이블
128: 엔트리
400: 단어 확률 결정 엔진

Claims

컴퓨터 구현 방법에 있어서,
단어 코퍼스(word corpus)를 식별하고;
상기 단어 코퍼스에서의 각각의 단어와 단어 확률 값을 연관시키고;
문장(sentence)을 식별하고;
상기 단어 코퍼스에 기초하여 상기 문장의 후보 분할(segmentation)들을 결정하고;
상기 연관된 단어 확률 값들 및 상기 후보 분할들에 기초하여 상기 단어 코퍼스에서의 각각의 단어에 대한 연관된 단어 확률 값을 반복적으로 조정하는 것을 포함하는 컴퓨터 구현 방법.
청구항 1에 있어서,
입력 방법 편집기(imput method editor) 사전에 가장 높은 연관된 단어 확률 값들을 갖는 단어들에 의해 정의되는 단어 코퍼스의 일부를 저장하는 것을 포함하는 컴퓨터 구현 방법.
청구항 1에 있어서,
상기 단어 확률 값들은 연관된 단어들이 문장에 나타나는 확률에 대응하는 것인 컴퓨터 구현 방법.
청구항 1에 있어서,
상기 문장의 후보 분할들을 결정하는 것은 상기 단어 코퍼스에 기초하여 적어도 하나의 문장의 모든 가능한 분할들을 결정하는 것을 포함하는 것인 컴퓨터 구현 방법.
청구항 1에 있어서,
상기 문장의 각각의 후보 분할에 대한 분할 확률 값을 결정하는 것을 포함하는 컴퓨터 구현 방법.
청구항 5에 있어서,
상기 문장의 각각의 후보 분할에 대한 분할 확률 값을 결정하는 것은, 상기 후보 분할 내의 단어들과 연관된 단어 확률 값들에 기초하여 각각의 후보 분할에 대한 분할 확률 값을 결정하는 것을 포함하는 것인 컴퓨터 구현 방법.
청구항 5에 있어서,
상기 연관된 단어 확률 값들 및 상기 후보 분할들에 기초하여 상기 단어 코퍼스에서의 각각의 단어에 대한 연관된 단어 확률 값을 반복적으로 조정하는 것은, 상기 문장의 후보 분할들에 대한 분할 확률 값들에 기초하여 각각의 단어에 대한 연관된 단어 확률 값을 반복적으로 조정하는 것을 포함하는 것인 컴퓨터 구현 방법.
청구항 1에 있어서,
상기 각각의 단어에 대한 연관된 단어 확률 값을 반복적으로 조정하는 것은, 각각의 반복에 대하여,
상기 후보 분할 내의 단어들과 연관된 단어 확률 값들에 기초하여 상기 문장의 각각의 후보 분할에 대한 분할 확률 값을 결정하고;
단어를 포함하는 후보 분할들에 대한 분할 확률 값들에 기초하여 각각의 단어에 대한 연관된 단어 확률 값을 조정하는 것을 포함하는 것인 컴퓨터 구현 방법.
청구항 1에 있어서,
문장 내의 단어의 정제된(refined) 확률 값을 결정하는 것은, (a) 상기 단어 앞의 부분 문자열의 후보 분할들의 확률 값들의 합, (b) 상기 단어의 확률 값, 및 (c) 상기 단어 뒤의 부분 문자열의 후보 분할들의 확률 값들의 합을 곱하는 것을 포함하는 것인 컴퓨터 구현 방법.
청구항 1에 있어서,
상기 문장의 후보 분할들을 결정하는 것은 문서 내의 복수의 문장들의 후보 분할들을 결정하는 것을 포함하는 것인 컴퓨터 구현 방법.
청구항 1에 있어서,
복수의 문서들 내의 문장들을 식별하고, 각각의 문장에 대하여 상기 단어 코퍼스에 기초하여 상기 문장의 후보 분할들을 결정하는 것을 포함하는 컴퓨터 구현 방법.
청구항 11에 있어서,
상이한 유형의 문서들 내의 문장들에 상기 단어 확률 값들을 결정하는데 상이한 가중치들이 주어지는 것인 컴퓨터 구현 방법.
청구항 11에 있어서,
상기 문서들은 공중 네트워크, 인터넷을 통해 액세스가능하거나, 복수의 제3자들에 의해 제공되는 것인 컴퓨터 구현 방법.
청구항 1에 있어서,
상기 단어는 중국어, 일본어, 및 한국어 문자 중 적어도 하나를 포함하는 것인 컴퓨터 구현 방법.
청구항 1에 있어서,
상기 단어는 한지(Hanzi) 문자를 포함하는 것인 컴퓨터 구현 방법.
컴퓨터 구현 방법에 있어서,
단어 코퍼스의 단어들과 연관된 단어 확률 값들을 결정하고;
문서 코퍼스에서의 문서들의 문장들의 후보 분할들을 결정하고;
상기 후보 분할 내의 단어들과 연관된 단어 확률 값들에 기초하여 각각의 문장의 각각의 후보 분할에 대한 분할 확률 값을 반복적으로 결정하고;
단어를 포함하는 후보 분할들에 대한 분할 확률 값들에 기초하여 각각의 단어에 대한 단어 확률 값을 반복적으로 조정하는 것을 포함하는 컴퓨터 구현 방법.
청구항 16에 있어서,
상기 문서들에 대한 문서 유형을 식별하고;
상기 식별된 문서 유형에 기초하여 상기 문서들 내의 문장들에 가중치들을 할당하고;
상기 가중치들에 기초하여 분할 확률 값들 또는 단어 확률 값들 중 하나를 결정하는 것을 포함하는 컴퓨터 구현 방법.
청구항 16에 있어서,
단어를 포함하는 분할들의 분할 확률 값들에 기초하여 각각의 단어에 대한 카운트를 누적하는 것을 포함하는 컴퓨터 구현 방법.
청구항 18에 있어서,
상기 각각의 단어에 대한 카운트를 누적하는 것은 상기 단어를 포함하는 분할들의 분할 확률 값들의 합을 결정하는 것을 포함하는 것인 컴퓨터 구현 방법.
청구항 18에 있어서,
정규화 인자(normalization factor)에 기초하여 상기 단어에 대한 카운트를 정규화함으로써 각각의 단어에 대한 단어 확률 값을 결정하는 것을 포함하는 컴퓨터 구현 방법.
청구항 20에 있어서,
모든 단어들의 카운트들의 합을 결정함으로써 상기 정규화 인자를 결정하는 것을 포함하는 컴퓨터 구현 방법.
반복 프로세스 - 상기 반복 프로세스는, 문서들의 문장들의 후보 분할들에 대한 분할 확률 값들을 반복적으로 결정하고, 상기 분할 확률 값들에 기초하여 단어에 대한 단어 확률 값들을 반복적으로 조정하는 것을 포함함 - 를 사용하여 결정되는 단어들 및 연관된 단어 확률 값들을 포함하는 사전을 확립하고;
상기 사전으로부터 단어들을 선택하도록 구성되는 입력 방법 편집기를 제공하는 것을 포함하는 방법.
단어 코퍼스 및 문서 코퍼스를 저장하기 위한 데이터 저장공간; 및
컴퓨터 판독가능한 매체에 저장되는 프로세싱 엔진을 포함하고,
상기 프로세싱 엔진은 프로세싱 디바이스에 의해 실행 가능한 명령을 포함하며, 이러한 실행시 상기 프로세싱 디바이스로 하여금,
상기 단어 코퍼스에서의 각각의 단어와 단어 확률 값을 연관시키고;
상기 단어 코퍼스에 기초하여 상기 문서 코퍼스에서의 각각의 문서의 각각의 문장의 후보 분할들을 결정하고;
상기 연관된 단어 확률 값들 및 상기 후보 분할들에 기초하여 상기 단어 코퍼스에서의 각각의 단어에 대한 연관된 단어 확률 값을 반복적으로 조정하도록, 하는 것인 시스템.
단어 코퍼스 및 문서 코퍼스를 저장하기 위한 데이터 저장공간; 및
프로세싱 디바이스를 포함하며, 상기 프로세싱 디바이스는,
상기 단어 코퍼스에서의 각각의 단어와 단어 확률 값을 연관시키고;
상기 단어 코퍼스에 기초하여 상기 문서 코퍼스에서의 각각의 문서의 각각의 문장의 후보 분할들을 결정하고;
상기 연관된 단어 확률 값들 및 상기 후보 분할들에 기초하여 상기 단어 코퍼스에서의 각각의 단어에 대한 연관된 단어 확률 값을 반복적으로 조정하기 위한 것인, 시스템.
단어 코퍼스 및 문서 코퍼스를 저장하기 위한 데이터 저장공간; 및
프로세싱 디바이스를 포함하며, 상기 프로세싱 디바이스는,
상기 단어 코퍼스의 단어들과 연관된 단어 확률 값들을 결정하고;
상기 문서 코퍼스에서의 문서들의 문장들의 후보 분할들을 결정하고;
상기 후보 분할 내의 단어들과 연관된 단어 확률 값들에 기초하여 각각의 문장의 각각의 후보 분할에 대한 분할 확률 값을 반복적으로 결정하고;
단어를 포함하는 후보 분할들에 대한 분할 확률 값들에 기초하여 각각의 단어에 대한 단어 확률 값을 반복적으로 조정하기 위한 것인, 시스템.
반복 프로세스 - 상기 반복 프로세스는, 문서들의 문장들의 후보 분할들에 대한 분할 확률 값들을 반복적으로 결정하고, 상기 분할 확률 값들에 기초하여 단어에 대한 단어 확률 값들을 반복적으로 조정하는 것을 포함함 - 를 사용하여 결정되는 단어들 및 연관된 단어 확률 값들을 포함하는 사전을 저장하기 위한 저장공간; 및
상기 사전으로부터 단어들을 선택하도록 구성되는 입력 방법 편집기를 제공하기 위한 프로세싱 디바이스를 포함하는 시스템.
단어 코퍼스에서의 단어들과 단어 확률 값을 연관시키기 위한 수단;
복수의 문서들 내의 문장들을 식별하기 위한 수단;
상기 단어 코퍼스에 기초하여 각각의 문장들의 후보 분할들을 결정하기 위한 수단; 및
상기 연관된 단어 확률 값들 및 상기 후보 분할들에 기초하여 상기 단어 코퍼스에서의 각각의 단어에 대한 연관된 단어 확률 값을 반복적으로 조정하기 위한 수단을 포함하는 시스템.
단어 코퍼스의 단어들과 연관된 단어 확률 값들을 결정하기 위한 수단;
문서 코퍼스에서의 문서들의 문장들의 후보 분할들을 결정하기 위한 수단;
상기 후보 분할 내의 단어들과 연관된 단어 확률 값들에 기초하여 각각의 문장의 각각의 후보 분할에 대한 분할 확률 값을 반복적으로 결정하기 위한 수단; 및
단어를 포함하는 후보 분할들에 대한 분할 확률 값들에 기초하여 각각의 단어에 대한 단어 확률 값을 반복적으로 조정하기 위한 수단을 포함하는 시스템.