KR20090087435A

KR20090087435A - 타이핑 효율을 증강시키기 위한 타이핑 후보생성방법

Info

Publication number: KR20090087435A
Application number: KR1020097008496A
Authority: KR
Inventors: 원-리안 수
Original assignee: 아카데미아 시니카
Priority date: 2006-09-27
Filing date: 2007-09-27
Publication date: 2009-08-17
Also published as: JP2013117978A; US8364468B2; WO2008039927A3; US8594999B2; CN101523385B; US20080077396A1; EP2082333A2; EP2082333A4; TWI421708B; TW200816007A; WO2008039927A2; KR101425182B1; TW201122850A; TWI435225B; US20130185053A1; JP2010505208A; CN101523385A

Abstract

부정확한 철자, 타이핑 에러, 알려져 있지 않은 철자, 및 발음 구별 부호를 지닌 문자에 의해 초래되는 타이핑 부담을 경감하기 위하여, 또한 몇몇 간단화된 기술에 의해 타이피스트의 타이핑 효율을 증강시키기 위하여, 생성된 후보 워드의 리스트로부터 후보 워드를 채택하도록 타이피스트를 돕기 위하여, 또는 상기 생성된 후보 워드의 리스트로부터 자동 선택 방식으로 후보 워드를 선택하기 위하여 수개의 후보생성방법이 제공된다. 또, 적절하게 설계된 사용자 인터페이스도 상기 후보생성방법을 구현하는 데 이용될 수 있다.

타이핑 후보생성방법, 후보 워드, 워드 사전, 사용자 인터페이스

Description

타이핑 효율을 증강시키기 위한 타이핑 후보생성방법{TYPING CANDIDATE GENERATING METHOD FOR ENHANCING TYPING EFFICIENCY}

본 발명은 타이핑 후보생성방법, 특히, 타이핑 효율을 증강시키기 위한 타이핑 후보생성방법에 관한 것이다.

컴퓨터 혹은 휴대용 기기 상에서의 타이핑은 알파벳 내의 문자의 개수가 상당히 제한되기 때문에 알파벳 언어에 대해서는 어렵지 않다. 또, 알파벳 언어는 표준 키보드 상의 키패드에 용이하게 맵핑된다. 그러나, 표준 키보드 상에서의 알파벳 언어의 타이핑 효율은 부정확한 철자, 타이핑 에러, 알려져 있지 않은 철자, 및 발음 구별 부호(diacritical mark)(또는 악센트 부호)를 지닌 문자에 의해 방해받기 쉽다. 이러한 인자들에 의해 초래된 잘못을 교정하는 것은 명백하게 타이핑 속도를 늦추고, 타이피스트의 사고의 흐름을 가로막는다. 정확한 철자를 아는 일없이 워드를 타이핑하는 것은 또한 많은 추정 및 사전 찾기를 포함한다. 발음 구별 부호(또는 악센트 부호)를 지닌 타이핑 문자는 통상 부가적인 키 스트로크(keystroke) 혹은 조합된 키 스트로크를 학습하는 특별히 설계된 키보드 레이아웃을 필요로 하며, 이것은 상기 타이핑 속도를 늦출 수도 있다.

본원 청구항에 기재된 발명은 타이핑 효율을 증강시키기 위한 타이핑 후보생성방법을 제공한다. 이 방법은 워드 사전(word dictionary)를 제공하는 단계; 및 소정의 통계 데이터에 따라 소정의 어의(semantic) 특성을 정합시키기 위하여 상기 워드 사전으로부터 적어도 1개의 후보 워드를 생성하여 사용자가 타이핑한 문장을 적응시키고, 상기 어의 특성을 정합시키기 위하여 해당 사용자가 타이핑한 문장 내에 상기 적어도 1개의 후보 워드를 이용하는 자동 선택 방식을 수행하는 단계를 포함한다.

본원 청구항에 기재된 발명은 타이핑 효율을 증강시키기 위한 타이핑 후보생성방법을 제공한다. 이 방법은 표음(phonetic) 워드 사전을 제공하는 단계를 포함한다. 이어서, 입력 워드를 복수개의 표음 음절 수열(phonetic syllable sequence)로 분할하며, 이때 상기 복수개의 표음 음절 수열은 각각 복수개의 표음 음절을 지닌다. 상기 표음 워드 사전의 복수개의 유사도 행렬에 따라 상기 복수개의 표음 음절 수열의 각각에 대해서 적어도 1개의 후보 워드를 포함하는 상기 복수개의 후보 워드가 생성된다. 상기 복수개의 후보 워드부터 후보 워드를 채택하고, 상기 입력 워드를 해당 채택된 후보 워드로 교체하며, 상기 채택된 후보 워드는 해당 입력 워드를 교체하는 0보다 큰 최소의 총 치환 대가(total substitution cost)를 가진다.

본원 청구항에 기재된 발명은 타이핑 효율을 증강시키기 위한 타이핑 후보생성방법을 제공한다. 이 방법은 워드 사전을 제공하는 단계; 및 적어도 1개의 후보 워드가 존재하는 지의 여부를 결정하는 단계를 포함하되, 상기 적어도 1개의 후보 워드는 해당 적어도 1개의 후보 워드 내의 어디에서도 발견되면서 해당 적어도 1개의 후보 워드의 부분 수열로서 상기 입력 워드를 포함하는 워드 사전 중의 워드이다. 또, 적어도 1개의 후보 워드가 존재하는 것으로 결정된 경우 상기 입력 워드를 교체하기 위한 상기 적어도 1개의 후보 워드가 선택된다.

본원 청구항에 기재된 발명은 타이핑 효율을 증강시키기 위한 타이핑 후보생성방법을 제공한다. 이 방법은 워드 수열을 저장하는 단계; 및 상기 워드 수열 내의 대응하는 워드의 순서로 배열된 워드 수열 중의 1개의 워드 중의 첫번째 문자와 그 후속의 워드의 첫번째 문자를 포함하는 두문자어 부분 수열(acronym subsequence)을 이용해서 상기 워드 수열의 워드 부분 수열을 검색하는(retrieve) 단계를 포함한다. 상이한 1개의 워드 및/또는 상이한 후속의 워드가 선택된 경우 동일한 워드 수열로부터 상이한 워드 부분 수열을 검색한다. 상기 워드 부분 수열은 상기 워드 수열 내의 대응하는 워드의 순서로 배열된 상기 1개의 워드, 그 후속의 워드, 그리고 상기 1개의 워드와 그 후속의 워드 사이에 있는 모든 중개 워드(intervening word)를 포함한다.

본원 청구항에 기재된 발명은 타이핑 효율을 증강시키기 위한 타이핑 후보생성방법을 제공한다. 이 방법은 워드 사전을 제공하는 단계를 포함한다. 입력 워드 내의 문자의 가능한 발음 구별 부호에 따라 적어도 1개의 후보 워드를 생성한다. 상기 적어도 1개의 후보 워드로부터 후보 워드를 채택한다. 워드를 형성하기 위한 문자의 복수개의 가능한 발음 구별 부호는 워드 사전에 저장되어 있다.

본 발명의 이들 및 기타 목적은 각종 도면에 예시된 바람직한 실시예의 이하의 상세한 설명을 읽은 후의 당업자에 대해서 명백해질 것임은 의심의 여지가 없다.

도 1은 본 발명에 의한 부정확한 철자를 경감하기 위한 타이핑 후보생성방법의 순서도;

도 2는 타이핑된 워드의 간단화된 표음 철자에 의해 타이피스트를 용이하게 하기 위한 본 발명의 후보생성방법을 나타낸 순서도;

도 3은 도 2에 나타낸 단계들에서 이용되는 유사도 행렬(similarity matrix)을 나타낸 선도;

도 4는 목표 워드의 워드 부분 수열(word subsequence)을 입력하여 본 발명의 후보생성방법을 나타낸 도면;

도 5는 원래의 워드 수열(word sequence)의 두문자어 부분 수열을 이용하여 본 발명의 후보생성방법을 나타낸 도면;

도 6은 발음 구별 부호를 지닌 문자의 타이핑을 증강시키기 위한 본 발명의 후보생성방법을 나타낸 도면.

전술한 잘못에 의해 타이피스트가 방해받는 것을 방지하기 위하여, 본 발명에서는 타이피스트를 용이하게 하고 전술한 결점을 극복하기 위한 몇몇 타이핑 후보생성방법이 제공된다.

본 발명의 첫번째 후보생성방법은 부정확한 철자에 의해 방해받는 것으로부 터 타이피스트를 돕기 위한 것이다. 부정확한 철자는 삽입, 삭제, 치환 및 순서 변경의 에러를 포함한다. 타이핑된 워드의 문자가 틀리게 서로 교체되면(또는 소문자가 대문자로 교체되면) 치환 에러가 발생한다. 타이핑된 워드의 문자가 빠져 있으면 삭제 에러가 발생한다. 가외의 문자가 타이핑되면 삽입 에러가 발생한다. 2개의 문자의 순서가 바뀌어 있다면 순서 변경 에러가 발생한다. 비록 어떤 유형의 부정확한 철자 에러가 발생하더라도, 철자 에러의 수가 워드의 길이에 비해서 작은 한, 잘못 철자된(misspelled) 워드는 정정할 충분한 정보를 유지할 것이다. 예를 들어, 잘못 철자된 워드 "phenomanon"는 "phenomenon"의 오식으로, 단지 7번째 문자 "e"만이 "a"로서 잘못 철자된 것(치환 에러)이고 나머지 9개의 문자는 정확하게 철자되어 있다. 따라서, 이러한 정보는 잘못 철자된 워드를 정정하는 데 이용될 것이다.

상기 개념에 따르면, 첫번째 타이핑 후보생성방법이 본 발명에서 제공되고, 부정확한 철자를 경감시키기 위한 타이핑 후보생성방법의 순서도인 도 1에 예시되어 있다. 도 1에 예시된 방법은 다음과 같은 스텝들을 포함한다.

스텝 102: 워드 사전을 제공한다.

스텝 104: 다수의 문장의 어의 특성과 연관된 소정의 통계 데이터를 확립하기 위하여 복수개의 관련된 워드를 지닌 다수의 문장으로 상기 워드 사전을 길들여(training) 시험한다.

스텝 106: 소정의 통계 데이터에 따라 사용자가 타이핑한 문장의 어의 특성을 정합시키기 위하여 상기 워드 사전으로부터 적어도 1개의 후보 워드를 생성하여 상기 사용자가 타이핑한 문장을 적응시키는 자동 선택 방식을 수행한다.

스텝 108: 상기 사용자가 타이핑한 문장 중의 선택된 워드와 워드 사전 내의 적어도 1개의 후보 워드 각각 간의 편집 거리를 계산한다.

스텝 110: 상기 계산된 편집 거리가 모두 0보다 큰 지의 여부를 검사한다. 계산된 편집 거리가 모두 0보다 크면, 스텝 112로 진행하고, 그렇지 않으면, 스텝 114로 진행한다.

스텝 112: 상기 복수개의 후보 워드로부터 최단 편집 거리를 가진 후보 워드를 채택하고, 상기 선택된 워드를 상기 채택된 후보 워드로 교체한다.

스텝 114: 상기 선택된 워드를 0에 상당하는 편집 거리를 가진 후보 워드로 교체한다.

스텝 102 및 스텝 104는, 도 1에 나타낸 나중 스텝들이 상기 워드 사전의 도움으로 수행될 필요가 있기 때문에, 상기 나중 스텝들을 위해서 미리 워드 사전을 준비하여 확립하는 절차를 나타낸다. 워드 사전은 시스템 사전, 도메인 사전 또는 사용자 사전일 수 있다. 몇몇 환경에 있어서, 워드 사전은 타이피스트의 타이핑 습관을 정합시키기 위하여 타이피스트의 최근의 기사나 단락으로부터 유래된다. 비록 어떤 유형의 워드 사전이 스텝 102 및 스텝 104에서 이용되더라도, 이 이용된 워드 사전은 충분히 다수의 문장을 확인하기 위해서, 또는 심지어 복수개의 문장의 어의 특성과 연관된 통계 데이터를 획득하기 위하여 길들여지고 시험될 필요가 있다. 통계 데이터는 특정 단락 내 혹은 타이피스트가 타이핑한 단락 내에서의 각종 워드의 빈도일 수 있거나, 또는 각종 워드 간의 순서 변경 확률 등일 수도 있다.

스텝 106 내지 스텝 114로부터, 자동 선택 방식은, 가장 유망한 후보 워드를 결정하기 위하여, 그리고, 타이피스트의 입력 워드를 지닌 현재의 문장의 어의 특성과 정합시키기 위해서 해당 입력 워드를 상기 결정된 후보 워드로 교체하기 위하여 수행될 수 있으며, 이때 상기 입력 워드는 전술한 유형의 부정확한 철자로부터 생성된 잘못 철자된 워드일 수도 있다. 상기 입력 워드와 관련된 각각의 가능한 워드 후보는, 입력 워드를 해당 가능한 후보 워드로 변환하기 위하여 상기 입력 워드의 문자를 삽입, 삭제 혹은 치환하는 수고를 나타내는 편집 거리에 따라 워드 사전으로부터 결정된다. 예를 들어, 입력 워드 "phenomanon"을 후보 워드 "phenomenon"으로 변환시키기 위하여, 문자 "a"는 문자 "e"로 치환될 필요가 있고, 관련된 편집 거리는 문자들 내에서 단지 하나의 치환을 취하기 위하여 1로서 기록될 수 있다. 마찬가지로, 입력 워드가 "phnocmanon"으로 입력된 경우에는, 관련된 편집 거리는 "h"와 "n" 사이에 문자 "e"를 삽입하고, "o"와 "m" 사이에 문자 "c"를 삭제하고, "m"과 "n" 사이의 문자 "a"를 문자 "e"로 치환하기 위하여 3이다. 단, 본 발명의 편집 거리는 다른 방식으로 정의될 수 있으므로, 전술한 방식으로 제한되는 것은 아니다.

0보다 큰 모든 후보 워드의 편집 거리를 지니는 것은 입력 워드가 잘못 철자된 워드인 것을 나타낸다. 다음에, 입력 워드로부터 최단 편집 거리를 지닌 후보 워드는 입력 워드를 교체하기 위하여 자동적으로 선택된다. 그러나, 동일한 최단 편집 거리를 지닌 하나 이상의 후보 워드가 있을 수도 있다. 이러한 상황이 문제로 되는 것을 방지하기 위하여, 입력 워드를 지닌 현재의 단락의 어의 특성과 관련 된 전술한 통계 데이터도 관련된 편집 거리를 지닌 가능한 후보 워드를 결정하는 데 이용된다. 어의 특성에 대한 부가된 조건에 의해, 입력 워드에 대한 가능한 후보 워드의 도메인은 상당히 감소되어, 타이피스트의 타이핑 효율뿐만 아니라 가능한 후보 워드를 결정하는 효율도 촉진시킨다. 따라서, 본 발명의 부정확한 철자를 경감시키는 방법이 유효해진다.

또한, 어의 규칙을 수반하거나 문맥-자유 문법(context-free grammar)에 이용되는 N-그램 모델 방법(N-gram model method), 또는 언어학적 템플리트-정합 시스템(linguistic template-matching system)도, 본 발명의 부정확한 철자를 경감하기 위한 상기 방법을 향상시키는 데 이용될 수 있다.

사용자 인터페이스는 본 발명에 따른 부정확한 철자를 경감시키기 위한 전술한 방법을 구현하는 데 이용될 수 있다. 사용자 인터페이스에 의하여, 입력 워드의 복수개의 가능한 후보 워드가 리스트화될 수 있거나 혹은 심지어 타이피스트가 타이핑한 문장을 컴파일링(compiling)함으로써 생성될 수도 있는 한편, 관련된 워드 사전은 타이피스트에 의해 타이핑된 최근의 단락을 참조한다. 사용자 인터페이스는 타이피스트에 의해 작성된 임의의 철자를 보고하고 이러한 타이핑 에러를 기록하기 위하여 설계되어 있을 수도 있다. 따라서, 상기 기록된 타이핑 에러는 편집 거리 및 어의 특성과 함께 가능한 후보 워드의 도메인을 감소시키기 위하여 이용될 수도 있다. 삽입 에러, 삭제 에러, 치환 에러(또는 심지어 순서 변경 에러)를 포함하는 상기 기록된 타이핑 에러도 문장 혹은 문구와 함께 기록되어 있을 수도 있고, 이것은 이에 따라 참조될 통계 데이터의 유형으로서 상기 기록된 타이핑 에러를 지닌다.

본 발명의 두번째 후보생성방법은 타이핑된 워드의 표음 철자를 간략화함으로써 타이피스트를 용이하게 하기 위한 것이다. 두번째 후보생성방법의 기본적인 개념은 다음과 같이 설명된다. 알파벳 언어에 대해서, 타이피스트가 워드의 철자가 어떤 것이지 생각해내지 못하지만 그 발음이 어떤지는 대충 알고 있을 경우, 사용자는 그의 대략의 발음을 추정함으로써 그 워드를 탐색하려고 시도할 수 있다. 이 아이디어에 의거해서, 다수의 표음 음절을 저장하고 있는 표음 워드 사전이 필요하게 된다. 타이피스트가 워드 "bureaucracy"의 철자를 영어로 쓸 수 없을 경우, 그 타이피스트는 표음 워드에 의거한 대략의 발음을 타이핑할 수 있어, "burocrecy" 또는 "burockrecy" 등과 같은 대응하는 발음을 시뮬레이션하고자 의도하게 된다.

표음 워드를 입수한 때, 표음 워드의 대응하는 발음은 표음 워드를 많은 다양한 방식으로 표음 음절로 분할함으로써 해독되거나 추정되고, 이에 따라 대응하는 복수개의 표음 음절 수열이 생성된다. 각 표음 음절 수열은 복수개의 표음 음절을 포함하고, 이것은 상기 가능한 방법의 하나에 해당한다.

도 2는 타이핑된 워드의 간단화된 표음 철자에 의해 타이피스트를 용이하게 하기 위한 본 발명의 두번째 후보생성방법을 나타낸 순서도이다. 이 두번째 후보생성방법은 이하의 스텝들을 포함한다.

스텝 202: 표음 워드 사전을 제공한다.

스텝 204: 표음 사전 내에 복수개의 표음 음절을 저장한다.

스텝 206: 상기 저장된 복수개의 표음 음절의 각각 간의 복수개의 유사도 거리를 계산한다.

스텝 208: 입력 워드를 복수개의 표음 음절 수열로 분할하고, 이때, 표음 음절 수열은 각각 복수개의 표음 음절을 각각 포함한다.

스텝 210: 상기 표음 워드 사전의 복수개의 유사도 행렬에 따라 복수개의 표음 음절 수열의 각각에 대해서 적어도 1개의 후보 워드를 포함하는 복수개의 후보 워드를 생성한다.

스텝 212: 복수개의 후보 워드로부터 하나의 후보 워드를 채택하고, 상기 입력 워드를, 해당 입력 워드를 교체하는 0보다 큰 최소의 총 치환 대가를 지닌 상기 채택된 후보 워드로 교체한다.

스텝 202 내지 스텝 206은 스텝 102 내지 스텝 104와 마찬가지로 도 2에 나타낸 이후의 스텝들을 뒷받침하기 위하여 미리 표음 워드 사전을 준비하는 것을 포함한다. 저장된 표음 음절 이외에, 표음 음절 간의 유사도(이것은 유사도 거리로 지칭될 경우도 있음)는 또한 계산되어 표음 워드 사전 내에 미리 저장되어 있을 필요가 있다. 제1표음 음절과 제2표음 음절 간의 유사도 거리가 보다 높다는 것은 제1표음 음절의 문자를 삽입, 삭제, 치환 또는 순서 변경함으로써 제1표음 음절을 제2표음 음절로 변형시키는 치환 대가가 보다 적은 것을 나타내는 반면, 해당 유사도 거리가 보다 낮다는 것은 치환 대가가 보다 크다는 것을 나타내며, 이 역 또한 마찬가지이다. 제1표음 음절 수열과 제2표음 음절 수열 간의 유사도는 유사도 행렬에 의해 규정된다. 유사도 행렬 중의 행은 제1표음 음절 수열 내의 모든 표음 음절을 리스트화하고 있는 반면, 유사도 행렬 중의 열은 제2표음 음절 수열 내의 모든 표음 음절을 리스트화하고 있다.

상기 유사도 행렬을 나타낸 도면인 도 3을 참조하면, 유사도 행렬(A)은 제1표음 음절 수열 PS_row = (PSR₀, PSR₁, PSR₂, ..., PSR_M-1)(여기서, PSR_i(i = 0, 1, 2, ..., M-1)는 표음 음절 수열(PS_row) 내의 제i번째 표음 음절을 나타냄)과 제2표음 음절 수열 PS_column = (PSC₀, PSC₁, PSC₂, ..., PSC_N-1)(여기서, PSC_j(j = 0, 1, 2, ..., N-1)는 표음 음절 수열(PS_column) 내의 제j번째 표음 음절을 나타냄) 간의 총 치환 대가를 나타내는 데 이용되는 것으로 가정한다. 또한, M은 표음 음절 수열(PS_row)의 차원(dimension)을 나타내고, N은 표음 음절 수열(PS_column)의 차원을 나타낸다. 다음에, 도 3에 나타낸 바와 같이, 계수 A_i,j는 표음 음절(PSR_i)과 표음 음절(PSC_j) 간의 유사도를 나타내며, 여기서, 상기 계수 A_i,j의 값의 범위는 본 발명의 바람직한 실시예에 있어서 0 내지 1이다. 표음 음절 수열(PS_row)과 (PS_column) 간의 총 치환 대가를 계산하기 위하여, 몇몇개의 가능한 방법이 이용될 수 있다. 본 발명의 바람직한 실시예에 있어서, 각 행 혹은 각 열에 있어서의 각각 최소의 계수(A_i,j)는 유사도 행렬(A)의 대표적인 총 치환 대가로서 합산되거나, 또는 심지어 상기 행 방식과 상기 열 방식 간의 총 합산된 치환 대가가 보다 작은 것은, 다른 유사도 행렬의 대표적인 총 치환 대가와의 비교를 위하여, 유사도 행렬(A)의 대표 적인 총 치환 대가로서 검색된다. 표음 음절 수열(PS_row)과 (PS_column) 간의 차이는 허용가능한 적절하게 선택된 값(d)에 대해서 클 수 없다. 즉, ||PS_rowl - |PS_column|| ≤ d이고, 여기서, |PS_row| 및 |PS_column|는 각각 PS_row 및 PS_column의 차원을 나타낸다. 본 발명의 다른 실시예에 있어서, 유사도 행렬(A)의 결정자는 대표적인 총 치환 대가로서 이용될 수도 있다.

따라서, 모든 가능한 표음 음절 간의 유사도 거리는 표음 워드 사전에서도 모두 미리 계산되어 미리 저장된다. 스텝 208 내지 스텝 212를 통해서, 두번째 후보생성방법은 가장 유망한 후보 워드를 결정하기 위해서, 그리고, 표음 철자에 따라 타이피스트에 의해 입력된 입력 워드를 상기 결정된 후보 워드로 대체하여, 해당 입력 워드의 표음 특성을 최상의 정합 확률로 정합시키기 위하여 수행된다. 우선, 입력 워드는 입력 워드의 표음 철자에 따라 복수개의 표음 음절을 지니고 각종 후보 워드 각각 나타내는 각종 가능한 표음 음절 수열로 분할될 필요가 있다. 표준 환경 하에, 상기 가능한 후보 워드의 각각과 상기 입력 워드로부터 분할된 두 표음 수열 사이의 상기 값(d)은 해당 입력 워드에 대해서 (d)의 허용가능한 값을 지닌 후보 워드를 필터링하기 위하여 적절한 알고리즘을 이용함으로써 제한될 것이다. 이어서, 최소의 총 치환 대가는 각종 유사도 행렬로부터 복수개의 대표적인 총 치환 대가를 비교함으로써 생성되며, 상기 각종 유사도 행렬은 각각 전술한 바와 같이 입력 워드와 가능한 후보 워드의 유사도에 상당한다.

마지막으로, 상기 입력 워드는 해당 입력 워드의 문자를 삽입, 삭제, 치환 및 순서 변경함으로써 상기 입력 워드에 대해서 상기 최소의 총 치환 대가를 가진 가능한 후보 워드로 변환된다. 이와 같이 해서 표음 특성에 따른 두번째 후보생성방법의 목적이 달성된다.

전술한 스텝들은 적절하게 설계된 사용자 인터페이스에 의해 그리고 자동 선택 방식으로 구현될 수도 있다. 따라서, 일단 타이피스트가 표음 철자에 따라 입력 워드를 타이핑하면, 상기 사용자 인터페이스는 하나의 선호하는 후보 워드를 채택하도록 타이피스트에 대해서 가능한 후보 워드 리스트를 표시할 수 있거나, 또는 상기 입력 워드는 전술한 절차를 수행함으로써 가장 유망한 후보 워드로 자동적으로 교체된다.

지나치게 많은 문자를 지닌 워드를 타이핑하는 것은 번거로울 경우가 있다. 따라서, 본 발명의 세번째 후보생성방법은 목표 워드의 워드 수열의 부분 수열을 타이핑함으로써 이러한 불편을 완화시키기 위한 편리한 방식을 제공함으로써, 타이피스트가 독창적으로 타이핑하고 싶게 한다. 예를 들어, 워드 "psychology"는 "pylg"로서 타이핑될 수도 있는 데, 그 이유는 해당 워드 "psychology"가 입력 "pylg" 내에서 발견되는 것과 같은 순서로 입력 "pylg" 중의 글자를 모두 포함하기 때문이다. 부분 수열 "pylg"에 의거해서, 부분 수열로서 "pylg"를 포함하는 가능한 후보 워드, 예컨대 "psychological", "psycholinguistic", "physiology"가 본 발명의 상기 세번째 후보생성방법의 도움 하에 생성될 것이다. URL 또는 전자메일(e-mail) 주소를 타이핑할 때, 상기 방법이 이용될 수도 있다. 예를 들어, 어떤 타이피스트는 해당 타이피스트에 의해 미리 타이핑되어 기준으로서 미리 저장되어 있는 워드 수열 http://iasl.iis.sinica.edu.tw/hsu/를 나타내기 위하여 부분 수열 "shsu"를 타이핑할 수도 있다.

목표 워드의 워드 부분 수열을 입력함으로써 본 발명의 상기 세번째 후보생성방법을 예시한 도 4를 참조하면, 해당 도 4에 나타낸 스텝들은 다음과 같다.

스텝 302: 워드 사전을 제공한다.

스텝 304: 적어도 1개의 후보 워드 내의 어디에서도 발견되면서 해당 적어도 1개의 후보 워드의 부분 수열로서 상기 입력 워드를 포함하는 워드 사전 중의 워드인 해당 적어도 1개의 후보 워드가 존재하는 지의 여부를 결정한다. 적어도 1개의 후보 워드가 존재한다면, 스텝 306으로 진행하고, 그렇지 않으면, 스텝 308로 진행한다.

스텝 306: 적어도 1개의 후보 워드로부터 하나의 후보 워드를 선택하여 입력 워드를 교체한다.

스텝 308: 에러를 나타내는 메시지를 표시한다.

전술한 방법과 마찬가지로, 워드 사전은 또한 나중의 스텝들을 수행하기 위해 제공된다. 워드 사전은 복수개의 후보 워드를 저장하여, 복수개의 후보 워드의 부분 수열을 인식하는 능력을 제공한다. 타이피스트가 입력 워드를 타이핑할 경우, 워드 사전은 상기 입력 워드를 부분 수열로서 포함하는 가능한 후보 워드를 탐색한다. 가능한 후보의 리스트가 발견되면, 타이피스트는 상기 가능한 후보 워드의 리스트로부터 바람직한 워드를 선택할 수 있다. 적절하게 설계된 사용자 인터페이스에 의해, 상기 가능한 후보 워드의 리스트가 타이피스트의 이러한 선택을 용 이하게 하기 위한 리스트 내에 표시되어 있어도 된다. 또한, 잘 기록된 통계 데이터에 의해, 각종 가능한 후보 워드의 빈도가 미리 계산될 수 있고, 이러한 선택은 또한 상기 통계 데이터에 의해 자동 선택 방식으로 자동적으로 수행될 수 있다. 그러나, 가능한 후보가 하나도 발견되지 않은 경우에는, 타이피스트가 잘못된 입력 워드를 타이핑했을 수 있고, 해당 입력 워드가 어떠한 후보 워드의 부분 수열과도 정합하지 않는다는 것을 표시하기 위하여, 대응하는 에러 메시지가 타이피스트에게 리스트화되어 있을 필요가 있다.

문구 혹은 문장 등과 같은 워드 수열에 대해서 네번째 후보생성방법이 이용된다. 문장 혹은 문구 내에 미리 저장되어 있던 워드 수열에 의거해서, 문장 혹은 문구 내의 각 워드의 첫번째 문자를 취하는 대응하는 "두문자어 수열"도 미리 저장된다. 이어서, 타이피스트는 첫번째 워드의 첫번째 문자를 먼저 타이핑하고, 마지막 워드의 첫번째 문자를 마지막으로 타이핑하는 방식으로 그의 대응하는 두문자어 수열의 부분 수열을 타이핑함으로써, 워드의 연속적인 부분 수열을 검색할 수 있다. 예를 들어, 타이피스트가 다음과 같은 문장, 즉, "I will visit the University of California at Los Angeles tomorrow"를 미리 타이핑했었던 경우, 대응하는 두문자어 수열 "iwvtuocalat"가 자동적으로 기억된다. 타이피스트는 "ucla" 또는 "uocla"를 타이핑함으로써 대응하는 두문자어 수열이 "uocala"인 문구 "University of California at Los Angeles"를 검색할 수 있다. 단, 상기 네번째 후보생성방법이 전술한 방법들과 상이한 점은, 문구 사전이 문구 "University of California at Los Angeles"를 저장하기 위해서 구비된 것도 아니고 또한 기억하기 위하여 타이피스트용의 "ucla" 등과 같은 검색 키(retrieval key)도 아니라는 점이다. 타이피스트는 특정 사용자 프로파일에 기억되거나 전에 타이핑된 텍스트용의 임의의 합법적인 문자어 부분 수열에 의거해서 문구 혹은 문장을 검색하는 총 자유도를 지닌다.

네번째 후보생성방법은 다음과 같이 도 5에 예시되어 있다.

스텝 402: 워드 수열을 저장한다.

스텝 404: 상기 워드 수열 내의 대응하는 워드의 순서로 배열된 워드 수열 중의 1개의 워드 중의 첫번째 문자와 그 후속의 워드의 첫번째 문자를 포함하는 두문자어 부분 수열을 이용해서 상기 워드 수열의 워드 부분 수열을 검색한다.

사용자 인터페이스는 상기 방법을 구현하기 위하여, 그리고, 1개 이상의 워드 수열로부터 1개 보다 많은 두문자어 부분 수열이 단일의 두문자어 부분 수열을 이용해서 검색되는 경우 검색된 두문자어 부분 수열의 가능한 리스트를 생성하여 해당 리스트로부터의 선택을 허용하기 위하여 설계되어 있다. 상기 선택은 또한 통계 데이터 혹은 관련된 확률에 따라 가장 유망한 워드 부분 수열 또는 가장 유망한 워드 수열을 선택하는 자동 선택 방식으로 실현될 수도 있다.

발음 구별 부호를 지닌 문자의 타이핑을 증강하기 위하여 본 발명의 다섯번째 후보생성방법이 이용된다. 상기 방법에 의하면, 예컨대 "

" 및 "

"와 같은 발음 구별 부호를 지닌 문자는 예컨대 "O" 및 "U"와 같은 "부호가 없는" 유사한 문자로 교체될 수 있다. 이러한 부호가 없는 문자는 자동적으로 변환될 수 있다. 따라서, 이러한 부호를 지닌 문자를 포함하는 대부분의 알파벳 언어에 대해서 특별히 설계된 키보드를 이용할 필요는 없다.

본 발명의 다섯번째 후보생성방법은 도 6에 예시되어 있고, 그 상세는 다음과 같다.

스텝 502: 워드 사전을 제공한다.

스텝 504: 상기 워드 사전에 저장되어 있으면서 복수개의 가능한 발음 구별 부호와 관련된 어의 워드 조합을 참조(referring)함으로써 입력 워드 내의 문자의 가능한 발음 구별 부호에 따라 적어도 1개의 후보 워드를 생성한다.

스텝 506: 상기 적어도 1개의 후보 워드로부터 1개의 후보 워드를 채택한다.

스텝 502에서는, 문자가 소정의 상황 하에 발음 구별 부호를 지닐 수 있는 한편, 다른 상황 하에서는 그러한 발음 구별 부호를 지니지 않을 수도 있기 때문에, 발음 구별 부호를 지닌 문자에 대해서 어의 워드 조합과 관련된 후보 워드를 저장하기 위하여 워드 사전이 제공된다. 타이피스트가 입력 워드를 타이핑할 경우, 복수개의 가능한 후보 워드가 상기 입력 워드 및 발음 구별 부호와 관련된 가능한 어의 워드 조합에 따라 탐색된다. 마지막으로, 타이피스트는 탐색된 복수개의 후보 워드로부터 1개의 후보 워드를 채택할 수 있거나, 또는 가장 유망한 후보 워드가 관련된 빈도 혹은 확률에 따라 자동적으로 채택된다. 잘 설계된 사용자 인터페이스는, 또한 상기 가능한 후보 워드를 리스트화함으로써 적절한 후보 워드를 선택하도록 타이피스트를 돕기 위하여, 혹은, 하나의 가장 유망한 후보 워드를 자동적으로 선택하기 위하여 다섯번째 후보생성방법을 구현하는 데 이용될 수도 있다.

본 발명에 있어서는, 부정확한 철자, 타이핑 에러, 알려져 있지 않은 철자, 및 발음 구별 부호를 지닌 문자에 의해 초래되는 타이핑 부담을 경감하기 위하여, 또한 몇몇 간단화된 기술에 의해 타이피스트의 타이핑 효율을 증강시키기 위하여, 수개의 후보생성방법이 제공된다. 본 발명의 방법은 타이피스트가 타이핑한 문장 혹은 문구 중의 워드의 문맥에 의거한 후보 워드 선택, 또는 사용자 프로파일을 통해 타이피스트가 타이핑한 문맥 내에서의 자기-학습(self-learning) 등과 같은 몇몇 개념을 이용한다. 게다가, 몇몇 특정 규제에 의해, 가능한 후보 워드는 자동 선택 방식으로 더욱 잘 예측하기 위하여 상당히 감소될 수도 있다.

많은 아시아의 언어는 만다린 핀인 입력(Mandarin Pinyin Input), 캉지 입력(Cangjie Input) 또는 일본어의 칸지 입력(Japanese Kanji Input) 등과 같은 알파벳에 기초한 타이핑 방법을 채용한다. 이들 방법에 있어서, 일련의 알파벳은 후보 아시아 문자의 모음집을 검색하는 코드를 형성한다. 따라서, 아시아의 문자를 워드로서 간주함으로써, 본 발명의 모든 후보생성방법을 아시아의 언어에 대해서도 이용할 수 있다.

당업자라면 본 발명의 교시를 유지하면서 장치 및 방법의 많은 수정과 변경이 행해질 수 있다는 것을 용이하게 알 수 있을 것이다. 따라서, 위에 개시된 내용은 첨부된 청구범위의 한계에 의해서만 제한되는 것으로 파악될 필요가 있다.

Claims

타이핑 효율을 증강시키기 위한 타이핑 후보생성방법에 있어서,

워드 사전을 제공하는 단계;

소정의 통계 데이터에 따라 사용자가 타이핑한 문장의 어의 특성을 정합시키기 위하여 상기 워드 사전으로부터 적어도 1개의 후보 워드를 생성하여 상기 사용자가 타이핑한 문장 중 선택된 워드를 적응시키는 자동 선택 방식을 수행하는 단계; 및

상기 선택된 워드를 상기 적어도 1개의 후보 워드로 교체하는 단계를 포함하는 타이핑 후보생성방법.
제1항에 있어서,

상기 워드 사전 내의 복수개의 후보 워드의 각각과 상기 사용자가 타이핑한 문장 중 선택된 워드 간의 편집 거리를 계산하는 단계; 및

상기 계산된 편집 거리가 모두 0보다 큰 경우에는, 상기 복수개의 후보 워드로부터 최단 편집 거리를 가진 후보 워드를 채택하여, 상기 선택된 워드를 해당 채택된 후보 워드로 교체하는 단계를 포함하고;

상기 선택된 워드와 대응하는 후보 워드 간의 편집 거리는 문자의 삽입, 삭제 및 치환을 포함하는 조작에 의해 상기 선택된 워드를 해당 대응하는 후보 워드로 변형시키는 단계들의 최소한의 수인 것인 타이핑 후보생성방법.
제1항에 있어서, 상기 워드 사전은 시스템 사전, 도메인 사전 혹은 사용자 사전인 것인 타이핑 후보생성방법.
제1항에 있어서, 복수개의 관련된 워드를 지닌 다수의 문장 및 해당 다수의 문장 중의 워드에 의해 소정의 통계 데이터를 확립하기 위하여 상기 다수의 문장으로 워드 사전을 길들여(training) 시험하는 단계를 추가로 포함하되, 상기 소정의 통계 데이터는 상기 다수의 문장의 어의 특성과 연관되는 것인 타이핑 후보생성방법.
제1항에 있어서, 상기 자동 선택 방식은 N-그램 모델 방법(N-gram model method) 또는 언어학적 템플리트-정합 시스템(linguistic template-matching system)에 따라 이용되는 것인 타이핑 후보생성방법.
제3항에 있어서,

사용자가 타이핑한 문서를 컴파일링(compiling)함으로써 상기 복수개의 후보 워드를 리스트화하는 단계; 및

상기 사용자가 타이핑한 문서의 통계학적 속성을 결정하는 단계를 추가로 포함하는 타이핑 후보생성방법.
제6항에 있어서, 상기 통계학적 속성은 상기 사용자가 타이핑한 문서로부터 선택될 후보 워드의 확률 혹은 특정 워드 조합이 상기 사용자가 타이핑한 문서에서 나타날 확률인 것인 타이핑 후보생성방법.
제6항에 있어서, 상기 사용자가 타이핑한 문서에 따라 타이핑 에러를 기록하는 것인 타이핑 후보생성방법.
제8항에 있어서, 상기 타이핑 에러는 철자가 틀린(misspelled) 문구, 철자가 틀린 문장, 문자-삽입 에러, 문자-삭제 에러 및 문자-순서변경(permuting) 에러로 이루어진 군으로부터 선택된 것인 타이핑 후보생성방법.
제3항에 있어서, 상기 자동 선택 방식에 의해 생성된 후보 워드의 리스트로부터 후보 워드를 선택하도록 사용자에게 사용자 인터페이스를 제공하는 단계를 추가로 포함하는 타이핑 후보생성방법.
타이핑 효율을 증강시키기 위한 타이핑 후보생성방법에 있어서,

(a) 표음 워드 사전을 제공하는 단계;

(b) 입력 워드를 복수개의 표음 음절 수열(phonetic syllable sequence)로 분할하는 단계;

(c) 상기 표음 워드 사전의 복수개의 유사도 행렬에 따라 상기 복수개의 표 음 음절 수열의 각각에 대해서 적어도 1개의 후보 워드를 포함하는 복수개의 후보 워드를 생성하는 단계; 및

(d) 상기 복수개의 후보 워드부터 하나의 후보 워드를 채택하여, 상기 입력 워드를 해당 채택된 후보 워드로 교체하는 단계를 포함하되,

상기 복수개의 표음 음절 수열은 각각 복수개의 표음 음절을 지니며,

상기 채택된 후보 워드는 해당 입력 워드를 교체하는 0보다 큰 최소의 총 치환 대가(total substitution cost)를 가지는 것인 타이핑 후보생성방법.
제11항에 있어서, 상기 (a) 단계 및 (c) 단계는

상기 표음 워드 사전 내에 복수개의 표음 음절을 저장하는 단계; 및

상기 저장된 복수개의 표음 음절의 각각 간의 복수개의 유사도 거리를 계산하는 단계를 추가로 포함하고;

상기 유사도 거리는 표음 워드 사전 내의 첫번째 저장된 표음 음절과 두번째 저장된 표음 음절 간의 유사도와, 상기 첫번째 저장된 표음 음절의 몇몇 문자를 치환, 삽입, 삭제 및 순서 변경함으로써 상기 두번째 저장된 표음 음절을 상기 첫번째 저장된 표음 음절로 치환하는 치환 대가에 따라 계산되는 것인 타이핑 후보생성방법.
제12항에 있어서, 상기 복수개의 유사도 거리는 모두 0 이상이거나, 모두 0 이하인 것인 타이핑 후보생성방법.
제12항에 있어서, 유사도 행렬은 후보 워드와 표음 음절 수열에 대해서 생성된 2차원 행렬이고; 상기 후보 워드의 복수개의 표음 음절은 상기 유사도 행렬의 첫번째 차원에 기인하며, 상기 표음 음절 수열의 복수개의 표음 음절은 상기 유사도 행렬의 두번째 차원에 기인하고; 상기 유사도 행렬의 요소는 상기 후보 워드의 복수개의 표음 음절의 각각과 상기 표음 음절 수열의 복수개의 표음 음절의 각각 간의 유사도 거리인 것인 타이핑 후보생성방법.
제14항에 있어서, 상기 입력 워드를 상기 후보 워드로 교체하는 총 치환 대가는 상기 표음 음절 수열 및 상기 입력 워드와 관련된 유사도 행렬의 행렬식(determinant)을 계산함으로써 결정되는 것인 타이핑 후보생성방법.
제14항에 있어서, 상기 입력 워드를 후보 워드로 교체하는 총 치환 대가는 상기 입력 워드 및 표음 음절 수열과 관련된 유사도 행렬에 있어서 관련된 유사도 거리를 가산함으로써 결정되는 것인 타이핑 후보생성방법.
제11항에 있어서, 상기 입력 워드는 표음 철자에 따라 입력되는 것인 타이핑 후보생성방법.
제14항에 있어서, 사용자 인터페이스를 제공하는 단계를 추가로 포함하되;

상기 사용자 인터페이스는 상기 (a), (b), (c) 및 (d) 단계를 수행하는 데 이용되는 것인 타이핑 후보생성방법.
제14항에 있어서, 상기 (b), (c) 및 (d) 단계를 자동 선택 방식으로 수행하는 단계를 추가로 포함하는 타이핑 후보생성방법.
워드 사전을 제공하는 단계;

적어도 1개의 후보 워드가 존재하는 지의 여부를 결정하는 단계; 및

적어도 1개의 후보 워드가 존재하는 것으로 결정된 경우 입력 워드를 교체하기 위한 상기 적어도 1개의 후보 워드를 선택하는 단계를 포함하되,

상기 적어도 1개의 후보 워드는 해당 적어도 1개의 후보 워드 내의 어디에서도 발견되면서 해당 적어도 1개의 후보 워드의 부분 수열로서 상기 입력 워드를 포함하는 워드 사전 중의 워드인 것인 타이핑 후보생성방법.
제20항에 있어서, 상기 워드 사전은 URL 혹은 전자메일(e-mail) 주소, 또는 URL과 전자메일 주소의 양쪽 모두를 포함하는 것인 타이핑 후보생성방법.
제20항에 있어서, 복수개의 상기 적어도 1개의 후보 워드가 존재하는 것으로 결정된 경우 후보 워드의 리스트를 생성하는 단계 및 상기 입력 워드를 교체하기 위한 상기 적어도 1개의 후보 워드를 상기 리스트로부터 선택하는 단계를 추가로 포함하는 타이핑 후보생성방법.
제22항에 있어서, 상기 리스트로부터 선택하기 위하여 사용자 인터페이스를 이용하는 것인 타이핑 후보생성방법.
제22항에 있어서, 상기 리스트로부터 선택하는 단계는 자동 선택 방식으로 수행되는 것인 타이핑 후보생성방법.
타이핑 효율을 증강시키기 위한 타이핑 후보생성방법에 있어서,

워드 수열을 저장하는 단계; 및

상기 워드 수열 내의 대응하는 워드의 순서로 배열된 워드 수열 중의 1개의 워드 중의 첫번째 문자와 그 후속의 워드의 첫번째 문자를 포함하는 두문자어 부분 수열(acronym subsequence)을 이용해서 상기 워드 수열의 워드 부분 수열을 검색(retrieve)하는 단계를 포함하되;

상기 워드 부분 수열은 상기 워드 수열 내의 대응하는 워드의 순서로 배열된 상기 1개의 워드, 그 후속의 워드, 그리고 상기 1개의 워드와 그 후속의 워드 사이에 있는 모든 중개 워드(intervening word)를 포함하는 것인 타이핑 후보생성방법.
제25항에 있어서, 상기 두문자어 부분 수열은 상기 중개 워드 중 적어도 하나의 첫번째 문자를 더 포함하고, 상기 두문자어 부분 수열의 모든 문자는 상기 워 드 수열 내의 대응하는 워드의 순서로 배열되어 있는 것인 타이핑 후보생성방법.
제25항에 있어서, 1개 이상의 워드 수열로부터 1개보다 많은 워드 부분 수열이 단일의 두문자어 부분 수열을 이용해서 검색된 경우, 해당 검색된 워드 부분 수열의 리스트를 생성하여, 사용자 인터페이스를 이용해서 상기 리스트로부터의 선택을 허용하도록 하는 단계를 추가로 포함하는 타이핑 후보생성방법.
제25항에 있어서, 상기 워드 수열에 대응하는 두문자어 수열을 생성하는 단계를 추가로 포함하되, 상기 두문자어 수열은 상기 워드 수열 내의 대응하는 워드의 순서로 배열된 워드 수열 내의 각각의 워드의 첫번째 문자를 포함하는 것인 타이핑 후보생성방법.
제27항에 있어서, 상기 검색된 워드 부분 수열의 리스트를 생성하여, 상기 리스트로부터 선택을 허용하도록 하는 단계는 자동 선택 방식으로 상기 리스트를 생성하는 단계를 포함하는 것인 타이핑 후보생성방법.
타이핑 효율을 증강시키기 위한 타이핑 후보생성방법에 있어서,

(a) 워드 사전을 제공하는 단계;

(b) 입력 워드 중의 문자의 가능한 발음 구별 부호(diacritical mark)에 따라 적어도 1개의 후보 워드를 생성하는 단계; 및

(c) 상기 적어도 1개의 후보 워드로부터 후보 워드를 채택하는 단계를 포함하되,

워드를 형성하기 위한 문자의 복수개의 가능한 발음 구별 부호가 상기 워드 사전에 저장되어 있는 것인 타이핑 후보생성방법.
제30항에 있어서, 상기 (b) 단계는 상기 워드 사전에 저장되어 있으면서 복수개의 가능한 발음 구별 부호와 관련된 어의 워드 조합을 참조하는(referring) 단계를 추가로 포함하는 것인 타이핑 후보생성방법.
제30항에 있어서, 사용자 인터페이스를 제공하는 단계를 추가로 포함하되, 상기 사용자 인터페이스는 상기 (a) 단계 및 (b) 단계를 수행하는 데 이용되는 것인 타이핑 후보생성방법.
제30항에 있어서, 상기 (b) 단계 및 (c) 단계를 자동 선택 방식으로 수행하는 단계를 추가로 포함하는 타이핑 후보생성방법.