KR20090084818A

KR20090084818A - 컴퓨터 시스템에 의해 구현가능한 방법, 컴퓨팅 시스템에 의해 실행가능한 명령어들을 포함하는 매체 및 컴퓨팅 시스템

Info

Publication number: KR20090084818A
Application number: KR1020097007736A
Authority: KR
Inventors: 지안펭 가오; 윌리엄 비. 돌란; 시아오유엔 혼; 밍 조우
Original assignee: 마이크로소프트 코포레이션
Priority date: 2006-12-05
Filing date: 2007-12-05
Publication date: 2009-08-05
Also published as: JP2010511966A; CA2665600A1; EP2102761A1; RU2458391C2; US7774193B2; RU2009121432A; NO20092498L; CN101568918A; CN101568918B; IL198054A0; EP2102761A4; BRPI0719257A2; US20080133444A1; JP4960461B2; KR101279759B1; AU2007329362A1; MX2009004891A; WO2008070750A1; TW200846939A

Abstract

웹을 비롯한 로컬 및 네트워크-기반 코퍼스를 사용하여 연어 오류(collocation error)가 자동으로 교정될 수 있다. 예를 들어, 한 예시적인 방법에 따르면, 텍스트 샘플로부터의 하나 이상의 연어가 웹의 컨텐츠 등의 코퍼스와 비교된다. 연어가 코퍼스에서 적절치 않은지(disfavored) 여부가 확인된다. 연어가 코퍼스에서 적절치 않은지 여부의 표시가 출력 장치를 통해 제공된다. 이어서, 적절할 것 같은 단어 연어(word collocation)를 검색하여 사용자 출력을 통해 제공하는 등의 부가적인 조치들이 취해질 수 있다.

연어, 코퍼스, 번역, 교정, 파싱, 질의어, 검색

Description

컴퓨터 시스템에 의해 구현가능한 방법, 컴퓨팅 시스템에 의해 실행가능한 명령어들을 포함하는 매체 및 컴퓨팅 시스템{WEB-BASED COLLOCATION ERROR PROOFING}

2개의 서로 다른 언어 간의 번역은 개개의 단어들의 의미가 사용 문맥에 의해 더욱 제약되는 경우에 종종 어려움을 수반한다. 사람들이 자신의 모국어가 아닌 제2 언어를 배울 때, 통상적으로 제대로 번역된 것처럼 보이지만 원어민들 간의 통상적인 사용에서 어떤 그룹, 즉 연어에서는 실제로 사용되지 않는 많은 단어 선택들이 있다. 이러한 연어가 추상적 의미에서는 구문적으로 또는 문법적으로 정확할지 모르지만, 정상적인 어법을 벗어나 있으며 종종 본능적으로 원어민에게는 이상하거나 어색하게 보인다. 언어에서의 단어들의 조합은 하나의 어휘 항목(lexical item)을 형성하는 집합 패턴을 따르는 경우가 많으며, 따라서 어휘 항목이 그 언어에서 대안의 어법을 허용하지 않는 것으로서 원어민에 의해 명확히 사전 인식되어 있든 그렇지 않든 간에, 유사한 의미를 갖고 유사한 문법적 관계로 정렬되어 있는 단어들의 그룹조차도 원어민의 언어 사용 내에서 어떤 어휘 항목에도 속하지 않을 수 있다.

예를 들어, 제2 언어로 영어를 배우는 사람이 자신의 모국어에서의 하나의 단어의 2가지 대안의 번역으로서 "strong" 및 "powerful"을 발견하고 다른 단어의 2가지 대안의 번역으로서 "to make" 및 "to do"를 발견할지도 모른다. 이 배우는 사람은, 영어 사용 경험이 그다지 많지 않은 경우, "I had a cup of strong tea"보다는 "I had a cup of powerful tea"라고 쓰거나 "I made a plan"보다는 "I did a plan"라고 쓸지도 모른다. 자신의 모국어가 아닌 임의의 다른 언어를 배우고 있는 임의의 언어의 원어민에게 이와 유사한 연어 오류가 통상적일 수 있다. 이러한 단어들의 연어 오류는 통상적으로 그 언어에서의 장기간의 문맥 경험 및 대화 실습이 있은 후에만 회피되며, 통상적으로 사전이나 임의의 다른 유형의 빠르고 쉽게 액세스가능한 언어 참고서를 사용하여 해결될 수 없다.

이상의 설명은 단지 전반적인 배경 정보를 위해 제공된 것에 불과하며 청구된 발명 대상의 범위를 정하는 데 보조 수단으로 사용되기 위한 것이 아니다.

방법, 컴퓨팅 시스템, 및 컴퓨팅 시스템에 대한 실행가능 명령어를 인코딩하는 소프트웨어를 포함하는 각종의 실시예들에서, 웹 등의 로컬 및 네트워크-기반 코퍼스를 사용하여 연어 오류(collocation error)가 자동으로 교정될 수 있다. 예를 들어, 한 예시적인 방법에 따르면, 텍스트 샘플로부터의 하나 이상의 연어가 웹의 컨텐츠 등의 코퍼스와 비교된다. 연어가 코퍼스에서 적절치 않은지(disfavored) 여부를 알아보기 위해 연어가 확인된다. 연어가 코퍼스에서 적절치 않은지 여부의 표시가 출력 장치를 통해 제공된다. 이어서, 적절할 것 같은 단어 연어(word collocation)를 검색하여 사용자 출력을 통해 제공하는 등의 부가적인 조치들이 취해질 수 있다.

이 요약은 이하에서 상세한 설명에 더 기술되는 일련의 개념들을 간략화된 형태로 소개하기 위해 제공된 것이다. 이 요약은 청구된 발명 대상의 주요 특징들 또는 필수적인 특징들을 확인하기 위한 것이 아니며, 청구된 발명 대상의 범위를 정하는 데 보조 수단으로 사용되기 위한 것도 아니다. 청구된 발명 대상은 배경 기술에서 언급된 단점들 중 임의의 것 또는 그 모두를 해결하는 구현예로 제한되지 않는다.

도 1은 예시적인 실시예에 따른 방법을 구현하는 컴퓨팅 시스템의 사용자 인터페이스를 나타낸 도면.

도 2는 예시적인 실시예에 따른 방법의 플로우차트.

도 3은 예시적인 실시예에 따른 방법의 플로우차트.

도 4는 예시적인 실시예에 따른 방법을 구현하는 컴퓨팅 시스템의 사용자 인터페이스를 나타낸 도면.

도 5는 어떤 실시예들이 실시될 수 있는 컴퓨팅 환경의 블록도.

도 6은 어떤 실시예들이 실시될 수 있는 다른 컴퓨팅 환경의 블록도.

도 1은 예시적인 실시예에 따른, 연어 오류 교정(collocation error proofing) 방법을 구현하는 컴퓨팅 시스템의 연어 오류 교정 인터페이스(10)를 나타낸 것이다. 연어 오류 교정 인터페이스(10)는, 예를 들어, 컴퓨팅 시스템, 컴퓨터 시스템에 의해 실행가능하도록 구성된 실행가능 명령어, 및 방법 실시예를 구현 하는 컨텍스트(context)를 포함하는 실시예들을 설명하는 데 도움이 될 수 있다. 이하의 설명은 다양한 예시적인 실시예들의 추가적인 상세를 제공한다. 어떤 예시적인 구성 및 표시(label), 그리고 컴퓨터-구현 방법에 의해 비교되는 텍스트 샘플들이 동 도면 및 후속 도면들에 포함되어 있지만, 이들은 예시적인 것이며 본 명세서에서의 설명 및 청구항들에서 제공되는 변형례 및 광의의 의미를 나타내기 위한 것이다.

연어 오류 교정 인터페이스(10)는 소프트웨어 애플리케이션과 연관된 그래픽 디스플레이 패널을 구성하며, 도 1의 예시적인 실시예에서, 이 그래픽 디스플레이 패널은 컴퓨터 모니터 등의 출력 장치 상의 그래픽 사용자 인터페이스에서 동시에 열려 있을 수 있는 다수의 그래픽 디스플레이 패널 중 하나이다. ESL(English as a second language) 학습자가 입력하는 텍스트 샘플을 교정하는 것에 관한 한 예시적인 실시예와 관련하여, 연어 오류 교정 인터페이스(10)는 제목 표시줄(12)에 "ESL 교정(ESL Proofing)"으로 표시되어 있다. ESL은 연어 오류 교정의 한 예시적인 실시예에 대한 이상적인 응용을 제공하는데, 그 이유는 틀린 연어가 중급 ESL 학생의 오류의 대부분을 차지하고 있다는 것이 밝혀졌기 때문이다.

ESL 교정 응용의 예시적인 실시예가 이하의 설명에서 반복적으로 참조되고 있지만, 이것이 단지 예시적인 것으로서 광범위한 다른 실시예들에 적용될 수 있는 광의의 원리들을 나타낸 것임을 잘 알 것이다. 예를 들어, 도 1에 도시된 연어 오류 교정 인터페이스(10) 없이 동작할 수 있는 다른 실시예들이 이하에서 설명되지만, 또다른 실시예들이 임의의 다른 언어를 제2 언어로서 학습하는 자에 관한 것일 수 있고, 다른 실시예들은, 예를 들어, 아이들이 자신의 모국어를 익히기 위해 학습하는 것에 더 관한 것일 수도 있다.

연어 오류 교정 인터페이스(10)는 2개의 서로 다른 작업 모드에 대응하는 2개의 탭을 상단에 포함하고 있으며, 탭(11)은 "ESL 문장 로드"(Load ESL Sentences)(다시 말하지만, 특정의 ESL-관련 실시예에 관한 것임)라고 표시되어 있고 탭(13)은 "질의 실행"(Run Queries)이라고 표시되어 있다. 도 1은 "ESL 문장 로드" 탭(11)이 선택되어 있는 사용자 인터페이스(10)를 나타낸 것으로서, 그 탭과 연관된 버튼, 캡션, 텍스트 박스 및 기타 사용자 인터페이스 요소(즉 "위젯")이 표시되어 있다. 도 4는 "질의 실행" 탭(13)이 선택되어 있는 연어 오류 교정 인터페이스(10)를 나타낸 것으로서, 그 작업과 연관된 사용자 인터페이스 요소들이 표시되어 있으며, 이에 대한 설명은 나중에 할 것이다.

"ESL 문장 로드" 탭(11) 아래의 사용자 인터페이스 패널은 각종의 대화형 입/출력 사용자 인터페이스 요소들을 포함하고 있으며, 이들에 대해서는 이하에서 차례로 설명한다. 이들은 일반적으로 "문장 분석"(Analyze Sentences)이라는 타이틀 캡션을 갖는 상부 부분과 "연어 분석"(Analyze Collocations)이라는 타이틀 캡션을 갖는 하부 부분으로 나누어져 있다.

"문장 분석" 부분의 상부를 따라 일렬의 인터페이스 요소들, 즉 "파싱된 파일로부터 로드"(Load From Parsed Files) 버튼(15), "원시 파일로부터 로드"(Load From Raw Files) 버튼(17), 도면에서 현재 "V-N 연어"(V-N Collocation)(이하에서 설명함)라고 되어 있는 콤보 박스(19) 앞에 있는 "연어 유형"(Collocation Type)이 라고 하는 캡션, 및 "연어 추출"(Extract Collocations) 버튼(21)이 있다. 이들 위젯 아래에는 좌우 및 상하 스크롤바(22, 24)를 갖는 텍스트 박스(23) 및 "원래 문장"(Original Sentence)이라고 되어 있는 타이틀 바(20)가 있다. 그 아래에는 "파싱된 문장"(Parsed Sentence)이라는 캡션을 갖는 텍스트 박스(25)가 있다. 일반적으로, 이들 인터페이스 요소는 텍스트 샘플로부터 문장을 로드하고 오류 교정을 위해 이들 문장을 네트워크 상에서 이용가능한 컨텐츠에서의 연어와 비교할 준비를 하는 사용자 기능을 가능하게 해준다.

텍스트 박스(23)는 ESL 학습자가 작성한 문서 등의 텍스트 샘플로부터의 다수의 샘플 문장을 포함하고 있다. 텍스트 박스(23) 상의 상하 스크롤바(24)의 홈(trough)에 축소된 크기의 스크롤 썸(scroll thumb)(26)으로 나타낸 바와 같이, 현재 표시되어 있는 문장들은 현재 텍스트 박스에 로드되어 있는 전체 문장 목록 중 작은 부분이며, 사용자는 스크롤 썸(26)을 이동시킴으로써 이들 문장에 액세스할 수 있다. 텍스트 박스(23)에 표시되어 있는 문장들은 중급 ESL 학생이 저지를 수 있는 통상적인 실수(즉, "I did a plan", "I have recognized this person for years", 및 "I had a cup of powerful tea")를 나타낸 것이다.

이들 문장은 다른 애플리케이션에서 열려 있는 문서로부터 수동으로 로드된 것이거나, 사용자가 "파싱된 파일로부터 로드" 버튼(15) 또는 "원시 파일로부터 로드" 버튼(17)을 선택함으로써 이 프로세스를 시작한 후에 ESL-유형 오류를 갖는 것으로 자동으로 선택되어 다른 문서 또는 다수의 문서로부터 가져오기된 것일 수 있다. 다른 실시예에서, 워드 프로세싱 애플리케이션 등의 다른 애플리케이션은 워 드 프로세싱 프로그램에서 입력되고 있는 텍스트에서 ESL-유형 오류가 검출될 때 연어 오류 교정 인터페이스(10)의 사용을 추천하는 패널을 자동으로 나타나게 할 수 있는 ESL 교정 트리거(ESL proofing trigger)(기본적으로 활성화되어 있을 수 있음)를 가질 수 있다.

버튼(15, 17)에 의해 암시되는 바와 같이, 텍스트 샘플들은 애플리케이션이 받을 때 이미 파싱되어 있거나 파싱되어 있지 않을 수 있다. 텍스트 샘플은, 아직 파싱되지 않은 경우, 예를 들어, 로드 후 부가의 조치들이 취해지기 전에 파싱될 수 있다. 파싱된 문장은 텍스트 박스(25)에 나타내어져 있다. 상세하게는, 이것은 텍스트 박스(23)에 나타낸 두번째 문장을 파싱한 것으로서, 이 문장은, 예를 들어, 마우스로 좌측 클릭하거나 광 펜(light pen)으로 태핑하거나 또는 어떤 다른 사용자 입력 메카니즘 등에 의해 사용자가 선택하였음을 나타내기 위해 그 주위에 국소 하이라이트를 갖는다.

파싱은 자연어 처리 및 자연어 이해에서의 활발한 개발 분야이다. 파싱은, 예를 들어, 품사 태깅(part-of-speech tagging), 청킹(chunking), 및 의미 라벨링(semantic labeling) 등의 작업을 포함할 수 있다. 도 1에 도시된 실시예에서, 텍스트 박스(25) 내의 문장은 품사 태깅되고 청킹되어 있다. 다른 실시예들은 단어 분리(word segmentation) 등의 어떤 비서양 언어에 통상적으로 더 관련되어 있는 몇몇 작업을 포함하는 파싱 작업들의 다른 조합을 포함할 수 있다.

텍스트 박스(25) 내의 파싱된 문장에서, 원래의 문장에서의 각각의 단어는 바로 뒤에 사선(solidus)(즉, "슬래쉬(forward slash)")이 오며, 이 사선은 단어를 그 단어에 할당된 2 또는 3 문자의 품사 태그와 분리시킨다. 품사 태그의 몇몇 예시적인 옵션들이 이하에 열거되어 있다. 문장의 끝에 있는 마침표도 역시 그를 다른 마침표와 분리시키는 그 자신의 사선이 따라오며, 이 마침표는 구두점의 기능을 나타내기 위해 품사 태그와 동등한 태그로서 역할한다. 하나 또는 2개(또는, 다른 예에서는 더 많음)로 이루어진 그룹들로 되어 있는 문장의 단어들은 또한 청크 경계에 대응하는 각괄호(bracket)로 둘러싸여 있으며, 2-문자 청크 유형 라벨이 각각의 각괄호로 둘러싸인 집합 내부의 처음에 있다. 이 문장에 표현된 품사 태그로는 인칭 대명사에 대한 "PRP", 3인칭 단수 이외의 현재시제 동사에 대한 "VBP", 과거분사 동사에 대한 "VBN", 한정사에 대한 "DT", 단수 또는 대체 보통 명사에 대한 "NN", 전치사 또는 종속 접속사에 대한 "IN", 및 복수 보통 명사에 대한 "NNS"가 있다. 예시적인 일 실시예에 따른 예시적인 품사 태그 목록이 이하에 제공되어 있지만, 다른 실시예들에서는 다른 정의를 가지며 더 세분되어 있거나 덜 세분되어 있는 다른 품사 태그 방식이 사용될 수 있다. 이 예시적인 실시예에서, 몇몇 태그들이 영어로 된 예와 함께 나타내어져 있다.

표 1: 예시적인 품사 태그 목록

1. CC - 등위 접속사 (예를 들어, "and", "but", "nor", "or", "yet", "plus", "minus", "times", "over" (나누기에서와 같음) )

2. CD - 기수

3. DT - 한정사 (관사 및 부정 한정사(indefinite determiner), 예를 들어, "a", "an", "every", "no" (관사), "the"와, 예를 들어, "another", "any", "some", "each", "either", "neither", "that", "these", "this", "those", "all"의 일부 용법, "they"를 포함함)

4. EX - 존재의 "there"

5. FW - 외래어

6. IN - 전치사 또는 종속 접속사

7. JJ - 형용사

8. JJR - 비교급 형용사

9. JJS - 최상급 형용사

10. LS - 글머리표

11. MD - 조동사 (예를 들어, "can", "could", "may", "might", "must", "shall", "should", "will", "would")

12. NN - 단수 또는 대체 보통 명사

13. NNS - 복수 보통 명사

14. NNP - 단수 고유 명사

15. NNPS - 복수 고유 명사

16. PDT - 전한정사

17. POS - 소유격 어미

18. PRP - 인칭 대명사

19. PRP$ - 소유 대명사 (예를 들어, "'s", "s'", "'")

20. RB - 부사

21. RBR - 비교급 부사

22. RBS - 최상급 부사

23. RP - 불변화사(particle)

24. SYM - 심볼

25. TO - "To"

26. UH - 감탄사

27. VB - 원형 동사

28. VBD - 과거시제 동사

29. VBG - 동명사 또는 현재분사 동사

30. VBN - 과거분사 동사

31. VBP - 3인칭 단수 이외의 현재시제 동사

32. VBZ - 3인칭 단수 현재시제 동사

33. WDT - Wh-한정사

34. WP - Wh-대명사

35. WP$ - 소유 wh-대명사 ("whose")

36. WRB - Wh-부사

동 도면에서, 텍스트 박스(25)에 파싱된 문장으로 표현되어 있는 파싱된 텍스트 샘플은 또한 청킹되어 있으며, 여기서 한 쌍의 각괄호가 각각의 정의된 청크를 둘러싸고 있으며, 청크 유형은 각각의 각괄호로 둘러싸인 집합의 내용의 처음에 있는 라벨로 나타내어져 있다. 청킹은 피상적이고 국소적인 정보에 기초하여 수행 될 수 있는 비교적 다루기 쉬운 파싱 작업이다. 청킹은 각각의 청크가 하나의 주된 중심어(major head word)를 그와 연관된 단어들과 함께 포함하도록 문장을 비중첩 세그먼트들로 분할하는 것을 포함한다. 따라서, 청킹은 문장을 구(phrase)로 분할하는 것으로 생각될 수 있지만, 구체적으로는 이 예시적인 실시예에서, 구의 중복을 방지하기 위해, 정의될 수 있는 가장 작은 구 단위(phrasal unit)로 분할하는 것으로 생각될 수 있다. 청킹에 의해 텍스트의 구문 구조 및 구와 구 간의 관계 또는 의존성이 식별가능하게 될 수 있다. 예를 들어, 하나의 명사구는 동사구의 주어일 수 있고, 또하나의 명사구는 동사구의 목적어일 수 있다.

도 1에서의 예시적인 청크는 이것의 양호한 예를 제공한다. 첫번째 청크는 명사구에 대한 NP로 표시되어 있고, 문장의 주어인 하나의 주된 중심어 "I"에 기초하고 있다. 두번째 청크는 동사구에 대한 VP로 표시되어 있으며 "have" 및 "recognized"를 포함하고, 2개의 개개의 동사가 함께 하여 동사 "to recognize"의 과거분사 형태의 통합된 개념을 형성한다. 세번째 청크는 중심어 "person"를 연관된 보조 단어와 함께 포함하는 또하나의 NP, 즉 명사구이며, 문장의 목적어로서 "this person"의 단일 개념을 형성하고 있다. 전치사구에 대한 PP로 표시된 네번째 청크 및 또하나의 명사구에 대한 NP로 표시된 다섯번째 청크는 각각 하나의 단어를 포함하고 있다. 마침표는, 마침표로 태깅되어 있지만, 청크로부터 빠져 있다.

연어 오류 교정 인터페이스(10)와 연관되어 있거나 그에 의해 사용되는 파싱 시스템은, 자연어 처리 분야의 당업자라면 잘 아는 것과 같은 방식으로, 정확하고 신뢰성있게 품사 태깅 및 청킹을 자동으로 수행하도록 훈련될 수 있다.

"ESL 문장 로드" 탭(11) 아래에 있는 사용자 인터페이스 패널의 하부 부분("연어 분석"이라는 타이틀 캡션을 가짐)은 일련의 텍스트 박스(27, 29, 31, 33)를 포함하며, 각각의 텍스트 박스는 제목 표시줄 및 적어도 하나의 스크롤 바를 갖는 것으로 도시되어 있다. 텍스트 박스(27)의 제목 표시줄은 "ESL 연어(ESL Collocations)"라고 되어 있고, 이 텍스트 박스는 텍스트 박스(25)에 있는 문장으로부터의 2개의 연어 청크(collocated chunk), 즉 "have recognized"의 동사구 및 "this person"의 명사구(문장의 목적어임)를 포함하는 것으로 도시되어 있다. 나타나 있는 바와 같이, 품사 태그와 청킹 라벨 및 각괄호를 사용하여, 연어 구(collocated phrase)는 "[VP have/VBP recognized/VBN] [NP this/DT person/NN]"라고 되어 있다. 연어 유형 콤보 박스(19)가 "V-N 연어"(동사구 및 후속하는 명사구가 서로 이웃하여 위치하는 연어를 나타내는 옵션)로 설정되어 있기 때문에 이 연어가 텍스트 박스(27)에 제공되었다. 그 설정에 대응하는 연어는 텍스트 박스(25)에서의 문장으로부터 추출된 것이다.

텍스트 박스(29)는, 제목 표시줄에 표시된 바와 같이, 연어 후보(collocation candidate)를 포함하고 있다. 연어 후보는 텍스트 박스(27)에 있는 연어와 동일한 명사구 "this person"를 갖지만, 각종의 서로 다른 과거분사 동사가 그 명사구 앞에 온다. 이들 후보 동사는 동사 중심어인 "recognized"를 대체할 후보로서, 동사구에서 과거분사 형태로 "have" 다음에 온다. 이들 후보 동사로는 "known", "admitted", "thought", 기타 등등이 있다. 이들 후보 동사는 또한 원래의 연어를 포함하지 않는데, 그 이유는 원래의 연어와 코퍼스의 내용과의 비교에 의해 원래의 연어가 코퍼스의 내용에서 발견하기 어렵거나 없었으며 따라서 적절치 않고 틀렸을 가능성이 있음이 드러났기 때문이다.

연어 오류 교정 인터페이스(10) 또는 그와 연관되거나 그와 함께 사용되는 애플리케이션은 따라서 원래의 연어가 코퍼스의 내용에서 적절치 않으며 따라서 틀렸을 가능성이 있음을 나타낼 수 있다. 예를 들어, 도 1의 예시적인 실시예에서와 같이, 이러한 표시가 사용자가 보도록 텍스트 박스(33)에 제공될 수 있다. 텍스트 박스(33)는, 그의 제목 표시줄이 암시하는 바와 같이, 연어 상태(collocation status)를 나타낸다. 텍스트 박스(33)는 이 연어가 코퍼스의 내용에서 적절치 않다, 즉 틀렸을 가능성이 있다는 것을 나타내고 있고, 적절치 않은 것으로 밝혀진 연어에서의 동사 중심어(대체하기 위한 후보임) 아래에 울퉁불퉁한 밑줄(32)을 표시하고 있다. 사용자는, 예를 들어, 적절치 않은 것으로 표시된 연어를 대체하기 위해, 원하는 대체 연어를 더블-클릭하는 것 등에 의해, 텍스트 박스(29)에서 연어 후보들 중 하나를 선택할 수 있다. 이러한 표시는 또한, 예를 들어, 다른 워드 프로세싱 프로그램, 네트워크 탐색(network navigation) 프로그램, 또는 기타 애플리케이션에서, 부적절한 연어에 마킹(marking)을 부가하는 것 등에 의해 제공될 수도 있다. 이러한 마킹은 사용자의 주의를 끌기 위해 밝은 색의 울퉁불퉁한 라인 등을 사용하여 적절치 않은 또는 틀린 연어를 하이라이트하거나 그에 밑줄을 긋는 것에 의할 수 있다.

텍스트 박스(29)에서의 연어 후보는 텍스트 박스(27)에서의 연어를 대규모 코퍼스에서 이용가능한 내용과 비교한 결과로서 제공된다. 이 예시적인 실시예에서, 이것은 분산된 자원들에서 호스팅되고 네트워크(월드 와이드 웹 등)를 통해 액세스가능한 컨텐츠를 포함하는 로컬 코퍼스 및/또는 네트워크-기반 코퍼스를 포함할 수 있다. 다른 실시예들에서, 코퍼스는, 예를 들어, 인트라넷, 원거리 통신망, 근거리 통신망, 또는 어떤 다른 유형의 네트워크 등의 다른 이용가능한 네트워크의 컨텐츠를 포함할 수 있다. 웹을 코퍼스로서 사용하여 웹 검색으로부터 도출된 내용이, 예를 들어, Wall Street Journal 코퍼스 등의 종래의 코퍼스의 검색과 함께 사용될 수 있다. 종래의 코퍼스에 연어가 있는 것은 웹 컨텐츠에 연어가 있는 것에 비해 특정의 가중치를 부여받을 수 있는데, 그 이유는 그 코퍼스가 코퍼스에 비해 더 광범위한 소스도 포함하고 더 많은 엉터리 작문도 포함할 수 있는 웹 컨텐츠에 비해 항상 적절한 어법을 비교적 보장해야만 하기 때문이다. 그렇지만, 웹 컨텐츠는 또한 임의의 이용가능한 종래의 언어 용법 코퍼스에 비해 그의 볼륨만으로도 상당한 이점을 제공한다. 텍스트 샘플에서의 임의의 주어진 연어에 대응하는 적절한 연어가 종래의 코퍼스에 없을 수도 있다. 반면에, 최소한 영어에서는, 적절한 어법으로 있을 수도 있는 거의 모든 단어 연어가 웹 상에서 발견될 수 있거나, 이하에서 더 기술되는 바와 같이, 연어에 기초한 서로 다른 질의어들의 유연한 검색에 의해 적어도 구조적으로 동등한 연어가 찾아질 수 있는 것으로 밝혀졌다. 또한, 예를 들어, ESL 학습자로부터의 통상적인 텍스트 샘플에서 발견된 적어도 대부분의 틀린 연어에 대한 적절한 대체 연어가 웹 상에서 발견될 수 있다는 것이 밝혀졌다. 특정의 문장 또는 연어가 웹 검색에서 나타나지 않는 것은 그 문장 또는 연어가 틀렸다는 높은 확신을 제공한다. 유사한 대안들이 관련 연어(subject collocation)보다 훨씬 더 빈번히 나타나는지를 알아보기 위해 검색 결과가 평가될 수 있으며, 그에 따라 틀렸음에도 불구하고 웹 상에 있을 수 연어가 그 자체로서 보여지게 된다.

이 명세서의 작성 시에, 웹 상에서 이용가능한 대부분의 텍스트 컨텐츠는 영어로 되어 있다. 많은 현재의 인간 언어가 웹 상에서 이용가능한 컨텐츠를 거의 가지고 있지 않으며, 어떤 흔히 쓰이는 언어조차도 웹 컨텐츠 중에 표현되는 일이 비교적 많지 않다. 예를 들어, 힌디말(Hindi)은 현재 세계에서 3번째로 가정 널리 사용되는 언어이지만, 적어도 한 연구에서 그의 1000분의 1보다 적은 사람들이 말하는 아이슬란드말보다 더 적게 웹 컨텐츠에 의해 표현되고 있는 것으로 밝혀졌다. 연어 오류 교정의 효과는 교정될 텍스트 샘플에서의 연어들에 대한 비교의 기초로서 이용가능한 코퍼스의 샘플 크기에 부분적으로 의존한다. 따라서, 영어로 된 텍스트 샘플을 교정하는 데 필요하지 않을지도 모르는, 다른 언어들에서의 웹-기반 연어 오류 교정을 위해 특수한 방법이 사용될 수 있다.

이들 방법은, 예를 들어, 텍스트 샘플의 언어와 일치하는 타겟 언어로 된 컨텐츠를 대상으로 삼거나 그러한 컨텐츠가 있는지 스크리닝하는 것, 또는 비교를 위한 기초로서 사용되는 코퍼스로서, 네트워크를 통해 액세스되는 웹 또는 기타 컨텐츠에 부가하여, 특수한 네트워크, 코퍼스 또는 디지털화된 도서관을 사용하는 것을 포함할 수 있다. 이들 방법은 또한, 예를 들어, 유니코드로 인코딩되지 않은 컨텐츠를 인덱싱 및 검색할 수 있는 검색 유틸리티를 사용하는 것, 또는 비표준 코딩 형식으로 된 컨텐츠를 판독, 인덱싱 및 검색할 수 있는 특수한 문자 인코딩 방식 또는 변환 형식을 사용하는 것을 포함할 수 있다. 로마자 이외의 표기법을 사용하는 언어로 된 대량의 컨텐츠, 심지어 몇몇 언어들에 대한 웹 상의 컨텐츠의 대부분이 비표준 코딩 형식으로 존재하는 것 같으며, 따라서 이들 비표준 코딩 형식을 인덱싱 및 검색할 수 있는 검색이 다른 방식보다 훨씬 더 많은 컨텐츠를 산출할 수 있을지도 모른다. 여러가지 실시예들에 따른 이들 방법과 같은 방법들이 가장 광범위한 언어들에 적용되는 웹-기반 연어 교정 시스템의 능력에 기여를 할 수도 있다.

검색되는 웹 컨텐츠를 제약하거나 편향되게 하는 부가의 전략들로는 또한 URL의 카테고리 또는 분류에 선호도를 적용하는 것이 있을 수 있다. 몇몇 URL들은, 그의 컨텐츠가 신뢰성있게 적절한 언어 용법의 대규모 라이브러리 또는 코퍼스를 포함하는 것으로 알려져 있는 경우, 우선 검색(preferential search)을 하도록 및/또는 그의 컨텐츠에서 발견된 연어들에 더 높은 가중치를 적용하도록 특별히 분류되어 있을 수 있다. 이것은 또한 TLD(top-level domain, 최상위 도메인)에 기초한 우선 검색 편향(preferential biasing of a search) 또는 검색 결과의 가중을 포함할 수 있으며, 예를 들어, 부가된 검색 순서 또는 결과 가중이 "com" 또는 "org"보다는 "edu" 또는 "gov"의 TLD를 갖는 URL에 적용될 수 있다. 영어 이외의 언어들에 대한 연어 교정에 수반되는 검색의 경우, 타겟 언어로 된 웹 컨텐츠에 대한 스크리닝 검색(screening search)은 또한 타겟 언어가 공식 언어이거나 상당히 사용되고 있는 국가들에 할당된 국가-코드 TLD에 기초한 검색 또는 검색 결과에 적 용되는 가중치를 편향되게 하거나 제한하는 것을 포함할 수 있다. 예를 들어, 불어로 된 텍스트 샘플을 교정하는 것에 관한 연어 교정 애플리케이션은 "fr", "be", "ch", 또는 "ca"(각각 프랑스, 벨기에, 스위스 및 캐나다에 대한 국가 코드 TLD임)의 TLD, 또는 다른 공식적으로 또는 실질적으로 프랑스어를 사용하는 국가들에 속하는 기타 국가 코드 TLD를 갖는 웹 사이트에서 발견된 웹 컨텐츠의 검색으로 편향되거나 제한될 수 있다.

텍스트 박스(31)는 연어에서 "this person" 앞에 오는 동사구의 중심어를 형성하는 코퍼스의 내용에서 발견되는 모든 이용가능한 동사들의 긴 목록의 일부를 보여주고 있다. 텍스트 박스(31)의 우측에 있는 상하 스크롤 바에 있는 스크롤 썸이 스크롤 바의 크기의 수분의 1인 것으로 나타낸 바와 같이, 이 목록은 도 1에 나타낸 텍스트 박스(31)에서 현재 볼 수 있는 이용가능한 동사들의 일부분보다 훨씬 더 길다. 텍스트 박스(31)에 열거된 이용가능한 연어들 대부분은 텍스트 박스(29)에서의 목록과 같이 연어 후보로서 선택되지 않았는데, 그 이유는 이들이, 원래의 연어와 매칭시켜 이 연어를 원래의 의미를 정정된 형태로 제공하는 연어로 대체하는 것의 있을법한 적절성에 대한 일련의 기준에 기초하여, 퍼지 매치 스코어링 방식(fuzzy match scoring scheme)에서 그만큼 높은 스코어를 얻지 못했기 때문이다.

텍스트 박스(27)에 있는 연어를 비교하고, 이 연어가 코퍼스의 내용에서 적절치 않은지 여부를 식별하며, 그에 대한 제안된 대체물을 제공하는 예시적인 방법들이 나머지 도면들을 참조하여 더 상세히 설명된다.

도 2는 예시적인 실시예에 따른 연어 교정 방법(50)의 플로우차트를 나타낸 것으로서, 이 방법의 어떤 측면들은 도 1에 도시된 연어 오류 교정 인터페이스(10)의 측면들과 유사하다. 방법(50)의 주요 단계들은 도 2의 플로우차트에서 실선 외곽선으로 나타내어져 있다. 이들 단계는, 연어를 포함하는 내용을 웹 검색의 질의어로서 전송하는 등에 의해 텍스트 샘플로부터의 하나 이상의 연어를 코퍼스와 비교하는 단계(51), 연어가 코퍼스에서 적절치 않은지 여부를 식별하는 단계(53), 및 연어가 적절치 않은지 여부의 표시를 출력 장치를 통해 제공하는 단계(55)를 포함한다. 재귀적 플로우차트 화살표로 나타낸 바와 같이, 단계(51, 53)는 텍스트 샘플로부터의 연어들을 코퍼스와 다양하게 비교하는 단계 및 이 다양한 비교에 의해 나타낸 바와 같이 연어들이 코퍼스에서 적절치 않은지 여부를 식별하는 단계를 수행하기 위해 반복하여 계속 수행될 수 있다.

단계(51, 53, 55)는 또한 동 도면에서 점선 외곽선으로 도시된 단계들과 같은 부가의 단계들을 포함하거나, 이 부가의 단계들의 뒤에 또는 그 앞에 올 수 있다. 이들 부가의 단계는, 예를 들어, 단계(61)에서와 같이 사용자 입력 또는 선택 또는 텍스트 샘플의 다른 형태의 표시를 수신하는 등에 의해 텍스트에서의 단어 연어의 표시를 수신하거나 텍스트에서의 단어 연어를 식별하는 단계를 포함한다. 이는 또한 사람의 텍스트 입력을 필요로 하는 워드 프로세싱 애플리케이션 또는 어떤 다른 소프트웨어 애플리케이션에서의 기본 기능을 포함할 수 있고, 단계(63)에서와 같이, 틀린 연어 또는 다른 비원어민 어법의 표시가 있는지 이 입력이 모니터링 및 스크리닝되며, 이러한 표시가 발견되는 경우 부가의 단계들이 트리거된다. 이 텍스트 샘플이 단계(65)에서와 같이 또한 도 1과 관련하여 예시로서 설명된 바와 같 이 파싱될 수도 있지만, 이 방법의 다른 실시예들은, 예를 들어, 이미 파싱되어 있는 텍스트 샘플들에 적용될 수 있다.

단계(67)에서와 같이, 특정 유형의 연어들이 코퍼스와 비교하기 위한 대상으로 특별히 지정될 수 있다. 이 단계는 코퍼스와 비교하기 위한 동사-명사 연어, 전치사-명사 연어, 형용사-명사 연어, 또는 동사-부사 연어 등의 연어를 선택하는 단계 및 부가의 연어 오류 교정 단계들을 계속 수행하는 단계를 포함한다. 어떤 실시예들에서는 이들 개개의 연어 카테고리 중 임의의 카테고리가 배타적으로 사용될 수 있는 반면, 다른 실시예들에서는 이들 연어 유형 중 임의의 유형 또는 그 전부 및/또는 부가의 연어 유형들이 사용될 수 있다. 단계(67)에 열거된 4가지 연어 유형들을 사용하는 것이 전형적인 비모국어 사용자에 의해 행해지는 모든 연어 오류의 상당 부분을 차지하는 것으로 밝혀졌다. 이들 특정의 연어 유형을 선택하는 단계는, 단계(65)에서와 같이 또는 도 1과 관련하여 기술된 바와 같이, 예비 파싱 단계 등에 의해 먼저 텍스트 샘플에서 품사를 식별하는 단계를 포함한다.

연어가 코퍼스에서 적절치 않은지 여부를 식별하는 단계(53)는 여러가지 형식의 연어에 기초하고 있는 각종의 개개의 질의어에 대해 반복하여 수행될 수 있고, 코퍼스와 비교되는 연어가 그 코퍼스의 내용에서 적절치 않은지 여부에 대한 최종 결정(사용된 모든 질의어들에 기초함)의 형태를 취할 수 있다.

한 예시적인 실시예는 도 3의 플로우차트에서의 유사한 단계(351, 353)에 더 나타내어져 있다. 이 실시예에서, 도 2의 단계(51)에서와 같이, 텍스트 샘플로부터의 연어를 코퍼스와 비교하는 단계는 연어를 포함하는 완전한 문장, 축약된 문 장, 청크 쌍, 또는 단어 쌍을 포함하는 질의어가 있는지 코퍼스를 검색하는 단계(각각 도 3에서 단계(361, 363, 365, 367)에 나타내어져 있음)를 포함하는 퍼지 매치 전략(fuzzy match strategy)을 포함할 수 있다. 축약된 문장은 연어를 포함하는 문장으로부터 보조어(auxiliary)를 제거함으로써 형성되며, 예시적인 실시예에서, 보조어는 문장에 연어를 유지하는 데 필요하지 않은 것으로 사전-정의되어 있을 수 있는 문장 중의 선택된 단어이다. 예를 들어, 틀린 연어 문장 "I have recognized this person for years"에 기초한 축약된 문장 질의 템플릿은 "have recognized this person"일 수 있다. 청크 쌍 및 워드 쌍 질의어는 서로 직접 인접해 있거나 동일 문장 내에서 사전 선택된 근접성 범위 내에 있는(예를 들어, 단지 하나 또는 2개의 다른 단어가 이들 사이에 있는 등) 연어를 포함하는 특정의 단어 또는 청크에 대한 것일 수 있다. 퍼지 매치 검색에서의 축약된 문장 검색, 청크 쌍 검색, 및 단어 쌍 검색은 또한 서로 다르지만 동등한 단어 순서를 갖는 결과들을 검출할 수 있거나, 어떤 기능어 및 다른 유형의 단어에 대한 플레이스홀더(placeholder)를 사용할 수 있으며, 따라서, 예를 들어, "recognize this person" 및 "recognize that person"은 퍼지 매치에서 동등한 것으로 간주될 수 있다.

연어를 포함하는 질의어가 질의어의 퍼지 매치가 코퍼스에 상당히 존재함을 나타내는 사전-선택된 문턱값 매칭 스코어(threshold matching score)를 넘는 스코어를 얻지 못한 경우 그 연어가 적절치 않은 것으로 평가될 수 있다. 도 2의 단계 53에서와 같이, 연어가 코퍼스에서 적절치 않은지 여부를 식별하는 단계는, 각각 단계(371, 373)(도 3 참조)에서와 같이 문장 또는 축약된 문장의 매치가 있는지 검색하는 단계를 포함하는, 질의어에 대해 여러 유형의 검색을 수행하는 단계, 또는 각각 단계(375, 377)(도 3 참조)에서와 같이 청크 쌍 또는 단어 쌍에 대해 발견된 매치에 대한 문턱값 스코어(threshold score)를 평가하는 단계를 포함할 수 있다. 문장 및 축약된 문장이 훨씬 더 특정적이기 때문에, 연어를 적절치 않은 것도 아니고 틀린 것도 아닌 것으로 나타내는 데는 이들 문장 중 하나에 대한 하나의 매치 또는 적은 수의 매치로 충분한 것으로 생각될 수 있다. 청크 쌍 또는 단어 쌍에 대한 매치는, 이들이 덜 제약되어 있고 더 일반적이기 때문에, 웹 컨텐츠의 비교적 적은 부분이 미숙한 언어 사용자에 의해 작성되는 것으로 인해 오류가 있을지라도 적어도 몇개의 검색 결과에서 발견될 가능성이 더 높을 수 있다. 따라서, 청크 쌍 및 단어 쌍 매치에 대해 더 높은 문턱값이 설정될 수 있으며, 이 실시예에 따르면, 적절치 않은 단어 연어에 대해 예상될 수 있는 코퍼스에서의 표현이 단지 비교적 사소한 정도 밖에 되지 않는 것과는 달리, 정상적인 어법에 대응하는 단어 연어를 나타내는 표시된 청크 쌍 또는 단어 쌍의 상대적 보급률(relative prevalence)을 나타내는 데 1이면 충분하다.

매칭 스코어는, 예를 들어, 청크 쌍 또는 단어 쌍의 매치의 각각의 발생에 어떤 누적 스코어를 할당하는 기본 카운터를 포함할 수 있으며 최소한의 스코어 총합을 달성하기에 충분한 매치가 발견된 경우 적절치 않은 것보다는 적절한 연어만을 나타낼 수 있다. 서로 다른 질의에 의한 결과들에 대한 스코어도 결합되어, 더 특정적인 질의어에 더 많은 가중치를 부여할 수 있으며, 한 예시적인 예로서 청크 쌍 매치의 카운트마다의 가중치가 단어 쌍 매치의 카운트마다의 가중치의 10배이다. 연어 상태를 판정하는 데 축약된 문장 또는 완전한 문장만으로 충분하기 보다는 이 축약된 문장 또는 완전한 문장이 매치 스코어링 평가(match scoring evaluation)에도 포함될 수 있다. 예를 들어, 텍스트 샘플로부터의 연어 쌍을 포함하는 축약된 문장에 대해 발견된 각각의 매치에, 예를 들어, 청크 쌍마다의 매치의 가중치의 20배이고 매칭하는 단어 쌍마다의 가중치의 200배인 스코어가 할당될 수 있다. 매치 또는 매칭 스코어를 평가하는 데 어느 방법이 사용되든 간에, 이 프로세스는 연어가 적절치 않다는 표시를 제공하는 단계(단계 381) 또는 연어가 적절하다는 표시를 제공하는 단계(단계 383)로 이루어진 단계(355)에서 종료될 수 있다.

서로 다른 질의 템플릿의 가중, 및 통상의 어법 연어를 적절치 않은 연어와 구분하는 데 사용되는 문턱값 매칭 스코어가, 연어 교정 소프트웨어의 개발자에 의해 또는 사용자 옵션으로서 최종 사용자에 의해, 더 높은 감도 또는 더 낮은 감도에 맞게 조정 또는 조절될 수 있다. 사용자는 더 빠른 프로세스를 갖도록 하기 위해 문턱값을 더 낮게 스케일링하고자 할 수 있거나(그렇지만 몇개의 의심스럽거나 불명확한 적절치 않은 연어가 빠져나갈 가능성이 많음), 사용자는 더욱 철저하게 하기로 하여 문턱값을 더 높게 설정할 수 있으며 플래그된 연어(flagged collocation)(그럼에도 불구하고 잠재적인 대체물과 비교적 비슷한 어법으로 되어 있는 것으로 판명됨)를 조사하는 데 어쩌면 더 많은 시간을 소비할 수 있지만 텍스트 샘플로부터 틀린 연어를 더 확실히 제거할 수 있다.

도 3에서의 질의어의 순서가 더 특정적인 것에서부터 더 일반적이고 덜 제약받는 것으로 가기 때문에, 각각의 연속적인 단계로부터 검색 결과를 수집하는 것은 이전의 단계에 대해서보다 더 오래 걸릴 수 있다. 검색 결과를 반환하는 단계들 전부가 단지 수분의 1초밖에 걸리지 않을 수 있지만, 시스템의 성능은 여전히 더 효율적으로 될 수 있고 충분한 매치 표시가 발견되자마자 점점 더 시간이 오래 걸리는 나머지 단계들을 거치지 않고 단계(351, 353)의 프로세스를 종료함으로써 총 시간이 감소될 수 있다. 예를 들어, 주어진 문장 또는 축약된 문장에 대해 많은 매치가 발견되는 경우, 청크 쌍 또는 단어 쌍 검색을 수행하는 데 소요되는 수분의 1초보다 비교적 더 많은 시간을 소비하는 일이 회피될 수 있다. 서로 다른 질의어를 사용하여 동일한 연어를 검색하는 것은 따라서 질의어들 중 하나가 연어의 매칭에 대한 사전 선택된 문턱값을 만족시키는 검색 결과를 제공할 때까지 또는 사전 선택된 문턱값을 만족시키지 않고 연어를 포함하는 모든 질의어가 사용될 때까지 계속 수행될 수 있다.

도 2에 도시된 다른 단계들로 돌아가면, 어떤 연어가 적절치 않은지 여부의 표시가 제공된 후에, 연어 오류 교정 애플리케이션은, 한 예시적인 실시예에 따라 단계(71, 73, 75, 77)에 나타낸 바와 같이, 틀린 연어를 정정하기 위해 계속하여 후보 대체 단어를 검색하여 제공할 수 있다. 이것은 단계(71)에서와 같이 적절치 않은 연어들 중 하나 이상에 있는 단어들 중 하나 이상을 대체하는 와일드 카드를 갖는 질의어를 작성하는 것을 포함할 수 있다. 와일드 카드는 틀릴 것 같은 것으로 표시된 의심스런 단어 대신에 질의어에 삽입되는 비어 있는 플레이스홀더로서 역할할 수 있으며, 여기서 플레이스홀더는 검색되는 코퍼스에서 나머지 질의어 내에서의 의심스런 단어의 위치에 삽입되는 임의의 단어에 대응할 수 있다. 와일드 카드는 검색에서 단어들 중 하나를, 틀린 것으로 의심되는 단어를 대신하는 별표 기호 등의 심볼로 대체함으로써 사용될 수 있다.

단계(73)에서와 같이, 와일드 카드 요소를 갖는 것과 같은 잠재적인 연어 후보를 제공하는 질의어가 있는지 단어 연어 참고 자료(word collocation reference)가 검색될 수 있다. 다시 말하자면, 단어 연어 참고 자료는 웹 또는 다른 네트워크-기반 또는 로컬 코퍼스일 수 있으며, 예를 들어, 단어 연어 사전에 포함되어 있지 않은 연어를 제거하기 위해 웹 검색 결과를 스크리닝하는 등에 의한 특수한 단어 연어 사전 참고 자료도 포함할 수 있다.

이어서, 연어 참고 자료의 검색은 와일드 카드 플레이스홀더를 나타내는 심볼 대신에 임의의 단어 또는 구를 사용하여 텍스트 세그먼트들을 갖는 결과를 반환할 수 있다. 예를 들어, 도 1의 연어 후보에 대한 텍스트 박스(29)를 다시 참조하면, 그곳에 열거된 몇개의 연어 후보 모두가 구 "this person"의 앞에 와일드 카드 심볼을 갖는 와일드 카드 검색으로부터 반환되었을 수 있다. 그러면, 검색어가, 예를 들어, "* this person"일 수 있고, 여기서 별표 "*"는 와일드 카드를 형성하고, 검색 결과는 "known this person", "admitted this person", "thought this person", 기타 등등을 포함한다. 검색 도구에 의해 와일드 카드 단어를 나타내는 데 사용되는 심볼의 선택은 임의적이며, 앰퍼샌드, 물음표 또는 그 밖의 어느 것이라도 될 수 있다.

관련 연어의 적절함 또는 적절치 않음을 평가하기 위해 처음에 행해졌던 것과 유사하게, 연어에 기초하여 더 제약된 질의 템플릿에서 덜 제약된 질의 템플릿으로 일련의 질의 템플릿을 순차적으로 거쳐 가면서 동일한 연어에 기초한 일련의 질의어 각각에서 와일드 카드가 사용될 수 있다. 예를 들어, 틀린 연어 문장 "I have recognized this person for years"에 대해, 일련의 와일드 카드 질의어가 완전한 문장에 대한 질의어(그렇지만, 연어에서 동사를 대체하는 와일드 카드를 가짐)(즉, "I have * this person for years"), 축약된 문장 형식에 기초한 하나 이상의 질의어(즉, "I have * this person", "have * this person for years", "I have * this person"), 연어를 포함하는 청크 쌍에 기초한 하나 이상의 질의어(즉, "* this person for years", "* this person"), 및 서로 바로 인접하거나 아주 근접해 있는 것(단지 하나의 중간 단어로 분리되어 있는 것 등)(예를 들어, "* ~ person", 여기서 틸드 "~"는 예시적인 일 실시예에서 검색 도구에 의해 근접성 플레이스홀더로서 해석되도록 임의적으로 선택되며, 이 근접성 플레이스홀더는, 그를 대신하여, 와일드 카드와 지정된 단어를 분리시키는 0개 또는 한개의 단어 또는 어쩌면 그 이상의 단어를 나타낼 수 있음)으로 검색된 단어 쌍인 연어에 대한 하나 이상의 질의어를 포함할 수 있다. 따라서, 질의어에 와일드 카드를 사용하는 것은 텍스트 샘플로부터의 연어를, 다양한 레벨에서, 웹 또는 다른 네트워크-기반 또는 로컬 코퍼스에서 이용가능한 컨텐츠에 있는 유사할 것 같은 연어와 비교하는 효과적인 방법의 예시적인 일례를 제공한다.

유한의 우선 후보 세트로 제한되는 특수한 와일드 카드도 사용될 수 있거나, 결과를 스크리닝하는 데 대조되는 연어 참고 자료는 선호되는 연어 후보의 표시를 포함할 수 있다. 예를 들어, 텍스트 샘플의 작성자의 모국어로부터 역번역하는 프로세스에 기초하여 어떤 연어 후보가 선호될 수 있다. 사용자는 그의 모국어를 입력하는 옵션을 가질 수 있거나, 연어 교정 소프트웨어가 작성자의 모국어일 것 같은 언어를 알려줄 수 있는 작문 샘플에서의 단서를 평가하는 도구를 사용할 수 있으며, 예를 들어, 소프트웨어는 사용자에게 작성자의 모국어를 확인하도록 프롬프트할 수 있다. 예를 들어, 컴퓨터에 설치된 다른 소프트웨어에서 사용되고 있는 언어 옵션 또는 컴퓨터의 물리적 위치의 표시 등의 다른 단서들이 고려될 수도 있다. 예를 들어, 소프트웨어가 중국어 버전의 운영 체제를 실행하고 있는 컴퓨터 상에서 실행되고 있음을 소프트웨어가 검출하는 경우, 또는 컴퓨터가 물리적으로 베이징에 위치하고 있는 것으로 참고 자료가 나타내고 있는 서버를 통해 인터넷에 접속되어 있는 반면 텍스트 샘플은 영어로 되어 있는 것으로 소프트웨어가 검출하는 경우, 소프트웨어는 중국어 원어민에 전형적인 연어 후보에 우선 처리 또는 우선권 처리를 할당할 수 있다.

작성자의 모국어를 알고 있는 경우, 연어 교정 소프트웨어는 틀린 연어가 작성자의 모국어를 작문 샘플의 비모국어로 부적절하게 매핑한 것에 기초하고 있는지 여부를 고려할 수 있다. 이것은, 예를 들어, 비모국어 언어에서 모국어 문법 규칙을 적용하는 것, 허위 동족 언어(false cognate 또는 false friend)를 잘못 사용하는 것, 모국어가 복수 형태를 구분하지 않을 때 복수 형태를 생략하는 것, 기타 등등과 같은 매핑 오류를 포함할 수 있다.

예를 들어, "I have recognized this person for years"를 포함하는 텍스트 샘플의 작성자는 중국어 원어민인 것으로 표시될 수 있다. 연어 교정 소프트웨어는 이 입력을 중국어로 번역하고 영어로의 역번역 후보를 검사함으로써 이 표시에 응답할 수 있다. "To recognize"는 북경 중국어 "renshi"(영어로 "to recognize" 또는 "to know"이라고 번역될 수 있는 단어)로 변역될 수 있다(한어에서는 Pinyin으로 번역됨). 따라서, 역번역은 "I have known this person for years"를 번역하기 위해 "know"가 "recognize"의 가능한 대체 후보임을 알려줄 수 있다. 다른 예로서, 프랑스어 원어민인 것으로 표시된 작성자에 의한 영어 텍스트 샘플이 문장 "I commanded the faith and onions"("commanded" 및 "faith" 둘다가 적절치 않은 단어 연어로 태깅되어 있음)을 포함할 수 있다. 이것은 프랑스어로 "J'ai

le foi et des oignons"이라고 번역될 수 있으며, "

"는 적절히 "ordered"로 역번역되고 "le foi"는 "the liver"이라고 역번역되도록 "le foie"로 철자가 바뀌어져 있으며, 따라서 소프트웨어는 검색 결과에 의해 발생된 임의의 다른 것들 중에서 이들 연어 후보에 우선순위를 부여하거나 가중치를 부가하며, 그 문장을 "I ordered the liver and onions"로 번역하기 위해 대체 연어 후보를 암시할 수 있다.

어느 경우든지, 첫째로 후보 대체물 검색을 제한하기 위해 모국어로부터의 역번역이 사용되었을 수 있거나, 검색에 의해 발생된 가능한 대체 후보 중에서 평가하거나 우선순위를 부여하기 위해 이 역번역이 연어 참고 자료로서 사용되었을 수 있다.

단계(73)에서와 같이 질의어가 있는지 단어 연어 참고 자료를 검색한 후에, 이 예시적인 실시예에서, 후보 단어가 와일드 카드를 대체하는 비율이 비교적 높은 검색 결과를 식별하는 단계(75)가 수행될 수 있다. 다시 말하자면, 이것은, 예시적인 일 실시예에서, 연어를 포함하는 완전한 문장, 축약된 문장, 청크 쌍 또는 단어 쌍에 대한 매치를 제공하는 검색 결과들 간에 서로 다른 매치 유형에 대해 서로 다른 가중을 사용할 수 있다. 스코어 총합이 각각의 유형의 질의어로부터의 스코어링 성분들의 가중합일 수 있으며, 여기서 각각의 스코어링 성분은, 예를 들어, 그 질의어에 대해 발견된 검색 결과의 수를 그 질의어에 할당된 가중치와 곱한 곱이다. 이 예시적인 실시예에서, 비교적 높은 스코어 총합은, 이것과 같은 방법을 사용하여, 후보 단어가 와일드 카드를 대체하고 틀린 연어를 정정할 유망한 후보자로서 역할하는 비율이 비교적 높은 효과적인 척도로서 해석될 수 있다.

와일드 카드는 상세하게는 질의어에서의 어떤 품사 또는 청크 유형에 관련되어 있을 수 있다. 예를 들어, 동사-명사 연어에 기초한 질의어 세트에서, 한 질의어 세트에서는 각각의 연어에서의 동사가 와일드 카드로 대체될 수 있고, 다른 질의어 세트에서는 각각의 연어에서의 명사가 와일드 카드로 대체될 수 있다. 전치사-명사 연어의 경우, 전치사가 특히 와일드 카드로 대체되기 위해 선택된 연어의 일부일 수 있는데, 그 이유는 명사가 문장의 의도된 의미와 연관될 가능성이 더 많을 수 있고 또한 선택될 특정의 전치사가 중급 언어 학습자에 의한 틀린 연어 사용으로 영향받는 일이 더 흔할 수 있기 때문이다. 전치사를 전치사-명사 연어에 기초한 질의어에서 와일드 카드로 대체할 대상으로 삼는 것은 따라서 원하는 대체 연 어를 생성하는 데 걸리는 시간을 줄이는 전략을 지원할 수 있다. 이와 마찬가지로, 와일드 카드는 형용사-명사 연어에서는 형용사로서 우선적으로 선택될 수 있고, 동사-부사 연어에서는 부사로서 우선적으로 선택될 수 있는데, 다시 말하자면 그 이유는 명사 및 동사가 의도된 의미에 연관되어 있을 가능성이 더 많을 수 있는 반면, 형용사 및 부사는 이들이 수식하는 명사 및 동사보다 틀린 연어로 될 경향이 더 많을 수 있기 때문이다. 다른 실시예에서, 다른 특정의 품사 또는 청크 유형이 질의어에서 와일드 카드로 우선적으로 또는 배타적으로 대체되도록 선택될 수 있다.

검색 결과 중의 의심스런 단어보다 상당히 더 많은 비율을 갖는 것으로 밝혀진 잠재적인 대체 단어가 연어의 외견상 적절치 않은 부분에 대한 제안된 대체물로서 표시될 수 있다. 이것은 적절한 단어 연어의 사전 등의 연어 참고 자료에 포함시키기 위한 잠재적인 대체 단어를 갖는 연어를 교차 참조한 후에 또는 상기한 바와 같이 작성자의 모국어에 기초한 제안된 역번역을 교차 참조한 후에 행해질 수 있다.

도 2의 단계(77)에서와 같이, 가장 높은 매칭 스코어를 갖는 것으로 밝혀진 것들과 같은 하나 또는 몇개의 잠재적 연어 후보 단어를 갖는 검색 결과가 사용자 출력을 통해 적절할 것 같은 단어 연어로서 제공될 수 있다. 이것은 사용자가 틀린 것으로 표시된 연어를 대체할 연어 후보들 중 하나를 선택할 수 있도록, 예를 들어, 도 1의 텍스트 박스(29)에 표시되는 연어 후보들과 유사할 수 있다. 때때로, 연어가 하나밖에 없다는 것은 틀린 연어에 대한 적절한 대체물일 가능성이 상 당히 더 높음을 나타낸다. 이것이 도 4에 나타낸 경우이다.

도 4는 예시적인 일 실시예에 따른 연어 교정 방법을 가능하게 해주는 컴퓨팅 시스템의 사용자 인터페이스(410)를 나타낸 것이다. 사용자 인터페이스(410)는 상부에 도 1의 연어 오류 교정 인터페이스(10)와 동일한 탭들, 구체적으로는 "ESL 문장 로드"(다시 말하자면, 예시적으로 특정의 ESL 실시예에 관한 것임)라고 표시된 탭(11) 및 "질의 실행"이라고 표시된 탭(13)을 포함하고 있다. 도 1은 "ESL 문장 로드" 탭(11)이 선택되어 있는 사용자 인터페이스(10)를 나타내고 있는 반면, 도 4는 탭(13)이 선택되어 있는 사용자 인터페이스(410)를 나타내고 있으며, 그 탭(13)과 연관된 버튼, 캡션, 텍스트 박스 및 기타 사용자 인터페이스 요소들이 표시되어 있다. 이들은 "ESL 파싱된 문장"이라고 표시된 상부 부분과 "질의 레벨"이라고 표시된 하부 부분으로 나누어져 있다. 사용자 인터페이스(410)는, 예시적인 연어 오류 교정 실시예를 지원하여, 특정 유형의 질의에 관여하여 이들 질의에 대해 수행된 검색의 결과를 사용자 인터페이스를 통해 제공하는 것에 관한 것이다.

상부의 "ESL 파싱된 문장" 부분은 도 1의 텍스트 박스(25)와 유사한 텍스트 박스(25)를 포함하고 있으며, 여기서는 동일한 파싱된 문장을 포함하고 있다. 이 부분은 또한 파싱된 문장 텍스트 박스(25) 아래에 일렬의 버튼들(41)을 포함하고 있다. 이들은 파싱된 문장에 기초하여 검색을 수행하는 각종의 서로 다른 예시적인 질의 템플릿에 대한 버튼들을 포함한다. 상세하게는, 이 예시적인 실시예에서는, 이상의 설명에 따라, 완전한 문장 또는 축약된 문장 등의 서로 다른 문장-기반 질의를 말하는 "질의 생성(Create Queries)", "S-질의 I 전송(Submit S-Queries I)" 및 "S-질의 II 전송(Submit S-Queries II)"이라고 표시된 버튼, 서로 다른 유형의 청크 쌍 질의에 대한 "C-질의 I 전송(Submit C-Queries I)" 및 "C-질의 II 전송(Submit C-Queries II)"이라고 표시된 버튼, 및 연어의 개개의 단어 쌍에 기초한 질의에 대한 "W-질의 전송(Submit W-Queries)"이라고 표시된 버튼이 있다.

사용자 인터페이스(410)의 하부 부분은, 대체 연어 후보 단어를 제공하기 위해 호출될 수 있는 질의 결과 텍스트 박스들 중 몇몇의 예시적인 일례로서, 문장 레벨 질의에 대한 텍스트 박스(43), 청크 제1 레벨 질의에 대한 텍스트 박스(45), 및 청크 제2 레벨 질의에 대한 텍스트 박스(47)를 포함하고 있다. 각각의 텍스트 박스(43, 45, 47)에는 또한 그 연어 후보에 대한 질의 검색 결과의 히트수가 표시되어 있으며, 그 오른쪽에 있는 별도의 텍스트 박스는 각각의 질의 유형에 대응하는 코퍼스로부터의 질의 검색 결과들 중 일부를 표시하고 있을 수 있다. 도면에서 암시되고 있는 바와 같이, 이 예시적인 예에서, 교정되고 있는 연어에서, "known"은 각각의 질의 템플릿 레벨에서 "recognized"에 대한 적절한 대체 단어인 것으로 강하게 표시되어 있다. 이것은 계층화된 방식의 질의 템플릿이 이 경우에 한 특정의 대체 후보에 대한 확실한 사례를 제시하기에 충분한 것 이상의 중복성을 제공한다는 것을 보여준다. 이어서, 사용자는 원하는 바에 따라 각각의 질의 템플릿에 대한 히트수를 고려하고, 대체 연어 후보들 중 하나를 선택하여 그에 대응하는 적절치 않은 단어 연어를 대체할 수 있다.

도 1 및 도 4가 전용 애플리케이션 실시예와 연관된 그래픽 디스플레이 패널을 나타낸 것이지만, 다른 예시적인 실시예는 워드 프로세싱 프로그램, 웹 브라우 저, 이메일 애플리케이션, 프리젠테이션 프로그램, 또는 사용자가 텍스트 또는 다른 형태의 자연어를 입력하는 것을 수반하는 기타 애플리케이션 등의 다른 애플리케이션과 관련하여 덜 명백한 방식으로 기능할 수도 있다. 이러한 기타 프로그램 또는 애플리케이션은, 예를 들어, 별도의 오류 연어 교정 프로그램 실시예와 협력할 수 있거나, 오류 연어 교정 실시예를 포함하는 그 자신의 모듈을 포함할 수 있다. 예를 들어, 연어 오류 교정 도구가 다른 애플리케이션에서 도구 메뉴 아래에서 액세스가능할 수 있거나, 다른 예로서, 다른 실시예들에서 사용자가 단어를 우측-클릭할 때 팝업 메뉴에서의 옵션으로서 액세스가능할 수 있다.

또다른 동작 모드에서, 다른 프로그램이 기본 설정에서 자동으로 오류 연어 교정 모듈 또는 프로그램을 실행시킬 수 있고, 모니터 상에서 단어에 적용되는 마킹에 의해 틀린 또는 적절치 않은 연어의 표시를 자동으로 제공할 수 있다. 이 마킹은 연어를 틀렸거나 적절치 않은 것으로 표시하기 위해, 예를 들어, 연어 아래에 청색의 울퉁불퉁한 라인의 형태로 있을 수 있다. 또다른 동작 모드에서, 사용자 입력이 사용자가 입력의 언어의 원어민 사용자가 아니라는 표시를 포함하는지 여부를 검출하기 위해 별도의 모듈 또는 프로그램이 실행될 수 있으며, 비원어민 사용의 표시는, 예를 들어, 오류 연어 모듈 또는 프로그램의 활성화를 트리거할 수 있다.

도 5는 여러가지 실시예들이 구현될 수 있는 적합한 컴퓨팅 시스템 환경(100)의 일례를 나타낸 것이다. 예를 들어, 여러가지 실시예들은 컴퓨팅 시스템 환경(100)에 의해 실행가능하면서 서로 다른 실시예에서 수반되는 다양한 작업 또 는 방법을 수행하도록 컴퓨팅 시스템 환경(100)을 구성하는 소프트웨어 애플리케이션, 모듈 또는 기타 형태의 명령어로서 구현될 수 있다. 연어 오류 교정 실시예를 구현하는 소프트웨어 애플리케이션 또는 모듈은 각종의 프로그래밍 또는 스크립팅 언어들 또는 환경들 중 어느 것에서라도 개발될 수 있다. 예를 들어, 이는 C#, F#, C++, C, Pascal, Visual Basic, Java, JavaScript, Delphi, Eiffel, Nemerle, Perl, PHP, Python, Ruby, Visual FoxPro, Lua, 또는 임의의 다른 프로그래밍 언어로 작성될 수 있다. 또한, 다른 실시예들이 용이하게 개발될 수 있는, 실행가능 명령어를 생성하는 새로운 프로그래밍 언어 및 기타 형태가 계속하여 개발될 것으로 생각된다.

한 예시적인 실시예에 따르면, 컴퓨팅 시스템 환경(100)은 텍스트에서의 단어 연어의 표시를 수신한 것에 응답하여 연어 오류 교정 작업을 수행하도록 구성될 수 있다. 이어서, 컴퓨팅 시스템 환경(100)은 표시된 단어 연어와 연관된 하나 이상의 질의 템플릿 각각에 대해 웹 검색을 수행할 수 있다. 사용되는 다양한 질의 템플릿은 문장, 축약된 문장, 청크 쌍, 및/또는 개개의 단어 쌍(이들 중 어느 것이라도 단어 연어를 포함할 수 있음)을 포함할 수 있다. 컴퓨팅 시스템 환경(100)은 이어서 각각의 질의 템플릿에 대한 웹 검색의 결과가 단어 연어가 정상적인 어법에 대응함을 나타내는지 여부 또는 단어 연어가 적절치 않은지, 즉 있을법한 오류를 나타내는지 여부를 평가할 수 있다. 정상적인 어법은 문장을 포함하는 질의 템플릿의 정확한 매치 또는 사전 선택된 문턱값보다 큰 매칭 스코어로 나타내어질 수 있다. 본 시스템은 이어서, 연어 오류 교정 방법의 실시예의 결과인 사용자-인지 가능 출력 장치를 통한 컴퓨팅 시스템 환경(100)의 출력의 일부로서, 단어 연어가 정상적인 어법에 대응하는지 또는 적절치 않은지(틀린 어법인 것으로 표시됨)를 나타낼 수 있다.

도 5에 도시된 컴퓨팅 시스템 환경(100)은 다양한 실시예를 실행하여 이들로부터의 출력을 제공하는 적합한 컴퓨팅 환경의 일례에 불과하며, 청구된 발명 대상의 용도 또는 기능의 범위에 관한 어떤 제한을 암시하기 위한 것이 아니다. 컴퓨팅 환경(100)이 예시적인 운영 환경(100)에 예시된 컴포넌트들 중 임의의 컴포넌트 또는 이 컴포넌트들의 임의의 조합과 관련하여 어떤 종속성 또는 요구사항을 갖는 것으로 해석되어서도 안된다.

실시예들은 많은 다른 범용 또는 전용 컴퓨팅 시스템 환경 또는 구성에서 동작한다. 여러가지 실시예들에서 사용하기에 적합할 수 있는 공지의 컴퓨팅 시스템, 환경, 및/또는 구성의 예로는 퍼스널 컴퓨터, 서버 컴퓨터, 핸드헬드 또는 랩톱 장치, 멀티프로세서 시스템, 마이크로프로세서-기반 시스템, 셋톱 박스, 프로그램가능 가전 제품, 네트워크 PC, 미니컴퓨터, 메인프레임 컴퓨터, 전화 시스템, 상기 시스템들 또는 장치들 중 임의의 것을 포함하는 분산 컴퓨팅 환경, 기타 등등이 있지만, 이에 한정되지 않는다.

실시예들은 일반적으로 컴퓨터에 의해 실행되는 프로그램 모듈 등의 컴퓨터-실행가능 명령어와 관련하여 기술될 수 있다. 일반적으로, 프로그램 모듈은 특정 태스크를 수행하거나 특정의 추상 데이터 유형을 구현하는 루틴, 프로그램, 객체, 컴포넌트, 데이터 구조, 기타 등등을 포함한다. 어떤 실시예들은 통신 네트워크를 통해 연결되어 있는 원격 처리 장치들에 의해 태스크가 수행되는 분산 컴퓨팅 환경에서 실시되도록 설계된다. 분산 컴퓨팅 환경에서, 프로그램 모듈은 메모리 저장 장치를 비롯한 로컬 및 원격 컴퓨터 저장 매체 둘다에 위치한다. 본 명세서에 기술된 바와 같이, 이러한 실행가능 명령어는 컴퓨터 시스템의 하나 이상의 컴포넌트에 의해 판독 및 실행됨으로써 새로운 기능들을 갖는 컴퓨팅 시스템을 구성할 수 있도록 매체 상에 저장될 수 있다.

도 5를 참조하면, 어떤 실시예들을 구현하는 예시적인 시스템은 컴퓨터(110) 형태의 범용 컴퓨팅 장치를 포함한다. 컴퓨터(110)의 컴포넌트들은 처리 장치(120), 시스템 메모리(130), 및 시스템 메모리를 비롯한 각종 시스템 컴포넌트들을 처리 장치(120)에 연결시키는 시스템 버스(121)를 포함할 수 있지만 이에 제한되는 것은 아니다. 시스템 버스(121)는 메모리 버스 또는 메모리 컨트롤러, 주변 장치 버스, 및 각종 버스 아키텍처 중 임의의 것을 이용하는 로컬 버스를 비롯한 몇가지 유형의 버스 구조 중 어느 것이라도 될 수 있다. 예로서, 이러한 아키텍처는 ISA(industry standard architecture) 버스, MCA(micro channel architecture) 버스, EISA(Enhanced ISA) 버스, VESA(video electronics standard association) 로컬 버스, 그리고 메자닌 버스(mezzanine bus)로도 알려진 PCI(peripheral component interconnect) 버스 등을 포함하지만 이에 제한되는 것은 아니다.

컴퓨터(110)는 통상적으로 각종 컴퓨터 판독가능 매체를 포함한다. 컴퓨터(110)에 의해 액세스 가능한 매체는 그 어떤 것이든지 컴퓨터 판독가능 매체가 될 수 있고, 이러한 컴퓨터 판독가능 매체는 휘발성 및 비휘발성 매체, 이동식 및 비이동식 매체 둘다를 포함한다. 예로서, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 포함할 수 있지만 이에 제한되는 것은 아니다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보를 저장하는 임의의 방법 또는 기술로 구현되는 휘발성 및 비휘발성, 이동식 및 비이동식 매체 둘다를 포함한다. 컴퓨터 저장 매체는 RAM, ROM, EEPROM, 플래시 메모리 또는 기타 메모리 기술, CD-ROM, DVD(digital versatile disk) 또는 기타 광 디스크 저장 장치, 자기 카세트, 자기 테이프, 자기 디스크 저장 장치 또는 기타 자기 저장 장치, 또는 컴퓨터(110)에 의해 액세스될 수 있고 원하는 정보를 저장하는 데 사용될 수 있는 임의의 기타 매체를 포함하지만 이에 제한되는 것은 아니다. 통신 매체는 통상적으로 반송파(carrier wave) 또는 기타 전송 메커니즘(transport mechanism)과 같은 피변조 데이터 신호(modulated data signal)에 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터 등을 구현하고 모든 정보 전달 매체를 포함한다. "피변조 데이터 신호"라는 용어는, 신호 내에 정보를 인코딩하도록 그 신호의 특성들 중 하나 이상이 설정 또는 변경된 신호를 의미한다. 예로서, 통신 매체는 유선 네트워크 또는 직접 배선 접속(direct-wired connection)과 같은 유선 매체, 그리고 음향, RF, 적외선, 기타 무선 매체와 같은 무선 매체를 포함한다. 상술된 매체들의 모든 조합도 컴퓨터 판독가능 매체의 영역 안에 포함되는 것으로 한다.

시스템 메모리(130)는 판독 전용 메모리(ROM)(131) 및 랜덤 액세스 메모리(RAM)(132)와 같은 휘발성 및/또는 비휘발성 메모리 형태의 컴퓨터 저장 매체를 포함한다. 시동 중과 같은 때에, 컴퓨터(110) 내의 구성요소들 사이의 정보 전송을 돕는 기본 루틴을 포함하는 기본 입/출력 시스템(BIOS)(133)은 통상적으로 ROM(131)에 저장되어 있다. RAM(132)은 통상적으로 처리 장치(120)가 즉시 액세스 할 수 있고 및/또는 현재 동작시키고 있는 데이터 및/또는 프로그램 모듈을 포함한다. 예로서, 도 5는 운영 체제(134), 애플리케이션 프로그램(135), 기타 프로그램 모듈(136) 및 프로그램 데이터(137)를 도시하고 있지만 이에 제한되는 것은 아니다.

컴퓨터(110)는 또한 기타 이동식/비이동식, 휘발성/비휘발성 컴퓨터 저장매체를 포함할 수 있다. 단지 예로서, 도 5는 비이동식·비휘발성 자기 매체에 기록을 하거나 그로부터 판독을 하는 하드 디스크 드라이브(141), 이동식·비휘발성 자기 디스크(152)에 기록을 하거나 그로부터 판독을 하는 자기 디스크 드라이브(151), 및 CD-ROM 또는 기타 광 매체 등의 이동식·비휘발성 광 디스크(156)에 기록을 하거나 그로부터 판독을 하는 광 디스크 드라이브(155)를 도시하고 있다. 예시적인 운영 환경에서 사용될 수 있는 기타 이동식/비이동식, 휘발성/비휘발성 컴퓨터 기억 매체로는 자기 테이프 카세트, 플래시 메모리 카드, DVD, 디지털 비디오 테이프, 고상(solid state) RAM, 고상 ROM 등이 있지만 이에 제한되는 것은 아니다. 하드 디스크 드라이브(141)는 통상적으로 인터페이스(140)와 같은 비이동식 메모리 인터페이스를 통해 시스템 버스(121)에 접속되고, 자기 디스크 드라이브(151) 및 광 디스크 드라이브(155)는 통상적으로 인터페이스(150)와 같은 이동식 메모리 인터페이스에 의해 시스템 버스(121)에 접속된다.

위에서 설명되고 도 5에 도시된 드라이브들 및 이들과 관련된 컴퓨터 저장 매체는, 컴퓨터(110)에 대한 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 및 기타 데이터를 저장한다. 도 5에서, 예를 들어, 하드 디스크 드라이브(141)는 운영 체제(144), 애플리케이션 프로그램(145), 기타 프로그램 모듈(146), 및 프로그램 데이터(147)를 저장하는 것으로 도시되어 있다. 여기서 주의할 점은 이들 컴포넌트가 운영 체제(134), 애플리케이션 프로그램(135), 기타 프로그램 모듈(136), 및 프로그램 데이터(137)와 동일하거나 그와 다를 수 있다는 것이다. 이에 관해, 운영 체제(144), 애플리케이션 프로그램(145), 기타 프로그램 모듈(146) 및 프로그램 데이터(147)에 다른 번호가 부여되어 있다는 것은 적어도 이들이 다른 사본(copy)이라는 것을 나타내기 위한 것이다.

사용자는 키보드(162), 마이크(163), 및 마우스, 트랙볼(trackball) 또는 터치 패드와 같은 포인팅 장치(161) 등의 입력 장치를 통해 명령 및 정보를 컴퓨터(110)에 입력할 수 있다. 다른 입력 장치(도시 생략)로는 조이스틱, 게임 패드, 위성 안테나, 스캐너 등을 포함할 수 있다. 이들 및 기타 입력 장치는 종종 시스템 버스에 결합된 사용자 입력 인터페이스(160)를 통해 처리 장치(120)에 접속되지만, 병렬 포트, 게임 포트 또는 USB(universal serial bus) 등의 다른 인터페이스 및 버스 구조에 의해 접속될 수도 있다. 모니터(191) 또는 다른 유형의 디스플레이 장치도 비디오 인터페이스(190) 등의 인터페이스를 통해 시스템 버스(121)에 접속될 수 있다. 모니터 외에, 컴퓨터는 스피커(197) 및 프린터(196) 등의 기타 주변 출력 장치를 포함할 수 있고, 이들은 출력 주변장치 인터페이스(195)를 통해 접 속될 수 있다.

컴퓨터(110)는 원격 컴퓨터(180)와 같은 하나 이상의 원격 컴퓨터로의 논리적 접속을 사용하여 네트워크화된 환경에서 동작된다. 원격 컴퓨터(180)는 퍼스널 컴퓨터, 핸드-헬드 장치, 서버, 라우터, 네트워크 PC, 피어 장치 또는 기타 통상의 네트워크 노드일 수 있고, 통상적으로 컴퓨터(110)와 관련하여 상술된 구성요소들 중 다수 또는 그 전부를 포함한다. 도 5에 도시된 논리적 접속으로는 근거리 통신망(LAN)(171) 및 원거리 통신망(WAN)(173)이 있지만, 기타 네트워크를 포함할 수도 있다. 이러한 네트워킹 환경은 사무실, 전사적 컴퓨터 네트워크(enterprise-wide computer network), 인트라넷, 및 인터넷에서 흔히 있는 것이다.

LAN 네트워킹 환경에서 사용될 때, 컴퓨터(110)는 네트워크 인터페이스 또는 어댑터(170)를 통해 LAN(171)에 접속된다. WAN 네트워킹 환경에서 사용될 때, 컴퓨터(110)는 통상적으로 인터넷과 같은 WAN(173)을 통해 통신을 설정하기 위한 모뎀(172) 또는 기타 수단을 포함한다. 내장형 또는 외장형일 수 있는 모뎀(172)은 사용자 입력 인터페이스(160) 또는 기타 적절한 메커니즘을 통해 시스템 버스(121)에 접속될 수 있다. 네트워크화된 환경에서, 컴퓨터(110) 또는 그의 일부와 관련하여 기술된 프로그램 모듈은 원격 메모리 저장 장치에 저장될 수 있다. 예로서, 도 5는 원격 애플리케이션 프로그램(185)이 원격 컴퓨터(180)에 있는 것으로 도시하고 있지만 이에 제한되는 것은 아니다. 도시된 네트워크 접속은 예시적인 것이며 이 컴퓨터들 사이에 통신 링크를 설정하는 기타 수단이 사용될 수 있다는 것을 이해할 것이다.

도 6은, 다른 예시적인 실시예에 따른, 일반적인 모바일 컴퓨팅 환경의 블록도를 나타낸 것으로서, 이 모바일 컴퓨팅 환경은 모바일 컴퓨팅 장치 및 이 모바일 컴퓨팅 장치에 의해 판독가능한 매체(모바일 컴퓨팅 장치에 의해 실행가능한 실행가능 명령어를 포함함)를 포함한다. 도 6은, 예시적인 실시예에 따른, 모바일 장치(201)를 포함하는 모바일 컴퓨팅 시스템(200)의 블록도를 나타낸 것이다. 모바일 장치(201)는 마이크로프로세서(202), 메모리(204), 입/출력(I/O) 컴포넌트(206), 및 원격 컴퓨터 또는 다른 모바일 장치와 통신하기 위한 통신 인터페이스(208)를 포함한다. 일 실시예에서, 상기한 컴포넌트들은 서로 통신하기 위해 적합한 버스(210)를 통해 결합되어 있다.

메모리(204)는 모바일 장치(200)에의 일반 전원이 꺼질 때 메모리(204)에 저장된 정보가 상실되지 않도록 배터리 백업 모듈(도시 생략)을 갖는 랜덤 액세스 메모리(RAM) 등의 비휘발성 전자 메모리로서 구현되어 있다. 메모리(204)의 한 부분은 예시로서 프로그램 실행을 위해 번지지정가능 메모리로서 할당되지만, 메모리(204)의 다른 부분은 예시로서 디스크 드라이브 상에의 저장을 모의하기 위한 것과 같은 저장을 위해 사용된다.

메모리(204)는 운영 체제(212), 애플리케이션 프로그램(214)은 물론 객체 저장소(object store)(216)도 포함한다. 동작 중에, 운영 체제(212)는 예시로서 메모리(204)로부터 프로세서(202)에 의해 실행된다. 한 예시적인 실시예에서, 운영 체제(212)는 마이크로소프트사로부터 상업적으로 이용가능한 WINDOWS

CE 상표의 운영 체제이다. 운영 체제(212)는 예시로서 모바일 장치용으로 설계되어 있으며 일련의 노출된 애플리케이션 프로그래밍 인터페이스 및 메서드를 통해 애플리케이션(214)에 의해 이용될 수 있는 데이터베이스 기능을 구현한다. 객체 저장소(216) 내의 객체들은, 적어도 부분적으로는 노출된 애플리케이션 프로그래밍 인터페이스 및 메서드에 대한 호출에 응답하여, 애플리케이션(214) 및 운영 체제(212)에 의해 유지된다.

통신 인터페이스(208)는 모바일 장치(200)가 정보를 전송 및 수신할 수 있게 해주는 다수의 장치 및 기술을 나타낸다. 이들 장치는, 몇가지 예를 들면, 유선 및 무선 모뎀, 위성 수신기 및 방송 튜너를 포함한다. 모바일 장치(200)는 또한 컴퓨터와 데이터를 교환하기 위해 컴퓨터에 직접 접속될 수 있다. 이러한 경우에, 통신 인터페이스(208)는 적외선 송수신기이거나 직렬 또는 병렬 통신 접속일 수 있고, 이들 모두는 스트리밍 정보를 전송할 수 있다.

입/출력 컴포넌트(206)는 터치-감응 스크린, 버튼, 롤러 및 마이크 등의 각종의 입력 장치는 물론 오디오 발생기, 진동 장치 및 디스플레이 등의 각종의 출력 장치도 포함한다. 이상에 열거된 장치들은 예에 불과하며 그 모두가 모바일 장치(200)에 존재할 필요는 없다. 그에 부가하여, 다른 입/출력 장치가 모바일 장치(200)에 부착되거나 모바일 장치(200)에서 발견될 수 있다.

모바일 컴퓨팅 장치(200)는 또한 네트워크(220)도 포함한다. 모바일 컴퓨팅 장치(201)는 예시로서, 예를 들어, 통신 인터페이스(208)와 무선 인터페이스(222) 사이에서 적합한 프로토콜의 전자파 신호(229)를 전송 및 수신함으로써 네트워크(220)(인터넷, 원거리 통신망 또는 근거리 통신망일 수 있음)와 무선 통신을 하 고 있다. 무선 인터페이스(222)는, 예를 들어, 무선 허브 또는 셀룰러 안테나이거나 임의의 다른 신호 인터페이스일 수 있다. 무선 인터페이스(222)는 차례로 예시로서 컴퓨팅 자원(224, 226)으로 나타낸 광범위한 부가의 컴퓨팅 자원들로의 네트워크(222)를 통한 액세스를 제공한다. 자연히, 임의의 장소에 있는 임의의 수의 컴퓨팅 장치가 네트워크(220)와 통신 접속되어 있을 수 있다. 몇가지 예시적인 실시예에서, 컴퓨팅 장치(201)는, 컴퓨팅 장치(201)가 비모국어 교정 질의 및 기타 작업을 수행할 수 있게 해주는 실행가능 명령어 등의, 메모리 컴포넌트(204)의 매체 상에 저장된 실행가능 명령어를 사용할 수 있다.

발명 대상이 구조적 특징 및/또는 방법적 동작과 관련하여 기술되어 있지만, 첨부된 청구항들에 정의된 발명 대상이 상기한 특정의 특징들 또는 동작들로 꼭 제한되는 것은 아니라는 것을 잘 알 것이다. 오히려, 상기한 특정의 특징들 및 동작들은 청구항들을 구현하는 예시적인 형태로서 개시된 것이다. 특정의 예로서, 용어 "컴퓨터", "컴퓨팅 장치" 또는 "컴퓨팅 시스템"이 본 명세서에서 때때로 편의상 단독으로 사용될 수 있지만, 이들 각각이 임의의 컴퓨팅 장치, 컴퓨팅 시스템, 컴퓨팅 환경, 모바일 장치, 또는 기타 정보 처리 컴포넌트 또는 컨텍스트를 말하는 것일 수 있으며 개개의 해석으로 제한되지 않음을 잘 알 것이다. 다른 특정의 예로서, 많은 실시예들이 이 특허 출원의 출원 시에 널리 알려져 있는 예시적인 구성요소들을 구비하고 있지만, 컴퓨팅 기술의 많은 새로운 혁신들이, 사용자 인터페이스, 사용자 입력 방법, 컴퓨팅 환경 및 컴퓨팅 방법 등의 측면에서, 다른 실시예들 의 구성요소들에 영향을 줄 것이라는 것과 청구항들에 의해 정의된 구성요소들이 여전히 청구항들에 의해 정의된 구성요소들에 의해 포괄되고 그에 부합되면서 이들 및 다른 혁신적 진보에 따라 구현될 수 있다는 것이 예상된다.

Claims

컴퓨터 시스템(예를 들어, 100, 110, 180, 200, 224, 226)에 의해 구현가능한 방법(예를 들어, 50)으로서,

텍스트 샘플(예를 들어, 23)로부터의 하나 이상의 연어들을 코퍼스와 비교하는 단계(예를 들어, 51, 351),

상기 연어들이 상기 코퍼스에서 적절치 않은지 여부를 식별하는 단계(예를 들어, 53, 353), 및

상기 연어들이 적절치 않은지 여부의 표시(예를 들어, 32, 33)를 출력 장치를 통해 제공하는 단계(예를 들어, 33, 32, 43, 45, 47, 55, 355)를 포함하는, 컴퓨터 시스템에 의해 구현가능한 방법.
제1항에 있어서, 상기 코퍼스는 웹(예를 들어, 171, 173, 180, 185, 220, 224, 226) 상의 컨텐츠를 포함하는 것인, 컴퓨터 시스템에 의해 구현가능한 방법.
제1항에 있어서, 연어가 상기 코퍼스에서 발견되지 않는 경우(예를 들어, 371, 373) 또는 연어가 상기 코퍼스에 상기 연어의 퍼지 매치가 상당히 존재함을 나타내는 사전 선택된 문턱값 매칭 스코어를 넘는 스코어를 얻지 못한 경우(예를 들어, 375, 377), 상기 연어는 적절치 않은 것인, 컴퓨터 시스템에 의해 구현가능한 방법.
제1항에 있어서, 상기 코퍼스는 네트워크(예를 들어, 171, 173, 180, 185, 220, 224, 226)를 통해 액세스가능한 컨텐츠를 포함하는 것인, 컴퓨터 시스템에 의해 구현가능한 방법.
제1항에 있어서, 상기 연어들을 상기 코퍼스와 비교하는 단계는,

상기 연어들 중 하나 이상의 연어들 각각을 포함하는 하나 이상의 질의어를 사용하여 하나 이상의 웹 검색을 수행하는 단계(예를 들어, 361, 363, 365, 367)를 포함하는 것인, 컴퓨터 시스템에 의해 구현가능한 방법.
제5항에 있어서, 검색이 수행되는 상기 연어들 중 하나 이상의 연어들 각각에 대해, 상기 질의어들 중 하나가 상기 연어의 매칭에 대한 사전 선택된 문턱값을 만족시키는 검색 결과를 제공할 때까지 또는 상기 사전 선택된 문턱값을 만족시키지 않고 상기 연어를 포함하는 상기 질의어들 모두가 사용될 때까지(예를 들어, 351, 353), 상기 연어를 포함하는 상기 하나 이상의 질의어들 각각에 대해 검색이 수행되는 것인, 컴퓨터 시스템에 의해 구현가능한 방법.
제6항에 있어서, 검색이 수행되는 상기 연어들 각각에 대해, 상기 연어를 포함하는 질의어들이 상기 코퍼스에 상기 질의어들의 퍼지 매치가 상당히 존재함을 나타내는 사전 선택된 문턱값 매칭 스코어를 넘는 스코어를 얻지 못한 경우(예를 들어, 375, 377), 상기 연어가 적절치 않은 것인, 컴퓨터 시스템에 의해 구현가능한 방법.
제6항에 있어서, 상기 질의어들 중 적어도 하나가 상기 연어를 포함하는 문장을 포함하는 것(예를 들어, 361)인, 컴퓨터 시스템에 의해 구현가능한 방법.
제6항에 있어서, 상기 질의어들 중 적어도 하나가 상기 연어를 포함하는 축약된 문장을 포함하고, 상기 축약된 문장은 상기 연어를 포함하는 문장으로부터 보조어를 제거함으로써 형성되는 것(예를 들어, 363)인, 컴퓨터 시스템에 의해 구현가능한 방법.
제6항에 있어서, 상기 질의어들 중 적어도 하나는 상기 연어를 포함하는 청크 쌍을 포함하는 것(예를 들어, 365)인, 컴퓨터 시스템에 의해 구현가능한 방법.
제6항에 있어서, 상기 질의어들 중 적어도 하나는 상기 연어를 포함하는 단어 쌍을 포함하는 것(예를 들어, 367)인, 컴퓨터 시스템에 의해 구현가능한 방법.
제1항에 있어서, 상기 텍스트 샘플을 태깅하는 품사(예를 들어, 25, 65)를 더 포함하며,

상기 코퍼스와 비교되는 상기 연어들은 동사-명사 연어, 전치사-명사 연어, 형용사-명사 연어 및 동사-부사 연어 중 적어도 하나를 포함하도록 상기 텍스트 샘플로부터 선택되는 것(예를 들어, 19, 67)인, 컴퓨터 시스템에 의해 구현가능한 방법.
제1항에 있어서, 상기 텍스트 샘플은 타겟 언어로 되어 있고,

상기 방법은 상기 연어를 상기 타겟 언어로 되어 있는 것으로 표시된 컨텐츠하고만 비교하기 위해 코퍼스를 스크리닝하는 단계를 더 포함하는 것인, 컴퓨터 시스템에 의해 구현가능한 방법.
제1항에 있어서, 상기 텍스트 샘플이 비원어민 어법을 보여주는 것으로 표시되어 있는지를 판정하기 위해 상기 텍스트 샘플을 스크리닝하는 단계(예를 들어, 63), 및

상기 텍스트 샘플이 비원어민 어법을 보여주는 것으로 표시되어 있는 경우, 상기 텍스트 샘플로부터의 상기 연어들을 상기 코퍼스와 비교하는 단계를 자동으로 개시하는 단계를 더 포함하는, 컴퓨터 시스템에 의해 구현가능한 방법.
제1항에 있어서, 상기 적절치 않은 단어 연어들 중 하나에 있는 단어들 중 하나를 대체하는 와일드 카드를 갖는 하나 이상의 질의어를 작성하는 단계(예를 들어, 71),

상기 질의어들이 있는지 단어 연어 참고 자료를 검색하는 단계(예를 들어, 73),

후보 단어가 상기 와일드 카드를 대체하는 비율이 비교적 높은 상기 검색 결과를 식별하는 단계(예를 들어, 75), 및

상기 후보 단어를 갖는 상기 검색 결과를 상기 출력 장치를 통해 적절할 것 같은 단어 연어로서 제공하는 단계(예를 들어, 77)를 더 포함하는, 컴퓨터 시스템에 의해 구현가능한 방법.
제15항에 있어서, 상기 질의어들은 문장 템플릿(예를 들어, 361, 363), 청크 템플릿(예를 들어, 365), 및 단어 템플릿(예를 들어, 367) 중 하나 이상을 포함하며,

상기 후보 단어가 상기 와일드 카드를 대체하는 비율이 비교적 높은 상기 검색 결과는 상기 후보 단어를 포함하는 상기 검색 결과의 비율을 질의 템플릿 가중치 - 이 가중치는 상기 문장 템플릿에 대해 가장 높고 상기 청크 템플릿에 대해 낮으며 상기 단어 템플릿에 대해 가장 낮음 - 와 곱함으로써 평가되는 것인, 컴퓨터 시스템에 의해 구현가능한 방법.
제15항에 있어서, 상기 질의어들은 동사-명사 연어, 전치사-명사 연어, 형용사-명사 연어, 및 동사-부사 연어 중 하나 이상을 포함하고,

상기 와일드 카드가 동사-명사 연어 내의 동사, 동사-명사 연어 내의 명사, 전치사-명사 연어 내의 전치사, 형용사-명사 연어 내의 형용사, 또는 동사-부사 연 어 내의 부사로서 선택되는 것(예를 들어, 19, 67)인, 컴퓨터 시스템에 의해 구현가능한 방법.
제15항에 있어서, 사용자가 상기 적절할 것 같은 단어 연어들 중 하나를 선택하여 그에 대응하는 적절치 않은 단어 연어를 대체할 수 있게 해주는 단계를 더 포함하는, 컴퓨터 시스템에 의해 구현가능한 방법.
컴퓨팅 시스템(예를 들어, 100, 110, 180, 200, 224, 226)에 의해 실행가능한 명령어들을 포함하는 매체(예를 들어, 131, 132, 152, 156, 204)로서,

상기 명령어들은,

텍스트에서의 단어 연어의 표시를 수신하고(예를 들어, 15, 17, 61, 63),

상기 표시된 단어 연어와 연관된 하나 이상의 질의 템플릿들 각각에 대해 웹 검색을 수행하며(예를 들어, 51, 351) - 상기 질의 템플릿들 중 하나는 상기 단어 연어가 발견된 문장을 포함하고(예를 들어, 361, 363), 상기 질의 템플릿들 중 하나는 상기 단어 연어를 포함하는 청크 쌍을 포함하며(예를 들어, 365), 상기 질의 템플릿들 중 하나는 상기 단어 연어를 포함하는 개개의 단어 쌍을 포함함(예를 들어, 367) -,

상기 문장을 포함하는 상기 질의 템플릿의 정확한 매치 또는 사전 선택된 문턱값보다 큰 매칭 스코어에 의해 표시되는 것과 같이, 상기 하나 이상의 질의 템플릿들 각각에 대한 웹 검색의 결과가 상기 단어 연어가 정상적인 어법에 대응한다고 나타내는지 여부를 평가하고(예를 들어, 53, 353),

상기 단어 연어가 정상적인 어법에 대응하는지 여부를 사용자-인식가능 출력 장치(예를 들어, 191, 196, 197, 206)를 통해 나타내도록(예를 들어, 33, 32, 43, 45, 47, 55, 355),

상기 컴퓨팅 시스템을 구성하는 것인, 컴퓨팅 시스템에 의해 실행가능한 명령어들을 포함하는 매체.
컴퓨팅 시스템(예를 들어, 100, 110, 180, 200, 224, 226)으로서,

텍스트에서의 단어 연어들을 식별하고(예를 들어, 51, 351),

상기 단어 연어들 각각에 기초한 일련의 질의 템플릿에 대해 웹을 검색하며(예를 들어, 53, 353),

상기 검색 결과가 상기 단어 연어들이 웹 상에서 비교적 찾기 어렵다는 것을 나타내는지 여부를 사용자 출력 장치를 통해 표시(예를 들어, 33, 32, 43, 45, 47, 55, 355)하도록 구성되어 있는, 컴퓨팅 시스템.