KR20090116750A

KR20090116750A - 컴퓨터 시스템의 액세스 및 미디어 파일의 주석 처리 제어하기

Info

Publication number: KR20090116750A
Application number: KR1020097017360A
Authority: KR
Inventors: 루이스 본 안; 마누엘 블룸; 벤자민 디. 마우러
Original assignee: 카네기 멜론 유니버시티
Priority date: 2007-01-23
Filing date: 2008-01-23
Publication date: 2009-11-11
Also published as: EP2109837A4; US20140181960A1; US20100031330A1; US9600648B2; AU2008209429B2; EP2109837B1; EP2605171A2; BRPI0807415A2; WO2008091675A1; JP2010517169A; AU2008209429A1; CN101622620A; US8555353B2; CN101622620B; KR101451454B1; EP2605171A3; CA2676395A1; CA2676395C; EP2605171B1; EP2109837A1

Abstract

컴퓨터 시스템(12)으로의 액세스를 제어하고, 미디어 파일을 주석 처리하기 위한 방법 및 장치가 제공된다. 하나의 실시예가 사용자에게 문제를 생성하는 단계(30)를 포함하는 방법을 포함하며, 여기서, 문제는 검증 부분과 판독 부분을 포함한다. 상기 방법은 또한 상기 사용자가 문제의 검증 부분과 문제의 판독 부분 모두를 풀도록 하는 단계(32)와, 상기 사용자로부터 입력을 수신하는 단계(34)와, 문제의 검증 부분에 대한 사용자로부터의 입력이 상기 문제의 검증 부분의 알려진 답에 해당하는가의 여부를 판단하는 단계(36)와, 상기 문제의 검증 부분에 대한 사용자로부터의 입력이 상기 문제의 검증 부분의 알려진 답에 해당하는 경우, 문제의 판독 부분에 대한 사용자로부터의 입력을, 문제의 판독 부분의 답이라고 식별하는 단계(38)를 포함한다.

Description

컴퓨터 시스템의 액세스 및 미디어 파일의 주석 처리 제어하기{CONTROLLING ACCESS TO COMPUTER SYSTEMS AND FOR ANNOTATING MEDIA FILES}

이 출원은 2007년 1월 23일자 US 가특허출원 제60/881,962호로부터 우선권을 주장하며, 상기 출원은 본원에서 참조로서 인용된다.

본 발명은 컴퓨터 시스템으로의 접근을 제어하고, 미디어 파일을 주석처리(annotating)하기 위한 방법 및 장치에 관련되어 있다.

CAPTCHA는 “Completely Automated Public Turing test to tell Computers and Humans Apart(컴퓨터와 인간을 구별하기 위한 완전 자동화된 퍼블릭 튜링 테스트)”의 머리글자이며, 사용자가 인간인지, 컴퓨터인지를 판단하기 위해 사용되는 문제-답 테스트(challenge-answer test)이다. 이러한 프로그램은 월드 와이드 웹에서 흔하게 사용되며, 종종 왜곡된 텍스트를 내포하는 이미지의 형태를 취한다. CAPTCHA는 많은 타입의 서비스를 보호하기 위해 사용된다. 예를 들어, e-메일 서비스, 티켓 판매 서비스, 사회적 네트워크, wikis(웹 백과사전) 및 블로그 등의 서비스를 보호하기 위해 사용된다. 이들은 종종 웹 등록 페이지의 하단에서 사용되며, 예를 들어, Hotmail, Yahoo, Gmail, MSN Mail, PayPal, TicketMaster, United States Patent and Trademark Office 및 그 밖의 다른 다수의 유명한 웹 사이트에 서 자동 오용(가령, 매일 다수의 무료 이메일 계정을 얻도록 작성된 프로그램)을 방지하기 위해 사용된다. 컴퓨터 프로그램은 왜곡된 텍스트를 판독할 수 없고, 인간은 할 수 있기 때문에 CAPTCHA가 효과적이다. 일반적으로, CAPCHA에 의해, 사용자는 이미지에 존재하는 휘어진 문자에 해당하는 글자, 숫자 및 그 밖의 다른 기호를 타이핑함으로써, 자신이 인간임을 쉽게 증명할 수 있다.

그러나 종래의 CAPTCHA는 특정 단점을 갖고 있다. 구체적으로, 종래 기술 CAPTCHA에서 사용되는 이미지는 특별히 CAPTCHA로서 사용되기 위해 인공적으로 생성되며, 인간 사용자와 인간이 아닌 사용자를 구별하도록 항상 잘 선택되는 것은 아니다. 따라서 종래의 CAPTCHA 시스템을 빠져나가려고 시도하는 스패머(spammer) 등이 종래 기술의 CAPTCHA에 올바르게 대답하도록 컴퓨터를 사용하는 것이 점점 증가하고 있다. 따라서 컴퓨터가 대답하기 어려우면서, 인간은 대답하기 쉬운 CAPTCHA를 생성하기 위한 더 효과적인 방식이 필요하다.

전 세계에 존재하는 인간들이 매일 6000만개의 CAPTCHA를 풀며, 각각의 경우에서, 왜곡된 문자를 타이핑하기 위해 대략 10초가 소비된다. 이 시간들을 모으면, 150,000 이상의 시간이 된다. 이러한 노동력은 아주 귀중하며, 거의 당연히, 컴퓨터에 의해서는 이뤄질 수 없다. 그러나 종래 기술의 CAPTCHA는 인간 사용자의 접근을 제한하는 방식으로 사용되는 것은 둘째 치고, 이러한 작업의 임의의 유용한 종료를 위해 제공되지 않는다. 따라서 CAPTCHA를 푸는데 소비하는 총 시간을 더 효율적으로 사용하는 것에 대한 필요가 존재한다.

덧붙이자면, 인간의 지식을 보존하고, 전세계에서 정보에 보다 더 잘 접근할 수 있도록, 컴퓨터 시대 이전에 쓰여진 물리적 책이나 텍스트들은 전부 현재 디지털화되고 있다(가령, Google Books Project와 Internet Archive). 페이지들은 이미지 형태로 포토그래픽-스캔되고, 그 후, 광학 문자 인식(OCR: Optical Character Recognition)을 이용하여, 텍스트로 변환된다. 이미지는 작은 소형 장치 상에서 저장되기 어렵고, 다운로드하기 비싸며, 쉽게 검색할 수 없기 때문에, OCR을 이용한 이미지의 텍스트로의 변환이 유용하다. 그러나 디지털화 프로세스의 가장 큰 장애물 중 하나는 OCR이 스캐닝된 텍스트의 이미지 내의 단어를 해독할 때 완벽하지 않다는 것이다. 잉크가 바랬거나, 페이지가 노랗게 변해져 있거나, 페이지에 또 다른 결함이 존재하는 오래된 인쇄물의 경우, OCR은 단어의 약 20%를 인식할 수 없다. 컴퓨터와 달리, 인간은 이러한 인쇄물을 상당히 더 정확하게 전사한다. 한 명의 인간이 단어 수준에서 95% 이상의 정확도를 달성할 수 있다. 각각 독립적으로 텍스트를 타이핑하고, 그 후 해독이 비교되는“키 및 검증(key and verify)” 기법을 이용하는 2명의 인간은 단어 레벨에서 99.5% 이상을 달성할 수 있다(복수 명의 인간들에 대해 오류가 완전히 독립적인 것은 아니다). 불행하게도, 인간 전사자(human transcriber)의 비용은 비싸며, 따라서 극도로 중요한 문서만 수기로 전사된다.

따라서 CAPTCHA와 관련된 개선된 방법과 장치에 대한 필요성이 존재하며, 특히 컴퓨터 시스템으로의 접근을 제어하는 것 외의 이점(가령, 종이 텍스트를 효과적으로 저장되고 검색될 수 있는 전자 형태로 비용-효율적으로 변환하는 것)을 제공하는 CAPTCHA에 관련된 방법 및 장치가 필요하다. 본 발명의 이러한 이점과 그 밖의 다른 이점이 이하에서 더 상세히 설명될 것이다.

본 발명은 컴퓨터 시스템으로의 접근을 제어하고 미디어 파일(media file)을 주석처리(annotating)하기 위한 방법 및 장치를 포함한다. 특히, 본 발명은 개선된 CAPTCHA를 제공할 뿐 아니라, 본 발명에 의해, CAPTCHA 풀기의 동작이 추가적인 생산적인 작업을 위해 활용 및 사용될 수 있다.

CAPTCHA는 인간 사용자와 인간이 아닌 사용자를 구별하기 위해 사용되는 문제-답 테스트(challenge-response test)를 포함한다. 본 발명에 따라, 문제(challenge)는, 예를 들어, 사용자가 올바르게 판독해야 하고 타이핑해야 할 단어의 왜곡된 이미지, 또는 왜곡되지 않은 이미지이거나, 사용자가 듣고 타이핑해야 할 왜곡되거나 왜곡되지 않은 오디오 클립이거나, 상기 문제는 왜곡되거나 왜곡되지 않은 물체의 이미지일 수 있으며, 이때, 사용자는 상기 물체의 이름을 식별하고 타이핑해야 한다. 또는 문제는 그 밖의 다른 임의의 형태를 취할 수 있다. 덧붙여, 본 발명의 일부 실시예에 따라, 이하에서 설명될 바와 같이, 문제는 하나 이상의 부분을 포함할 수 있다. 본 발명은 “re-CAPTCHA”라고 일컬어질 수 있다.

본 발명은, 프로세서에 의해 실행될 때, 프로세서가 본 발명에 따르는 특정 동작을 수행하게 하는 컴퓨터 소프트웨어로서 포함, 또는 구현될 수 있다. 하나의 실시예에서, 본 발명은 하나의 단일 컴퓨터, 또는 네트워크를 통해 연결되는 둘 이상의 컴퓨터를 포함한다. 하나 이상의 컴퓨터는, 실행될 때, 프로세서가 본원에서 설명되는 작업을 수행하게 하는 컴퓨터-판독형 인스트럭션을 포함하는 메모리를 포함한다.

CAPTCHA를 푸는 것은 당연히 컴퓨터는 아직 수행할 수 없는 작업을 사람이 수행할 것을 필요로 한다. 본 발명에 의해, 이러한 인간의 수고가 적극적으로 활용되며, 이러한 방식으로 성취될 것으로 기대되는 유용한 결과로는, 광학 문자 인식(OCR) 프로그램이 해석할 수 없는 텍스트를 인식한다는 것과, 음성 인식 프로그램이 해석할 수 없었던 오디오 파일을 전사(transcribing)한다는 것과, 그 밖의 다른 용도가 있다. 다시 말하자면, 본 발명에 의해, CAPTCHA를 사용하지 않는 다른 경우라면 디지털화하기에 비용-비효율적인, 미디어를 디지털화하는 것을 보조하기 위해, CAPTCHA를 사용하는 것이 가능해진다. 서면 텍스트의 경우, 이는 컴퓨터는 인식할 수 없는 단어를 인간이 해석하게 하기 위해 CAPTCHA를 이용함을 의미한다.

특히, 본 발명은 낡은 인쇄물을, 효과적으로 저장되고 검색될 수 있는 전자 형태로, 단어 단위로 전사하기 위해 사용될 수 있다. 본 발명은 또한, 손 글씨 인쇄체 문자와 손 글씨 필기체 문자 중 하나를 이용하여, 손 글씨 문서에 관련해서 사용될 수 있다. 손 글씨 텍스트에 관하여, 본 발명은, 편지와, 본 발명을 사용하지 않는다면, 전사하기에 비용이 비쌀 그 밖의 다른 문서를 전사하기 위해 사용될 수 있다. 특히 손 글씨 텍스트는 OCR하기 어려우며, 본 발명은 월드 와이드 웹, 또는 그 밖의 다른 곳 전체에서 사람들이 CAPTCHA를 푼 힘을, 이 프로세스를 보조하기 위해 활용할 수 있다. “표준” CAPTCHA가 컴퓨터에 의해 발생되는 랜덤 문자의 이미지를 디스플레이하는 반면에, 본 발명은 스캔된 텍스트로부터 기인하는 단어, 또는 단어의 왜곡된 이미지를 디스플레이할 수 있다. 그 후, 사용자에 의해 입력되는 해답들이 집적되어, 디지털화 프로세스에서의 문자 인식이 개선될 수 있다.

일부 실시예에서, 효율을 증가시키기 위해, 자동화된 OCR 프로그램이 인식할 수 없는 단어만 인간에게 전송되고 CAPCHA의 문제로서 사용된다. 그러나 또 다른 실시예에서, 본 발명은 자동화된 OCR 프로그램이 인식할 수 없는 단어로만 국한되지 않는다. 예를 들어, OCR 프로그램에 의해 적정하게 식별되는 단어는, 본 발명에서 “검증(verify)”, 또는 “알려진(known)" 단어로서 사용될 수 있다. 이는 이하에서 더 상세히 설명된다.

인간과 컴퓨터를 구별하는 것을 보조하기 위해, 시스템은 사용자의 작업을 검증할 수 있을 필요가 있다. 본 발명의 일부 실시예는 2개의 부분 문제를 사용하며, 여기서, 사용자는 2개의 단어를 제공받는데, 하나는 답이 알려져 있지 않고("판독" 부분이라고도 일컬어짐), 다른 하나는 답이 알려져 있다(“검증” 부분이라고도 일컬어짐). 사용자가 “알려진(known)” 단어를 올바르게 타이핑하면, 시스템은, 사용자가 “알려지지 않은(unknown)” 단어도 역시 올바르게 타이핑했다는 확신(confidence)을 얻는다. 이러한 본 발명의 양태는 단어 문제에 국한되지 않으며, 본 발명에서 오디오 클립(audio clip) 및 그 밖의 다른 문제 형태를 이용하는 2 부분 문제가 또한 사용될 수 있다.

부분적으로, 본 발명은 매일 수백 번의 CAPTCHA를 풀기 위해 쓰이는 인간의 수고를 온라인 상으로 책을 판독(reading)하는 것으로 돌리기 위해 사용될 것이다. 현재 다수의 프로젝트가 물리적 책을 디지털화하는 시도 중이다(예를 들어, Google Books, Internet Archive 등). OCR을 이용하여, 책이 스캐닝되고, 그 후, 검색 가능하도록, ASCII 텍스트로 변환된다. OCR이 대부분의 책에서 극도로 높은 정확성을 달성할 수 있을지라도, 텍스트가 상당히 왜곡될 때까지 형편없이 스캔되거나, 손상된(가령, 연필이나 펜으로 표시된) 것, 또는 낡아서 품질이 나빠진 것들이 다수 존재한다. 이러한 경우, OCR은 낮은 퍼센트의 인식률을 달성한다(예를 들어, 도 5 참조). 본 발명은, OCR 프로그램에 의해 판독될 수 없는 단어를 CAPTCHA의 형태로 웹 상으로 인간에게 전송함으로써, 책을 디지털화하는 프로세스를 개선할 것이다.

본 발명의 일부 실시예에 따라서, 다수의 OCR 프로그램에 의해 책의 스캐닝된 페이지의 이미지가 처리된다. OCR에 의해 올바르게 판단될 수 없는 이러한 단어들은 하나의 단어, 또는 둘 이상의 단어, 또는 하나의 단어의 일부분을 포함하는 이미지로 분리된다. 예를 들어, 긴 단어는 둘 이상의 부분으로 분리될 수 있으며, 짧은 단어들은 서로 함께 조합될 수 있다. OCR 프로그램에 의해 단어들을 자동으로 분리시키는 것은, 단어가 무엇인지를 인식하는 것보다, 더 정확하게 이뤄질 수 있다. 덧붙이자면, 가장 일반적인 OCR 프로그램은 각각의 단어에 대해 신뢰 점수(confidence score)를 반환하며, 이 신뢰 점수는 상기 단어가 올바르게 판독되었는가의 여부를 결정하기 위해 사용될 수 있다. 이러한 각각의 단어-이미지는 CAPTCHA로서 사용될 것이며(도 6 참조), 본원에서 종종 “re-CAPTCHA”라고 지정된다.

음성 단어(spoken word)의 오디오 파일의 경우, 유사한 프로세스가 뒤따른다. 음성 인식 소프트웨어를 통해 오디오 파일이 처리되고, 인식될 수 없는 부분(또는 인식이 낮은 신뢰 점수를 갖는 부분)이 사용자에게 전사(transcription)를 위해 제공된다. 단어들이 이산적이고, 여백에 의해 분리되어 있는 판독(reading)과 달리, 음성은 연속 프로세스이기 때문에, 사용자에게 제공되는 사운드 클립은 몇 개의 단어, 또는 전체 문장을 포함할 것이다. 사용되는 단어의 개수에 관계없이, 음성 인식 소프트웨어가 높은 신뢰도로 처리할 수 없는 오디오 파일이 또한 reCAPTCHA 프로세스의 문제 중 알려지지 않은 부분(unknown part)으로서 사용될 수 있다.

사용자가 이러한 CAPTCHA에 대해 올바른 답이 주어졌다고 확신할 때 심각한 문제점이 발생한다. 이 문제점은 본 발명에 의해, 사람들 자체를 이용함으로써 해결된다. 본 발명이 OCR에 의해 올바르게 판독될 수 없는 새로운 단어에 직면할 때면 언제나, 답을 이미 알고 있는 다른 단어의 이미지와 결합되어 사용자에게 제공될 것이다. 그 후, 사용자는 “알려진”(즉 “검증”) 단어와, “알려지지 않은”(즉, “판독”) 단어 모두를 풀도록 요청받을 것이다. 사용자가 답이 이미 알려져 있는, 알려진 단어를 푼 경우, 알려져 있지 않은 단어에 대한 답도 또한 올바르다고 추측될 수 있다. 본 발명은 알려지지 않은 단어를 다수의 사용자에게 제공하여, 원래의 답이 올바랐는가의 여부를 높은 신뢰도를 갖고 판단할 수 있다. 특정 인원의 사람들이 모두, 동일한 알려지지 않은 단어에 대해 동일한 답을 제출했으면, 이 답은 올바른 것으로 추측될 수 있다.

본 발명은 인간이 아닌 사용자에 의한 시도에 안전하고, 효과적으로 대항한다. 본 발명의 견고함을 보장하기 위한 한 가지 방법은, 동일한 이미지, 또는 오디오 클립, 또는 그 밖의 다른 문제가 동일한 형태로 결코 2번은 제공되지 않는 것을 보장하는 것이다. 이는 이전에 인식된 문제를 수집하고, 이미지(또는 오디오 파일)를 이전에 판단된 올바른 해석과 함께 저장할 수 있는 악성 소프트웨어 프로그램을 기록하는 것이 가능하기 때문이다. 이것이 행해지면, 악성 프로그램은 CAPTCHA 문제를 제공하는 웹사이트를 접근하고, 이미지(또는 오디오 파일)가 이전에 올바르게 식별되었는가를 알아보기 위해 파일을 검색하고, 그 후, 문제에 대해 이전에 저장된 올바른 응답을 제공할 수 있다. 이를 수행한 후, 동일한 악성 프로그램은 문제의 알려지지 않은 부분(가령, 판독 단어)의 완전히 거짓인 해석을 제공하고, 그 후, 알려지지 않은 이미지(또는 오디오 파일)와 거짓 답 모두를 저장하여, 상기 악성 소프트웨어가 동일한 문제에 직면할 때 동일한 거짓 답이 주어질 수 있다. 이를 반복적으로 수행함으로써, 결국 상기 악성 소프트웨어는 문제의 알려지지 않은 부분에 대해 동일한 거짓 답을 제공할 수 있으며, 이로 인해서, re-CAPTCHA를 제공하는 컴퓨터가 문제의 알려지지 않은 부분에 대한 이 답에 높은 신뢰 레벨을 잘못 할당할 것이다.

덧붙여, “봇(bot)”이나 자동 에이전트(automated agent)에 대항하여 보안하기 위해, 본 발명은 다수의 메커니즘을 이용할 수 있다. 예를 들어, 알려지지 않은 단어의 이미지가 다수의 사용자에게 제공되어, 단어의 올바름에 대한 확신을 얻을 수 있다. 덧붙이자면, 이미지, 또는 그 밖의 다른 문제가 다수의 사용자에게 제공될 때, 상기 문제가 사용자에게 제공되기에 앞서, 매번 랜덤으로 왜곡될 수 있다. 따라서 동일한 이미지가 결코 서비스되지 않을 것이다.

본 발명의 또 다른 이점은, 본 발명이 자동 봇(automated agent)에 의해 깨진 적이 있다면, 스캔된 책이나 오디오 파일을 전사함에 있어 문자 인식 정확도를 직접 개선하기 위해 상기 봇이 사용될 수 있다는 것이다. 즉, 본 발명을 무효화시키는 중에 프로그램의 정확도를 개선하는 것이 스캐닝된 책의 텍스트, 또는 레코딩된 클립의 오디오의 자동 인식의 개선으로 직접 해석되어진다. 이미지가 인공적으로 생성되었던 이전의 CAPTCHA에서는 이렇지 않는다.

요컨대, 본 발명은 인간과 컴퓨터를 구별하기 위해 사용되며, 유용한 정보를 생성하기 위해 사용된다. 컴퓨터가 해석할 수 없는 기호, 예를 들면, 이미지(또는 사운드 클립)가 개체로서 제공되어, 웹사이트를 접근하도록 시도한다. 이들 기호 중 일부는 이전에 식별되었던 적이 있고, 나머지는 식별된 적이 없다. 웹 사이트를 접근하는 개체가 이전에 식별된 기호를 올바르게 해석한 경우, 상기 개체는 인간인 것으로 추측되고, 입력된 정보는 올바른 것으로 추측된다. 개체가 올바른 해석을 올바르게 입력하지 못한 경우, 상기 개체는 컴퓨터인 것으로 추측된다. 인간이라고 판단된 다수의 사용자에게 알려지지 않은 단어 문제를 제공한 후, 상기 알려지지 않은 단어의 해석은 각각의 해석에 대해 확립된 신뢰도 레벨과 비교된다. 해석의 신뢰 레벨이 지정 레벨에 도달하면, 해석은 올바르다고 추측된다. 이러한 방식으로, 컴퓨터 사용자의 지력(brainpower)들이 수집되어, 컴퓨터가 발생시킬 수 없는 정보를 모을 수 있는데, 예를 들면, OCR 프로그램에 의해 올바르게 식별될 수 없는 단어의 식별, 또는 음성 인식 프로그램이 인식할 수 없는 음성의 전사가 있다. 악성 소프트웨어가 문제 중 알려지지 않은 단어에 대해 일관된, 그러나 올바르지 않은 답을 반복적으로 제공하는 것을 방지하기 위해, 이전에 식별된 기호와 알려지지 않은 단어 모두, 사용자에게 제공되기 전에 랜덤으로 왜곡되어, 악성 소프트웨어가 알려지지 않은 단어를 반복적으로 인식하는 것을 방지할 수 있다.

도 1은 본 발명에 따르는 시스템의 하나의 실시예를 도시한다.

도 2는 본 발명에 따르는 방법의 하나의 실시예를 도시하는 흐름도이다.

도 3은 판독 부분과 검증 부분이 발생된느 본 발명에 따르는 방법의 하나의 실시예를 도시하는 흐름도이다.

도 4는 문제에 대한 답이 문서의 전자적 표현을 보충하기 위해 사용되는 본 발명의 하나의 실시예를 도시하는 흐름도이다.

도 5는 책에서 스캐닝된 텍스트의 하나의 예를 도시한다.

도 6은 본 발명에 따르는 스캐닝된 책으로부터 생성된 예시적 이미지를 도시한다.

도 7은 OCR(optical character recognition)로부터 스캐닝된 텍스트와 연합되어 사용되는 본 발명의 동작의 하나의 실시예를 도시하는 흐름도이다.

도 8은 본 발명에 따르는 시스템의 또 다른 실시예를 도시한다.

도 9는 도 2에서 도시된 판단 단계의 하나의 실시예를 도시하는 흐름도이다.

도 10은 문서로부터 이미지가 취해지고, 문제의 일부분으로서 사용되는 본 발명의 하나의 실시예를 도시한다.

도 1은 본 발명에 따르는 시스템(10)의 하나의 실시예를 도시한다. 시스템(10)은 하나의 네트워크(14)를 통해 서로 연결되는 몇 개의 컴퓨터(12)를 포함한 다. 단 하나의 컴퓨터(12)만 프로세서(16)와, 메모리(18)와, 입력 장치(20)와, 출력 장치(22)를 포함하는 것으로 도시되었지만, 그 밖의 다른 컴퓨터(12)도 프로세서(16)와, 메모리(18)와, 입력 장치(20)와, 출력 장치(22)를 포함한다. 덧붙여, 상기 시스템(10)은 도 1에서 도시된 시스템보다 더 많거나 더 적은 개수의 컴퓨터(12)를 포함할 수 있다.

시스템(10)은 본 발명의 동작 전용일 필요는 없으며, 시스템(10) 내에서, 컴퓨터(12) 중 일부가 본 발명을 사용하는 사람(가령, 시스템(10)의 또 다른 부분으로의 접근을 원하는 사람)에 의해 사용될 수 있으며, 그 밖의 다른 컴퓨터(12)가 본 발명의 동작과 시스템(10)의 동작을 제어하는 프로세스와 연계될 수 있으며, (예를 들어, 본 발명에 따라서, 사용자 간의 상호작용을 제어하고, 데이터를 처리하며, 데이터베이스를 생성하거나 업데이트하는 서버가 있다), 일부 컴퓨터(12)는 본 발명과 관련되지 않은 그 밖의 다른 작업을 수행하는 사람들(예를 들어, 본 발명에 관계없이 네트워크(14)를 통해 통신하는 사람들)에 의해 사용될 수 있다.

상기 컴퓨터(12)는, 예를 들어, 범용 컴퓨터, 서버, 또는 그 밖의 다른 타입의 컴퓨터 등의 전통적인 컴퓨터일 수 있다. 또한 컴퓨터(12) 중 하나 이상은 예를 들어 덤(dumb) 단말기인 입력/출력 장치에 불과할 수 있으며, 이러한 장치에 의해, 사용자는 시스템(10)의 나머지 부분과 통신할 수 있다. 컴퓨터(12)는 모두 동일하거나, 서로 다를 수 있다. 컴퓨터(12)는, 예를 들어, 프로세서(16)와, 메모리 장치(18)와, 입력 장치(20)와, 출력 장치(22)를 포함할 수 있다.

컴퓨터(12)는 서로 다른 형태를 취할 수 있다. 일반적으로 컴퓨터(12)는 일 반적으로 인간 사용자를 위한 인터페이스 위주로 설명되며, 일부 실시예에서, 컴퓨터는, 어떠한 인간 인터페이스 장치(가령, 키보드(20), 또는 디스플레이(22))도 없이, 네트워크(14)로 연결되는 프로세서(16)와 메모리 장치(18)를 포함할 수 있다. 이러한 컴퓨터(12)는, 예를 들어 네트워크(14)를 통해, 나머지 컴퓨터(12) 중 하나 이상으로부터 접근될 수 있으며, 예를 들어, 본 발명에 따라 데이터를 프로세싱하고 저장하고, 본 발명에 따르는 프로세싱을 운영 및 제어하도록 사용될 수 있다. 둘 이상의 프로세서(16)와 메모리 장치(18)가 본 발명에 따라 사용될 수 있다. 하나의 실시예에서, 프로세서(16)와 메모리 장치(18)는 본 발명에 따르는 작업을 수행하도록 사용되고, 다른 프로세서(16)와 다른 메모리 장치(18)가, 본 발명에 따라 생성된 데이터베이스의 생성, 저장, 프로세싱 및 접근을 위해 사용된다. 추가적인 프로세서(16)와 메모리 장치(18)가 또한 사용될 수 있다.

네트워크(14)는, 예를 들어, 인터넷, 또는 그 밖의 다른 공중 네트워크, 또는 사설 네트워크일 수 있다. 또 다른 실시예에서, 네트워크(14)는 종래의 네트워크 요소를 사용하지 않고, 컴퓨터들(12) 사이에 존재하는, 예를 들어, 케이블, 또는 와이어 등의 직접 연결(direct connection)일 수 있다. 덧붙이자면, 시스템(10), 컴퓨터(12) 및 네트워크(14)의 개수, 타입, 상호연결(interconnection) 및 그 밖의 다른 특성은, 본 발명에 따라 달라질 수 있다.

프로세서(16)는 입력 장치(20)로부터, 또는 그 밖의 다른 컴퓨터(12)로부터, 또는 입력 장치(20)와 다른 컴퓨터(12) 모두로부터 입력을 수신하고, 출력 장치(22)를 제어하기 위한 신호를 제공하거나, 다른 컴퓨터(12)나 시스템(10)의 다른 부분으로 데이터를 제공한다. 또한 상기 프로세서(16)는 특정 기능을 수행한다. 상기 프로세서(16)는 예를 들어, 소프트웨어, 펌웨어, 하드웨어의 형태로 되어 있는 컴퓨터-판독형 인스트럭션을 실행시킬 수 있다. 상기 컴퓨터-판독형 인스트럭션은 프로세서(16)에 의해 실행될 때, 프로세서(16), 또는 그 밖의 다른 장치로 하여금, 특정 방식으로 동작될 수 있게 하여, 신호가 프로세싱될 수 있게 한다. 상기 컴퓨터-판독형 인스트럭션은, 예를 들어, 하나 이상의 메모리 장치(18)에 저장될 수 있으며, 상기 메모리 장치는 둘 이상의 프로세서(16), 또는 그 밖의 다른 장치에 의해 공유될 수 있거나, 공유되지 않을 수 있다. 또한 시스템(10)의 동작의 다양한 양태를 제어하기 위해, 프로세서(16)가 시스템(10)의 다른 부분에 포함될 수 있다. 상기 프로세서들(16)은 함께, 또는 서로 독립적으로 동작할 수 있다.

메모리(18)는 컴퓨터-판독형 매체의 임의의 형태로 내장되는 임의의 형태의 컴퓨터-판독형 메모리일 수 있다. 예를 들어, 메모리(18)는 자기 형태, 또는 전자 형태, 또는 광학 형태, 또는 그 밖의 다른 형태로 정보를 저장할 수 있으며, 또 다른 장치, 예를 들면, 프로세서(16)와 일체형으로 구성되거나, 또는 스탠드-얼론형, 또는 이동형 메모리 장치(18)와 같은 개별 장치일 수 있다. 상기 메모리(18)는 다양한 형태의 매체(18), 예를 들어, 광학 디스크, 자기 디스크, 휴대용/이동형 메모리 장치 및 그 밖의 다른 형태로 구현될 수 있다.

메모리(18)는 프로세서(16)에 의해 실행될 때, 프로세서(16)가 특정 기능을 수행할 수 있게 해주는 컴퓨터-판독형 인스트럭션을 포함할 수 있다. 상기 메모리(18)는 프로세서(16)와 분리되어 있거나, 메모리(18)는 프로세서(16)와 일체 구 성될 수 있다. 또한 상기 메모리(18)는, 프로세서(16)와 일체 구성되거나, 프로세서(16)와 분리될 수 있는 둘 이상의 메모리 장치를 포함할 수 있다. 이러한 방식으로, 상기 시스템(10)은 본 발명에 따르는 바람직한 방식으로 동작될 수 있다.

입력 장치(20)는 키보드, 터치스크린, 컴퓨터 마우스, 마이크로폰, 또는 사용자로부터 정보를 입력받는 그 밖의 다른 형태일 수 있다.

출력 장치(22)는 비디오 디스플레이, 또는 스피커, 또는 사용자에게 정보를 출력하는 그 밖의 다른 형태일 수 있다.

본 발명에 따르는 시스템(10)을 이용한 다수의 변형예가 가능하다. 예를 들어, 시스템(10)이 네트워크(14)를 통한 동작을 맥락으로 설명될지라도, 시스템(10)은, 네트워크(14)에 의지하지 않고, 하나 이상의 컴퓨터(12)를 포함하는 스탠드-얼론(stand-alone)형 머신으로서 구현될 수 있다. 또한 각각의 컴퓨터(12)에 둘 이상의 프로세서(16), 메모리(18), 입력 장치(20) 및 출력 장치(22)가 존재할 수 있다. 덧붙여, 도 1에서 나타나는 장치가 시스템(10) 내에 포함되고, 도 1에서 나타나는 일부 장치는 생략되거나, 조합되거나, 서로 통합되어 하나의 단일 장치를 이룰 수 있다.

본 발명은 “시스템”접근을 제어하는 것 위주로 설명된다. 일반적으로 접근이 제어되는 “시스템“은, 예를 들어, 컴퓨터 시스템(12)으로서 함께 동작하는 웹 서버 및/또는 그 밖의 다른 장치로서 구현될 수 있는 하나 이상의 컴퓨터(12) 위주로 설명될 것이다. 또한 본 발명은 용어 "시스템(system)"을 네트워크(14)를 통해 연결되는 몇 개의 컴퓨터(12)로 구성된 그룹 단위로 참조번호 (10)과 함께 사용한 다. 또한 시스템(10)으로의 접근은 본 발명에 의해 제어될 수 있으며, 본 발명에 의해 접근이 제어되는 컴퓨터 시스템(12)에 포함된다.

도 2는 본 발명에 따르는 방법의 하나의 실시예를 도시하는 흐름도이다. 상기 방법은, 예를 들어, 시스템(10)에서 하나 이상의 메모리 장치(18)에 저장되는 컴퓨터-판독형 인스트럭션으로 구현될 수 있으며, 시스템(10)에서 하나 이상의 프로세서(16)에 의해 실행된다.

본 발명의 단계(30)는 컴퓨터 시스템의 사용자에게 문제(challenge)를 생성하는 단계를 포함한다. 상기 문제는 답(answer)이 알려져 있는 “검증(verify)” 부분과, 답이 알려져 있지 않는 “판독(read)” 부분을 포함한다. 예를 들어, 문제는, 사용자가 이미지를 보고, 특정 응답을 생성하기 쉬운 비주얼 문제(visual challenge)일 수 있다. 본 발명은 일반적으로 비주얼 문제의 관점에서 설명될 것이지만, 비주얼 문제를 이용하는 것으로 제한받지 않는다. 예를 들어, 본 발명의 또 다른 변형예에서, 문제는 오디오 문제(audio challenge)일 수 있으며, 여기서 사용자는 오디오 레코딩을 듣고, 바람직한 응답을 생성하는 것이 촉진된다. 또한 본 발명은 비주얼 및 오디오 외의 다른 문제, 예를 들어, 점자와 유사한 방식으로 사용될 수 있는 촉감 문제(tactile challenge)와 냄새와 맛에 관련된 문제를 갖고 이용되는 것이 가능하다.

본원에서 사용될 때, “알려진(known)”과 “알려지지 않은(unknown)”은 문제의 대응하는 부분에 대한 답과 관련된 확실성(certainty)을 참조할 수 있다. 이와 대조적으로 “알려진”과 “알려지지 않은“은 확실성을 나타내지 않고, 대신 답에 관련된 신뢰 수준을 나타낼 수 있다. 예를 들어, 광학 문자 인식(OCR)이, 이미지를 상기 이미지 내의 문자(character)들의 전자적 표현으로 변환하는 것의 정확도와 관련된 신뢰도 점수(confidence score)를 생성한다. 예를 들어, 이는 문자 단위로, 또는 단어 단위로, 또는 그 밖의 다른 방식으로, 이뤄질 수 있다. 이러한 OCR 프로세스로부터의 신뢰도 점수는, 문자, 또는 일련의 문자, 또는 단어, 또는 일련의 단어가 "알려진"건지 또는 "알려지지 않은"건지를 판단할 때 사용된다. 또한, "알려진"과 "알려지지 않은"을 판단하기 위해, 그 밖의 다른 기준이 사용될 수 있다.

단계(32)는 사용자가 문제의 검증 부분과 문제의 판독 부분을 모두 푸는 단계를 촉진시키는 것을 포함한다. 모니터 상에, 또는 그 밖의 다른 출력 장치 상에 문제의 판독 부분과 검증 부분을 모두 제공함으로써, 사용자는 비주얼 문제를 프롬프트-제공 받을 수 있다. 상기 판독 부분과 검증 부분은 동시에, 또는 서로 다른 시점에서 제공될 수 있다. 판독 부분과 검증 부분의 전체적인 모습이 서로 구별되지 않을 경우(예를 들어, 판독 부분과 검증 부분이 서로 동일하거나 유사한 글자체, 크기, 왜곡의 정도를 갖는 경우), 가장 바람직한 결과가 얻어진다고 일반적으로 여겨지지만, 본 발명에서는 이것이 필수인 것은 아니다. 따라서 본 발명은 문제의 검증 부분과 문제의 판독 부분 중 하나 이상에서 하나 이상의 인지될 수 있는 문자를 수정하는 단계를 포함할 수 있다. 상기 수정 단계는 문제를 발생하는 단계(30)의 일부분이거나, 또는 예를 들어, 문제를 발생하는 단계(30) 후와, 사용자에게 프롬프트를 제공하는 단계(32) 전에 위치하는 별도의 단계일 수 있다.

예를 들어, 비주얼 문제에서, 판독 부분과 검증 부분이, 서로 유사한 외관을 갖도록 동일한 방식으로 왜곡될 수 있다. 판독 부분과 검증 부분이 유사한 시작 외관을 갖지 않는 경우, 서로 다른 방식으로 왜곡되어, 그들의 외관이 서로 유사해질 수 있다. 그러나 판독 부분과 검증 부분이 동일한 전체 외관을 갖는 것이 요구되지 않으며, 본 발명의 일부 실시예에서, 판독 부분과 검증 부분은, 상기 판독 부분과 검증 부분을 서로 다르게 왜곡시킴에 따른 서로 다른 외관을 갖는다.

본 발명의 하나의 실시예에 따라, 문제의 판독 및 검증 부분은 동일한 원본 자료, 가령, 동일한 문서로부터 취해진다. 이 방식으로, 포맷, 글자체, 에이지(age) 및 그 밖의 다른 문서의 왜곡이, 두 부분 간에 동일해질 것이다. 마찬가지로, 판독 부분과 검증 부분이 제공되는 순서(order)는 랜덤하게 달라질 수 있다. 예를 들어, 판독 부분과 검증 부분은 나란히 제공될 수 있으며, 이때, 판독 부분은 처음 잠시 동안 나타나고, 검증 부분은 다른 때에 나타난다.

판독 부분 및 검증 부분이 사용자에게 제공되는 방식에 대한 다수의 변형예가 가능하다. 예를 들어, 판독 부분 및 검증 부분이, 하나의 단일 문자열로서 함께 존재하거나, 둘 이상의 서로 다른 단어, 또는 둘 이상의 서로 다른 문자열로 분리되어 존재할 수 있다. 예를 들어, 하나의 긴 단어가 둘 이상의 부분으로 쪼개지거나, 둘 이상의 짧은 단어가 서로 함께 그룹지워질 수 있다. 덧붙이자면, 둘 이상의 판독 부분을 사용하는 것(가령, 둘 이상의 단어를 갖는 판독 부분)과, 둘 이상의 검증 부분을 사용하는 것(가령, 둘 이상의 단어를 갖는 검증 부분)이 가능하다. 예를 들어, 일부 실시예는 하나의 판독 부분과 둘 이상의 검증 부분을 사용할 수 있 으며, 일부 실시예는 둘 이상의 판독 부분과 하나의 검증 부분을 사용할 수 있으며, 일부 실시예는 둘 이상의 판독 부분과 둘 이상의 검증 부분을 사용할 수 있다.

본 발명은 일반적으로 왜곡된 단어 이미지로 구서오딘 비주얼 문제의 관점에서 설명되지만, 본 발명은 이러한 문제로 국한되지 않는다. 예를 들어, 문제는 하나 이상의 숫자, 또는 그 밖의 다른 문자, 기호, 또는 숫자, 글자, 문자, 또는 기호의 조합의 형태로 존재할 수 있다. 예를 들어, 본 발명은 하나 이상의 알려진, 또는 알려지지 않은 단어로부터 몇 개의 문자를 취하고, 이들을 문제의 일부분으로서 사용할 수 있다. 또한 다른 변형예도 가능하다. 예를 들어, 사용자가 사진이나 그림 속 대상의 이름을 타이핑함으로써 풀리는 사진이나 그림을 포함하는 문제가 있다. 그 밖의 다른 다수의 본 발명의 변형예가 또한 가능하다.

단계(34)는 사용자로부터 입력을 수신하는 단계를 포함한다. 이 입력은 문제에 대한 사용자의 답이며, 예를 들어, 문자의 전자 표현으로서, 또는 오디오 데이터의 전자 표현으로서, 또는 문제의 속성에 따라 달라지는 그 밖의 다른 형태로 제공될 수 있다. 예를 들어, 사용자가 키보드로부터 답을 타이핑한 경우, 사용자로부터의 답은 전자 형태의 ASCII 표현의 형태로 존재할 가능성이 높다.

단계(36)는 문제의 검증 부분에 대한 사용자로부터 입력이 문제의 검증 부분의 알려진 답에 해당하는가의 여부를 판단하는 단계를 포함한다. 문제의 검증 부분에 대한 사용자로부터의 입력이 문제의 검증 부분의 알려진 답에 해당하는가의 여부를 판단하는 것은 여러 가지 방식으로 이뤄질 수 있다. 예를 들어, 사용자로부터의 입력을 알려진 답과 비교함으로써, 판단이 이뤄질 수 있다. 또 다른 실시예에 서, 사용자로부터의 입력은 다른 위치, 예를 들어, 네트워크(14) 내 다른 컴퓨터(12)로 전송될 수 있으며, 이때, 사용자로부터의 입력이 상기 알려진 답과 비교되고, 그 후, 결과가 반환될 수 있다. 이러한 방식으로, 예를 들어, 문제에 대한 답은 하나 이상의 중앙 레포지토리(central repository)에 보관될 수 있다. 본 발명을 이용하는 웹 사이트 서버, 또는 그 밖의 다른 컴퓨터가 상기 중앙 레포지토리로부터 문제를 수신하고, 사용자로부터 제안된 답을 나타내는 데이터를 상기 중앙 레포지토리로 되돌려 전송(또는 그 밖의 다른 컴퓨터(12)로 전송)할 수 있다. 상기 중앙 레포지토리(또는 그 밖의 다른 컴퓨터(12))는 문제에 올바르게 대답되었는가의 여부를 나타내어, 사용자가 인간인지, 또는 인간이 아닌지의 여부를 나타내는 정보를 제공할 것이다. 또한 그 밖의 다른 변형예가 가능하다.

단계(38)는 문제의 검증 부분에 관한 사용자로부터의 입력이 문제의 검증 부분의 알려진 답에 해당하는 경우, 문제의 판독 부분에 관한 사용자로부터의 입력을, 문제의 판독 부분의 답으로서 식별하는 단계를 포함한다. 즉, 사용자가 검증 부분에 대해 올바른 답을 제공하는 경우, 사용자는 인간이며, 문제의 판독 부분을 적합하게 식별할 수 있다고 추측된다. 따라서 문제의 판독 부분에 대한 사용자의 답이 분제의 판독 부분의 답, 또는 가능성 있는 답으로서 식별될 수 있다. 이하에서 설명되는 바와 같이, 판독 부분은 2회 이상 사용될 수 있고, 특정 답이 올바른가의 여부가 판단되기 전에 답이 비교될 수 있다.

따라서 문제의 알려지지 않은 부분(즉, 판독 부분)에 대해 주어진 답의 정확도를 판단하지 않고, 사용자는 인간이라고 추정될 수 있다. 다시 말하자면, 사용자 로의 접근 허용 여부에 대한 결정이 이뤄지기 전에, 모든 사용자보다 적은 수의 사용자의 답이 체크되거나 검증된다. 그러나 본원에서 언급된 바와 같이, 사용자가 문제 중 어느 부분이 판독 부분이고, 어느 부분이 검증 부분인지 알기 어렵게 만드는 노력이 이뤄진다. 따라서 접근을 얻기 위해 필요한 최소 가능한 올바른 답을 추측하려고 시도하는 대신, 전체 문제를 품으로써, 인간 사용자는 더 쉽고, 즐거운 경험을 가질 것이다(그리고 더 빠른 접근을 얻을 것이다).

단계(40)는 문제의 검증 부분에 관한 사용자로부터의 입력이, 문제의 상기 검증 부분의 알려진 답에 해당하는 경우, 사용자가 시스템을 접근할 수 있게 하는 과정을 포함한다. 다시 말하자면, 사용자가 인간 사용자라고 판단될 때, 사용자의 접근이 허용된다.

본 발명의 다수의 변형예가 가능하다. 예를 들어, 본 발명이, 문제의 검증 부분에 관한 사용자로부터의 입력이 문제의 검증 부분의 알려진 답에 해당하는 경우, 사용자의 접근을 허용하는 것의 관점에서 기술되었지만, 본 발명은 이에 제한받지 않는다. 예를 들어, 접근이 허용되기 전에 사용자에게 추가적인 테스트가 제공될 수 있다.

본 발명의 또 하나의 실시예가 본 발명을 수정하여, 사용자의 편의를 도모할 수 있다. 예를 들어, 사용자가 자신의 국적, 또는 선호하는 언어를 제공하고, 본 발명이 이에 따라서 적정한 언어로 된 문제를 제공할 수 있다. 마찬가지로, 사용자의 IP 주소로부터, 사용자가 작업하고 있는 국가가 판단될 수 있고, 이는 적정한 언어로 된 문제를 제공하기 위해 사용될 수 있다.

또한 본 발명은, 매 경우, 얼마나 성공적으로 문제를 풀고, 이를 풀기 위해 얼마나 오래 걸리는지를 측정함으로써, 인간에 의해 문제가 쉽게 풀리는 우도(likelihood)를 개선할 수 있다. 인간에게 더 쉬운 문제가 더 자주 재사용될 것이며, 따라서 인간에 대한 전체 성공률이 증가한다.

마찬가지로, 본 발명은 사용자로부터의 입력을 평가함에 있어, 확실한 “인간” 행동을 가능하게 할 수 있다. 일부 실시예에서, 본 발명은 사용자에 의해 제공되는 답에 존재하는 지정된 개수의, 또는 지정된 타입의 인쇄상 오류(가령, 단어 당 1개)를 허용한다.

또 다른 실시예에서, 알려진 인간 행동은 환영받지 않는 것으로 식별될 수 있다. 예를 들어, 사용자에 대한 특정 정보, 예를 들어, IP 어드레스, 또는 운영 중인 국가, 또는 (가령, 쿠키를 사용함에 따른) CAPTCHA를 이용한 이전 히스토리를 아는 것이 가능하다. 따라서 특정 행동이 바람직하지 않은 인간 사용자, 예를 들면, 판매되는, 또는 스패머(spammer)에게 제공될 사용자 계정을 생성하기 위해 시도하는 인간 사용자를 식별하기 위해 사용될 수 있다. 예를 들어, 주어진 시간 주기에서 사용자가 지정된 개수의 CAPTCHA 문제 이상을 답하는 경우, 사용자는 진짜 사용자가 아니라고 특징지워질 수 있다. 이러한 사용자에 대해 특정 단계가 취해질 수 있다. 예를 들어, 이러한 사용자에게 더 긴 단어로 된 문제를 제공하는 단계와, 평상시보다 더 왜곡된 문제를 제공하는 단계와, 심한 경우, 이러한 사용자의 추가적인 접근을 거절하는 단계가 있다.

도 3은 판독 부분과 검증 부분이 생성되는 본 발명의 하나의 실시예를 도시 하는 흐름도이다. 본 발명의 이 부분은 문제의 판독 및 검증 부분을 생성하기 위해 사용될 수 있다. 그러나 이것이 필수인 것은 아니며, 예를 들어, 그 밖의 다른 원본 자료를 통해 문제의 판독 및 검증 부분을 생성하는 것이 가능하다(이는 본원에서 제공되지 않는다). 문제의 판독 및 검증은 모두 동일한 문서로부터 생성되거나, 서로 다른 문서로부터 생성되거나, 문서가 아닌 다른 원본 자료로부터 생성될 수 있다. 이 도면에서 도시된 방법은, 예를 들어, 시스템(10)의 하나 이상의 메모리 장치(18)에 위치하는 컴퓨터-판독형 인스트럭션으로 구현될 수 있으며, 시스템(10)의 하나 이상의 프로세서(16)에 의해 실행될 수 있다.

단계(50)는 문서의 이미지의 전자적 표현을 생성하는 단계를 포함한다. 이는, 예를 들어, 종래의 스캐닝 기법을 이용하여 문서를 스캐닝함으로써 이뤄질 수 있다. 예를 들어, 상기 문서는 단어가 존재하는 신문, 또는 잡지, 또는 그 밖의 다른 임의의 문서일 수 있다. 또한, 본 발명은 다양한 형태의 텍스트와 함께 사용될 수 있다. 예를 들어, 가령, 역사적으로 중요한 사람들의 편지 및 메모와 같은 손 글씨(인쇄체와 필기체 모두) 텍스트가 본 발명에서의 원본 자료로서 사용될 수 있다. 덧붙이자면, 또한, 단어를 나타내지 않는 이미지를 포함하는 문서, 예를 들면, 숫자, 또는 그 밖의 다른 기호, 또는 사진을 나타내는 문서를 사용하는 것이 가능하다.

단계(52)는 문서의 이미지의 전자적 표현을, 문서의 문자의 전자 표현으로 변환하는 단계를 포함한다. 이는, 예를 들어, 종래의 OCR 기법을 이용하여 이뤄질 수 있다. 일부 실시예에서, 변환 단계는 서로 다른 OCR 기법을 이용하여, 2회 이상 수행된다. 또한 변환(52)은, 인간에 의해 부분적으로, 또는 전체적으로 이뤄질 수 있다. 이미지의 전자적 표현 및 원본 문서의 텍스트의 전자적 표현이, 시스템(10)의 컴퓨터(12) 중 하나 이상에 의해 접근되는 하나 이상의 메모리 장치(18)에 저장될 수 있다. 그 밖의 다른 실시예에서, 이미지의 전자적 표현 및 텍스트의 전자적 표현은 시스템(10)으로 연결되지 않는 메모리(18)에 저장될 수 있고, 임의의 다양한 방식으로, 예를 들면, 이동형, 또는 휴대용 메모리 장치(18)를 통해, 이동될 수 있다.

단계(54)는 문서의 문자의 전자적 표현이 상기 문서에 정확하게 대응하는 신뢰도의 측정치를 생성하는 단계를 포함한다. “측정(measure)”은 문서의 문자의 전자적 표현이 상기 문서에 정확하게 대응하는 신뢰도를 평가하기 위한 임의의 방법, 또는 방법의 조합을 의미한다. 이 측정은 텍스트의 부분을, 본 발명에서 사용되기 위한 “알려진” 부분과 “알려지지 않은” 부분으로 분리하기 위해 사용된다. 이 측정은 인간의 검토, 또는 그 밖의 다른 수단을 통해 OCR 프로세스에 의해 자동으로 발생한다. 예를 들어, 단계(52)에서 둘 이상의 OCR 기법이 사용될 때, 서로 다른 OCR 기법이 이미지의 동일한 부분에 대해 서로 다른 문자, 또는 문자의 조합을 발생할 것이다. 본 발명의 하나의 실시예에서, 하나 이상의 서로 다른 문자가 생성될 때, 텍스트의 상기 부분은 “알려지지 않은” 부분이라고 식별된다. 그 밖의 다른 실시예에서, 문자, 또는 문자열, 또는 단어가 예를 들어, 사전과 같은 지정된 데이터베이스에서 명백하지 않을 때, “알려지지 않은” 부분으로서 식별된다. 인자(factor)의 조합이 사용될 수 있으며, 이들은 조합되고 가중되어, 문서의 문자의 전자적 표현이 상기 문서에 정확하게 대응하는 신뢰도를 나타내는 “측정치”를 생성할 수 있다.

단계(56)는, 문서의 문자의 전자적 표현이 상기 문서에 정확하게 대응하는 신뢰도를 나타내는 측정치를 바탕으로, 문서의 문자의 전자적 표현의 일부분, 또는 전부를, 알려진 답을 갖지 않는 것으로 지정하는 단계를 포함한다.

문서에 대해,“알려진” 항목만, 또는 “알려지지 않은” 항목만 생성하는 것이 가능할지라도, 이는 가능성이 낮으며, 문제를 위한 대부분의 문서, 또는 그 밖의 다른 원본 자료는 알려진 항목과 알려지지 않은 항목을 모두 생성할 것이다. 따라서 다음의 단계가 앞의 단계들과 함께 사용되는 것이 필수는 아니지만, 본 발명에 포함될 수 있다.

단계(58)는 문서의 문자의 전자적 표현이 상기 문서에 정확하게 대응하는 신뢰도를 나타내는 측정치를 바탕으로, 문서의 문자의 전자적 표현의 일부분, 또는 전체를, 알려진 부분을 갖는 것으로 지정하는 단계를 포함한다.

본 발명의 일부 실시예에서, “알려지지 않은” 부분은 “알려진“ 부분이 될 수 있다. 예를 들어, 사용자가 ”알려지지 않은“ 부분에 대해 동일한 답을 일관되게 제시하는 경우, 이는 ”알려진“ 부분으로 변화될 수 있고, 이에 따라 사용될 수 있다. 마찬가지로, 일관되게 ”알려진“ 부분에 올바르지 않게 답해지는 경우, ”알려지지 않은“ 부분으로 변화될 수 있다. 이러한 후자의 예는, 높은 신뢰도를 갖고 문서의 일부분이 올바르지 않게 식별될 때, 또는 둘 이상의 OCR 기법이 동일한 실수를 했을 때, 발생할 수 있다.

“알려진” 부분을 “알려지지 않은” 부분으로 변경하는 것과, 그 반대의 경우를 위해, 서로 다른 기준이 사용될 수 있다. 예를 들어, 지정된 개수의 바른 답, 또는 틀린 답, 지정된 퍼센트율의 올바른 답, 또는 틀린 답, 또는 그 밖의 다른 기준이 사용될 수 있다.

“알려진” 부분을 “알려지지 않은” 부분으로 변경하기 위한 또 다른 방법은, 너무 많은 사용자가 문제를 “재생(refresh)”하는 경우, 존재한다. 다시 말하자면, CAPTCHA에 의해, 사용자는 종종 "재생(refresh)"할 수 있다, 즉, 제공되는 첫 번째 문제를 시도하지 않고, 또 다른 문제를 얻을 수 있다. 이는, 문제가 인간도 읽을 수 없는 지점 이상으로 왜곡된 상황에서, 가능하게 하기 위함이다. 이러한 재생이 너무 자주 발생하는 경우, 인간 검토를 위한 시스템에서 문제(또는 문제의 일부분)가 제거될 수 있다. 일부 경우, 판독가능하지 않은 텍스트(가령, 문서 상의 오염된 부분)가 OCR 기법에 의해 잘못 판독되거나, 너무 많은 왜곡이 이미지에 적용되어, 인간도 이를 판독할 수 없을 수 있다. 이러한 상황은 인간 사용자를 비-인간 사용자로부터 구별하기 위한 문제를 쓸모없게 만들며, 이들을 식별하여 제거하기 위한 단계들이 취해질 수 있다.

도 4는 문서의 전자적 표현을 보충하기 위해 문제에 대한 답이 사용되는 본 발명의 하나의 실시예를 도시하는 흐름도이다. 다시 말하자면, 미리 알려지지 않은 단어(문제의 “판독” 부분으로서 이전에 사용된 이미지)에 대한 답이 판단되면, 이 답은 이미지가 스캔되는 문서의 전자적 표현을 개선하기 위해 사용될 수 있다. 그러나 이것이, 이미지가 더 이상 사용되지 않음을 의미하는 것은 아니다. 반대로, 이미지를 문제의 검증 부분으로서 계속 사용하거나, 또는 다른 방식으로 사용하는 것이 여전히 가능하다. 덧붙이자면, 본 발명의 이러한 형태가 필수인 것은 아니고, 일부 실시예에서 알려지지 않은 단어에 대한 답이 원본 문서를 보충하기 위해 결코 사용되지 않는 것도 가능하다. 예를 들어, 문서를 텍스트를 나타내는 전자적 형태로 변환하지 않고, 낡은 텍스트가 문제를 위한 원본 자료로서만 사용될 수 있다.

이 도면에서 도시된 방법은, 예를 들어, 시스템(10)의 하나 이상의 메모리 장치(18)에 저장되는 컴퓨터 판독형 인스트럭션으로 구현될 수 있으며, 시스템(10)의 하나 이상의 프로세서(16)에 의해 실행될 수 있다. 상기 방법의 이 부분은, 예를 들어, 문제의 판독 부분에 대한 사용자로부터의 입력이 문제의 판독 부분의 답이라고 판단한 후, 수행될 수 있다.

단계(60)는 문제의 판독 부분에 대한 사용자로부터의 입력을, 문서의 대응하는 이미지의 전자적 표현으로서 제공하는 단계를 포함한다. 즉, OCR 프로세스로부터의 알려지지 않은 출력이 “알려진” 답으로 대체될 수 있다는 것이다. 이러한 방식으로, 알려지지 않은, 즉, 확실치 않은 부분을 “알려진” 부분으로 대체함으로써, 문서의 텍스트의 실제 텍스트의 전자적 번역이 개선된다.

단계(62)는 사용자로부터의 입력에 대응하는 문서의 이미지를 알려진 답을 갖는다고 지정하는 단계를 포함한다. 다시 말하자면, 데이터가 “알려져” 있기 때문에, 텍스트의 전자적 형태의 일부분이 “알려지지 않은” 것으로 지정된 상태에서, “알려진” 상태로 변경될 수 있다. 물론, “알려진” 부분은 추후에 트린 것으로 발견되어질 수 있다. 이러한 경우, 상기 부분은 업데이트되고 저정될 수 있 다.

원본 문서의 텍스트의 전자적 형태는, 시스템(10)의 하나 이상의 컴퓨터(12)에 의해 접근되는 하나 이상의 메모리 장치(18)에 저장될 수 있다. 또 다른 실시예에서, 원본 문서의 텍스트의 전자적 형태가, 시스템(10)으로 연결되지 않는 메모리(18)에 저장될 수 있으며, 새롭게 판단된 “알려진” 데이터가 임의의 다양한 방식으로 이동될 수 있다. 예를 들면, 이동형, 또는 휴대용 메모리 장치(18)를 통해 이동될 수 있다.

도 5는 책으로부터 스캐닝된 텍스트의 한 가지 예제를 도시한다. OCR 엔진에 의해 연계되는 ASCII 문자는, “*niis aged pntkm at society were distinguished from."이다. 본 발명은 이 스캐닝된 텍스트 중 일부, 또는 모두를, 시스템(10)으로의 접근을 제어하기 위한 문제의 일부분으로서 사용할 수 있다. 상기 스캐닝된 텍스트를 문제로서 사용한 후, 본 발명은 이미지에 대응하는 텍스트를 식별하기 위해 사용될 수 있다.

도 6은 본 발명에 따라, 스캐닝된 책으로부터 생성된 예시적 CAPTCHA 이미지를 도시한다. CAPTCHA 이미지를 생성하기 위한 다양한 방식이 존재하며, 본원에서 도시되는 것들은 설명을 위한 것이며 제한하기 위한 것이 아니다.

도 7은 OCR(optical character recognition) 프로그램으로부터 스캐닝된 텍스트와 함께 사용되는 본 발명의 동작의 하나의 실시예를 도시하는 흐름도이다. 이러한 도시된 실시예는 텍스트를 이용하는 비주얼 문제(visual challenge)에 관련된 것이지만, 텍스트를 이용하지 않는 비주얼 문제에 관하여, 또는 비주얼 문제가 아 닌 문제에 관하여, 이러한 동일한 일반 프로세스가 사용될 수 있다.

단계(70)에서, 문제 자료를 위한 원본으로서 사용되는 책, 또는 그 밖의 다른 문서가 나타난다. 상기 문서는 디지털 텍스트 해석이 요망되는 문서이거나, 거의 관심은 없지만 본 발명의 유용한 원본 자료인 문서일 수 있다. 예를 들어, 텍스트는 기계적으로 인쇄된 것이거나, 손으로 쓰여진 것일 수 있다.

단계(72)는 OCR(optical character recognition), 또는 문서(70)의 이미지를 전자적 형태로 변환하기 위해 사용되는 그 밖의 다른 프로세스를 나타낸다. 또한 상기 OCR 프로세스(72)는, 예를 들어, 이미지가 텍스트로 적정하게 변화되었는가에 대한 신뢰도를 식별하고, 단어 이미지 분리(word image separation)를 제공하는 등의 추가적인 프로세싱을 제공할 수 있다.

단계(74)는 OCR 프로세스(72)가 올바르게 판독할 수 없는 단어의 이미지를 식별하는 단계를 나타낸다. 이 이미지는 본 발명에서 문제의 판독 부분으로서 사용될 수 있다. 본 발명의 동작을 통해, OCR(72)이 올바르게 판독할 수 없는 단어가 결국 식별될 수 있으며, 이하에서 설명될 바와 같이, 문제의 검증 부분으로서 사용된다.

단계(76)는 특정 이미지에 대해 사용자에 의해 생성된 답이 알려진 것인가의 여부를 판단한다. 즉, 이미지가 문제의 판독 부분으로서 이전에 사용된 적이 있는가가 판단되고, 그런 경우, 이미지가 올바르게 식별되었다는 충분한 신뢰도가 존재한다.

특정 이미지에 대한 사용자에 의해 생성된 답이 알려져 있지 않는다고 판단 되면, 단계(78)에서 도시되는 바와 같이, 이미지가 문제의 판독 부분으로서 사용되기 위해 왜곡된다.

단계(80)는 생성되고 사용자에게 제공되는 문제를 나타낸다. 상기 문제는 판독 부분(알려지지 않은 이미지)과 검증 부분(알려진 이미지)을 포함한다.

단계(82)는 사용자로부터의 입력을 처리하는 단계를 나타낸다. 문제의 검증(또는 알려진) 부분이 올바르게 답해진 경우, 문제의 판독(또는 알려지지 않은) 부분이 올바르다고 가정된다.

단계(84)는 보유된 판독 부분에 대한 답을 나타낸다. 이미지에 대한 답이 알려져 있는가의 여부에 대한 판단이 이뤄지기 전에, 동일한 이미지가 2회 이상 문제의 판독 부분으로서 사용될 수 있다.

단계(76)를 다시 참조하면, 특정 이미지에 대한 사용자에 의해 생성된 답이 알려져 있다고 판단된 경우, 상기 이미지는 문제의 검증 부분으로서 사용될 수 있다.

단계(86)는 문제의 검증 부분으로서 사용될 이미지의 왜곡을 나타낸다. 이 예시에서, 단계(86 및 88)의 이미지는, 단계(78 및 80)에서 동일한 단어에 대한 이미지와 다르게 왜곡된다. 예를 들어, 이는, 인간이 아닌 사용자가 본 발명에 의해 제공되는 보호에서 빠져나가는 것을 방지하기 위해 이뤄질 수 있다.

단계(88)는 문제의 검증 부분으로서 사용되는 이미지를 나타낸다. 이 실시예에서, 이러한 특정 문제는 검증 부분만 포함하고, 판독 부분을 포함하지 않는다. 그 밖의 다른 실시예에서, 문제는 판독 부분과 검증 부분을 모두 포함할 수 있으 며, 검증 부분은 이전에 알려지지 않은, 그러나 지금은 알려져 있는 이미지를 사용할 수 있다.

도 8은 본 발명에 따른 시스템(10)의 또 다른 실시예를 도시한다. 이 시스템에서, 알려지지 않은 사용자에 의해 사용되는 컴퓨터(12/100)가 존재하며, 이때, 컴퓨터(12/102)는 웹 서버로서 사용되거나, 사용자가 접근하길 원하는 또는 그 밖의 다른 컴퓨터나 시스템으로서 사용되며, 컴퓨터(12/104)는 본 발명의 동작에서 사용되며, “CAPTCHA 컴퓨터”라고 일컬어진다. 알려지지 않은 사용자의 컴퓨터(12/100)는 웹 사이트 서버(12/102) 상에 호스팅되어 있는 웹 사이트를 접근하도록 시도한다. 상기 CAPTCHA 컴퓨터(12/104)는 이미지, 오디오 파일, 또는 그 밖의 다른 문제를 위해 사용되는 데이터를 보유한다. 웹 사이트 서버(12/102)는, 예를 들어, 웹 사이트 서버(12/102)가 이전에 알려진 문제(검증 부분)와 이전에 알려지지 않은 문제(판독 부분) 모두 접근할 수 있도록 하기 위해, CAPTCHA 컴퓨터(12/104)를 등록하고, 자신의 고유 웹 사이트의 코드 몇 줄을 추가시킴으로써, 본 발명을 이용할 수 있다.

본 발명의 시스템(10)은 OCR 기법이 해석할 수 없는 많은 수의 기호를 처리하도록 사용될 수 있다. 따라서 본 발명의 시스템(10)은, 예를 들어, 인터넷을 통해 존재하는 모든 CAPTCHA 중 중요한 역할을 수행하는 대형 시스템(large scale system)(10)으로 구현될 수 있다.

다수의 서로 다른 실시예와 변형예가 가능하다. 예를 들어, 하나의 CAPTCHA 컴퓨터(104)가 도시된 시스템(10)에서 나타나있을지라도, 보다 분산된 시스템(10) 을 제공하기 위해 둘 이상의 CAPTCHA 컴퓨터(104)가 사용될 수 있다. 그 밖의 다른 실시예에서, 개별적인 CAPTCHA 컴퓨터(12/104)일 필요는 없으며, 대신, 웹 사이트 서버(12/102)가 본 발명에 따라 동작할 때 필요한 모든 데이터를 포함할 수 있으며, 따라서 웹 사이트 서버(12/102)가 CAPTCHA 컴퓨터(12/104)이다. 덧붙이자면, 도시된 시스템(10)은 단 하나의 웹 사이트 서버(102)와 단 하나의 사용자의 컴퓨터(100)를 나타내지만, (하나 이상의 웹 사이트를 서비스하는) 둘 이상의 웹 사이트 서버(12/102)와 (하나 이상의 사용자를 서비스하는) 둘 이상의 사용자의 컴퓨터(12/100)가 시스템에 포함될 수 있다. 실제로, 본 발명은 다수의 사용자(12/100)와 다수의 서로 다른 웹 사이트(12/102)와 함께 사용될 것이다.

본 발명의 그 밖의 다른 다수의 변형계가 가능하다. 예를 들어, 현재의 CAPTCHA 구현예가 갖는 주요 문제점은, 텍스트의 왜곡된 이미지를 판독할 수 없는 시각 장애인인 사용자의 접근성(accessibility)에 대한 문제점이다. 본 발명이 비주얼 문제의 관점에서 주로 설명되었지만, 본 발명은 비주얼 문제가 아닌 문제를 이용하는 적용예도 포함하며, 이에 따라서, 본 발명은 시각 장애인의 개선된 접근성을 가능하게 한다. 특히 본 발명은, 오디오, 또는 그 밖의 다른 비-비주얼 대안예를 이용하여 구현될 수 있으며, 상기 비-비주얼 버전은 본원에서 기재된 비주얼 버전과 유사한 사상을 지닌다. 예를 들어, 사운드 파일(가령, 오래된 라디오 쇼, 또는 레코딩된 연설, 또는 TV 프로그램으로부터의 사운드 파일)이 수집될 수 있으며, 음성 인식 소프트웨어에 의해서는 이해될 수 없는 단어가 오디오 문제(audio challenge)로서 사용될 것이다. 이러한 방식으로, 오디오 문제를 푸는 사람들은 저 장된 오디오 파일의 캡션처리(captioning)하는 유용한 작업도 수행할 것이다. 이 시스템은 현재 CAPTCHA를 위한 오디오 대안예를 갖지 않는 웹의 전체 접근성을 개선할 것이다.

본 발명에서 공개된 시스템(10)은 접근성에 대한 추가적인 이점을 가질 수 있다. 인쇄물을 디지털화하는 프로세스를 개선함으로써, 이들 문서를, 스캐닝된 페이지의 이미지를 볼 수는 없지만 전자 형태로 전사되는 이러한 텍스트로부터 이득을 얻을 시각 장애인이 이용하기 더 쉽게 할 것이다. 예를 들어, 스캐닝된 문서가 ASCII 파일로 전사된 후, 시각 장애인인 사용자는 상기 ASCII 파일을 크게 소리 내어 읽을 수 있는 프로그램(종래 기술)을 통해 이에 접근할 수 있다.

도 9는 도 8에서 도시된 실시예와 관련하여 도 2에서 도시된 판단하는 단계(36)의 하나의 실시예를 도시하는 흐름도이다. 특히, 판단 단계(36)는, 사용자로부터 입력을 수신하는 컴퓨터(12/102)에 의해 이뤄질 수 있지만, 판단 단계(36)(도 2)는 다른 컴퓨터(12/104)에 의해, 부분적으로, 또는 전적으로 수행될 수 있다.

단계(106)는 컴퓨터(12/102))가 다른 컴퓨터(12/104)로, 사용자(12/100)로부터 수신된 입력을 나타내는 데이터를 전송하는 단계를 포함한다.

단계(108)는 문제의 검증 부분에 대한 사용자(12/100)로부터의 입력이 상기 문제의 검증 부분에 대한 알려진 답과 대응하는가의 여부의 판단을 나타내는 응답을, 컴퓨터(12/102)가 수신하는 단계를 포함한다.

도 10은 문서로부터 이미지가 취해지고, 문제의 부분으로서 사용되는 본 발명의 동작의 하나의 실시예를 도시한다. 이 실시예 뿐 아니라, 그 밖의 다른 본원 에서 설명되는 실시예는 본 발명을 설명하기 위한 것이지, 제한하기 위한 것이 아니다.

요컨대, 문서로부터의 텍스트(100)의 부분은 문제를 위한 원본 자료로서 사용된다. 상기 문서는 인터넷이나 그 밖의 다른 전자 애플리케이션에서 사용될 수 있도록 OCR을 이용하여 전자적 형태로 스캐닝되는 문서, 또는 문제를 위한 원본이 아닌 다른 용도로는 사용이 계획되어 있지 않는 문서일 수 있다. 이 실시예에서, 문서의 대부분의 단어는 효과적으로 스캐닝되며, OCR 기술이 이들 단어의 이미지를 대표적인 텍스트로 정확하게 변환할 수 있다. 그러나 하나 이상의 단어(112)는 OCR 프로세스에 의해 정확하지 않게 식별된다. 단어(112)의 이미지가 OCR이 적정하게 판독하기에 불충분할지라도, 이 단어(112)는 “morning"이다. 상기 단어(112)는 OCR 프로세스에 의해 인식되지 않는 단어(114)로서 식별되며, 따라서 문제로서 사용되기에 바람직한 후보가 된다. 단어(114)의 이미지는 선(line)과 그 밖의 다른 방식을 이용하여 왜곡되며, 문제(116)의 2개의 부분 ”판독“과 ”검증“ 중 ”판독“ 부분으로서 제공된다. "morning"이 OCR에 의해 인식되지 않았기 때문에, 단어 "upon"이, 사용자가 올바른 답을 입력했는가의 여부를 판단하기 위한 검증 단어로서 제공되었다.

이 실시예는 지금부터 더 상세히 기술될 것이다. 스캐닝된 페이지(110)의 이미지를 갖고 시작한다. 2개의 서로 다른 OCR 프로그램이 이미지(110) 상에서 실행되며, 이들 각각의 출력은 서로 비교되고, 영어 사전과 비교된다. 두 OCR 프로그램에 의해 서로 다르게 해독되거나, 영어 사전에 존재하지 않는 임의의 단어(112)는 “의심스러움(suspicious)”라고 표시된다. 이러한 단어는 OCR 프로그램이 올바르게 판독하기 실패한 단어인 것이 일반적이다. 각각의 이러한 의심스러운 단어(112)는 이미지 상에 위치되며, 더 왜곡되어, 답이 이미 알려져 있는 또 다른 단어와 함께 CAPTCHA 문제(116)의 일부분으로서 사용된다.

올바른 답을 랜덤하게 추측하는 자동 프로그램의 확률을 낮추기 위해, 검증 단어의 빈도가 표준화된다. 예를 들어, 단어 “you”와 “abridged”는 동일한 서비스될 확률을 갖는다. 덧붙이자면, 인간의 실수를 보상하기 위해, 모든 의심스러운 단어가 다수의 서로 다른 사용자에게 전송된다. 우선, 이는 판독 단어로서 디스플레이된다. 사용자가 연계된 검증 단어에 올바른 답을 입력한 경우, 사용자의 또 다른 답이 판독 단어에 대한 그럴 듯한 추측(plausible guess)으로서 기록된다. 시스템에서 단어가 그럴 듯한 추측을 가지면, 상기 단어는 또 다른 문제에서 검증 단어로서 사용될 수 있다. 단어를 검증하기 위한 답이 사용되어, 이전 인간 추측에 대한 추가적인 신뢰를 획득할 수 있다. 예를 들어, 처음 2명의 인간의 추측이 서로 일치한 경우, 그 단어는 올바르게 인식되었다고 표시되며, 시스템(10)에서 제거된다. 인간들의 답이 불일치하는 경우, 본 발명은 그 단어를 더 많은 인간들에게 전송하고, 가장 많은 수의 “득표(vote)”를 갖는 답을 선택할 수 있다. 이때, 각각의 인간의 답이 1표로서 세어지고, 각각의 OCR 추측이 0.5표로서 세어진다. 답들 중에서 어떠한 다수표도 존재하지 않는다면, 다수표가 존재할 때까지 그 단어는 더 많은 사용자에게 전송된다. 판독 단어가 올바르게 인식될 때를 판단하는 것에 대한 세부사항은 변할 수 있으며, 여러 다른 적용예에서 표준은, 예를 들어, 판독 단어 가 올바르게 인식될 때 필요한 확실성에 따라 달라질 수 있다.

텍스트 형태의 모든 의심스러운 단어가 시스템에 의해 해독된 후, 후-처리 단계가 적용된다. 이는 인간 사용자가 다수의 작지만 예측 가능한 실수를 하기 때문이다. 다수의 사용자는 문제의 2개의 단어를 공백 없이 타이핑하거나, 대문자 쓰기(capitalization)와 구두점 찍기를 생략한다. 추가로, 서로 다른 키보드 레이아웃을 이용하는 사람들이 종종 예기되지 못한 문자를 입력한다. 예를 들면, 터키인인 사용자는 문자 “i" 대신 문자 “1”를 종종 입력한다. 또한 사용자가 문자의 위치를 바꾸는 것 등의 오-타이핑을 발견하는 것이 드문 것이 아니다. 이러한 에러에 대해 많은 방식으로 대처한다. 첫째, 사용자의 최초 입력에 일련의 변형을 적용한다. 예를 들어, 입력 사이에 공백이 없다면, 단어 중 하나를 서브스트링(substring)과 일치시킴으로써, 공백이 있어야 할 위치를 판단하기 위해 시도한다. 둘째, 다수의 사용자 입력을 조화시킬 때, 소문자로 타이핑하기, 문자의 위치를 바꾸기, 하나의 문자 대신 키보드 상에서 상기 문자와 가까이 위치하는 다른 문자를 쓰기 등의 통상의 인간 실수를 고려한다. 셋째, 주어진 단어에 대하여 가장 높은 우도(likelihood)를 갖는 추측을 결정하기 위해 “책 특이적(book-specific)” 단어 빈도가 사용된다. 다시, 실수가 허용되는 범위는 달라질 수 있고, 여러 다른 적용예에 대해, 그리고 서로 다른 표준이 적용되는 상황에서 서로 다를 가능성이 높다.

본 발명은 동작 시스템(10)으로서 구현되었으며, 이로 인해서, 사용자는 다수의 발견을 수집할 수 있다. http://recaptcha.net을 통해 무료 CAPTCHA 웹 서비 스를 제공함으로써, 형태가 얻어졌다. 도 8을 참조하여, 자동 공격(automated abuse)에 대한 보호가 필요한 웹사이트(102)는 무료이고 안전한 CAPTCHA를 획득할 수 있다. 상기 웹사이트(102) 소유자는, 본 발명의 서버(104)로부터 직접 취해진 CAPTCHA 문제의 이미지를 디스플레이하는 단순한 HTML 코드를 자신의 사이트(102) 상에 추가한다. 사용자(100)가 상기 CAPTCHA 문제에 답을 입력할때마다, 상기 웹사이트(102)는 본 발명의 서버(104)를 접촉하여, 디스플레이된 퍼즐에 대해 상기 답이 올바른지의 여부를 판단할 수 있다. reCAPTCHA 서비스가 2007년 5월 25일 개시됐다. 그 때부터, 10,000 이상의 웹사이트가 이를 사용하기 시작했으며, 2007년 11월 25일 까지, 상기 시스템은 매일 CAPTCHA 문제에 대한 3백만 개 이상의 답을 수신했다.

첫 번째 발견은 CAPTCHA를 이용하여 단어를 해석하는 프로세스가 2명의 인간이 텍스트를 독립적으로 타이핑하는 것만큼 정확할 수 있다는 것이다. 뉴욕 타임즈 저장소(http://nytimes.com)의 서로 다른 5개의 년도의 50개의 스캐닝된 기사 중 랜덤 샘플이 선택되었고, 본 발명을 이용하여 알려지지 않은 단어를 식별하는 것의 정확도를 추정하기 위한 목적으로, 단어 단위로 수기로 전사되었다. 각각의 단어는, 알고리즘이 전체 단어를 올바르게 해석한 경우, “힛(hit)"으로서 카운트되었고, 글자 중 임의의 것이 잘못된 경우, "미스(miss)"로서 카운트되었다. 이로부터, 총 단어의 개수로 나눠지는 미스(miss)의 개수로서 에러율(error rate)이 정의되었다. 표준 OCR의 에러율에 비교하기 위해, OCR의 결과가 동일한 프로세스를 거쳤다.

본 발명은 단어 레벨에서 99.5% 이상의 정확도를 성취하며, 반면에 표준 OCR 의 정확도는 82%에 불과하다. 99.5%의 정확도는 2명의 전문 인력이 데이터를 독립적으로 타이핑하는 “키와 검증(key and verify)”전사 기법을 이용하는 정확도에 상응하는 것이다. 하나의 예로서, (본 발명의 정확도를 측정하기 위해 “ground truth”로서 수집된 ) 기사의 수기 전사본은 원래, 본 발명에 의해 이뤄지는 것보다 더 많은 오류를 갖고 있었다. 본 발명이 2명의 독립적인 인간에 비해 정확도를 성취할 수 있다는 사실은 2가지 이유에서 반직관적일 수 있다. 첫째, 인간 전사자(human transcriber)는 맥락(바로 앞과 뒤의 단어)을 이용할 수 있는데 반해, 본 발명에 의해 제공되는 단어는 그들 자체로서 나타난다. 둘째, 본 발명에 의해 “의심스러운” 단어만 사용되며, 이는 2개의 서로 다른 OCR 프로그램과 사전의 사용이, OCR이 올바르게 해독할 수 없는 단어의 높은 확률을 갖고, 판단하기 위해 충분함을 의미한다.

또 다른 발견은 본 발명이, 많은 양의 인가의 정신적 노동력을 획득하기에 실용적인 수단을 구성한다는 것이다. 본 발명에 따르는 시스템(10)을 6개월간만 운영한 후, 인간은 250,000,000개 이상의 CAPTCHA를 풀었고, 150,000,000개 이상의 의심스러운 단어를 올바르게 해독했다. 책 당 100,000개의 단어를 가정할 때, 이는 7,500권의 책이 수기로 전사되는 것에 상응한다(본 발명의 알고리즘에 따라 한 권의 책의 약 20%의 단어가 의심스러움으로 표시된다). 상기 시스템(10)은 계속 인기를 얻어가고 있으며, 현재 전사 속도는 150만개 이상의 의심스러운 단어/1일(약 75권의 책/1일)이다. 종래의 수단으로 이러한 속도를 얻기 위해, 500명 이상의 사람이 주 40시간 동안 단어를 전사하는 일력을 필요로 할 것이다.

본 발명은 몇 가지 추가적인 이점을 제공한다. 첫째, 자신의 고유한 랜덤 왜곡된 문자를 생성하는 종래의 CAPTCHA보다 더 안전하다. 대부분의 종래 기술의 CAPTCHA에 의해 생성된 왜곡된 텍스트를 판독할 수 있는 알고리즘을 구축하는 것이 가능하다. 예를 들어, K. Chellapilla, P. Y. Simard. Using Machine Learning to Break Visual Human Interaction Proofs (HIPs). Eighteenth Annual Conference on Neural Information Processing Systems, NIPS 2004; G. Mori, J. Malik. Recognizing Objects in Adversarial Clutter: Breaking a Visual CAPTCHA. In IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2003. Pages 134-144; and A. Thayananthan, B. Stenger, P. H. S. Torr, R. Cipolla: Shape Context and Chamfer Matching in Cluttered Scenes. In IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2003. Pages 127-133을 참조하라. 이를 위한 하나의 주요 이유는 종래 기술의 CAPTCHA의 문자의 인공적인 왜곡은 가능한 변형의 제한된 분포 중에서 선택되기 때문이다. 따라서 약간의 훈련 후에 왜곡된 문자를 인식할 수 있는 기계 학습 알고리즘(machine learning algorithm)을 구축하는 것이 적합하다. 다른 한편으로는, 본 발명에 의해 디스플레이되는 단어가 2종류의 왜곡을 갖는다. 가장 중요한 첫 번째로는, 시간에 따라 빛 바래진 기본 텍스트와 스캐닝 프로세스 중의 노이즈로부터 기인하는 자연스러운 왜곡이 있다. 두 번째로는, 공지 기술의 CAPTCHA에 의해 사용되는 것과 유사한 인공적인 변환이 있다. 이 때문에, 본 발명의 왜곡의 분포는 상당히 덜 제한되며, 기계 학습 알고리즘에 의해 캡처하기 더 어렵다. 덧붙이자면, 본 발명은 OCR이 실패할 가능성이 높은 단어만 디스플레이한다. 본질적으로, 이들은 컴퓨터가 해독하기 “가장 어려운(hardest)” 단어이며, 따라서 인간 사용자와 인간이 아닌 사용자를 효과적으로 구별할 가능 높은 가능성을 갖는다.

본 발명을 채용하는 웹사이트를 위한 두 번째 이유는, 본 발명이 하나의 단어만 제공하는 대신 2개의 단어를 제공할지라도, 본 발명에서 사용자가 문제를 풀기 위한 시간이, 종래 기술의 CAPTCHA를 풀기 위한 시간보다 더 걸리지 않는다. 종래 기술의 CAPTCHA는 6 내지 8개의 랜덤하게 선택된 문자를 제공하며, 이는 2개의 영어 단어를 타이핑하는 것만큼 시간이 걸린다.

앞서 설명된 바와 같이, 본 발명은 또한, 시각 장애인을 위해 오디오 문제로서 구현될 수 있다. 시각 장애인들은, 사용자에게 스크린의 내용을 읽어주는 프로그램인 “스크린 판독기(screen reader)”를 이용하여 웹을 서핑한다. 스크린 판독기 자체가 프로그램이기 때문에, 종래 기술의 CAPTCHA를 사용자에게 읽어줄 수 없다. 따라서 왜곡된 단어를 바탕으로 하는 종래 기술의 CAPTCHA는 시각 장애인들이 웹을 자유롭게 항해하는 것을 차단한다. 그에 반해, 종래 기술의 CAPTCHA의 대부분의 구현예는 이러한 문제점을 무시하고 있으며, 본 발명에 의해 사용자는 오디오 문제를 들을 수 있다. 예를 들어, 오디오 문제는 랜덤으로 왜곡된 8개의 아라비아 숫자를 갖는 사운드 클립일 수 있지만, 더 많거나 더 적은 개수의 숫자가 사용될 수 있다. 이러한 숫자는, 비주얼 문제를 위한 원본 자료로서 문서를 사용하는 것과 유사한 방식으로, 이 목적을 위해 특수하게 녹음된 다수의 숫자의 라이브러리, 또는 그 밖의 다른 오디오 소스로부터 제공될 수 있다. 본 발명에 따르는 오디오 CAPTCHA는, 음성의 전사(transcribe)를 위해 제공되도록 구현될 수 있다. 비주얼 CAPTCHA가 텍스트를 전사하기 위해 사용될 수 있는 것과 동일한 방식으로, 오디오 CAPTCHA가 음성을 전사하기 위해 사용될 수 있다. 자동 음성 인식 기술이 상당히 진보되어 왔지만, 완벽에 가까운 정확도를 얻기 위한 유일한 방식은 인간을 사용하는 것이다.

본원에서 제공되는 결과는 보다 일반적인 아이디어의 개념의 증거일 뿐이다: “낭비”되는 인간의 처리 힘이, 컴퓨터가 아직 풀 수 없는 문제를 해결하기 위해 활용될 수 있다. 이전 작업에서 이러한 처리 힘은 컴퓨터 게임을 통해 활용될 수 있었다: 사람들이 이러한 게임을 하고, 그 결과로서, 컴퓨터가 아직 수행할 수 없는 작업이 집합적으로 수행된다. 예를 들어, L. von Ahn. Games With A Purpose. In IEEE Computer Magazine, June 2006. Pages 96-98; L. von Ahn, L. Dabbish. Labeling Images with a Computer Game. ACM Conference on Human Factors in Computing Systems 中, CHI 2004. 319-326쪽; 및 L. von Ahn, R. Liu, M. Blum. Peekaboom: A Game for Locating Objects in Images. ACM Conference on Human Factors in Computing Systems 中, CHI 2006. 55-64쪽을 참조하라. 여기서 출원인은 CAPTCHA가 낭비되는 연산력(computational power)을 "재사용“하기 위한 또 다른 길을 구성함을 나타냈다. 관련된, 그러나 다른 작업 라인이 ASIRRA(J. Elson, J. Douceur, J. Howell. Asirra: A CAPTCHA that Exploits Interest-Aligned Manual Image Categorization. ACM Conference on Computer and Communications Security 中, CCS 2007)이며, 이는 CAPTCHA가 인간에 대한 목적으로 사용될 수 있 음을 나타냈다. 상기 시스템에서, 고양이와 개의 사진이 사용자에게 제공되며, 사용자는 어느 것이 고양이이고, 어느 것이 개인가를 판단해야 한다. 인간을 위한 문제(humanitarian twist)는, 사진이 동물 보호소에서 제공되며, 사용자가 고양이나 개 중 하나를 좋아하면, 채택될 수 있다.

Claims

시스템(12, 102)으로의 접근(access)을 제어하는 방법에 있어서, 상기 방법은

시스템(12, 102)의 사용자에게 문제(challenge)를 생성하는 단계(30)로서, 상기 문제는 답(answer)이 알려져 있는 문제의 검증 부분(verify part)과, 답이 알려져 있지 않은 문제의 판독 부분(read part)을 포함하는 상기 단계(30)와,

상기 사용자가 문제의 검증 부분과 문제의 판독 부분 모두를 풀도록 하는 단계(32)와,

상기 사용자로부터 입력을 수신하는 단계(34)와,

문제의 검증 부분에 대한 사용자로부터의 입력이 상기 문제의 검증 부분의 알려진 답에 해당하는가의 여부를 판단하는 단계(36)와,

상기 문제의 검증 부분에 대한 사용자로부터의 입력이 상기 문제의 검증 부분의 알려진 답에 해당하는 경우, 문제의 판독 부분에 대한 사용자로부터의 입력을, 문제의 판독 부분의 답이라고 식별하는 단계(38)

를 포함하는 것을 특징으로 하는 시스템으로의 접근을 제어하는 방법.
제 1 항에 있어서, 상기 문제의 검증 부분에 대한 사용자로부터의 입력이 상기 문제의 검증 부분의 알려진 답에 해당하는가의 여부를 판단하는 단계(36)는

사용자로부터 수신된 입력을 나타내는 데이터를, 다른 컴퓨터(12, 104)로 전 송하는 단계(106)와,

상기 문제의 검증 부분에 대한 사용자로부터의 입력이 상기 문제의 검증 부분의 알려진 답에 해당하는가의 여부에 대한 판단을 나타내는 응답을 수신하는 단계(108)

를 포함하는 것을 특징으로 하는 시스템으로의 접근을 제어하는 방법.
제 1 항에 있어서,

문제의 검증 부분에 대한 사용자로부터의 입력이 상기 문제의 검증 부분의 알려진 답에 해당하는 경우, 사용자가 상기 컴퓨터 시스템(12, 102)에 접근하는 것을 허용하는 단계(40)

를 더 포함하는 것을 특징으로 하는 시스템으로의 접근을 제어하는 방법.
제 3 항에 있어서,

문제의 검증 부분에 대한 사용자로부터의 입력이 올바른가의 여부에 대한 판단 없이, 사용자가 상기 컴퓨터 시스템(12, 102)에 접근하는 것을 허용하는 단계(40)

를 더 포함하는 것을 특징으로 하는 시스템으로의 접근을 제어하는 방법.
제 1 항에 있어서,

문제의 검증 부분과 문제의 판독 부분 중 하나 이상의 하나 이상의 인지 가 능한 문자를 수정하는 단계

를 더 포함하는 것을 특징으로 하는 시스템으로의 접근을 제어하는 방법.
제 1 항에 있어서, 상기 문제는 다수의 문자의 이미지인 것을 특징으로 하는 시스템으로의 접근을 제어하는 방법.
제 1 항에 있어서, 문제를 생성하는 단계 전에,

문서의 이미지(image)의 전자적 표현(electronic representation)을 생성하는 단계(50)와,

상기 문서의 이미지의 전자적 표현을 문서의 문자(character)의 전자적 표현으로 변환하는 단계(52)와,

상기 문서의 문자의 전자적 표현이 상기 문서에 정확하게 대응하는 신뢰도(confidence)를 나타내는 측정치를 생성하는 단계(54)와,

상기 문서의 문자의 전자적 표현이 상기 문서에 정확하게 대응하는 신뢰도를 나타내는 측정치를 바탕으로, 상기 문서의 문자의 전자적 표현의 부분, 또는 전체를, 알려진 답을 갖고 있지 않다고 지정하는 단계(56)

를 더 포함하는 것을 특징으로 하는 시스템으로의 접근을 제어하는 방법.
제 7 항에 있어서, 측정치를 생성하는 단계(54) 후에,

상기 문서의 문자의 전자적 표현이 상기 문서에 정확하게 대응하는 신뢰도를 나타내는 측정치를 바탕으로, 상기 문서의 문자의 전자적 표현의 부분, 또는 전체를 알려진 답을 갖고 있다고 지정하는 단계(58)

를 더 포함하는 것을 특징으로 하는 시스템으로의 접근을 제어하는 방법.
제 1 항에 있어서, 상기 문제는 가청 레코딩(audible recording)을 포함하는 것을 특징으로 하는 시스템으로의 접근을 제어하는 방법.
제 1 항에 있어서, 상기 문제의 판독 부분은 상기 문제의 검증 부분에 앞서 제공되는 것을 특징으로 하는 시스템으로의 접근을 제어하는 방법.
제 1 항에 있어서, 상기 문제의 검증 부분은 상기 문제의 판독 부분에 앞서 제공되는 것을 특징으로 하는 시스템으로의 접근을 제어하는 방법.
제 7 항에 있어서, 상기 문제의 검증 부분에 대한 사용자로부터의 입력이 상기 문제의 검증 부분의 알려진 답에 해당하는 경우, 문제의 판독 부분에 대한 사용자로부터의 입력을, 문제의 판독 부분의 답이라고 식별하는 단계(38) 후에,

상기 문제의 판독 부분에 대한 사용자로부터의 입력을, 문서의 대응하는 이미지의 전자적 표현으로서 제공하는 단계(60)와,

상기 사용자로부터의 입력에 대응하는 문서의 이미지를, 알려진 답을 갖는다고 지정하는 단계(62)

를 더 포함하는 것을 특징으로 하는 시스템으로의 접근을 제어하는 방법.
프로세서(16)에 의해 실행될 때, 상기 프로세서(16)가

시스템(12, 102)의 사용자에게 문제(challenge)를 생성하는 단계(30)로서, 상기 문제는 답(answer)이 알려져 있는 문제의 검증 부분(verify part)과, 답이 알려져 있지 않은 문제의 판독 부분(read part)을 포함하는 상기 단계(30)와,

상기 사용자가 문제의 검증 부분과 문제의 판독 부분 모두를 풀도록 하는 단계(32)와,

상기 사용자로부터 입력을 수신하는 단계(34)와,

문제의 검증 부분에 대한 사용자로부터의 입력이 상기 문제의 검증 부분의 알려진 답에 해당하는가의 여부를 판단하는 단계(36)와,

상기 문제의 검증 부분에 대한 사용자로부터의 입력이 상기 문제의 검증 부분의 알려진 답에 해당하는 경우, 문제의 판독 부분에 대한 사용자로부터의 입력을, 문제의 판독 부분의 답이라고 식별하는 단계(38)

를 수행하게 하는 것을 특징으로 하는 컴퓨터 판독형 인스트럭션.
제 13 항에 있어서, 상기 문제를 생성하는 단계(30) 전에,

문서의 이미지(image)의 전자적 표현(electronic representation)을 생성하는 단계(50)와,

상기 문서의 이미지의 전자적 표현을 문서의 문자(character)의 전자적 표현 으로 변환하는 단계(52)와,

상기 문서의 문자의 전자적 표현이 상기 문서에 정확하게 대응하는 신뢰도(confidence)를 나타내는 측정치를 생성하는 단계(54)

를 더 포함하는 것을 특징으로 하는 컴퓨터 판독형 인스트럭션.
제 14 항에 있어서, 측정치를 생성하는 단계(54) 후에,

상기 문서의 문자의 전자적 표현이 상기 문서에 정확하게 대응하는 신뢰도를 나타내는 측정치를 바탕으로, 상기 문서의 문자의 전자적 표현의 부분, 또는 전체를, 알려진 답을 갖고 있지 않다고 지정하는 단계(56)

를 더 포함하는 것을 특징으로 하는 컴퓨터 판독형 인스트럭션.
제 14 항에 있어서, 상기 문제의 검증 부분에 대한 사용자로부터의 입력이 상기 문제의 검증 부분의 알려진 답에 해당하는 경우, 문제의 판독 부분에 대한 사용자로부터의 입력을, 문제의 판독 부분의 답이라고 식별하는 단계(38) 후에,

상기 문제의 판독 부분에 대한 사용자로부터의 입력을, 문서의 대응하는 이미지의 전자적 표현으로서 제공하는 단계(60)와,

상기 사용자로부터의 입력에 대응하는 문서의 이미지를, 알려진 답을 갖는다고 지정하는 단계(62)

를 더 포함하는 것을 특징으로 하는 컴퓨터 판독형 인스트럭션.
제 13 항에 있어서, 상기 컴퓨터 판독형 인스트럭션은 컴퓨터 판독형 매체 상에 저장되는 것을 특징으로 하는 컴퓨터 판독형 인스트럭션.
시스템(10)에 있어서, 상기 시스템은

네트워크(14)와,

다수의 컴퓨터(12)

를 포함하며, 이때,

컴퓨터(12, 100) 중 하나 이상은, 사용자가 시스템(10)의 또 다른 컴퓨터(12, 102)로의 액세스를 획득하기 위해 시도함으로써 사용되며,

컴퓨터(12, 102) 중 하나 이상은 프로세서(16)와 메모리(18)를 포함하며, 상기 메모리(18)는 컴퓨터 판독형 인스트럭션을 포함하며, 상기 컴퓨터 판독형 인스트럭션은 프로세서(16)에 의해 실행될 때, 상기 프로세서(16)가

사용자에 의해 사용되는 컴퓨터(12, 102)에게 문제(challenge)를 생성하는 단계(30)로서, 상기 문제는 답(answer)이 알려져 있는 문제의 검증 부분(verify part)과, 답이 알려져 있지 않은 문제의 판독 부분(read part)을 포함하는 상기 단계(30)와,

상기 사용자의 컴퓨터(12, 100)가 문제의 검증 부분과 문제의 판독 부분 모두를 풀도록 하는 단계(32)와,

상기 사용자의 컴퓨터(12, 100)로부터 입력을 수신하는 단계(34)와,

문제의 검증 부분에 대한 사용자의 컴퓨터(12, 100)로부터의 입력이 상기 문 제의 검증 부분의 알려진 답에 해당하는가의 여부를 판단하는 단계(36)와,

상기 문제의 검증 부분에 대한 사용자의 컴퓨터(12, 100)로부터의 입력이 상기 문제의 검증 부분의 알려진 답에 해당하는 경우, 문제의 판독 부분에 대한 사용자의 컴퓨터(12, 100)로부터의 입력을, 문제의 판독 부분의 답이라고 식별하는 단계(38)

를 수행하게 하는 것을 특징으로 하는 시스템.
제 18 항에 있어서, 상기 시스템은

프로세서(16)와 메모리(18)를 포함하는 컴퓨터(12)

를 더 포함하며, 이때, 상기 메모리(18)는 컴퓨터 판독형 인스트럭션을 포함하며, 상기 컴퓨터 판독형 인스트럭션은 프로세서(16)에 의해 실행될 때, 상기 프로세서(16)가

문서의 이미지(image)의 전자적 표현(electronic representation)을 생성하는 단계(50)와,

상기 문서의 이미지의 전자적 표현을 문서의 문자(character)의 전자적 표현으로 변환하는 단계(52)와,

상기 문서의 문자의 전자적 표현이 상기 문서에 정확하게 대응하는 신뢰도(confidence)를 나타내는 측정치를 생성하는 단계(54)와,

상기 문서의 문자의 전자적 표현이 상기 문서에 정확하게 대응하는 신뢰도를 나타내는 측정치를 바탕으로, 상기 문서의 문자의 전자적 표현의 부분, 또는 전체 를, 알려진 답을 갖고 있지 않다고 지정하는 단계(56)

를 수행하게 하는 것을 특징으로 하는 시스템.
제 19 항에 있어서, 상기 생성하는 단계(50)와, 변환하는 단계(52)와, 생성하는 단계(54)와, 지정하는 단계(56)는 문제를 생성하는 단계(30) 전에 수행되는 것을 특징으로 하는 시스템.
제 19 항에 있어서, 컴퓨터(12) 중 하나 이상은 프로세서(16)와 메모리(18)를 포함하며, 상기 메모리(18)는 컴퓨터 판독형 인스트럭션을 포함하며, 상기 컴퓨터 판독형 인스트럭션은 프로세서(16)에 의해 실행될 때, 상기 프로세서(16)가

상기 문제의 판독 부분에 대한 사용자의 컴퓨터(12, 100)로부터의 입력을, 문서의 대응하는 이미지의 전자적 표현으로서 제공하는 단계(60)와,

상기 사용자의 컴퓨터(12, 100)로부터의 입력에 대응하는 문서의 이미지를, 알려진 답을 갖는다고 지정하는 단계(62)

를 수행하게 하는 것을 특징으로 하는 시스템.
제 21 항에 있어서, 상기 제공하는 단계(60)와 지정하는 단계(62)는, 상기 문제의 검증 부분에 대한 사용자의 컴퓨터(12, 100)로부터의 입력이 상기 문제의 검증 부분의 알려진 답에 해당하는 경우, 문제의 판독 부분에 대한 사용자의 컴퓨터(12, 100)로부터의 입력을, 문제의 판독 부분의 답이라고 식별하는 단계(38) 후 에, 수행되는 것을 특징으로 하는 시스템.