KR20140134653A

KR20140134653A - 텍스트 투 스피치 및 시맨틱스에 기초한 오디오 인적 상호 증명 기법

Info

Publication number: KR20140134653A
Application number: KR20147022837A
Authority: KR
Inventors: 야오 키안; 빈 벤자민 주; 프랭크 카오-핑 숭
Original assignee: 마이크로소프트 코포레이션
Priority date: 2012-02-17
Filing date: 2013-02-01
Publication date: 2014-11-24
Also published as: JP2015510147A; WO2013122750A1; EP2815398A1; EP2815398A4; CN104115221B; JP6238312B2; CN104115221A; KR102101044B1; US10319363B2; ES2628901T3; US20130218566A1; EP2815398B1

Abstract

본원의 몇몇 실시형태에서 설명된 텍스트 투 스피치 오디오 HIP 기술은, 텍스트 투 스피치 엔진을 통해 생성된 상이한 상관된 또는 비상관된 단어 또는 문장을 오디오 HIP 과제로서 사용한다. 본 기술은 HIP 과제 스트링으로서 사용될 문장을 발화하는 텍스트 투 스피치 음성합성기에서 상이한 효과를 적용할 수 있다. 상이한 효과는, 특히, 예를 들면, 스펙트럼 주파수 워핑; 모음 지속시간 워핑; 배경 추가; 에코 추가; 및 단어 사이의 지속 시간의 변형(variation)을 포함할 수 있다. 몇몇 실시형태들에서, 본 기술은 자동화된 스피치 인식 툴이, 이전에 사용된 오디오 HIP 과제를 사용하여 모델을 학습하는 것을 방지하기 위해 파라미터의 세트를 변경하는데, 상기 모델이 학습되면, 본 기술에 의해 생성되는 미래의 오디오 HIP 과제를 인식하는 데 사용될 수 있다. 추가적으로, 몇몇 실시형태에서, 본 기술은 HIP 과제에서 의미론적 이해의 요건을 도입한다.

Description

텍스트 투 스피치 및 시맨틱스에 기초한 오디오 인적 상호 증명 기법{AUDIO HUMAN INTERACTIVE PROOF BASED ON TEXT-TO-SPEECH AND SEMANTICS}

CAPTCHA(Completely Automated Public Turing test to tell Computers and Humans Apart)라고도 알려진 인적 상호 증명(Human Interactive Proof; HIP)은 인간 유저를 자동화 프로그래밍(즉, 봇)과 구별한다.

대부분의 HIP 스킴들의 목표는, 인간에 의한 액세스를 허용하면서 컴퓨터에 의한 자동화된 액세스를 방지하는 것이다. 통상적으로, 이 목표는, 대부분의 인간은 쉽게 통과할 수 있지만 대부분의 컴퓨터 프로그램은 통과할 수 없는 테스트를 생성하여 등급을 매기는 방법을 제공함으로써 해결된다.

이 개요는 하기 상세한 설명에서 더 설명되는 개념의 선택을 간소화된 형태로 소개하기 위해 제공된다. 이 개요는 청구항의 청구대상의 주요한 특징들 또는 기본적인 특징들을 식별하도록 의도된 것도 아니고, 청구항의 청구대상의 범위를 제한하는 데 이용되도록 의도된 것도 아니다.

본원에서 설명되는 텍스트 투 스피치 오디오 인적 상호 증명(HIP) 기술은, 미지의 컴퓨터 유저가 인간인지 봇인지의 여부를 결정하기 위한 오디오 과제(audio challenge)를 생성함에 있어서 텍스트 투 스피치 기술 및 시맨틱스(semantics)를 활용하는 오디오 HIP를 제공한다. 일반적인 또는 커스텀화된 자동 스피치 인식(Automatic Speech Recognition; ASR) 시스템(보통 오디오 HIP를 자동으로 해독하기 위해 시도하는 봇에 의해 사용됨)에 의해 인식 불가능한 발화문(spoken sentence)을 만들기 위해, 본 기술은 ASR 시스템의 스피치 인식 메커니즘이 본 기술에 의해 생성된 HIP 샘플을 인식하거나 그 샘플로부터 학습하는 것을 방지한다. 본 기술은 발화된(spoken) HIP 문장을 ASR 시스템의 모델을 트레이닝시키는 데 사용되는 오디오 데이터와는 아주 상이하게 만들고, 발화된 HIP 단어 또는 문장에서의 특성을 변경시킴으로써 이것을 행한다. ASR 시스템은 보통 통계적 모델에 기초한다. HIP 문장이 ASR 모델의 트레이닝 데이터 분배(training data distribution)와는 더 멀리 떨어질수록, ASR 시스템이 HIP의 단어 또는 문장을 인식하는 것이 더 어려워진다.

본원에서 설명된 텍스트 투 스피치 오디오 HIP 기술은 스펙트럼 주파수 워핑(spectral frequency waraping), 모음 지속시간 워핑(vowel duration waraping), 볼륨 워핑(volume warping), 배경 추가(background addition), 에코 추가(echo addition), 및 텍스트 투 스피치(Text-to-Speech; TTS) 엔진을 통해 발화된 HIP 문장을 생성함에 있어서의 단어 사이의 지속 시간을 적용할 수 있다. 따라서, 결과적으로 생성되는 발화된 문장의 템포, 피치, 및 보이스는 ASR 시스템을 트레이닝시키기 위해 사용되는 보통 데이터와는 아주 상이하다. 또한, 본 기술은, 이전에 사용된 오디오 HIP 과제(challange)의 사용이 본 기술에 의해 생성된 HIP 과제를 인식하도록 ASR 시스템의 모델을 트레이닝하는데 사용되지 않도록 하기 위해, 본 기술이 효과를 빈번하게 또는 지속적으로 변경시키는 것을 허용하도록 큰 세트의 텍스트 투 스피치 파라미터를 활용한다.

본원에서 설명되는 텍스트 투 스피치 오디오 HIP 기술의 일 실시형태는, 인간 유저를 봇과 구별하기 위해 추가적인 메커니즘을 추가할 수 있는데, 오디오 HIP 과제의 문장은 그 과제를 통과하기 위해 이해되어야만 한다. 예를 들면, 그 문장은, 과제에 정확하게 응답하기 위해 오디오 과제로서 제기된 문장의 의미론적 이해(semantic understanding)가 요구되는 질문 또는 명령일 수 있다. 이렇게 하여, 이전에 설명된 메커니즘이 실패하더라도, 즉, ASR 시스템이 오디오 과제로서 사용된 문장의 모든 단어를 인식할 수 있더라도, 봇은 그 문장의 이해 없이 그 테스트를 여전히 통과하지 못할 수도 있다. 문장의 의미론적 이해는 여전히 곤란한 인공지능 문제로서 여겨진다.

하기의 설명, 첨부된 특허청구범위, 및 첨부의 도면과 관련하여 본 개시의 특정 특징, 양태, 및 이점이 더 잘 이해될 것이다.
도 1은 본원에서 개시된 텍스트 투 스피치 오디오 HIP 기술의 한 예시적인 실시형태를 실시하는 예시적인 아키텍쳐이다.
도 2는 텍스트 투 스피치 오디오 HIP 기술의 일 실시형태를 활용하는 예시적인 프로세스의 흐름도를 묘사한다.
도 3은 텍스트 투 스피치 오디오 HIP 기술의 일 실시형태를 활용하는 예시적인 프로세스의 다른 흐름도를 묘사한다.
도 4는 텍스트 투 스피치 오디오 HIP 기술의 일 실시형태를 활용하는 예시적인 프로세스의 또 다른 흐름도를 묘사한다.
도 5는 텍스트 투 스피치 오디오 HIP 기술을 실시하기 위해 사용될 수 있는 예시적인 컴퓨팅 환경의 개략도이다.

텍스트 투 스피치 오디오 HIP 기술의 하기의 설명에서, 설명의 일부를 형성하며 본원에서 설명되는 텍스트 투 스피치 오디오 HIP 기술을 실시할 수도 있는 예를 예로서 도시하는 첨부의 도면을 참조한다. 청구항의 청구대상의 범위를 벗어나지 않으면서 다른 실시형태가 활용될 수도 있고 구조적 변경이 이루어질 수도 있음이 이해되어야만 한다.

1.0 텍스트 투 스피치 오디오 HIP 기술

하기의 섹션은 인간 상호작용에 대한 개론, 본원에서 설명되는 텍스트 투 스피치 오디오 HIP 기술의 개관뿐만 아니라 그 기술을 실시하는 예시적인 아키텍쳐 및 예시적인 프로세스를 제공한다. 상기 기술의 다양한 실시형태의 상세가 또한 제공된다.

1.1 인적 상호 증명( HIP )들 소개

CAPTCHA(Completely Automated Public Turing test to tell Computers and Humans Apart)라고도 알려진 인적 상호 증명(Human Interactive Proof; HIP)은 인간 유저를 자동화 프로그래밍(즉, 봇)과 구별한다. 대부분의 HIP 스킴들의 목표는, 인간에 의한 액세스를 허용하면서 컴퓨터에 의한 자동화된 액세스를 방지하는 것이다. 통상적으로, 이 목표는, 대부분의 인간은 쉽게 통과할 수 있지만 대부분의 컴퓨터 프로그램은 통과할 수 없는 테스트를 생성하여 등급을 매기는 방법을 제공함으로써 해결된다.

현재 이용가능한 많은 HIP 스킴이 존재한다. 예를 들면, 한 종래의 시각적 스킴은 사전으로부터 문자들 또는 단어들을 랜덤하게 선택하고, 그 다음 그 문자들 또는 단어들을 포함하는 왜곡된 이미지를 렌더링함으로써 동작한다. 그 다음 이 스킴은 그 왜곡된 이미지와 그 이미지에서 나타나는 문자들 또는 단어들의 일부를 타이핑하도록 하는 요청으로 이루어진 테스트를 자신의 유저에게 제공한다. 적용되는 변형의 타입을 조건에 맞게 조정함으로써, 대부분의 인간은 그 왜곡된 이미지로부터 요구된 수의 문자들 또는 단어들을 판독할 수 있지만, 현재의 컴퓨터 프로그램은 일반적으로 판독할 수 없게 되는 이미지가 생성된다.

다른 오디오 HIP 예에서는, 개개의 문자가 인간에 의해 발화된다(spoken). 수반되는 시각적 HIP와 동일한 발화된 문자는 문자들 사이의 상이한 시간 지속시간에 의해 왜곡되고 서로 연결된다. 배경 소음이 또한 추가된다. 유저는 발화된 단어를 타이핑할 것을 요청받는다.

또 다른 오디오 HIP에서, 개개의 단어는 발화되고, 왜곡되고 그리고 백그라운드 노이즈가 추가된다. 유저는 발화된 단어를 타이핑할 것을 요청받는다. 타이핑된 단어에서의 약간의 오차는 허용가능하다.

1.2 본 기술의 개관

본원의 몇몇 실시형태에서 설명되는 텍스트 투 스피치 오디오 HIP 기술은, 오디오 HIP 과제로서, 텍스트 투 스피치 엔진을 통해 생성된 상이한(바람직하게는 반복하지 않는) 문장 또는 단어를 사용한다. 본 기술은 HIP로서 사용될 문장 또는 단어를 발화하는 텍스트 투 스피치 음성합성기(synthesizer)에서 상이한 효과를 적용할 수 있다. 상이한 효과는, 특히, 예를 들면, 스펙트럼 주파수 워핑; 모음 지속시간 워핑; 볼륨 워핑; 배경 추가; 에코 추가; 및 단어 사이의 지속 시간의 변형(variation)을 포함할 수 있다. 몇몇 예들에서, 본 기술은, 본 기술에 의해 생성된 오디오 HIP 과제를 인식하는 데 사용될 수 있는 모델을 ASR이 학습하는 것을 방지하기 위해, 시간에 걸쳐 그리고 상이한 과제의 생성에 대해, 오디오 HIP 과제를 생성할 파라미터의 세트를 변경한다. 추가적으로, 몇몇 실시형태에서, 본 기술은 HIP 과제를 해결하기 위해 의미론적 이해의 요건을 소개한다.

1.3 예시적인 아키텍쳐

도 1은 텍스트 투 스피치 오디오 HIP 기술의 일 실시형태를 실시하기 위한 예시적인 아키텍쳐(100)를 도시한다. 도 1에 도시된 바와 같이, 이 예시적인 아키텍쳐(100)는, 텍스트(예를 들면, 텍스트 문장 및 예상 응답)의 라이브러리(102) 또는 단어의 라이브러리(103)를 포함할 수도 있는 텍스트 선택기 모듈(101)을 포함한다. 모듈(101)은 텍스트(106)를 선택하여 HIP 생성 모듈(104)로 제공하고 예상 응답(107)을 검증기(109)로 제공한다. 일 실시형태에서, 텍스트 선택기 모듈(101)은 특정 아이템(예를 들면, 텍스트 문자과 그 예상 응답)을 랜덤하게 또는 특정 방식으로 선택할 수도 있다. 텍스트 라이브러리(102)의 문장은, 어떤 소스로부터 제공된, 인터넷으로부터 크롤된, 또는 모듈(도 1에 도시되지 않음)로부터 생성된 문헌 또는 기사로부터 선택될 수 있다. 몇몇 실시형태에서, 예상 응답은 문장으로 생성된다. 예상 응답은 문장 자체일 수 있거나, 또는 문장에 응답하여 인간이 제공할 수 있는 답일 수 있다. 전자(former)는 통상 문장이 문서 또는 기사로부터 자동적으로 생성될 때 사용된다. 후자는 통상 문장이 프로그램 모듈에 의해 생성될 때 사용된다.

일 실시형태에서, 텍스트 선택기 모듈(101)은 단어의 라이브러리를 포함할 수도 있고, 이 라이브러리로부터 상관된 또는 틀린 단어가, 랜덤하게 또는 소정의 방식으로 선택될 수 있다. 선택된 단어는 HIP 생성 모듈(104)로 전송되는 선택된 텍스트(106)로서 사용되고 선택된 텍스트(106)와 동일한 순서로 정렬된 단어는 검증기(109)로 전송되는 예상 응답(107)으로서 또한 사용될 수 있다.

그 아키텍쳐는 텍스트 선택기(101)와 동일한 또는 상이한 일반적인 컴퓨팅 디바이스(500) 상에 존재하는 오디오 HIP 생성 모듈(104)을 포함한다. 일반적인 컴퓨팅 디바이스(500)는 도 5와 관련하여 더 상세히 설명될 것이다. HIP 생성 모듈(104)은 TTS 엔진, TTS 왜곡 모듈(114) 및 포스트 TTS 왜곡 모듈(116)을 포함한다. 종래의 TTS 엔진은 2개의 부분, 즉 스피치 모델(108) 및 텍스트 투 스피치 음성합성기(110)로 이루어진다. TTS 엔진은 선택된 텍스트(106)를 스피치 모델(108)을 사용하여 프로세싱한다. 2개의 TTS 엔진 부분(스피치 모델(108) 및 TTS 음성합성기(110)) 사이에서, TTS 왜곡 모듈(114)은, 선택된 텍스트(106)가 텍스트 투 스피치 음성합성기(110)에 의해 읽혀질 때 왜곡되도록 하나 이상의 왜곡들을 적용하기 위해, 스피치 모델(108)에 의해 모델링될 때 파라미터들을 조정한다. TTS 출력은, TTS에 의해 생성되어 발화된 텍스트에 에코 또는 백그라운드를 추가하는 것과 같은 하나 이상의 추가적인 왜곡을 적용하기 위해 포스트 TTS 왜곡 모듈(116)에 의해 더 프로세싱될 수도 있다. 결과적으로 생성되는 사운드는 오디오 HIP/CATCHA(112)로서 사용된다. TTS 음성합성기(110) 또는 포스트 TTS에서 하나 이상의 왜곡을 정의하는 왜곡 파라미터 또는 왜곡은, 오디오 과제 스트링을 생성하는 각각의 경우에 랜덤하게 또는 특정 패턴으로 변경될 수 있다.

HIP 생성 모듈(104)은 선택된 텍스트를 스피치 모델(108)을 사용하여 모델링하기 위해 사용되는 왜곡 파라미터를 결정한다. 일 실시형태에서, 이 스피치 모델(108)은 주파수 스펙트럼(성도(vocal tract)), 기본 주파수(보컬 소스) 및 스피치의 지속시간(운율)을 모델링하기 위해 사용되는 HMM(Hidden Markov Model; 은닉 마르코프 모델)이다. HIP 생성 모듈(104) 내부의 TTS 왜곡 모듈(114)은, 텍스트 투 스피치 음성합성기(110)에 의해 읽혀질 때 선택된 텍스트(106)의 주파수 파라미터를 워핑하는 주파수 워핑 모듈(120)을 포함할 수 있다. TTS 왜곡 모듈(114)은 또한 발음 가능한 사운드의 지속시간을 변경하기 위한 모듈(118)을 포함할 수 있다. 예를 들면, 이 모듈(118)은, 텍스트 투 스피치 음성합성기(110)에 의해 읽혀질 때 선택된 문장(106)의 모음이 발음되는 시간을 변경시키는 모음 지속시간 워핑을 수행할 수 있다. 추가적으로, TTS 왜곡 모듈(114)은 사운드의 볼륨을 변경시키는 모듈(122) 및/또는 선택된 텍스트(106)에 대한 보이스를 텍스트 투 스피치 음성합성기(110)가 생성할 때 단어 사이의 지속시간을 변경시키기 위한 모듈(124)을 포함할 수 있다.

선택된 텍스트의 보이스가 텍스트 투 스피치 음성합성기(110)에 의해 생성된 이후, 포스트 TTS 왜곡 모듈(116)에 의해 하나 이상의 추가적인 왜곡이 적용될 수 있다. 포스트 TTS 왜곡 모듈(116)은, 선택된 텍스트의, 텍스트 투 스피치 음성합성기(110)로부터 생성된 오디오 클립에 대해, 에코 효과를 추가하기 위한 에코 추가 모듈(126) 및/또는 백그라운드 사운드를 추가하기 위한 백그라운드 추가 모듈(128)을 포함할 수도 있다.

백그라운드 추가 모듈(128)에 의해 상이한 백그라운드 사운드가 추가될 수 있다. 일 실시형태에서, 음악이 백그라운드 사운드로서 추가될 수 있다. 다른 실시형태에서, 다른 보이스(이하, 백그라운드 보이스로 칭해짐)가, 텍스트 투 스피치 음성합성기(110)로부터의 선택된 텍스트(106)의 보이스(이하, 포그라운드 보이스로서 칭해짐)에 추가될 수 있다. 동일한 또는 상이한 오디오 HIP 과제에 대한 백그라운드 사운드에 대해 추가적인 변형을 생성하기 위해, 백그라운드 사운드에 왜곡 및 다른 수정이 적용될 수 있다.

보이스가 추가될 때, 백그라운드 보이스는 포그라운드 보이스와 동일한 언어로 이루어질 수 있다. 또한, 포그라운드 보이스의 언어와는 상이한 언어로 이루어질 수 있다. 예를 들면, 포그라운드 보이스가 영어이면, 백그라운드 보이스는중국어 또는 스페인어일 수 있다. 백그라운드 보이스는 포그라운드 보이스와 동일한 방식으로 TTS 음성합성기(110)를 통해 생성될 수 있다. 백그라운드 보이스의 생성 동안, 포그라운드 보이스에 대해 주파수 워핑 및 위에서 언급된 다른 것과 같은 상이한 왜곡이 적용될 수 있다. 백그라운드 보이스의 텍스트는 사전으로부터 임의적으로 선택된 단어 또는 텍스트 라이브러리로부터 선택된 문장일 수 있다. 추가된 백그라운드 보이스를 통해, 인간은 두 언어 사이의 차이를 쉽게 말할 수 있고, 포그라운드 보이스를 식별하고 인식할 수 있지만, ASR 엔진과 같은 머신은 포그라운드 보이스를 백그라운드 보이스와 구별짓지 못하고, 따라서 포그라운드 보이스의 발화된 텍스트를 인식할 수 없게 된다.

HIP 생성 모듈로부터 생성된 오디오 과제는, 키보드, 마우스, 또는 터치스크린을 사용하는 것과 같은 다양한 방법을 통해 응답을 입력할 수 있는 미지의 유저(130)에게 전송된다. 일 실시형태에서, 미지의 유저(130)는 응답을 말할 수도 있고, 그 응답을 인식하여 텍스트로 변환하기 위해 보이스 인식 기술이 사용될 수도 있다. 그 다음, 수신된 텍스트 응답(132)은, 수신된 응답을 오디오 과제의 예상 응답과 비교하는 검증기(109)로 전송된다. 검증기(109)는, 미지의 유저로부터의 응답(132)이 예상 응답(107)과 일치한다고 결정하면, 미지의 유저(130)를 인간(134)으로서 인식한다. 다르게는, 미지의 유저는 봇(136)으로 식별된다. 일 실시형태에서, 미지의 유저(130)는 오디오 과제(112)를 인식하고 테스트를 통과하기 위한 올바른 응답을 제공한다. 다른 실시형태에서, 미지의 유저(130)는 테스트를 통과하기 위한 올바른 응답을 제공하기 위해 오디오 과제의 의미론적 이해를 가져야만 한다.

수신된 응답(132)이 예상 응답과 일치하는지를 결정하기 위해 많은 기술이 검증기(109)에서 사용될 수 있다. 일 실시형태에서, 검증기는 두 응답이 정확하게 일치하는 경우에만 두 응답이 서로 일치한다고 결정한다. 이 경우, 어떠한 오차도 허용되지 않는다. 다른 실시형태에서, 두 응답 사이의 오차가 허용 오차 이내이면 두 응답이 서로 일치한다고 결정한다. 일 실시형태에서, 두 응답 사이의 오차는 편집 거리(edit distance) 또는 그 변형을 사용하여 계산된다.

검증기(109)는 응답을 다른 응답과 비교하기 이전에 그 응답을 프로세싱할 수도 있다. 예를 들면, 검증기(109)는 텍스트의 스트링 또는 단어를 그 표준 표현으로 대체하는 것과 같이 응답의 텍스트를 정규화하여 불필요한 단어를 제거할 수도 있다. 검증기(109)는 또한 텍스트 응답을 폰(phone; 단음)의 스트링으로 변환하고, 두 응답이 서로 일치하는지 아닌지를 결정하기 위해 폰의 스트링을 비교한다. 텍스트를 폰으로 변환하기 위해 많은 기술이 사용될 수 있다. 일 실시형태에서, 텍스트를 폰으로 변환하기 위해, TTS에서의 스피치 모델이 사용된다.

1.4 본 기술을 실시하기 위한 예시적인 프로세스

일반적으로, 도 2는 본원에서 설명된 텍스트 투 스피치 오디오 HIP 기술의 일 실시형태를 실시하기 위한 일반적인 예시적인 프로세스를 도시한다. 블록 202에 도시된 바와 같이, 복수의 텍스트 문장 또는 복수의 단어로부터, 텍스트 문장 또는 상관된 또는 비상관된 단어의 그룹이 선택된다. 블록 204에 도시된 바와 같이, 미지의 유저가 인간인지 봇인지의 여부를 식별하기 위한, 오디오 과제로서의 선택된 텍스트의 보이스를 생성하기 위해 텍스트 투 스피치 엔진이 적용되는데, 하나 이상의 왜곡은 선택된 텍스트의 보이스의 생성 동안 또는 그 이후에 적용된다.

도 3은 텍스트 투 스피치 오디오 HIP 기술의 다른 실시형태를 실시하기 위한 보다 상세한 예시적인 프로세스(300)를 도시한다. 일반적으로, 텍스트 투 스피치 오디오 HIP 기술의 이 실시형태는, 블록 302에 도시된 바와 같이, 먼저 별도의 텍스트 문장 또는 단어의 라이브러리를 발견하거나 정의하는 것에 의해 동작한다. 예를 들면, 텍스트 문장은 여러 적절한 텍스트 소스로부터 선택될 수 있다. 일 실시형태에서, 텍스트 라이브러리의 텍스트는, 보통의 인간 독자를 겨냥한 신문이나 잡지와 같이, 인간이 이해하기 쉬운 문서나 기사로부터 자동적으로 추출된 비반복적 문장이다. 일 실시형태에서, 추출된 문장의 길이는 프리셋 범위를 갖는다. 문장이 너무 짧으면, 다음 문장과 결합되거나 또는 간단히 드랍될 수도 있다. 너무 긴 문장은 필요한 길이에 맞추도록 2개 이상의 더 작은 조각들로 잘릴 수도 있다. 기사 또는 문서는 내부 소스로부터 제공받거나 인터넷으로부터 크롤될 수도 있다. 다른 실시형태에서, 오디오 HIP 기술은 단어의 라이브러리를 구축하거나 정의한다. 이 라이브러리는 불필요한 단어 또는 혼돈되는 단어를 제거함으로써 사전으로부터 구축될 수도 있다. 철자에 의해 또는 사운드에 의해 인간에 의해 혼돈되기 쉬운 단어는 라이브러리로부터 제거될 수도 있다. 텍스트 문장 또는 단어의 이 라이브러리가 주어지면, 블록 304에서 도시된 바와 같이, 본 기술은, 미지의 유저가 인간인지 봇인지의 여부를 결정하기 위한 오디오 과제를 생성하는 데 사용하기 위해, 텍스트 문장의 라이브러리로부터 텍스트 문장을 자동적으로 선택하거나 단어의 라이브러리로부터 상관된 또는 비상관된 단어의 그룹을 선택한다. 본 기술은 또한, 블록 306에 도시된 바와 같이, 응답이 취출된 텍스트 문장과 함께 라이브러리에 저장되거나, 또는 선택된 텍스트 문장 또는 상관된 또는 비상관된 단어의 그룹으로부터 예상 응답을 생성하면, 텍스트 문장의 라이브러리로부터 예상 응답을 취출할 수도 있다. 일 실시형태에서, 생성된 예상 응답은 선택된 텍스트의 스트링과 동일하다. 다른 실시형태에서, 생성된 예상 응답은, 텍스트 정규화가 선택된 텍스트에 적용된 이후의 결과이다. 텍스트 정규화는 텍스트 입력을 수신하여 그 입력된 텍스트를 표준 포맷으로 변환하는 텍스트 출력을 생성한다. 예를 들면, 텍스트 정규화 동안, "a", "an"과 같은 불필요한 단어는 제거될 수도 있고, "I'm"은 "I am"으로 대체될 수도 있다. (추후 논의되는 바와 같이, 미지의 유저(318)가 인간인지 봇(320)인지를 결정하기 위해, 예상 응답은 미지의 유저(314)로부터의 응답과 비교하기 위해 검증기(316)로 전송된다). 그 다음, 블록 308에 도시된 바와 같이, 선택된 텍스트가 텍스트 투 스피치 음성합성기에 의해 읽혀질 때 하나 이상의 왜곡을 추가하기 위한 파라미터를 결정하기 위해, 선택된 텍스트는 자동적으로 프로세싱된다. 블록 308에서 파라미터를 결정함에 있어서, 하나 이상의 언어 모델이 사용될 수도 있다. 하기에 더 상세히 논의되는 이들 왜곡은 스펙트럼 주파수 워핑, 모음 지속시간 워핑, 볼륨 워핑, 단어 사이의 시간의 워핑을 포함할 수 있다.

블록 308에서, 선택된 텍스트의 보이스가 텍스트 투 스피치 음성합성기에 의해 생성되면, 블록 310에서, 본 기술은 오디오 과제를 생성한다. 오디오 과제의 생성 동안 블록 308에서 생성되는 보이스에 하나 이상의 추가적 왜곡이 적용될 수도 있다. 이들 왜곡은 에코, 백그라운드 보이스 또는 음악을 추가하는 것일 수도 있다. 블록 308에서 생성된 보이스에 백그라운드 음악 또는 보이스가 추가되기 이전에, 왜곡이 적용될 수도 있다. 백그라운드 보이스는, 예를 들면, 라이브러리로부터 텍스트 문장 또는 상관된 또는 비상관된 단어의 그룹을 선택하고, 그 다음, 언어 모델 및 텍스트 투 스피치 음성합성기를 적용하여 백그라운드 보이스를 생성하는 것에 의해, 포그라운드 보이스의 생성과 유사한 방식으로 생성될 수도 있다. 텍스트 투 스피치 음성합성기에 의해 보이스가 생성될 때 하나 이상의 왜곡을 적용하기 위해, 파라미터가 결정되고 수정될 수도 있다. 이들 왜곡은 포그라운드 보이스의 생성 동안 TTS 음성합성기 내부에서 적용되는 왜곡과 유사할 수 있다. 백그라운드 보이스는 상이한 언어로 이루어질 수도 있다. 일 실시형태에서, 추가된 백그라운드 보이스는 블록 308에서 생성된 포그라운드 보이스의 언어의 것과 동일한 언어로 이루어질 수도 있다. 다른 실시형태에서, 추가된 백그라운드 보이스는 블록 308에서 생성된 포그라운드 보이스의 언어와는 상이한 언어로 이루어질 수도 있다. TTS 음성합성기를 사용한 보이스의 생성 동안의 그리고 그 보이스의 생성 이후의 왜곡 추가는, 인간이 비교적 쉽게 인식하는 그러나 컴퓨터가 인식하기 어려운 오디오 과제를 생성하도록 기능하고, 생성된 오디오 과제 사이에 변형을 도입한다.

일단 블록 310에서 오디오 과제가 생성되면, 다음 단계는, 블록 312에 도시된 바와 같이, 식별을 위해 미지의 유저에게 오디오 과제를 전송하여 제시하는 것이다. 그러면, 미지의 유저는, 블록 314에 도시된 바와 같이, 오디오 과제에 대한 응답을 타이핑하거나 말하는 것에 의해 응답할 것을 요구받는다. 예상 응답이 선택된 텍스트 스트링인 경우에도, 스피치 인식이, 발화된 응답을 다음 블록에서 사용되는 텍스트 응답으로 정확하게 변환할 수 없기 때문에, 공격자는 오디오 HIP 과제를 발화된 응답으로서 재생할 수 없음을 주목해야 한다. 그 다음, 블록 316에 도시된 바와 같이, 이 유저의 응답은 예상 응답과 비교된다. 일 실시형태에서, 유저의 응답은 발화된다(spoken). 예상 응답에 비교하기 이전에 발화된 응답을 텍스트 응답으로 변환하기 위해 스피치 인식 기술이 적용된다. 타이핑된 응답이 예상 응답과 일치한다고 결정된 경우에만, 미지의 유저는 인간인 것으로 간주된다(블록 318). 그렇지 않으면, 미지의 유저는 봇인 것으로 간주된다(블록 320). 일 실시형태에서, 일치는 정확할 것이 요구된다. 다른 실시형태에서, 일치는 정확할 필요가 없다. 두 응답 사이의 몇몇 불일치가 허용될 수도 있다. 불일치가 약간의 미리 결정된 오차 허용범위 또는 임계치 내에 있는 한, 유저의 응답은 여전히 예상 응답과 일치하는 것으로 결정된다.

유저의 응답이 예상 응답과 일치하는지를 결정함에 있어서, 두 응답을 비교하기 이전에 몇몇 표현의 변화를 제거하기 위해 검증기는 블록 316에서 응답을 정규화할 수도 있다. 이 정규화는 불필요한 문자 또는 단어를 제거할 수도 있고, 하나 이상의 단어를 표준이며 등가인 단어로 대체할 수도 있다. 예를 들면, "I'm"은 "I am"으로 대체될 수도 있고, "intl."은 international에 의해 대체될 수도 있다. 또 다른 실시형태에서, 응답은 사운드의 스트링, 즉 폰으로 변환될 수도 있고, 비교는 텍스트 대신 폰에 기초한다.

두 응답 사이의 오차를 계산하기 위해, 블록 316에서 많은 기술이 사용될 수도 있다. 일 실시형태에서, 폰 또는 텍스트의 두 스트링 사이의 오차를 계산하기 위해 편집 거리가 사용된다. 위의 문단에서 언급된 정규화 단계는 편집 거리를 계산하기 이전에 적용될 수도 있다. 편집 거리의 계산은 단어 또는 폰에 기초할 수도 있거나, 또는 문자에 기초할 수도 있다. 단어에 대해 오차가 계산될 때, 한 단어가 다른 단어의 변형, 예컨대 나머지 단어의 복수 형태이거나, 또는 두 단어 사이의 차이가 어떤 오차 허용 범위 내에 있으면, 두 단어는 동일한 것으로 간주될 수도 있다. 오차가 폰에 대해 계산될 때, 두 개의 유사하게 발음되는 폰은 두 응답의 오차를 계산함에 있어서 동일한 것으로 간주될 수도 있다.

도 4는 텍스트 투 스피치 오디오 HIP 기술의 다른 실시형태를 실시하기 위한 또 다른 예시적인 프로세스(400)를 도시한다. 일반적으로, 이 실시형태에서, 본 기술은, 블록 402에서 도시된 바와 같이, 문장에 대한 올바른 응답을 제공하기 위해, 별도의 텍스트 문장의 라이브러리 및 그 문장의 의미론적 의미를 유저가 이해할 것을 요구하는 그들의 예상 응답을 먼저 정의하는 것에 의해 동작한다. 일 실시형태에서, 텍스트는 미리설정된 규칙 세트에 기초하여 자동적으로 생성되는 비반복적인 문장이다. 라이브러리의 텍스트 문장은 통상 명령 또는 질문이며, 올바른 대답을 하기 위해서는, 그 명령 또는 질문에 대한 그 문장의 이해가 요구된다. 예를 들면, 아이템의 추가 또는 삭제에 관한 많은 질문을 한 규칙 세트가 생성할 수도 있는데, 여기서 아이템은, 예를 들면, 사과, 개, 또는 비행기와 같은 임의의 일반적인 사물(object)일 수 있다. 상이한 수 및 아이템을 사용함으로써, "사이먼이 어제 세 개의 사과를 먹었고 오늘 두 개의 바나나를 먹었다. 어제 이후 사이먼이 먹은 과일의 전체 개수는 몇개인가?"와 같은 많은 질문이 생성될 수 있다. 더 많은 질문을 생성하기 위해 대상(subject), 시간, 수, 및 아이템 이름이 변경될 수 있다. 다른 규칙 세트는, 곱셈 및/또는 나눗셈, 및/또는 덧셈 및 곱셈을 사용하여 많은 질문을 생성할 수도 있다. 다른 예로서, 한 세트의 규칙은, 유저에게 특정 방식으로 응답을 입력하도록 요청하는 것에 의해, 예컨대 문장을 제공하고 그 다음, 유저에게, 발화된 단어의 두 번째 글자를 역순으로 입력하도록 요청하거나, 또는 그 이전 단어에 의해 후속되는 세 번째 단어를 입력하도록 요청하는 것에 의해, 질문을 생성할 수도 있다. 이 규칙 세트도 많은 질문을 또한 생성할 수 있다. 텍스트 투 스피치 오디오 HIP 기술은, 소정의 패턴 또는 키워드에 기초하여 올바른 응답을 어떻게 제공할지를 아는 것에 의해, 또는 오디오 HIP 과제를 생성하는 데 사용된 규칙 세트에 기초한 오디오 HIP를 봇이 정확하게 분류하는 것을 방지하기 위해, 동일한 규칙 세트에 의해 생성되는 문장의 패턴을 변경시키고, 오디오 HIP 과제를 생성하는 상이한 규칙 세트를 사용하여 생성된 문장을 사이에 끼운다

텍스트 문장은 그들의 적절한 대답 또는 예상 응답과 함께 저장된다. 이 텍스트 문장의 라이브러리가 주어지면, 블록 404에 도시된 바와 같이, 본 기술은, 미지의 컴퓨터 유저가 인간인지 봇인지의 여부를 결정함에 있어서 사용될 오디오 과제를 생성하는 데 사용하기 위해, 그 라이브러리로부터 하나 이상의 텍스트 문장을 자동적으로 선택한다. 그 다음, 이 선택된 문장은, 블록 406에 도시된 바와 같이, 이것이 텍스트 투 스피치 합성기에 의해 읽혀질 때 추가될 수 있는 하나 이상의 왜곡을 결정하기 위해 자동적으로 프로세싱될 수 있다. 하기에 더 상세히 논의되는 이들 왜곡은 스펙트럼 주파수 워핑, 모음 지속시간 워핑, 볼륨 워핑, 단어 사이의 시간의 변화를 포함할 수 있다. 백그라운드 추가 및 에코 추가와 같은 하나 이상의 추가적인 왜곡은, 블록 408에 도시된 바와 같이, 오디오 HIP를 생성함에 있어서 텍스트 투 스피치 음성합성기에 의해 생성된 보이스에 적용될 수도 있다. 그러나, 일 실시형태에서, 의미론적 이해를 요구하는 문장은 그 문장이 텍스트 투 스피치 음성합성기에 의해 읽혀질 때 또는 읽혀진 후 왜곡되지 않음을 주목해야만 한다. 왜곡되지 않은 오디오 HIP 과제는, 미지의 유저가 인간인지 또는 봇인지를 결정하기 위해 그 과제의 의미론적 이해에 의존한다. 의미론적 이해는 봇이 정확한 응답을 제공하는 것을 방지한다.

다음 단계는, 블록 410에 도시된 바와 같이, 식별을 위한 미지의 파티에게 오디오 과제를 제시하는 것이다. 그러면, 미지의 파티는, 블록 412에 도시된 바와 같이, 적절한 응답을 타이핑하거나 또는 발화하는 것에 의해, 의미론적 이해를 요구하는 그 문장에 응답하라는 요구를 받는다. 발화된 응답은 스피치 인식 기술을 적용함으로써 텍스트 응답으로 변환될 수도 있다. 응답은 그 응답이 발음된 방식을 표현하는 폰의 스트링으로 변환될 수도 있다. 응답을 표현하는 표준 방식으로 변형을 대체하기 위해 응답에 대해 정규화가 적용될 수도 있고, 불필요한 문자 또는 단어가 또한 제거될 수도 있다. 그 다음, 블록 414에서 도시된 바와 같이, 유저의 응답은 오디오 과제의 예상 응답에 비교되어, 그들이 일치하는지 아닌지를 결정한다. 블록 416에 도시된 바와 같이, 유저의 응답이 예상 응답과 일치한다고 결정된 경우에만, 미지 유저는 인간인 것으로 간주된다. 그렇지 않으면, 미지의 유저는, 블록 418에 도시된 바와 같이, 봇인 것으로 간주된다. 일 실시형태에서, 두 응답은 그들이 서로 정확하게 일치하는 경우에만 서로 일치하는 것으로 결정된다. 다른 실시형태에서, 두 응답은 그들의 오차가 허용 범위 내에 있으면 서로 일치하는 것으로 결정된다. 두 응답의 오차, 예를 들면 편집 거리 또는 그 변형을 계산하기 위해, 상이한 기술이 사용될 수 있다. 도 3에 도시된 예시적인 프로세스에 대해 설명된 많은 기술은도 4에 설명된 예시적인 프로세스에 대해 또한 적용될 수도 있다.

1.5 본 기술의 여러 실시형태의 상세

텍스트 투 스피치 오디오 HIP 기술을 실시하기 위한 예시적인 아키텍쳐 및 예시적인 프로세스가 설명되었지만, 하기의 문단은 본 기술의 여러 실시형태를 구현하기 위한 다양한 상세를 제공한다.

1.5.1 다양한 왜곡이 적용될 수 있다

위에서 논의된 바와 같이, 선택된 텍스트로부터 오디오 과제의 생성 동안 하나 이상의 왝곡이 적용될 수도 있다. 이들 왜곡은 텍스트의 보이스 생성시 및/또는 텍스트의 보이스 생성 이후에 적용될 수 있다. 왜곡은 오디오 과제를 생성하는 각각의 경우에 변경될 수도 있다. 텍스트 투 스피치 오디오 HIP 기술은 스펙트럼 주파수 워핑, 모음 지속시간 워핑과 같은 발음 가능한 사운드의 변형, 보이스의 볼륨의 변형, 및 오디오 HIP 과제 생성에서 생성된 보이스에 대한 백그라운드 추가 및 에코 추가에 의해, 및/또는 텍스트 투 스피치 음성합성기에 의해 선택된 텍스트가 읽혀질 때 이웃하는 단어 사이의 시간의 변형을 활용할 수 있다. 미지의 유저가 인간인지 또는 봇인지를 결정하기 위해 사용되는 오디오 HIP 과제 생성시의 이들 및 다른 왜곡 적용의 상세가 하기에 설명된다.

1.5.1.1 스펙트럼 주파수 워핑

봇이 오디오 과제를 인식하는 것을 더 어렵게 하기 위해, 선택된 텍스트가 보이스로 변환될 때 많은 상이한 타입의 주파수 워핑이 적용되어, 생성된 보이스를 왜곡시킬 수 있다. 예를 들면, 생성된 보이스를 왜곡시키기 위한 오디오 과제를 생성하는 동안, 하나 이상의 주파수 워핑 왜곡이 적용될 수 있다. 이것을 행하기 위해, 다양한 워핑 함수 및 파라미터가 결정되고 사용되어, 시간에 걸쳐 그리고 상이한 오디오 과제에 걸쳐 스펙트럼 주파수 워핑을 변경시키게 된다.

텍스트 투 스피치 오디오 HIP 기술의 일 실시형태에서, 스펙트럼 주파수 워핑을 수행하기 위해, 파라미터 α를 갖는 워핑 함수 Ψ가 사용되고, α는 시간에 걸쳐 변경될 수 있다. 한편, 함수

는 변환을 수행하기 위해 사용된다. 워핑 함수는 선형적이거나, 구분적으로 선형적이거나, 양선형(bi-linear)이거나 비선형이다. 일 실시형태에서, 본원에서 설명된 텍스트 투 스피치 오디오 기술은, 단위 이득

,

또는

를 갖는 간단한 1차 전대역 통과 필터(all-pass filter)에 기초한 양선형 주파수 워핑 함수를 사용하고,

여기서

이다.

일 실시형태에서, 워핑 파라미터 α(t)는 시간에 걸쳐 평활하게 변경되는 것이 바람직하다. 따라서, 여기서는 사인 함수가 다음과 같이 사용된다:

여기서, A, B 및 T는 워핑 범위, 워핑 중심 및 워핑 기간이며 수동으로 설정되거나 또는 소정의 범위 내에서 변경되며, k는 초기 위상이고 [0, T-1] 내의 값으로, 랜덤하게 또는 랜덤하지 않게 설정된다.

위에서 설명된 워핑 함수는 본원에서 설명된 기술과 함께 활용될 수 있는 하나의 예시적인 워핑 함수임을 주목해야만 한다. 다양한 다른 워핑 함수가 사용될 수 있고 이들 다른 워핑 함수 또는 그들의 파라미터도 또한 시간에 걸쳐 변경될 수 있거나 또는 시간에 걸쳐 평활하게 적용될 수 있다.

1.5.1.2 모음 지속시간 워핑

텍스트 투 스피치 오디오 HIP 기술의 일 실시형태에서, 텍스트가 텍스트 투 스피치 음성합성기에 의해 읽혀질 때 선택된 텍스트 스트링의 생성된 보이스를 왜곡시키기 위해, 발음 가능한 사운드의 발음 지속시간이 변경된다. 예를 들면, 일 실시형태에서, 모음 지속시간 워핑이 사용되어, 텍스트 투 스피치 음성합성기에 의해 선택된 텍스트를 읽을 때 모음 발음의 지속시간을 변경시킨다. 모음 지속시간 워핑을 활용하는 이 실시형태에서, 텍스트 투 스피치 오디오 HIP 기술은, 인간에 의해 여전히 인지될 수 있는 각각의 모음에 대한 최대 및 최소 지속시간을 먼저 설정하고, 그 다음, 텍스트 투 스피치 음성합성기에 의한 선택된 텍스트의 보이스의 생성 동안 모음 지속시간을 랜덤하게 조정한다. 소정의 자음도 또한 유사한 방식으로 변경될 수 있음을 주목해야만 한다.

1.5.1.3 볼륨 워핑

선택된 텍스트가 텍스트 투 스피치 음성합성기에 의해 읽혀질 때 발음가능한 사운드의 볼륨을 변경시키기 위해 볼륨 워핑이 또한 적용될 수 있다. 일 실시형태에서, 최소 볼륨 및 최대 볼륨이 설정되고, 볼륨 워핑을 적용하기 위해, 최소 및 최대 볼륨 사이의 랜덤한 볼륨이 발음에 적용될 수 있다.

1.5.1.4 단어 사이의 지속시간 변경

두 단어 사이의 지속시간은 선택된 텍스트가 텍스트 투 스피치 음성합성기에 의해 읽혀질 때 또한 변경될 수 있다. 일 실시형태에서, 최소 지속시간 및 최대 지속 시간이 설정되고, 두 이웃하는 단어의 지속시간에 대해, 최소 지속시간 및 최대 지속시간 사이의 지속시간이 랜덤하게 선택되어 적용될 수 있다. 선택된 시간의 지속시간이 음의 값이면, 두 이웃하는 단어는 특정하게 중첩되어 발음된다. 단어 사이의 지속시간의 이 변형은 ASR 시스템이 문장을 개개의 단어로 분할하는 것을 어렵게 할 수도 있다.

1.5.1.5 백그라운드 및 에코 추가

텍스트 투 스피치 오디오 HIP 기술은, 또한, 선택된 텍스트의 생성된 보이스에 하나 이상의 왜곡을 추가할 수도 있다. 몇몇 실시형태에서, 텍스트 투 스피치 음성합성기에 의해 읽혀진 보이스에 백그라운드 및 에코가 적용될 수도 있다. 예를 들면, 백그라운드는 노이즈, 음악, 동일한 또는 다른 언어의 스피치 보이스 등등일 수 있다. 선택된 텍스트의 생성된 보이스에 대해 에코가 또한 추가될 수도 있다. 예를 들면, 붕괴 비율, 지연 시간 및 초기 에코 볼륨이 랜덤하게 설정될 수 있다. 추가적으로, 선택된 텍스트 스트링의 보이스의 생성 이후에 적용된 하나 이상의 왜곡은, 오디오 과제를 생성하기 위해, 텍스트 투 스피치 기술에 의해 생성된 다른 스피치를 텍스트 스트링의 보이스의 백그라운드에 추가하는 것을 포함할 수 있다. 일 실시형태에서, 백그라운드에 추가된 이 추가적인 스피치는 선택된 텍스트 스트링의 것과 상이한 언어의 스피치일 수 있다. 백그라운드 스피치는, 생성된 오디오 과제가 목표로 하는 대부분의 인간이 알지 못하는 언어가 되도록 선택될 수도 있다. 인간은 상이한 언어의 스피치를 쉽게 식별하고 인간 유저가 아는 포그라운드 스피치에 초점을 맞출 수도 있다. 봇은 포그라운드 스피치를 백그라운드 스피치와 구별하는 데 어려움을 가질 수도 있고, 따라서 포그라운드 스피치를 인식하지 못한다. 다른 실시형태에서, 백그라운드 스피치는 포그라운드 스피치와 동일한 언어일 수 있다. 백그라운드 스피치는 상관된 또는 비상관된 단어의 그룹 또는 문장을 텍스트 투 스피치 음성합성기로 읽는 것에 의해 생성될 수 있다. 포그라운드 스피치가 인간에 의해 쉽게 식별될 수 있게 하기 위해, 백그라운드 스피치의 볼륨은 적절한 범위에서 변경될 수도 있다. 백그라운드 추가시 하나 이상의 왜곡이 적용될 수도 있다. 예를 들면, 백그라운드 스피치가 텍스트 투 스피치 음성합성기에 의해 읽혀질 때 또는 읽혀진 후, 추가된 백그라운드 스피치에 하나 이상의 왜곡이 적용될 수도 있다. 이들 왜곡은 주파수 워핑, 발음 가능한 사운드의 지속시간 워핑, 볼륨 워핑, 단어 사이의 지속시간의 변형을 포함할 수도 있지만, 이들에 제한되는 것은 아니다. 텍스트 투 스피치 음성합성기에 의해 생성된 백그라운드 스피치에 하나 이상의 왜곡이 적용될 수도 있다. 예를 들면, 백그라운드 스피치가 포그라운드 스피치에 추가되기 이전에 백그라운드 스피치에 에코가 추가될 수도 있다. 또한, 백그라운드 스피치는 무의미한 스피치 또는 녹음된 오디오의 형태일 수 있다. 백그라운드 스피치가 백그라운드 스피치와 동일한 언어로 이루어지는 실시형태에서, 무의미한 백그라운드 스피치는 인간이 포그라운드 스피치를 식별하고 인식하는 것을 도울 수 있다.

1.5.2 오디오 HIP 과제에서 사용되는 텍스트

텍스트 투 스피치 오디오 HIP 기술의 몇몇 실시형태에서, 각각의 오디오 HIP 과제는 텍스트 투 스피치 음성합성기를 통해 발화된 문장이다. 텍스트 투 스피치 오디오 HIP 기술의 한 간단한 실시형태는, 기사로부터 통상 특정한 범위 내에 있는 적절한 길이의 단어로 이루어진 문장을 랜덤하게 선택하고 선택된 문장을 발화하기 위해 텍스트 투 스피치 음성합성기를 사용한다. 다른 실시형태에서, 오디오 HIP 과제는 텍스트 투 스피치 음성합성기를 통해 발화된 상관된 또는 비상관된 단어의 스트링이다. 이들 단어는 단어의 라이브러리로부터 선택되고, 단어의 라이브러리는 인간이 이들 단어를 인식할 때 인간에게 혼돈을 줄 수도 있는 단어, 및 불필요한 단어를 제거함으로써 사전으로부터 구축된다.

본 기술은 미지의 유저에게 오디오 과제를 제시하고, 그 오디오 과제에 대한 응답을 타이핑하거나 발화하도록 미지의 유저에게 요청한다. 몇몇 실시형태에서, 미지의 유저는 그 또는 그녀가 들은 단어의 스트링 또는 문장으로 응답하도록 요청받는다. 이것은 통상 선택된 텍스트의 의미론적 이해가 불필요할 때 사용된다. 미지의 유저는 발화된 문장 또는 단어의 스트링을 정확하게 인식하기만 하면 된다. 이들 실시형태는, 상이한 언어의 오디오 HIP 과제를 쉽게 생성할 수 있는 이점을 갖는다. 다른 실시형태에서, 미지의 유저는, 정확한 응답을 제공하기 위해서는, 발화된 문장을 이해할 필요가 있다. 그 문장은 통상적으로, 하나 이상의 규칙에 의해 자동적으로 생성된 명령 또는 질문이다. 이들 실시형태는, 생성된 오디오 과제에 추가적인 보안 레벨이 적용된다는 이점을 갖는다. 미지의 유저는, 정확한 응답을 제공하기 위해서는, 발화된 문장을 정확하게 인식하는 것뿐만 아니라 그 문장을 정확하게 이해해야 할 필요가 있다. 오디오 과제에 응답하는 데 의미론적 이해가 요구되는 경우, 예상 응답은 통상 문장으로 생성되고, 그 문장과 함께 라이브러리에 저장된다.

1.5.3 의미론적 이해

본 기술에 의해 생성된 많은 상기 오디오 HIP 과제가, 오디오 과제로서 사용되는 문장의 의미론적 이해를 요구하지는 않지만, 텍스트 투 스피치 오디오 HIP 기술의 몇몇 실시형태에서, 인간과 봇을 구별하는 것을 돕기 위해 추가적인 메커니즘이 추가될 수 있다. 이 경우, 테스트를 통과하기 위해서는, 오디오 HIP 과제의 문장의 이해가 요구된다. 이 문장은 질문 또는 명령일 수 있다. 예를 들면, 몇몇 실시형태에서, 본 기술은 질문 또는 명령의 타입에 기초하여 복수의 카테고리의 질문 또는 명령을 정의한다. 텍스트 문장 및 그들의 예상 대답을 자동적으로 생성하는 것을 돕기 위해, 하나 이상의 규칙이 각각의 카테고리와 관련될 수도 있다. 정확한 응답을 제공하기 위해서는, 이러한 문장의 의미론적 이해가 요구된다. 인간은 그 문장을 이해하고, 따라서 쉽게 정확한 대답을 제공할 수 있다. 한편, 봇은 그 문장을 이해할 능력이 없으며, 따라서 정확한 대답을 제공할 수 없다. 따라서, 문장 자체가 HIP 과제가 된다. 오디오 과제를 생성하기 위한 선택된 텍스트로서 그 문장이 사용되면, 봇이 오디오 과제의 텍스트를 정확하게 인식하더라도, 봇이 그 문장의 의미론적 의미를 이해하지 못하기 때문에, 봇은 여전히 정확한 응답을 제공할 수 없고 HIP 테스트를 통과할 수 없다. 추가적인 타입의 질문 및 명령이 그 시스템에 추가될 수 있다. 일 실시형태에서, 한 카테고리는, 예상 응답이 문장에 기초한 문자 또는 단어의 특정 스트링이다는 것이다. 예를 들면, 그것은, 이전 문장의 단어의 두 번째 글자를 입력할 것을, 또는 마지막 2개의 단어를 역순으로 입력할 것을 유저에게 요청하는 명령 등에 의해 후속되는 랜덤하게 선택된 문장일 수 있다. 카테고리와 관련된 규칙 세트는 상이한 타입의 명령(및 따라서 동일한 선택된 문장에 대한 상이한 예상 응답) 및 동일한 예상 응답을 생성하는 등가의 명령을 나타내는 상이한 방식을 결정한다. 봇이 명령을 이해하지 못하기 때문에, 그들은 정확한 응답을 제공할 수 없을 것이다. 이러한 복합 문장(랜덤하게 선택된 문장에 후속하는 명령이 추가된 문장)이 생성되면, 예상 응답도 또한 생성된다. 오디오 HIP 과제의 생성시 선택될 예상 응답 또는 응답들은 라이브러리에 추가될 수 있다. 다른 실시형태에서, 예상 응답이 특정 계산 결과인 카테고리가 사용될 수 있다. 예를 들면, 그 카테고리와 관련된 규칙 세트는 계산 결과에 관련된 상이한 질문 및 동일한 계산 결과를 생성하는 상이한 표현 방식을 생성할 것이다. 예를 들면, 생성된 문장은 다음과 같을 수도 있다: "사이먼이 어제 세 개의 사과를 먹었고 오늘 두 개의 바나나를 먹었는데, 과일의 개수의 관점에서 그는 어떤 날 더 많은 과일을 먹었는가?" 이 문장의 예상 대답도 또한 자동적으로 생성된다. 대상, 시간, 질문, 및 동일한 것을 표현하는 등가의 방식을 변경함으로써, 본 기술은 복수의 문장 및 그들의 예상 응답을 생성할 수 있다.

2.0 예시적인 동작 환경:

본원에서 설명된 텍스트 투 스피치 오디오 HIP 기술은 다양한 타입의 범용 또는 특별한 목적의 컴퓨팅 시스템 환경 또는 구성 내에서 동작한다. 도 5는, 본원에서 설명된 바와 같은, 텍스트 투 스피치 오디오 HIP 기술의 다양한 실시형태 및 엘리먼트가 구현될 수도 있는 범용 컴퓨터 시스템의 단순화된 예를 예시한다. 도 5에서 파선 또는 점선으로 표현된 임의의 박스는 단순화된 컴퓨팅 디바이스의 대안적 실시형태를 나타내며, 하기에 설명되는 바와 같이, 이들 대안적 실시형태의 임의의 것 또는 모두는 본 문서를 통해 설명된 다른 대안적 실시형태와 결합하여 사용될 수도 있음을 주목해야만 한다.

예를 들면, 도 5는 단순화된 컴퓨팅 디바이스(500)를 도시하는 일반적인 시스템 도면을 도시한다. 보통, 이러한 컴퓨팅 디바이스는, 퍼스널 컴퓨터, 서버 컴퓨터, 핸드헬드 컴퓨팅 디바이스, 랩탑 또는 모바일 컴퓨터, 셀폰 및 PDA와 같은 통신 디바이스, 멀티프로세서 시스템, 마이크로프로세서 기반 시스템, 셋탑 박스, 프로그램가능 소비자 전자장치, 네트워크 PC, 미니컴퓨터, 메인프레임 컴퓨터, 오디오 또는 비디오 미디어 플레이어 등을 포함하지만 이들에 제한되지 않는, 적어도 어떤 최소한의 계산적 성능을 갖는 디바이스에서 발견될 수 있다.

디바이스가 텍스트 투 스피치 오디오 HIP 기술을 구현하는 것을 허용하기 위해, 디바이스는 기본적인 계산 동작을 가능하게 하는 시스템 메모리 및 충분한 계산적 성능을 가져야만 한다. 특히, 도 5에 예시된 바와 같이, 계산적 성능은 하나 이상의 프로세싱 유닛(들)(510)에 의해 일반적으로 예시되며, 하나 이상의 GPU들(515)을 또한 포함할 수도 있으며, 이들 중 어느 하나 또는 양자는 시스템 메모리(520)와 통신한다. 일반적인 컴퓨팅 디바이스의 프로세싱 유닛(들)(510)은 특수 마이크로프로세서, 예컨대, DSP,VLIW, 또는 다른 마이크로컨트롤러일 수도 있거나, 또는 멀티 코어 CPU에 특수한 GPU 기반 코어를 포함하는, 하나 이상의 프로세싱 코어들을 갖는, 종래의 CPU일 수 있다.

또한, 도 5의 단순화된 컴퓨팅 디바이스는, 예를 들면 통신 인터페이스(530)와 같은 다른 컴포넌트를 또한 포함할 수도 있다. 도 5의 단순화된 컴퓨팅 디바이스는 하나 이상의 종래의 컴퓨터 입력 디바이스(540)(예를 들면, 포인팅 디바이스, 키보드, 오디오 입력 디바이스, 비디오 입력 디바이스, 햅틱 입력 디바이스, 유선 또는 무선 데이터 송신을 수신하는 디바이스 등)를 또한 포함할 수도 있다. 도 5의 단순화된 컴퓨팅 디바이스는, 예를 들면, 하나 이상의 종래의 컴퓨터 출력 디바이스(550)(예를 들면, 디스플레이 디바이스(들)(555), 오디오 출력 디바이스, 비디오 출력 디바이스, 유선 또는 무선 데이터 송신을 송신하는 디바이스 등)와 가? 다른 옵션적 컴포넌트를 또한 포함할 수도 있다. 범용 컴퓨터에 대한 통신 인터페이스(530), 입력 디바이스(540), 출력 디바이스(550), 및 저장 디바이스(550)는 당업자에게 널리 공지되어 있으며, 본원에선 상세히 설명하지 않을 것임을 주목하라.

도 5의 단순화된 컴퓨팅 디바이스는 다양한 컴퓨터 판독가능 매체를 또한 포함할 수도 있다. 컴퓨터 판독가능 매체는, 저장 디바이스(560)를 통해 컴퓨터(500)에 의해 액세스될 수 있으며, 컴퓨터 판독가능 또는 컴퓨터 실행가능 명령, 데이터 구조, 프로그램 모듈 또는 다른 데이터와 같은 정보의 저장을 위해, 착탈식(570)이거나 비착탈식(580)인 휘발성 및 불휘발성 매체 양자를 포함하는 임의의 가용 매체일 수 있다. 비제한적인 예로서, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 포함할 수도 있다. 컴퓨터 저장 매체는, DVD, CD, 플로피디스크, 테이프 드라이브, 하드드라이브, 광학 드라이브, 솔리드 스테이트 메모리 디바이스, RAM, ROM, EEPROM, 플래시 메모리 또는 다른 메모리 기술, 자기 카세트, 자기 테이프, 자기 디스크 스토리지, 또는 다른 자기 저장 디바이스, 또는 소망의 정보를 저장하는 데 사용될 수 있고 하나 이상의 컴퓨팅 디바이스에 의해 액세스될 수 있는 임의의 다른 디바이스와 같은 컴퓨터 또는 머신 판독가능 매체 또는 저장 디바이스를 포함하지만, 이들에 제한되는 것은 아니다.

컴퓨터 판독가능 또는 컴퓨터 실행가능 명령, 데이터 구조, 프로그램 모듈 등과 같은 정보의 저장은, 하나 이상의 변조된 데이터 신호 또는 반송파를 인코딩하기 위한 임의의 다양한 상기 언급된 통신 매체, 또는 다른 전송 메커니즘 또는 통신 프로토콜을 사용하는 것에 의해 또한 달성될 수 있고, 임의의 유선 또는 무선 정보 전달 메커니즘을 포함한다. "변조된 데이터 신호" 또는 "반송파"는 일반적으로, 정보를 신호에 인코딩하는 것과 같은 방식으로 설정되거나 변경된 하나 이상의 자신의 특성을 갖는 신호를 지칭한다. 주목하라. 예를 들면, 통신 매체는, 하나 이상의 변조된 데이터 신호를 반송하는 유선 네트워크 또는 직접 유선 접속과 같은 유선 매체, 및 음향, RF, 적외선, 레이저와 같은 무선 매체, 및 하나 이상의 변조된 데이터 신호 또는 반송파를 송신 및/또는 수신하는 다른 무선 매체를 포함한다. 상기의 임의의 조합도 또한 통신 매체의 범위 내에 포함되어야 한다.

또한, 본원에서 설명된 텍스트 투 스피치 오디오 HIP 기술의 다양한 실시형태의 일부 또는 모두를 구현하는 소프트웨어, 프로그램, 및/또는 컴퓨터 프로그램 제품, 또는 그 일부는, 컴퓨터 실행가능 명령 또는 다른 데이터 구조의 형태로 컴퓨터 또는 머신 판독가능 매체 또는 저장 디바이스 및 통신 매체의 임의의 소망의 조합으로부터 판독, 저장, 수신 또는 송신될 수도 있다.

마지막으로, 본원에서 설명된 텍스트 투 스피치 오디오 HIP 기술은, 프로그램 모듈과 같은 컴퓨터 실행가능 명령이 컴퓨팅 디바이스에 의해 실행되는 일반적인 맥락에서 더 설명될 수도 있다. 일반적으로, 프로그램 모듈은, 특정 태스크를 수행하거나 특정 추상 데이터 타입을 구현하는 루틴, 프로그램, 오브젝트, 컴포넌트, 데이터 구조 등을 포함한다. 본원에서 설명된 실시형태는 분산 컴퓨팅 환경에서 또한 실시될 수도 있는데, 분산 컴퓨팅 환경에서, 태스크는, 하나 이상의 통신 네트워크를 통해 연결된, 하나 이상의 원격 프로세싱 디바이스에 의해, 또는 하나 이상의 디바이스의 클라우드 내에서 수행된다. 분산 컴퓨팅 환경에서, 프로그램 모듈은 미디어 저장 디바이스를 포함하는 로컬 및 원격 컴퓨터 저장 미디어 양자에 위치될 수도 있다. 또한, 상기 언급된 명령은, 부분적으로 또는 전체로, 하드웨어 로직 회로로서 구현될 수도 있으며, 이들은 프로세서를 포함하거나 포함하지 않을 수도 있다.

본원에서 설명된 상기 언급된 대안적 실시형태는 추가적인 하이브리드 실시형태를 형성하도록 소망되는 임의의 조합에서 사용될 수도 있음을 또한 주목해야만 한다. 비록 본 청구대상이 구조적 특징들 및/또는 방법론적 액트에 대한 언어 특정적으로 설명되었으나, 첨부된 청구항에 정의된 청구대상이 위에서 설명된 특정 특징 또는 작용으로 반드시 제한되는 것은 아님이 이해될 것이다. 오히려, 위에서 설명된 특정 특징들 및 액트는 청구항을 구현하는 예시적인 형태로서 설명된다.

Claims

자동 인적 상호 증명(human interactive proof)을 제공하기 위한 컴퓨터 구현 프로세스로서,
복수의 텍스트 문장 또는 복수의 단어로부터 텍스트 스트링을 선택하는 단계와,
미지의 유저가 인간인지 봇(bot)인지의 식별을 위해, 선택된 텍스트의 보이스(voice)를 오디오 과제(audio challenge)로서 생성하기 위해 텍스트 투 스피치(text-to-speech) 엔진을 적용하는 단계
를 포함하는, 컴퓨터 구현 프로세스.
제 1항에 있어서,
상기 미지의 유저로부터 상기 오디오 과제에 대한 응답을 수신하는 단계;
상기 미지의 유저가 인간인지 봇인지의 여부를 판정하기 위해, 상기 오디오 과제에 대한 상기 미지의 유저로부터의 상기 응답을 검증하는 단계를 더 포함하는,
컴퓨터 구현 프로세스.
제 2항에 있어서,
수신된 상기 응답은 상기 미지의 유저에 의해 발화되고(spoken), 상기 응답을 인식하고 상기 응답을 정확한 대답과 비교하기 위해 보이스 인식이 적용되는,
컴퓨터 구현 프로세스.
제 1항에 있어서,
선택된 상기 텍스트의 상기 보이스의 생성 동안 또는 생성 이후에 하나 이상의 왜곡들을 적용하는 단계를 더 포함하는,
컴퓨터 구현 프로세스.
제 4항에 있어서,
상기 생성 동안 하나 이상의 왜곡들을 적용하는 단계는 상기 오디오 과제를 생성하기 위해, 상기 선택된 텍스트의 상기 보이스의 상기 생성 동안 스펙트럼 주파수 워핑을 적용하는 단계를 포함하는,
컴퓨터 구현 프로세스.
제 4항에 있어서,
상기 생성 동안 하나 이상의 왜곡들을 적용하는 단계는
상기 오디오 과제를 생성하기 위해, 상기 선택된 텍스트의 상기 보이스의 상기 생성 동안 발음 가능한 사운드의 지속시간을 조정하는 단계와,
상기 오디오 과제를 생성하기 위해, 상기 선택된 텍스트의 상기 보이스의 상기 생성 동안 발화된 단어 사이의 지속시간을 조정하는 단계
중 적어도 하나를 포함하는, 컴퓨터 구현 프로세스.
제 4항에 있어서,
상기 생성 동안 하나 이상의 왜곡들을 적용하는 단계는 상기 오디오 과제를 생성하기 위해, 상기 선택된 텍스트의 상기 보이스의 볼륨을 변경시키는 단계를 더 포함하는,
컴퓨터 구현 프로세스.
제 2항에 있어서,
올바른 대답에 도달하기 위해서는 상기 오디오 과제의 의미론적 이해가 요구되는,
컴퓨터 구현 프로세스.
자동화된 인적 상호 증명을 위한 오디오 기반 과제를 생성하는 시스템으로서,
범용 컴퓨팅 디바이스와,
상기 범용 컴퓨팅 디바이스에 의해 실행가능한 프로그램 모듈을 포함하는 컴퓨터 프로그램을 포함하되,
상기 컴퓨팅 디바이스는 상기 컴퓨터 프로그램의 상기 프로그램 모듈에 의해,
과제 스트링으로서 사용될 텍스트의 스트링을 선택하고,
선택된 상기 텍스트 문장이 텍스트 투 스피치 엔진에 의해 읽혀질 때 왜곡되도록, 하나 이상의 왜곡으로 상기 선택된 텍스트의 스피치 모델의 파라미터를 왜곡시키고,
왜곡된 상기 파라미터 및 상기 스피치 모델을 이용하여, 상기 선택된 텍스트 문장을 미지의 컴퓨터 유저에 대한 오디오 과제로서 텍스트 투 스피치 음성합성기를 사용하여 읽고,
상기 미지의 컴퓨터 유저로부터의 응답이 예상 응답과 일치하는지를 자동적으로 결정하도록
명령되는(directed), 시스템.
제 9항에 있어서,
상기 미지의 컴퓨터 유저는 예상 응답을 제공하기 위해 텍스트의 상기 선택된 스트링의 의미론적 이해를 해야만 하는,
시스템.