KR101460449B1

KR101460449B1 - 자동 빈칸 채우기 문제 생성 방법 및 이를 수행하는 프로그램을 기록한 기록매체 장치

Info

Publication number: KR101460449B1
Application number: KR20130092411A
Authority: KR
Inventors: 이근배; 이규송
Original assignee: 포항공과대학교 산학협력단
Priority date: 2013-08-05
Filing date: 2013-08-05
Publication date: 2014-11-20
Also published as: WO2015020299A1; US20160180730A1

Abstract

디지털 정보 처리 장치에서 수행되는 자동 빈칸 채우기 문제 생성 방법에 있어서, 입력문장에서 기 설정된 기준에 따라 정답 어휘를 선택하는 단계, 상기 선택한 정답 어휘와 어휘 데이터베이스의 어휘 각각의 관계가 미리 설정된 제1 기준을 만족하는 복수의 제1 어휘를 상기 어휘 데이터베이스로부터 획득하는 단계, 상기 입력문장과 상기 복수의 제1 어휘 각각의 관계가 미리 설정된 제2 기준을 만족하는 복수의 제1 어휘를 상기 복수의 제1 어휘로부터 획득하는 단계 및 상기 복수의 제2 어휘와 상기 입력문장과의 관계 및 상기 복수의 제2 어휘와 상기 정답 어휘와의 관계를 이용하여 상기 복수의 제2 어휘로부터 미리 설정된 제3 기준을 만족하는 하나 이상의 보기 어휘를 획득하는 단계를 포함하는 자동 빈칸 채우기 문제 생성 방법은, 정답 어휘와 비교하여 정답 어휘와의 관계도가 낮은 보기 후보 어휘들을 필터링 함으로써 빈칸 채우기 문제를 효과적으로 생성할 수 있고, 이를 통해 빈칸 채우기 문제의 재생성 빈도를 감소시킬 수 있다.

Description

자동 빈칸 채우기 문제 생성 방법 및 이를 수행하는 프로그램을 기록한 기록매체 장치{Method for Automatic Fill-in the Blank Question Generation and the Recorded Medium Performing the same}

본 발명은 언어 처리 기술에 관한 것으로, 더욱 상세하게는 자동 빈칸 채우기 문제 생성 방법 및 이를 수행하는 프로그램을 기록한 기록매체에 관한 것이다.

주어진 문장에서 정답이 될 어휘를 선택하고 선택된 정답 어휘와 유사한 의미의 보기 어휘들을 생성한 후, 선택된 정답 어휘 및 보기 어휘들을 정답 어휘가 위치한 자리를 빈칸으로 채운 문장과 함께 사용자에게 제공하여 외국어를 학습하기 위한 용도나 외국어 언어능력을 측정하기 위한 용도로 만든 테스트를 클로즈 테스트(Cloze Test)라 한다.

클로즈 테스트는 제스톨트 이론(Gestalt Theory)에 근거를 두고 있는데, 이는 사람이 사물의 형태를 관찰할 때 무의식적으로 사물의 부서진 부분 혹은 비어 있는 공간 부분을 채우려고 하는 심리가 있고, 그 사물에 익숙할수록 더 쉽게 그 사물을 인식한다는 이론이다. 이 이론을 언어 학습에 응용하여 언어 능력이 뛰어 날수록 빈칸을 채우는 능력도 뛰어나다는 이론으로 발전 시켰으며 이를 기반으로 클로지 테스트가 개발되었다.

최초의 클로즈 테스트는 어휘의 읽기 난해도를 측정하기 위한 목적으로 1952년 테일러(Taylor)에 의해 개발되었으며, 1971년 존 올러(John Oller)에 의해 널리 보급되어 지금까지 외국어 능력 테스트용 혹은 외국어 학습용으로 폭넓게 사용되고 있다.

하지만, 종래 개발된 빈칸 채우기 문제 생성 방법은, 어휘 데이터베이스의 어휘 중에서 정답 어휘와 의미가 유사한 어휘들을 정해진 수의 보기 어휘 수만큼 단순히 나열하는 방식의 프로그램이 많다. 이렇게 생성된 보기 어휘들은 정답 어휘와 비교하여 너무 자명한 보기 어휘들이 생성될 가능성이 높아 빈칸 채우기 문제의 목적인 언어 능력 테스트나 연습용으로 사용 하기 부적합하여 빈칸 채우기 문제 생성 작업을 다시 해야 하는 불편함이 있다.

따라서, 상술한 문제를 해결하기 위한 본 발명의 목적은 언어 능력 테스트와 언어 학습 효과를 상승 시킬 수 있는 자동 빈칸 채우기 문제 생성 방법을 제공하는 것이다.

또한, 본 발명의 다른 목적은 상기 자동 빈칸 채우기 문제 생성 방법이 기록된 기록매체를 제공하는 것이다.

상술한 본 발명의 목적을 달성하기 위한 본 발명의 일 측면에 따른 자동 빈칸 채우기 문제 생성 방법은, 디지털 정보 처리 장치에서 수행되는 자동 빈칸 채우기 문제 생성 방법에 있어서, 입력문장에서 기 설정된 기준에 따라 정답 어휘를 선택하는 단계, 상기 선택한 정답 어휘와 어휘 데이터베이스의 어휘 각각의 관계가 미리 설정된 제1 기준을 만족하는 복수의 제1 어휘를 상기 어휘 데이터베이스로부터 획득하는 단계, 상기 입력문장과 상기 복수의 제1 어휘 각각의 관계가 미리 설정된 제2 기준을 만족하는 복수의 제1 어휘를 상기 복수의 제1 어휘로부터 획득하는 단계 및 상기 복수의 제2 어휘와 상기 입력문장과의 관계 및 상기 복수의 제2 어휘와 상기 정답 어휘와의 관계를 이용하여 상기 복수의 제2 어휘로부터 미리 설정된 제3 기준을 만족하는 하나 이상의 보기 어휘를 획득하는 단계를 포함한다.

여기서, 상기 복수의 제1 어휘를 상기 어휘 데이터베이스로부터 획득하는 단계는, 상기 선택한 정답 어휘를 상기 어휘 데이터베이스의 어휘들과 각각 비교하여 상기 어휘 데이터베이스의 어휘들 각각에 대하여 하나 이상의 유사도를 산출하는 단계, 상기 산출된 하나 이상의 유사도 중에서 적어도 하나의 유사도를 이용하여 제1 유사도를 산출하는 단계 및 상기 어휘 데이터베이스 어휘 각각의 상기 제1 유사도가 미리 설정된 기준을 만족하는 상기 어휘 데이터베이스 어휘를 상기 복수의 제1 어휘로 획득하는 단계를 포함할 수 있다.

여기서, 상기 하나 이상의 유사도를 산출 하는 단계는, 상기 어휘 데이터베이스 각각의 어휘들을 상기 정답 어휘와 비교하여 정답 어휘와 의미가 유사한 의미 유사도, 발음이 유사한 발음 유사도 및 철자가 유사한 철자 유사도를 산출하는 단계를 포함할 수 있다.

여기서, 상기 복수의 제2 어휘를 상기 복수의 제1 어휘로 부터 획득하는 단계는, 상기 입력 문장과 상기 복수의 제1 어휘 각각을 비교하여 상기 입력문장에 대한 상기 제1 어휘 각각의 유사도를 상기 제2 유사도로 산출하는 단계 및 상기 복수의 제1 어휘 각각의 제2 유사도를 미리 설정된 임계값과 각각 비교하여 미리 설정된 조건을 만족하는 복수의 제1 어휘를 상기 복수의 제2 어휘로 획득하는 단계를 포함할 수 있다.

여기서, 상기 제2 유사도는, 상기 복수의 제2 어휘 선택 기준을 조절하기 위한 제1 가중치를 상기 입력 문장과 상기 복수의 제1 어휘 각각의 유사도에 적용하여 상기 제2 유사도를 산출하여 획득할 수 있다.

여기서, 상기 하나 이상의 보기 어휘를 획득하는 단계는, 하나 이상의 어휘 데이터 베이스 및 하나 이상의 텍스트 데이터베이스에 기반하여 미리 설정된 기준을 만족하는 분포 의미 행렬(Distributed Semantic Matrix)을 생성하는 단계, 상기 분포 의미 행렬과 동일한 열(Column)의 크기 및 동일한 열의 인덱스를 가지며, 상기 입력 문장에서 상기 정답 어휘를 제외한 어휘들을 대상으로 미리 설정된 기준을 만족하는 에스 행벡터(S Row Vector)를 생성하는 단계, 상기 에스 행벡터를 이용하여 상기 복수의 제2 어휘 각각의 유사도를 상기 복수의 제2 어휘 각각의 입력 문장 유사도로 산출하는 단계, 상기 분포 의미 행렬을 이용하여 상기 정답 어휘에 대한 상기 복수의 제2 어휘 각각의 유사도를 상기 복수의 제2 어휘 각각의 정답 어휘와의 유사도로 산출하는 단계, 상기 복수의 제2 어휘 각각의 상기 입력 문장에 대한 유사도 및 상기 복수의 제2 어휘 각각에 대한 정답 어휘와의 유사도에 기반하여 상기 제2 어휘 각각의 제3 유사도를 산출하는 단계 및 상기 복수의 제2 어휘 각각의 제3 유사도가 미리 설정된 기준을 만족하는 상기 복수의 제2 어휘를 하나 이상의 보기 어휘로 획득하는 단계를 포함할 수 있다.

여기서, 상기 복수의 제2 어휘 각각의 입력 문장에 대한 유사도를 산출하는 단계는, 상기 복수의 제2 어휘 각각에 해당하는 분포 의미 행렬의 행벡터(Row Vector)와 상기 에스 행벡터(S Row Vector)를 이용하여 상기 복수의 제2 어휘에 각각의 상기 입력 문장에 대한 유사도를 산출할 수 있다.

여기서, 상기 복수의 제2 어휘 각각에 대한 정답 어휘와의 유사도를 산출하는 단계는, 상기 복수의 제2 어휘 각각에 해당하는 상기 분포 의미 행렬의 행벡터(Row Vector)와 상기 정답 어휘에 해당하는 상기 분포 의미 행렬의 행벡터(Row Vector)를 이용하여 상기 복수의 제2 어휘 각각에 대한 정답 어휘와의 유사도를 산출할 수 있다.

여기서, 상기 제3 유사도를 산출하는 단계는, 상기 복수의 제2 어휘의 상기 입력 문장에 대한 유사도 및 상기 복수의 제2 어휘의 상기 정답 어휘에 대한 유사도 각각이 상기 제3 유사도에 미치는 영향을 조절하기 위한 제2 가중치를 상기 복수의 제2 어휘의 입력 문장에 대한 유사도 및 복수의 제2 어휘의 정답 어휘에 대한 유사도에 각각 적용하여 상기 제3 유사도를 산출할 수 있다.

또한 본 발명의 다른 목적을 달성하기 위한 본 발명의 일 측면에 따른 자동 빈칸 채우기 생성 방법을 기록한 기록매체는, 디지털 정보 처리 장치에서 수행되는 자동 빈칸 채우기 문제 생성 방법을 수행하는 디지털 처리 장치에 의해 실행될 수 있는 명령어의 프로그램이 유형적으로 구현되어 있으며, 상기 디지털 처리 장치에 의해 판독될 수 있는 프로그램을 기록한 기록매체에 있어서, 입력문장에서 기 설정된 기준에 따라 정답 어휘를 선택하는 단계, 상기 선택한 정답 어휘와 어휘 데이터베이스의 어휘 각각의 관계가 미리 설정된 제1 기준을 만족하는 복수의 제1 어휘를 상기 어휘 데이터베이스로부터 획득하는 단계, 상기 입력문장과 상기 복수의 제1 어휘 각각의 관계가 미리 설정된 제2 기준을 만족하는 복수의 제1 어휘를 상기 복수의 제1 어휘로부터 획득하는 단계 및 상기 복수의 제2 어휘와 상기 입력문장과의 관계 및 상기 복수의 제2 어휘와 상기 정답 어휘와의 관계를 이용하여 상기 복수의 제2 어휘로부터 미리 설정된 제3 기준을 만족하는 하나 이상의 보기 어휘를 획득하는 단계를 수행하는 프로그램이 기록된다.

상술한 바와 같은 자동 빈칸 채우기 문제 생성 방법 및 이를 수행하는 프로그램을 기록한 기록매체 장치에 따르면, 정답 어휘와 어휘 데이터베이스 각각의 어휘들을 비교하여 어휘 데이터베이스 어휘들 각각을 정답 어휘에 대한 의미 유사도, 발음 유사도 및 철자 유사도를 산출하고 산출한 유사도들 중 하나 이상의 유사도를 이용하여 어휘 데이터베이스의 어휘들에서 복수의 제1 어휘를 획득한다. 이후, 입력 문장에 대한 복수의 제1 어휘 각각의 유사도를 확률 값으로 산출한 복수의 제1 어휘 각각의 제2 유사도를 입력된 임계값과 비교하여 복수의 제1 어휘로부터 복수의 2 어휘를 획득하고, 하나 이상의 어휘 데이터베이스와 하나 이상의 텍스트 데이터베이스를 기초하여 분포 의미 행렬 및 에스 행벡터을 생성한다. 그리고, 생성된 분포 의미 행렬 및 에스 행벡터에 기반하여 입력 문장에 대한 복수의 제2 어휘 각각의 유사도인 복수의 제2 어휘 각각의 입력 문장 유사도와 정답 어휘에 대한 복수의 제2 어휘 각각의 정답 어휘 유사도를 산출한 후, 산출된 복수의 제2 어휘 각각의 입력 문장 유사도 및 정답 어휘 유사도에 기반하여 복수의 제2 어휘 각각에 대한 제3 유사도를 산출하고, 이를 이용하여 복수의 제2 어휘 중에서 하나 이상의 보기 어휘를 획득한다.

따라서, 정답 어휘와 비교하여 정답 어휘와의 관계도가 낮은 보기 후보 어휘들을 필터링 함으로써 빈칸 채우기 문제를 효과적으로 생성할 수 있고, 이를 통해 빈칸 채우기 문제의 재생성 빈도를 감소시킬 수 있다.

또한, 보기 후보 어휘와 정답 어휘의 관계는 어미가 유사한 의미 유사도, 발음이 유사한 발음 유사도 혹은 철자가 유사한 철자 유사도에 한정되지 아니하고 정답 어휘가 가지는 모든 특성, 예를 들면 반의어, 표준어, 순화어, 용례 등과 같은 관계에도 보기 후보 어휘에 필터링을 적용하여 빈칸 채우기 문제를 생성할 있다.

또한, 입력 문장의 언어와 같은 언어로 어휘 데이터베이스 및 텍스트 데이터베이스를 구성할 수 있고, 이를 통해 언어의 종류에 한정되지 아니하고 필터링을 적용하여 다양한 언어 유형의 빈칸 채우기 문제를 생성할 수 있다.

도 1은 본 발명의 일 실시예에 따른 자동 빈칸 채우기 문제 생성 방법을 나타내는 흐름도이다.
도 2는 도 1의 복수의 제1 어휘 획득 과정을 상세하게 나타내는 흐름도이다.
도 3은 도 1의 복수의 제2 어휘 획득 과정을 상세하게 나타내는 흐름도이다.
도 4는 도 1의 하나 이상의 보기 어휘를 획득하는 과정을 상세하게 나타내는 흐름도이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다.

그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 본 발명을 설명함에 있어 전체적인 이해를 용이하게 하기 위하여 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.

이하, 본 발명의 실시예에서 사용하는 '어휘'는 적어도 하나의 단어, 구, 문장 등을 모두 포함하는 의미로 사용된다.

또한, 이하에서 기술되는 본 발명의 실시예에 따른 자동 빈칸 채우기 문제 생성 방법은 소프트웨어 프로그램으로 구성될 수 있고, 디지털 신호의 처리가 가능한 정보 처리 장치가 상기 소프트웨어 프로그램을 독출하여 실행하는 형식으로 구현될 수 있다. 여기서, 정보 처리 장치는 예를 들어, 컴퓨터, 노트북 컴퓨터, 스마트폰, 패드형 단말 등과 같은 다양한 장치가 될 수 있다. 이하에서는 설명의 편의를 위해 상기 정보 처리 장치가 컴퓨터로 구성된 것으로 예를 들어 설명한다. 그러나, 본 발명의 자동 빈칸 채우기 문제 생성 방법이 컴퓨터에서만 수행될 수 있는 것은 아니며, 상술한 바와 같이 디지털 신호 처리가 가능한 다양한 장치에서 수행될 수 있다. 또한, 본 발명의 실시예에 따른 자동 빈칸 채우기 문제 생성 방법은 이를 실행하는 하나 이상의 하드웨어 칩의 형태로 구현될 수도 있다.

도 1은 본 발명의 일 실시예에 따른 자동 빈칸 채우기 문제 생성 방법을 나타내는 흐름도로서, 자동 빈칸 채우기 문제 생성 방법의 전체 과정을 간략하게 나타낸다.

이하에서는 도 1을 참조하여 자동 빈칸 채우기 문제 생성 방법에 대하여 간략하게 설명한다.

도 1을 참조하면, 먼저 컴퓨터는 입력된 입력 문장에서 미리 설정된 조건에 기반하여 정답 어휘를 선택한다(S100). 예를 들면, 컴퓨터에 입력된 입력 문장이 "According to the information board at the city bus terminal, buses bound for Orchard Road, and Bridgeway Park are scheduled to depart every hour"와 같은 문장으로 입력되면 컴퓨터는 미리 설정된 조건에 기반하여 어휘 "Scheduled"를 정답 어휘로 선택할 수 있다. 본 발명의 일 실시예에서, 컴퓨터는 다양한 방법을 통해 문장을 입력 받을 수 있다. 예를 들어, 컴퓨터는 소정의 문장 데이터베이스 또는 컴퓨터에 미리 저장된 복수의 문장들 중 임의의 문장을 선택하는 방법으로 입력을 받을 수도 있고, 사용자 인터페이스를 이용하여 유선 혹은 무선 네트워크 인터페이스를 통해 문장을 입력 받을 수도 있다. 하지만, 본 발명에서 입력 문장의 입력 방법은 상술한 방법으로 한정되지 아니하며 상술한 바와 같은 문장 입력 방법을 포함하는 공지된 다양한 방법을 통해 문장을 입력 받을 수 있다. 또한, 컴퓨터가 입력 문장으로부터 정답 어휘를 선택하는 기준이 되는 상기 미리 설정된 조건은, 미리 설정된 조건을 이용할 수도 있고 컴퓨터가 입력 문장에서 정답 어휘를 선택하기 위한 조건으로 조건적 랜덤 필드(Conditional Random Field)방식이 있으며, 선형-체인 조건적 랜덤 필드(Linear-chain CRFs), 일반 조건적 랜덤 필드(General CRFs), 숨김-상태 조건적 랜덤 필드(Hidden-state CRFs), 일차 및 이차 마코브 조건적 랜덤 필드(First-order and Second-order Markov CRFs) 및 첫번째 제한적 선형-체인 조건적 랜덤 필드(First restricted linear-chain CRFs) 등의 프로그램을 사용할 수도 있고 미리 구성된 프로그램을 사용 할 수도 있다.

또는, 컴퓨터가 정답 어휘 조건 설정을 위해 메뉴 화면 등과 같은 사용자 인터페이스를 제공하고, 제공한 사용자 인터페이스를 통해 사용자가 제공한 조건을 이용하도록 구성될 수도 있다.

하지만, 입력 문장으로부터 정답 어휘를 선택하는 조건이 상술한 방법에만 한정되는 것은 아니다.

또한, 컴퓨터가 입력 문장에서 정답 어휘를 선택하는 방법은 상술한 바와 같이 미리 설정된 조건을 만족하는 기준에 기반하여 선택하는 방법 이외에, 컴퓨터가 정답 어휘 선택을 위한 사용자 인터페이스를 제공한 후, 사용자가 직접 선택한 정답 어휘를 정답 어휘로 설정하도록 구성할 수도 있다.

다시 도 1을 참조하면, 상술한 바와 같이 단계 S100을 통해 입력 문장으로부터 정답 어휘를 선택한 후, 컴퓨터는 미리 설정된 조건에 기반한 제1 유사도에 기초하여 복수의 제1 어휘를 획득한다(S110). 여기서, 컴퓨터는 선택된 정답 어휘와 어휘 데이터베이스에 포함된 어휘들 각각을 비교하여 정답 어휘에 대한 어휘 데이터베이스 어휘들 각각의 제1 유사도를 산출하고, 산출된 어휘 데이터베이스 어휘들 각각의 제1 유사도에 기초하여 미리 설정된 조건을 만족하는 어휘 데이터베이스의 어휘들로부터 복수의 제1 어휘를 획득한다. 예를 들면, 컴퓨터는 입력된 입력 문장에서 선택한 정답 "Scheduled"과 어휘 데이터베이스 어휘들 각각을 비교하여 제1 유사도가 높은 어휘 데이터베이스의 어휘들 {fare, plan, program, docket, time, book}를 복수의 제1 어휘로 획득할 수 있다.

또한, 컴퓨터는 획득한 복수의 제1 어휘를 정답 어휘와 같은 품사로 변환하는 단계를 수행할 수 있다. 예를 들면, 컴퓨터는 획득한 어휘 데이터베이스의 어휘들 {fare, plan, program, docket, time, book}을 정답 어휘 즉, "Scheduled"의 품사 형태와 같은 형태인 {fared, planned, programmed, docketed, timed, booked}로 변환할 수 있다.

이후, 컴퓨터는 복수의 제1 어휘 각각의 제2 유사도에 기반하여 복수의 제1 어휘로부터 복수의 제2 어휘를 획득한다(S120). 여기서, 컴퓨터는 입력 문장에 대한 복수의 제1 어휘 각각의 유사도를 복수의 제1 어휘 각각의 확률 값으로 산출하고, 산출된 각각의 확률 값을 복수의 제1 어휘 각각의 제2 유사도로 부여한 후, 제2 유사도를 미리 설정된 조건과 비교한 결과에 기초하여 복수의 제2 어휘를 획득한다. 예를 들면, 컴퓨터는 복수의 제1 어휘 {fared, planned, programmed, docketed, timed, booked}에서 제2 유사도를 기반으로 미리 설정된 조건을 만족하지 못하는 복수의 제1 어휘 {programmed, timed}을 제거하고 남은 복수의 제1 어휘를 복수의 제2 어휘 {fared, planned, docketed, booked}로 획득할 수 있다.

이후, 컴퓨터는 상기한 바와 같이 획득한 복수의 제2 어휘로부터 미리 설정된 조건을 만족하는 제3 유사도를 기반으로 복수의 제2 어휘로부터 하나 이상의 보기 어휘를 획득한다(S130). 여기서, 컴퓨터는 입력 문장에 대한 복수의 제2 어휘 각각의 유사도 및 정답 어휘에 대한 복수의 제2 어휘 각각의 유사도에 기반하여 복수의 제2 어휘 각각의 제3 유사도를 산출하고, 산출된 복수의 제2 어휘 각각의 제3 유사도를 기반으로 복수의 제2 어휘로부터 하나 이상의 보기 어휘를 획득한다. 예를 들면, 컴퓨터는 획득한 복수의 제2 어휘 {fared, planned, docketed, booked}의 제3 유사도에 기반하여 하나 이상의 보기 어휘 {fared, planned, booked}을 획득할 수 있다.

이후, 컴퓨터는 획득한 하나 이상의 보기 어휘와 정답 어휘 및 빈칸이 포함된 입력 문장으로 구성된 빈칸 채우기 문제를 생성한다(S140). 예를 들면, 컴퓨터는 입력 문장으로 "According to the information board at the city bus terminal, buses bound for Orchard Road, and Bridgeway Park are scheduled to depart every hour."를 생성하고, 정답 어휘를 포함한 보기 어휘로 "a)fared b)planned c)booked d)scheduled"를 생성하여 빈칸 채우기 문제 생성을 완료한다.

도 2는 도 1에 도시한 복수의 제1 어휘 획득 과정을 상세하게 나타내는 흐름도로서, 어휘 데이터베이스 어휘들로부터 복수의 제1 어휘를 획득하는 단계를 보다 구치적으로 나타낸 것이다.

이하에서는 도2을 참조하여 복수의 제1 어휘를 획득하는 단계를 보다 구체적으로 설명한다.

도 2를 참조하면, 컴퓨터는 선택한 정답 어휘와 어휘 데이터베이스 어휘를 각각 비교하여, 어휘 데이터베이스의 각 어휘들에 대해 정답 어휘의 의미와의 유사도를 나타내는 의미 유사도를 각각 산출한다(S111).

또한, 컴퓨터는 정답 어휘와 어휘 데이터베이스 어휘를 각각 비교하여, 어휘 데이터베이스의 각 어휘들에 대해 정답 어휘의 발음과의 유사도를 나타내는 발음 유사도를 각각 산출한다(S112).

또한, 컴퓨터는 정답 어휘와 어휘 데이터베이스 어휘를 각각 비교하여, 어휘 데이터베이스의 각 어휘들에 대해 정답 어휘의 철자와의 유사도를 나타내는 철자 유사도를 각각 산출한다(S113).

도 2에서는 컴퓨터가 의미 유사도 산출 단계(S111), 발음 유사도 산출 단계(S112), 철자 유사도 산출 단계(S113)의 순서로 유사도를 산출하는 것으로 예를 들어 도시하고 설명하였으나 이는 설명의 편의를 위한 것일 뿐이며, 상기한 단계들은 순서에 상관 없이 수행될 수 있다. 예를 들어, 도 2의 단계 S111, S112 및 S113은 동시에 수행될 수도 있고, 수행 순서가 바뀔 수도 있다.

한편, 어휘 데이터베이스 어휘 각각의 의미 유사도는 수학식 1을 통해 산출될 수 있고, 발음 유사도는 수학식 2를 통해 산출될 수 있으며, 철자 유사도는 수학식 3을 통해 산출될 수 있다.

수학식 1 내지 수학식 3에서, answerWord는 선택된 정답 어휘를 의미하고, X는 어휘 데이터베이스 각각의 어휘를 의미하며, X₁→Xn은 어휘 데이터베이스 어휘를 각각 순차적으로 수학식 1 내지 수학식 3에 입력하는 것을 의미한다.

여기서, 컴퓨터는 어휘 데이터베이스에 포함된 어휘 각각을 수학식 1 내지 수학식 3에 입력하여, 입력된 각각의 어휘와 정답 어휘를 비교하여 정답 어휘에 대한 어휘 데이터베이스 어휘 각각의 유사도를 산출한다. 즉, 컴퓨터는 수학식 1을 통해 어휘 데이터베이스에 포함된 비교 어휘 각각의 의미 유사도를 산출 할 수 있고, 수학식 2을 통해 어휘 데이터베이스에 포함된 비교 어휘 각각의 발음 유사도를 산출할 수 있고, 수학식 3을 통해 어휘 데이터베이스에 포함된 비교 어휘 각각의 발음 유사도를 산출할 수 있다.

다시 도 2를 참조하면, 컴퓨터는 상술한 바와 같이 의미, 발음, 및 철자 유사도를 산출한 후 미리 설정된 조건에 따라 어휘 데이터베이스 어휘 각각의 제1 유사도를 산출한다(S114). 여기서, 제1 유사도를 산출하기 위한 상기 미리 설정된 조건은, 수학식 1 내지 수학식 3을 통해 산출한 어휘 데이터베이스 어휘 각각의 의미 유사도, 발음 유사도 및 철자 유사도 중 제1 유사도를 산출하기 위해 사용하는 유사도의 수를 의미할 수 있다. 예를 들면, 컴퓨터는 어휘 데이터베이스 어휘 각각의 제1 유사도를 하나의 유사도 ({의미 유사도}, {발음 유사도} 또는 {철자 유사도})를 이용하여 산출할 수 있고, 상기한 유사도들 중 두개의 유사도 ({의미 유사도, 발음 유사도}, {의미 유사도, 철자 유사도} 또는 {발음 유사도, 철자 유사도})를 이용하여 산출할 수도 있다. 또는 컴퓨터는 상기한 유사도들 ({의미 유사도, 발음 유사도, 철자 유사도})를 모두를 이용하여 상기 제1 유사도를 산출할 수도 있다.

또한, 본 발명의 일실시예에서 제 1 유사도는 상기한 의미, 발음 및 철자 유사도 중 하나 이상의 유사도를 더한 값을 제1 유사도로 산출할 수 있다. 하지만, 제1 유사도를 산출하는 방법이 상기와 같이 하나 이상의 유사도를 합하는 방법에 한정되는 것은 아니며, 유사도들 간의 다양한 연산 (예를 들면, 빼기, 곱하기, 나누기) 등을 사용하여 제1 유사도를 산출할 수도 있다.

또한 본 발명에서 제1 유사도를 산출하기 위한 조건은 고정값으로 미리 설정할 수도 있고, 컴퓨터가 별도의 사용자 인터페이스를 제공하여 사용자가 제1 유사도를 산출하기 위한 조건을 직접 설정하도록 구성 될 수도 있다.

다시 도 2을 참조하면, 컴퓨터는 어휘 데이터베이스 어휘 각각에 대해 산출된 제1 유사도와 미리 설정된 조건을 비교하여 미리 설정된 조건을 만족하는 어휘 데이터베이스의 어휘를 선택한다(S115). 예를 들면, 컴퓨터는 미리 설정된 기준값보다 큰 제1 유사도를 가지는 어휘 데이터베이스의 어휘를 선택할 수도 있고, 반대로 미리 설정된 기준값보다 작은 제1 유사도를 가지는 어휘 데이터베이스의 어휘를 선택할 수도 있다.

단계 S115에서, 컴퓨터가 어휘를 선택하기 위한 기준값은 고정값으로 미리 설정될 수도 있고, 사용자 인터페이스를 통해 사용자가 직접 설정한 값으로 구성될 수도 있다.

컴퓨터는 선택된 데이터베이스 어휘들이 미리 설정된 조건을 만족하는지를 판단하고(S116), 미리 설정된 조건을 만족하지 못하면 S115단계부터 다시 수행한다. 예를 들면, 미리 설정된 조건으로 선택된 어휘 데이터베이스 어휘들의 개수를 고려하는 경우, 컴퓨터는 단계 S116의 실행을 통해 선택된 어휘의 개수가 미리 설정된 기준 어휘 개수의 범위를 만족하는 가를 판단하고, 만족하지 않는 경우 미리 설정된 기준 어휘 개수의 범위를 만족할 때까지 단계 S115를 반복 실행 하도록 구성될 수 있다. 예컨대, 기준 어휘 개수의 범위가 10개에서 20개 사이인 경우, 컴퓨터는 단계 S115의 실행을 통해 선택한 어휘의 개수가 상기 기준 어휘 개수 범위에 해당할 때까지 단계 S115를 반복하여 실행할 수 있다.

여기서, 상기 미리 설정된 조건은 고정값으로 미리 설정될 수도 있고, 컴퓨터가 제공하는 사용자 인터페이스를 통해 사용자로부터 직접 제공받도록 구성될 수도 있다

단계 S116의 실행 결과 선택된 어휘가 미리 설정된 조건에 부합하는 경우, 컴퓨터는 어휘 데이터베이스로부터 선택된 복수의 어휘들을 제1 어휘로 획득하고, 복수의 제1 어휘 각각의 품사를 정답 어휘의 품사와 같은 품사로 변환한다(S117).

도 2에 도시한 제1 어휘 획득 과정에서는 정답 어휘에 대한 어휘 데이터베이스 어휘 각각의 의미, 발음 및 철자의 관계를 비교하고, 비교 결과에 기초하여 제1 어휘를 획득하는 것으로 예를 들어 도시하고 설명하였으나, 본 발명의 기술적 사상이 도 2에 도시된 내용에만 한정되는 것이 아니며, 제1 어휘를 획득하기 위하여 반의어, 표준어, 용례 및 방언 등의 어휘가 가지는 모든 특성에 대한 관계를 이용하여 제1 어휘를 획득하도록 구성될 수도 있다.

또한, 본 발명은 정답 어휘와 어휘 데이터베이스 어휘 각각의 제1 유사도에서 최저값을 선택하여 정답 어휘와 반대의 관계를 가지는 복수의 제1 어휘를 획득하여 빈칸 채우기 문제 생성을 할 수도 있다.

또한, 본 발명은 정답 어휘와 비교할 영어 어휘 데이터베이스로는 The CMU pronouncing Dictionary of American English, WordNet, MRC Psycholinguistic Database, Dante, British National Corpus, Celex, The Verb Semantics Ontalogy Project 또는 Twitter Current English Lexicon 등을 사용할 수 있다. 그러나, 상기에 열거된 영어 어휘 데이터베이스에 한정되지 아니하고 모든 종류의 영어 어휘 데이터베이스를 사용할 수 있으며, 같은 종류의 언어로 입력 문장과 어휘 데이터베이스를 구성하여 특정 언어의 종류에 한정되지 아니하고 자동 빈칸 채우기 문제를 생성할 수 있다.

도 3은 도 1의 복수의 제2 어휘 획득 과정을 상세하게 나타내는 흐름도로서, 복수의 제1 어휘로부터 복수의 제2 어휘를 획득하는 단계를 보다 구체적으로 나타낸 것이다.

이하에서는 도 3을 참조하여 복수의 제1 어휘로부터 복수의 제2 어휘 획득 과정을 구체적으로 설명한다.

도 3을 참조하면, 컴퓨터는 기 설정된 기준에 기반하여 입력된 제1 가중치를 사용하여 복수의 제1 어 휘 각각의 입력 문장에 대한 유사도를 제1 어휘 각각의 확률 값으로 산출하고, 산출된 각각의 확률 값을 복수의 제1 어휘 각각의 제2 유사도로 부여한다(S121). 입력 문장에 대한 제1 어휘 각각의 제2 유사도는 수학식 4로 산출될 수 있다.

수학식 4에서 w는 복수의 제1 어휘 각각을 의미하며, i는 입력 문장 내에서 정답 어휘의 위치를 값 0으로 정의하여 0을 기준으로 입력 문장 내에서 w의 위치를 나타내는 것을 의미하고, N은 N그램(N-gram)의 N값을 의미하며, k는 N값을 계수하는 것을 의미하고, j는 1부터 N값까지 계수하는 것을 의미한다. 수학식 4의 첫 번째 항

은 복수의 제1 어휘 w의 입력 문장 내에서의 확률 값을 의미한다. 예를 들면, 복수의 제1 어휘 w에 대하여 i값이 0이고 N값이 5인 w의 입력 문장 내에서 평균값을 구하기 위한 수학식 4의 첫 번째 항은

로 나타난다. 여기서, (w_-4 ^-1)은 복수의 제1 어휘 w에 대하여 w를 포함한 입력 문장의 정답 위치에서 왼쪽으로 첫 번째부터 네 번째 위치에 해당하는 어휘까지 해당 어휘 w의 확률 값을 나타내고, (w₁ ⁴)는 복수의 제1 어휘 w를 포함하여 입력 문장의 정답 위치에서 오른쪽으로 첫 번째부터 네 번째 위치에 해당하는 어휘까지의 어휘 w의 확률 값을 나타낸다.

복수의 제1 어휘 각각의 확률 값은 수학식 4의 두 번째 항

으로 산출할 수 있다. 여기서 λ(람다)는 제1 가중치를 의미하며, C(·)는 N그램 계수(N-gram Count) 값을 의미한다. 여기서 제1 가중치는 컴퓨터가 미리 설정한 고정값을 사용할 수도 있고, 사용자 인터페이스를 통해 사용자가 직접 입력한 값을 사용할 수도 있다. 수학식 4의 두번째항 C(w_i-j+1 ^i+k-j)/ C(w_i-j+1 ^i+k-j-1)는 복수의 제1 어휘 각각의 어휘 w에 대하여 N그램 계수값에 대한 (N-1)그램 계수값의 비를 나타낸다, 즉, N그램 계수의 N값이 4일 경우 복수의 제1 어휘 w의 C(w_i-j+1 ^i+k-j)/ C(w_i-j+1 ^i+k-j-1)값은, (4그램 계수값)/(3그램 계수값)으로 나타난다. 예를 들면, 입력 문장이 "According to the information board at the city bus terminal, buses bound for Orchard Road, and Bridgeway park are [정답 어휘] to depart every hour." 와 같이 주어지고 구하고자하는 N그램 계수의 N값이 4로 주어지며 복수의 제1 어휘 w가 fared로 주어지면, 컴퓨터는 fared에 대한 4그램으로 {(Bridgeway Park are fared), (Park are fared to), (are fared to depart), (fared to depart every)}를 생성하고 3그램으로는 {(Park are fared), (are fared to), (fared to depart)}를 생성하여 수학식 4의 두번째항의 (4그램 계수 값)/(3그램 계수 값)의 한 예로 ((Bridgeway Park are fared)그램 계수 값)/((Bridgeway Park are)그램 계수 값)을 산출한다.

다시 도 3을 참조하면, 컴퓨터는 미리 설정된 기준에 기반하여 입력된 임계값과 복수의 제1 어휘 각각의 제2 유사도를 비교하고, 복수의 제1 어휘 각각의 제2 유사도가 미리 설정된 기준을 만족하는 복수의 제1 어휘를 선택한다(S122). 예를 들면, 컴퓨터는 입력된 임계값을 기준으로 임계값보다 높은 제2 유사도를 가진 복수의 제2 어휘를 선택하거나 임계값보다 낮은 제2 유사도를 가진 복수의 제2 어휘를 선택할 수 있다. 여기서, 임계값은 컴퓨터가 미리 설정한 고정값을 사용할 수도 있고, 사용자 인터페이스를 통해 사용자가 직접 입력한 값을 사용할 수도 있다.

다시 도 3을 참조하면, 컴퓨터는 선택한 복수의 제1 어휘가 미리 설정된 조건을 만족하는지 판단을 하고(S123), 미리 설정된 조건을 만족하지 못하면 단계 124에서 제1 가중치를 조절하여 S121단계부터 다시 수행한다. 예컨데, 컴퓨터가 선택한 복수의 제1 어휘의 개수를 미리 설정한 조건으로 고려했을 경우, 만족 하지 못하 먼저 단계 S124에서 제1 가중치를 조절하여 단계 S121에서부터 다시 수행하고 미리 설정한 조건을 만족하였을 경우 단계 S125를 수행한다. 여기서, 제1 가중치는 컴퓨터가 미리 설정한 고정값을 사용할 수도 있고, 사용자 인터페이스를 통해 사용자가 직접 입력한 값을 사용할 수도 있다.

다시 도 3을 참조하면, 컴퓨터는 이전 단계 S123에서 선택한 복수의 제1 어휘를 복수의 제2 어휘로 획득한다(S124).

본 발명의 일 실시예에서 입력 문장에 대한 복수의 제1 어휘 각각의 유사도를 수학식 4의 확률 값으로 산출하여 복수의 제2 어휘를 획득하였으나 본 발명은 여기에 한정되지 아니하고 복수의 제1 어휘에 대한 입력 문장에서의 유사도를 나타내는 모든 방법을 포함하여 복수의 제1 어휘로부터 복수의 제2 어휘를 획득하는 방법을 포함한다.

또한, 본 발명의 일 실시예에서 N그램 계수(N-gram count)값을 구하기 위한 코퍼스로 구글 북스 코포라(Google Books corpora), The Corpus of Contemporary American English, American English corpora, Michigan Corpus of Academic Spoken English, Penn and Penn-Helsinki corpora of historical and modern English 또는 The Salamanca Corpus-Digital Archive of English Dialect Texts 등의 영어 코퍼스를 사용 하거나 직접 구성하여 사용 할 수도 있다. 그러나 상기에 열거된 코퍼스에 한정되지 아니하고 코퍼스 계수 값을 구할 수 있는 모든 종류의 코퍼스 사용이 가능하다. 또한, 본 발명의 일 실시예에서 N그램의 계수는 구글 N그램 계수(Google N-gram count), Microsoft's web n-grams service, Stochastic Language Models (N-gram) Specification, Corpus of Contemporary American English n-gram 또는 Peachnote's music ngram 등의 코퍼스 N그램 계수 프로그램을 사용할 수도 있고 직접 구성한 N그램 계수 프로그램을 사용할 수도 있다. 하지만, 본 발명은 제시한 N그램 계수 프로그램에 한정되지 아니하고 모든 종류의 N그램 계수 프로그램의 사용이 가능하다.

또한, 본 발명은 입력 문장에 대한 복수의 제1 어휘 각각의 제2 유사도에 기반하여 복수의 제1 어휘로부터 복수의 제2 어휘를 획득함으로써, 빈칸 채우기 문제를 효과적으로 생성할 수 있다.

또한, 본 발명은 입력 문장과 같은 언어 종류의 코퍼스 및 코퍼스 계수 프로그램을 사용함으로써, 특정 언어의 종류에 한정 받지 않고 빈칸 채우기 문제를 생성할 수도 있다.

도 4는 도 1의 하나 이상의 보기 어휘를 획득하는 과정을 상세하게 나타내는 흐름도로서, 복수의 제2 어휘로부터 하나 이상의 보기 어휘를 획득하는 단계를 보다 구체적으로 나타낸다.

이하에서는 도 4를 참조하여 복수의 제2 어휘로부터 하나 이상의 보기 어휘를 획득하는 단계를 구체적으로 설명한다.

도 4을 참조하면, 컴퓨터는 하나 이상의 어휘 데이터베이스 및 하나 이상의 텍스트 데이터베이스를 사용하여 어휘에 대하여 미리 설정된 조건에 기반하여 분포 의미 행렬(Distributed Semantic Matrix)을 생성한다(S131). 여기서, 컴퓨터는 하나 이상의 어휘 데이터베이스로부터 미리 설정된 조건에 기반하여 복수의 N개의 어휘를 선택하고 배열하며, 배열된 복수의 N개의 어휘를 분포 의미 행렬의 행(Row)과 열(Column)의 인덱스(Index)에 상응하게 각각 배치한다. 예를 들면, 배치된 N×N 크기(N×N Size Matrix)의 분포 의미 행렬의 n번째 행(Row)의 인덱스와 n번째 열(Column)의 인덱스는 같은 어휘로 구성된다.

여기서, 컴퓨터는 분포 의미 행렬 값을 생성하기 위하여, 먼저 N×N 크기를 갖는 분포 의미 행렬을 0행렬(N×N Zero Matrix)로 생성하고 다음의 제1 반복 과정, 제2 반복 과정 및 제3 반복 과정을 반복 수행하여 분포 의미 행렬을 생성한다.

컴퓨터는 제1 반복 과정으로 하나 이상의 텍스트 데이터베이스로부터 기 설정된 기준에 기반하여 하나의 텍스트 데이터베이스를 선택하며 선택된 텍스트 데이트베이스의 첫 문장을 선택하고 해당 첫 문장의 첫 어휘에 해당하는 분포 의미 행렬의 행과 해당 열을 찾고, 행당 행에서 해당 열의 앞과 뒤로 기 설정된 기준에 기반한 윈도우 사이즈(Window Size)에 해당하는 열에 값 1씩을 더하고, 첫 문장의 첫 어휘에 대한 과정이 끝나면 첫 문장의 마지막 어휘까지 반복하여 수행한다. 예를 들며, 상기 첫 문장의 첫 어휘에 해당하는 행이 n행일 경우 해당 열도 n열이 되고, 기 설정한 윈도우 사이즈를 3 이라고 하면, n행의 (n-3)열, (n-2)열, (n-1)열, (n+1)열, (n+2)열 및 (n+3)열에 각각 값 1씩을 더해 주는 과정이다. 본 발명에서 윈도우 사이즈는 그 크기를 한정 지을 수 없으며 입력된 고정값을 사용할 수도 있고 사용자 인터페이스를 통하여 입력 받아 사용할 수 있다.

컴퓨터는 제1 반복과정을 마친 후 선택한 텍스트 데이터베이스의 마지막 문장까지 제1 반복 과정을 반복하여 제2 반복과정을 수행한다.

컴퓨터는 제2 반복 과정을 마친 후 미리 설정한 기준에 기반하여 다음 텍스트 데이터베이스를 선택하고 제1 반복 과정 및 제2 반복 과정을 순차적으로 반복 수행하는 제3 반복 과정을 수행한다. 도 4의 본 발명의 일 실시예에서, 컴퓨터는 하나 이상의 어휘 데이터베이스 및 하나 이상의 텍스트 데이터베이스의 어휘에 대하여 제1 반복 과정, 제2 반복 과정 및 제3 반복 과정을 반복 수행하여 분포 의미 행렬을 생성하며, 각 어휘에 대한 주위 어휘의 분포를 나타내다. 하지만, 본 발명은 상기에서 제시한 제1 반복 과정, 제2 반복 과정 및 제3 반복 과정을 수행하여 분포 의미 행렬을 생성하는 방법에 한정되지 아니하고 각 어휘에 대한 각 어휘의 주위 어휘의 분포를 나타내는 모든 방법으로 분포 의미 행렬을 생성 하는 방법을 포함한다.

여기서, 컴퓨터는 상기 분포 의미 행령과 동일한 열(Column)의 크기 및 동일한 열(Column)의 인덱스를 가지고 입력 문장에서 정답 어휘를 제외한 모든 어휘를 대상으로 에스 행벡터(S Row Vector)을 생성한다(S132). 예컨대, 컴퓨터는 입력 문장에서 정답을 제외한 모든 어휘 각각을 에스 행벡터의 해당 열 인텍스에서 찾아 해당 열에 값 1씩을 더하고 해당 어휘가 없는 열 인덱스에 값 0을 더하여 생성한다. 예를 들면, 컴퓨터가 입력 문장을 "According to the information board at the city bus terminal, buses bound for Orchard Road and Bridgeway Pare are [정답 어휘] to depart every hour."로 입력 받고, 분포 의미 행렬의 최초 열 인덱스 일부를 [according, at, the, in, and, but, ok, to, any, or, therefore, …]로 생성하면, 에스 행벡터의 최초 열 인덱스의 일부도 [according, at, the, in, and, but, ok, to, any, or, therefore, …]로 생성되며, 제시되 방법으로 산출된 에스 행벡터는 [1, 1, 2, 0, 1, 0, 0, 2, 0, 0, 0, …]가 된다. 도 4의 일 실시예에서 에스 행벡터를 생성 하기 위한 방법을 제시하였으나 본 발명은 상기에 제시된 방법에 한정되지 아니하고 분포 의미 행렬과 같은 열의 크기를 가지며 같은 행의 인덱스를 가지는 범위 내에서 정답을 제외한 입력 문장의 모든 어휘의 분포를 나타내는 모든 방법으로 에스 행벡터를 생성하는 방법을 포함한다.

도 4을 참조하면, 컴퓨터는 입력 문장에 대한 복수의 제2 어휘 유사도 각각을 복수의 제2 어휘 각각의 입력 문장에 대한 유사도로 산출한다(S133). 여기서, 복수의 제2 어휘 각각의 입력 문장에 대한 유사도는 입력 문장에서 정답을 제외한 모든 어휘에 대하여 생성한 에스 행벡터와 복수의 제2 어휘에 해당하는 분포 의미 행렬의 각 행벡터를 각각 내적 벡터 곱(Inner Product or Dot Product)하여 생성한다. 하지만, 본 발명은 입력 문장에 대한 복수의 제2 어휘 각각의 입력 문장 유사도를 산출하는 방법에 있어서 제시된 입력 문장에서 정답을 제외한 모든 어휘에 대하여 생성한 에스 행벡터와 복수의 제2 어휘에 해당하는 분포 의미 행렬의 각 행벡터를 각각 내적 벡터 곱하여 생성하는데 제한되지 아니하고 제시된 방법을 포함하여 입력 문장에 대한 복수의 제2 어휘 각각의 입력 문장 유사도를 산출하는 모든 방법을 포함한다.

또한, 컴퓨터는 정답 어휘에 대한 복수의 제2 어휘 각각의 유사도를 복수의 제2 어휘 각각의 정답 어휘에 대한 유사도로 산출한다(S134). 여기서, 복수의 제2 어휘 각각의 정답 어휘 유사도는 정답 어휘에 해당하는 분포 의미 행렬의 행벡터와 복수의 제2 어휘에 해당하는 분포 의미 행렬의 각 행벡터를 각각 내적 벡터 곱(Inner Product or Dot Product)하여 생성한다. 하지만, 본 발명은 정답 어휘에 대한 복수의 제2 어휘 각각의 정답 어휘에 대한 유사도를 산출하는 방법에 있어서 제시된 정답 어휘에 해당하는 분포 의미 행렬의 행벡터와 복수의 제2 어휘에 해당하는 분포 의미 행렬의 각 행벡터를 각각 내적 벡터 곱으로 산출하는 방법에 제한 되지 아니하고 제시된 방법을 포함하여 정답 어휘에 대한 복수의 제2 어휘 각각의 정답 어휘에 대한 유사도를 산출하는 모든 방법을 포함한다.

다시 도 4을 참조하면, 컴퓨터는 입력된 제2 가중치에 기반하여 복수의 제2 어휘 각각의 입력 문장에 대한 유사도 및 정답 어휘에 대한 유사도를 기반으로 미리 설정한 기준을 만족하는 제3 유사도를 산출한다(S135). 여기서 제3 유사도는 수학식 5로 나타낼 수 있다.

수학식 5의 (Wi^T)

는 복수의 제2 어휘 각각의 분포 의미 행렬에 해당하는 행벡터를 의미하며, (S^→)는 입력 문장에서 정답 어휘를 제외한 어휘에 대한 에스 행벡터를 의미하고, (W_t)는 분포 의미 행렬에서 정답 어휘에 해당하는 행벡터를 의미하며, α(알파)는 제2 가중치를 의미 한다. 여기서, 제2 가중치 알파는 미리 입력된 값을 사용할 수도 있고 제공된 사용자 인터페이스에서 입력 받아 사용할 수도 있다. 수학식 5에서 첫 번째항

은 (W_i ^T)와 (S^→)의 내적 벡터 곱(Inner Product or Dot Product)을 의미하고, 두 번째항,

는 (W_i ^T)와 (W_t)의 내적 벡터 곱(Inner product or Dot Product)를 의미한다.

본 발명의 일 실시예에서 복수의 제2 어휘 각각의 제3 유사도를 산출하는 방법은 제시된 수학식 5에 한정 되지 아니하고 제시된 수학식 5의 방법을 포함하여 복수의 제2 어휘 각각의 입력 문장에 대한 입력 문장 유사도, 복수의 제2 어휘 각각의 정답 어휘에 대한 정답 어휘 유사도를 사용하여 복수의 제2 어휘 각각의 제3 유사도를 산출하는 모든 방법을 포함한다.

다시 도 4를 참조하면, 컴퓨터는 복수의 제2 어휘 각각의 제3 유사도와 미리 설정된 기준을 비교하고, 미리 설정된 기준을 만족하는 복수의 제2 어휘를 선택한다(S136). 여기서 미리 설정된 기준은 복수의 제2 어휘 각각의 제3 유사도 값과 비교하는 입력된 고정값을 사용할 수 있으며, 컴퓨터는 고정값 보다 높은 제3 유사도를 가지는 복수의 제2 어휘를 선택할 수도 있고 고정값 보다 낮은 제3 유사도 값을 가지는 복수의 제2 어휘를 선택할 수도 있다.

다시 도 4를 참조하면, 컴퓨터는 선택된 복수의 제2 어휘가 미리 설정된 조건을 만족하는지 판단하고(S137), 선택된 복수의 제2 어휘가 미리 설정된 조건을 만족하지 못하면 단계 S138로 가서 제2 가중치를 조절한 후 S135단계부터 다신 수행한다. 예를 들면, 컴퓨터가 미리 설정한 조건으로 선택할 복수의 제2 어휘 개수를 고려할 경우, 단계 S136에서 선택한 복수의 제2 어휘가 단계 S137에서 미리 설정된 어휘의 개수를 만족하면 다음 단계를 수행한다.

다시, 도 4를 참조하면, 컴퓨터는 선택한 복수의 제2 어휘를 하나 이상의 보기 어휘로 획득한다(S138). 여기서, 컴퓨터는 획득한 하나 이상의 보기 어휘, 정답 어휘 및 정답 어휘가 제거된 입력 문장으로 빈칸 채우기 문제를 생성한다.

본 발명은 복수의 제2 어휘 각각의 입력 문장에 대한 유사도 및 정답 어휘에 대한 유사도를 사용하여 복수의 제2 어휘 각각의 제3 유사도에 산출하고 복수의 어휘 각각의 제3 유사도에 기초하여 하나 이상의 보기 어휘를 생성함으로써, 빈칸 채우기 문제 생성을 보다 효과적으로 할 수 있다

본 발명은 입력 문장과 같은 종류의 언어로 하나 이상의 어휘 데이터베이스 및 하나 이상의 텍스트 데이터베이스를 사용하여 하나 이상의 보기 어휘를 획득함으로써, 특정 언어의 종류에 한정되지 아니하고 빈칸 채우기 문제를 생성할 수 있다.

이상 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경 시킬 수 있음을 이해할 수 있을 것이다.

Claims

디지털 정보 처리 장치에서 수행되는 자동 빈칸 채우기 문제 생성 방법에 있어서,
입력문장에서 기 설정된 기준에 따라 정답 어휘를 선택하는 단계;
상기 선택한 정답 어휘와 어휘 데이터베이스의 어휘 각각의 관계가 미리 설정된 제1 기준을 만족하는 복수의 제1 어휘를 상기 어휘 데이터베이스로부터 획득하는 단계;
상기 입력문장과 상기 복수의 제1 어휘 각각의 관계가 미리 설정된 제2 기준을 만족하는 복수의 제2 어휘를 상기 복수의 제1 어휘로부터 획득하는 단계; 및
상기 복수의 제2 어휘와 상기 입력문장과의 관계 및 상기 복수의 제2 어휘와 상기 정답 어휘와의 관계를 이용하여 상기 복수의 제2 어휘로부터 미리 설정된 제3 기준을 만족하는 하나 이상의 보기 어휘를 획득하는 단계를 포함하되,
상기 하나 이상의 보기 어휘를 획득하는 단계는,
하나 이상의 어휘 데이터 베이스 및 하나 이상의 텍스트 데이터베이스에 기반하여 분포 의미 행렬(Distributed Semantic Matrix)을 생성하는 단계;
상기 분포 의미 행렬과 동일한 열(Column)의 크기 및 동일한 열의 인덱스를 가지며, 상기 입력 문장에서 상기 정답 어휘를 제외한 어휘들을 대상으로 에스 행벡터(S Row Vector)를 생성하는 단계;
상기 에스 행벡터를 이용하여 상기 복수의 제2 어휘 각각의 유사도를 상기 복수의 제2 어휘 각각의 입력 문장 유사도로 산출하는 단계;
상기 분포 의미 행렬을 이용하여 상기 정답 어휘에 대한 상기 복수의 제2 어휘 각각의 유사도를 상기 복수의 제2 어휘 각각의 정답 어휘와의 유사도로 산출하는 단계;
상기 복수의 제2 어휘 각각의 상기 입력 문장에 대한 유사도 및 상기 복수의 제2 어휘 각각에 대한 정답 어휘와의 유사도에 기반하여 상기 제2 어휘 각각의 제3 유사도를 산출하는 단계; 및
상기 복수의 제2 어휘 각각의 제3 유사도가 상기 미리 설정된 제3 기준을 만족하는 상기 복수의 제2 어휘를 하나 이상의 보기 어휘로 획득하는 단계를 포함하는 것을 특징으로 하는 자동 빈칸 채우기 생성 방법.
청구항 1에 있어서,
상기 복수의 제1 어휘를 상기 어휘 데이터베이스로부터 획득하는 단계는,
상기 선택한 정답 어휘를 상기 어휘 데이터베이스의 어휘들과 각각 비교하여 상기 어휘 데이터베이스의 어휘들 각각에 대하여 하나 이상의 유사도를 산출하는 단계;
상기 산출된 하나 이상의 유사도 중에서 적어도 하나의 유사도를 이용하여 제1 유사도를 산출하는 단계; 및
상기 어휘 데이터베이스 어휘 각각의 상기 제1 유사도가 상기 미리 설정된 제1 기준을 만족하는 상기 어휘 데이터베이스 어휘를 상기 복수의 제1 어휘로 획득하는 단계를 포함하는 것을 특징으로 하는 자동 빈칸 채우기 문제 생성 방법.
청구항 2에 있어서,
상기 하나 이상의 유사도를 산출 하는 단계는,
상기 어휘 데이터베이스 각각의 어휘들을 상기 정답 어휘와 비교하여 정답 어휘와 의미가 유사한 의미 유사도, 발음이 유사한 발음 유사도 및 철자가 유사한 철자 유사도를 산출하는 것을 특징으로 하는 자동 빈칸 채우기 문제 생성 방법.
청구항 1에 있어서,
상기 복수의 제2 어휘를 상기 복수의 제1 어휘로부터 획득하는 단계는,
상기 입력 문장과 상기 복수의 제1 어휘 각각을 비교하여 상기 입력문장에 대한 상기 제1 어휘 각각의 유사도를 상기 제2 유사도로 산출하는 단계; 및
상기 복수의 제1 어휘 각각의 제2 유사도를 미리 설정된 임계값과 각각 비교하여 상기 미리 설정된 제2 기준을 만족하는 복수의 제1 어휘를 상기 복수의 제2 어휘로 획득하는 단계를 포함하는 것을 특징으로 하는 자동 빈칸 채우기 문제 생성 방법.
청구항 4에 있어서,
상기 제2 유사도는,
상기 복수의 제2 어휘 선택 기준을 조절하기 위한 제1 가중치를 상기 입력 문장과 상기 복수의 제1 어휘 각각의 유사도에 적용하여 상기 제2 유사도를 산출하는 것을 특징으로 하는 자동 빈칸 채우기 문제 생성 방법.
삭제
청구항 1에 있어서,
상기 복수의 제2 어휘 각각의 입력 문장에 대한 유사도를 산출하는 단계는,
상기 복수의 제2 어휘 각각에 해당하는 분포 의미 행렬의 행벡터(Row Vector)와 상기 에스 행벡터(S Row Vector)를 이용하여 상기 복수의 제2 어휘에 각각의 상기 입력 문장에 대한 유사도를 산출하는 것을 특징으로 하는 자동 빈칸 채우기 문제 생성 방법.
청구항 1에 있어서,
상기 복수의 제2 어휘 각각에 대한 정답 어휘와의 유사도를 산출하는 단계는,
상기 복수의 제2 어휘 각각에 해당하는 상기 분포 의미 행렬의 행벡터(Row Vector)와 상기 정답 어휘에 해당하는 상기 분포 의미 행렬의 행벡터(Row Vector)를 이용하여 상기 복수의 제2 어휘 각각에 대한 정답 어휘와의 유사도를 산출하는 것을 특징하는 자동 빈칸 채우기 문제 생성 방법.
청구항 1에 있어서,
상기 제3 유사도를 산출하는 단계는,
상기 복수의 제2 어휘의 상기 입력 문장에 대한 유사도 및 상기 복수의 제2 어휘의 상기 정답 어휘에 대한 유사도 각각이 상기 제3 유사도에 미치는 영향을 조절하기 위한 제2 가중치를 상기 복수의 제2 어휘의 입력 문장에 대한 유사도 및 복수의 제2 어휘의 정답 어휘에 대한 유사도에 각각 적용하여 상기 제3 유사도를 산출하는 것을 특징으로 하는 자동 빈칸 채우기 문제 생성 방법.
자동 빈칸 채우기 문제 생성 방법을 수행하는 디지털 처리 장치에 의해 실행될 수 있는 명령어의 프로그램이 유형적으로 구현되어 있으며, 상기 디지털 처리 장치에 의해 판독될 수 있는 프로그램을 기록한 기록매체에 있어서,
입력문장에서 기 설정된 기준에 따라 정답 어휘를 선택하는 단계;
상기 선택한 정답 어휘와 어휘 데이터베이스의 어휘 각각의 관계가 미리 설정된 제1 기준을 만족하는 복수의 제1 어휘를 상기 어휘 데이터베이스로부터 획득하는 단계;
상기 입력문장과 상기 복수의 제1 어휘 각각의 관계가 미리 설정된 제2 기준을 만족하는 복수의 제2 어휘를 상기 복수의 제1 어휘로부터 획득하는 단계; 및
상기 복수의 제2 어휘와 상기 입력문장과의 관계 및 상기 복수의 제2 어휘와 상기 정답 어휘와의 관계를 이용하여 상기 복수의 제2 어휘로부터 미리 설정된 제3 기준을 만족하는 하나 이상의 보기 어휘를 획득하는 단계를 수행하되,
상기 하나 이상의 보기 어휘를 획득하는 단계는,
하나 이상의 어휘 데이터 베이스 및 하나 이상의 텍스트 데이터베이스에 기반하여 분포 의미 행렬(Distributed Semantic Matrix)을 생성하는 단계;
상기 분포 의미 행렬과 동일한 열(Column)의 크기 및 동일한 열의 인덱스를 가지며, 상기 입력 문장에서 상기 정답 어휘를 제외한 어휘들을 대상으로 에스 행벡터(S Row Vector)를 생성하는 단계;
상기 에스 행벡터를 이용하여 상기 복수의 제2 어휘 각각의 유사도를 상기 복수의 제2 어휘 각각의 입력 문장 유사도로 산출하는 단계;
상기 분포 의미 행렬을 이용하여 상기 정답 어휘에 대한 상기 복수의 제2 어휘 각각의 유사도를 상기 복수의 제2 어휘 각각의 정답 어휘와의 유사도로 산출하는 단계;
상기 복수의 제2 어휘 각각의 상기 입력 문장에 대한 유사도 및 상기 복수의 제2 어휘 각각에 대한 정답 어휘와의 유사도에 기반하여 상기 제2 어휘 각각의 제3 유사도를 산출하는 단계; 및
상기 복수의 제2 어휘 각각의 제3 유사도가 상기 미리 설정된 제3 기준을 만족하는 상기 복수의 제2 어휘를 하나 이상의 보기 어휘로 획득하는 단계를 수행하는 것을 특징으로 하는 프로그램을 기록한 기록매체.