KR101680007B1 - 서답형 답안 채점 방법, 그를 위한 컴퓨터 프로그램과 기록매체 - Google Patents
서답형 답안 채점 방법, 그를 위한 컴퓨터 프로그램과 기록매체 Download PDFInfo
- Publication number
- KR101680007B1 KR101680007B1 KR1020160036103A KR20160036103A KR101680007B1 KR 101680007 B1 KR101680007 B1 KR 101680007B1 KR 1020160036103 A KR1020160036103 A KR 1020160036103A KR 20160036103 A KR20160036103 A KR 20160036103A KR 101680007 B1 KR101680007 B1 KR 101680007B1
- Authority
- KR
- South Korea
- Prior art keywords
- answers
- predetermined number
- answer
- scoring
- qualities
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 238000012360 testing method Methods 0.000 title description 6
- 238000004590 computer program Methods 0.000 title description 3
- 239000013598 vector Substances 0.000 claims abstract description 79
- 238000003058 natural language processing Methods 0.000 claims abstract description 15
- 230000008569 process Effects 0.000 claims abstract description 10
- 238000010606 normalization Methods 0.000 claims description 45
- 238000004458 analytical method Methods 0.000 claims description 44
- 238000012545 processing Methods 0.000 claims description 34
- 230000014509 gene expression Effects 0.000 claims description 31
- 230000000877 morphologic effect Effects 0.000 claims description 27
- 238000012937 correction Methods 0.000 claims description 24
- 238000013077 scoring method Methods 0.000 claims description 7
- 238000000926 separation method Methods 0.000 claims description 3
- 238000012797 qualification Methods 0.000 abstract description 17
- 241001465754 Metazoa Species 0.000 description 28
- 239000000284 extract Substances 0.000 description 14
- 238000000605 extraction Methods 0.000 description 11
- 238000010801 machine learning Methods 0.000 description 9
- 241000209094 Oryza Species 0.000 description 7
- 235000007164 Oryza sativa Nutrition 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 7
- 235000009566 rice Nutrition 0.000 description 7
- 230000008859 change Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 4
- 230000002441 reversible effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000001788 irregular Effects 0.000 description 3
- 238000012015 optical character recognition Methods 0.000 description 3
- 230000001915 proofreading effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000007636 ensemble learning method Methods 0.000 description 2
- 210000003746 feather Anatomy 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241000590419 Polygonia interrogationis Species 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
- 210000003454 tympanic membrane Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B7/00—Electrically-operated teaching apparatus or devices working with questions and answers
- G09B7/02—Electrically-operated teaching apparatus or devices working with questions and answers of the type wherein the student is expected to construct an answer to the question which is presented or wherein the machine gives an answer to the question presented by a student
-
- G06F17/2705—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B5/00—Electrically-operated educational appliances
- G09B5/02—Electrically-operated educational appliances with visual presentation of the material to be studied, e.g. using film strip
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B7/00—Electrically-operated teaching apparatus or devices working with questions and answers
- G09B7/02—Electrically-operated teaching apparatus or devices working with questions and answers of the type wherein the student is expected to construct an answer to the question which is presented or wherein the machine gives an answer to the question presented by a student
- G09B7/04—Electrically-operated teaching apparatus or devices working with questions and answers of the type wherein the student is expected to construct an answer to the question which is presented or wherein the machine gives an answer to the question presented by a student characterised by modifying the teaching programme in response to a wrong answer, e.g. repeating the question, supplying a further explanation
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- General Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Machine Translation (AREA)
Abstract
본 발명은 문장 단위의 대량 답안을 채점할 수 있는 답안 채점 방법 및 장치에 관한 것이다. 본 발명의 답안 채점 장치는, 다수의 입력 답안에 대하여 자연 언어 처리를 수행하여 다수의 채점 대상 답안을 형성하고, 다수의 채점 대상 답안 중 소정 임계값 이상의 빈도를 갖는 제1 소정 개수의 답안을 선택하며, 선택된 제1 소정 개수의 답안 각각에서 자연 언어 처리의 수행 결과를 이용하여 미리 결정된 특징적 요소에 해당하는 자질(feature)을 추출하고, 제1 소정 개수의 답안 각각에서 자질의 포함 여부에 따른 채점을 위한 분류 기준을 수신하되, 분류 기준은 각 자질을 축으로 하는 자질 공간에서의 위치를 나타내는 좌표값인 자질 벡터를 포함하며, 다수의 채점 대상 답안 중 제1 소정 개수의 답안을 제외한 제2 소정 개수의 답안 각각에 대해 자질을 추출하고, 제2 소정 개수의 답안 각각의 자질 벡터와 분류 기준의 자질 벡터를 비교하여 벡터 간의 유사도가 미리 결정된 값 이상인 분류 기준에 대응하는 클러스터(cluster)로 제2 소정 개수의 답안 각각을 분류하며, 분류된 클러스터 각각에 대하여 분류 등급에 따라서 점수를 부여한다.
Description
본 발명은 시험 답안 채점 분야에 관한 것으로, 특히 문장 단위의 대량 답안을 채점할 수 있는 답안 채점 방법, 컴퓨터 프로그램과 기록매체에 관한 것이다.
21세기 지식정보화 사회에서는 단순한 앎을 넘어 그 앎을 바탕으로 새로운 것을 창출할 수 있는 지식을 중요시한다. 세계 각국은 창의적인 지식에 기반한 선진대국으로 경쟁력을 갖추기 위한 노력을 지속적으로 기울이고 있다. 이에 최근 정부의 교육개혁 정책은 지식정보화 사회를 선도할 수 있는 창의 인재 육성에 지향점을 두고, 2009 개정 교육과정을 도입한 이래 창의 인성 교육을 강조하면서 연차적 계획을 통해 평가 방법의 변화를 추진한다.
학생이 생각한 바를 직접 구성하여 답하도록 하는 서답형 문항은 선택형 문항에 비해 문제 해결력이나 비판적 사고력, 창의력 등을 측정하는 데 적합하기 때문에 점차로 서답형 문항을 적극적으로 확대하고자 한다. 그러나, 교육 현장에서 서답형 문항의 활용이 높지 않은 것은 서답형 문항의 채점 문제와 관련이 깊다.
서답형 문항의 채점은 전문가의 판단에 의해 이루어져 왔고, 그에 따라 선택형 문항의 채점에 비해 훨씬 많은 시간과 노력을 필요로 한다. 또한 선택형 문항은 기계적으로도 채점할 수 있기 때문에 동일한 응답에 다른 점수를 부여하는 일이 거의 일어나지 않지만, 서답형 문항은 인간의 주관적 판단에 의존하므로 채점 결과가 특정 채점자나 채점 시기에 영향을 받을 가능성이 크다.
따라서 서답형 문항 자동채점 프로그램을 도입하여 대규모 평가나 학교 현장에서 서답형 문항의 비중을 확대하고 효율적인 채점을 수행할 수 있는 현실적인 필요성이 요구되고 있다.
본 발명은 문장 단위의 대량 답안을 효율적으로 채점할 수 있는 답안 채점 방법, 컴퓨터 프로그램 및 기록매체를 제공한다.
일 실시예에 따른 답안 채점 방법은, 다수의 입력 답안에 대하여 자연 언어 처리를 수행하여 다수의 채점 대상 답안을 형성하는 단계와, 상기 다수의 채점 대상 답안 중 소정 임계값 이상의 빈도를 갖는 제1 소정 개수의 답안을 선택하는 단계와, 상기 선택된 제1 소정 개수의 답안 각각에서 상기 자연 언어 처리의 수행 결과를 이용하여 미리 결정된 특징적 요소에 해당하는 자질(feature)을 추출하는 단계와, 상기 제1 소정 개수의 답안 각각에서 상기 자질의 포함 여부에 따른 채점을 위한 분류 기준을 수신하는 단계 - 상기 분류 기준은 각 자질을 축으로 하는 자질 공간에서의 위치를 나타내는 좌표값인 자질 벡터를 포함함 - 와, 상기 다수의 채점 대상 답안 중 상기 제1 소정 개수의 답안을 제외한 제2 소정 개수의 답안 각각에 대해 상기 자질을 추출하는 단계와, 상기 제2 소정 개수의 답안 각각의 자질 벡터와 상기 분류 기준의 자질 벡터를 비교하여 벡터 간의 유사도가 미리 결정된 값 이상인 분류 기준에 대응하는 클러스터(cluster)로 상기 제2 소정 개수의 답안 각각을 분류하는 단계와, 분류된 클러스터 각각에 대하여 분류 등급에 따라서 점수를 부여하는 단계를 포함한다.
또한 일 실시예에 따른 프로그램은, 컴퓨터에서 상기한 답안 채점 방법을 실행시키도록 기록매체에 저장된다.
또한 일 실시예에 따른 기록매체는, 상기 채점 방법을 컴퓨터에서 실행시키기 위한 프로그램을 저장한다.
본 발명의 일 실시예에 따르면, 자연 언어 처리 분야에서의 기계학습 이론을 이용하여 대량의 답안을 정확하고 신속하게 채점할 수 있다.
도 1은 본 발명의 실시예에 따른 답안 채점 환경의 구성을 보이는 예시도.
도 2는 본 발명의 실시예에 따른 답안 채점 장치의 구성을 보이는 예시도.
도 3은 본 발명의 실시예에 따른 답안 채점 장치가 포함하는 처리부의 구성을 보이는 예시도.
도 4a 내지 도 4d는 본 발명의 실시예에 따른 문장의 의존관계를 보이는 예시도.
도 2는 본 발명의 실시예에 따른 답안 채점 장치의 구성을 보이는 예시도.
도 3은 본 발명의 실시예에 따른 답안 채점 장치가 포함하는 처리부의 구성을 보이는 예시도.
도 4a 내지 도 4d는 본 발명의 실시예에 따른 문장의 의존관계를 보이는 예시도.
이하 첨부된 도면을 참조하여 본 발명의 실시예들에 대해 상세히 설명한다. 다만, 이하의 설명에서는 본 발명의 요지를 불필요하게 흐릴 우려가 있는 경우, 널리 알려진 기능이나 구성에 관한 구체적 설명은 생략하기로 한다.
도 1은 본 발명의 실시예에 따른 답안 채점 환경의 구성을 보이는 예시도이다.
도 1에 도시한 바와 같이, 답안 채점 환경(100)은 서버(110), 다수의 학생 단말(120-1,...,120-n) 및 다수의 채점자 단말(130-1,...,130-n)을 포함할 수 있다. 서버(110), 다수의 학생 단말(120-1,...,120-n) 및 다수의 채점자 단말(130-1,...,130-n)은 네트워크(N)를 통하여 통신 가능하도록 서로 연결될 수 있다.
서버(110)는 학생 단말(120-n)로부터 수신한 입력 답안에 대하여 언어 처리를 수행하거나 언어 처리 없이 채점 대상 답안을 형성하고, 형성된 채점 대상 답안을 채점하기 위한 분류 기준을 형성하며, 형성된 분류 기준을 이용하여 채점 대상 답안의 분류 및 채점을 수행할 수 있다. 분류 기준의 형성 방법, 채점 대상 답안의 분류 및 채점 방법에 대해서는 후술하도록 한다. 서버(110)는 채점 대상 답안 중 미리 설정된 소정 개수의 채점 대상 답안을 이용하여 분류 기준을 형성할 수도 있고, 채점 대상 답안 중 미리 설정된 소정 개수의 채점 대상 답안에 대한 채점자의 분류 결과에 기초하여 분류 기준을 형성할 수도 있다. 서버(110)는 채점자 단말(130-1,...,130-n)로부터 네트워크(N)를 통하여 채점자의 분류 결과를 수신할 수 있다. 또한, 서버(110)는 채점이 완료된 채점 대상 답안의 채점 결과를 채점자 단말(130-1,...,130-n) 또는 학생 단말(120-1,...,120-n)로 전송할 수 있고, 형성된 분류 기준에 따라서 분류할 수 없거나 채점할 수 없는 채점 대상 답안을 채점자의 수동 채점을 위하여 채점자 단말(130-1,...,130-n)로 전송할 수 있다.
학생 단말(120-1,...,120-n)은 특정 시험에 응하는 다수의 학생들로부터 답안을 입력받아 서버(110) 및 채점자 단말(130-1,...,130-n)에서 처리 가능한 형태인 입력 답안을 형성할 수 있다. 일 실시예로서, 시험에 응하는 각각의 학생은 학생 단말(120-1,...,120-n)에 본인의 답안을 직접 입력하여 학생 단말(120-1,...,120-n)이 입력 답안을 형성할 수도 있고, 각각의 학생이 시험지에 기재하여 제출한 답안을 학생 단말(120-1,...,120-n)이 광학 문자 인식 OCR(Optical Character Recognition)과 같은 필기 인식 방법을 이용하여 인식한 후 입력 답안을 형성할 수도 있으며, 시험지에 기재하여 제출한 답안을 관리자가 일괄적으로 학생 단말(120-1,...,120-n)에 입력하여 입력 답안을 형성할 수도 있으나, 채점 대상 답안을 형성하는 방법은 이러한 구현에 한정되는 것은 아니다. 또한, 학생 단말(120-1,...,120-n)은 서버(110)로부터 채점이 완료된 채점 대상 답안의 채점 결과를 수신할 수 있다. 여기서, 입력 답안은 적어도 하나의 단어, 적어도 하나의 숫자, 적어도 하나의 문장 등 주관식 시험 문제의 답안에서 나타날 수 있는 모든 형태의 답안을 포함할 수 있다. 본 실시예에서는 입력 답안이 적어도 하나의 문장을 포함하는 경우를 위주로 설명하도록 한다.
채점자 단말(130-1,...,130-n)은 서버(110)로부터 채점이 완료된 채점 대상 답안의 채점 결과 및 서버(110)에서 형성된 분류 기준에 따라서 분류할 수 없거나 채점할 수 없는 채점 대상 답안을 네트워크(N)를 통하여 수신할 수 있다. 또한, 채점자 단말(130-1,...,130-n)은 서버(110)의 채점 대상 답안의 분류 및 채점 결과에 대하여 채점자가 검토를 용이하게 수행하고, 서버(110)에서 분류하지 못하였거나 채점하지 못한 채점 대상 답안에 대하여 채점자가 채점을 용이하게 수행할 수 있도록 한다. 또한, 채점자 단말(130-1,...,130-n)은 서버(110)가 채점 대상 답안에 대한 분류 기준을 형성할 수 있도록, 채점 대상 답안 중 미리 설정된 소정 개수의 채점 대상 답안에 대한 채점자의 분류 결과를 채점자로부터 수신하여 서버(110)로 전송할 수 있다.
일 실시예로서, 학생 단말(120-1,...,120-n) 및 채점자 단말(130-1,...,130-n)은 개인용 컴퓨터(personal computer), 태블릿(tablet), 스마트폰(smart phone), 노트북 컴퓨터(laptop computer), 개인 휴대 정보 단말기(PDA: Personal Digital Assistants) 등을 포함할 수 있으나, 이러한 구현에 한정되지 않는다.
도 2는 본 발명의 실시예에 따른 답안 채점 장치의 구성을 보이는 예시도이고, 도 3은 본 발명의 실시예에 따른 답안 채점 장치가 포함하는 처리부의 구성을 보이는 예시도이다.
답안 채점 장치(200)는 처리부(210), 저장부(220), 통신부(230) 및 시스템 버스(240)를 포함할 수 있다. 일 실시예로서, 처리부(210), 저장부(220) 및 통신부(230)는 시스템 버스(240)를 통하여 서로 연결될 수 있다. 답안 채점 장치(200)는 서버(110) 내부에 포함될 수도 있고, 서버(110)와는 별도로 구비될 수도 있으나, 이러한 구현에 한정되는 것은 아니다. 처리부(210)는 언어 처리부(212) 및 분류 채점부(214)를 포함할 수 있고, 언어 처리부(212)는 문서 정규화부(212-1), 형태소 분석부(212-2), 품사 부착부(212-3), 부정표현 인식부(212-4), 구묶음부(212-5), 바꿔쓰기부(212-6) 및 의존관계 분석부(212-7)를 포함할 수 있으며, 분류 채점부(214)는 학습용 답안 생성부(214-1), 자질 추출부(214-2), 답안 분류부(214-3) 및 채점부(214-4)를 포함할 수 있다.
처리부(210)는 다수의 입력 답안에 대하여 자연 언어 처리를 수행하여 다수의 채점 대상 답안을 형성하고, 다수의 채점 대상 답안 중 소정 임계값 이상의 빈도를 갖는 제1 소정 개수의 답안을 선택하며, 선택된 제1 소정 개수의 답안 각각에서 자연 언어 처리의 수행 결과를 이용하여 미리 결정된 특징적 요소에 해당하는 자질(feature)을 추출하고, 제1 소정 개수의 답안 각각에서 자질의 포함 여부에 따른 채점을 위한 분류 기준을 수신하되, 분류 기준은 각 자질을 축으로 하는 자질 공간에서의 위치를 나타내는 좌표값인 자질 벡터를 포함하고, 다수의 채점 대상 답안 중 제1 소정 개수의 답안을 제외한 제2 소정 개수의 답안 각각에 대해 자질을 추출하며, 제2 소정 개수의 답안 각각의 자질 벡터와 분류 기준의 자질 벡터를 비교하여 벡터 간의 유사도가 미리 결정된 값 이상인 분류 기준에 대응하는 클러스터(cluster)로 제2 소정 개수의 답안 각각을 분류하고, 분류된 클러스터 각각에 대하여 분류 등급에 따라서 점수를 부여할 수 있다.
여기서 자연 언어 처리는, 입력 답안에 대한 문장 분리 단계, 띄어쓰기 교정 단계, 철자 교정 단계, 약어 확장 단계, 기호 제거 단계를 포함하는 문서 정규화, 입력 답안에 대한 형태소 분석, 형태소 분석 결과의 품사 부착, 입력 답안의 부정표현 인식, 품사 부착 결과에 포함된 적어도 두 개 이상의 형태소에 대한 구묶음, 입력 답안에 포함된 어절 또는 구를 미리 결정된 표준 표현으로 변환하는 바꿔쓰기 및 입력 답안에 포함된 형태소 또는 어절간의 의존구조를 분석하는 의존관계 분석을 포함할 수 있다.
또한 여기서 자질은, 형태소 분석 및 품사 부착을 수행하여 형성한 형태소 자질, 입력 답안이 포함하는 어절에 기초하여 형성한 어절 자질, 구묶음을 수행하여 형성한 기본구 자질, 의존관계 분석을 수행하여 형성한 의존관계 자질, 소정 개수의 인접한 형태소 자질 또는 어절 자질을 포함하여 형성한 엔그램(n-gram) 자질 중 적어도 하나를 포함할 수 있다.
표 1은 본 발명의 실시예에 따른 어절, 형태소, 기본구, 의존관계 자질들을 추출하고, 추출된 자질 집합을 활용하여 각 채점 대상 답안을 자질벡터로 표현한 예시를 보여준다.
[표 1]
또한 처리부(210)는, 분류 기준을 수신하기 전에, 제1 소정 개수의 답안 각각에서 자질을 추출하고, 추출된 자질을 이용하여 제1 소정 개수의 답안 각각의 자질 벡터를 형성하며, 미리 결정된 기준 자질 벡터와 형성된 자질 벡터를 비교하여, 벡터 간의 유사도가 미리 결정된 값 이상인 기준 자질 벡터에 해당하는 분류 기준에 대응하는 클러스터로 제1 소정 개수의 답안 각각을 분류할 수 있다.
또한 처리부(210)는, 기준 자질 벡터의 값과 분류된 제1 소정 개수의 답안의 자질 벡터값의 평균값을 산출하고, 산출된 평균값을 새로운 기준 자질 벡터로 갱신할 수 있다.
또한 처리부(210)는, 분류 기준을 수신할 경우, 제1 소정 개수의 답안에 대한 채점 결과를 수신하고, 제1 소정 개수의 답안이 포함하는 자질을 추출하여 분류 기준을 형성하며, 형성된 분류 기준을 이용하여 제2 소정 개수의 답안을 분류 기준에 대응하는 클러스터로 분류하고, 제2 소정 개수의 답안 중 각각의 클러스터에 포함될 확률이 소정값 이상인 답안을 제1 소정 개수의 답안에 추가하여 분류 기준을 다시 형성할 수 있다.
또한 처리부(210)는, 분류 기준을 수신할 경우, 추출된 제1 소정 개수의 답안이 포함하는 자질이 기준 자질 벡터에 해당하는 분류 기준에 포함될 확률을 산출하고, 제1 소정 개수의 답안이 포함하는 각각의 자질에 대하여 산출된 확률을 곱하여 제1 소정 개수의 답안을 기준 자질 벡터에 해당하는 분류 기준에 대응하는 클러스터로 분류할 수 있다.
또한 처리부(210)는, 자질 벡터를 형성할 경우, 추출된 자질 중 어느 하나의 자질이 특정 채점 대상 답안에서 나타나는 빈도에 대한 가중치와, 추출된 자질 중 어느 하나의 자질이 다수의 채점 대상 답안에서 나타나는 빈도에 대한 가중치 중 적어도 하나를 고려하여 자질 벡터를 형성할 수 있다. 즉, 처리부(210)는 채점 대상 답안 분류의 정확도를 향상시키기 위해서 추출된 자질을 단순한 빈도로 표현하는 대신 각 자질의 중요도를 고려하여 가중치로 나타낼 수 있다. 일반적으로 채점 대상 답안에 자주 나타나는 자질은 해당 채점 대상 답안을 대표하는 중요한 자질을 나타낼 수 있다. 그런데 문장 수준의 채점 대상 답안에는 대부분 형태소 자질 "-다/종결형어말어미"를 포함하고 있지만 채점에 있어서는 중요한 자질은 아닐 수 있다. 이러한 점을 고려하여, 각각의 자질을 가중치 tfidf(term frequency-inverse document frequency)로 계산할 수 있다. tfidf는 여러 문서로 이루어진 문서 집합이 있을 때 어떤 단어가 특정 문서 내에서 얼마나 중요한 것인지를 나타내는 통계적 수치로서, tf(단어 빈도)와 idf(역문서 빈도)를 곱하여 산출할 수 있다. 다음의 수학식 1 내지 수학식 4를 이용하여 tf, df, idf, tfidf를 산출할 수 있다.
[수학식 1]
[수학식 2]
[수학식 3]
[수학식 4]
수학식 1에서 tf는 특정 자질이 특정 채점 대상 답안에서 얼마나 자주 나타나는지를 표현한 값이고, 이 값이 높을수록 해당 자질은 해당 채점 대상 답안에서 중요하다고 판단할 수 있다. df는 특정 자질이 채점 대상 답안 전체에서 얼마나 흔하게 사용되는지를 나타내는 값으로 이 값이 높을수록 해당 자질은 해당 채점 대상 답안에서 중요하지 않다고 판단할 수 있고, idf는 df의 역수를 나타내며, 이 값이 높을수록 해당 자질은 해당 채점 대상 답안에서 중요하다고 판단할 수 있다.
표 2는 본 발명의 실시예에 따라서 표 1에 도시한 채점 대상 답안의 자질벡터를 tfidf로 표현한 것이다. 채점 대상 답안 "아름이를 생포하였다"에 어절 자질 "생포하였다"와 형태소 자질 "생포/동작성명사"는 각각 1번 포함되어 둘 다 1의 값을 가지므로, 두 자질값의 차이가 전혀 없다. 반면 tfidf를 이용하면, 어절 자질 "생포하였다"는 수학식 5에서와 같이 산출하고, 형태소 자질 "생포/동작성명사"는 수학식 6에서와 같이 산출하여 각각 0.397과 0.222로 다르게 표현할 수 있다. 즉, 두 자질이 서로 다른 차이점이 있음을 나타낼 수 있다. 이러한 차이를 반영하면, 기계학습 방법에 영향을 주어 채점의 정확도를 개선시킬 수 있다.
[수학식 5]
[수학식 6]
[표 2]
또한 처리부(210)는, 추출된 자질 중 어느 하나의 자질이 특정 채점 대상 답안에서 나타나는 빈도에 대한 가중치는, 자질 중 어느 하나의 자질이 특정 채점 대상 답안에 나타난 횟수로 산출하고, 추출된 자질 중 어느 하나의 자질이 상기 다수의 채점 대상 답안에서 나타나는 빈도에 대한 가중치는, 채점 대상 답안의 총 개수를 어느 하나의 자질을 포함하는 채점 대상 답안의 개수로 나누어 로그를 취함으로써 산출할 수 있다.
또한 처리부(210)는, 제2 소정 개수의 답안 각각을 분류할 경우, 제2 소정 개수의 답안 각각의 자질 벡터와 분류 기준의 자질 벡터를 비교하여 벡터 간의 유사도가 가장 높은 분류 기준에 대응하는 클러스터로 분류하거나, 가장 높은 유사도의 분류 기준이 적어도 두 개 이상 존재할 경우 최상위 점수를 갖는 분류 기준에 대응하는 클러스터 또는 정답으로 분류할 수 있다.
언어 처리부(212)는 다수의 학생 단말(120-1,...,120-n)에서 형성한 다수의 입력 답안에 대하여 자연 언어 처리를 수행하여 채점 대상 답안을 형성할 수 있다. 일 실시예로서, 언어 처리부(212)는 문서 정규화, 형태소 분석, 품사 부착, 부정 표현 인식, 구묶음, 바꿔쓰기, 의존관계분석 등의 언어 처리를 수행하여 채점 대상 답안을 형성할 수 있지만, 언어 처리부(212)가 입력 답안에 대해 수행하는 언어 처리는 이러한 구현에 한정되지 않는다.
문서 정규화부(212-1)는 동일한 의미를 가진 다양한 입력 답안을 하나의 표현으로 통일화할 수 있다. 문서 정규화부(212-1)는 입력 답안에 대하여 문장 분리 단계, 띄어쓰기 교정 단계, 철자 교정 단계, 약어 확장 단계, 기호 제거 단계 등을 포함하는 문서 정규화 과정을 수행할 수 있지만, 문서 정규화부(212-1)가 입력 답안에 대해 수행하는 문서 정규화는 이러한 구현에 한정되지 않는다.
문서 정규화부(212-1)는 문장 분리 단계에서 다수의 문장으로 구성된 입력 답안을 이용하여 문장 단위로 분리된 출력을 형성할 수 있다. 문서 정규화부(212-1)는 문장 종결 기호를 기준으로 입력 답안에 포함된 다수의 문장을 문장 단위로 분리할 수 있다. 일 실시예로서, 문장 종결 기호는 온점(.), 물음표(?), 느낌표(!)를 포함할 수 있으나, 이러한 구현에 한정되지 않는다. 다음의 표 3은 문서 정규화부(212-1)의 문장 분리 단계 수행 결과를 보이는 예시이다. 문서 정규화부(212-1)는 문장이 분리되지 않은 "우리는 열심히 손을 흔들었다. 그러나 선수 중 아무도 돌아보는 사람이 없었다."라는 형태의 입력 답안을 수신하여 "흔들었다" 다음에 표시된 온점을 이용하여 "우리는 열심히 손을 흔들었다"와 그러나 선수 중 아무도 돌아보는 사람이 없었다"를 서로 다른 문장으로 구분하여 출력할 수 있다.
[표 3]
그러나, 입력 답안이 문장 종결 기호를 포함하지 않는 경우 문장을 분리할 수 없다. 또한, 문장 종결 기호와 유사한 기호가 입력 답안에 사용되는 경우도 존재할 수도 있고, 문장 종결 기호가 문장을 종결할 때만 쓰이지 않을 수 있다. 예컨대, "대통령이 부산(?)에 오셨다."라는 문장에서 '?'를 이용하여 문장을 분리해서는 안 되고, "0.002는 매우 작은 숫자다."라는 문장에서 소수점을 마침표로 인식하여 문장을 분리해서는 안 되기 때문에 문서 정규화부(212-1)는 조건부 무작위장 모델을 포함하는 다양한 기계학습 방법을 이용해서 입력 답안이 포함하는 다수의 문장을 분리할 수 있다. 즉, 문서 정규화부(212-1)는 입력 답안에서 문장 종결 기호를 제거한 후 각 어절 단위로 서로 다른 문장으로 분리할 수 있는 확률을 계산하여 가장 확률이 높은 어절 사이를 서로 다른 문장으로 구분할 수 있다. 다음 표 4는 기계학습 방법을 이용한 문서 정규화부(212-1)의 문장 분리 단계 수행 결과를 보이는 예시이다. 문서 정규화부(212-1)는 입력 답안으로 문장이 분리되지 않은 "우리는 열심히 손을 흔들었다. 그러나 선수 중 아무도 돌아보는 사람이 없었다."라는 형태의 입력 답안을 수신하여 "흔들었다"와 "없었다" 다음에 표시된 온점을 제거하고, "우리는 열심히", "열심히 손을", "손을 흔들었다", "흔들었다 그러나", "그러나 아무도", "아무도 돌아보는", "돌아보는 사람이", "사람이 없었다"와 같이 어절 단위로 분리할 수 있다. 문서 정규화부(212-1)는 저장부(220)에 저장된 말뭉치에서 각각의 분리된 어절 단위가 서로 다른 문장으로 구분될 확률을 산출하고, 산출된 확률이 가장 높은 어절 단위인 "흔들었다 그러나"를 기준으로 "우리는 열심히 손을 흔들었다"와 "그러나 선수 중 아무도 돌아보는 사람이 없었다"를 서로 다른 문장으로 분리할 수 있다. 일 실시예로서, 말뭉치로서는 국립국어원에서 제공하는 세종말뭉치를 이용할 수 있으나, 말뭉치는 문장 분리에 대한 정보를 포함하는 말뭉치라면 어떠한 말뭉치를 이용하더라도 무방하다.
[표 4]
또한, 문서 정규화부(212-1)는 띄어쓰기 교정 단계에서 입력 답안이 포함하는 각각의 문장의 띄어쓰기를 채점에 영향을 미치지 않도록 수정할 수 있다. 문서 정규화부(212-1)는 확률 기반 띄어쓰기 교정 방법을 이용하여 띄어쓰기 교정을 수행할 수 있다. 즉, 문서 정규화부(212-1)는 입력 답안이 포함하는 문장의 각 음절들을 붙여쓰기 한 후 각 음절별로 붙여쓰기 할 확률과 띄어쓰기 할 확률을 산출하여 보다 확률이 높은 띄어쓰기 형태를 해당 문장의 띄어쓰기로 결정할 수 있다.
일 실시예로서, 문서 정규화부(212-1)는 입력 답안이 포함하는 "우리는 열심히 손을 흔들었다"라는 문장을 입력 받아서 "우리는열심히손을흔들었다"와 같이 모든 음절들을 붙여쓰기 한 후 "우리", "리는", "는열", "열심", "심히", "히손", "손을", "을흔", "흔들", "들었", "었다"로 분리할 수 있다. 문서 정규화부(212-1)는 저장부(220)에 저장된 말뭉치에 포함된 문장 중 "우리"("우"와 "리"를 붙여쓰기 한 형태)를 포함하는 문장의 개수를 "우" 음절을 포함하는 문장의 개수로 나누어서 "우리"를 붙여쓰기 할 확률을 산출하고, "우 리"("우"와 "리"를 띄어쓰기 한 형태)를 포함하는 문장의 개수를 "우" 음절을 포함하는 문장의 개수로 나누어서 "우리"를 띄어쓰기 할 확률을 산출하며, 산출된 확률 중 보다 높은 확률을 갖는 형태를 "우리"의 띄어쓰기 형태로 결정할 수 있다. "우리"를 띄어쓰기 할 확률보다는 "우리"를 붙여쓰기 할 확률이 높을 것이므로 "우리" 는 붙여쓰기로 결정할 수 있다.
또한, 문서 정규화부(212-1)는 저장부(220)에 저장된 말뭉치에 포함된 문장 중 "리는"("리"와 "는"을 붙여쓰기 한 형태)을 포함하는 문장의 개수를 "리" 음절을 포함하는 문장의 개수로 나누어서 "리는"을 붙여쓰기 할 확률을 산출하고, "리 는"("리"와 "는"을 띄어쓰기 한 형태)을 포함하는 문장의 개수를 "리" 음절을 포함하는 문장의 개수로 나누어서 "리는"을 띄어쓰기 할 확률을 산출하며, 산출된 확률 중 보다 높은 확률을 갖는 형태를 "리는"의 띄어쓰기 형태로 결정할 수 있다. "리는"을 띄어쓰기 할 확률보다는 "리는"을 붙여쓰기 할 확률이 높을 것이므로 "리는" 은 붙여쓰기로 결정할 수 있다.
또한, 문서 정규화부(212-1)는 저장부(220)에 저장된 말뭉치에 포함된 문장 중 "는열"("는"과 "열"을 붙여쓰기 한 형태)을 포함하는 문장의 개수를 "는" 음절을 포함하는 문장의 개수로 나누어서 "는열"을 붙여쓰기 할 확률을 산출하고, "는 열"("는"과 "열"을 띄어쓰기 한 형태)을 포함하는 문장의 개수를 "는" 음절을 포함하는 문장의 개수로 나누어서 "는열"을 띄어쓰기 할 확률을 산출하며, 산출된 확률 중 보다 높은 확률을 갖는 형태를 "는열"의 띄어쓰기 형태로 결정할 수 있다. "는열"을 붙여쓰기 할 확률보다는 "는열"을 띄어쓰기 할 확률이 높을 것이므로 "는열" 은 붙여쓰기로 결정할 수 있다.
또한, 문서 정규화부(212-1)는 저장부(220)에 저장된 말뭉치에 포함된 문장 중 "열심"("열"과 "심"을 붙여쓰기 한 형태)을 포함하는 문장의 개수를 "열" 음절을 포함하는 문장의 개수로 나누어서 "열심"을 붙여쓰기 할 확률을 산출하고, "열 심"("열"과 "심"을 띄어쓰기 한 형태)을 포함하는 문장의 개수를 "열" 음절을 포함하는 문장의 개수로 나누어서 "열심"을 띄어쓰기 할 확률을 산출하며, 산출된 확률 중 보다 높은 확률을 갖는 형태를 "열심"의 띄어쓰기 형태로 결정할 수 있다. "열심"을 띄어쓰기 할 확률보다는 "열심"을 붙여쓰기 할 확률이 높을 것이므로 "열심" 은 붙여쓰기로 결정할 수 있다.
또한, 문서 정규화부(212-1)는 저장부(220)에 저장된 말뭉치에 포함된 문장 중 "심히"("심"과 "히"를 붙여쓰기 한 형태)를 포함하는 문장의 개수를 "심" 음절을 포함하는 문장의 개수로 나누어서 "심히"를 붙여쓰기 할 확률을 산출하고, "심 히"("심"과 "히"를 띄어쓰기 한 형태)을 포함하는 문장의 개수를 "심" 음절을 포함하는 문장의 개수로 나누어서 "심히"를 띄어쓰기 할 확률을 산출하며, 산출된 확률 중 보다 높은 확률을 갖는 형태를 "심히"의 띄어쓰기 형태로 결정할 수 있다. "심히"를 띄어쓰기 할 확률보다는 "심히"를 붙여쓰기 할 확률이 높을 것이므로 "심히"를 붙여쓰기로 결정할 수 있다.
또한, 문서 정규화부(212-1)는 저장부(220)에 저장된 말뭉치에 포함된 문장 중 "히손"("히"와 "손"을 붙여쓰기 한 형태)을 포함하는 문장의 개수를 "히" 음절을 포함하는 문장의 개수로 나누어서 "히손"을 붙여쓰기 할 확률을 산출하고, "히 손"("히"와 "손"을 띄어쓰기 한 형태)을 포함하는 문장의 개수를 "히" 음절을 포함하는 문장의 개수로 나누어서 "히손"을 띄어쓰기 할 확률을 산출하며, 산출된 확률 중 보다 높은 확률을 갖는 형태를 해당 음절의 띄어쓰기 형태로 결정할 수 있다. "히손"을 붙여쓰기 할 확률보다는 "히손"을 띄어쓰기 할 확률이 높을 것이므로 "히손"은 붙여쓰기로 결정할 수 있다.
또한, 문서 정규화부(212-1)는 저장부(220)에 저장된 말뭉치에 포함된 문장 중 "손을"("손"과 "을"을 붙여쓰기 한 형태)을 포함하는 문장의 개수를 "손" 음절을 포함하는 문장의 개수로 나누어서 "손을"을 붙여쓰기 할 확률을 산출하고, "손 을"("손"과 "을"을 띄어쓰기 한 형태)을 포함하는 문장의 개수를 "손" 음절을 포함하는 문장의 개수로 나누어서 "손을"을 띄어쓰기 할 확률을 산출하며, 산출된 확률 중 보다 높은 확률을 갖는 형태를 "손을"의 띄어쓰기 형태로 결정할 수 있다. "손을"을 띄어쓰기 할 확률보다는 "손을"을 붙여쓰기 할 확률이 높을 것이므로 "손을"을 붙여쓰기로 결정할 수 있다.
또한, 문서 정규화부(212-1)는 저장부(220)에 저장된 말뭉치에 포함된 문장 중 "을흔"("을"과 "흔"을 붙여쓰기 한 형태)을 포함하는 문장의 개수를 "을" 음절을 포함하는 문장의 개수로 나누어서 "을흔"을 붙여쓰기 할 확률을 산출하고, "을 흔"("을"과 "흔"을 띄어쓰기 한 형태)을 포함하는 문장의 개수를 "을" 음절을 포함하는 문장의 개수로 나누어서 "을흔"를 띄어쓰기 할 확률을 산출하며, 산출된 확률 중 보다 높은 확률을 갖는 형태를 "을흔"의 띄어쓰기 형태로 결정할 수 있다. "을흔"을 붙여쓰기 할 확률보다는 "을흔"을 띄어쓰기 할 확률이 높을 것이므로 "을흔"을 띄어쓰기로 결정할 수 있다.
또한, 문서 정규화부(212-1)는 저장부(220)에 저장된 말뭉치에 포함된 문장 중 "흔들"("흔"과 "들"을 붙여쓰기 한 형태)을 포함하는 문장의 개수를 "흔" 음절을 포함하는 문장의 개수로 나누어서 "흔들"을 붙여쓰기 할 확률을 산출하고, "흔 들"("흔"과 "들"을 띄어쓰기 한 형태)을 포함하는 문장의 개수를 "흔" 음절을 포함하는 문장의 개수로 나누어서 "흔들"을 띄어쓰기 할 확률을 산출하며, 산출된 확률 중 보다 높은 확률을 갖는 형태를 "흔들"의 띄어쓰기 형태로 결정할 수 있다. "흔들"을 띄어쓰기 할 확률보다는 "흔들"을 붙여쓰기 할 확률이 높을 것이므로 "흔들"을 붙여쓰기로 결정할 수 있다.
또한, 문서 정규화부(212-1)는 저장부(220)에 저장된 말뭉치에 포함된 문장 중 "들었"("들"과 "었"을 붙여쓰기 한 형태)을 포함하는 문장의 개수를 "들" 음절을 포함하는 문장의 개수로 나누어서 "들었"을 붙여쓰기 할 확률을 산출하고, "들 었"("들"과 "었"을 띄어쓰기 한 형태)을 포함하는 문장의 개수를 "들" 음절을 포함하는 문장의 개수로 나누어서 "들었"을 띄어쓰기 할 확률을 산출하며, 산출된 확률 중 보다 높은 확률을 갖는 형태를 "들었"의 띄어쓰기 형태로 결정할 수 있다. "들었"을 띄어쓰기 할 확률보다는 "들었"을 붙여쓰기 할 확률이 높을 것이므로 "들었"을 붙여쓰기로 결정할 수 있다.
또한, 문서 정규화부(212-1)는 저장부(220)에 저장된 말뭉치에 포함된 문장 중 "었다"("었"과 "다"를 붙여쓰기 한 형태)를 포함하는 문장의 개수를 "었" 음절을 포함하는 문장의 개수로 나누어서 "었다"를 붙여쓰기 할 확률을 산출하고, "었 다"("었"과 "다"를 띄어쓰기 한 형태)를 포함하는 문장의 개수를 "었" 음절을 포함하는 문장의 개수로 나누어서 "었다"을 띄어쓰기 할 확률을 산출하며, 산출된 확률 중 보다 높은 확률을 갖는 형태를 "었다"의 띄어쓰기 형태로 결정할 수 있다. "었다"를 띄어쓰기 할 확률보다는 "었다"를 붙여쓰기 할 확률이 높을 것이므로 "었다"를 붙여쓰기로 결정할 수 있다.
문서 정규화부(212-1)는 상기한 띄어쓰기 교정 방법으로 모든 음절의 띄어쓰기 형태를 결정하여 전체 문장의 띄어쓰기를 "우리는 열심히 손을 흔들었다"로 결정할 수 있다. 문서 정규화부(212-1)는 띄어쓰기 교정 단계에서 명사와 같은 실질형태소는 앞 음절과 띄어 쓰고, 조사나 어미와 같은 형식형태소는 앞 음절과 붙여 쓰도록 띄어쓰기를 교정할 수 있다.
또한, 문서 정규화부(212-1)는 철자 교정 단계에서 입력 답안이 포함하는 각각의 문장에 포함된 철자 오류 중 답안 채점에 영향을 주지 않는 부분을 수정할 수 있다. 문서 정규화부(212-1)는 최소 편집 거리 알고리즘을 이용하여 철자 교정을 수행할 수 있다. 편집 거리는 교정 대상 어절을 교정 후보 어절로 수정할 경우 편집(치환, 삭제, 삽입 등)을 수행하는 횟수를 나타낼 수 있다. 예를 들어, 교정 대상 어절이 "렬심히"이고 교정 후보 어절이 "열심히"일 경우 "렬심히"를 "열심히"로 수정하기 위해서는 "ㄹ"을 "o"로 1회 치환하면 되는데 이런 경우의 편집 거리는 "1"이 될 수 있고, 교정 대상 어절 "렬삼히"를 교정 후보 어절 "열심히"로 수정하기 위해서는 "ㄹ"을"ㅇ"으로 치환하고 "ㅏ"에서 1획을 삭제하면 되는데 이런 경우 1회의 수정 및 1회의 삭제가 발생하므로 편집 거리는 "2"가 될 수 있으며, 교정 대상 어절 "여심히"를 교정 후보 어절 "열심히"로 수정하기 위해서는 "여"에"ㄹ"을 삽입하면 되는데 이런 경우 1회의 삽입이 발생하므로 편집 거리는 "1"이 될 수 있다.
일 실시예로서, 문서 정규화부(212-1)는 입력 답안이 포함하는 문장에서 문장 부호를 제거하고 어절 단위로 분리할 수 있다. 문서 정규화부(212-1)는 분리된 각각의 어절이 저장부(220)에 저장된 말뭉치에 포함되어 있으면 해당 어절의 철자는 교정하지 않고, 분리된 각각의 어절이 저장부(220)에 저장된 말뭉치에 포함되어 있지 않을 경우 해당 어절로부터 편집 거리가 소정값 이내인 교정 후보 어절을 추출할 수 있다. 예를 들어, 문서 정규화부(212-1)는 입력 답안에 포함된 어절 중 "렬심히"가 말뭉치에 포함되어 있지 않음을 확인하고, 말뭉치에 포함된 어절 중 교정 대상 어절 "렬심히"로부터 편집 거리가 1 이내인 교정 후보 어절로 "열심히"를 추출할 수 있다. 문서 정규화부(212-1)는 추출된 교정 후보 어절을 이용하여 교정 대상 어절을 교정 후보 어절로 수정하는 철자 교정을 수행할 수 있다.
또한, 문서 정규화부(212-1)는 약어 확장 단계에서 입력 답안이 포함하는 각각의 문장에 포함된 약어를 동일한 개념 또는 의미를 지닌 표준 표현으로 수정할 수 있다. 일 실시예로서, 문서 정규화부(212-1)는 저장부(220)에 저장된 시소러스(Thesaurus)를 이용하여 입력 답안에 포함된 약어를 표준 표현으로 변환할 수 있다. 시소러스는 서로 다른 단어 간의 관계(유의어 또는 반의어)를 나타내는 사전을 의미할 수 있다. 예를 들어, 시소러스에는 "평가원", "KICE", "교육과정평가원"이 "한국교육과정평가원"의 유의어로 등록될 수 있고, 문서 정규화부(212-1)는 입력 답안을 확인하여 "평가원", "KICE", "교육과정평가원"을 포함하고 있을 경우 모두 "한국교육과정평가원"으로 수정할 수 있다.
또한, 문서 정규화부(212-1)는 기호 제거 단계에서 입력 답안이 포함하는 채점에 불필요한 기호들을 제거할 수 있다. 일 실시예로서, 문서 정규화부(212-1)는 입력 답안에 포함된 문장 부호{온점(.), 물음표(?), 느낌표(!) 등}를 제거할 수 있다. 예를 들어, 입력 답안이 "우리는 열심히 손을 흔들었다."와 같을 경우 문서 정규화부(212-1)는 문장 부호인 물음표, 온점을 제거하여 "우리는 열심히 손을 흔들었다"로 수정할 수 있다.
형태소 분석부(212-2)는 저장부(220)에 저장된 말뭉치(품사 부착 말뭉치)를 이용하여 입력 답안이 포함하는 각각의 문장을 어절 단위로 분할하고, 어휘의 중의성과 품사 중의성 등을 고려하여 가능한 모든 형태의 어절별 형태소 분석 결과를 추출할 수 있다. 품사 부착부(212-3)는 형태소 분석부(212-2)에서 추출된 어절별 형태소 분석 결과 중 확률 기반 품사 부착 모델을 이용하여 가장 확률이 높은 형태를 해당 어절의 형태소 분석 결과로 결정하여 각 형태소들의 품사를 부착할 수 있다.
표 5는 일 실시예에 따른 형태소 분석부(212-2)의 형태소 분석 결과 및 품사 부착부(212-3)의 품사 부착 결과를 보이는 예시도이다.
[표 5]
표 5를 참조하면, 형태소 분석부(212-2)는 입력 답안이 "우리는 손을 열심히 흔들었다"를 포함할 경우 품사 부착 말뭉치를 이용하여 어절 단위로 해당 문장의 가능한 모든 형태소 분석 결과를 추출할 수 있다.
예를 들어, "우리는"이라는 어절의 형태소 분석 결과는 "우리"가 대명사, "는"이 보조사 형태일 수도 있고, "우리"가 명사, "는"이 보조사 형태일 수도 있으며, "우"가 명사, "리"가 명사, "는"이 관형형어미 형태일 수도 있다.
또한, "손을" 이라는 어절의 형태소 분석 결과는 "손"이 명사, "을"이 보조사 형태일 수도 있다.
또한, "열심히"라는 어절의 형태소 분석 결과는 "열심히"가 부사 형태일 수도 있고, "열심"이 형용사, "히"가 부사격조사 형태일 수도 있으며, "열심"이 형용사, "히"가 부사격조사 형태일 수도 있다.
또한, "흔들었다"라는 어절의 형태소 분석 결과는 "흔들"이 동사, "었"이 선어말어미, "다"가 종결형어말어미 형태일 수도 있다
일 실시예로서, 품사 부착부(212-3)는 추출된 어절별 형태소 분석 결과와 품사 부착 말뭉치를 이용하여 각각의 형태소 분석 결과가 품사 부착 말뭉치에서 나타난 확률이 가장 높은 형태소 분석 결과를 해당 어절의 형태소 분석 결과로 결정할 수 있다.
표 5를 예로 들면, "우리는"이라는 어절의 경우 "우리"가 대명사, "는"이 보조사 형태가 품사 부착 말뭉치에서 출현한 횟수(확률)가 가장 많으므로 해당 형태를 형태소 분석 결과로 결정하고, "손을"이라는 어절의 경우 "손"을 명사, "을"이 보조사 형태가 품사 부착 말뭉치에서 출현한 횟수가 가장 많으므로 해당 형태를 형태소 분석 결과로 결정할 수 있다. 또한, "열심히"라는 어절의 경우 "열심히"가 부사인 형태가 품사 부착 말뭉치에서 출현한 횟수가 가장 많으므로 해당 형태를 형태소 분석 결과로 결정하고, "흔들었다"라는 어절의 경우 "흔들"이 동사, "었"이 선어말어미, "다"가 종결형어말어미 형태가 품사 부착 말뭉치에서 출현한 횟수가 가장 많으므로 해당 형태를 형태소 분석 결과로 결정할 수 있다. 상기한 방법을 이용하면 품사 부착부(212-3)는 결정된 형태소 분석 결과를 이용하여 각 형태소들의 품사를 부착할 수 있다.
부정표현 인식부(212-4)는 저장부(220)에 저장된 부정부사(못, 안, 아니 등), 부정 보조용언구('~지 못하/않/아니하', '~지 마라', '~지 말자' 등), 부정 구묶음('~ㄹ/을 수 없' 등), 부정용언('아니다', '없다' 등), 이중부정 표현('~지 않으면 안 된다' 등) 등과 같은 부정표현을 이용하여 입력 답안이 포함하는 각각의 문장에 포함된 부정표현을 인식하고 부정형 태그를 부착할 수 있다. 부정표현 인식부(212-4)는 부정표현들을 부정(NOT), 불능(CANNOT), 강조(STRESS)로 구분하여 각각의 부정형 태그를 부착할 수 있다. 표 6은 본 발명의 실시예에 따른 입력 문장과 그에 따른 부정형 태그 부착 결과를 보이는 예시도이다.
[표 6]
표 6을 참조하면, 부정표현 인식부(212-4)는 "소란스럽지 않다"가 입력 답안으로 입력 되었을 경우 저장부(220)에 저장된 부정 표현인 "~지 않"을 포함하고 있으므로 해당 부정 표현을 제거하고 부정을 의미하는 부정형 태그 NOT을 부착하여 "소란스럽다(NOT)" 형태로 수정할 수 있다.
또한, 부정표현 인식부(212-4)는 "먹을 수 없다"가 입력 답안으로 입력 되었을 경우 저장부(220)에 저장된 부정 표현인 "~을 수 없"을 포함하고 있으므로 해당 부정 표현을 제거하고 불능을 의미하는 부정형 태그 CANNOT을 부착하여 "먹다(CANNOT)" 형태로 수정할 수 있다.
또한, 부정표현 인식부(212-4)는 "공부를 안 했다"가 입력 답안으로 입력 되었을 경우 저장부(220)에 저장된 부정 표현인 "~를 안"을 포함하고 있으므로 해당 부정 표현을 제거하고 부정을 의미하는 부정형 태그 NOT을 부착하여 "공부하다(NOT)" 형태로 수정할 수 있다.
또한, 부정표현 인식부(212-4)는 "이번에는 내가 가지 않으면 안 된다"가 입력 답안으로 입력되었을 경우 저장부(220)에 저장된 이중부정 표현인 "~지 않으면 안"을 포함하고 있으므로 해당 이중부정 표현을 제거하고 강조를 의미하는 태그 STRESS를 부착하여 "이번에는 내가 가다(STRESS)" 형태로 수정할 수 있다.
구묶음부(212-5)는 입력 답안이 포함하는 각각의 문장에서 명사구나 동사구와 같이 통사적으로 서로 밀접하게 연결되어 있는 구안에 구를 포함하지 않는 비재귀적 형태의 구를 추출할 수 있다. 구묶음은 부분 구문 분석이라고도 표현할 수 있다. 입력 답안의 구묶음 결과 구문 분석의 복잡도를 감소시킬 수 있다. 일 실시예로서, 구묶음부(212-5)는 확률 기반 방법을 이용하여 입력 답안이 포함하는 각각의 문장을 어절별로 분리하고 분리된 어절들이 저장부(220)에 저장된 말뭉치(구묶음 말뭉치)에서 동일한 구(Inside)로 분류될 확률과 새로운 구의 시작(Begin)으로 분류될 확률을 비교하여 보다 높은 쪽의 확률로 동일한 구로 묶어야 할지 새로운 구로 분류하여야 할지를 결정할 수 있다.
표 7은 본 발명의 일 실시예에 따른 입력 답안과 구묶음 결과를 보이는 예시이다.
[표 7]
표 7을 참조하면, 구묶음부(212-5)는 입력 답안을 어절별(책사랑, 독서, 퀴즈, 대회는, 우리, 학교의, 독서, 문화를, 뿌리내리게, 했다)로 분리할 수 있고, 연속하는 소정 개수의 어절 "책사랑 독서 퀴즈 대회"가 구묶음 말뭉치에서 동일한 구로 분류된 횟수를 산출하고, 서로 다른 새로운 구로 분류된 횟수를 산출하여 산출된 횟수가 많은 형태로 구묶음 여부를 판단할 수 있다. 이 경우 "책사랑 독서 퀴즈 대회"가 동일한 구로 분류된 횟수가 서로 다른 새로운 구로 분류된 횟수보다 많기 때문에 구묶음을 수행할 수 있다. 구묶음부(212-5)는 상기한 방법과 동일한 원리로 "우리 학교", "독서 문화", "뿌리내리게 했다"의 구묶음을 수행할 수 있다.
표 7에서 예시한 "책사랑 독서 퀴즈 대회는 우리 학교의 독서 문화를 뿌리내리게 했다"를 어절 단위로 구문 분석을 수행하고자 하면 10개의 어절에서 가능한 모든 어절쌍을 추출하고, 추출된 어절쌍들에 대해서 구문 분석을 수행해야 하지만, 구묶음 결과를 활용하면 [책사랑 독서 퀴즈 대회](명사구), [우리 학교](명사구), [독서 문화](명사구), [뿌리내리게 했다](동사구)의 4개의 구에서 가능한 구문 관계만을 파악하기 때문에 구묶음을 수행할 경우 구문 분석의 복잡도를 감소시킬 수 있다.
바꿔쓰기부(212-6)는 입력 답안이 포함하는 각각의 문장을 대체 단어 및 표현 등을 사용하여 문장의 의미는 유지하면서 간단한 문장으로 다시 작성하는 바꿔쓰기 과정을 수행할 수 있다. 일 실시예로서, 바꿔쓰기부(212-6)는 저장부(220)에 저장된 시소러스(Thesaurus)를 이용하여 입력 답안에 포함된 표현을 표준 표현으로 변환할 수 있다. 시소러스는 서로 다른 단어 또는 표현 간의 관계(유의어 또는 반의어)를 나타내는 사전을 의미할 수 있다. 예를 들어, 시소러스에는 "가/조사"가 "이/조사"의 유의어로, "는다/어미"가 "다/어미"의 유의어로 등록될 수 있고, 바꿔쓰기부(212-6)는 "우리+가 밥+을 먹+는다"가 입력 답안으로 입력되었을 경우 시소러스를 참조하여 "우리+이 밥+을 먹+다"로 바꿔쓰기 과정을 수행할 수 있다.
의존관계 분석부(212-7)는 입력 답안이 포함하는 각각의 문장을 의존문법을 기반으로 구문 분석을 수행할 수 있다. 의존문법은 의존소(dependent)와 지배소(governor)의 관계를 문법으로 표현한 것인데, 지배소는 의존관계에 있는 언어 요소들 중 의미의 중심이 되는 요소를, 의존소는 지배소가 갖는 의미를 보완해주는 요소를 의미한다. 일 실시예로서, 의존관계 분석부(212-7)는 문장의 역방향 순서로 어절별 의존관계를 분석하고, 확률에 근거하여 의존소와 지배소를 구분할 수 있다.
예를 들어, "오늘 나는 밥을 먹었다"의 의존관계를 분석하면 우선 도 4a에 도시한 바와 같이 문장의 역방향 순서로 "먹었다"와 "밥을"을 의존관계로 연결할 수 있다. 도 4b에 도시한 바와 같이 역방향 순서로 다음 어절인 "나는"의 의존관계를 분석할 경우 "나는"이 "먹었다"와 의존관계인지(A) "밥을"과 의존관계인지(B)를 결정해야 하는데, 의존관계 분석부(212-7)는 저장부(220)에 저장된 말뭉치를 이용하여 "나는"과 "먹었다"가 의존관계일 확률과 "나는"과 "밥을"이 의존관계일 확률을 산출하여 보다 높은 확률을 갖는 "나는"이 "먹었다"와 의존관계(A)를 갖도록 선택할 수 있다. 도 4c에 도시한 바와 같이 역방향 순서로 다음 어절인 "오늘"의 의존관계를 분석할 경우 언어 구조상 크로싱(crossing)이 발생하는 "오늘"과 "밥을"은 의존관계가 발생할 수 없고, "오늘"이 "먹었다"와 의존관계인지(C) 또는 "나는"과 의존관계인지(D)를 결정하면 되는데, 의존관계 분석부(212-7)는 저장부(220)에 저장된 말뭉치를 이용하여 "오늘"과 "먹었다"가 의존관계일 확률과 "오늘"과 "나는"이 의존관계일 확률을 산출하여 보다 높은 확률을 갖는 "오늘"이 "나는"과 의존관계(D)를 갖도록 선택할 수 있다. 도 4d는 "오늘 나는 밥을 먹었다"라는 입력 답안 문장의 의존관계 분석이 완료된 형태를 나타낼 수 있다.
분류 채점부(214)는 언어 처리부(212)에서 형성된 채점 대상 답안의 채점을 수행하여 채점 결과를 형성할 수 있다. 일 실시예로서, 분류 채점부(214)는 학습용 답안 생성, 채점 대상 답안의 자질 추출 및 선택, 학습 모델 생성, 채점 대상 답안의 분류 기준 형성, 채점 대상 답안 분류, 채점 대상 답안의 채점 등의 절차로 채점 결과를 형성할 수 있지만, 분류 채점부(214)가 채점 대상 답안에 대해 수행하는 절차는 이러한 구현에 한정되지 않는다. 분류 채점부(214)는 학습용 답안 생성부(214-1), 자질 추출부(214-2), 답안 분류부(214-3) 및 채점부(214-4)를 포함할 수 있다.
학습용 답안 생성부(214-1)는 언어 처리가 완료된 채점 대상 답안 중 소정 임계값 이상의 빈도를 갖는 제1 소정 개수의 답안을 선택하여 제1 소정 개수의 답안을 학습용 답안으로 형성할 수 있다. 일 실시예로서, 학습용 답안 생성부(214-1)는 전체 채점 대상 답안 중 80% 이상의 빈도를 갖는 채점 대상 답안을 제1 소정 개수의 답안으로 선택할 수도 있고, 미리 설정된 임의의 개수(예를 들어, 10개)의 채점 대상 답안을 제1 소정 개수의 답안으로 선택할 수도 있으나 제1 소정 개수의 답안을 선택하는 방법이 이러한 실시예에 한정되지 않는다.
자질 추출부(214-2)는 학습용 답안 생성부(214-1)에서 선택된 제1 소정 개수의 답안 각각으로부터 언어 처리부(212)가 수행한 자연 언어 처리의 수행 결과를 이용하여 미리 결정된 특징적 요소에 해당하는 자질(feature)을 추출할 수 있다. 일 실시예로서, 언어 처리부(212)는 입력 답안에 대한 문장 분리 단계, 띄어쓰기 교정 단계, 철자 교정 단계, 약어 확장 단계, 기호 제거 단계를 포함하는 문서 정규화, 입력 답안의 형태소 분석, 입력 답안이 포함하는 형태소의 품사 부착, 입력 답안의 부정표현 인식, 입력 답안이 포함하는 적어도 두 개의 어절에 대한 구묶음, 입력 답안이 포함하는 어절 또는 구를 미리 결정된 표준 표현으로 변환하는 바꿔쓰기 및 입력 답안이 포함하는 형태소 또는 어절간의 의존구조를 분석하는 의존관계 분석을 포함하는 자연 언어 처리를 수행할 수 있다.
또한, 자질 추출부(214-2)는 학습용 답안 생성부(214-1)에서 선택된 제1 소정 개수의 답안의 형태소 분석 및 품사 부착 수행결과를 이용하여 형태소 자질을 추출할 수 있다. 예를 들어, 제1 소정 개수의 답안 중 어느 하나의 답안이 포함하는 문장이 "우리는 손을 열심히 흔들었다"일 경우, 형태소 분석부(212-2) 및 품사 부착부(212-3)의 형태소 분석 및 품사 부착 수행 결과는 "우리/대명사 + 는/보조사 + 손/명사 + 을/보조사 + 열심히/부사 + 흔들/동사 + 었/선어말어미 + 다/종결형어말어미"와 같고, "우리/대명사", "는/보조사", "손/명사", "을/보조사", "열심히/부사", "흔들/동사", "었/선어말어미", "다/종결형어말어미"를 형태소 자질로 추출할 수 있다.
또한, 자질 추출부(214-2)는 학습용 답안 생성부(214-1)에서 선택된 제1 소정 개수의 답안이 포함하는 어절에 기초하여 어절 자질을 추출할 수 있다. 예를 들어, 제1 소정 개수의 답안 중 어느 하나의 답안이 포함하는 문장이 "우리는 손을 열심히 흔들었다"일 경우, 띄어쓰기 단위인 어절들 즉, "우리는". "손을", "열심히", "흔들었다"를 어절 자질로 추출할 수 있다.
또한, 자질 추출부(214-2)는 학습용 답안 생성부(214-1)에서 선택된 제1 소정 개수의 답안이 포함하는 어절의 구묶음을 수행하여 기본구 자질을 추출할 수 있다. 예를 들어, 제1 소정 개수의 답안 중 어느 하나의 답안이 포함하는 문장이 "책사랑 독서 퀴즈 대회는 우리 학교의 독서 문화를 뿌리내리게 했다"일 경우 구묶음부(212-5)의 구묶음 수행 결과는 "[책사랑 독서 퀴즈 대회](명사구)는 [우리 학교](명사구)의 [독서 문화](명사구)를 [뿌리내리게 했다](동사구)"와 같고, 각각의 구묶음 결과인 "[책사랑 독서 퀴즈 대회](명사구)", "[우리 학교](명사구)", "[독서 문화](명사구)", "[뿌리내리게 했다](동사구)"를 기본구 자질로 추출할 수 있다.
또한, 자질 추출부(214-2)는 학습용 답안 생성부(214-1)에서 선택된 제1 소정 개수의 답안의 의존관계 분석을 수행하여 의존관계 자질을 형성할 수 있다. 예를 들어, 제1 소정 개수의 답안 중 어느 하나의 답안이 포함하는 문장이 "오늘 나는 밥을 먹었다"일 경우 의존관계 분석부(212-7)의 의존관계 분석 결과는 도 4d에 도시한 바와 같고, 각각의 의존관계인 [나는, 먹었다], [밥을, 먹었다], [오늘, 나는, 먹었다]를 의존관계 자질로 형성할 수 있다.
또한, 자질 추출부(214-2)는 형태소 자질의 바이그램(bi-gram) 혹은 트라이그램(tri-gram)이나 어절 자질의 바이그램 혹은 트라이그램을 결합하여 엔그램(n-gram) 자질로 형성할 수 있다. 일 실시예로서, 형태소 자질이나 어절 자질에서 인접한 2개를 결합하여 형태소 혹은 어절 바이그램(bi-gram) 자질을 형성할 수도 있고, 형태소 자질이나 어절 자질에서 인접한 3개를 결합하여 형태소 혹은 어절 트라이그램(tri-gram) 자질을 형성할 수도 있다.
또한, 자질 추출부(214-2)는 채점 대상 답안 중 제1 소정 개수의 답안을 제외한 제2 소정 개수의 답안 각각으로부터 언어 처리부(212)가 수행한 자연 언어 처리의 수행 결과를 이용하여 자질을 추출할 수 있다.
답안 분류부(214-3)는 자질 추출부(214-2)에서 추출된 자질들을 이용하여 채점 대상 답안의 분류에 사용할 분류 기준을 형성하기 위한 기계학습 방법을 선택하고, 선택된 기계학습 방법을 이용하여 분류 기준을 형성하며, 형성된 분류 기준에 따라서 채점 대상 답안을 적어도 두 개의 클러스터(cluster)로 분류(예컨대, 정답 및 오답으로 분류하거나, 3점, 2점, 1점 등으로 분류)할 수 있다. 일 실시예로서, 분류 기준을 형성하기 위한 기계학습 방법은 비지도 학습 방법(Unsupervised Learning Method), 지도 학습 방법(Supervised Learning Method), 준지도 학습 방법(Semi-Supervised Learning Method), 앙상블 학습(Ensemble Learning Method) 등을 포함할 수 있다.
비지도 학습 방법에서는 학습용 답안 생성부(214-1)에서 선택된 제1 소정 개수의 답안을 적어도 두 개의 클러스터로 클러스터링(clustering)하고 분류 기준을 형성하며, 형성된 분류 기준을 이용하여 (제1 소정 개수의 답안을 제외한) 제2 소정 개수의 답안을 적어도 두 개의 클러스터 중 어느 하나의 클러스터로 분류할 수 있다. 일 실시예로서, 답안 분류부(214-3)는 자질 추출부(214-2)가 제1 소정 개수의 답안에서 추출한 자질들을 이용하여 제1 소정 개수의 답안 각각을 자질 벡터로 변환하고, 제1 소정 개수의 답안에서 추출된 자질들을 이용하여 적어도 두 개의 클러스터 각각에 대응하는 초기 분류 기준을 설정하며, 설정된 초기 분류 기준을 기준 벡터로 변환할 수 있다. 또한, 답안 분류부(214-3)는 기준 벡터와 제1 소정 개수의 답안 각각에 대응하는 자질 벡터간의 유사도(거리)를 산출하고, 산출된 유사도(거리)에 기초하여 제1 소정 개수의 답안 각각을 유사도가 가장 높은(거리가 가장 가까운) 기준 벡터에 대응하는 클러스터로 분류할 수 있다. 또한, 답안 분류부(214-3)는 제1 소정 개수의 답안 각각을 어느 하나의 클러스터로 분류한 후 클러스터별로 분류된 제1 소정 개수의 답안 각각에 대응하는 자질 벡터의 각 좌표들의 벡터 평균을 수행하여 각 클러스터에 대응하는 기준 벡터를 다시 설정할 수 있다. 또한, 답안 분류부(214-3)는 다시 설정된 기준 벡터를 이용하여 제1 소정 개수의 답안 각각에 대응하는 자질 벡터간의 유사도 산출과 가장 유사도가 높은 클러스터로의 분류를 반복할 수 있다. 답안 분류부(214-3)는 각 클러스터에 포함된 제1 소정 개수의 답안의 변동이 없을 때까지 유사도 산출 및 클러스터 분류를 반복 수행할 수 있고, 클러스터에 포함된 답안의 변동이 없을 경우 각 클러스터의 기준 벡터를 최종 기준 벡터로 설정할 수 있다. 일 실시예로서, 답안 분류부(214-3)는 K-평균 군집화(K-means Clustering), 계층 군집화(Hierarchical Clustering), 밀도기반 군집화(Density-Based Clustering) 등의 방법을 이용하여 클러스터링 및 분류 기준을 형성할 수 있으나, 이러한 방법에 한정되지 않는다. 또한, 답안 분류부(214-3)는 설정된 최종 기준 벡터와 제2 소정 개수의 답안 각각에 대응하는 자질 벡터간의 유사도(거리)를 산출하고, 산출된 유사도(거리)에 기초하여 제2 소정 개수의 답안 각각을 유사도가 가장 높은(거리가 가장 가까운) 기준 벡터에 대응하는 클러스터로 분류할 수 있다.
표 8은 본 발명의 일 실시예에 따른 비지도 학습 방법을 이용한 답안 분류 방법을 나타낸다. 제1 소정 개수의 답안이 "아름이를 생포하였다", "아름이를 잡았다", "동물을 생포하는 사람이다", "동물을 보살핀다"의 4개라고 가정할 경우 제1 소정 개수의 답안으로부터 형태소 자질을 추출하면 "아름이", "동물", "생포", "잡다", "보살피다"와 같다. 추출된 자질들 중 "생포", "아름이", "동물"을 비지도 학습 방법을 위한 자질로 선택할 수 있고, 제1 소정 개수의 답안 각각을 자질 벡터로 변환하면 "아름이를 생포하였다"→ (1,1,0), "아름이를 잡았다"→ (0,1,0), "동물을 생포하는 사람이다"→ (1,0,1), "동물들을 보살핀다"→ (0,0,1)와 같다.
[표 8]
일 실시예로서, 답안 분류부(214-3)는 클러스터 A의 초기 기준 벡터를 (1,1,0)으로 설정하고 클러스터 B의 초기 기준 벡터(0,0,1)로 설정할 수 있다. 답안 분류부(214-3)는 클러스터 A 및 클러스터 B의 초기 기준 벡터들{(1,1,0), (0,0,1)}과 제1 소정 개수 답안 각각의 자질 벡터들{(1,1,0), (0,1,0), (1,0,1), (0,0,1)} 사이의 유사도(거리)를 산출하고, 산출된 유사도에 기초하여 가장 유사도가 높은(거리가 가까운) 클러스터로 제1 소정 개수의 답안 각각을 분류할 수 있다. 즉, "아름이를 생포하였다"의 경우 클러스터 A와의 거리는 0이고, 클러스터 B와의 거리는 이므로 가장 거리가 가까운 클러스터 A로 분류할 수 있고, "아름이를 잡았다"의 경우 클러스터 A와의 거리는 1이고, 클러스터 B와의 거리는 이므로 가장 거리가 가까운 클러스터 A로 분류할 수 있다. 또한, "동물들을 보살핀다"의 경우 클러스터 A와의 거리는 이고, 클러스터 B와의 거리는 0이므로 가장 거리가 가까운 클러스터 B로 분류할 수 있고, "동물을 생포하는 사람이다"의 경우 클러스터 A와의 거리는 이고, 클러스터 B와의 거리는 1이므로 가장 거리가 가까운 클러스터 B로 분류할 수 있다.
또한, 답안 분류부(214-3)는 분류된 제1 소정 개수의 답안 각각의 자질 벡터의 각 좌표값들을 평균하여 초기 기준 벡터를 다시 설정할 수 있다. 즉, 클러스터 A로 분류된 "아름이를 생포하였다"(1,1,0)와 "아름이를 잡았다"(0,1,0)의 각 좌표값들을 평균하면 (0.5, 1, 0)과 같고 이를 클러스터 A의 기준 벡터로 다시 설정할 수 있고, 클러스터 B로 분류된 "동물을 생포하는 사람이다"(1,0,1)와 "동물들을 보살핀다"(0,0,1)의 각 좌표값들을 평균하면 (0.5,0,1)과 같고 이를 클러스터 B의 기준 벡터로 다시 설정할 수 있다.
또한, 답안 분류부(214-3)는 새롭게 설정된 기준 벡터와 제1 소정 개수의 답안 각각의 자질 벡터들 사이의 유사도 산출과 가장 유사도가 높은 클러스터로의 분류를 반복할 수 있다. 답안 분류부(214-3)는 각 클러스터에 포함된 제1 소정 개수의 답안의 변동이 없을 때까지 유사도 산출 및 가장 유사도가 높은 클러스터로의 분류를 반복 수행할 수 있고, 각 클러스터에 포함된 답안의 변동이 없을 경우의 기준 벡터를 최종 기준 벡터로 설정할 수 있다. 즉, 답안 분류부(214-3)는 클러스터 A 및 B의 새로운 기준 벡터{(0.5, 1, 0), (0.5,0,1)}와 제1 소정 개수의 답안의 자질 벡터들{(1,1,0), (0,1,0), (1,0,1), (0,0,1)}과의 유사도 산출과 클러스터 분류를 반복하여 "아름이를 생포하였다"(1,1,0)와 "아름이를 잡았다"(0,1,0)를 클러스터 A로 분류하고, "동물을 생포하는 사람이다"(1,0,1)와 "동물들을 보살핀다"(0,0,1)를 클러스터 B로 분류할 수 있으며, 클러스터 A와 클러스터 B의 변화가 전혀 없으므로, 클러스터 A의 최종 기준 벡터는 (0.5, 1, 0)로 클러스터 B의 최종 기준 벡터는 (0.5, 0, 1)로 설정할 수 있다.
지도 학습 방법에서는 학습용 답안 생성부(214-1)에서 선택된 제1 소정 개수의 답안에 대한 채점자의 채점 결과를 입력 받아 분석하여 일관성 있는 분류 기준을 형성할 수 있다. 일 실시예로서, 답안 분류부(214-3)는 채점자에 의해 적어도 두 개의 클러스터 중 어느 하나의 클러스터로 분류된 제1 소정 개수의 답안이 각각의 클러스터에 포함될 확률과, 제1 소정 개수의 답안에서 추출된 자질들의 제1 소정 개수의 답안 내에서의 출현 확률을 산출하여 분류 기준을 형성하고, 형성된 분류 기준을 이용하여 제2 소정 개수의 답안을 적어도 두 개의 클러스터 중 어느 하나의 클러스터로 분류할 수 있다.
표 9는 본 발명의 일 실시예에 따른 지도 학습 방법을 이용한 답안 분류 방법을 나타낸다. 제1 소정 개수의 답안이 "아름이를 생포하였다", "아름이를 잡았다", 아름이를 겨우 생포하였다", "동물을 생포하는 사람이다", "동물들을 보살핀다"의 5개이고, 제1 소정 개수의 답안을 [정답]과 [오답]의 중 어느 하나의 클러스터로 분류하며, 채점자의 클러스터링 결과가 "[정답] 아름이를 생포하였다", "[정답] 아름이를 잡았다", "[정답] 아름이를 겨우 생포하였다", "[오답] 동물을 생포하는 사람이다", "[오답] 동물들을 보살핀다"일 경우, 제1 소정 개수의 답안으로부터 형태소 자질을 추출하면 "아름이", "동물", "생포", "겨우", "사람", "잡다", "보살피다"와 같다. 답안 분류부(214-3)는 추출된 자질들 중 "생포", "아름이", "동물"을 지도 학습 방법을 위한 자질로 선택할 수 있고, 제1 채점 대상 답안 5개중 정답인 답안은 3개이므로 제1 소정 개수의 답안이 정답인 클러스터에 포함될 확률은 0.6, 오답인 답안은 2개이므로 제1 소정 개수의 답안이 오답인 클러스터에 포함될 확률은 0.4임을 산출할 수 있다. 또한, 답안 분류부(214-3)는 지도 학습 방법을 위하여 선택된 자질들이 각 클러스터에 포함될 조건부 확률은 다음과 같은 방법으로 산출할 수 있다. 즉, 지도 학습 방법을 위하여 선택된 자질들 중 "아름이"는 정답인 답안 3개에 모두 포함되어 있으므로 "아름이"를 포함하는 답안이 정답 클러스터에 포함될 확률은 1로 산출할 수 있고, 오답인 답안 2개에 모두 포함되어 있지 않으므로 "아름이"를 포함하는 답안이 오답 클러스터에 포함될 확률은 0으로 산출할 수 있다. 또한, 지도 학습 방법을 위하여 선택된 자질들 중 "생포"는 정답인 답안 3개중 2개에 포함되어 있으므로 "생포"를 포함하는 답안이 정답 클러스터에 포함될 확률은 0.67로 산출할 수 있고, 오답인 답안 2개중 1개에 포함되어 있으므로 "생포"를 포함하는 답안이 오답 클러스터에 포함될 확률은 0.5로 산출할 수 있다. 또한, 지도 학습 방법을 위하여 선택된 자질들 중 "동물"은 정답인 답안 3개 모두에 포함되어 있지 않으므로 "동물"을 포함하는 답안이 정답 클러스터에 포함될 확률은 0으로 산출할 수 있고, 오답인 답안 2개 모두에 포함되어 있으므로 "동물"을 포함하는 답안이 오답 클러스터에 포함될 확률은 1로 산출할 수 있다. 일 실시예로서, 답안 분류부(214-3)는 나이브 베이즈 분류(Naive Bayes Classification), 은닉 마르코프 모델(Hidden Markov Model), 신경망(Neural Network), 로지스틱 회귀분석(Logistic Regression), k-NN(k-nearest neighbor algorithm), 지지 벡터 머신(Support Vector Machine) 등의 방법을 이용하여 분류 기준을 형성할 수 있으나, 이러한 방법에 한정되지 않는다.
또한, 답안 분류부(214-3)는 제1 소정 개수의 답안이 각각의 클러스터에 포함될 확률과, 제1 소정 개수의 답안에서 추출된 자질들의 제1 소정 개수의 답안 내에서의 출현 확률을 이용하여 제2 소정 개수의 답안 각각을 정답과 오답 중 어느 하나의 클러스터로 분류할 수 있다. 표 7에서 예시한 바와 같이, 제2 소정 개수의 답안 중 어느 하나가 "아름이를 생포하는데 성공하였다"일 경우 추출된 형태소 자질은 "아름이", "생포", "성공"이고, 지도 학습 방법을 위하여 선택된 자질 중 "아름이" 및 "생포"만을 포함하고 있으므로 "아름이를 생포하는데 성공하였다"가 정답일 확률은 0.6 ×1.0 ×0.67 = 0.402이고, 오답일 확률은 0.4 × 0.0 × 0.5 = 0으로 산출할 수 있다. 따라서, 답안 분류부(214-3)는 정답일 확률이 오답일 확률보다 높으므로 "아름이를 생포하는데 성공하였다"를 정답 클러스터로 분류할 수 있다.
[표 9]
준지도 학습 방법은 상기한 지도 학습 방법과 비지도 학습 방법을 복합적으로 사용하여 채점 대상 답안을 어느 하나의 클러스터로 분류하기 위한 분류 기준을 형성할 수 있다. 즉, 준지도 학습 방법에서는 학습용 답안 생성부(214-1)에서 선택된 제1 소정 개수의 답안에 대한 채점자의 채점 결과를 입력 받고, 제1 소정 개수의 답안이 포함하는 자질들을 추출하여 분류 기준을 형성하며, 형성된 분류 기준을 이용하여 제2 소정 개수의 답안을 어느 하나의 클러스터로 분류한 후 각각의 클러스터에 포함될 확률이 소정값(예를 들어, 90%) 이상인 답안을 제1 소정 개수의 답안에 포함시켜서 다시 분류 기준을 형성할 수 있다.
표 10은 본 발명의 일 실시예에 따른 준지도 학습 방법을 이용한 분류 기준 형성 방법을 나타낸다. 답안 분류부(214-3)는 지도 학습 방법을 이용하여 1차 분류 기준을 형성할 수 있다. 즉, 제1 소정 개수의 답안이 "아름이를 생포하였다", "아름이를 잡았다", "동물을 생포하는 사람이다", "동물들을 보살핀다"의 4개이고, 제1 소정 개수의 답안을 [정답]과 [오답]의 중 어느 하나의 클러스터로 분류하며, 채점자의 클러스터링 결과가 "[정답] 아름이를 생포하였다", "[정답] 아름이를 잡았다", "[오답] 동물을 생포하는 사람이다", "[오답] 동물들을 보살핀다"일 경우 제1 소정 개수의 답안으로부터 형태소 자질을 추출하면 "아름이", "동물", "생포", "사람", "잡다", "보살피다"와 같다. 추출된 자질들 중 "생포", "아름이", "동물"을 준지도 학습 방법을 위한 1차 분류 기준으로 선택할 수 있다. 1차 분류 기준을 이용하여 미분류된 제2 소정 개수의 대상 답안들의 정답 또는 오답일 추정 확률을 산출하면 "반달가슴곰 아름이를 생포하였다"는 정답 클러스터로 분류될 추정 확률이 94%이고, "아름이를 겨우 생포하였다"는 정답 클러스터로 분류될 추정 확률이 95%이며, "아름이란 곰을 생포하였다"는 정답 클러스터로 분류될 추정 확률이 92%이고, "동물들을 돌봐주는 사람이다"는 정답 클러스터로 분류될 추정 확률이 92%이며, "동물들을 돌봐주는 사람"은 오답 클러스터로 분류될 추정 확률이 91%이고, "동물을 치료해주는 사람이다"는 오답 클러스터로 분류될 추정 확률이 93%이며, "동물을 발견하는 사람"은 오답 클러스터로 분류될 추정 확률이 91%이고, "반달가슴곰을 다시 잡았다"는 정답 클러스터로 분류될 추정 확률이 75%이며, "동물을 돌봐주는 것"은 오답 클러스터로 분류될 추정 확률이 82%이고, "열흘간 곰을 추적해 발견함"은 오답 클러스터로 분류될 추정 확률이 59%이다. 이중 정답 또는 오답 추정 확률이 90% 이상인 "반달가슴곰 아름이를 생포하였다", "아름이를 겨우 생포하였다", "아름이란 곰을 생포했다", "동물들을 돌봐주는 사람", "동물을 치료해주는 사람이다", "동물을 발견하는 사람"을 제1 소정 개수의 답안에 추가할 수 있다. 답안 분류부(214-3)는 확장된 제1 소정 개수의 답안으로부터 2차 분류 기준을 형성할 수 있고, 2차 분류 기준을 적용하여 미분류된 채점 대상 답안의 정답 또는 오답 추정 확률을 산출하여 어느 하나의 클러스터로 재분류 할 수 있다. 답안 분류부(214-3)는 분류 기준 형성 및 미분류된 채점 대상 답안의 재분류 과정을 제1 소정 개수의 답안의 개수가 특정값으로 수렴될 때까지 반복함으로써, 확장된 제1 소정 개수의 답안에 기초하여 보다 정확한 분류 기준을 형성할 수 있다. 예를 들어, "반달가슴곰을 다시 잡았다"는 1차 분류 기준의 자질 중 "잡다"만을 포함하기 때문에 정답 클러스터로 분류할 정답 추정 확률이 75%지만, "반달가슴곰 아름이를 생포하였다", "아름이를 겨우 생포하였다", "아름이란 곰을 생포했다"가 제1 소정 개수의 답안에 추가된 2차 분류 기준의 자질 중 "잡다"와 "반달가슴곰"을 정답 추정 확률 산출에 활용할 수 있다. 따라서, "반달가슴곰을 다시 잡았다"를 정답으로 추정할 확률이 93%로 높아지고, 3차 분류 기준 형성 시에는 "반달가슴곰을 다시 잡았다"를 제1 소정 개수의 답안에 추가할 수 있다.
[표 10]
앙상블 학습 방법은 상기한 비지도 학습 방법, 지도 학습 방법, 준지도 학습 방법을 복합적으로 사용하여 채점 대상 답안을 어느 하나의 클러스터로 클러스터링하는 방법을 나타낼 수 있다. 앙상블 학습 방법은 여러 기계학습 방법의 결과를 혼합하여 사용하므로 어느 하나의 특정 기계학습 방법을 이용하는 경우 보다 신뢰성이 높은 분류 결과를 얻을 수 있다.
채점부(214-4)는 각각의 클러스터로 분류된 제2 소정 개수의 답안을 분류 등급에 따라서 점수를 부여할 수 있다. 일 실시예로서, 채점부(214-4)는 제2 소정 개수의 답안을 서로 다른 2개의 클러스터로 분류하였을 경우 각각의 클러스터에 대하여 정답과 오답으로 점수를 부여할 수도 있고, 제2 소정 개수의 답안을 서로 다른 4개의 클러스터로 분류하였을 경우 각각의 클러스터에 대하여 3점, 2점, 1점, 0점으로 점수를 부여할 수도 있다.
저장부(220)는 다수의 채점 대상 답안, 처리부(210)에서 형성한 분류 기준, 자질 벡터, 제1 및 제2 소정 개수의 답안 각각으로부터 추출된 자질 및 분류 등급에 따라서 부여된 점수에 대한 정보를 저장할 수 있다. 또한, 저장부(220)는 언어 처리부(212)의 자연 언어 처리 수행을 위한 말뭉치(품사 부착 말뭉치, 구묶음 말뭉치 등을 포함함), 시소러스, 부정표현 인식부(212-4)의 부정표현 인식을 위한 부정부사, 부정 보조용언구, 부정 구묶음, 부정용언, 이중부정 표현 등과 같은 부정표현을 저장할 수 있다. 일 실시예로서, 저장부(220)는 ROM(Read Only Memory), RAM(Random Access Memory), CD(Compact Disc)-ROM, 자기 테이프(Magnetic Tape), 플로피 디스크(Floppy Disc), 광데이터(Optical Data) 저장장치 또는 캐리어 웨이브(Carrier Wave)(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것 등을 포함할 수 있으나, 이러한 구현에 한정되는 것은 아니다.
통신부(230)는 다수의 학생 단말(120-1,...,120-n) 및 다수의 채점자 단말(130-1,...,130-n)과 채점 대상 답안의 채점을 위한 각종 신호를 송수신할 수 있다.
상기 방법은 특정 실시예들을 통하여 설명되었지만, 상기 방법은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의해 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광데이터 저장장치 등이 있으며, 또한 케리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한, 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고, 상기 실시예들을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있다.
본 명세서에서는 본 발명이 일부 실시예들과 관련하여 설명되었지만, 본 발명이 속하는 기술분야의 당업자가 이해할 수 있는 본 발명의 정신 및 범위를 벗어나지 않는 범위에서 다양한 변형 및 변경이 이루어질 수 있다는 점을 알아야 할 것이다. 또한, 그러한 변형 및 변경은 본 명세서에 첨부된 특허청구의 범위 내에 속하는 것으로 생각되어야 한다.
100: 답안 채점 환경 110: 서버
120-1,…,120-n: 학생 단말 130-1,…,130-n: 채점자 단말
N: 네트워크 200: 답안 채점 장치
210: 처리부 220: 저장부
230: 통신부 240: 시스템 버스
212: 언어 처리부 214: 분류 채점부
212-1: 문서 정규화부 212-2: 형태소 분석부
212-3: 품사 부착부 212-4: 부정표현 인식부
212-5: 구묶음부 212-6: 바꿔쓰기부
212-7: 의존관계 분석부 214-1: 학습용 답안 생성부
214-2: 자질 추출부 214-3: 답안 분류부
214-4: 채점부
120-1,…,120-n: 학생 단말 130-1,…,130-n: 채점자 단말
N: 네트워크 200: 답안 채점 장치
210: 처리부 220: 저장부
230: 통신부 240: 시스템 버스
212: 언어 처리부 214: 분류 채점부
212-1: 문서 정규화부 212-2: 형태소 분석부
212-3: 품사 부착부 212-4: 부정표현 인식부
212-5: 구묶음부 212-6: 바꿔쓰기부
212-7: 의존관계 분석부 214-1: 학습용 답안 생성부
214-2: 자질 추출부 214-3: 답안 분류부
214-4: 채점부
Claims (12)
- 서답형 답안 채점 방법으로서,
다수의 입력 답안에 대하여 자연 언어 처리를 수행하여 다수의 채점 대상 답안을 형성하는 단계와,
상기 다수의 채점 대상 답안 중 상기 자연 언어 처리의 수행 결과가 소정 임계값 이상의 빈도를 갖는 제1 소정 개수의 답안을 선택하는 단계와,
상기 선택된 제1 소정 개수의 답안 각각에서 상기 자연 언어 처리의 수행 결과를 이용하여 미리 결정된 특징적 요소에 해당하는 자질(feature)을 추출하는 단계와,
추출된 상기 자질을 이용하여 상기 제1 소정 개수의 답안 각각의 자질 벡터를 형성하는 단계와,
미리 결정된 기준 자질 벡터에 해당하는 분류 기준 - 상기 분류 기준은 각 자질을 축으로 하는 자질 공간에서의 위치를 나타내는 좌표값인 기준 자질 벡터를 포함함 - 을 수신하고, 상기 기준 자질 벡터와 형성된 상기 자질 벡터를 비교하여, 벡터 간의 유사도가 미리 결정된 값 이상인 상기 기준 자질 벡터에 해당하는 분류 기준에 대응하는 클러스터(cluster)로 상기 제1 소정 개수의 답안 각각을 분류하는 단계와,
상기 제1 소정 개수의 답안을 채점하는 단계와,
상기 분류 기준에 상기 제1 소정 개수의 답안 각각에서 추출된 상기 자질을 반영한 분류 기준을 형성하고, 상기 형성된 분류 기준을 수신하는 단계 - 상기 형성된 분류 기준은 각 자질을 축으로 하는 자질 공간에서의 위치를 나타내는 좌표값인 자질 벡터를 포함함 - 와,
상기 다수의 채점 대상 답안 중 상기 제1 소정 개수의 답안을 제외한 답안을 제2 소정 개수의 답안으로 분류하고, 상기 제2 소정 개수의 답안 각각에 대해 상기 자질을 추출하는 단계와,
상기 제2 소정 개수의 답안 각각의 자질 벡터와 상기 형성된 분류 기준의 자질 벡터를 비교하여 벡터 간의 유사도가 미리 결정된 값 이상인 분류 기준에 대응하는 클러스터(cluster)로 상기 제2 소정 개수의 답안 각각을 분류하는 단계와,
상기 제2 소정 개수의 답안 중 각각의 클러스터에 포함될 확률이 소정값 이상인 답안을 상기 제1 소정 개수의 답안에 추가하여 상기 분류 기준을 다시 형성하는 단계와,
분류된 클러스터 각각에 대하여 분류 등급에 따라서 점수를 부여하는 단계
를 포함하는, 서답형 답안 채점 방법. - 제1항에 있어서,
상기 자연 언어 처리를 수행하는 과정은,
상기 입력 답안에 대한 문장 분리 단계, 띄어쓰기 교정 단계, 철자 교정 단계, 약어 확장 단계, 기호 제거 단계를 포함하는 문서 정규화 과정과, 상기 입력 답안에 대한 형태소를 분석하는 과정과, 형태소 분석 결과의 품사를 부착하는 과정과, 상기 입력 답안의 부정표현을 인식하는 과정과, 품사 부착 결과에 포함된 적어도 두 개 이상의 형태소에 대한 구묶음을 처리하는 과정과, 상기 입력 답안에 포함된 어절 또는 구를 미리 결정된 표준 표현으로 변환하는 바꿔쓰기 과정과, 상기 입력 답안에 포함된 형태소 또는 어절간의 의존구조를 분석하는 의존관계 분석 과정 중 적어도 하나의 과정을 포함하는, 서답형 답안 채점 방법. - 제2항에 있어서,
상기 자질은,
상기 형태소를 분석하는 과정 및 상기 품사를 부착하는 과정을 수행하여 형성한 형태소 자질, 상기 입력 답안이 포함하는 어절에 기초하여 형성한 어절 자질, 상기 구묶음을 처리하는 과정을 수행하여 형성한 기본구 자질, 상기 의존관계 분석 과정을 수행하여 형성한 의존관계 자질, 소정 개수의 인접하는 상기 형태소 자질 또는 상기 어절 자질을 포함하여 형성한 엔그램(n-gram) 자질 중 적어도 하나를 포함하는, 서답형 답안 채점 방법. - 삭제
- 제1항에 있어서,
상기 기준 자질 벡터의 값과 분류된 상기 제1 소정 개수의 답안의 자질 벡터값의 평균값을 산출하는 단계와,
산출된 상기 평균값을 새로운 기준 자질 벡터로 갱신하는 단계를
더 포함하는, 서답형 답안 채점 방법. - 삭제
- 제1항에 있어서,
상기 형성된 분류 기준을 수신하는 단계는,
추출된 상기 제1 소정 개수의 답안이 포함하는 자질이 상기 기준 자질 벡터에 해당하는 분류 기준에 포함될 확률을 산출하는 단계와,
상기 제1 소정 개수의 답안이 포함하는 각각의 자질에 대하여 산출된 상기 확률을 곱하여 상기 제1 소정 개수의 답안을 상기 기준 자질 벡터에 해당하는 분류 기준에 대응하는 클러스터로 분류하는 단계
를 포함하는, 서답형 답안 채점 방법. - 제1항에 있어서,
상기 제1 소정 개수의 답안 각각의 자질 벡터를 형성하는 단계는,
추출된 상기 자질 중 어느 하나의 자질이 특정 채점 대상 답안에서 나타나는 빈도에 대한 가중치와, 추출된 상기 자질 중 어느 하나의 자질이 상기 다수의 채점 대상 답안에서 나타나는 빈도에 대한 가중치 중 적어도 하나를 고려하여 상기 자질 벡터를 형성하는 단계
를 포함하는, 서답형 답안 채점 방법. - 제8항에 있어서,
추출된 상기 자질 중 어느 하나의 자질이 특정 채점 대상 답안에서 나타나는 빈도에 대한 가중치는, 상기 자질들 중 어느 하나의 자질이 상기 특정 채점 대상 답안에 나타난 횟수로 산출하고,
추출된 상기 자질 중 어느 하나의 자질이 상기 다수의 채점 대상 답안에서 나타나는 빈도에 대한 가중치는, 상기 채점 대상 답안의 총 개수를 상기 어느 하나의 자질을 포함하는 채점 대상 답안의 개수로 나누어 로그를 취함으로써 산출하는, 서답형 답안 채점 방법. - 제1항에 있어서,
상기 제2 소정 개수의 답안 각각을 분류하는 단계는,
상기 제2 소정 개수의 답안 각각의 자질 벡터와 상기 분류 기준의 자질 벡터를 비교하여 벡터 간의 유사도가 가장 높은 분류 기준에 대응하는 클러스터로 분류하거나, 상기 가장 높은 유사도의 분류 기준이 적어도 두 개 이상 존재할 경우 최상위 점수를 갖는 분류 기준에 대응하는 클러스터 또는 정답으로 분류하는 단계를 포함하는, 서답형 답안 채점 방법. - 컴퓨터에서 제1항 내지 제3항, 제5항, 제7항 내지 제10항 중 어느 한 항의 서답형 답안 채점 방법을 실행시키도록 기록매체에 저장되는 프로그램.
- 제1항 내지 제3항, 제5항, 제7항 내지 제10항 중 어느 한 항의 서답형 답안 채점 방법을 컴퓨터에서 실행시키기 위한 프로그램이 저장된, 기록매체.
Applications Claiming Priority (12)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020150141473 | 2015-10-08 | ||
KR20150141475 | 2015-10-08 | ||
KR20150141476 | 2015-10-08 | ||
KR20150141474 | 2015-10-08 | ||
KR20150141477 | 2015-10-08 | ||
KR1020150141476 | 2015-10-08 | ||
KR1020150141474 | 2015-10-08 | ||
KR1020150141475 | 2015-10-08 | ||
KR1020150141477 | 2015-10-08 | ||
KR20150141473 | 2015-10-08 | ||
KR1020150182840 | 2015-12-21 | ||
KR20150182840 | 2015-12-21 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR101680007B1 true KR101680007B1 (ko) | 2016-11-28 |
Family
ID=57706876
Family Applications (4)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020160036103A KR101680007B1 (ko) | 2015-10-08 | 2016-03-25 | 서답형 답안 채점 방법, 그를 위한 컴퓨터 프로그램과 기록매체 |
KR1020160046438A KR101691327B1 (ko) | 2015-10-08 | 2016-04-15 | 답안 채점을 위한 자연 언어 처리 방법, 그를 위한 컴퓨터 프로그램과 기록매체 |
KR1020160058372A KR101713483B1 (ko) | 2015-10-08 | 2016-05-12 | 서답형 답안 채점 방법, 그를 위한 컴퓨터 프로그램과 기록매체 |
KR1020160068061A KR101713487B1 (ko) | 2015-10-08 | 2016-06-01 | 앙상블 기계학습 방법을 이용한 서답형 답안 채점 방법 및 그를 위한 컴퓨터 프로그램 |
Family Applications After (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020160046438A KR101691327B1 (ko) | 2015-10-08 | 2016-04-15 | 답안 채점을 위한 자연 언어 처리 방법, 그를 위한 컴퓨터 프로그램과 기록매체 |
KR1020160058372A KR101713483B1 (ko) | 2015-10-08 | 2016-05-12 | 서답형 답안 채점 방법, 그를 위한 컴퓨터 프로그램과 기록매체 |
KR1020160068061A KR101713487B1 (ko) | 2015-10-08 | 2016-06-01 | 앙상블 기계학습 방법을 이용한 서답형 답안 채점 방법 및 그를 위한 컴퓨터 프로그램 |
Country Status (1)
Country | Link |
---|---|
KR (4) | KR101680007B1 (ko) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109272789A (zh) * | 2018-10-31 | 2019-01-25 | 安徽网网络科技有限公司 | 基于数据分析的学习效果评估系统及评估方法 |
CN111160444A (zh) * | 2019-12-25 | 2020-05-15 | 湖北美和易思教育科技有限公司 | 一种基于贝叶斯原理的试卷难易程度分析方法及系统 |
CN111858844A (zh) * | 2019-04-18 | 2020-10-30 | 美佳私人有限公司 | 确定主题文本段落相对于参考文本段落匹配准确度的系统及其方法 |
CN112740132A (zh) * | 2018-08-10 | 2021-04-30 | 主动学习有限公司 | 简答题评分预测 |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101895959B1 (ko) * | 2017-05-19 | 2018-09-06 | (주)뤼이드 | 기계학습 프레임워크의 분석 결과를 해석하는 방법, 장치 및 컴퓨터 프로그램 |
KR102149217B1 (ko) * | 2017-11-20 | 2020-08-28 | 주식회사 이르테크 | 색상 정보를 이용한 작문 평가방법 |
KR102254300B1 (ko) * | 2019-04-19 | 2021-05-21 | 한국과학기술원 | 토론 상황 시 발화된 주장에 대한 근거 문장 제공 엔진 |
CN110413961B (zh) * | 2019-06-21 | 2021-02-09 | 平安国际智慧城市科技股份有限公司 | 基于分类模型进行文本评分的方法、装置和计算机设备 |
KR102575752B1 (ko) | 2021-01-12 | 2023-09-06 | 주식회사 에임메드 | 앙상블 분류모델을 이용한 검진데이터 분류장치 및 분류방법 |
KR102344144B1 (ko) * | 2021-07-12 | 2021-12-29 | 주식회사 천재교과서 | 손글씨 인식을 통한 유아 학습 시스템 |
KR102344145B1 (ko) * | 2021-07-12 | 2021-12-29 | 주식회사 천재교과서 | 손글씨 인식을 통한 유아 학습 방법 및 이를 기록한 기록매체 |
KR102685537B1 (ko) * | 2021-12-02 | 2024-07-17 | (주)나라지식정보 | 난청환자 재활용 온라인 교육 콘텐츠 제공 방법 및 그 시스템 |
KR20230120504A (ko) * | 2022-02-09 | 2023-08-17 | 주식회사 컬리지니에이아이 | 사용자 작성 에세이로부터 스코어링을 수행하는 전자 장치 및 이의 동작 방법 |
KR102524911B1 (ko) * | 2022-05-26 | 2023-04-24 | 주식회사 대교 | 디지털 교재를 이용한 학습 서비스 제공 방법 및 장치 |
KR102650574B1 (ko) * | 2024-01-09 | 2024-03-21 | 김연주 | 트랜드 및 이슈 데이터 수집 및 분석을 기반으로 한 기업 관련 언론 보도 및 홍보 자료 기획 및 생성 방법, 장치 및 시스템 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100420096B1 (ko) * | 2001-03-09 | 2004-02-25 | 주식회사 다이퀘스트 | 각 범주의 핵심어와 문장간 유사도 측정 기법을 이용한비지도 학습을 기반으로 하는 자동 문서 범주화 방법 |
KR100897992B1 (ko) | 2002-09-28 | 2009-05-18 | 주식회사 케이티 | 자연언어처리 기술을 이용한 텍스트-이미지 변환 시스템및 그 방법 |
KR101259558B1 (ko) * | 2009-10-08 | 2013-05-07 | 한국전자통신연구원 | 문장경계 인식 장치 및 방법 |
KR20130041414A (ko) * | 2011-10-17 | 2013-04-25 | 두산동아 주식회사 | 서술형 문항 자동 채점 방법 |
JP5834795B2 (ja) * | 2011-11-14 | 2015-12-24 | 富士ゼロックス株式会社 | 情報処理装置及びプログラム |
KR101275146B1 (ko) | 2012-06-18 | 2013-06-17 | 주식회사 탑스에듀 | 서술형 답안 평가를 위한 자동 채점 및 첨삭문 생성 방법 |
KR20140052266A (ko) * | 2012-10-24 | 2014-05-07 | 에스케이텔레콤 주식회사 | 언어 영역의 자동평가장치, 이를 위한 방법 및 이 방법이 기록된 컴퓨터로 판독 가능한 기록 매체 |
KR102004831B1 (ko) * | 2012-10-25 | 2019-07-29 | 에스케이텔레콤 주식회사 | 문장 유사도를 이용한 문장 평가 방법, 이를 위한 장치 및 이 방법이 기록된 컴퓨터로 판독 가능한 기록 매체 |
-
2016
- 2016-03-25 KR KR1020160036103A patent/KR101680007B1/ko active IP Right Grant
- 2016-04-15 KR KR1020160046438A patent/KR101691327B1/ko active IP Right Grant
- 2016-05-12 KR KR1020160058372A patent/KR101713483B1/ko active IP Right Grant
- 2016-06-01 KR KR1020160068061A patent/KR101713487B1/ko active IP Right Grant
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112740132A (zh) * | 2018-08-10 | 2021-04-30 | 主动学习有限公司 | 简答题评分预测 |
CN109272789A (zh) * | 2018-10-31 | 2019-01-25 | 安徽网网络科技有限公司 | 基于数据分析的学习效果评估系统及评估方法 |
CN111858844A (zh) * | 2019-04-18 | 2020-10-30 | 美佳私人有限公司 | 确定主题文本段落相对于参考文本段落匹配准确度的系统及其方法 |
CN111858844B (zh) * | 2019-04-18 | 2023-10-31 | 美佳私人有限公司 | 确定主题文本段落相对于参考文本段落匹配准确度的系统及其方法 |
CN111160444A (zh) * | 2019-12-25 | 2020-05-15 | 湖北美和易思教育科技有限公司 | 一种基于贝叶斯原理的试卷难易程度分析方法及系统 |
CN111160444B (zh) * | 2019-12-25 | 2023-09-08 | 武汉美和易思数字科技有限公司 | 一种基于贝叶斯原理的试卷难易程度分析方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
KR101713483B1 (ko) | 2017-03-07 |
KR101691327B1 (ko) | 2016-12-29 |
KR101713487B1 (ko) | 2017-03-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101680007B1 (ko) | 서답형 답안 채점 방법, 그를 위한 컴퓨터 프로그램과 기록매체 | |
Paetzold et al. | Semeval 2016 task 11: Complex word identification | |
Kondrak | Algorithms for language reconstruction | |
Lipping et al. | Crowdsourcing a dataset of audio captions | |
Valakunde et al. | Multi-aspect and multi-class based document sentiment analysis of educational data catering accreditation process | |
Al-Kabi et al. | Evaluating social context in arabic opinion mining. | |
Youssef et al. | MoArLex: an Arabic sentiment lexicon built through automatic lexicon expansion | |
Fatyanosa et al. | Classification method comparison on Indonesian social media sentiment analysis | |
CN115034218A (zh) | 一种基于多阶段训练和编辑级别投票的中文语法错误诊断方法 | |
Imperial et al. | Developing a machine learning-based grade level classifier for Filipino children’s literature | |
Simske et al. | Functional Applications of Text Analytics Systems | |
Lim et al. | Neural automated writing evaluation for Korean L2 writing | |
Hao et al. | SCESS: a WFSA-based automated simplified chinese essay scoring system with incremental latent semantic analysis | |
CN116842168B (zh) | 跨领域问题处理方法、装置、电子设备及存储介质 | |
CN111767743B (zh) | 翻译试题的机器智能评阅方法及系统 | |
Persing et al. | Lightly-supervised modeling of argument persuasiveness | |
Stadsnes | Evaluating semantic vectors for norwegian | |
Atwell | Using the Web to Model Modern and Qurʾanic Arabic | |
Chiu et al. | Chinese spell checking based on noisy channel model | |
Venugopal et al. | CWID-hi: A dataset for complex word identification in Hindi text | |
US20160246775A1 (en) | Learning apparatus and learning method | |
Agarwal et al. | Gradient Boosted Trees for Identification of Complex Words in Context. | |
WANGLEM et al. | Pattern-sensitive loanword estimation for thai text clustering | |
Law et al. | A case study of the effect of age-of-acquisition on reading aloud in Chinese dyslexia | |
Sjons | Automatic induction of word classes in Swedish Sign Language |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20191031 Year of fee payment: 4 |