KR100931515B1 - 자동 에세이 주석 시스템 및 방법 - Google Patents

자동 에세이 주석 시스템 및 방법 Download PDF

Info

Publication number
KR100931515B1
KR100931515B1 KR1020047021196A KR20047021196A KR100931515B1 KR 100931515 B1 KR100931515 B1 KR 100931515B1 KR 1020047021196 A KR1020047021196 A KR 1020047021196A KR 20047021196 A KR20047021196 A KR 20047021196A KR 100931515 B1 KR100931515 B1 KR 100931515B1
Authority
KR
South Korea
Prior art keywords
essay
sentence
feature
discourse
rhetorical
Prior art date
Application number
KR1020047021196A
Other languages
English (en)
Other versions
KR20050035523A (ko
Inventor
버스타인질
마르쿠다니엘
Original Assignee
에듀케이쇼날 테스팅 서어비스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에듀케이쇼날 테스팅 서어비스 filed Critical 에듀케이쇼날 테스팅 서어비스
Publication of KR20050035523A publication Critical patent/KR20050035523A/ko
Application granted granted Critical
Publication of KR100931515B1 publication Critical patent/KR100931515B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B7/00Electrically-operated teaching apparatus or devices working with questions and answers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B11/00Teaching hand-writing, shorthand, drawing, or painting
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B7/00Electrically-operated teaching apparatus or devices working with questions and answers
    • G09B7/02Electrically-operated teaching apparatus or devices working with questions and answers of the type wherein the student is expected to construct an answer to the question which is presented or wherein the machine gives an answer to the question presented by a student

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

자동 담화 분석 애플리케이션(ADDA:Automatic Discourse Analysis Application)(180)은 에세이에 자동으로 주석을 다는데 사용된다. ADDA(180)은 사용자 인터페이스(300)를 포함하며, 이 인터페이스는 에세이들을 수신하여 이 에세이를 특징 추출기(feature extractor)(302)로 전송하고 담화 분석 모델기(318)로부터 주석된 에세이를 수신한다. 특징 추출기(302)는 위치 식별자(304), 낱말 아이템 식별자(306), 구두 식별자(314) 및 수사 관계 식별자(316)를 포함한다.
사용자 인터페이스, 특징 추출기, 담화 분석 모델기, 위치 식별자, 낱말 아이템 식별자, 구두 식별자, 수사 관계 식별자

Description

자동 에세이 주석 시스템 및 방법{Automated essay annotation system and method}
본 출원은 본원에 참조된 2002년 1월 23일에 출원된 일련 번호 10/052,380호의 부분 연속 출원이다.
실제 작문 연습은 일반적으로 작문 기술을 발전시키는 효율적인 방법으로서 간주되었다. 이 점에서, 작문 수업에 속하는 문헌은 에세이 작문의 실습을 통해서 에세이 작문시에 주제의 착상, 각색 및 교정이 개선된다라고 제안한다. 게다가, 학생들의 에세이 작문시 강하고 약한 분야들을 구체적으로 지적하는 평가 및 피드백은 특히 에세이 구성과 관련하여 학생들의 작문 능력을 향상시키는데 용이할 수 있다.
통상적인 작문 학습시간들에서, 학생들에게 "교정 점검표(revision checklist)"가 제공될 수 있다. 이 교정 점검표는, 학생들이 자신의 작품을 비판적으로 검토하여 개선이 필요한 분야들을 식별하도록 하는 과정(즉, 교정 과정)을 향상시키고자 하는 것이다. 통상적으로, 이 점검표는 학생에게 부여된 질문들의 목록이다. 이들 질문들은 학생들이 자신의 작문 자질을 되새겨보도록 하는데 도움을 주고자 하는 것이다. 예를 들어, 점검표는 다음과 같은 질문들: a) 주제의 의도가 명백한가?; b) 주제가 에세이 질문에 직접 응답하는가?; c) 에세이의 주 요점들들이 명백하게 진술되었는가?;및 d) 결론이 주제와 관련되는가?;를 내포할 수 있다. 이들 질문들이 이와 같은 일반적인 용어들로 표현되면, 이들 질문들은 거의 도움이 되지 않을 수 있다.
대신, 학생들의 에세이 내에서 "담화 요소들(discourse elements)"을 식별하여 학생에게 제공하는 것이 가장 유용할 수 있다. 특정한 담화 요소들의 예들은, 제목, 배경, 주제, 주 요점들, 서포트(support), 결론 등을 포함한다. 식별된 담화 요소들이 학생에게 제공될 때, 이 학생은, 예를 들어, 결론이 개념적으로 주제를 충족하는지를 훨씬 손쉽게 결정할 수 있다. 그러나, 교사는 각 학생의 에세이에 주석을 달고(예를 들어, 에세이의 담화 요소들을 식별하여 평점을 매기고) 특히 약하고 부족한 부분을 지적할 충분한 시간을 갖지 못할 수 있다. 게다가, 모든 교사들이 동일한 수준의 주석을 다는 기술을 갖고 있지 않기 때문에, 일부 학생들은 불충분하거나 부적절한 주석을 받을 수 있다. 그러므로, 자동 담화 분석 애플리케이션(automated discourse analysis application)이 착상들의 구성에 대한 작문 기술을 향상시키길 원하는 사람들에게 매우 유용할 수 있다.
일 실시예를 따르면, 본 발명은 에세이에 자동으로 주석을 다는 방법에 관한 것이다. 이 방법에서, 에세이의 문장이 식별되고 이 문장과 관련된 특징이 결정된다. 게다가, 담화 요소가 되는 문장의 확률은 특징을 모델로 매핑함으로써 결정된다. 이 모델은 적어도 하나의 주석된 에세이를 기초로 한 기계 학습 애플리케이션(machine learning application)에 의해 생성된다. 게다가, 에세이는 이 확률을 기초로 주석된다.
본 발명의 실시예들은 유사한 소자들에 유사한 참조 번호들이 병기된 첨부 도면에서 예로서 도시되었지만, 이에 국한되는 것은 아니다.
도1은 본 발명의 일 실시예를 구현할 수 있는 컴퓨터 네트워크의 블록도.
도2는 본 발명의 일 실시예를 구현할 수 있는 컴퓨터 시스템의 블록도.
도3은 자동 담화 분석 애플리케이션의 일 실시예를 위한 구조의 블록도.
도4는 본 발명의 일 실시예를 따른 담화 분석 방법의 순서도.
도5는 본 발명의 일 실시예를 따른 수사 구조를 도시한 도면.
도6은 자동 담화 분석 모델 구축 애플리케이션의 일 실시예를 위한 구조의 블록도.
도7은 본 발명의 일 실시예를 따른 담화 분석 모델을 구축하는 방법의 순서도.
도8은 본 발명의 일 실시예를 따른 주석된 데이터를 생성하는 방법을 도시한 순서도.
간결하게 예시하기 위하여, 본 발명의 원리는 본 발명의 실시예와 관련하여 주로 설명된다. 이하의 설명에서, 본 발명의 철저한 이해를 제공하기 위하여 수많은 특정 상세사항들이 설명된다. 그러나, 본 발명이 이들 특정 상세사항들로 제한됨이 없이 실시될 수 있다는 것이 당업자에게 명백할 것이다. 다른 경우들에서, 본 발명을 불필요하게 모호하게 하지 않도록 하기 위하여 널리 공지된 방법들 및 구조들은 상세히 설명하지 않았다.
도1은 본 발명을 구현할 수 있는 컴퓨터 네트워크(100)의 블록도이다. 도1에 도시된 바와 같이, 컴퓨터 네트워크(100)는 예를 들어, 서버(110), 워크스테이션(120 및 130), 스캐너(140), 프린터(150), 데이터베이스(160), 및 네트워크(170)를 포함한다. 컴퓨터 네트워크(170)는 자신의 각 장치를 위한 통신 경로를 제공하여 다른 장치들과 통신하도록 구성된다. 게다가, 컴퓨터 네트워크(170)는 인터넷, 공중 교환 전화망, 근거리 통신망, 사설 원거리 통신망, 무선망 등일 수 있다.
본 발명의 각종 실시예들에서, 자동 담화 분석 애플리케이션("ADDA")(180)은 서버(110) 및/또는 워크스테이션들(120 및 130) 중 어느 한 워크스테이션상에서 실행될 수 있다. 예를 들어, 본 발명의 일 실시예에서, 서버(110)는 ADAA(180)을 실행하며, 디스플레이를 위한 출력을 워크스테이션들(120 및/또는 130)에 제공하고, 이 워크스테이션들(120 및/또는 130)로부터 입력을 수신하도록 구성된다. 각종 다른 실시예들에서, 워크스테이션들(120 및 130) 중 하나 또는 둘 다는 개별적으로 또는 협동하여 ADAA(180)를 실행하도록 구성될 수 있다.
스캐너(140)는 문맥 내용을 주사하여 컴퓨터 판독가능한 포맷으로 이 내용을 출력하도록 구성될 수 있다. 게다가, 프린터(150)는 종이와 같은 인쇄 매체로 이 내용을 출력하도록 구성될 수 있다. 게다가, 적어도 하나의 에세이; 문맥 내용; 주석된 에세이 등과 관련된 데이터는 데이터베이스(160)상에 저장될 수 있다. 이 데이터베이스(160)는 부가적으로, 저장된 데이터 일부 또는 전부를 수신 및/또는 전송하도록 구성될 수 있다. 게다가, 또한 다른 실시예에서, 컴퓨터 네트워크(100)의 일부 또는 전부는 하나의 장치 내에 포함될 수 있다.
도1이 컴퓨터 네트워크를 도시하지만, 본 발명이 컴퓨터 네트워크 내에서 동작하도록 제한되는 것이 아니라, 오히려 본 발명이 임의의 적절한 전자 장치로 실행될 수 있다는 것을 이해하여야 한다. 따라서, 도1에 도시된 컴퓨터 네트워크는 단지 예시를 위한 것이지, 본 발명을 어떤 면으로 제한하고자 하는 것은 아니다.
도2는 본 발명을 구현할 수 있는 컴퓨터 시스템(200)의 블록도이다. 도2에 도시된 바와 같이, 컴퓨터 시스템(200)은 프로세서(202), 주 메모리(204), 보조 메모리(206), 마우스(208), 키보드(210), 디스플레이 어댑터(212), 디스플레이(214), 네트워크 어댑터(216) 및 버스(218)를 포함한다. 이 버스(218)는 컴퓨터 시스템(200)의 각 소자를 위한 통신 경로를 제공하여 다른 소자들과 통신하도록 구성된다.
프로세서(202)는 ADAA(180)의 소프트웨어 실시예를 실행하도록 구성된다. 이 점에서, ADAA(180)를 위한 컴퓨터 실행가능한 코드의 사본은 프로세서(202)에 의해 실행되도록 보조 메모리(206)로부터 주 메모리(204)에 로딩될 수 있다. 컴퓨터 실행가능한 코드 이외에, 주 메모리(204) 및/또는 보조 메모리는 에세이들, 문맥 내용, 주석된 에세이들, 데이터 표들 등을 포함하는 데이터를 포함할 수 있다.
동작에 있어서, ADAA(180)의 일 실시예를 위한 컴퓨터 실행가능한 코드에 기초하여, 프로세서(202)는 디스플레이 데이터를 생성시킬 수 있다. 이 디스플레이 데이터는 디스플레이 어댑터(212)에 의해 수신되어 디스플레이(214)를 제어하도록 구성된 디스플레이 명령들로 변환될 수 있다. 게다가, 널리 공지된 방식으로, 마우스(208) 및 키보드(210)는 사용자에 의해 사용되어 컴퓨터 시스템(200)과 인터페이스할 수 있다.
네트워크 어댑터(216)는 네트워크(170) 및 컴퓨터 시스템(200) 간의 양방향 통신을 제공하도록 구성된다. 이 점에서, ADAA(180) 및/또는 이 ADAA(180)와 관련된 데이터는 컴퓨터 네트워크(100)상에 저장되고 컴퓨터 시스템(200)에 의해 액세스될 수 있다.
도3은 ADAA(180)의 일 실시예를 위한 구조의 블록도이다. 도3에 도시된 바와 같이, ADAA(180)는 에세이를 수용 및/또는 주석된 에세이를 사용자에게 출력하도록 구성된 사용자 인터페이스(300)를 포함한다. 예를 들어, 사용자 인터페이스(300)는 키보드(210)로 키잉된 에세이를 수용하여 주석된 에세이를 디스플레이(214)상에 디스플레이할 수 있다. 사용자 인터페이스(300)는 또한, 에세이를 특징 추출기(feature extractor)(302)로 전송하여 담화 분석 모델기(discourse analysis modeler)(318)로부터 주석된 에세이를 수신하도록 구성된다.
특징 추출기(302)는 위치 식별자(304), 낱말 아이템 식별자(306), 구두 식별자(punctuation identifier)(314) 및 수사 관계 식별자(rhetorical relation identifier)(316)를 포함하며, 이들 각각은 상호통신하도록 구성된다. 용어 "특징(feature)"은 식별된 문장과 관련된 속성, 특성 및/또는 품질로서 규정될 수 있다. 보다 구체적으로, 특징은 낱말 특징(예를 들어, 단어, 구 등) 및/또는 식별된 문장 내의 구두를 포함할 수 있다. 이와 관련하여, 위치 식별자(304)는 에세이 내에서 문장들 및 절들을 식별하도록 구성되고 각 식별된 문장을 위한 문장 엔트리를 포함하는 "플랫(flat)" 파일을 생성시킨다. 각 식별된 문장에 대해서, 절대 및 상대 위치가 결정되어 플랫 파일 내 상응하는 문장 엔트리(엔트리)에 저장된다. 게다가, 각종 특징들은 엔트리 내에 포함될 수 있고, 이들 특징들은 디폴트(default)에 의해, 거짓의 경우에 "F"로 설정될 수 있다. 이 점에서, 각 엔트리는 예를 들어 콤마들로 분리된 특징들의 문자열(string)을 포함할 수 있다. 이하에 보다 상세하게 설명되는 바와 같이, 특정 특징들이 식별될 때, 이들 오류 세팅들은 참인 경우에 "T"로 수정될 수 있다. 18개의 식별된 문장들, 3개의 식별된 절들 및 대략 40개의 낱말 특징들을 위한 플랫 파일의 예가 이하의 표1에 도시되어 있다.
표 1
Figure 112008044827793-pct00001
표1에 도시된 바와 같이, 플랫 파일의 예는 각 식별된 문장 마다 하나의 엔트리인, 18개의 엔트리들을 포함한다. 각 엔트리는 제1 특징으로 시작하는데, 텍스트 세그먼트(예를 들어, 문장, 구 등)를 나타내기 위한 용어 "TEXT"가 식별된다. 다음 4개의 특징들은 위치 특징들이다. 좌에서 우까지의 이들 위치 특징들 각각은 다음; 문장 위치; (상대 문장 위치를 결정하기 위하여 사용되는) 문장들의 총수; 절 위치; 및 (상대 절 위치를 결정하기 위하여 사용되는) 절들의 총수이다. 제6의 특징은 에세이 내의 문장이 제1 문장, 바디 문장 또는 최종 문장 각각인지를 나타내기 위하여 사용된다. 나머지 특징들은 소정 낱말의 존재(T) 또는 부재(F) 및/또는 구두 특징들을 나타내기 위하여 사용된다. 표1에 제공된 플랫 파일의 예에서, 대략 46개의 특징들이 식별된다. 그러나, 실제로, 임의의 합리적인 특징들의 수가 식별될 수 있다. 예를 들어, 본 발명의 또 다른 실시예에서, 대략 100개의 특징들은 각 식별된 문장을 위하여 식별된다.
위치 식별자(304)는 또한, 에세이 내 및/또는 절 내에서 각각 식별된 문장을 위한 상대 위치를 결정하도록 구성된다. 상대 위치가 결정될 때, 이 값은 플랫 파일 내의 적절한 엔트리에 저장될 수 있다. 예를 들어, 표1에 기술된 18개의 문장 에세이를 위한 플랫 파일에서, 식별된 문장들의 총수가 결정되고 이 값은 각 엔트리 내에 저장된다. 게다가, 절들의 총수 및 이와 관련된 절수는 각 엔트리 내에 저장될 수 있다. 위치 식별자(304)는 또한, 플랫 파일을 낱말 아이템 식별자(306)에 전송하도록 구성된다.
낱말 아이템 식별자(306)는 낱말 특징들을 식별하여 이에 따라서 플랫 파일을 수정하도록 구성된다. 근본적으로, 낱말 아이템 식별자는 미리 규정된 낱말 특징의 존재를 위하여 각 식별된 문장을 분석하도록 구성되고, 발견된 경우, 플랫 파일 내의 상응하는 엔트리를 수정한다. 이들 낱말 특징들은 또한, 담화 요소들 및/또는 수사 구조들과의 이들 낱말 특징들의 관련성으로 인해 "큐들(cues)"(예를 들어, 표시자들, 가이드들, 등)으로서 설명될 수 있다. 일반적으로, 큐들은 단어들, 아이템들, 구들, 구문 구조들(syntactic structures), 등을 포함할 수 있다. 도3에 도시된 바와 같이, 낱말 아이템 식별자(306)는 카테고리-특정 큐 식별자(308), 일반 어휘 식별자(310) 및 주어 식별자(key term identifier)(312)를 포함한다.
카테고리-특정 큐 식별자(308)는 특정 담화 요소들과 통상적으로 관련된 큐들을 식별하도록 구성된다. 이 방식에서, 큐는 특정 문장이 특정 담화 요소를 나타내도록 사용될 수 있다. 예를 들어, 구 "결론적으로"는 통상적으로, 결론 진술과 관련된다. 다른 예들은 대체로 주제와 관련되는 "의견" 및 "감정"과 같은 단어들을 포함한다.
본 발명의 일 실시예에서, 카테고리-특정 큐 식별자(308)는 복수의 소정 큐들을 탐색하는 에세이의 각 문장을 통해서 분석될 수 있다. 이 카테고리-특정 큐 식별자(308)는 또한, 큐를 식별에 응답하여 플랫 파일 내에서 적절한 엔트리를 수정하도록 구성된다. 게다가, 카테고리-특정 큐 식별자(308)는 플랫 파일을 일반 어휘 식별자(310)에 전송하도록 구성된다.
일반 어휘 식별자(310)는 담화 구조들과 관련될 수 있는 특징들을 식별하도록 구성된다. 담화 구조는 생각 또는 진술과 같은 기초 담화 유닛(elementary discourse unit)을 설명하기 위하여 사용되는 말이다. 일반적으로, 담화 구조는 단어, 말 또는 구문 구조를 포함할 수 있다. 특히, 담화 구조는 통상적으로 문장 또는 구로 구성된다.
일반 어휘 식별자(310)에 의해 식별되는 특징들은 특정 담화 마커 단어들 및 말들과 관련되도록 미리결정된다. 예를 들어, 단어들 "일치" 및 "불일치"는 논쟁 (argument)의 식별과 관련될 수 있다. 또 다른 예에서, "이" 및 "이들"과 같은 단어들은 논의된 토픽이 변경되지 않는 다는 것을 나타낼 수 있다. 일반 어휘 식별자(310)는 또한, 소정의 특징 식별에 응답하여 플랫 파일 내에서 적절한 엔트리를 수정하도록 구성된다. 게다가, 일반 어휘 식별자(310)는 플랫 파일을 주어 식별자(312)에 전송하도록 구성된다.
주어 식별자(312)는 각종 담화 관련성들(discourse relationships)과 관련된 소정의 큐들을 위한 각 문장을 분석하도록 구성된다. 예를 들어, 단어들 "제1", "제2", "제3" 및 "최종적으로"는 병렬 담화 관계들과 관련될 수 있다. 또 다른 예에서, "그러나" 및 "대안적으로"와 같은 단어들은 대조(contrasting) 담화 관련성과 관련될 수 있다. 주어 식별자(312)는 또한, 소정 특징 식별에 응답하여 플랫 파일 내에서 적절한 엔트리를 수정하도록 구성된다. 게다가, 주어 식별자(312)는 플랫 파일을 구두 식별자(314)에 전송하도록 구성된다.
구두 식별자(314)는 특정 담화 요소들과 관련되도록 미리결정된 구두를 식별하도록 구성된다. 예를 들어, 문장의 끝에서의 감탄 포인트(exclamation point)는 문장이 논제 또는 결론 진술일 확률이 상대적으로 낮고 문장이 서프트 문장일 확률이 상대적으로 높다는 것을 나타낼 수 있다. 게다가, 구두 식별자(314)는 또한, 소정의 구두 식별에 응답하여 플랫 파일 내에서 적절한 엔트리를 수정하도록 구성된다. 게다가, 구두 식별자(312)는 플랫 파일을 수사 관계 식별자(316)로 전송하도록 구성된다.
수사 관계 식별자(316)는 플랫 파일을 수신하고 에세이 및/또는 플랫 파일을 기초로 수사 구조 트리("RST")(도5 참조)를 생성시키도록 구성된다. 수사 관계는 2개 이상의 수사 구조들을 연결(예를 들어, 관련)하는 방법을 설명하는데 사용되는 말이다. 이 점에서, 텍스트 세그먼트(예를 들어, 구, 문장, 등)는 에세이 내의 다른 텍스트 세그먼트들과의 수사 관계를 가질 수 있다. 일반적인 예에서, 진술은 또 다른 진술과 대조될 수 있으며, 절은 문장상에서 구현(elaborate)될 수 있다. 보다 특정한 예에서, 단어 "그러나"로 시작하는 텍스트 세그먼트는 선행 텍스트 세그먼트와의 대조일 수 있다. 수사 관계의 토픽에 대한 보다 상세한 설명은 본원에 전반적으로 참조된 미국 특허 제6,366,759B1호에서 알 수 있다. 수사 관계 식별자(316)에 의해 식별되는 수사 특징들은 (예를 들어, 플랫 파일 내의 상응하는 엔트리들을 수정하도록 사용되는, 등) 플랫 파일에 저장될 수 있다. 수사 관계 식별자(316)는 또한, 플랫 파일을 담화 분석 모델기(318)에 전송하도록 구성된다.
담화 분석 모델기(318)는 사전 훈련(도7 참조)을 기초로, 특징 추출기(302)로부터 플랫 파일을 수신하여 이 플랫 파일로부터 패턴들을 추출하도록 구성된다. 사전 훈련에서, 모델(320)이 생성된다(도6 참조). 일반적으로, 모델(320)은 전문가들 및/또는 훈련된 판단들(judges)에 의해 주석된 에세이들을 기초로 생성된 적어도 하나의 판정 트리를 포함한다. 플랫 파일 내의 각 엔트리와 관련된 특징들의 존재 또는 부재를 기초로 이 판정을 항해(navigate)함으로써, 각 식별된 문장과 담화 요소의 상관 확률이 결정될 수 있다. 따라서, 각 문장에 대해서, 모델(320)은 담화 분류 카테고리에 속하는 문장의 우도(likelihood)를 결정하도록 사용된다. 이 공정은 "매핑"으로서 당업자에게 설명된다. 예를 들어, 플랫 파일이 모델(320)에 "매핑"될때(예를 들어, 중첩, 비교, 등), 주제인 각 식별된 문장의 확률이 결정된다. 이들 확률들은 비교되고, 상대적으로 보다 높은 확률을 지닌 문장이 주제라고 결정된다. 게다가, 이 방식에서, 담화 분석 모델기(318)는 모델(320)을 사용하여, 특정 담화 요소의 멤버가 되는(또는, 멤버가 되지 않는) 각 식별된 문장를 할당(예를 들어, 분류)한다.
또 다른 실시예에서, 담화 분석 모델기(318)는 담화 요소 카테고리들 내에서 문장들을 분류하도록 보팅 알고리즘(voting algorithm)을 사용하도록 구성된다. 일반적으로, 도3에 도시되지 않았지만, 보팅 알고리즘은 복수의 실질적으로 독립적인 담화 분석 시스템들(예를 들어, 담화 모델들, 모델, 등)로부터의 판정들을 사용할 수 있다. 예를 들어, 모델(320)은 위치 데이터를 기초로 생성된 모델, 낱말 특징들을 기초로 생성된 모델, 및 구두를 기초로 생성된 모델을 포함할 수 있다. 따라서, 플랫 파일은 복수의 확률들을 생성하는 복수의 모델들 각각으로 매핑될 수 있다. 이들 확률들은 모델들 간의 일치 레벨을 기초로 사용되어, 각 문장을 분류할 수 있다.
담화 분석 모델기(318)는 또한, 결정된 확률들을 기초로 에세이에 주석을 달도록 구성된다. 그 후, 이 주석된 에세이는 담화 분석 모델기(318)에 의해 사용자 인터페이스(300)로 전송될 수 있다.
도1을 참조하면, 또 다른 실시예에서, ADAA(180)는 데이터베이스(160)와 같은 데이터베이스와 상호통신하도록 구성될 수 있다. 이 점에서, ADAA(180)는 자동으로 실행하도록 구성될 수 있으며, 및/또는 분석을 위하여 데이터베이스(160)로부 터 데이터를 선택할 능력을 사용자에게 제공할 수 있다.
도4는 본 발명의 실시예를 따른 ADAA(180)를 위한 방법(400)의 순서도이다. 따라서, 이 방법(400)은 컴퓨터 시스템(예를 들어, 컴퓨터 시스템(200))상에서 및/또는 컴퓨터 네트워크(예를 들어, 컴퓨터 네트워크(100))를 통해서 구현될 수 있다. 이 방법(400)은 에세이 수신에 응답하여 초기화 된다.
단계(402)에서, 에세이의 문장은 위치 식별자(304)에 의해 식별된다. 게다가, 각 식별된 문장을 위한 문장 엔트리를 포함하는 플랫 파일은 위치 식별자(304)에 의해 생성될 수 있다. 각 문장 엔트리는 콤마들로 분리되는 특징들의 문자열을 포함할 수 있다. 위치 특징들은 수치값을 할당받을 수 있고, 낱말 특징들은 디폴트에 의해 거짓인 경우 "F"로 설정될 수 있다. 이하에 보다 상세하게 설명되는 바와 같이, 특정 낱말 특징들이 식별될 때, 이들 디폴트 세팅들은 참인 경우에 "T"로 수정될 수 있다.
단계(404-408)에서, 낱말 특징들은 식별되고 플랫 파일 내의 식별된 문장들을 위한 상응하는 엔트리들은 이에 따라서 낱말 아이템 식별자(306)에 의해 수정된다.
단계(404)에서, 특정 담화 요소들과 통상적으로 관련된 큐들은 카테고리-특정 큐 식별자(308)에 의해 식별된다. 게다가, 식별된 큐들을 갖는 문장들에 상응하는 플랫 파일 내의 엔트리들은 수정될 수 있다. 예를 들어, 제2 식별된 문장이 미리 규정된 탐색어 "의견"을 포함하도록 결정되면, 이 용어 "의견"에 상응하는 낱말 특징은 제2 엔트리에서 "F"로부터 "T"로 수정될 수 있다.
단계(406)에서, 담화 구조들과 관련된 특징들은 일반 어휘 식별자(310)에 의해 식별될 수 있다. 게다가, 식별된 특징들을 갖는 문장들에 상응하는 플랫 파일 내의 엔트리들은 수정될 수 있다. 예를 들어, 제3 식별된 문장이 미리규정된 탐색어 "저들"을 포함하도록 결정되면, 이 용어 "저들"에 상응하는 낱말 특징은 제3 엔트리에서 "F"로부터 "T"로 수정될 수 있다.
단계(408)에서, 각종 담화 구조들과 관련된 소정의 큐들은 주어 식별자(312)에 의해 식별될 수 있다. 게다가, 식별된 큐들을 갖는 문장들에 상응하는 플랫 파일 내의 엔트리들은 수정될 수 있다. 예를 들어, 제4 식별된 문장이 미리규정된 탐색어 "그럼에도불구하고"를 포함하도록 결정되면, 이 용어 "그럼에도불구하고"에 상응하는 낱말 특징은 제4 엔트리에서 "F"로부터 "T"로 수정될 수 있다.
단계(410)에서, 소정 구두 표시들이 구두 식별자(314)에 의해 식별될 수 있다. 게다가, 식별된 구두들을 갖는 문장들에 상응하는 플랫 파일 내의 엔트리들은 수정될 수 있다. 예를 들어, 제5 식별된 문장이 미리규정된 구두"?"를 포함하도록 결정되면, 이 구두 "?"에 상응하는 특징은 제5 엔트리에서 "F"로부터 "T"로 수정될 수 있다.
단계(412)에서, RST는 수사 관계 식별자(316)에 의해 플랫 파일을 기초로 생성된다. 게다가, RST를 기초로, 수사 특징들은 식별되고, 플랫 파일 내의 식별된 문장들을 위한 상응하는 엔트리들은 이에 따라서 수사 관계 식별자(316)에 의해 수정된다.
단계(414)에서, 플랫 파일은 모델(320)로 매핑될 수 있다. 일반적으로, 특정 담화 요소가 되는 각 식별된 문장의 우도가 결정된다. 이들 확률들은 비교되고, 특정 담화 요소를 위하여 상대적으로 보다 높은 확률을 지닌 문장은 특정 담화 요소가 되도록 결정된다. 게다가, 유사한 방식으로, 복수의 식별된 문장들을 위한 가능성 있는 담화 요소 카테고리는 담화 분석 모델기(318)에 의해 결정될 수 있다.
이외에 또는 본 발명의 다른 실시예에서, 보팅 알고리즘은 담화 분석 모델기(318)에 의해 담화 요소 카테고리들로 문장들을 분류하도록 사용될 수 있다. 이 점에서, 복수의 실질적으로 독립적인 담화 분석 시스템들로부터의 판정들은 가중(예를 들어, 비교, 등)되어, 각 식별된 문장을 위한 담화 요소 카테고리를 결정한다.
단계(416)에서, 에세이는 담화 분석 모델기(318)에 의해 결정된 확률을 기초로 주석될 수 있다. 그 후, 이 주석된 에세이는 담화 분석 모델기(318)에 의해 사용자 인터페이스(300)로 전송될 수 있다.
단계(418)에서, 주석된 에세이는 사용자 인터페이스(300)에 의해 디스플레이(214)를 통해서 사용자에게 디스플레이될 수 있다. 단계(418)에 이어서, 이 방법(400)은 종료될 수 있고, 이 방법(400)은 부가 사용자 명령들 및/또는 에세이가 수신될 때까지 유휴상태로 될 수 있다.
도5는 본 발명의 일 실시예를 따른 수사 구조 트리("RST")(500)를 도시한 도면이다. 도5에 도시된 바와 같이, RST(500)는 담화 구조(502-514) 및 수사 관계들(516-526)을 포함한다. RST(500)에서, 각 담화 구조(502-514)는 또 다른 담화 구조(502-514)와의 수사 관계들(516-526)을 갖는 것으로서 식별된다. 예를 들어, 담화 구조(506)는 담화 구조(508)와의 수사 관계(522)를 갖는다. 기술된 예에서, 수사 관계(518)는 "연합(joint)" 관계이다. 이는 담화 구조(508)를 담화 구조(506)에 "연합"시키는데 사용되는 접속사 " 및 "을 기초로 결정될 수 있다. 수사 관계들의 다른 예들은 구현화(elaboration), 배경, 대조, 원인, 대구, 해석, 등을 포함한다.
게다가, 수사 관계들(516-526) 각각은 관련된 노드(528-538)(예를 들어, 접속)을 포함한다. 각 노드(528-538)는 "상태" (핵 또는 위성(nucleus or satellite)를 특징으로 한다. 핵들과 위성들 간의 차이는, 일반적으로 핵은 위성에 비해서 보다 중요한 내용을 표현하는데 사용된다는 경험적인 관찰로부터 나온다. 게다가, 수사 관계의 핵은 통상적으로, 위성과 관계없이 이해될 수 있지만, 그 반대로는 될 수 없다. 게다가, 이들 담화 구조들 및 수사 관계들은 특징들로서 사용되어, 플랫 파일에 저장될 수 있다.
상기 포함된 예에서, RST(500)는 Dr. Daniel Marcu("The theory and practice of discourse parsing ald summarization" The MIT press, 2000)의 큐-구-기초로한 담화 분석기(도시되지 않음)를 사용하여 에세이를 기초로 자동으로 생성되는데, 상기 문헌이 전반적으로 본원에 참조되어 있다. 그러나, 상이한 에세이에 응답하여, 큐-구-기초로한 담화 분석기는 상이한 RST를 생성시킬 수 있다. 따라서, 상술된 RST(500)는 단지 예로 제공된다. 그러므로, 본 발명은 큐-구-기반으로한 담화 분석기 또는 RST(500)로 제한되는 것이 아니라, 오히려, 본 발명의 각종 실시예들은 문장들을 식별하여 분류하는 임의의 합리적인 방법을 포함할 수 있어, 이들은 본 발명의 영역 내에 있다.
이어지는 도6에서, 훈련 데이터가 사용되어 모델(320)과 같은 담화 분석 모 델을 구축하도록 사용된다. 본 발명의 일 실시예에서, 이 훈련 데이터는 에세이들 등을 포함할 수 있다. 이 점에서, 훈련 데이터는 상술된 에세이 데이터와 유사할 수 있다.
도6은 담화 분석 모델 구축기("모델 구축기")(600)의 일 실시예의 구조를 도시한 블록도이다. 도1 및 도2에 도시되지 않았지만, 모델 구축기(600)는 컴퓨터 시스템(예를 들어, 컴퓨터 시스템(200))상에서 및/또는 컴퓨터 네트워크(예를 들어, 컴퓨터 네트워크(100))를 통해서 구현될 수 있다. 도6에 도시된 바와 같이, 모델 구축기(600)는 사용자 인터페이스(602), 특징 추출기(604) 및 기계 학습 도구(618)를 포함한다.
사용자 인터페이스(602)는 훈련 데이터 및/또는 이 훈련 데이터의 주석들을 수용하도록 구성된다. 이 주석들은 훈련 데이터의 담화 요소들을 식별하는 표시들(예를 들어, 표시자들, 등)을 포함할 수 있다. 이 주석들은 또한, "무관한(irrelevant)", "이해불가능한(incomprehensible)", 등과 같은 각종 다른 담화 분류들을 식별하는 표시들을 포함할 수 있다. "무관한"은 의미있는 방식으로 기여하지 못하는 텍스트 세그먼트를 식별하는데 사용될 수 있다. "이해불가능한"은 (예를 들어, 부정확한 구문, 부정확한 단어 사용, 등)에 의해 주석기에 의해 이해되지 못하는 텍스트 세그먼트를 식별하는데 사용될 수 있다. 주석들이 각종 방식들로 생성될 수 있지만, 본 발명의 일 실시예에서, 사용자 인터페이스(602)는 훈련된 판단으로부터의 훈련 데이터의 수동 주석들을 수용하도록 구성된다(도8 참조). 훈련 데이터는 에세이들 등을 포함할 수 있다. 게다가, 사용자 인터페이스(602)는 훈련 데이터 및/또는 수동 주석들을 특징 추출기(604)에 전송하고 기계 학습 도구(618)로부터 모델(320)을 수신하도록 구성된다.
모델 구축기(600)의 특징 추출기(604)는 상술된 특징 추출기(302)와 유사함으로, 특징 추출기(604)를 완전히 이해하는데 상당히 필요로 되는 이들 특징들 만이 후술된다. 특징 추출기(604) 및 특징 추출기(302) 간의 한 가지 차이점은 특징 추출기(604)가 수동 주석들과 관련된 데이터를 수신, 처리 및/또는 전송하도록 구성되어 있다는 것이다. 이 점에서, 특징들의 추출, 플랫 파일의 생성 및 RST의 생성을 따르면, 특징 추출기(604)는 수동 주석들 및/또는 플랫 파일과 관련된 데이터를 기계 학습 도구(618)로 전송하도록 구성된다.
기계 학습 도구(618)는 특징 추출기(604)로부터 수동 주석 데이터 및/또는 플랫 파일을 수신하고 이 데이터를 기초로 모델(320)을 기초로 생성시키도록 구성된다. 일반적으로, 기계 학습 도구(618)는 각 주석과 관련된 패턴들을 결정하도록 구성된다. 예를 들어, 결론 진술은 위치 데이터와 강하게 상관될 수 있다(예를 들어, 결론 진술은 통상적으로, 에세이에, 그 근처에 또는 그 끝에 있다). 본 발명의 일 실시예에서, 기계 학습 도구(예를 들어, 데이터 마이닝 도구(data mining tool)등), C5.9TM(RULEQUEST RESEARCH PTY.LTD., AUSTRALIA로부터 입수)가 모델(320)을 생성시키기 위하여 사용된다. 그러나, 본 발명의 다른 실시예들에서, 각종 다른 기계 학습 도구들 등은 모델(320)을 생성하는데 사용되는데, 이는 본 발명의 영역 내에 있다. 이 점에서, 본 발명의 또 다른 실시예에서, 복수의 모델들이 생성되어 모델(320)에 포함될 수 있다. 예를 들어, 위치 데이터를 기초로 한 모델, 낱말 특징들을 기초로 한 모델, 주요 특징들을 기초로 한 모델 및 구두들을 기초로 한 또 다 른 모델이 생성될 수 있다. 이들 실질적으로 독립적인 모델들은 모델(320)에 포함될 수 있다. 이 방식으로, 보팅 알고리즘은 각 모델로부터 분류된 문장들을 수신하여 각 분류된 문장에 대한 합의를 결정할 수 있다. 이 기계 학습 도구(618)는 또한, 분류된 문장들과 관련된 데이터를 사용자 인터페이스(602)로 전송하도록 구성된다.
또 다른 실시예에서, 이 모델 구축기(600)는 데이터베이스(160)와 같은 데이터베이스와 상호통신하도록 구성될 수 있다. 이 점에서, 모델 구축기(600)는 자동 실행하도록 구성될 수 있으며, 및/또는 담화 분석 모델 구축을 위하여 데이터베이스(160)로부터 데이터를 선택하도록 하는 능력을 사용자에게 제공할 수 있다.
도7은 본 발명의 일 실시예를 따른 모델(320)을 구축하는 방법(700)의 순서도이다. 도1 및 도2에 도시되지 않았지만, 이 방법(700)은 컴퓨터 시스템(예를 들어, 컴퓨터 시스템(200))상에서 및/또는 컴퓨터 네트워크(예를 들어, 컴퓨터 네트워크(100))를 통해서 구현될 수 있다. 도7에 도시된 바와 같이, 이 방법은 적어도 하나의 주석된 에세이(예를 들어, 주석된 훈련 데이터) 수신에 응답하여 초기화된다. 주석된 에세이는 각종 방식들로 생성될 수 있고(도8 참조), 주석된 에세이들을 생성하는 합리적인 방법은 본 발명의 영역 내에 있다. 본 발명의 일 실시예에서, 주석된 에세이들은 하나 이상의 토픽들을 논의하는 복수의 에세이들 형태일 수 있다. 복수의 에세이들은 훈련된 판단들에 의해 주석된다(도8 참조). 일반적으로, 이 주석들은 담화 관련 특징들(예를 들어, 담화 요소들, 큐들, 등)을 식별하는데 사용될 수 있다.
단계(702)에서, 적어도 하나의 주석된 에세이 수신에 응답하여, 담화 관련 특징들은 특징 추출기(604)에 의해 추출된다. 예를 들어, 단계(402-412)와 유사한 방식으로, 문장들은 식별될 수 있고, 플랫 파일은 적어도 하나의 에세이를 위하여 생성될 수 있고, 특징들 및 구두들은 식별될 수 있고, 플랫 파일에 대해 적절한 수정들이 행해질 수 있다.
단계(704)에서, 적어도 하나의 주석된 에세이 및/또는 플랫 파일 수신에 응답하여, 이 정보의 일부 또는 전부는 기계 학습 도구(618)에 의해 패턴들을 위하여 검사된다. 게다가, 이들 패턴들은 모델(320)을 구축하는데 사용된다.
단계(706)에서, 모델(320)은 평가될 수 있다. 예를 들어, 모델(320)은 방법(300)과 유사한 방식으로 사용되어 에세이를 주석할 수 있다. 이 에세이는 전문가 및/또는 판단에 의해 주석될 수 있고(도8 참조), 주석들의 비교가 수행될 수 있다. 주석들이 소정 범위 내에서 일치한다면, 이 방법(320)은 이 평과를 통과시킬 수 있고 이 모델(320)은 ADAA(180)로 전송될 수 있다. 주석들이 소정 범위 내에서 일치하지 않는다면, 모델(320)은 평가하는데 실패할 수 있고 이 방법(700)은 단계(702)로 복귀할 수 있다.
도8은 본 발명의 일 실시예를 따른 주석된 에세이들을 생성하는 방법(800)을 도시한 순서도이다. 도8에 도시된 바와 같이, 이 방법(800)은 데이터베이스(160)로부터 적어도 하나의 에세이를 수신하는 전문가 및 판단에 응답하여 초기화된다. 전문가는 일반적으로 담화 분석 분야에서 평균이상의 기술을 갖는 것으로서 인정된 한 명이상의 사람들일 수 있다. 이 판단은 담화 분석 분야에서 적어도 통상적인 기 술을 지닌 한명 이상의 사람들일 수 있다.
단계(802)에서, 판단은 전문가에 의해 훈련받는다. 예를 들어, 판단은 전문가가 하나 이상이 에세이들을 주석한 것을 주시할 수 있다. 판단 및 전문가는 특정 주석들을 행하는 방법 및 이유, 등을 논의할 수 있다. 게다가, 에세이들이 데이터베이스(160)로부터 수신되어 도시되었지만, 에세이들은 어떤 합리적인 방식으로 수신될 수 있다.
단계(804)에서, 데이터는 단계(802)에서 수신된 훈련을 기초로 판단에 의해 주석된다. 예를 들어, 판단은 하나 이상의 에세이들에서 주제 및 결론을 식별하여 표시(예를 들어, 주석)할 수 있다. 이들 주석들은 데이터베이스(160)에 저장될 수 있다.
단계(806)에서, 판단의 수행능력이 수용가능한지가 결정된다. 예를 들어, 제1 판단에 의해 수행되는 주석된 에세이들이 전문가들 및/또는 제2 판단에 의해 동일한 데이터의 주석된 에세이들과 비교될 수 있다. 주석된 에세이들 간의 일치 레벨은 Kappa, 정확도(precision), 리콜(recall) 및 F-측정(F-measure) 중 하나 이상에 대한 값들을 계산함으로써 결정될 수 있다. 이 점에서, Kappa는 기회 확률을 제외하면, 일치의 통계적 확률을 결정하는 일반적으로 공지된 수학식이다. 정확도는 제1 판단에 의해 수행되는 주석들의 수로 나뉘어진, 제1 판단 및 제2 판단 간의 일치의 측정이다. 리콜은 제2 판단에 의해 수행되는 주석들의 수로 나뉘어진, 제1 판단 및 제2 판단 간의 일치의 측정이다. F-측정은 정확도 더하기 리콜의 합으로 나뉘어진, 정확도 × 리콜의 2배와 동일하게 된다.
판단의 수행능력이 수용될 수 없다라고 결정되면, 이 판단은 단계(802)에서 더욱 훈련을 받는다. 판단의 수행능력이 수용가능하다라고 결정되면, 이 판단은 단계(808)에서 주석된 에세이들을 생성시킬 수 있다.
단계(808)에서, 주석된 에세이들은 판단에 의해 생성될 수 있다. 예를 들어, 판단은 데이터베이스(160)로부터 에세이들을 수신하여 이 에세이들을 주석할 수 있다. 이들 주석된 에세이들은 ADAA(180)로 전송될 수 있으며, 및/또는 주석된 에세이들은 데이터베이스(160)에 저장될 수 있다.
게다가, 본 발명의 일 실시예에서, 전문가가 한명 이상의 판단들을 훈련시키는 것이 실용적일 수 있다. 예를 들어, 상대적으로 많은 수의 에세이들이 주석되어야 하고 상대적으로 적은 수의 전문가들이 이를 행하는 것은 이 전문가들에게 상당한 부담인 경우, 복수의 판단들을 훈련시키는 것이 유용할 수 있다. 본 발명의 또 다른 실시예에서, 전문가가 판단의 역량 내에서 행동하거나 그 반대인 것이 보다 유용할 수 있다. 예를 들어, 상대적으로 적은 수의 에세이들이 있고 전문가들이 이들을 적절한 방식으로 주석할 수 있거나 거의 또는 전혀 훈련이 필요 없는 복수의 상대적으로 숙련된 판단들이 주석할 수 있는지가 탐색될 수 있다. 그러므로, 판단들 및 전문가들이 본원에 논의되었지만, 전문가나 판단들을 사용하는 것은 본 발명의 영역 내에 있음으로, 단계들(802-806)은 선택적일 수 있다.
게다가, 도8에 도시되지 않았지만, 주석된 에세이들은 각종 방식으로 생성될 수 있음으로, 주석된 에세이들을 생성하는 어떤 합리적인 방법은 본 발명의 영역 내에 있다. 본 발명의 일 실시예에서, 주석된 에세이들은 하나 이상의 토픽들을 논 의하는 복수의 에세이들의 형태일 수 있다. 복수의 에세이들은 주석된 판단들에 의해 주석된다. 일반적으로, 이 주석들은 담화-관련 특징들(예를 들어, 담화 요소들, 큐들, 등)을 식별하는데 사용될 수 있다.
ADAA(180), 모델 구축기(600), 및 이 방법들(400, 700 및 800)은 활동 및 비활동 둘 다의 다양한 형태들로 존재할 수 있다. 예를 들어, 이들은 소스 코드, 오브젝트 코드, 실행가능한 코드 또는 이외 다른 포맷들의 프로그램 명령들로 이루어진 소프트웨어 프로그램(들)으로서 존재할 수 있다. 상기들 중 임의의 것은 컴퓨터 판독가능한 매체상에서 구체화될 수 있는데, 이 매체는 압축되거나 압축해제된 형태의 신호들 및 저장 장치들을 포함한다. 컴퓨터 판독가능한 저장 장치들의 예들은 종래의 컴퓨터 시스템 RAM(랜덤 액세스 메모리), ROM(판독 전용 메모리), EPROM(소거가능한 프로그램가능 ROM), EEPROM(전기적으로 소거가능한 프로그램가능 ROM), 플래시 메모리 및 자기 또는 광 디스크들 또는 테이프들을 포함한다. 캐리어에 의해서 변조되는지 여부와 관계없이, 컴퓨터 판독가능한 신호들의 예들은 인터넷 또는 다른 네트워크들을 통해서 다운로딩되는 신호들을 포함하여, 컴퓨터 프로그램을 호스트하고 실행하는 컴퓨터 시스템이 액세스하도록 구성될 수 있는 신호들이다. 전술한 바에 대한 상세한 예들은 CD ROM상에 또는 인터넷 다운로드를 통해서 프로그램(들)을 분포하는 것을 포함한다. 어떤 의미에선, 요약 엔티티(abstract entity)로서 인터넷 그 자체는 컴퓨터 판독가능한 매체이다. 이것은 일반적으로 컴퓨터 네트워크들에서도 마찬가지이다.
게다가, 이 방법들(400, 700 및 800)의 사용자들 일부 또는 전부는 소프트 프로그램(들)로서 존재할 수 있다. 예를 들어, 본원에 관련된 전문가들, 판단들 및 사용자들의 일부 또는 전부는 에세이들을 생성, 에세이들을 주석 및/또는 에세이들을 주석하도록 판단들을 교습하도록 구성되는 소프트웨어 에이전트들을 포함할 수 있다. 이 점에서, 소프트웨어 에이전트(들)은 다양한 활동 및 비활동 형태들로 존재할 수 있다.
본 발명의 일부 변형들과 함께 본 발명의 실시예들이 설명되고 예시되었다. 본원에 사용된 용어들, 설명들 및 도면들은 단지 예시를 위한 것이고 제한하고자 하는 것이 아니다. 당업자는 많은 변형들 및 등가물들이 이하의 청구범위에 규정된 본 발명의 원리 및 영역 내에 있다는 것을 인지할 것이며, 이 청구범위는 달리 지적되지 않는 한 가장 넓게 합리적으로 해석되어야 한다.

Claims (72)

  1. 삭제
  2. 삭제
  3. 삭제
  4. 에세이(essay)에 주석을 다는 방법으로서,
    에세이를 전자 장치의 메모리로 로딩하는 단계;
    상기 에세이의 문장을 식별하는 단계;
    상기 문장과 관련된 특징을 결정하는 단계;
    상기 특징을 모델로 매핑함으로써 상기 문장이 담화 요소(discourse element)일 확률을 결정하는 단계로서, 상기 모델은 적어도 하나의 주석된 에세이에 기초하여 기계 학습 애플리케이션에 의해 생성되는, 상기 확률을 결정하는 단계; 및
    상기 확률에 기초하여 상기 에세이에 주석을 다는 단계를 포함하고,
    상기 특징은 위치 특징을 포함하는, 에세이에 주석을 다는 방법.
  5. 제4항에 있어서,
    상기 문장을 위한 엔트리를 포함하는 에세이용 플랫 파일을 생성하는 단계; 및
    상기 위치 특징과 관련된 데이터를 포함하도록 상기 엔트리를 수정하는 단계를 더 포함하는, 에세이에 주석을 다는 방법.
  6. 삭제
  7. 삭제
  8. 삭제
  9. 삭제
  10. 에세이에 주석을 다는 방법으로서,
    에세이의 문장을 식별하는 단계;
    상기 문장을 위한 엔트리를 포함하는 에세이용 플랫 파일을 생성하는 단계;
    상기 문장과 관련된 위치 특징을 결정하는 단계;
    상기 위치 특징과 관련된 데이터를 포함하도록 상기 엔트리를 수정하는 단계;
    상기 문장과 관련된 낱말 특징을 식별하는 단계;
    상기 낱말 특징과 관련된 데이터를 포함하도록 상기 엔트리를 수정하는 단계;
    상기 문장과 관련된 수사 특징(rhetorical feature)을 식별하는 단계;
    상기 수사 특징과 관련된 데이터를 포함하도록 상기 엔트리를 수정하는 단계;
    상기 플랫 파일을 모델로 매핑함으로써 상기 문장이 담화 요소일 확률을 결정하는 단계로서, 상기 모델은 적어도 하나의 주석된 에세이에 기초하여 기계 학습 애플리케이션에 의해 생성되는, 상기 확률을 결정하는 단계; 및
    상기 확률에 기초하여 상기 에세이에 주석을 다는 단계를 포함하는, 에세이에 주석을 다는 방법.
  11. 삭제
  12. 제10항에 있어서, 상기 에세이를 수신하는 단계를 더 포함하는, 에세이에 주석을 다는 방법.
  13. 제5항 또는 제10항에 있어서, 상기 위치 특징은:
    상기 에세이 내에서 문장의 위치와 관련되는 문장 위치;
    상기 에세이 내에서 상기 문장의 상대 위치와 관련되는 상대 문장 위치;
    상기 에세이의 절(paragraph) 내에서 상기 문장의 위치와 관련되는 절 위치; 및
    상기 에세이 내에서 상기 절의 상대 위치와 관련되는 상대 절 위치 중 적어도 하나를 포함하는, 에세이에 주석을 다는 방법.
  14. 삭제
  15. 제10항에 있어서,
    상기 플랫 파일에 기초하여 수사 구조 트리를 생성하는 단계; 및
    상기 수사 구조 트리에 기초하여 상기 수사 특징을 식별하는 단계를 더 포함하며, 상기 수사 특징은:
    기초 담화 유닛과 통상적으로 관련되는 담화 구조;
    복수의 상기 담화 구조들 간의 관련 방식을 기술하는 수사 관계; 및
    상태(status) 중 적어도 하나를 포함하며, 상기 상태는,
    상기 복수의 담화 구조들 중 상대적으로 보다 더 중요한 하나의 담화 구조와 관련되는 핵(nucleus); 및
    상기 복수의 담화 구조들 중 상대적으로 보다 덜 중요한 하나의 담화 구조와 관련되는 위성(satellite)을 포함하는, 에세이에 주석을 다는 방법.
  16. 제10항에 있어서,
    상기 문장과 관련되는 구두(punctuation)를 식별하는 단계; 및
    상기 구두와 관련되는 데이터를 포함하도록 상기 엔트리를 수정하는 단계를 더 포함하는, 에세이에 주석을 다는 방법.
  17. 제10항에 있어서, 상기 플랫 파일은 복수의 모델들로 매핑되고 상기 확률은 보팅 알고리즘(voting algorithm)에 기초하여 결정되는, 에세이에 주석을 다는 방법.
  18. 에세이에 주석을 다는 방법으로서,
    에세이를 수신하는 단계;
    상기 에세이의 문장을 식별하는 단계;
    상기 문장을 위한 엔트리를 포함하는 에세이용 플랫 파일을 생성하는 단계;
    상기 문장과 관련되는 위치 특징을 결정하는 단계로서, 상기 위치 특징은:
    상기 에세이 내에서 상기 문장의 위치와 관련되는 문장 위치;
    상기 에세이 내에서 상기 문장의 상대 위치와 관련되는 상대 문장 위치;
    상기 에세이의 절 내에서 상기 문장의 위치와 관련되는 절 위치; 및
    상기 에세이 내에서 상기 절의 상대 위치와 관련되는 상대 절 위치 중 적어도 하나를 포함하는, 상기 위치 특징을 결정하는 단계;
    상기 위치 특징과 관련되는 데이터를 포함하도록 상기 엔트리를 수정하는 단계;
    상기 문장과 관련되는 낱말 특징을 식별하는 단계로서, 상기 낱말 특징은:
    담화 요소와 통상적으로 관련되는 카테고리-특정 큐;
    담화 구조와 통상적으로 관련되는 일반 어휘 큐; 및
    담화 관계와 통상적으로 관련되는 주어(key term) 중 적어도 하나를 포함하는, 상기 낱말 특징을 식별하는 단계;
    상기 낱말 특징과 관련되는 데이터를 포함하도록 상기 엔트리를 수정하는 단계;
    상기 문장과 관련되는 구두를 식별하는 단계;
    상기 구두와 관련되는 데이터를 포함하도록 상기 엔트리를 수정하는 단계;
    상기 플랫 파일에 기초하여 수사 구조 트리를 생성하는 단계;
    상기 수사 구조 트리에 기초하여 수사 특징을 식별하는 단계로서, 상기 수사 특징은:
    기초 담화 유닛과 통상적으로 관련되는 담화 구조;
    복수의 상기 담화 구조들 간의 관련 방식을 기술하는 수사 관계; 및
    상태로서,
    상기 복수의 담화 구조들 중 상대적으로 보다 더 중요한 하나의 담화 구조와 관련되는 핵; 및
    상기 복수의 담화 구조들 중 상대적으로 보다 덜 중요한 하나의 담화 구조와 관련되는 위성을 포함하는, 상기 상태 중 적어도 하나를 포함하는, 상기 수사 특징을 식별하는 단계;
    상기 수사 특징과 관련되는 데이터를 포함하도록 상기 엔트리를 수정하는 단계;
    상기 플랫 파일을 모델로 매핑함으로써 상기 문장이 담화 요소일 확률을 결정하는 단계로서, 상기 모델은 적어도 하나의 주석된 에세이에 기초하여 기계 학습 애플리케이션에 의해 생성되는, 상기 확률을 결정하는 단계; 및
    상기 확률에 기초하여 상기 에세이에 주석을 다는 단계를 포함하는, 에세이에 주석을 다는 방법.
  19. 제10항 또는 제18항에 있어서, 상기 담화 요소는 제목; 배경; 주제; 주 요점들; 서포트; 및 결론 중 적어도 하나인, 에세이에 주석을 다는 방법.
  20. 삭제
  21. 삭제
  22. 삭제
  23. 삭제
  24. 컴퓨터 소프트웨어가 임베드된 컴퓨터 판독가능한 매체에 있어서, 상기 소프트웨어는:
    에세이의 문장을 식별하는 단계;
    상기 문장과 관련된 특징을 결정하는 단계;
    상기 특징을 모델로 매핑함으로써 상기 문장이 담화 요소일 확률을 결정하는 단계로서, 상기 모델은 적어도 하나의 주석된 에세이에 기초하여 기계 학습 애플리케이션에 의해 생성되는, 상기 확률을 결정하는 단계; 및
    상기 확률에 기초하여 상기 에세이에 주석을 다는 단계를 포함하는 방법을 수행하기 위한 실행 가능한 코드를 포함하며,
    상기 특징은 위치 특징을 포함하는, 컴퓨터 판독가능한 매체.
  25. 제24항에 있어서,
    상기 문장을 위한 엔트리를 포함하는 에세이용 플랫 파일을 생성하는 단계; 및
    상기 위치 특징과 관련된 데이터를 포함하도록 상기 엔트리를 수정하는 단계를 더 포함하는, 컴퓨터 판독가능한 매체.
  26. 제25항에 있어서, 상기 위치 특징은:
    상기 에세이 내에서 상기 문장의 위치와 관련되는 문장 위치;
    상기 에세이 내에서 상기 문장의 상대 위치와 관련되는 상대 문장 위치;
    상기 에세이의 절 내에서 상기 문장의 위치와 관련되는 절 위치;
    상기 에세이 내에서 상기 절의 상대 위치와 관련되는 상대 절 위치 중 적어도 하나를 포함하는, 컴퓨터 판독가능한 매체.
  27. 삭제
  28. 삭제
  29. 삭제
  30. 삭제
  31. 삭제
  32. 자동 에세이 주석기로서,
    에세이의 문장을 식별하는 수단;
    상기 문장과 관련된 특징을 결정하는 수단;
    상기 문장이 담화 요소일 확률을 결정하는 수단으로서, 상기 확률을 결정하는 수단은 상기 특징을 모델로 매핑하도록 구성되며, 상기 모델은 적어도 하나의 주석된 에세이에 기초하여 기계 학습 애플리케이션에 의해 생성되고 상기 담화 요소는 제목; 배경; 주제; 주 요점들; 서포트; 및 결론 중 적어도 하나인, 상기 확률을 결정하는 수단; 및
    상기 확률에 기초하여 상기 에세이에 주석을 다는 수단을 포함하고,
    상기 특징을 결정하는 수단은 위치 특징을 결정하는 수단을 더 포함하는, 자동 에세이 주석기.
  33. 제32항에 있어서,
    상기 문장을 위한 엔트리를 포함하는 에세이용 플랫 파일을 생성하는 수단; 및
    상기 위치 특징과 관련된 데이터를 포함하도록 상기 엔트리를 수정하는 수단을 더 포함하는, 자동 에세이 주석기.
  34. 제33항에 있어서, 상기 위치 특징을 결정하는 수단은:
    상기 에세이 내에서 상기 문장의 위치와 관련되는 문장 위치를 결정하는 수단;
    상기 에세이 내에서 상기 문장의 상대 위치와 관련되는 상대 문장 위치를 결정하는 수단;
    상기 에세이의 절 내에서 상기 문장의 위치와 관련되는 절 위치를 결정하는 수단; 및
    상기 에세이 내에서 상기 절의 상대 위치와 관련되는 상대 절 위치를 결정하는 수단 중 적어도 하나를 포함하는, 자동 에세이 주석기.
  35. 삭제
  36. 삭제
  37. 삭제
  38. 자동 에세이 주석기에 있어서,
    특징 추출기로서, 상기 특징 추출기는:
    상기 에세이의 문장과 관련된 위치 특징을 결정하도록 구성된 위치 식별자로서, 상기 위치 식별자는 상기 문장을 위한 엔트리를 포함하는 플랫 파일을 생성하도록 더 구성되며, 상기 엔트리는 상기 위치 특징과 관련된 데이터를 포함하는, 상기 위치 식별자;
    상기 문장과 관련된 낱말 특징을 식별하도록 구성된 낱말 아이템 식별자로서, 상기 낱말 아이템 식별자는 상기 낱말 특징과 관련된 데이터를 포함하도록 상기 엔트리를 수정하도록 더 구성되는, 상기 낱말 아이템 식별자; 및
    수사 특징을 식별하도록 구성된 수사 관계 식별자로서, 상기 수사 관계 식별자는 상기 수사 특징과 관련된 데이터를 포함하도록 상기 엔트리를 수정하도록 더 구성되는, 수사 관계 식별자를 포함하는, 상기 특징 추출기; 및
    상기 문장이 담화 요소일 확률을 결정하도록 구성되는 담화 분석 모델기를 포함하며, 상기 담화 분석 모델기는 상기 플랫 파일을 모델로 매핑함으로써 상기 확률을 결정하도록 구성되며, 상기 모델은 적어도 하나의 주석된 에세이에 기초하여 기계 학습 애플리케이션에 의해 생성되며, 상기 담화 분석 모델기는 상기 확률에 기초하여 상기 에세이에 주석을 달도록 더 구성되는, 자동 에세이 주석기.
  39. 제38항에 있어서, 상기 담화 분석 모델기는 복수의 담화 요소들 중 적어도 한 요소가 되는 상기 문장의 확률을 결정하도록 더 구성되며, 상기 복수의 담화 요소들은 제목; 배경; 주제; 주 요점들; 서포트; 및 결론을 포함하는, 자동 에세이 주석기.
  40. 제38항에 있어서, 상기 특징 추출기는 상기 에세이를 수신하도록 구성되는, 자동 에세이 주석기.
  41. 제38항에 있어서, 상기 위치 식별자는 또한,
    상기 에세이 내에서 상기 문장의 위치와 관련되는 문장 위치;
    상기 에세이 내에서 상기 문장의 상대 위치와 관련되는 상대 문장 위치;
    상기 에세이의 절 내에서 상기 문장의 위치와 관련되는 절 위치;
    상기 에세이 내에서 상기 절 내에서 상기 문장의 상대 위치와 관련되는 상대 절 위치 중 적어도 하나를 결정하도록 구성되는, 자동 에세이 주석기.
  42. 제38항에 있어서, 상기 낱말 아이템 식별자는:
    담화 요소와 통상적으로 관련되는 큐를 식별하도록 구성되는 카테고리-특정 큐 식별자;
    담화 구조와 통상적으로 관련되는 큐를 식별하도록 구성되는 일반 어휘 큐 식별자; 및
    담화 관계와 통상적으로 관련되는 주어를 식별하도록 구성되는 주어 식별자를 포함하는, 자동 에세이 주석기.
  43. 제38항에 있어서,
    상기 문장과 관련되는 구두를 식별하도록 구성되는 구두 식별자를 더 포함하며, 상기 구두 식별자는 상기 구두와 관련되는 데이터를 포함하도록 상기 엔트리를 수정하도록 더 구성되는, 자동 에세이 주석기.
  44. 제38항에 있어서, 상기 수사 관계 식별자는 상기 플랫 파일에 기초하여 수사 구조 트리를 생성하고, 상기 수사 구조 트리에 기초하여 상기 수사 특징을 식별하도록 더 구성되며, 상기 수사 특징은:
    기초 담화 유닛과 통상적으로 관련되는 담화 구조;
    복수의 상기 담화 구조들 간의 관련 방식을 기술하는 수사 관계; 및
    상태 중 적어도 하나를 포함하며, 상기 상태는,
    상기 복수의 담화 구조들 중 상대적으로 보다 더 중요한 하나의 담화 구조와 관련되는 핵; 및
    상기 복수의 담화 구조들 중 상대적으로 보다 덜 중요한 하나의 담화 구조와 관련되는 위성을 포함하는, 자동 에세이 주석기.
  45. 제38항에 있어서, 상기 담화 분석 모델기는 상기 수사 구조 트리를 복수의 모델들로 매핑하고 보팅 알고리즘에 기초하여 상기 문장이 담화 요소일 확률을 결정하도록 더 구성되는, 자동 에세이 주석기.
  46. 에세이에 주석을 다는 방법으로서,
    에세이를 전자 장치의 메모리로 로딩하는 단계;
    상기 에세이의 문장을 식별하는 단계;
    상기 문장과 관련된 특징을 결정하는 단계;
    상기 특징을 모델로 매핑함으로써 상기 문장이 담화 요소일 확률을 결정하는 단계로서, 상기 모델은 적어도 하나의 주석된 에세이에 기초하여 기계 학습 애플리케이션에 의해 생성되는, 상기 확률을 결정하는 단계; 및
    상기 확률에 기초하여 상기 에세이에 주석을 다는 단계를 포함하고,
    상기 특징은 낱말 특징을 포함하는, 에세이에 주석을 다는 방법.
  47. 제46항에 있어서,
    상기 문장을 위한 엔트리를 포함하는 에세이용 플랫 파일을 생성하는 단계; 및
    상기 낱말 특징과 관련되는 데이터를 포함하도록 상기 엔트리를 수정하는 단계를 더 포함하는, 에세이에 주석을 다는 방법.
  48. 에세이에 주석을 다는 방법으로서,
    에세이를 전자 장치의 메모리로 로딩하는 단계;
    상기 에세이의 문장을 식별하는 단계;
    상기 문장과 관련된 특징을 결정하는 단계;
    상기 특징을 모델로 매핑함으로써 상기 문장이 담화 요소일 확률을 결정하는 단계로서, 상기 모델은 적어도 하나의 주석된 에세이에 기초하여 기계 학습 애플리케이션에 의해 생성되는, 상기 확률을 결정하는 단계; 및
    상기 확률에 기초하여 상기 에세이에 주석을 다는 단계를 포함하고,
    상기 특징은 수사 특징을 포함하는, 에세이에 주석을 다는 방법.
  49. 제48항에 있어서,
    상기 문장을 위한 엔트리를 포함하는 에세이용 플랫 파일을 생성하는 단계; 및
    상기 수사 특징과 관련되는 데이터를 포함하도록 상기 엔트리를 수정하는 단계를 더 포함하는, 에세이에 주석을 다는 방법.
  50. 에세이에 주석을 다는 방법으로서,
    에세이를 전자 장치의 메모리로 로딩하는 단계;
    상기 에세이의 문장을 식별하는 단계;
    상기 문장과 관련된 특징을 결정하는 단계;
    상기 특징을 모델로 매핑함으로써 상기 문장이 담화 요소일 확률을 결정하는 단계로서, 상기 모델은 적어도 하나의 주석된 에세이에 기초하여 기계 학습 애플리케이션에 의해 생성되는, 상기 확률을 결정하는 단계; 및
    상기 확률에 기초하여 상기 에세이에 주석을 다는 단계를 포함하고,
    상기 특징은 구두를 포함하는, 에세이에 주석을 다는 방법.
  51. 제50항에 있어서,
    상기 문장을 위한 엔트리를 포함하는 에세이용 플랫 파일을 생성하는 단계;
    상기 문장과 관련되는 상기 구두를 식별하는 단계; 및
    상기 구두와 관련되는 데이터를 포함하도록 상기 엔트리를 수정하는 단계를 더 포함하는, 에세이에 주석을 다는 방법.
  52. 컴퓨터 소프트웨어가 임베드된 컴퓨터 판독가능한 매체에 있어서, 상기 소프트웨어는:
    에세이의 문장을 식별하는 단계;
    상기 문장과 관련된 특징을 결정하는 단계;
    상기 특징을 모델로 매핑함으로써 상기 문장이 담화 요소일 확률을 결정하는 단계로서, 상기 모델은 적어도 하나의 주석된 에세이에 기초하여 기계 학습 애플리케이션에 의해 생성되는, 상기 확률을 결정하는 단계; 및
    상기 확률에 기초하여 상기 에세이에 주석을 다는 단계를 포함하는 방법을 수행하기 위한 실행가능 코드를 포함하며,
    상기 특징은 낱말 특징을 포함하는, 컴퓨터 판독가능한 매체.
  53. 제52항에 있어서,
    상기 문장을 위한 엔트리를 포함하는 에세이용 플랫 파일을 생성하는 단계; 및
    상기 낱말 특징과 관련되는 데이터를 포함하도록 상기 엔트리를 수정하는 단계를 더 포함하는, 컴퓨터 판독가능한 매체.
  54. 컴퓨터 소프트웨어가 임베드된 컴퓨터 판독가능한 매체에 있어서, 상기 소프트웨어는:
    에세이의 문장을 식별하는 단계;
    상기 문장과 관련된 특징을 결정하는 단계;
    상기 특징을 모델로 매핑함으로써 상기 문장이 담화 요소일 확률을 결정하는 단계로서, 상기 모델은 적어도 하나의 주석된 에세이에 기초하여 기계 학습 애플리케이션에 의해 생성되는, 상기 확률을 결정하는 단계; 및
    상기 확률에 기초하여 상기 에세이에 주석을 다는 단계를 포함하는 방법을 수행하기 위한 실행가능 코드를 포함하며,
    상기 특징은 수사 특징을 포함하는, 컴퓨터 판독가능한 매체.
  55. 제54항에 있어서,
    상기 문장을 위한 엔트리를 포함하는 에세이용 플랫 파일을 생성하는 단계;및
    상기 수사 특징과 관련되는 데이터를 포함하도록 상기 엔트리를 수정하는 단계를 더 포함하는, 컴퓨터 판독가능한 매체.
  56. 컴퓨터 소프트웨어가 임베드된 컴퓨터 판독가능한 매체에 있어서, 상기 소프트웨어는:
    에세이의 문장을 식별하는 단계;
    상기 문장과 관련된 특징을 결정하는 단계;
    상기 특징을 모델로 매핑함으로써 상기 문장이 담화 요소일 확률을 결정하는 단계로서, 상기 모델은 적어도 하나의 주석된 에세이에 기초하여 기계 학습 애플리케이션에 의해 생성되는, 상기 확률을 결정하는 단계; 및
    상기 확률에 기초하여 상기 에세이에 주석을 다는 단계를 포함하는 방법을 수행하기 위한 실행가능 코드를 포함하며,
    상기 특징은 구두를 포함하는, 컴퓨터 판독가능한 매체.
  57. 제56항에 있어서,
    상기 문장을 위한 엔트리를 포함하는 에세이용 플랫 파일을 생성하는 단계;
    상기 문장과 관련되는 상기 구두를 식별하는 단계; 및
    상기 구두와 관련되는 데이터를 포함하도록 상기 엔트리를 수정하는 단계를 더 포함하는, 컴퓨터 판독가능한 매체.
  58. 자동 에세이 주석기로서,
    에세이의 문장을 식별하는 수단;
    상기 문장과 관련된 특징을 결정하는 수단;
    상기 문장이 담화 요소일 확률을 결정하는 수단으로서, 상기 확률을 결정하는 수단은 상기 특징을 모델로 매핑하도록 구성되며, 상기 모델은 적어도 하나의 주석된 에세이에 기초하여 기계 학습 애플리케이션에 의해 생성되고, 상기 담화 요소는 제목; 배경; 주제; 주 요점들; 서포트; 및 결론 중 적어도 하나인, 상기 확률을 결정하는 수단; 및
    상기 확률에 기초하여 상기 에세이에 주석을 다는 수단을 포함하며,
    상기 특징을 결정하는 수단은 낱말 특징을 결정하는 수단을 더 포함하는, 자동 에세이 주석기.
  59. 제58항에 있어서,
    상기 문장을 위한 엔트리를 포함하는 에세이용 플랫 파일을 생성하는 수단; 및
    상기 낱말 특징과 관련되는 데이터를 포함하도록 상기 엔트리를 수정하는 수단을 더 포함하는, 자동 에세이 주석기.
  60. 자동 에세이 주석기로서,
    에세이의 문장을 식별하는 수단;
    상기 문장과 관련된 특징을 결정하는 수단;
    상기 문장이 담화 요소일 확률을 결정하는 수단으로서, 상기 확률을 결정하는 수단은 상기 특징을 모델로 매핑하도록 구성되며, 상기 모델은 적어도 하나의 주석된 에세이에 기초하여 기계 학습 애플리케이션에 의해 생성되고, 상기 담화 요소는 제목; 배경; 주제; 주 요점들; 서포트; 및 결론 중 적어도 하나인, 상기 확률을 결정하는 수단; 및
    상기 확률에 기초하여 상기 에세이에 주석을 다는 수단을 포함하며,
    상기 특징을 결정하는 수단은 수사 특징을 결정하는 수단을 더 포함하는, 자동 에세이 주석기.
  61. 제60항에 있어서,
    상기 문장을 위한 엔트리를 포함하는 에세이용 플랫 파일을 생성하는 수단; 및
    상기 수사 특징과 관련되는 데이터를 포함하도록 상기 엔트리를 수정하는 수단을 더 포함하는, 자동 에세이 주석기.
  62. 자동 에세이 주석기로서,
    에세이의 문장을 식별하는 수단;
    상기 문장과 관련된 특징을 결정하는 수단;
    상기 문장이 담화 요소일 확률을 결정하는 수단으로서, 상기 확률을 결정하는 수단은 상기 특징을 모델로 매핑하도록 구성되며, 상기 모델은 적어도 하나의 주석된 에세이에 기초하여 기계 학습 애플리케이션에 의해 생성되고, 상기 담화 요소는 제목; 배경; 주제; 주 요점들; 서포트; 및 결론 중 적어도 하나인, 상기 확률을 결정하는 수단; 및
    상기 확률에 기초하여 상기 에세이에 주석을 다는 수단을 포함하며,
    상기 특징을 결정하는 수단은 구두를 결정하는 수단을 더 포함하는, 자동 에세이 주석기.
  63. 제62항에 있어서,
    상기 문장을 위한 엔트리를 포함하는 에세이용 플랫 파일을 생성하는 수단;
    상기 문장과 관련되는 상기 구두를 식별하는 수단; 및
    상기 구두와 관련되는 데이터를 포함하도록 상기 엔트리를 수정하는 수단을 더 포함하는, 자동 에세이 주석기.
  64. 제10항 또는 제47항에 있어서, 상기 낱말 특징은:
    담화 요소와 통상적으로 관련되는 카테고리-특정 큐;
    담화 구조와 통상적으로 관련되는 일반 어휘 큐; 및
    담화 관계와 통상적으로 관련되는 주어 중 적어도 하나를 포함하는, 에세이에 주석을 다는 방법.
  65. 제49항에 있어서,
    상기 플랫 파일에 기초하여 수사 구조 트리를 생성하는 단계; 및
    상기 수사 구조 트리에 기초하여 상기 수사 특징을 식별하는 단계를 더 포함하며, 상기 수사 특징은:
    기초 담화 유닛과 통상적으로 관련되는 담화 구조;
    복수의 상기 담화 구조들 간의 관련 방식을 기술하는 수사 관계;및
    상태 중 적어도 하나를 포함하며, 상기 상태는,
    상기 복수의 담화 구조들 중 상대적으로 보다 더 중요한 하나의 담화 구조와 관련되는 핵; 및
    상기 복수의 담화 구조들 중 상대적으로 보다 덜 중요한 하나의 담화 구조와 관련되는 위성을 포함하는, 에세이에 주석을 다는 방법.
  66. 제65항에 있어서, 상기 수사 구조 트리는 복수의 모델들로 매핑되고 상기 확률은 보팅 알고리즘을 기초로 결정되는, 에세이에 주석을 다는 방법.
  67. 제53항에 있어서, 상기 낱말 특징은:
    담화 요소와 통상적으로 관련되는 카테고리-특정 큐;
    담화 구조와 통상적으로 관련되는 일반 어휘 큐; 및
    담화 관계와 통상적으로 관련되는 주어 중 적어도 하나를 포함하는, 컴퓨터 판독가능한 매체.
  68. 제55항에 있어서,
    상기 플랫 파일에 기초하여 수사 구조 트리를 생성하는 단계; 및
    상기 수사 구조 트리에 기초하여 상기 수사 특징을 식별하는 단계를 더 포함하며, 상기 수사 특징은:
    기초 담화 유닛과 통상적으로 관련되는 담화 구조;
    복수의 상기 담화 구조들 간의 관련 방식을 기술하는 수사 관계;및
    상태 중 적어도 하나를 포함하며, 상기 상태는,
    상기 복수의 담화 구조들 중 상대적으로 보다 더 중요한 하나의 담화 구조와 관련되는 핵; 및
    상기 복수의 담화 구조들 중 상대적으로 보다 덜 중요한 하나의 담화 구조와 관련되는 위성을 포함하는, 컴퓨터 판독가능한 매체.
  69. 제68항에 있어서, 상기 수사 구조 트리는 복수의 모델들로 매핑되고 상기 확률은 보팅 알고리즘을 기초로 결정되는, 컴퓨터 판독가능한 매체.
  70. 제59항에 있어서, 상기 낱말 특징을 결정하는 수단은:
    담화 요소와 통상적으로 관련되는 카테고리-특정 큐를 식별하는 수단;
    담화 구조와 통상적으로 관련되는 일반 어휘 큐를 식별하는 수단; 및
    담화 관계와 통상적으로 관련되는 주어를 식별하는 수단 중 적어도 하나를 포함하는, 자동 에세이 주석기.
  71. 제61항에 있어서,
    상기 플랫 파일에 기초하여 수사 구조 트리를 생성하는 수단; 및
    상기 수사 구조 트리에 기초하여 상기 수사 특징을 식별하는 수단을 더 포함하며, 상기 수사 특징은:
    기초 담화 유닛과 통상적으로 관련되는 담화 구조;
    복수의 상기 담화 구조들 간의 관련 방식을 기술하는 수사 관계;및
    상태 중 적어도 하나를 포함하며, 상기 상태는,
    상기 복수의 담화 구조들 중 상대적으로 보다 더 중요한 하나의 담화 구조와 관련되는 핵; 및
    상기 복수의 담화 구조들 중 상대적으로 보다 덜 중요한 하나의 담화 구조와 관련되는 위성을 포함하는, 자동 에세이 주석기.
  72. 제71항에 있어서,
    상기 확률을 결정하는 수단은 상기 수사 구조 트리를 복수의 모델들로 매핑하는 수단을 더 포함하며, 상기 확률은 보팅 알고리즘에 기초하여 결정되는, 자동 에세이 주석기.
KR1020047021196A 2002-06-24 2003-06-23 자동 에세이 주석 시스템 및 방법 KR100931515B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US10/176,534 US7127208B2 (en) 2002-01-23 2002-06-24 Automated annotation
US10/176,534 2002-06-24
PCT/US2003/019868 WO2004001700A1 (en) 2002-06-24 2003-06-23 Automated essay annotation system and method

Publications (2)

Publication Number Publication Date
KR20050035523A KR20050035523A (ko) 2005-04-18
KR100931515B1 true KR100931515B1 (ko) 2009-12-14

Family

ID=29999066

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020047021196A KR100931515B1 (ko) 2002-06-24 2003-06-23 자동 에세이 주석 시스템 및 방법

Country Status (9)

Country Link
US (3) US7127208B2 (ko)
EP (1) EP1535261A4 (ko)
JP (1) JP4334474B2 (ko)
KR (1) KR100931515B1 (ko)
AU (1) AU2003278846A1 (ko)
CA (1) CA2491238C (ko)
GB (1) GB0500438D0 (ko)
MX (1) MXPA05000237A (ko)
WO (1) WO2004001700A1 (ko)

Families Citing this family (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002059857A1 (en) * 2001-01-23 2002-08-01 Educational Testing Service Methods for automated essay analysis
US7127208B2 (en) * 2002-01-23 2006-10-24 Educational Testing Service Automated annotation
US8210850B2 (en) 2002-03-07 2012-07-03 Blank Marion S Literacy education system for students with autistic spectrum disorders (ASD)
US7088949B2 (en) 2002-06-24 2006-08-08 Educational Testing Service Automated essay scoring
US7149468B2 (en) * 2002-07-25 2006-12-12 The Mcgraw-Hill Companies, Inc. Methods for improving certainty of test-taker performance determinations for assessments with open-ended items
US8128414B1 (en) 2002-08-20 2012-03-06 Ctb/Mcgraw-Hill System and method for the development of instructional and testing materials
WO2004075015A2 (en) * 2003-02-14 2004-09-02 Ctb/Mcgraw-Hill System and method for creating, assessing, modifying, and using a learning map
US7980855B1 (en) 2004-05-21 2011-07-19 Ctb/Mcgraw-Hill Student reporting systems and methods
US20070042335A1 (en) * 2005-05-11 2007-02-22 Ctb Mcgraw-Hill System and method for assessment or survey response collection using a remote, digitally recording user input device
US8170466B2 (en) * 2005-05-27 2012-05-01 Ctb/Mcgraw-Hill System and method for automated assessment of constrained constructed responses
US20070009871A1 (en) * 2005-05-28 2007-01-11 Ctb/Mcgraw-Hill System and method for improved cumulative assessment
US20070031801A1 (en) * 2005-06-16 2007-02-08 Ctb Mcgraw Hill Patterned response system and method
US8688026B2 (en) * 2007-01-19 2014-04-01 Barry Morse Essay writing system
US8463594B2 (en) * 2008-03-21 2013-06-11 Sauriel Llc System and method for analyzing text using emotional intelligence factors
US20100169359A1 (en) * 2008-12-30 2010-07-01 Barrett Leslie A System, Method, and Apparatus for Information Extraction of Textual Documents
US7937386B2 (en) * 2008-12-30 2011-05-03 Complyon Inc. System, method, and apparatus for information extraction of textual documents
WO2010107327A1 (en) * 2009-03-20 2010-09-23 Syl Research Limited Natural language processing method and system
US9679256B2 (en) 2010-10-06 2017-06-13 The Chancellor, Masters And Scholars Of The University Of Cambridge Automated assessment of examination scripts
US9208139B2 (en) * 2012-01-05 2015-12-08 Educational Testing Service System and method for identifying organizational elements in argumentative or persuasive discourse
US9355372B2 (en) 2013-07-03 2016-05-31 Thomson Reuters Global Resources Method and system for simplifying implicit rhetorical relation prediction in large scale annotated corpus
WO2015003143A2 (en) * 2013-07-03 2015-01-08 Thomson Reuters Global Resources Method and system for simplifying implicit rhetorical relation prediction in large scale annotated corpus
GB2524796A (en) * 2014-04-03 2015-10-07 Finned Oy Electronic arrangement and method for educational purposes
US10198428B2 (en) * 2014-05-06 2019-02-05 Act, Inc. Methods and systems for textual analysis
JP6499537B2 (ja) * 2015-07-15 2019-04-10 日本電信電話株式会社 接続表現項構造解析装置、方法、及びプログラム
US10192456B2 (en) * 2015-12-01 2019-01-29 President And Fellows Of Harvard College Stimulating online discussion in interactive learning environments
US11151894B1 (en) * 2017-02-02 2021-10-19 Educational Testing Service Systems and methods for scoring argument critique written essays
US10599885B2 (en) * 2017-05-10 2020-03-24 Oracle International Corporation Utilizing discourse structure of noisy user-generated content for chatbot learning
EP3622412A1 (en) * 2017-05-10 2020-03-18 Oracle International Corporation Enabling rhetorical analysis via the use of communicative discourse trees
US11586827B2 (en) * 2017-05-10 2023-02-21 Oracle International Corporation Generating desired discourse structure from an arbitrary text
US12001804B2 (en) * 2017-05-10 2024-06-04 Oracle International Corporation Using communicative discourse trees to detect distributed incompetence
US11373632B2 (en) * 2017-05-10 2022-06-28 Oracle International Corporation Using communicative discourse trees to create a virtual persuasive dialogue
US11960844B2 (en) * 2017-05-10 2024-04-16 Oracle International Corporation Discourse parsing using semantic and syntactic relations
US10839154B2 (en) * 2017-05-10 2020-11-17 Oracle International Corporation Enabling chatbots by detecting and supporting affective argumentation
US10679011B2 (en) * 2017-05-10 2020-06-09 Oracle International Corporation Enabling chatbots by detecting and supporting argumentation
US11615145B2 (en) 2017-05-10 2023-03-28 Oracle International Corporation Converting a document into a chatbot-accessible form via the use of communicative discourse trees
US11386274B2 (en) * 2017-05-10 2022-07-12 Oracle International Corporation Using communicative discourse trees to detect distributed incompetence
US10817670B2 (en) * 2017-05-10 2020-10-27 Oracle International Corporation Enabling chatbots by validating argumentation
US11100144B2 (en) 2017-06-15 2021-08-24 Oracle International Corporation Data loss prevention system for cloud security based on document discourse analysis
US10839161B2 (en) 2017-06-15 2020-11-17 Oracle International Corporation Tree kernel learning for text classification into classes of intent
US11182412B2 (en) 2017-09-27 2021-11-23 Oracle International Corporation Search indexing using discourse trees
EP3688609A1 (en) * 2017-09-28 2020-08-05 Oracle International Corporation Determining cross-document rhetorical relationships based on parsing and identification of named entities
WO2019067878A1 (en) 2017-09-28 2019-04-04 Oracle International Corporation ACTIVATION OF AUTONOMOUS AGENTS TO DISTINGUISH QUESTIONS AND DEMANDS
US11809825B2 (en) * 2017-09-28 2023-11-07 Oracle International Corporation Management of a focused information sharing dialogue based on discourse trees
CN108121702B (zh) * 2017-12-26 2020-11-24 浙江讯飞智能科技有限公司 数学主观题评阅方法及系统
US11537645B2 (en) 2018-01-30 2022-12-27 Oracle International Corporation Building dialogue structure by using communicative discourse trees
US10949623B2 (en) 2018-01-30 2021-03-16 Oracle International Corporation Using communicative discourse trees to detect a request for an explanation
JP7258047B2 (ja) 2018-05-09 2023-04-14 オラクル・インターナショナル・コーポレイション 収束質問に対する回答を改善するための仮想談話ツリーの構築
US11455494B2 (en) 2018-05-30 2022-09-27 Oracle International Corporation Automated building of expanded datasets for training of autonomous agents
US11237713B2 (en) * 2019-01-21 2022-02-01 International Business Machines Corporation Graphical user interface based feature extraction application for machine learning and cognitive models
US11449682B2 (en) 2019-08-29 2022-09-20 Oracle International Corporation Adjusting chatbot conversation to user personality and mood
US11556698B2 (en) 2019-10-22 2023-01-17 Oracle International Corporation Augmenting textual explanations with complete discourse trees
US11580298B2 (en) 2019-11-14 2023-02-14 Oracle International Corporation Detecting hypocrisy in text
US11501085B2 (en) 2019-11-20 2022-11-15 Oracle International Corporation Employing abstract meaning representation to lay the last mile towards reading comprehension
US11775772B2 (en) 2019-12-05 2023-10-03 Oracle International Corporation Chatbot providing a defeating reply
US11847420B2 (en) 2020-03-05 2023-12-19 Oracle International Corporation Conversational explainability
WO2023212524A1 (en) * 2022-04-25 2023-11-02 Gyan, Inc. (A Delaware Corporation) An explainable natural language understanding platform
US12020593B2 (en) * 2022-08-15 2024-06-25 BrainPOP IP LLC Automated evaluation of free-form answers and generation of actionable feedback to multidimensional reasoning questions

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5437554A (en) * 1993-02-05 1995-08-01 National Computer Systems, Inc. System for providing performance feedback to test resolvers
US5987302A (en) * 1997-03-21 1999-11-16 Educational Testing Service On-line essay evaluation system

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4958284A (en) * 1988-12-06 1990-09-18 Npd Group, Inc. Open ended question analysis system and method
US4978305A (en) * 1989-06-06 1990-12-18 Educational Testing Service Free response test grading method
JPH0743728B2 (ja) 1990-08-02 1995-05-15 工業技術院長 要約文生成方式
US5672060A (en) * 1992-07-08 1997-09-30 Meadowbrook Industries, Ltd. Apparatus and method for scoring nonobjective assessment materials through the application and use of captured images
US5565316A (en) * 1992-10-09 1996-10-15 Educational Testing Service System and method for computer based testing
JP3202381B2 (ja) 1993-01-28 2001-08-27 株式会社東芝 文書検索装置及び文書検索方法
JP2957875B2 (ja) 1993-03-17 1999-10-06 株式会社東芝 文書情報検索装置及び文書検索結果表示方法
US5778397A (en) 1995-06-28 1998-07-07 Xerox Corporation Automatic method of generating feature probabilities for automatic extracting summarization
US5918240A (en) 1995-06-28 1999-06-29 Xerox Corporation Automatic method of extracting summarization using feature probabilities
US5878386A (en) * 1996-06-28 1999-03-02 Microsoft Corporation Natural language parser with dictionary-based part-of-speech probabilities
US6115683A (en) * 1997-03-31 2000-09-05 Educational Testing Service Automatic essay scoring system using content-based techniques
US6181909B1 (en) * 1997-07-22 2001-01-30 Educational Testing Service System and method for computer-based automatic essay scoring
US6356864B1 (en) * 1997-07-25 2002-03-12 University Technology Corporation Methods for analysis and evaluation of the semantic content of a writing based on vector length
US6267601B1 (en) * 1997-12-05 2001-07-31 The Psychological Corporation Computerized system and method for teaching and assessing the holistic scoring of open-ended questions
JP2000029894A (ja) 1998-07-13 2000-01-28 Ntt Data Corp 主題文抽出方式
US6332143B1 (en) * 1999-08-11 2001-12-18 Roedy Black Publishing Inc. System for connotative analysis of discourse
GB0006721D0 (en) * 2000-03-20 2000-05-10 Mitchell Thomas A Assessment methods and systems
CA2408819C (en) * 2000-05-11 2006-11-07 University Of Southern California Machine translation techniques
US6461166B1 (en) * 2000-10-17 2002-10-08 Dennis Ray Berman Learning system with learner-constructed response based testing methodology
US6866510B2 (en) * 2000-12-22 2005-03-15 Fuji Xerox Co., Ltd. System and method for teaching second language writing skills using the linguistic discourse model
WO2002059857A1 (en) 2001-01-23 2002-08-01 Educational Testing Service Methods for automated essay analysis
US20030031996A1 (en) * 2001-08-08 2003-02-13 Adam Robinson Method and system for evaluating documents
US7127208B2 (en) 2002-01-23 2006-10-24 Educational Testing Service Automated annotation
US7088949B2 (en) 2002-06-24 2006-08-08 Educational Testing Service Automated essay scoring
US20040073510A1 (en) 2002-06-27 2004-04-15 Logan Thomas D. Automated method and exchange for facilitating settlement of transactions

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5437554A (en) * 1993-02-05 1995-08-01 National Computer Systems, Inc. System for providing performance feedback to test resolvers
US5987302A (en) * 1997-03-21 1999-11-16 Educational Testing Service On-line essay evaluation system

Also Published As

Publication number Publication date
JP4334474B2 (ja) 2009-09-30
US7127208B2 (en) 2006-10-24
MXPA05000237A (es) 2005-08-26
US20100285434A1 (en) 2010-11-11
KR20050035523A (ko) 2005-04-18
GB0500438D0 (en) 2005-02-16
JP2005531068A (ja) 2005-10-13
CA2491238C (en) 2010-08-03
US8626054B2 (en) 2014-01-07
US7796937B2 (en) 2010-09-14
AU2003278846A1 (en) 2004-01-06
EP1535261A4 (en) 2011-02-09
CA2491238A1 (en) 2003-12-31
US20030138758A1 (en) 2003-07-24
WO2004001700A1 (en) 2003-12-31
EP1535261A1 (en) 2005-06-01
US20070077542A1 (en) 2007-04-05

Similar Documents

Publication Publication Date Title
KR100931515B1 (ko) 자동 에세이 주석 시스템 및 방법
US7769339B2 (en) Automated essay scoring
CN1457041B (zh) 为一个自然语言理解系统用来自动注解训练数据的一个系统
US9678949B2 (en) Vital text analytics system for the enhancement of requirements engineering documents and other documents
Vittorini et al. An AI-based system for formative and summative assessment in data science courses
CN109299865B (zh) 基于语义分析的心理测评系统及方法、信息数据处理终端
JP2010015571A (ja) エッセイ中の過度の反復語使用の自動評価
US20070143329A1 (en) System and method for analyzing communications using multi-dimensional hierarchical structures
Cavalcanti et al. Detection and evaluation of cheating on college exams using supervised classification
Tetreault et al. Bucking the trend: improved evaluation and annotation practices for ESL error detection systems
CN116451646A (zh) 一种标准草案检测方法、系统、电子设备及存储介质
KR20180128694A (ko) 연구개발 문서의 품질 평가 시스템 및 그 방법
US11494560B1 (en) System and methodology for computer-facilitated development of reading comprehension test items through passage mapping
Keet et al. Claro: a data-driven cnl for specifying competency questions
JP2005134691A (ja) ネットワークを経由した教育システムの自動採点装置
US20220366346A1 (en) Method and apparatus for document evaluation
CN110348004B (zh) 数据字典生成的方法、装置、电子设备和存储介质
Timoshchuk et al. Application of natural language processing with GQM and AHP approaches for requirements quality assessment.
CN117973326A (zh) 文本优化方法、装置、设备及存储介质
CN116204625A (zh) 一种基于知识图谱的智能问答方法与系统
CN116484017A (zh) 一种基于规则推理的知识图谱检索方法与系统
CN113673232A (zh) 文本标注方法、装置、设备及介质
Wojcik Estimating Sentiment in Eli
Feinauer A mechanism for natural language database (artificial intelligence)

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20121129

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20131129

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20141128

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20161125

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20170929

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20180928

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20190924

Year of fee payment: 11