KR101072100B1 - 표현 및 설명 추출을 위한 문서 처리 장치 및 방법 - Google Patents

표현 및 설명 추출을 위한 문서 처리 장치 및 방법 Download PDF

Info

Publication number
KR101072100B1
KR101072100B1 KR1020090100962A KR20090100962A KR101072100B1 KR 101072100 B1 KR101072100 B1 KR 101072100B1 KR 1020090100962 A KR1020090100962 A KR 1020090100962A KR 20090100962 A KR20090100962 A KR 20090100962A KR 101072100 B1 KR101072100 B1 KR 101072100B1
Authority
KR
South Korea
Prior art keywords
expression
description
document
sentence
script
Prior art date
Application number
KR1020090100962A
Other languages
English (en)
Other versions
KR20110044345A (ko
Inventor
노형종
이종훈
이성진
이근배
Original Assignee
포항공과대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 포항공과대학교 산학협력단 filed Critical 포항공과대학교 산학협력단
Priority to KR1020090100962A priority Critical patent/KR101072100B1/ko
Priority to US13/498,322 priority patent/US8666987B2/en
Priority to JP2012530792A priority patent/JP5690829B2/ja
Priority to CN201080046722.0A priority patent/CN102576367B/zh
Priority to PCT/KR2010/006943 priority patent/WO2011049313A2/ko
Publication of KR20110044345A publication Critical patent/KR20110044345A/ko
Application granted granted Critical
Publication of KR101072100B1 publication Critical patent/KR101072100B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/06Foreign languages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services

Abstract

본 발명은 표현 및 설명 추출을 위한 문서 처리 장치 및 방법에 관한 것으로서, 이 장치는, 웹으로부터 문서를 수집하고 이를 스크립트 부분과 설명 부분으로 분리하여 스크립트 문서 및 설명 문서를 생성하는 문서 수집부, 그리고 설명 문서에 기초하여 표현 설명 문장을 추출하고 표현 설명 문장이 스크립트 문서 내에서 설명하고 있는 표현을 추출하는 표현 추출부를 포함한다. 본 발명에 의하면, 학습 표현과 이에 대한 설명 부분이 하나의 쌍으로 이루어진 학습 자료를 자동으로 구축할 수 있다.
문서 처리, 어학 학습, 표현, 표현 설명, 문장

Description

표현 및 설명 추출을 위한 문서 처리 장치 및 방법{DOCUMENT PROCESSING APPARATUS AND METHOD FOR EXTRACTION OF EXPRESSION AND DESCRIPTION}
본 발명은 문서 처리 장치 및 방법에 관한 것으로, 보다 상세하게는 웹에서 문서를 수집하고 수집된 문서로부터 표현 및 설명을 추출하는 문서 처리 장치 및 방법에 관한 것이다.
영어 교육의 중요성이 계속하여 강조되면서 이를 위한 다양한 교육 방법이 개발되고 있다. 그러나 현재 존재하는 대부분의 영어 교육 방법은 문제 풀이 및 암기 위주로 되어 있고, 읽기나 쓰기 부분에 특화되어 있다. 이와 같은 영어 교육 방법의 한계를 극복하기 위한 방안의 하나로 영어를 이용한 대화 시스템이 개발되어 이용되고 있다. 이 시스템은 영어 학습자와 시스템 사이의 대화를 통해 실생활에 필요한 다양한 표현을 자연스럽게 습득하도록 유도할 수 있다.
그러나 대화 도중에 시스템에 의해 제시된 단어나 숙어 등의 영어 표현이 익숙하지 않는 경우 학습자는 이에 대한 설명을 확인하고 싶어할 수 있다. 이와 같은 경우 학습자는 주로 영어 사전 등을 통해 해당 영어 표현에 대한 설명을 확인할 수 있다. 하지만 영어 사전 등에서 영어 표현에 관한 설명을 제시하고 있기는 하나 영어 초심자를 이해시키기 위한 것으로 원론적인 설명이 주를 이루고 영어 표현을 한글로 설명하기 때문에 정확한 의미를 전달하는데 한계가 있다.
본 발명이 해결하고자 하는 과제는 학습 표현과 이를 설명하는 설명 부분이 하나의 쌍으로 이루어진 학습 자료를 웹으로부터 자동으로 구축할 수 있는 문서 처리 장치 및 방법을 제공하는 것이다.
이러한 기술적 과제를 해결하기 위한 본 발명의 실시예에 따른 문서 처리 장치는, 웹으로부터 문서를 수집하고 상기 문서를 스크립트 부분과 설명 부분으로 분리하여 스크립트 문서 및 설명 문서를 생성하는 문서 수집부, 그리고 상기 설명 문서에 기초하여 표현 설명 문장을 추출하고 상기 표현 설명 문장이 상기 스크립트 문서 내에서 설명하고 있는 표현을 추출하는 표현 추출부를 포함한다.
상기 스크립트 문서에서 문장을 분리하여 복수의 스크립트 문장을 추출하고 상기 설명 문서에서 문장을 분리하여 복수의 설명 문장을 추출하는 문장 추출부를 더 포함할 수 있다.
상기 문장 추출부는 각 설명 문장이 상기 복수의 스크립트 문장 중 어느 스크립트 문장에 대한 설명인지 분류할 수 있다.
상기 문장 추출부는 조건부 랜덤 필드(conditional random field) 분류기를 사용하여 상기 분류를 수행할 수 있다.
상기 표현 추출부는 레이블드 순차 패턴(labeled sequential pattern) 기법을 이용하여 상기 복수의 설명 문장으로부터 상기 표현 설명 문장을 추출할 수 있 다.
상기 표현 추출부는 상기 표현 설명 문장과 상기 스크립트 문장 내의 표현의 유사도를 측정하여 상기 표현 설명 문장이 상기 스크립트 문장 내에서 설명하고 있는 표현을 추출할 수 있다.
상기 유사도는 코사인 유사도(cosine similarity) 기법이나 편집 거리(edit distance) 기법을 사용하여 측정될 수 있다.
상기 문서 수집부는 상기 스크립트 부분 및 상기 설명 부분의 시작 또는 끝을 나타내는 식별자 또는 문장에 기반하여 상기 스크립트 문서 및 상기 설명 문서를 생성할 수 있다.
상기 추출된 표현과 상기 추출된 표현을 설명하는 표현 설명 문장을 저장하는 데이터베이스를 더 포함할 수 있다.
사용자로부터의 요청에 따라 상기 추출된 표현과 상기 추출된 표현을 설명하는 표현 설명 문장을 상기 사용자에게 제공하는 자료 제공부를 더 포함할 수 있다.
상기 문서는 영어로 작성될 수 있다.
본 발명의 다른 태양에 따른 어학 교육 시스템은 상기한 장치 중 어느 하나를 포함한다.
본 발명의 다른 태양에 따른 문서 처리 방법은, 웹으로부터 문서를 수집하고 상기 문서를 스크립트 부분과 설명 부분으로 분리하여 스크립트 문서 및 설명 문서를 생성하는 단계, 그리고 상기 설명 문서에 기초하여 표현 설명 문장을 추출하고 상기 표현 설명 문장이 상기 스크립트 문서 내에서 설명하고 있는 표현을 추출하는 단계를 포함한다.
상기 스크립트 문서에서 문장을 분리하여 복수의 스크립트 문장을 추출하고 상기 설명 문서에서 문장을 분리하여 복수의 설명 문장을 추출하는 단계를 더 포함할 수 있다.
상기 문장 추출 단계는 각 설명 문장이 상기 복수의 스크립트 문장 중 어느 스크립트 문장에 대한 설명인지 분류하는 단계를 포함할 수 있다.
상기 분류 단계는 조건부 랜덤 필드(conditional random field) 분류기를 사용하는 단계를 포함할 수 있다.
상기 표현 추출 단계는 레이블드 순차 패턴(labeled sequential pattern) 기법을 이용하여 상기 복수의 설명 문장으로부터 상기 표현 설명 문장을 추출하는 단계를 포함할 수 있다.
상기 표현 추출 단계는 상기 표현 설명 문장과 상기 스크립트 문장 내의 표현의 유사도를 측정하여 상기 표현 설명 문장이 상기 스크립트 문장 내에서 설명하고 있는 표현을 추출하는 단계를 포함할 수 있다.
상기 유사도는 코사인 유사도(cosine similarity) 기법이나 편집 거리(edit distance) 기법을 사용하여 측정될 수 있다.
상기 문서 생성 단계는 상기 스크립트 부분 및 상기 설명 부분의 시작 또는 끝을 나타내는 식별자 또는 문장에 기반하여 상기 스크립트 문서 및 상기 설명 문서를 생성할 수 있다.
상기 추출된 표현과 상기 추출된 표현을 설명하는 표현 설명 문장을 저장하 는 단계를 더 포함할 수 있다.
사용자로부터의 요청에 따라 상기 추출된 표현과 상기 추출된 표현을 설명하는 표현 설명 문장을 상기 사용자에게 제공하는 단계를 더 포함할 수 있다.
본 발명의 다른 태양에 따른 어학 교육 방법은 상기한 방법 중 어느 하나를 포함한다.
본 발명의 다른 태양에 따른 컴퓨터로 읽을 수 있는 매체는 상기한 방법 중 어느 하나를 컴퓨터에 실행시키기 위한 프로그램을 기록한다.
이와 같이 본 발명에 의하면, 학습 표현과 이에 대한 설명 부분이 하나의 쌍으로 이루어진 학습 자료를 자동으로 구축할 수 있다. 또한 실제 문장 내에서 사용되는 표현을 학습 대상으로 함으로써 사전적인 의미만을 제시하는 사전 검색 결과에 비하여 표현의 쓰임새를 비롯한 자세한 설명을 제공할 수 있고 설명 또한 학습 표현과 동일한 언어로 되어 있으므로 번역으로 인한 의미 훼손 없이 표현의 의미를 정확히 제공할 수 있다.
그러면 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다.
먼저, 도 1 및 도 2를 참고하여 본 발명의 실시예에 따른 문서 처리 장치에 대하여 상세하게 설명한다.
도 1은 본 발명의 실시예에 따른 문서 처리 장치를 설명하기 위한 블록도이고, 도 2는 본 발명의 실시예에 따른 문서 처리 장치가 수집한 문서를 예시한 도면이다.
도 1을 참고하면, 본 발명의 실시예에 따른 문서 처리 장치(100)는 통신망(400)을 통하여 웹 서버(200) 및 사용자 단말기(300)에 연결되어 있다. 문서 처리 장치(100)는 웹 서버(200)에서 제공하는 웹 페이지를 통해 수집한 문서로부터 학습 표현과 이에 대한 설명을 자동으로 추출하여 저장한다. 또한 문서 처리 장치(100)는 사용자 단말기(300)로부터 질의를 받고 질의에 대응하는 학습 표현과 이에 대한 설명으로 이루어진 학습 자료를 사용자 단말기(300)에 제공한다.
웹 서버(200)는 통신망(400)을 통하여 사용자 단말기(300) 및 문서 처리 장치(100)로부터의 요청에 따라 웹 페이지를 제공한다. 웹 서버(200)는 어학 교육 사이트를 통하여 웹 페이지를 제공할 수 있으며, 문서 처리 장치(100)는 웹 페이지에 포함되어 있는 다양한 문서 중에서 소정 문서를 추출할 수 있다. 예를 들면 웹 사이트 "www.eslpod.com"에서는 영어 스크립트(script)와 이에 대한 설명(description)을 포함하는 문서를 제공한다. 이하 문서 처리 장치(100)가 이 사이트에서 추출한 소정 문서를 가지고 작업을 수행하는 것으로 설명한다. 물론 이 사이트에 한정되지 않으며, 문서 처리 장치(100)는 작업에 필요한 문서를 다른 사이트에서 추출할 수도 있다.
문서의 한 예로서, 도 2를 참고하면, "www.eslpod.com" 사이트에서 제공하는 문서(DC)는 스크립트 부분(SP)과 설명 부분(DP)를 포함하여 이루어진다. 문서(DC) 마다 스크립트 부분(SP)에는 다양한 이야기가 전개되며 설명 부분(DP)에는 해당 스크립트 부분(SP)에 있는 표현에 대한 의미나 용례가 설명된다. 여기서 문서(DC)는 영어로 작성되어 있는 것으로 설명하나 이에 한정되지 않으며 한국어, 일어, 독어, 중국어 등 다른 언어라도 무관하다. 그리고 표현이란 적어도 하나의 의미를 전달하는 단위로서, 형태소, 단어나 숙어, 이들의 조합으로 이루어진다. 앞으로 설명의 편의를 위하여 표현도 영어로 작성된 영어 표현에 대하여 설명하나 이에 한정되지 않는다. 또한 스크립트 부분(SP)과 설명 부분(DP) 모두 동일한 언어로 작성되어 있는 것이 바람직하나 다르더라도 무관하다.
사용자 단말기(300)는 사용자가 웹 서비스를 받기 위해 사용하는 통신 단말 장치로서, 통신망(400)을 통해 웹 서버(200), 문서 처리 장치(100) 등에 접속하여 정보를 주고받는다. 사용자 단말기(300)는 데스크톱 컴퓨터뿐만 아니라 노트북 컴퓨터, 워크스테이션, 팜톱(palmtop) 컴퓨터, UMPC(ultra mobile personal computer), 태블릿 PC, 개인 휴대 정보 단말기(personal digital assistant, PDA), 웹 패드, 휴대전화 등과 같이 메모리 수단을 구비하고 마이크로 프로세서를 탑재하여 연산 능력을 갖춘 단말기로 이루어질 수 있다.
통신망(400)은 구내 정보 통신망(local area network, LAN), 도시권 통신망(metropolitan area network, MAN), 광역 통신망(wide area network, WAN), 인터넷 등을 포함하는 데이터 통신망뿐만 아니라 전화망 등을 포함할 수 있고, 유선과 무선을 가리지 않으며, 어떠한 통신 방식을 사용하더라도 상관없다.
그러면 본 발명의 실시예에 따른 문서 처리 장치(100)에 대하여 좀 더 상세 하게 설명한다. 도 1을 참고하면 문서 처리 장치(100)는 문서 수집부(110), 문장 추출부(130), 표현 추출부(150), 데이터베이스(170), 그리고 자료 제공부(190)를 포함한다.
문서 수집부(110)는 웹 서버(200)에서 제공하는 웹 사이트에서 문서를 수집한다. 앞서 설명한 것처럼, 문서는 "www.eslpod.com"와 같이 미리 정해져 있는 웹 사이트에서 추출할 수 있으며 스크립트와 이에 대한 설명을 포함한다. 여기서 스크립트는 특정 주제에 대한 짧은 이야기 글을 의미하며, 서술문이나 대화문을 가리지 않는다.
또한 문서 수집부(110)는 스크립트 부분과 설명 부분의 시작 또는 끝을 나타내는 식별자나 문장에 기반하여 수집된 문서에서 스크립트 부분과 설명 부분을 추출하여 스크립트 문서와 설명 문서를 각각 생성한다. 예를 들면 도 2에 도시한 것처럼, <start of story>라는 식별자가 스크립트 부분(SP)의 시작을 나타내고, <end of story>라는 식별자가 스크립트 부분(SP)의 끝과 설명 부분(DP)의 시작을 나타낼 수 있다. 이 외에도 식별자는 예를 들면 '*'나 '※' 등의 특정 기호나 'start'나 'end' 등의 단어와 같이 다양한 형태로 존재할 수 있다. 또한 "Let's go!"나 "Thank you"와 같은 문장 형식으로도 스크립트 부분과 설명 부분을 구별하도록 할 수 있다. 문서는 이와 같이 특정 형식을 가지고 있어서 스크립트 부분과 설명 부분을 쉽게 추출할 수 있도록 하는 것이 바람직하나 이에 한정되지 않는다.
문장 추출부(130)는 마침표, 물음표, 느낌표 등의 문장의 끝을 나타내는 기호 등의 식별자를 기초로 스크립트 문서에서 각각의 스크립트 문장을 분리하고 설 명 문서에서 각각의 설명 문장을 분리한다. 그런 후 문장 추출부(130)는 각 설명 문장이 어떤 스크립트 문장에 대한 설명인지 분류한다. 설명 문장의 분류를 위하여 예를 들면 조건부 랜덤 필드(conditional random field, CRF) 분류기를 사용할 수 있으나 이에 한정되지 않는다. 조건부 랜덤 필드 분류기는 자연 언어 텍스트와 같은 순차 데이터의 레이블링(labeling)이나 파싱(parsing)에 사용되는 일종의 식별 확률 모델(discriminative probabilistic model) 분류기이다.
이때 분류 결과는 임의의 i 번째 스크립트 문장에 대하여 각 설명 문장이 i 번째 스크립트 문장에 대한 설명인지 아닌지 이진 분류로 나타난다. 좀 더 상세하게 설명하면, 하나의 스크립트 문서에 포함되어 있는 스크립트 문장의 수효를 M이라 하면, i 번째 스크립트 문장에 대하여 설명 문서의 각 설명 문장이 분류기의 입력이 되고 설명 문서의 모든 설명 문장에 대하여 이진 분류 결과가 출력된다. 이와 같은 분류 과정을 모든 스크립트 문장(1≤i≤M)에 대하여 수행하면 각 스크립트 문장에 대응하는 설명 문장을 추출할 수 있으며, 따라서 설명 문서의 각 문장이 스크립트 문서의 어떤 문장에 대한 설명인지 분류할 수 있다. 앞으로 어떤 스크립트 문장에 대응하는 설명 문장들을 해당 스크립트 문장에 대한 문장 설명이라 한다. 물론 스크립트 문장에 대응하는 설명 문장이 존재하지 않을 수도 있으며, 설명 문장 중에서 스크립트 문장에 대응하지 않는 설명 문장도 존재할 수 있다.
표현 추출부(150)는 문장 설명으로부터 표현 설명 문장을 추출하고 추출된 표현 설명 문장이 해당 스크립트 문장 내에서 어떤 표현을 설명하고 있는지 알아내고 추출해 낸다.
우선, 표현 추출부(150)는 추출된 전체 문장 설명의 모든 문장에 대하여 각 문장이 영어 표현의 설명 형태를 가지고 있는지 그렇지 않은지에 대한 이진 분류를 수행한다. 이를 위하여 예를 들면 레이블드 순차 패턴(labeled sequential pattern, LSP) 기법을 이용할 수 있으나 이에 한정되지 않는다. LSP 기법은 어떤 문장이 주어졌을 때 이를 패턴화하여 표현하기 위한 방법으로서, 예를 들어 "Where can I find a job?"이라는 문장을 "Where can PRN VB DT NN?"으로 치환하는 것처럼 일반적인 단어를 좀 더 큰 범위의 클래스로 치환하는 방법을 말한다. 여기서 PRN은 대명사, VB는 동사, DT는 관사, 그리고 NN은 명사를 나타낸다.
영어 표현의 설명 형태를 나타낼 수 있는 패턴은 스크립트 부분과 설명 부분을 포함하는 문서로부터 훈련될 수 있다. 예를 들면 영어 표현을 설명할 때 많이 나타나는 표현인 "... means to ..." 또는 "... is a ..." 등이 패턴으로 훈련된다. 이 패턴에 따라 전체 문장 설명의 각 문장들에 대하여 이진 분류를 수행하여 영어 표현을 나타내는 표현 설명 문장들을 추출해 낼 수 있다.
다음으로, 표현 추출부(150)는 추출된 표현 설명 문장이 설명하고 있는 해당 스크립트 문장 내의 영어 표현을 추출한다. 스크립트 문장 내의 표현과 표현 설명 문장의 유사도가 클수록 표현 설명 문장이 해당 영어 표현에 대한 설명이 될 확률이 높다. 따라서 표현 추출부(150)는 스크립트 문장 내의 표현과 표현 설명 문장의 유사도에 기반하여 표현 설명 문장이 설명하고 있는 영어 표현을 추출한다. 유사도는 예를 들면 텍스트 마이닝(text mining)에서 문서들을 비교하는 데 사용되며 텍스트 사이의 유사도를 측정할 수 있는 코사인 유사도(cosine similarity) 기법이 나 문자열 사이의 거리를 측정할 수 있는 편집 거리(edit distance) 기법을 사용할 수 있으나 이에 한정되지 않는다.
표현 추출부(150)는 이러한 방법을 통하여 전체 표현 설명 문장에 대하여 해당 영어 표현을 추출하고, 추출된 영어 표현과 이를 설명하는 표현 설명 문장을 데이터베이스(170)에 저장한다. 이때 표현 추출부(150)는 영어 표현과 이를 설명하는 표현 설명 문장을 쌍(이하 '영어 표현과 이를 설명하는 표현 설명 문장 쌍'을 '표현-설명 쌍'이라 함)으로 하여 데이터베이스(170)에 저장할 수 있다.
데이터베이스(170)는 표현 추출부(150)에서 제공받은 표현-설명 쌍을 저장하고 자료 제공부(190)의 요청에 따라 표현-설명 쌍을 제공한다.
자료 제공부(190)는 데이터베이스(170)를 용이하게 검색할 수 있도록 표현-설명 쌍에 대한 인덱싱 작업을 수행한다. 또한 자료 제공부(190)는 사용자 단말기(300)로부터 질의어를 입력 받으면 분석을 통하여 질의어에 가장 적합한 표현을 추출하는 등의 전처리 과정을 거친 후 해당 표현이 포함된 표현-설명 쌍을 데이터베이스(170)에서 검색하고 검색된 표현-설명 쌍을 사용자 단말기(300)에 제공한다.
이와 같이, 본 발명의 실시예에 따른 문서 처리 장치(100)에 의하면 영어 표현과 이에 대한 설명 부분이 하나의 쌍으로 이루어진 학습 자료를 웹으로부터 수집하여 자동으로 구축할 수 있다. 이러한 자료는 단어 및 구문 사전의 자동 구축에 사용될 수 있으며 외국어 교육을 위한 소프트웨어 전반에서 교육 자료로서 활용될 수 있다.
또한 본 발명의 실시예에 따른 문서 처리 장치(100)는 표현 및 설명 데이터 베이스를 통하여 실제 사용자가 이해하지 못하거나 친숙하지 않은 영어 표현에 대해 설명을 요구할 때 적절한 영어 표현 및 설명 문장 쌍을 검색하여 제시할 수 있다. 결국, 웹 문서를 이용하여 영어 표현 및 설명을 제시함으로써 사전적인 의미만을 포함하는 한글로 된 설명의 영어 사전 검색 결과에 비해 실제 스크립트 내에서의 표현 쓰임새를 비롯하여 자세한 설명을 제공할 수 있고 설명 문장 또한 영어로 되어 있으므로 원래의 의미를 번역으로 인한 훼손 없이 제공할 수 있다.
본 발명의 실시예에 따른 문서 처리 장치(100)는 어학 교육을 위한 표현-설명 쌍을 수집하는 데 사용될 수 있어서 어학 교육을 위한 다양한 시스템(도시하지 않음)에 포함될 수도 있다. 이러한 시스템의 예로서, 온라인 사전 시스템이나 대화형 교육 시스템을 들 수 있으나 이에 한정되지 않는다.
한편 본 발명의 실시예에 따른 문서 처리 장치(100)는 데이터베이스(170) 및 자료 제공부(190) 중 적어도 어느 하나를 포함하지 않게 구현될 수도 있으며, 이 경우 데이터베이스(170) 및/또는 자료 제공부(190)는 영어 대화 시스템 등의 외국어 교육 시스템에 포함될 수도 있다. 그리고 문서 처리 장치(100)는 독립적인 서버 형태로 구현될 수 있으나, 사용자 단말기(300)와 일체로 통합된 형태로 구현될 수도 있다. 즉, 문서 처리 장치(100)의 기능 전부가 사용자 단말기(300)에 구현되어 사용자 단말기(300)에서 웹 문서를 수집하고 이로부터 표현-설명 쌍을 추출할 수 있으며, 사용자 요청에 따라 표현-설명 쌍을 검색하여 사용자에게 제공할 수 있다. 물론 문서 처리 장치(100)의 기능 일부가 사용자 단말기(300)에 구현될 수도 있다.
그러면, 도 3을 참고하여 본 발명의 실시예에 따른 문서 처리 방법에 대해 설명한다.
도 3은 본 발명의 실시예에 따른 문서 처리 방법을 설명하기 위한 흐름도이다.
먼저, 문서 처리 장치(100)는 웹 서버(200)에서 제공하는 웹 사이트에서 스크립트와 이에 대한 설명을 포함하는 문서를 수집한다(S510). 그런 후 문서 처리 장치(100)는 스크립트 부분과 설명 부분의 시작과 끝을 나타내는 식별자나 문장에 기반하여 수집된 문서에서 스크립트 부분과 설명 부분을 추출하여 스크립트 문서와 설명 문서를 각각 생성한다(S520).
문서 처리 장치(100)는 마침표, 물음표, 느낌표 등의 문장의 끝을 나타내는 기호 등의 식별자를 기초로 스크립트 문서에서 각각의 스크립트 문장을 분리하고 설명 문서에서 각각의 설명 문장을 분리한다(S530). 그런 후 문서 처리 장치(100)는 CRF 분류기 등을 이용하여 각 설명 문장이 어떤 스크립트 문장에 대한 설명인지 분류한다(S540).
이후 문서 처리 장치(100)는 LSP 기법 등을 이용하여 추출된 전체 문장 설명의 모든 문장에 대하여 각 문장이 영어 표현의 설명 형태를 가지고 있는지 그렇지 않은지에 대한 이진 분류를 수행하고 영어 표현의 설명 형태를 가지고 있는 표현 설명 문장을 추출한다(S550). 그리고 문서 처리 장치(100)는 추출된 표현 설명 문장들이 해당 스크립트 문장 내에서 설명하고 있는 영어 표현을 추출한다(S560). 이때 문서 처리 장치(100)는 코사인 유사도 기법이나 편집 거리 기법 등을 이용하 여 추출된 표현 설명 문장과 해당 스크립트 문장 내의 표현의 유사도를 측정하여 해당 표현 설명 문장이 설명하는 영어 표현을 추출할 수 있다.
그런 후 문서 처리 장치(100)는 추출된 영어 표현과 이를 설명하는 표현 설명 문장을 저장한다(S570). 이때, 문서 처리 장치(100)는 영어 표현과 이를 설명하는 표현 설명 문장을 쌍으로 하여 하나의 문서로 저장할 수 있다.
문서 처리 장치(100)는 사용자 단말기(300)로부터 질의어를 입력 받아 질의어를 분석하고 질의어에 가장 적합한 표현을 추출하는 등의 전처리 과정을 수행하고 해당 표현이 포함된 문서를 데이터베이스(170)에서 검색하고 검색된 결과를 사용자 단말기(300)에 전송한다.
본 발명의 실시예에 따른 문서 처리 방법은 외국어 교육을 위한 표현 및 그 설명 문장 쌍을 수집하는 데 사용될 수 있어서 외국어 교육을 위한 다양한 방법에 포함될 수 있다. 이러한 방법의 예로서, 온라인 사전 제공 방법이나 대화형 교육 방법을 들 수 있으나 이에 한정되지 않는다.
본 발명의 실시예는 다양한 컴퓨터로 구현되는 동작을 수행하기 위한 프로그램 명령을 포함하는 컴퓨터로 읽을 수 있는 매체를 포함한다. 이 매체는 지금까지 설명한 문서 처리 방법을 실행시키기 위한 프로그램을 기록한다. 이 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 이러한 매체의 예에는 하드디스크, 플로피디스크 및 자기 테이프와 같은 자기 매체, CD 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(Floptical Disk)와 자기-광 매체, 롬, 램, 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 구 성된 하드웨어 장치 등이 있다. 또는 이러한 매체는 프로그램 명령, 데이터 구조 등을 지정하는 신호를 전송하는 반송파를 포함하는 광 또는 금속선, 도파관 등의 전송 매체일 수 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
이상에서 본 발명의 바람직한 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.
도 1은 본 발명의 실시예에 따른 문서 처리 장치를 설명하기 위한 블록도이다.
도 2는 본 발명의 실시예에 따른 문서 처리 장치가 수집한 문서를 예시한 도면이다.
도 3은 본 발명의 실시예에 따른 문서 처리 방법을 설명하기 위한 흐름도이다.
<도면의 주요 부분에 대한 부호의 설명>
100: 문서 처리 장치, 110: 문서 수집부,
130: 문장 추출부, 150: 표현 추출부,
170: 데이터베이스, 190: 자료 제공부,
200: 웹 서버, 300: 사용자 단말기,
400: 통신망

Claims (25)

  1. 미리 정해진 웹 사이트로부터 특정 유형의 문서를 수집하고 상기 문서를 미리 정의된 구분에 따라 제1 언어로 작성되고 특정 주제를 갖는 글로 구성된 스크립트 부분과 제1 언어 또는 제2 언어로 작성되고 상기 스크립트 부분에서 포함하고 있는 표현들에 대한 설명을 포함하고 있는 설명 부분으로 분리하여 스크립트 문서 및 설명 문서를 생성하는 문서 수집부, 그리고
    상기 설명 문서에 기초하여 표현 설명 문장을 추출하고 상기 표현 설명 문장이 상기 스크립트 문서 내에서 설명하고 있는 표현을 추출하는 표현 추출부
    를 포함하는 문서 처리 장치.
  2. 제1항에서,
    상기 스크립트 문서에서 문장을 분리하여 복수의 스크립트 문장을 추출하고 상기 설명 문서에서 문장을 분리하여 복수의 설명 문장을 추출하는 문장 추출부를 더 포함하는 문서 처리 장치.
  3. 제2항에서,
    상기 문장 추출부는 각 설명 문장이 상기 복수의 스크립트 문장 중 어느 스크립트 문장에 대한 설명인지 분류하는 문서 처리 장치.
  4. 제3항에서,
    상기 문장 추출부는 조건부 랜덤 필드(conditional random field) 분류기를 사용하여 상기 분류를 수행하는 문서 처리 장치.
  5. 제2항에서,
    상기 표현 추출부는 레이블드 순차 패턴(labeled sequential pattern) 기법을 이용하여 상기 복수의 설명 문장으로부터 상기 표현 설명 문장을 추출하는 문서 처리 장치.
  6. 제2항에서,
    상기 표현 추출부는 상기 표현 설명 문장과 상기 스크립트 문장 내의 표현의 유사도를 측정하여 상기 표현 설명 문장이 상기 스크립트 문장 내에서 설명하고 있는 표현을 추출하는 문서 처리 장치.
  7. 제6항에서,
    상기 유사도는 코사인 유사도(cosine similarity) 기법이나 편집 거리(edit distance) 기법을 사용하여 측정되는 문서 처리 장치.
  8. 제1항에서,
    상기 문서 수집부는 상기 스크립트 부분 및 상기 설명 부분의 시작 또는 끝을 나타내는 식별자 또는 문장에 기반하여 상기 스크립트 문서 및 상기 설명 문서를 생성하는 문서 처리 장치.
  9. 제1항에서,
    상기 추출된 표현과 상기 추출된 표현을 설명하는 표현 설명 문장을 저장하는 데이터베이스를 더 포함하는 문서 처리 장치.
  10. 제1항에서,
    사용자로부터의 요청에 따라 상기 추출된 표현과 상기 추출된 표현을 설명하는 표현 설명 문장을 상기 사용자에게 제공하는 자료 제공부를 더 포함하는 문서 처리 장치.
  11. 제1항에서,
    상기 문서는 영어로 작성되어 있는 문서 처리 장치.
  12. 제1항 내지 제11항 중 어느 한 항의 문서 처리 장치를 포함하는 어학 교육 시스템.
  13. 미리 정해진 웹 사이트로부터 특정 유형의 문서를 수집하고 상기 문서를 미리 정의된 구분에 따라 제1 언어로 작성되고 특정 주제를 갖는 글로 구성된 스크립트 부분과 제1 언어 또는 제2 언어로 작성되고 상기 스크립트 부분에서 포함하고 있는 표현들에 대한 설명을 포함하고 있는 설명 부분으로 분리하여 스크립트 문서 및 설명 문서를 생성하는 단계, 그리고
    상기 설명 문서에 기초하여 표현 설명 문장을 추출하고 상기 표현 설명 문장이 상기 스크립트 문서 내에서 설명하고 있는 표현을 추출하는 단계
    를 포함하는 문서 처리 방법.
  14. 제13항에서,
    상기 스크립트 문서에서 문장을 분리하여 복수의 스크립트 문장을 추출하고 상기 설명 문서에서 문장을 분리하여 복수의 설명 문장을 추출하는 단계를 더 포함하는 문서 처리 방법.
  15. 제14항에서,
    상기 문장 추출 단계는 각 설명 문장이 상기 복수의 스크립트 문장 중 어느 스크립트 문장에 대한 설명인지 분류하는 단계를 포함하는 문서 처리 방법.
  16. 제15항에서,
    상기 분류 단계는 조건부 랜덤 필드(conditional random field) 분류기를 사용하는 단계를 포함하는 문서 처리 방법.
  17. 제14항에서,
    상기 표현 추출 단계는 레이블드 순차 패턴(labeled sequential pattern) 기법을 이용하여 상기 복수의 설명 문장으로부터 상기 표현 설명 문장을 추출하는 단계를 포함하는 문서 처리 방법.
  18. 제14항에서,
    상기 표현 추출 단계는 상기 표현 설명 문장과 상기 스크립트 문장 내의 표현의 유사도를 측정하여 상기 표현 설명 문장이 상기 스크립트 문장 내에서 설명하고 있는 표현을 추출하는 단계를 포함하는 문서 처리 방법.
  19. 제18항에서,
    상기 유사도는 코사인 유사도(cosine similarity) 기법이나 편집 거리(edit distance) 기법을 사용하여 측정되는 문서 처리 방법.
  20. 제13항에서,
    상기 문서 생성 단계는 상기 스크립트 부분 및 상기 설명 부분의 시작 또는 끝을 나타내는 식별자 또는 문장에 기반하여 상기 스크립트 문서 및 상기 설명 문서를 생성하는 문서 처리 방법.
  21. 제13항에서,
    상기 추출된 표현과 상기 추출된 표현을 설명하는 표현 설명 문장을 저장하는 단계를 더 포함하는 문서 처리 방법.
  22. 제13항에서,
    사용자로부터의 요청에 따라 상기 추출된 표현과 상기 추출된 표현을 설명하는 표현 설명 문장을 상기 사용자에게 제공하는 단계를 더 포함하는 문서 처리 방 법.
  23. 제13항에서,
    상기 문서는 영어로 작성되어 있는 문서 처리 방법.
  24. 제13항 내지 제23항 중 어느 한 항의 문서 처리 방법을 포함하는 어학 교육 방법.
  25. 컴퓨터에 제13항 내지 제23항 중 어느 한 항의 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 매체.
KR1020090100962A 2009-10-23 2009-10-23 표현 및 설명 추출을 위한 문서 처리 장치 및 방법 KR101072100B1 (ko)

Priority Applications (5)

Application Number Priority Date Filing Date Title
KR1020090100962A KR101072100B1 (ko) 2009-10-23 2009-10-23 표현 및 설명 추출을 위한 문서 처리 장치 및 방법
US13/498,322 US8666987B2 (en) 2009-10-23 2010-10-11 Apparatus and method for processing documents to extract expressions and descriptions
JP2012530792A JP5690829B2 (ja) 2009-10-23 2010-10-11 表現および説明抽出のための文書処理装置および方法
CN201080046722.0A CN102576367B (zh) 2009-10-23 2010-10-11 用于提取短语及说明的文档处理装置及方法
PCT/KR2010/006943 WO2011049313A2 (ko) 2009-10-23 2010-10-11 표현 및 설명 추출을 위한 문서 처리 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090100962A KR101072100B1 (ko) 2009-10-23 2009-10-23 표현 및 설명 추출을 위한 문서 처리 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20110044345A KR20110044345A (ko) 2011-04-29
KR101072100B1 true KR101072100B1 (ko) 2011-10-10

Family

ID=43900780

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090100962A KR101072100B1 (ko) 2009-10-23 2009-10-23 표현 및 설명 추출을 위한 문서 처리 장치 및 방법

Country Status (5)

Country Link
US (1) US8666987B2 (ko)
JP (1) JP5690829B2 (ko)
KR (1) KR101072100B1 (ko)
CN (1) CN102576367B (ko)
WO (1) WO2011049313A2 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8805853B2 (en) * 2009-12-25 2014-08-12 Nec Corporation Text mining system for analysis target data, a text mining method for analysis target data and a recording medium for recording analysis target data
CN104517106B (zh) * 2013-09-29 2017-11-28 北大方正集团有限公司 一种列表识别方法与系统
US9858923B2 (en) * 2015-09-24 2018-01-02 Intel Corporation Dynamic adaptation of language models and semantic tracking for automatic speech recognition
EP3575987A1 (en) * 2018-06-01 2019-12-04 Fortia Financial Solutions Extracting from a descriptive document the value of a slot associated with a target entity

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007286355A (ja) 2006-04-17 2007-11-01 Masanori Fukushima 学習支援装置および学習支援方法
JP2009157643A (ja) 2007-12-26 2009-07-16 Mizuho Information & Research Institute Inc 説明表示システム、説明表示方法及び説明表示プログラム

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2141221A1 (en) * 1992-09-04 1994-03-17 Jaime G. Carbonell Integrated authoring and translation system
JP2003085181A (ja) 2001-09-07 2003-03-20 Japan Science & Technology Corp 事典システム
NO316480B1 (no) * 2001-11-15 2004-01-26 Forinnova As Fremgangsmåte og system for tekstuell granskning og oppdagelse
WO2005096182A1 (ja) * 2004-03-31 2005-10-13 Matsushita Electric Industrial Co., Ltd. 情報抽出システム
US20060074980A1 (en) * 2004-09-29 2006-04-06 Sarkar Pte. Ltd. System for semantically disambiguating text information
JP4924950B2 (ja) * 2005-02-08 2012-04-25 日本電気株式会社 質問応答データ編集装置、質問応答データ編集方法、質問応答データ編集プログラム
US7376551B2 (en) 2005-08-01 2008-05-20 Microsoft Corporation Definition extraction
CN100474301C (zh) 2005-09-08 2009-04-01 富士通株式会社 基于数据挖掘获取词或词组单元译文信息的系统和方法
US20090019362A1 (en) * 2006-03-10 2009-01-15 Avri Shprigel Automatic Reusable Definitions Identification (Rdi) Method
US7657421B2 (en) * 2006-06-28 2010-02-02 International Business Machines Corporation System and method for identifying and defining idioms
KR20080037323A (ko) 2006-10-26 2008-04-30 주식회사 문깡 영어학습방법
US20080249764A1 (en) * 2007-03-01 2008-10-09 Microsoft Corporation Smart Sentiment Classifier for Product Reviews
KR20090035346A (ko) 2007-10-05 2009-04-09 박철 어휘 분석을 수행하는 어학학습 방법
CN101441636A (zh) 2007-11-21 2009-05-27 中国科学院自动化研究所 一种基于知识库的医院信息搜索引擎及系统
US20090327210A1 (en) * 2008-06-27 2009-12-31 Microsoft Corporation Advanced book page classification engine and index page extraction
US20100063797A1 (en) * 2008-09-09 2010-03-11 Microsoft Corporation Discovering question and answer pairs
US7937386B2 (en) * 2008-12-30 2011-05-03 Complyon Inc. System, method, and apparatus for information extraction of textual documents

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007286355A (ja) 2006-04-17 2007-11-01 Masanori Fukushima 学習支援装置および学習支援方法
JP2009157643A (ja) 2007-12-26 2009-07-16 Mizuho Information & Research Institute Inc 説明表示システム、説明表示方法及び説明表示プログラム

Also Published As

Publication number Publication date
KR20110044345A (ko) 2011-04-29
JP5690829B2 (ja) 2015-03-25
JP2013506187A (ja) 2013-02-21
WO2011049313A3 (ko) 2011-09-01
US20120197894A1 (en) 2012-08-02
WO2011049313A9 (ko) 2011-06-30
CN102576367B (zh) 2014-09-10
US8666987B2 (en) 2014-03-04
CN102576367A (zh) 2012-07-11
WO2011049313A2 (ko) 2011-04-28

Similar Documents

Publication Publication Date Title
US20180366013A1 (en) System and method for providing an interactive visual learning environment for creation, presentation, sharing, organizing and analysis of knowledge on subject matter
US20140163963A2 (en) Methods and Systems for Automated Text Correction
US20230069935A1 (en) Dialog system answering method based on sentence paraphrase recognition
Shekhawat Sentiment classification of current public opinion on brexit: Naïve Bayes classifier model vs Python’s Textblob approach
KR101072100B1 (ko) 표현 및 설명 추출을 위한 문서 처리 장치 및 방법
Sarveswaran et al. Building a Part of Speech tagger for the Tamil Language
CN111199151A (zh) 数据处理方法、及数据处理装置
Ma et al. Latexify math: Mathematical formula markup revision to assist collaborative editing in math Q&A sites
Suman et al. Gender Age and Dialect Recognition using Tweets in a Deep Learning Framework-Notebook for FIRE 2019.
Liesenfeld et al. Building and curating conversational corpora for diversity-aware language science and technology
Shweta et al. Comparative study of feature engineering for automated short answer grading
Sliwa et al. Multi-lingual argumentative corpora in english, turkish, greek, albanian, croatian, serbian, macedonian, bulgarian, romanian and arabic
Trye et al. A hybrid architecture for labelling bilingual māori-english tweets
CN114970516A (zh) 数据增强方法及装置、存储介质、电子设备
Hernandez et al. Multimodal corpus analysis of autoblog 2020: lecture videos in machine learning
Khoufi et al. Chunking Arabic texts using conditional random fields
Lee Natural Language Processing: A Textbook with Python Implementation
Mahdi Survey: using BERT model for Arabic Question Answering System.
Zhang Russian speech conversion algorithm based on a parallel corpus and machine translation
Jia et al. Learning natural ordering of tags in domain-specific Q&A sites
KR102419648B1 (ko) 언어의 구체성 및 설득 전략 나열에 기반하여 문서의 설득력을 판단하고 향상시키는 방법 및 시스템
Nyetanyane et al. UmobiTalk: Ubiquitous Mobile Speech Based Translator for Sesotho Language
KR20110034797A (ko) 문서 처리 장치 및 방법
González-López et al. A Model for Identifying Steps in Undergraduate Thesis Methodology
Atwell et al. Multi-level disambiguation grammar inferred from English corpus, treebank, and dictionary

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee