KR100941155B1 - 온톨로지의 도메인 정보를 이용한 문서 요약 방법 및 장치 - Google Patents

온톨로지의 도메인 정보를 이용한 문서 요약 방법 및 장치 Download PDF

Info

Publication number
KR100941155B1
KR100941155B1 KR1020070096013A KR20070096013A KR100941155B1 KR 100941155 B1 KR100941155 B1 KR 100941155B1 KR 1020070096013 A KR1020070096013 A KR 1020070096013A KR 20070096013 A KR20070096013 A KR 20070096013A KR 100941155 B1 KR100941155 B1 KR 100941155B1
Authority
KR
South Korea
Prior art keywords
document
domain
ontology
word
noun
Prior art date
Application number
KR1020070096013A
Other languages
English (en)
Other versions
KR20090003090A (ko
Inventor
최미란
장명길
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Publication of KR20090003090A publication Critical patent/KR20090003090A/ko
Application granted granted Critical
Publication of KR100941155B1 publication Critical patent/KR100941155B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

본 발명은 온톨로지의 도메인 정보를 이용한 문서 요약 장치 및 방법에 관한 것으로, 온톨로지의 도메인 정보를 이용하여 문서를 효과적으로 요약하기 위한 장치 및 방법을 제공하는 데 있다. 이를 위하여 본 발명의 일실시 예에 따른 문서 요약 방법은, 문서 요약 장치가 온톨로지 구축을 위하여 입력되는 문서를 기반으로 온톨로지를 자동으로 구축하는 단계; 상기 문서 요약 장치가 요약을 위하여 입력되는 문서를 형태소 분석하여 명사를 추출하는 단계; 상기 문서 요약 장치가 상기 온톨로지로부터 상기 명사의 도메인을 추출하는 단계; 및 상기 문서 요약 장치가 상기 도메인으로 구성되는 요약본을 생성하는 단계를 포함한다. 그럼으로써, 본 발명은, 온톨로지의 도메인 정보를 이용하여 문서의 요약본을 효과적으로 생성할 수 있는 이점이 있다.
온톨로지, 도메인, 문서 요약

Description

온톨로지의 도메인 정보를 이용한 문서 요약 방법 및 장치{THE METHOD AND APPARATUS FOR SUMMARIZING DOCUMENT USING DOMAIN OF ONTOLOGY}
본 발명은 문서 요약 장치 및 방법에 관한 것으로, 특히 온톨로지의 도메인 정보를 이용하여 문서의 내용을 요약하기 위한 장치 및 방법에 관한 것이다.
본 발명은 정보통신부 및 정보통신연구진흥원의 IT신성장동력핵심기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2006-S-036-01, 과제명: 신성장동력산업용 대용량 대화형 분산 처리 음성인터페이스 기술개발].
온톨로지(Ontology)란 어휘, 용어, 어휘 목록, 사전 등과 같은 어휘 집합을 기반으로 하며, 통제 어휘집, 시소러스, 어휘망 등을 포함하는 개념, 속성 등이 내부적으로 형성된 상위의 지식 구조 체계를 말한다.
종래 온톨로지를 구축하는 방법은 수십만, 수백만 개의 용어들을 일일이 타이핑하는 수작업에 의하여 이루어졌다. 이와 같은 불편함을 해소하기 위하여 온톨로지 구축 작업의 효율을 높이기 위한 소프트웨어가 개발되었는데 이 중에는 미국 스탠포드 대학의 의료 정보 기관인 SMI(Stanford Medical Informatics)에서 개발한 'protege 2000'있다. 그러나 상기 소프트웨어는 온톨로지에 대한 정확한 이해와 지식 없이는 사용이 불가능 하였다.
이 후, 한국 전자 통신 연구원(Electronics and Telecommunications Research Institute : ETRI)에서 복잡한 온톨로지를 그래픽 다이어그램으로 생성 및 편집할 수 있는 프로그램인 이지아울(ezOWL)을 개발하였다. 이지아울은 온톨로지 형식에 대한 지식 없이도 그 내용을 쉽게 파악, 제작할 수 있도록 만들어졌다.
그러나, 상기와 같은 소프트웨어를 사용하더라도 사용자는 온톨로지를 구축함에 있어 속성 관계 등을 수동으로 입력해야하는 불편함이 있다.
한편, 종래 문서 내용을 요약하기 위한 방법으로 추출 요약 방식과 생성 요약 방식이 사용되었다. 추출 요약 방식은 문서에 존재하는 단어, 구 및 문장을 그대로 추출하는 방법으로 그 사용이 쉬우나, 요약문의 응집도 및 가독성이 부족한 단점이 있다. 또한, 문서에 포함된 다양한 종류의 어휘적 특성으로 인하여 추출된 단어 등이 문서 내용을 효과적으로 나타내지 못하는 어려움이 있다.
한편, 생성 요약 방식은 문서의 내용을 압축하여 새로운 문서를 작성하는 방식으로, 자연어 처리 기술이 기초 요건이 된다. 따라서, 자연어 처리 기술이 충분히 밑받침되었을 때 그 결과가 만족스럽게 된다. 그러나, 현재의 자연어 처리 기술을 사용하는 생성 요약 방식은 문서 내용을 정확하게 표현하지 못하며, 또한 대규모 문서의 표현에 있어서 그 효율성이 떨어지는 단점이 있다.
따라서, 효과적으로 문서의 내용을 요약하기 위한 방법이 요구된다.
따라서, 본 발명의 목적은, 온톨로지의 도메인 정보를 이용하여 문서를 효과적으로 요약하기 위한 장치 및 방법을 제공하는 데 있다.
또한, 본 발명의 다른 목적은, 언어 자원으로부터 개념, 속성 등의 정보를 추출하여 자동으로 온톨로지를 구축하기 위한 장치 및 방법을 제공하는 데 있다.
또한, 본 발명의 다른 목적은, 하기의 설명 및 본 발명의 일실시 예에 의하여 파악될 수 있다.
이를 위하여 본 발명에 따른 문서 요약 방법은, 문서 요약 장치가 온톨로지 구축을 위하여 입력되는 문서를 기반으로 온톨로지를 자동으로 구축하는 단계; 상기 문서 요약 장치가 요약을 위하여 입력되는 문서를 형태소 분석하여 명사를 추출하는 단계; 상기 문서 요약 장치가 상기 온톨로지로부터 상기 명사의 도메인을 추출하는 단계; 및 상기 문서 요약 장치가 상기 도메인으로 구성되는 요약본을 생성하는 단계를 포함한다.
또한, 이를 위하여 본 발명에 따른 문서 요약 장치는, 온톨로지 구축을 위하여 입력되는 문서를 기반으로 온톨로지를 자동으로 구축하는 온톨로지 구축부; 요약을 위하여 입력되는 문서를 형태소 분석하여 명사를 추출하는 형태소 분석부; 상기 명사의 도메인을 상기 온톨로지로부터 추출하는 도메인 처리부; 및 상기 도메인으로 구성되는 요약본을 생성하는 문서 요약부를 포함한다.
상술한 바와 같이 본 발명은, 언어 자원으로부터 단어 및 상기 단어에 관한 개념 및 상기 단어들의 속성 관계를 추출하여 RDF 형식으로 변환함으로써, 자동으로 온톨로지를 구축할 수 있는 이점이 있다.
또한, 본 발명은, 온톨로지의 도메인 정보를 이용하여 효과적으로 문서의 요약본을 생성할 수 있는 이점이 있다. 예를 들어, 문서를 번역함에 있어, 두 가지 이상의 뜻을 갖는 단어를, 문서 내에 포함된 다른 단어들이 속하는 도메인 정보를 참조하여 상기 문서의 내용에 적합한 뜻으로 번역할 수 있는 이점이 있다.
이하, 본 발명의 바람직한 실시 예들을 첨부한 도면을 참조하여 상세히 설명한다. 또한, 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능 및 구성에 대한 상세한 설명을 생략한다.
도 1은 본 발명의 일실시 예에 따른 온톨로지 자동 구축 장치의 블록 구성도이다. 도 1을 참조하면, 본 발명의 일실시 예에 따른 온톨로지 자동 구축 장치는 문서 입력부(100), 개념 추출부(110), 속성 추출부(120) 및 파일 변환부(130)를 포함한다.
문서 입력부(100)는, 외부로부터 입력되는 문서를 개념 추출부(110) 및 속성 추출부(120)로 출력한다. 입력되는 문서란, 어휘 사전, 용어 사전, 전문 분야 사전 등의 각 종 사전, 통제 어휘집, 시소러스, 어휘망 등을 포함하는 언어 자원을 의미한다.
개념 추출부(110)는, 문서 입력부(100)로부터 입력되는 문서로부터 단어 및 단어에 대한 개념을 추출하여 파일 변환부(130)로 출력한다.
속성 추출부(120)는, 문서 입력부(100)로부터 입력되는 문서로부터 단어 및 각 단어 간의 상하, 유의, 반의, 동의 관계 등의 속성을 추출하여 파일 변환부(130)로 출력한다.
파일 변환부(130)는, 개념 추출부(100) 및 속성 추출부(120)로부터 추출된 단어, 상기 단어에 대한 개념 및 상기 단어 간의 속성 관계를 설정 형식으로 변환하고, 이를 결합하여 자동으로 온톨로지를 구축한다. 이 때, 설정 형식으로의 변환은 OWL(Ontology Web Language), RDF(Resource Description Framework), DAML+OIL 등의 다양한 온톨로지 언어를 사용할 수 있다. 이하, 본 발명의 실시 예에서는 온톨로지를 RDF 형식으로 변환하는 예를 들어 설명한다.
예를 들어, 문서 입력부(100)로부터 입력된 문서로부터 개념 추출부(110)에서 추출한 단어 및 단어에 대한 개념이 <표 1>과 같고, 속성 추출부(120)에서 추출한 단어 및 각 단어 간의 상하 관계가 <표 2>와 같다고 가정한다.
4197 사람 사람_0 생각을 하고 언어를 사용하며, 도구를 만들어 쓰고 사회를 이루어 사는 동물
5197 운동선수 운동선수_0 운동 경기에 뛰어난 재주가 있거나 전문적으로 운동을 하는 사람
6197 최경주 최경주_0 골프선수
사람 / 운동선수 / 최경주
파일 변환부(130)는 <표 1> 및 <표 2>와 같이 추출된 단어, 상기 단어에 대한 개념 및 상기 단어 간의 속성을 RDF 형식으로 변환한다.
<표 3>은 <표 1>과 같이 추출된 단어 및 상기 단어에 대한 개념을 RDF 형식으로 변환한 예를 보여준다.
<owl:Class rdf:ID="사람"> <rdfs:isDefinedBy xml:lang="ko">생각을 하고 언어를 사용하며, 도구를 만들어 쓰고 사회를 사는 동물 </rdfs:isDefinedBy> <rdfs:comment xml:lang="ko">[ETRI_ont_id]4197</rdfs:comment> <rdfs:comment xml:lang="ko">[sem_code]사람_0</rdfs:comment> </owl:Class>
<owl:Class rdf:ID="운동선수"> <rdfs:isDefinedBy xml:lang="ko">운동 경기에 뛰어난 재주가 있거나 전문적으로 운동을 하는 사람 </rdfs:isDefinedBy> <rdfs:comment xml:lang="ko">[ETRI_ont_id]5197</rdfs:comment> <rdfs:comment xml:lang="ko">[sem_code]운동선수_0</rdfs:comment> </owl:Class>
<owl:Class rdf:ID="최경주"> <rdfs:isDefinedBy xml:lang="ko">골프선수 </rdfs:isDefinedBy> <rdfs:comment xml:lang="ko">[ETRI_ont_id]6197</rdfs:comment> <rdfs:comment xml:lang="ko">[sem_code]최경주_0</rdfs:comment> </owl:Class>
<표 4>는 <표 2>와 같이 추출된 단어 및 상기 각 단어 간의 속성을 RDF 형식으로 변환한 예를 보여준다.
<owl:Class rdf:ID="운동선수"> <rdfs:subClassOf> <owl:Class rdf:ID="사람"/> </rdfs:subClassOf> </owl:Class>
<owl:Class rdf:ID="최경주"> <rdfs:subClassOf> <owl:Class rdf:ID="운동선수"/> </rdfs:subClassOf> </owl:Class>
파일 변환부(130)는 <표 3> 및 <표 4>와 같이 RDF 형식으로 변환된 파일을 결합하여 온톨로지를 구축한다. <표 5>는 <표 3> 및 <표 4>와 같이 RDF 형식으로 변환된 파일을 하나로 결합한 예를 보여준다.
<owl:Class rdf:ID="사람"> <rdfs:isDefinedBy xml:lang="ko">생각을 하고 언어를 사용하며, 도구를 만들어 쓰고 사회를 사는 동물 </rdfs:isDefinedBy> <rdfs:comment xml:lang="ko">[ETRI_ont_id]4197</rdfs:comment> <rdfs:comment xml:lang="ko">[sem_code]사람_0</rdfs:comment> </owl:Class>
<owl:Class rdf:ID="운동선수"> <rdfs:isDefinedBy xml:lang="ko">운동 경기에 뛰어난 재주가 있거나 전문적으로 운동을 하는 사람 </rdfs:isDefinedBy> <rdfs:comment xml:lang="ko">[ETRI_ont_id]5197</rdfs:comment> <rdfs:comment xml:lang="ko">[sem_code]운동선수_0</rdfs:comment> <rdfs:subClassOf> <owl:Class rdf:ID="사람"/> </rdfs:subClassOf> </owl:Class>
<owl:Class rdf:ID="최경주"> <rdfs:isDefinedBy xml:lang="ko">골프선수 </rdfs:isDefinedBy> <rdfs:comment xml:lang="ko">[ETRI_ont_id]6197</rdfs:comment> <rdfs:comment xml:lang="ko">[sem_code]최경주_0</rdfs:comment> <rdfs:subClassOf> <owl:Class rdf:ID="운동선수"/> </rdfs:subClassOf> </owl:Class>
<표 6>은 <표 5>와 같이 결합, 생성된 RDF 파일 형식의 온톨로지를 테이블 형식으로 보여주는 예이다.
... ... ...
... ...
사람 : 생각을 하고 언어를 사용하며, 도구를 만들어 쓰고 사회를 사는 동물 운동선수 : 운동 경기에 뛰어난 재주가 있거나 전문적으로 운동을 하는 사람 ##최경주 : 골프선수 ##선동렬 : 야구선수 ##홍명보 : 축구선수
화가 : 그림을 그리는 것을 직업으로 하는 사람 ##고흐 : 인상파화가 ##달리 : 초현실주의화가
... ...
... ... ...
... ...
상기와 같은 본 발명의 일실시 예에 의한 온톨로지 자동 구축 장치는 입력된 문서로부터 단어, 상기 단어에 대한 개념 및 상기 단어 간의 속성을 추출하여 RDF 형식으로 변환 및 결합함으로써 자동으로 온톨로지를 구축할 수 있다.
도 2는 본 발명의 일실시 예에 의한 온톨로지 자동 구축 과정을 나타내는 흐름도이다. 이하, 도 2를 참조하여 본 발명의 일실시 예에 의한 온톨로지 자동 구축 과정을 설명하되, 각 단계에서의 설명 중 상기 도 1에 관한 설명과 중복되는 내용은 이를 생략한다.
단계(200)에서 문서 입력부(100)는 입력된 문서를 개념 추출부(110) 및 속성 추출부(120)로 출력한다.
단계(210)에서 개념 추출부(110)는 입력된 문서로부터 단어 및 상기 단어에 대한 개념을 추출하여 파일 변환부(130)로 출력한다. 또한, 단계(210)에서 속성 추출부(120)는 입력된 문서로부터 단어 및 상기 단어 간의 속성을 추출하여 파일 변환부(130)로 출력한다.
단계(220)에서 파일 변환부(130)는 개념 추출부(110)에서 추출된 단어 및 상기 단어에 대한 개념을 RDF 형식으로 변환한다. 또한, 단계(220)에서 파일 변환부(130)는 속성 추출부(120)에서 추출된 단어 및 상기 단어 간의 속성 관계를 RDF 형식으로 변환한다.
단계(230)에서 파일 변환부(130)는 상기 변환된 RDF 형식의 파일을 결합하여 온톨로지를 구축한다.
이하에서는, 본 발명의 실시 예에 따른 문서 요약 장치 및 방법에 관하여 설명한다.
도 3은 본 발명의 일실시 예에 따른 문서 요약 장치의 블록 구성도이다. 본 발명에 따른 문서 요약 장치는 형태소 분석부(300), 도메인 처리부(310), 온톨로지 데이터 베이스(311), 문서 요약부(320) 및 문서 출력부(330)를 포함한다.
형태소 분석부(300)는 입력된 문서에 대하여 형태소 분석을 수행하고, 명사를 추출한 후, 추출된 명사를 도메인 처리부(310)로 출력한다. 이하, 형태소 분석부(300)의 동작을 상세히 설명한다.
문서가 입력되면 형태소 분석부(300)는 문서 내의 문장들을 태깅하는 태깅 작업을 거치게 된다. <표 6>은 '어제 최경주가 PGA 골프에서 우승을 했다'라는 문장에 대하여 태깅 작업을 한 결과를 보여준 예이다.
태깅 결과
어제 MAG
최경주 NNP+
JKS
PGA SL
골프 NNG+
에서 JKB
우승 NNG+
JKO
VV+
EP
EF+
. SF
<표 7>과 같이 태깅 작업을 마친 후에 형태소 분석부(300)는 명사를 추출한다. 도 4는 형태소 분석표를 나타내는 예시도이다. 도 4를 참조하면, <표 7>의 태깅 결과에서 명사는 '최경주 / NNP', 'PGA / SL', '골프 / NNG' 및 '우승 / NNG'임을 알 수 있다. 형태소 분석부(300)는 위와 같이 추출된 명사를 도메인 처리부(310)로 출력한다.
다시 도 3을 참조하면, 도메인 처리부(310)는 온톨로지 데이터 베이스(311)를 참조하여 형태소 분석부(300)에서 추출된 명사의 도메인을 추출한다.
온톨로지 데이터 베이스(311)는 언어 자원으로부터 추출된 단어, 상기 단어에 대응하는 개념 및 상기 단어 간의 속성 정보를 저장한다. 이하, 본 발명의 일실시 예에 따른 온톨로지의 예를 도 5를 참조하여 설명하면 다음과 같다.
도 5는 트리 형식의 온톨로지를 보여주는 예시도이다. 도 5를 보면, 최상위 도메인 '스포츠, 사람, 동물'과 중간 도메인'종목, 대회, 포상, 운동선수, 종교인, 관직, 곤충' 그리고, 최하위 도메인 '골프, PGA, 최경주, 우승' 등이 서로 연결되어 있는 것을 알 수 있다. 도 5에서 각 단어에 대한 개념 정보는 설명의 편의를 위하여 일부만 도시하였다.
도 5를 보면, '우승' 이라는 단어는 다양한 의미를 갖는 것을 알 수 있다. '우승'이라는 단어는 '쇠파리', '조선시대 벼슬이름', '승려', '조선시대 역승' 및 '경기에서 첫째를 차지하다'라는 의미를 갖는다.
<표 8>은 도 5와 같은 트리 형식의 온톨로지를 테이블 형식으로 보여준 예이다.
스포츠 종목 ##골프 : "..." ##야구 : "..." ##축구 : "..."
대회 ##PGA : "..."
포상 ##우승 : "경기에서 첫째를 차지하다 " ##메달 : "..."
운동선수 ##최경주 : "골프선수" ##최홍만 : "..."
사람 운동선수 ##최경주 : "골프선수" ##최홍만 : "..."
종교인 ##우승 : "승려" ##신부 : "..."
관직 ##우승 : "조선시대 벼슬이름" ##우승 : "조선시대 역승" ##대통령 : "..."
동물 곤충 ##우승 : "쇠파리" ##나비 : "..."
<표 8>을 참조하여, 위 예문에서 형태소 분석하여 추출된 명사 '최경주, PGA, 골프, 우승'가 속하는 도메인을 살펴보면 다음과 같다.
'PGA'는 '스포츠 / 대회'라는 도메인에, '골프'는 '스포츠 / 종목'이라는 도메인에 속한다. 한편, '최경주'는 '스포츠 / 운동선수' 및 '사람 / 운동선수'이라는 두 가지 도메인에 속하며, '우승'은 '스포츠 / 포상', '사람 / 종교인', '사람 / 관직' 및 '동물 / 곤충'이라는 네 가지 도메인에 속한다.
이처럼, 도메인 처리부(310)가 도메인 정보를 추출할 때, 위 예에서 본 '우승'과 같이 여러 도메인에 속하는 단어의 의미 중의성을 해소한 후, 상기 단어가 속하는 도메인을 결정하는 것이 필요하다.
이 때, 위와 같은 의미 중의성을 해소하기 위해서, 같은 문장 또는 같은 문서 내에 존재하는 명사가 속하는 도메인과의 적합성을 판단한다. 이를 상세히 설명하면 다음과 같다.
'PGA' 와 '골프' 라는 단어에서는 '스포츠'라는 도메인이 추출된다. 다음으로, '최경주'라는 단어는 두 가지 최상위 도메인을 갖는데, 그 중 하나는 '스포츠' 이고, 그 중 하나는 '사람'이다. 이 때, 같은 문장 내에 존재하는 두 단어 'PGA, 골프'가 스포츠라는 도메인에 속하여 있기 때문에, 도메인 처리부(310)는 '최경주'라는 단어에 대하여 '스포츠'라는 도메인을 결정하게 된다. 또한, '우승'이라는 단어에 대하여도 'PGA, 골프, 최경주'라는 같은 문장 내에 존재하는 단어가 속하는 도메인과의 의미 적합성을 판단하여, '우승'에 대하여 '스포츠'라는 최상위 도메인을 추출하게 된다.
이 때, 만약 '최경주'라는 단어에 대하여 '스포츠'라는 도메인을 결정하지 않고, '사람'이라는 도메인을 결정한 경우, 'PGA', '골프' 에 대하여는 '스포츠' 도메인, '최경주'라는 단어에 대하여는 '사람'이라는 두 가지 도메인이 한 문장 내에서 추출된다. 이 때, '우승'이라는 단어에 대하여 도메인을 추출하는 경우, '우승'은 '스포츠'도메인에도 속하고, '사람' 도메인에도 속하기 때문에 둘 중 하나의 도메인을 결정하는 것이 필요하다. 이 때, '우승' 이라는 단어에 대한 도메인을 결정함에 있어서, 한 문장 또는 한 문서 내에 존재하는 다른 단어가 속하는 도메인의 빈도에 따라 이를 결정할 수 있다. 즉, 위 예의 문장에서 '스포츠'라는 도메인은 두 번 추출되고, '사람'이라는 도메인은 한 번 추출되기 때문에, 그 빈도수가 더 많은 '스포츠'라는 도메인을 '우승'이라는 단어의 도메인으로 결정할 수 있다.
다시 도 3을 참조하면, 문서 요약부(320)는 형태소 분석부(300)에서 추출된 명사 및 도메인 처리부(310)에서 추출 및 결정된 도메인의 요약본을 생성한다. 문서 요약부(320)는 문서의 요약본을 생성할 때, 문서 내에서 추출된 도메인만의 요약본을 생성할 수도 있고, 추출된 도메인과 추출된 명사의 요약본을 생성할 수도 있다. 또한, 문서 내에서 일정 빈도 이상 나타나는 명사 및 도메인을 벡터 형식의 요약본으로 생성할 수도 있다.
위 예의 문장에 대하여 문서 요약을 한 것을 보면 <표 9> 및 <표 10>과 같다.
고빈도 명사 최경주, PGA, 골프, 우승
고빈도 도메인 스포츠
고빈도 명사 우승(23.5%), 골프(19.7%), 대회(14.5%), 최경주(11.2%)
고빈도 도메인 스포츠(15.5%), 골프(12.4%), 선수(12.3%), 대회(10.9%)
<표 9>는 문서 내에 존재하는 고빈도 명사와 상기 명사가 속하는 고빈도 최상위 도메인만의 요약본을 생성한 예이고, <표 10>은 문서 내에 존재하는 고빈도 명사 및 상기 고빈도 명사가 속하는 최상위 및 중간 도메인을 벡터 형식의 요약본으로 생성한 예이다. 이 때, 요약할 임계치를 설정하여(예를 들어, 10% 이상의 빈도로 나타나는) 고빈도 명사 및 고빈도 도메인을 추출할 수 있다.
도 6은 본 발명의 일실시 예에 따른 문서 요약 과정을 나타내는 흐름도이다. 이하, 도 6을 참조하여 본 발명의 실시 예에 따른 문서 요약 과정을 살펴본다. 또한, 각 단계에서의 설명 중 상기 도 3 내지 도 5에서 설명한 내용은 중복을 피하기 위하여 이를 생략한다.
단계(600)에서 형태소 분석부(400)는 입력된 문서를 태깅하여 형태소를 분석한 후, 단계(610)로 진행한다. 단계(610)에서 형태소 분석부(400)는 태깅된 형태소로부터 명사를 추출하고, 상기 추출된 명사를 도메인 처리부(410)로 출력한 후, 단계(620)로 진행한다.
단계(620)에서 도메인 처리부(410)는 온톨로지 데이터 베이스(411)를 참조하여, 단계(610)에서 추출된 명사의 도메인을 추출한 후, 단계(630)로 진행한다. 단계(630)에서 도메인 처리부(410)는 단계(610)에서 추출된 명사 중 다수의 도메인에 속하는 의미 중의성을 갖는 명사가 있는지 판단하고, 의미 중의성을 갖는 명사가 있다면 단계(640)로 진행하고, 그렇지 않으면 단계(660)로 진행한다.
단계(640)에서 도메인 처리부(410)는 의미 중의성을 갖는 명사와 상기 의미 중의성을 갖는 명사가 속하는 문장 또는 문서 내의 다른 명사들이 속하는 도메인과의 적합성을 판단한 후, 단계(650)로 진행한다. 단계(650)에서 도메인 처리부(410)는 상기 의미 중의성을 갖는 명사에 적합한 도메인을 선택한 후, 단계(660)로 진행한다.
단계(660)에서 문서 요약부(420)는 문서 내에서 추출된 명사와 상기 명사가 속하는 도메인의 요약본을 생성한다. 이 때, 문서 요약부(420)는 문서 내에서 일정한 임계치 이상 존재하는 명사 및 도메인의 요약본을 생성할 수도 있고, 이를 벡터 형식으로 요약본으로 생성할 수도 있다.
상술한 본 발명의 설명에서는 구체적인 실시 예에 관해 설명하였으나, 여러 가지 변형이 본 발명의 범위에서 벗어나지 않고 실시될 수 있다. 따라서, 본 발명의 범위는 설명된 실시 예에 의하여 정할 것이 아니고 특허청구범위와 특허청구범위의 균등한 것에 의해 정해져야 한다.
도 1은 본 발명의 일실시 예에 따른 온톨로지 자동 구축 장치의 블록 구성도,
도 2는 본 발명의 일실시 예에 의한 온톨로지 자동 구축 과정을 나타내는 흐름도,
도 3은 본 발명의 일실시 예에 따른 문서 요약 장치의 블록 구성도,
도 4는 형태소 분석표를 보여주는 예시도,
도 5는 트리 형식의 온톨로지를 보여주는 예시도,
도 6은 본 발명의 일실시 예에 따른 문서 요약 과정을 나타내는 흐름도.

Claims (15)

  1. 문서 요약 장치가 온톨로지 구축을 위하여 입력되는 문서를 기반으로 온톨로지를 자동으로 구축하는 단계;
    상기 문서 요약 장치가 요약을 위하여 입력되는 문서를 형태소 분석하여 명사를 추출하는 단계;
    상기 문서 요약 장치가 상기 온톨로지로부터 상기 명사의 도메인을 추출하는 단계; 및
    상기 문서 요약 장치가 상기 도메인으로 구성되는 요약본을 생성하는 단계
    를 포함하는 문서 요약 방법.
  2. 제 1항에 있어서, 상기 도메인을 추출하는 단계는,
    상기 명사 중 둘 이상의 도메인에 속하는 의미 중의성을 갖는 명사가 있는 경우, 상기 문서 요약 장치가 상기 문서 내에 존재하는 타 명사가 속하는 도메인 중 빈도수가 가장 높은 도메인을 상기 명사의 도메인으로 결정하는 단계
    를 더 포함하는 문서 요약 방법.
  3. 제 1항 또는 제 2항에 있어서, 상기 요약본을 생성하는 단계는,
    상기 문서 요약 장치가 상기 도메인의 비율을 나타내는 상기 요약본을 생성하는 단계
    를 더 포함하는 문서 요약 방법.
  4. 제 1항 또는 제 2항에 있어서, 상기 요약본을 생성하는 단계는,
    상기 문서 요약 장치가 미리 정해진 임계치 이상 추출된 도메인으로 구성되는 상기 요약본을 생성하는 단계
    를 포함하는 문서 요약 방법.
  5. 제 1항 또는 제 2항에 있어서, 상기 요약본을 생성하는 단계는,
    상기 문서 요약 장치가 상기 도메인 및 상기 명사로 구성되는 상기 요약본을 생성하는 단계
    를 포함하는 문서 요약 방법.
  6. 제 1항에 있어서, 상기 온톨로지를 자동으로 구축하는 단계는,
    상기 문서 요약 장치가 상기 온톨로지 구축을 위하여 입력되는 문서로부터 단어 및 상기 단어에 대응하는 개념을 추출하는 단계;
    상기 문서 요약 장치가 상기 단어 간의 속성 정보를 추출하는 단계; 및
    상기 문서 요약 장치가 상기 단어, 상기 단어에 대응하는 개념 및 상기 단어 간의 속성 정보를 선정된 형식으로 변환하는 단계
    를 포함하는 문서 요약 방법.
  7. 제 6항에 있어서, 상기 선정된 형식은,
    RDF(Resource Description Framework) 형식인
    문서 요약 방법.
  8. 제 6항에 있어서, 상기 온톨로지 구축을 위하여 입력되는 문서는,
    어휘 사전, 용어 사전, 전문 분야 사전, 통제 어휘집 및 시소러스 중 적어도 하나를 포함하는
    문서 요약 방법.
  9. 제 6항에 있어서, 상기 속성 정보는,
    상기 단어 간의 상하, 반의, 유의 및 동의 관계 중 적어도 하나에 관한 속성 정보인
    문서 요약 방법.
  10. 온톨로지 구축을 위하여 입력되는 문서를 기반으로 온톨로지를 자동으로 구축하는 온톨로지 구축부;
    요약을 위하여 입력되는 문서를 형태소 분석하여 명사를 추출하는 형태소 분석부;
    상기 명사의 도메인을 상기 온톨로지로부터 추출하는 도메인 처리부; 및
    상기 도메인으로 구성되는 요약본을 생성하는 문서 요약부
    를 포함하는 문서 요약 장치.
  11. 제 10항에 있어서, 상기 도메인 처리부는,
    상기 명사 중 둘 이상의 도메인에 속하는 의미 중의성을 갖는 명사가 있는 경우, 상기 요약을 위하여 입력되는 문서 내에 존재하는 타 명사가 속하는 도메인 중 빈도수가 가장 높은 도메인을 상기 명사의 도메인으로 결정하는
    문서 요약 장치.
  12. 제 10항 또는 제 11항에 있어서, 상기 문서 요약부는,
    상기 도메인의 비율을 나타내는 상기 요약본을 생성하는
    문서 요약 장치.
  13. 제 10항 또는 제 11항에 있어서, 상기 문서 요약부는,
    미리 정해진 임계치 이상 추출된 도메인으로 구성되는 상기 요약본을 생성하는
    문서 요약 장치.
  14. 제 10항 또는 제 11항에 있어서, 상기 문서 요약부는,
    상기 도메인 및 상기 명사로 구성되는 상기 요약본을 생성하는
    문서 요약 장치.
  15. 제 10항에 있어서, 상기 온톨로지 구축부는,
    상기 온톨로지 구축을 위하여 입력되는 문서로부터 단어, 상기 단어에 대응하는 개념 및 상기 단어 간의 속성 정보를 추출한 후, 상기 단어, 상기 단어에 대응하는 개념 및 상기 단어 간의 속성 정보를 선정된 형식으로 변환하는
    문서 요약 장치.
KR1020070096013A 2006-12-05 2007-09-20 온톨로지의 도메인 정보를 이용한 문서 요약 방법 및 장치 KR100941155B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20060122276 2006-12-05
KR1020060122276 2006-12-05

Publications (2)

Publication Number Publication Date
KR20090003090A KR20090003090A (ko) 2009-01-09
KR100941155B1 true KR100941155B1 (ko) 2010-02-10

Family

ID=40485968

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070096013A KR100941155B1 (ko) 2006-12-05 2007-09-20 온톨로지의 도메인 정보를 이용한 문서 요약 방법 및 장치

Country Status (1)

Country Link
KR (1) KR100941155B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10210249B2 (en) 2015-03-19 2019-02-19 Abbyy Production Llc Method and system of text synthesis based on extracted information in the form of an RDF graph making use of templates

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010110496A (ko) * 2000-06-05 2001-12-13 문유진 용언을 중심으로 한 의미분석 지식 베이스의 구축방법
KR20020045343A (ko) * 2000-12-08 2002-06-19 오길록 표준화된 문장 구문구조 및 의미구조에 기반한 정보생성/검색 장치 및 그 방법
KR20060064778A (ko) * 2004-12-09 2006-06-14 학교법인 울산공업학원 문장추상화와 개연규칙을 활용하는 문서요약 방법 및 시스템

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010110496A (ko) * 2000-06-05 2001-12-13 문유진 용언을 중심으로 한 의미분석 지식 베이스의 구축방법
KR20020045343A (ko) * 2000-12-08 2002-06-19 오길록 표준화된 문장 구문구조 및 의미구조에 기반한 정보생성/검색 장치 및 그 방법
KR20060064778A (ko) * 2004-12-09 2006-06-14 학교법인 울산공업학원 문장추상화와 개연규칙을 활용하는 문서요약 방법 및 시스템

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10210249B2 (en) 2015-03-19 2019-02-19 Abbyy Production Llc Method and system of text synthesis based on extracted information in the form of an RDF graph making use of templates

Also Published As

Publication number Publication date
KR20090003090A (ko) 2009-01-09

Similar Documents

Publication Publication Date Title
Savary et al. The PARSEME shared task on automatic identification of verbal multiword expressions
Lenci et al. SIMPLE: A general framework for the development of multilingual lexicons
Basile et al. Developing a large semantically annotated corpus
Harabagiu et al. Wordnet 2-a morphologically and semantically enhanced resource
CN108681574B (zh) 一种基于文本摘要的非事实类问答答案选择方法及系统
Boschee et al. Automatic information extraction
Nakov et al. Semantic interpretation of noun compounds using verbal and other paraphrases
ElSayed An Arabic natural language interface system for a database of the Holy Quran
KR100941155B1 (ko) 온톨로지의 도메인 정보를 이용한 문서 요약 방법 및 장치
JP5341375B2 (ja) 対訳表現処理装置およびプログラム
Kuptabut et al. Event Extraction using Ontology Directed Semantic Grammar.
Yeh et al. A unified knowledge based approach for sense disambiguation and semantic role labeling
Christie et al. Multi-document summarization using sentence fusion for Indonesian news articles
Lenci et al. Mapping the Constructicon with SYMPAThy. Italian Word Combinations between fixedness and productivity
JP2009223548A (ja) 対訳表現処理装置およびプログラム
Krzywicki et al. A knowledge acquisition method for event extraction and coding based on deep patterns
Hazman et al. Ontology learning from textual web documents
Jagfeld et al. Towards a better semantic role labeling of complex predicates
Chada et al. An Analysis of The Cortex Method at TAC 2010 KBP Slot-Filling.
Monti et al. The PARSEME multilingual corpus of verbal multiword expressions
Dornescu Semantic QA for encyclopaedic questions: EQUAL in GikiCLEF
Raffl Natural Language Generation system writing football articles
Lefever et al. Parallel corpora make sense: Bypassing the knowledge acquisition bottleneck for Word Sense Disambiguation
Buitelaar et al. Ontology learning and population in smartweb
Refoufi Pronominal anaphora resolution using XML tagged documents

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee