KR20150081994A - 전자문서 기반 지식 구축 방법 및 장치 - Google Patents

전자문서 기반 지식 구축 방법 및 장치 Download PDF

Info

Publication number
KR20150081994A
KR20150081994A KR1020140002056A KR20140002056A KR20150081994A KR 20150081994 A KR20150081994 A KR 20150081994A KR 1020140002056 A KR1020140002056 A KR 1020140002056A KR 20140002056 A KR20140002056 A KR 20140002056A KR 20150081994 A KR20150081994 A KR 20150081994A
Authority
KR
South Korea
Prior art keywords
knowledge
electronic document
unit
content
contents
Prior art date
Application number
KR1020140002056A
Other languages
English (en)
Inventor
윤종현
이석재
이준석
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020140002056A priority Critical patent/KR20150081994A/ko
Publication of KR20150081994A publication Critical patent/KR20150081994A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • G06F40/154Tree transformation for tree-structured or markup documents, e.g. XSLT, XSL-FO or stylesheets

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

전자문서 기반 지식 구축 장치는 주어진 전자문서 집합을 분석하여 전자문서의 내부 구조와 배치된 콘텐츠를 확인하고, 전자문서에 포함된 콘텐츠를 추출하며, 전자문서의 구조와 콘텐츠를 지식 추출 형태로 재구성하고, 재구성된 전자문서에서 콘텐츠를 포함하는 지식 후보를 추출하여 기 구축된 지식 구조에 매핑시킨 후, 기 구축된 지식 구조에 매핑된 지식 후보를 이용하여 지식으로 구축한다.

Description

전자문서 기반 지식 구축 방법 및 장치{METHOD AND APPARATUS FOR CONSTRUCTING TRANSLATION KNOWLEDGE BASED ON ELECTRIC DOCUMENT}
본 발명은 전자문서 기반 지식 구축 방법 및 장치에 관한 것이다.
인터넷과 컴퓨팅 환경의 발달로 다양한 정보를 포함하는 전자문서의 수가 급격히 증가하고 있다. HTML, PDF, Word 등과 같은 전자문서를 기반으로 하는 정보량이 급격히 증가하면서, 이들 전자문서를 분석하여 기계 해석이 가능한 의미 있는 지식으로 구축하려는 다양한 기술적 시도들이 진행되고 있다.
기존의 기술들은 전자문서 내의 텍스트들을 자연어 분석 기술을 사용하여 절, 문장, 키워드 단위의 세그먼트 단위로 잘게 분리하고, 이들 세그먼트들 간의 관계를 트리플과 같은 온톨로지 기반의 기계 해석이 가능한 의미 있는 지식으로 재구축하는 방법을 제안하고 있다.
그러나 과거와 다른 컴퓨팅 환경과 멀티미디어 콘텐츠들의 등장에 따라 더 이상 전자문서는 텍스트만 포함하지 않고, 다양한 멀티미디어 콘텐츠를 포함하고 있으며, 또한 다양한 콘텐츠들이 복잡한 구조에 따라 문서 내에 배치되어 있다. 그러나 기존의 기술들은 문서 내의 콘텐츠 배치 구조나 멀티미디어 콘텐츠의 존재 유무, 문서 내 콘텐츠들의 유기적인 연관 관계 등에 대해서는 크게 고려하지 않고 텍스트 분석을 위주로 지식 구축을 시도하고 있다.
따라서 이들 멀티미디어 콘텐츠를 포함하는 전자문서를 사용자가 보다 쉽게 이해할 수 있도록 효과적으로 지식으로 구축하기 위해서는 문서가 포함하고 있는 텍스트뿐만 아니라, 문서의 구조와 문서에 포함된 콘텐츠들간의 관계, 그리고 문서에 포함된 지식들의 계층적인 관계를 종합적으로 고려할 필요가 있다.
본 발명이 해결하려는 과제는 문서의 구조와 문서에 포함된 콘텐츠들간의 관계, 그리고 문서에 포함된 지식들의 계층적인 관계를 종합적으로 고려하는 전자문서 기반 지식 구축 방법 및 장치를 제공하는 것이다.
본 발명의 한 실시 예에 따르면, 전자문서 기반 지식 구축 장치에서의 지식 구축 방법이 제공된다. 지식 구축 방법은 주어진 전자문서 집합을 분석하여 전자문서의 내부 구조와 배치된 콘텐츠를 확인하는 단계, 상기 전자문서에 포함된 콘텐츠를 추출하는 단계, 상기 전자문서의 구조와 콘텐츠를 지식 추출 형태로 재구성하는 단계, 상기 재구성된 전자문서에서 상기 콘텐츠를 포함하는 지식 후보를 추출하여 기 구축된 지식 구조에 매핑시키는 단계, 그리고 상기 기 구축된 지식 구조에 매핑된 지식 후보를 이용하여 지식으로 구축하는 단계를 포함한다.
본 발명의 실시 예에 의하면, 전자문서 내부 구조와 문서에 포함된 멀티미디어 콘텐츠들의 관계를 분석하고, 이를 기반으로 다양한 분석 기술을 적용하여 의미 있는 지식 후보 집합을 추출하여 지식으로 구축함으로써, 단순 텍스트 기반의 지식 구축에서 벗어나 전자문서가 갖고 있는 다양한 멀티미디어 콘텐츠를 동시에 지식으로 구축할 수 있으며, 구축된 지식에 대한 사용자의 접근성과 이해도를 높일 수 있고, 추후 멀티미디어 콘텐츠와 결합된 다양한 지식서비스를 제공할 수 있다.
또한 전자문서에 포함되어 있는 지식을 구축하는 과정에서 일부 분석 및 지식 후보 추출 과정을 자동화함으로써 지식을 구축하는 시간을 단축시킬 수 있다.
또한 전자문서 분석을 통해 추출된 지식 후보 집합을 기 구축된 지식 구조와 반자동으로 매핑시켜 제공함으로써, 이미 구축된 지식에 대한 중복 구축을 배제시킬 수 있어 지식을 구축하는 시간을 단축시킬 수 있을 뿐만 아니라 일관된 지식 구조를 유지할 수 있다.
도 1은 본 발명의 실시 예에 따른 전자문서 기반 지식 구축 장치를 개략적으로 나타낸 도면이다.
도 2는 본 발명의 실시 예에 따른 전자문서 기반 지식 구축 장치의 지식 구축 방법을 나타낸 흐름도이다.
도 3은 도 1에 도시된 전자문서 분석부에서 분석된 전자문서의 구조와 지식 추출부의 지식 추출 방법의 예시를 나타낸 도면이다.
도 4는 도 1에 도시된 지식 추출부의 지식 추출 방법의 예시를 나타낸 도면이다.
도 5는 도 1에 도시된 지식 추출부의 지식 추출 방법의 다른 예시를 나타낸 도면이다.
도 6은 도 1에 도시된 지식 출력부에서 지식으로 구축된 내용을 원본의 전자문서 상에 투영시켜 출력하는 예시를 나타낸 도면이다.
도 7은 본 발명의 다른 실시 예에 따른 전자문서 기반 지식 구축 장치의 개략적인 도면이다.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시 예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 및 청구범위 전체에서, 어떤 부분이 어떤 구성 요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다.
이제 본 발명의 실시 예에 따른 전자문서 기반 지식 구축 방법 및 장치에 대하여 도면을 참고로 하여 상세하게 설명한다.
도 1은 본 발명의 실시 예에 따른 전자문서 기반 지식 구축 장치를 개략적으로 나타낸 도면이다.
도 1을 참고하면, 전자문서 기반 지식 구축 장치(100)는 전자문서 수집부(110), 전자문서 분석부(120), 콘텐츠 추출부(130), 전자문서 재구성부(140), 지식 추출부(150), 지식 편집부(160), 지식 출력부(170) 및 지식 저장부(180)를 포함한다.
전자문서 수집부(110)는 사용자의 정보 요구에 따라 전자문서를 수집한다. 전자문서는 HTML 문서, PDF 문서, 마이크로소프트 워드 문서, 한글 문서, 전자책(ePub) 등으로, 기계가 그 구조를 분석하여 처리할 수 있는 모든 문서를 포함할 수 있다.
전자문서 분석부(120)는 수집된 전자문서를 전자문서 집합으로 나누고, 전자문서 집합에 있는 전자문서의 구조와 전자문서 내 멀티미디어 콘텐츠를 분석한다. 전자문서 분석부(120)는 사용자 지정에 따라서 수집된 전자문서를 전자문서 집합으로 나눌 수 있다.
콘텐츠 추출부(130)는 분석된 전자문서에서 멀티미디어 콘텐츠를 추출한다. 전자문서에 포함되는 멀티미디어 콘텐츠는 텍스트, 오디오, 비디오와 같은 별도의 파일 포맷을 갖는 물리적인 콘텐츠뿐만 아니라, 표, 수식, 문항, 링크(하이퍼링크)와 같이 기존 콘텐츠를 결합하여 생성한 논리적인 콘텐츠를 포함할 수 있다.
전자문서 재구성부(140)는 전자문서의 구조와 전자문서 내 추출된 멀티미디어 콘텐츠를 기반으로 전자문서의 구조를 지식을 추출할 수 있는 구조로 재구성한다. 지식 구조를 기술하는 언어는 XML(Extensible Markup Language), OWL(Web Ontology Language) 등 해석 처리 장치가 존재하여 기계가 그 의미를 해석 처리할 수 있는 형태의 모든 언어를 포함할 수 있다.
지식 추출부(150)는 재구성된 전자문서에서 지식 후보를 추출한다.
지식 편집부(160)는 지식 후보를 이용하여 의미 있는 지식을 구축한다. 즉 의미 있는 지식은 전자문서에서 산출되는 다양한 콘텐츠들을 학습을 목적으로 재구성하여 생성된다.
지식 출력부(170)는 구축된 지식을 사용자가 지정한 형식으로 출력한다. 지식 출력부(170)는 원본 전자문서 상에 지식을 투영하거나, 또는 별도의 가시화 기술을 적용하여, 지식을 트리, 그래프, 네트워크 등 다양한 형태로 화면에 출력할 수 있고, XML 등 기계가 읽을 수 있는 언어를 사용해서 파일로 출력할 수 있다.
지식 저장부(180)는 구축된 지식을 저장한다. 지식 저장부(180)의 형태는 파일시스템, 데이터베이스 등 정보 저장 및 관리 장치가 존재하여 기계가 처리할 수 있는 형태는 모두 가능하다.
이러한 전자문서 기반 지식 구축 장치(100)는 웹 인터페이스를 제공해서 웹 브라우저를 통해 사용될 수 있고 일반 응용 애플리케이션 형태로 제작되어 사용될 수 있다.
또한 전자문서 기반 지식 구축 장치(100)는 사용자의 로컬 컴퓨터에 구현되어 해당 컴퓨터에서만 사용되거나(Stand-Alone), 서버에 구현되어 여러 사람이 네트워크를 통해 사용할 수 있다(Server-Client).
도 2는 본 발명의 실시 예에 따른 전자문서 기반 지식 구축 장치의 지식 구축 방법을 나타낸 흐름도이다.
도 2를 참고하면, 전자문서 분석부(120)는 주어진 전자문서 집합을 분석해서 기 구축된 지식의 구조와 가장 많이 겹치는 전자문서들을 선별한다(S210). 전자문서 분석부(120)에서 기 구축된 지식의 구조와 주어진 전자문서의 겹치는 정도를 판별하는 기준은 기 구축된 된 지식 구조에 있는 제목 또는 키워드 집합과 관련된 내용이 주어진 전자문서에서 출현하는 빈도수로 설정될 수 있다. 이때 주어진 전자문서와 매핑시킬 기 구축된 지식의 구조는 사용자에 의해 직접 선택될 수 있다.
전자문서 분석부(120)는 선별된 전자문서에 포함되어 있는 각 전자문서의 내부 구조, 즉 콘텐츠 배치 구조와 배치된 멀티미디어 콘텐츠를 확인한다(S220). 콘텐츠 배치 구조는 전자문서의 콘텐츠 배치 형태를 나타내며, 문서 레이아웃과 배치된 콘텐츠간의 관계를 식별하기 위해 문서의 목차 또는 문서의 장, 절과 같은 특별한 텍스트로 식별될 수 있다. 또한 전자문서 분석부(120)는 사용자가 전자문서를 분석하는데 있어서 애매함을 해소할 수 있는 정보를 전자문서에 직접 태깅할 수 있다. 이때 태깅하는 정보의 형태는 키워드 지정, 블록 지정, 페이지 지정 등이 사용될 수 있다.
콘텐츠 추출부(130)는 전자문서에 포함된 멀티미디어 콘텐츠를 추출한다(S230). 콘텐츠 추출부(130)는 문서에 포함된 멀티미디어 콘텐츠를 개별 파일 또는 이진(binary) 및 문자(character) 정보로 추출할 수 있다. 콘텐츠 추출부(130)는 멀티미디어 콘텐츠를 추출하기 위해 다양한 콘텐츠 분석 기술을 사용할 수 있다.
전자문서 재구성부(140)는 전자문서의 내부 구조와 멀티미디어 콘텐츠를 지식 추출이 가능한 형태로 재구성한다(S240). 이때 전자문서 내의 모든 멀티미디어 콘텐츠 요소들은 블록(Block)이라고 불리는 사각형의 다양한 크기를 가질 수 있는 논리적인 영역으로 식별된다. 또한 전자문서의 콘텐츠 배치 구조를 결정짓는 목차, 페이지, 제목, 장, 절과 같은 요소들은 다수의 콘텐츠 블록 또는 다른 요소를 포함할 수 있는 그룹 블록 구조로 식별된다. 블록은 문서 내 실제 콘텐츠들을 포함하는 논리적인 구분 단위이고, 하나의 단일 블록은 반드시 한 종류의 콘텐츠만 포함된다. 블록 그룹은 이종간의 블록을 마치 하나의 블록처럼 동작하도록 논리적으로 묶은 그룹 단위이다.
지식 추출부(150)는 재구성된 전자문서에서 멀티미디어 콘텐츠를 포함하는 지식 후보를 추출하여 기존의 지식 구조에 매핑시킨다(S250). 지식 추출부(150)는 기 구축된 지식의 대표 키워드와 추출된 지식 후보의 제목 또는 키워드 집합의 겹치는 정도를 판별하여 추출된 지식 후보를 기 구축된 지식 구조와 매핑시킬 수 있다. 지식 추출부(150)는 사용자의 지정에 따라서 추출된 지식 후보를 기 구축된 지식 구조와 매핑시킬 수 있다.
지식 편집부(160)는 기존의 지식 구조에 매핑된 지식 후보를 이용하여 의미 있는 지식으로 구축한다(S260). 이때 지식 편집부(160)는 기존의 지식 구조에 매핑된 지식 후보에 대해 사용자의 수작업을 통해 편집될 수 있다. 또한 지식 편집부는 매핑된 후보 지식의 유효성을 검증하고, 기 구축된 지식과의 중복 등을 검증하기 위해, 별도의 지식 편집 인터페이스를 제공할 수 있다.
지식 출력부(170)는 추출된 지식 및 추출된 지식의 매핑 정보를 이용하여 구축된 지식을 사용자가 지정한 형식으로 출력한다(S270).
도 3은 도 1에 도시된 전자문서 분석부에서 분석된 전자문서의 구조와 지식 추출부의 지식 추출 방법의 예시를 나타낸 도면이다.
전자문서 분석부(120)는 전자문서에 포함되어 있는 문서의 내부 구조를 분석하여 도 3에 도시한 바와 같이 트리 형태의 전자문서의 내부 구조를 생성할 수 있다. 전자문서 분석부(120)는 전자문서의 목차 정보 및 페이지를 구성하는 콘텐츠 배치 레이아웃을 분석해서 전자문서의 전체적인 내부 구조를 생성할 수 있다.
분석된 전자문서의 전체적인 내부 구조는 전자문서 재구성부(140)에 전달된다.
전자문서 재구성부(140)는 콘텐츠 추출부(130)로 콘텐츠 요청에 따라 콘텐츠 추출부(130)로부터 전자문서에 포함된 콘텐츠를 전달 받아 전자문서에 포함된 콘텐츠를 분석된 전자문서의 전체적인 내부 구조에 매핑시킨다. 이를 통해 전자문서의 구조 및 전자문서를 구성하는 콘텐츠 정보는 지식 추출이 용이하도록 재구성된다.
마지막으로 재구성된 전자문서의 정보는 지식 추출부(150)로 전달되어 재구성된 전자문서의 구조와 콘텐츠 정보를 바탕으로 지식 후보가 추출된다. 예를 들어, 현재 페이지의 제목이 '상태 변화와 분자 배열'이고, 이 페이지에 하위 블록으로 "1. 용해와 응고"라는 텍스트 콘텐츠를 제목으로 갖는 블록이 있으면, 지식 추출부(150)는 이들 계층 정보를 지식을 분류하는 위계 구조로 도출하게 된다. 또한 "1. 용해와 응고"라는 블록의 위치를 기점으로 텍스트 또는 이미지 콘텐츠를 포함하는 블록이 존재하면, 지식 추출부(150)는 이들 하위 블록 또는 인접 블록(형제 레벨의 블록)을 분석하여 어떤 지식을 설명하는 지식 내용들을 도출하게 된다.
지식 추출부(150)는 동일 레벨의 계층 구조를 형제(sibling) 위계로 분석하고 블록의 내용을 추가 분석하여 부모/자식 관계로 도출하게 된다. 지식 추출부(150)는 블록에서 이미지가 추출된 경우, 형제 레벨의 블록을 지식 내용으로 분석하고 도출하게 된다.
도 4는 도 1에 도시된 지식 추출부의 지식 추출 방법의 예시를 나타낸 도면이다.
도 4에 도시한 바와 같이, 지식 추출부(150)는 재구성된 전자문서 내의 블록 또는 그룹 블록의 계층 구조 및 블록간 배치된 위치 정보를 기반으로 미리 설정된 규칙들을 바탕으로 지식 후보를 도출할 수 있다. 여기서, 두 블록간의 거리가 정의된 임계 값 이하이면 인접을 나타내고, 블록이 서로 인접되어 있으면 연관된 정보를 나타낸다. 서로 다른 속성의 블록이 위와 아래에 배치되어 있으면 상하 관계이고 한 블록의 영역이 다른 블록의 영역 안에 포함되면 포함 관계이며, 두 블록의 영역이 겹치면 충돌 관계를 나타낸다.
지식 추출부(150)는 블록의 포함 관계에서 상/하위 계층 구조가 파악되면, 각 블록에 대하여 내용 분석을 통해서 지식 구조로 판단할지 개별 단위 지식으로 판단할지를 추론하고, 지식 후보를 도출할 수 있다. 전자문서에 포함된 대표 텍스트를 추출하여 전자문서가 포함하고 있는 지식 구조가 생성된다. 보통 대표 텍스트는 전자문서의 목차에 포함된 제목 또는 각 페이지에서 평균 글자크기보다 큰 글자를 갖는 텍스트 블록이 대표 텍스트의 후보 집합으로 도출되어 지식 구조를 생성하는데 사용될 수 있다. 또한 개별 단위 지식은 지식 구조를 구성하는 각각의 단위 요소를 설명하는 하위 콘텐츠의 집합을 말하며, 전자문서에서 지식 구조를 구성하는 대표텍스트를 포함하는 블록과 인접하거나, 이들 대표 텍스트를 포함하는 블록에 있는 콘텐츠들이 후보 집합으로 제공되어 단위 지식을 생성하는 데 사용된다.
또한 지식 추출부(150)는 인접 관계의 이미지 블록과 텍스트 블록에 대해 텍스트를 이미지에 대한 설명으로 추론하고, 지식 후보를 도출할 수 있다.
이와 같이, 지식 추출부(150)는 전자문서 재구성부(140)에 의해 상위/하위 계층 구조 및 블록간 배치된 위치 정보가 파악되면, 전자문서 내 콘텐츠들이 배치된 위치에 따라 개별 콘텐츠의 논리적인 관계를 기반으로 지식을 추출할 수 있다.
도 5는 도 1에 도시된 지식 추출부의 지식 추출 방법의 다른 예시를 나타낸 도면이다.
도 5에 도시한 바와 같이, 지식 추출부(150)는 각 블록의 내용을 분석하여 블록이 포함하고 있는 콘텐츠가 어떤 형식(예를 들면, 텍스트, 이미지)인지, 그리고 텍스트에 포함되어 있는 주요 키워드는 무엇인지, 이미지 블록 밑에 위치한 텍스트 블록이 갖는 콘텐츠 내용은 무엇인지 등을 분석하여 키워드 후보 집합을 생성하고, 이를 통해서 비슷한 키워드를 갖는 블록들을 동일한 지식 내용을 설명하는 블록으로 판단하고 이를 하나의 지식 후보로 묶어서 도출할 수 있다. 지식 추출부(150)는 각 블록에서 스타일링된 단어 또는 빈도수가 높은 단어를 키워드 후보로 도출할 수 있다.
예를 들어, 지식 추출부(150)는 블록이 포함하고 있는 "용해와 응고"라는 텍스트 콘텐츠로부터 "융해", "응고"라는 키워드 후보를 추출하고, 다른 블록이 포함하고 있는 텍스트 콘텐츠로부터 "융해", "응고", "고체", "액체" 등의 키워드 후보를 추출할 수 있다. 이러한 방법으로 각 블록으로부터 키워드 후보를 도출한 후에 키워드 분석을 통해서 각 블록이 "융해"와 "응고"를 동일하게 가지고 있는 것으로 서로 관련이 있는 것으로 분석할 수 있다. 지식 추출부(150)는 비슷한 키워드를 갖는 블록들을 동일한 지식 내용을 설명하는 블록으로 판단하고 이를 하나의 지식 후보로 묶어서 도출할 수 있다.
도 6은 도 1에 도시된 지식 출력부에서 지식으로 구축된 내용을 원본의 전자문서 상에 투영시켜 출력하는 예시를 나타낸 도면이다.
도 6에 도시한 바와 같이 지식 출력부(170)는 구축된 지식을 원본의 전자문서 상에 투영시켜 출력할 수 있다.
이상에서 설명한 본 발명의 실시 예에 따른 전자문서 기반 지식 구축 방법 및 장치 중 적어도 일부 기능은 하드웨어로 구현되거나 하드웨어에 결합된 소프트웨어로 구현될 수 있다. 아래에서는 전자문서 기반 지식 구축 방법 및 장치가 컴퓨터 시스템에 결합된 실시 예에 대해서 도 7을 참고로 하여 상세하게 설명한다.
도 7은 본 발명의 다른 실시 예에 따른 전자문서 기반 지식 구축 장치의 개략적인 도면으로, 도 1 내지 도 6을 참고하여 설명한 전자문서 수집부(110), 전자문서 분석부(120), 콘텐츠 추출부(130), 전자문서 재구성부(140), 지식 추출부(150), 지식 편집부(160), 지식 출력부(170) 및 지식 저장부(180)의 기능 중 적어도 일부를 수행하는 데 사용할 수 있는 시스템을 나타낸다.
도 7을 참고하면, 전자문서 기반 지식 구축 장치(700)는 프로세서(710), 메모리(720), 적어도 저장 장치(730), 입출력(input/output, I/O) 인터페이스(740) 및 네트워크 인터페이스(750)를 포함한다.
프로세서(710)는 중앙 처리 유닛(central processing unit, CPU)이나 기타 칩셋, 마이크로프로세서 등으로 구현될 수 있으며, 메모리(720)는 동적 랜덤 액세스 메모리(dynamic random access memory, DRAM), 램버스 DRAM(rambus DRAM, RDRAM), 동기식 DRAM(synchronous DRAM, SDRAM), 정적 RAM(static RAM, SRAM) 등의 RAM과 같은 매체로 구현될 수 있다. 저장 장치(730)는 하드 디스크 (hard disk), CD-ROM(compact disk read only memory), CD-RW(CD rewritable), DVD-ROM(digital video disk ROM), DVD-RAM, DVD-RW 디스크, 블루레이(blu-ray) 디스크 등의 광학 디스크, 플래시 메모리, 다양한 형태의 RAM과 같은 영구 또는 휘발성 저장 장치로 구현될 수 있다. 또한 I/O 인터페이스(740)는 프로세서(710) 및/또는 메모리(720)가 저장 장치(730)에 접근할 수 있도록 하며, 네트워크 인터페이스(750)는 프로세서(710) 및/또는 메모리(720)가 네트워크에 접근할 수 있도록 한다.
이 경우, 프로세서(710)는 전자문서 수집부(110), 전자문서 분석부(120), 콘텐츠 추출부(130), 전자문서 재구성부(140), 지식 추출부(150), 지식 편집부(160), 지식 출력부(170)의 기능의 적어도 일부 기능을 구현하기 위한 프로그램 명령을 메모리(720)에 로드하고, 지식 저장부(180)의 기능을 저장 장치(730)에 위치시켜, 도 1 내지 도 6을 참고로 하여 설명한 동작이 수행되도록 제어할 수 있다. 그리고 프로그램 명령은 저장 장치(730)에 저장되어 있을 수 있으며, 또는 네트워크로 연결되어 있는 다른 시스템에 저장되어 있을 수 있다.
도 7에 도시한 프로세서(710), 메모리(720), 저장 장치(730), I/O 인터페이스(740) 및 네트워크 인터페이스(750)는 하나의 컴퓨터에 구현될 수도 있으며 또는 복수의 컴퓨터에 분산되어 구현될 수도 있다.
본 발명의 실시 예는 이상에서 설명한 장치 및/또는 방법을 통해서만 구현되는 것은 아니며, 본 발명의 실시 예의 구성에 대응하는 기능을 실현하는 프로그램 또는 그 프로그램이 기록된 기록 매체를 통해 구현될 수도 있으며, 이러한 구현은 앞서 설명한 실시 예의 기재로부터 본 발명이 속하는 기술 분야의 전문가라면 쉽게 구현할 수 있는 것이다.
이상에서 본 발명의 실시 예에 대하여 상세하게 설명하였지만 본 발명의 권리 범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리 범위에 속하는 것이다.

Claims (1)

  1. 전자문서 기반 지식 구축 장치에서의 지식 구축 방법으로서,
    주어진 전자문서 집합을 분석하여 전자문서의 내부 구조와 배치된 콘텐츠를 확인하는 단계,
    상기 전자문서에 포함된 콘텐츠를 추출하는 단계,
    상기 전자문서의 구조와 콘텐츠를 지식 추출 형태로 재구성하는 단계,
    상기 재구성된 전자문서에서 상기 콘텐츠를 포함하는 지식 후보를 추출하여 기 구축된 지식 구조에 매핑시키는 단계, 그리고
    상기 기 구축된 지식 구조에 매핑된 지식 후보를 이용하여 지식으로 구축하는 단계
    를 포함하는 지식 구축 방법.
KR1020140002056A 2014-01-07 2014-01-07 전자문서 기반 지식 구축 방법 및 장치 KR20150081994A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140002056A KR20150081994A (ko) 2014-01-07 2014-01-07 전자문서 기반 지식 구축 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140002056A KR20150081994A (ko) 2014-01-07 2014-01-07 전자문서 기반 지식 구축 방법 및 장치

Publications (1)

Publication Number Publication Date
KR20150081994A true KR20150081994A (ko) 2015-07-15

Family

ID=53793680

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140002056A KR20150081994A (ko) 2014-01-07 2014-01-07 전자문서 기반 지식 구축 방법 및 장치

Country Status (1)

Country Link
KR (1) KR20150081994A (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101971172B1 (ko) * 2018-08-23 2019-04-23 (주)씨에스피아이 전자문서 파일 변환시스템 및 그 방법
KR20190114916A (ko) * 2018-03-30 2019-10-10 조영화 전자문서의 관계기반 저작관리방법 및 저작관리시스템
CN111026883A (zh) * 2019-12-11 2020-04-17 南方电网数字电网研究院有限公司 电力业务数据的知识图谱构建方法、装置、设备和介质
KR20200073700A (ko) * 2018-12-14 2020-06-24 아주대학교산학협력단 문서를 생성하고 관리하기 위한 장치 및 방법

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190114916A (ko) * 2018-03-30 2019-10-10 조영화 전자문서의 관계기반 저작관리방법 및 저작관리시스템
KR101971172B1 (ko) * 2018-08-23 2019-04-23 (주)씨에스피아이 전자문서 파일 변환시스템 및 그 방법
KR20200073700A (ko) * 2018-12-14 2020-06-24 아주대학교산학협력단 문서를 생성하고 관리하기 위한 장치 및 방법
CN111026883A (zh) * 2019-12-11 2020-04-17 南方电网数字电网研究院有限公司 电力业务数据的知识图谱构建方法、装置、设备和介质

Similar Documents

Publication Publication Date Title
US11017179B2 (en) Real-time in-context smart summarizer
CN106570171B (zh) 一种基于语义的科技情报处理方法及系统
US9224103B1 (en) Automatic annotation for training and evaluation of semantic analysis engines
CN111176650B (zh) 解析器生成方法、检索方法、服务器及存储介质
Pol et al. A survey on web content mining and extraction of structured and semistructured data
US20170228654A1 (en) Methods and systems for base map and inference mapping
GB2572234A (en) Interactive tutorial integration
KR20150081994A (ko) 전자문서 기반 지식 구축 방법 및 장치
Hobel et al. Deriving the geographic footprint of cognitive regions
Apostolova et al. Combining visual and textual features for information extraction from online flyers
Fauzi et al. Webpage segmentation for extracting images and their surrounding contextual information
Wiedemann et al. New/s/leak 2.0–multilingual information extraction and visualization for investigative journalism
Basu et al. A novel word embedding based stemming approach for microblog retrieval during disasters
JP2010250439A (ja) 検索システム、データ生成方法、プログラムおよびプログラムを記録した記録媒体
Feng et al. Web page segmentation and its application for web information crawling
KR101069207B1 (ko) 전자 문서에 의미 정보를 부착하는 시스템 및 방법
KR101835994B1 (ko) 키워드 맵을 이용한 전자책 검색 서비스 제공 방법 및 장치
Sanoja et al. Block-o-matic: a web page segmentation tool and its evaluation
US10387472B2 (en) Expert stance classification using computerized text analytics
KR101713612B1 (ko) 지능형 스토리텔링 지원 시스템
JP2016045552A (ja) 特徴抽出プログラム、特徴抽出方法、および特徴抽出装置
JP2019053262A (ja) 学習システム
Kurmi et al. Text summarization using enhanced MMR technique
CN112699642A (zh) 复杂医疗文书的索引提取方法及装置、介质及电子设备
Kaddu et al. To extract informative content from online web pages by using hybrid approach

Legal Events

Date Code Title Description
WITN Withdrawal due to no request for examination