KR102588185B1 - 지식 그래프 기반 문장 분석 방법 - Google Patents

지식 그래프 기반 문장 분석 방법 Download PDF

Info

Publication number
KR102588185B1
KR102588185B1 KR1020180115920A KR20180115920A KR102588185B1 KR 102588185 B1 KR102588185 B1 KR 102588185B1 KR 1020180115920 A KR1020180115920 A KR 1020180115920A KR 20180115920 A KR20180115920 A KR 20180115920A KR 102588185 B1 KR102588185 B1 KR 102588185B1
Authority
KR
South Korea
Prior art keywords
semantic
unit
units
unconnected
information
Prior art date
Application number
KR1020180115920A
Other languages
English (en)
Other versions
KR20200036367A (ko
Inventor
임수종
김현기
김민호
류지희
배경만
배용진
이형직
임준호
장명길
최미란
허정
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020180115920A priority Critical patent/KR102588185B1/ko
Publication of KR20200036367A publication Critical patent/KR20200036367A/ko
Application granted granted Critical
Publication of KR102588185B1 publication Critical patent/KR102588185B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 지식 그래프 기반 문장 분석 방법에 관한 것으로, 문서 정보를 입력받는 단계; 상기 입력된 문서 정보의 전체 문장에 대한 의미 정보를 분석하는 단계; 상기 분석된 의미 정보에서 의미 단위로 추출하는 단계; 추출된 의미 단위들을 연결하는 단계; 및 상기 분석된 의미 단위들을 연결하여 지식 그래프를 구축하는 단계;를 포함한다.

Description

지식 그래프 기반 문장 분석 방법{Knowledge graph-based sentence analysis method}
본 발명은 지식 그래프 기반 문장 분석 방법에 관한 것으로, 더욱 상세하게는 입력되는 문서에서 개체명 인식, 어휘의미 분석, 의미역 인식, 상호참조해결과 같은 의미 분석 결과를 이용하여 자연어 문장을 의미 기반의 지식 그래프로 구축할 수 있는 지식 그래프 기반 문장 분석 방법에 관한 것이다.
일반적으로, 비정형 텍스트를 분석하여 의미 정보를 추출하는 기술은 여러 가지 방법으로 시도되고 있다.
그 예로, 간단한 텍스트 패턴을 이용하여 정보를 추출하는 방법과 문서의 구조를 이용하여 추출하기도 하였다.
현재 가장 보편적인 방법은 구문 정보를 이용하여 용언을 중심으로 주어, 목적어 및 부가어와 같은 세가지(triple) 단위 정보를 자동으로 추출하는 방법이다.
그러나 이러한 종래 비정형 텍스트를 분석하여 문장 정보를 추출하는 기술은 언어에 존재하는 의미를 반영하지 못 하고, 세가지 단위 정보가 서로 연결되지 못 한다는 단점을 갖고 있다.
이와 같이, 종래 문장 분석 방법은 문서의 태그, 수작업 구축된 패턴, 구문 정보, 혹은 단편적인 의미 정보를 사용함에 따라 상호 연결된 그래프 형태의 의미 구조를 구축하는데 한계가 있는 문제점이 있다.
본 발명은 상기 문제점을 해결하기 위해 안출된 것으로, 복수개의 다양한 의미 정보를 이용하고 이러한 의미 정보들이 연결성을 갖도록 그래프 형태로 구성하는 지식 그래프 기반 문장 분석 방법을 제공하는데 그 목적이 있다.
본 발명의 목적은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 지식 그래프 기반 문장 분석 장치는 문서 정보를 입력받는 문서 입력부; 상기 입력된 문서 정보의 전체 문장에 대한 의미 정보를 분석하는 의미 정보 분석부; 상기 분석된 의미 정보에서 의미 단위로 추출하는 의미 단위 추출부; 추출된 의미 단위들을 연결하는 의미 단위 연결부; 및 상기 분석된 의미 단위들을 연결하여 지식 그래프를 구축하는 지식 그래프 구축부;를 포함한다.
본 발명의 일 실시예에 따른 지식 그래프 기반 문장 분석 방법은 문서 정보를 입력받는 단계; 상기 입력된 문서 정보의 전체 문장에 대한 의미 정보를 분석하는 단계; 상기 분석된 의미 정보에서 의미 단위로 추출하는 단계; 추출된 의미 단위들을 연결하는 단계; 및 상기 분석된 의미 단위들을 연결하여 지식 그래프를 구축하는 단계;를 포함한다.
여기서, 상기 의미 정보를 분석하는 단계는, 개체명 인식, 어휘의미 분석, 의미역 인식 및 상호참조해결 기술을 이용하여 전체 문장에 대한 의미 정보를 분석한다.
그리고, 상기 추출된 의미 단위들을 연결하는 단계는, 연결되지 않은 의미 단위가 존재하는지를 판단하는 단계; 상기 연결되지 않은 의미 단위가 존재하는지의 여부를 판단하는 단계에서 연결되지 않는 의미 단위가 존재하면, 개체명 인식, 어휘의미 분석, 의미역 논항의 의미 단위가 상이한지의 여부를 판단하는 단계; 및 상기 의미 단위가 상이한지를 판단하는 단계에서 각 의미 단위가 상이하면, 각 의미 단위 중 최장형태의 의미단위와 작은 의미 단위를 연결하는 단계;를 포함한다.
또한, 상기 추출된 의미 단위들을 연결하는 단계는, 상기 의미역 인식을 이용한 분석에서 술어-논항 관계와 상호참조해결을 이용한 분석 결과를 연결한다.
그리고, 상기 지식 그래프를 구축하는 단계는, 의미역 인식 결과, 논항이 용언이 되는지를 판단하는 단계; 상기 판단 단계에서 논항이 용언이 되면, 이유, 조건, 목적, 도구, 방법에 해당하는 의미역을 연결 대상으로 채택하고, 채택된 의미역을 이용하여 연결되지 않은 의미 단위를 연결하는 단계;를 포함한다.
한편, 의미역 인식 결과를 통해서도 연결되지 않은 의미 단위가 존재하는지를 판단하는 단계; 상기 의미역 인식 결과를 통해서도 연결되지 않은 의미 단위가 존재하는지를 판단하는 단계에서 연결되지 않는 의미 단위가 존재하면, 종단의 의미 단위를 중심으로, 차례로 나열, 대조, 선택, 역할, 특성, 선행, 양보와 같은 정보를 갖는 의미 단위를 연결 대상으로 채택하는 단계; 및 상기 채택된 연결 대상들을 이용하여 연결되지 않은 의미 단위를 연결하는 단계;를 포함한다.
여기서, 상기 의미 단위는, 대상과 연결 값으로 표시하는 것이 바람직하다.
본 발명의 일 실시예에 따르면, 입력되는 문장 분석 시, 다양한 의미 분석을 통해 자연어 문장을 지식 그래프로 구현함으로써, 단순한 문장 분석을 통해 획득할 수 없는 분석 결과를 제공할 수 있는 효과가 있다.
또한, 본 발명의 일 실시예에 따르면, 의미역 인식과 상호참조해결과 같은 의미의 연결성을 유지함으로써, 단편적인 고립된 정보 분석에 따른 결과의 모호성을 해결하고, 복잡한 지식도 추출할 수 있는 효과가 있다.
도 1은 본 발명의 일 실시예에 따른 지식 그래프 기반 문장 분석 장치의 구성 블록을 설명하기 위한 도면.
도 2와 도 3은 본 발명의 일 실시예에 따른 지식 그래프 기반 문장 분석 장치에 따른 의미 단위 연결 상태를 설명하기 위한 참고도면.
도 4는 본 발명의 일 실시예에 따른 지식 그래프 기반 문장 분석 방법을 설명하기 위한 순서도.
도 5는 본 발명의 일 실시예에 따른 지식 그래프 기반 문장 분석 방법의 의미 단위들을 연결하기 위한 단계를 설명하기 위한 도면.
도 6은 도 5는 본 발명의 일 실시예에 따른 지식 그래프 기반 문장 분석 방법의 지식 그래프를 구축하는 단계를 설명하기 위한 도면이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 한편, 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성소자, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성소자, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.
이하, 본 발명의 바람직한 실시예에 대하여 첨부한 도면을 참조하여 상세히 설명하기로 한다. 도 1은 본 발명의 일 실시예에 따른 지식 그래프 기반 문장 분석 장치의 구성 블록을 설명하기 위한 도면이다.
도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 지식 그래프 기반 문장 분석 장치는 지식 그래프 구축 장치는 문서 입력부(100), 의미 정보 분석부(200), 의미 단위 추출부(300), 의미 단위 연결부(400) 및 그래프 구축부(500)를 포함한다.
문서 입력부(100)는 문서 정보를 입력받는다. 일 예로, "녹둔도 전투에서 조선군 11명이 죽고, 160 여명이 잡혀갔으며, 열다섯 필의 말을 약탈당했다"와 같은 문장을 입력받는다.
그리고, 의미 정보 분석부(200)는 상기 입력된 문서 정보의 전체 문장에 대한 의미 정보를 분석하는 역할을 한다. 여기서, 상기 의미 정보 분석부(200)는 개체명 인식, 어휘의미 분석, 의미역 인식 및 상호참조해결 기술을 이용하여 전체 문장에 대한 의미 정보를 분석하는 것이 바람직하다.
한편, 의미 정보 분석부(200)는 입력된 문서 정보에서 개체명을 인식한다. 이에, 의미 정보 분석부(200)는 일반적으로 사전에 등재되어 있지 않은 고유명사로 사용된 단어에 대하여 이 단어가 속한 의미 범주와 개체명의 경계를 인식하게 된다.
이에, "녹둔도 전투에서 조선군 11명이 죽고, 160여명이 잡혀갔으며, 열다섯 필의 말을 약탈당했다"와 같은 문서 정보는 "<전쟁/혁명: 녹둔도 전투>에서 <군사기관/단체: 조선군> <인원수:11명>이 죽고 <인원수:160여명>이 잡혀갔으며, <개수/빈도: 열다섯 필>의 말이 약탈당했다."와 같이 분석할 수 있다.
또한, 의미 정보 분석부(200)는 입력된 문서 정보에서 어휘의미 분석을 수행한다. 즉, 의미 정보 분석부(200)는 사전에 등재된 단어 중에서 의미가 2개 이상인 단어를 대상으로 이에 대한 단어의 모호성을 해소하는 기술로 표준국어대사전의 의미를 분석할 수 있다.
상기 입력된 문서 정보에서는 "... 조선군이 죽고(죽다 1) ... 열다섯 필의 말(말 4)이 약탈당했다."와 같은 단어가 해당될 수 있다.
죽다1: 생명이 없어지거나 끊어지다.
죽다2: 불 따위가 타거나 비치지 아니한 상태에 있다. (불씨가 죽다)
죽다3: 본래 가지고 있던 색깔이나 특징 따위가 변하여 드러나지 아니하다.(옷에 풀기가 죽다)
와 같이 "죽다"는 적어도 3가지로 분석될 수 있다.
그리고, '말'은 하기의 4가지로 분석될 수 있다.
말1: 사람의 생각이나 느낌 따위를 표현하고 전달하는데 쓰는 음성 신호.
말3: 곡식, 액체, 가루 따위의 분량을 되는데 쓰는 그릇. 부피의 단위.
말4: <동물> 말과의 포유류.
말11: (末) 어떤 기간의 끝이나 말기
또한, 의미 정보 분석부(200)는 문장에서 출현한 용언을 중심으로 각 문장 성분들의 의미적인 역할을 인식하여 의미역을 분석할 수 있다. 이에, 입력된 문장 정보는 용언 "죽다"에 대해 대상격(조선군 11명), 장소(녹둔도 전투)를 인식하고, 용언 "잡혀가다"에 대해 대상격(160명)을 인식하며, 용언 "약탈당하다"에 대상격(열 다섯필의 말)을 인식한다.
그리고 의미 정보 분석부(200)는 같은 대상을 지칭하는 다른 표현을 인식하는 상호참조해결기술로, 대표적으로는 한번 언급된 대상에 대해서는 지시 대명사 등을 사용하여 간략한 표현과 원래 대상을 연결할 수 있다.
예를 들어, "녹둔도 전투에서 조선군 11명이 죽고 160여명이 잡혀갔으며, 열다섯 필의 말이 약탈당했다. 당시 조산만호 이순신은 이 전투를 예상하고 추가 병력을 요청하였으나 모두 거절 당하였다."와 같은 문장이 입력되면, 의미 정보 분석부(200)는 "녹둔도 전투"에 대한 상호참조해결에 대한 결과가 "이 전투"로 분석할 수 있다.
그리고 의미 단위 추출부(300)는 지식 그래프의 노드를 구성할 수 있도록, 상기 분석된 의미 정보에서 의미 단위로 추출한다. 여기서, 상기 의미 단위는 대상과 연결 값으로 표시되는 것이 바람직하다. 일 예로, 의미 단위 추출부(300)는 "<녹둔도 전투>, <조선군, 11명>, <죽다 1>, <160여명>, <잡히다 2>, <열다섯 필, 말 4>, <약탈당하다 1>"와 같이 의미 단위를 추출할 수 있다.
이후, 의미 단위 연결부(400)는 이전 단계에서 추출된 의미 단위들을 그래프 형태로 연결할 수 있도록, 추출된 의미 단위들을 연결한다. 즉, 의미 단위 연결부(400)는 <조선군, 개체명>, <11명, 개체명>, <조선군 11명, 의미역 논항>과 같이 서로 다른 의미 단위 중 포함관계가 성립할 경우, 도 2에 도시된 바와 같이 최장인 <조선군 11>을 의미 단위로 연결한다.
또한, 의미 단위 연결부(400)는 의미역 인식에서 술어-논항관계와 상호참조해결 결과도 연결한다. 그 예로, 의미 단위 연결부(400)는 상호참조해결을 통해 의미 단위 중 "녹둔도 전투"와 "이 전투"와 같은 엔터티가 존재할 경우, 두 의미 단위를 연결한다.
이하, 하기에서는 의미 단위 연결부(400)는 추출된 의미 단위들을 연결한다.
이를 위해, 의미 단위 연결부(400)는 연결되지 않은 의미 단위가 존재하는지를 판단한다.
만약, 연결되지 않는 의미 단위가 존재하면(YES), 의미 단위 연결부(400)는 개체명 인식, 어휘의미 분석, 의미역 논항의 의미 단위가 상이한지의 여부를 판단한다.
여기서, 각 의미 단위가 상이하면(YES), 의미 단위 연결부(400)는 각 의미 단위 중 최장형태의 의미단위와 작은 의미 단위를 연결한다.
한편, 상기 의미 단위 연결부(400)는 상기 의미역 인식을 이용한 분석에서 술어-논항 관계와 상호참조해결을 이용한 분석 결과를 연결할 수 있다.
이어서, 그래프 구축부(500)는 상기 분석된 의미 단위들을 연결하여 지식 그래프를 구축한다.
이러한 그래프 구축부(500)는 의미역 인식 결과, 논항이 용언이 되는지를 판단한다.
만약, 논항이 용언이 되면(YES), 그래프 구축부(500)는 이유, 조건, 목적, 도구, 방법에 해당하는 의미역을 연결 대상으로 채택한다.
이어서, 그래프 구축부(500)는 채택된 연결 대상들을 이용하여 연결되지 않은 의미 단위를 연결한다.
만약, 그래프 구축부(500)는 의미역 인식 결과를 통해서도 연결되지 않은 의미 단위가 존재하는지를 판단한다.
여기서, 연결되지 않는 의미 단위가 존재하면(YES), 그래프 구축부(500)는 도 3에 도시된 바와 같이, 종단의 의미 단위를 중심으로, 차례로 나열, 대조, 선택, 역할, 특성, 선행, 양보와 같은 정보를 갖는 의미 단위를 연결 대상으로 채택한다.
이어서, 그래프 구축부(500)는 상기 채택된 연결 대상들을 이용하여 연결되지 않은 의미 단위를 연결한다.
이러한 본 발명의 일 실시예에 따르면, 입력되는 문장 분석 시, 다양한 의미 분석을 통해 자연어 문장을 지식 그래프로 구현함으로써, 단순한 문장 분석을 통해 획득할 수 없는 분석 결과를 제공할 수 있는 효과가 있다.
이를 통해, 본 발명의 일 실시예에 따르면, 의미역 인식과 상호참조해결과 같은 의미의 연결성을 유지함으로써, 단편적인 고립된 정보 분석에 따른 결과의 모호성을 해결하고, 복잡한 지식도 추출할 수 있는 효과가 있다.
도 4는 본 발명의 일 실시예에 따른 지식 그래프 기반 문장 분석 방법을 설명하기 순서도이다.
이하, 하기에서는 본 발명의 일 실시예에 따른 지식 그래프 기반 문장 분석 방법에 대하여 도 4를 참조하여 설명하기로 한다.
본 발명의 일 실시예에 따른 지식 그래프 기반 문장 분석 방법은 지식 그래프 기반 문장 분석 장치에 의해 수행되는 것이 바람직하다.
먼저, 문서 입력부(100)는 문서 정보를 입력받는다(S100). 일 예로, "녹둔도 전투에서 조선군 11명이 죽고, 160여명이 잡혀갔으며, 열다섯 필의 말을 약탈당했다"와 같은 문장을 입력받는다.
이후, 의미 정보 분석부(200)는 상기 입력된 문서 정보의 전체 문장에 대한 의미 정보를 분석하는 역할을 한다(S200). 여기서, 상기 의미 정보 분석부(200)는 개체명 인식, 어휘의미 분석, 의미역 인식 및 상호참조해결 기술을 이용하여 전체 문장에 대한 의미 정보를 분석하는 것이 바람직하다.
먼저, 의미 정보 분석부(200)는 입력된 문서 정보에서 개체명을 인식한다. 이에, 의미 정보 분석부(200)는 일반적으로 사전에 등재되어 있지 않은 고유명사로 사용된 단어에 대하여 이 단어가 속한 의미 범주와 개체명의 경계를 인식하게 된다.
이에, "녹둔도 전투에서 조선군 11명이 죽고, 160여명이 잡혀갔으며, 열다섯 필의 말을 약탈당했다"와 같은 문서 정보는 "<전쟁/혁명: 녹둔도 전투>에서 <군사기관/단체: 조선군> <인원수:11명>이 죽고 <인원수:160여명>이 잡혀갔으며, <개수/빈도: 열다섯 필>의 말이 약탈당했다."와 같이 분석할 수 있다.
또한, 의미 정보 분석부(200)는 입력된 문서 정보에서 어휘의미 분석을 수행한다. 즉, 의미 정보 분석부(200)는 사전에 등재된 단어 중에서 의미가 2개 이상인 단어를 대상으로 이에 대한 단어의 모호성을 해소하는 기술로 표준국어대사전의 의미를 분석할 수 있다.
상기 입력된 문서 정보에서는 "... 조선군이 죽고(죽다 1) ... 열다섯 필의 말(말 4)이 약탈당했다."와 같은 단어가 해당될 수 있다.
죽다1: 생명이 없어지거나 끊어지다.
죽다2: 불 따위가 타거나 비치지 아니한 상태에 있다. (불씨가 죽다)
죽다3: 본래 가지고 있던 색깔이나 특징 따위가 변하여 드러나지 아니하다.(옷에 풀기가 죽다)와 같이 "죽다"는 적어도 3가지로 분석될 수 있다.
그리고, '말'은 하기의 4가지로 분석될 수 있다.
말1: 사람의 생각이나 느낌 따위를 표현하고 전달하는데 쓰는 음성 신호.
말3: 곡식, 액체, 가루 따위의 분량을 되는데 쓰는 그릇. 부피의 단위.
말4: <동물> 말과의 포유류.
말11: (末) 어떤 기간의 끝이나 말기
또한, 의미 정보 분석부(200)는 문장에서 출현한 용언을 중심으로 각 문장 성분들의 의미적인 역할을 인식하여 의미역을 분석할 수 있다. 이에, 입력된 문장 정보는 용언 "죽다"에 대해 대상격(조선군 11명), 장소(녹둔도 전투)를 인식하고, 용언 "잡혀가다"에 대해 대상격(160명)을 인식하며, 용언 "약탈당하다"에 대상격(열 다섯필의 말)을 인식한다.
그리고 의미 정보 분석부(200)는 같은 대상을 지칭하는 다른 표현을 인식하는 상호참조해결기술로, 대표적으로는 한번 언급된 대상에 대해서는 지시 대명사 등을 사용하여 간략한 표현과 원래 대상을 연결할 수 있다.
예를 들어, "녹둔도 전투에서 조선군 11명이 죽고 160여명이 잡혀갔으며, 열다섯 필의 말이 약탈당했다. 당시 조산만호 이순신은 이 전투를 예상하고 추가 병력을 요청하였으나 모두 거절 당하였다."와 같은 문장이 입력되면, 의미 정보 분석부(200)는 "녹둔도 전투"에 대한 상호참조해결에 대한 결과가 "이 전투"로 분석할 수 있다.
그리고 의미 단위 추출부(300)는 지식 그래프의 노드를 구성할 수 있도록, 상기 분석된 의미 정보에서 의미 단위로 추출한다(S300). 여기서, 상기 의미 단위는 대상과 연결 값으로 표시되는 것이 바람직하다.
일 예로, 의미 단위 추출부(300)는 "<녹둔도 전투>, <조선군, 11명>, <죽다 1>, <160여명>, <잡히다 2>, <열다섯 필, 말 4>, <약탈당하다 1>"와 같이 의미 단위를 추출할 수 있다.
이후, 의미 단위 연결부(400)는 이전 단계에서 추출된 의미 단위들을 그래프 형태로 연결할 수 있도록, 추출된 의미 단위들을 연결한다(S400). 즉, 의미 단위 연결부(400)는 <조선군, 개체명>, <11명, 개체명>, <조선군 11명, 의미역 논항>과 같이 서로 다른 의미 단위 중 포함관계가 성립할 경우, 도 2에 도시된 바와 같이 최장인 <조선군 11>을 의미 단위로 연결한다.
또한, 의미 단위 연결부(400)는 의미역 인식에서 술어-논항관계와 상호참조해결 결과도 연결한다. 그 예로, 의미 단위 연결부(400)는 상호참조해결을 통해 의미 단위 중 "녹둔도 전투"와 "이 전투"와 같은 엔터티가 존재할 경우, 두 의미 단위를 연결한다.
도 5는 본 발명의 일 실시예에 따른 지식 그래프 기반 문장 분석 방법의 의미 단위들을 연결하기 위한 단계를 설명하기 위한 도면이다.
이하, 하기에서는 의미 단위 연결부(400)가 추출된 의미 단위들을 연결하는 단계(S400)에 대하여 도 5를 참조하여 설명하기로 한다.
도 5에 도시된 바와 같이, 의미 단위 연결부(400)는 연결되지 않은 의미 단위가 존재하는지를 판단한다(S410).
만약, 상기 판단 단계(S410)에서 연결되지 않는 의미 단위가 존재하면(YES), 의미 단위 연결부(400)는 개체명 인식, 어휘의미 분석, 의미역 논항의 의미 단위가 상이한지의 여부를 판단한다(S420).
상기 의미 단위가 상이한지를 판단하는 단계(S420)에서 각 의미 단위가 상이하면(YES), 의미 단위 연결부(400)는 각 의미 단위 중 최장형태의 의미단위와 작은 의미 단위를 연결한다(S430).
상기 의미 단위가 상이한지를 판단하는 단계(S420)에서 각 의미 단위가 동일하면(NO), 의미 단위 연결부(400)는 분석된 각 의미 단위들을 연결한다.
여기서, 상기 추출된 의미 단위들을 연결하는 단계(S400)는 상기 의미역 인식을 이용한 분석에서 술어-논항 관계와 상호참조해결을 이용한 분석 결과를 연결할 수 있다.
이어서, 그래프 구축부(500)는 상기 분석된 의미 단위들을 연결하여 지식 그래프를 구축한다(S500).
도 6은 도 5는 본 발명의 일 실시예에 따른 지식 그래프 기반 문장 분석 방법의 지식 그래프를 구축하는 단계를 설명하기 위한 도면이다.
이하, 하기에서는 그래프 구축부(500)가 지식 그래프를 구축하는 단계(S500)에 대하여 도 6을 참조하여 설명하기로 한다.
먼저, 그래프 구축부(500)는 의미역 인식 결과, 논항이 용언이 되는지를 판단한다(S510).
상기 판단 단계(S510)에서 논항이 용언이 되면(YES), 그래프 구축부(500)는 이유, 조건, 목적, 도구, 방법에 해당하는 의미역을 연결 대상으로 채택한다(S520).
이어서, 그래프 구축부(500)는 채택된 의미역을 이용하여 연결되지 않은 의미 단위를 연결한다(S530).
만약, 그래프 구축부(500)는 의미역 인식 결과를 통해서도 연결되지 않은 의미 단위가 존재하는지를 판단한다(S540).
만약, 상기 판단 단계(S540)에서 연결되지 않는 의미 단위가 존재하면(YES), 그래프 구축부(500)는 도 3에 도시된 바와 같이, 종단의 의미 단위를 중심으로, 차례로 나열, 대조, 선택, 역할, 특성, 선행, 양보와 같은 정보를 갖는 의미 단위를 연결 대상으로 채택한다(S550).
이어서, 그래프 구축부(500)는 상기 채택된 연결 대상들을 이용하여 연결되지 않은 의미 단위를 연결한다(S560).
이러한 본 발명의 일 실시예에 따르면, 입력되는 문장 분석 시, 다양한 의미 분석을 통해 자연어 문장을 지식 그래프로 구현함으로써, 단순한 문장 분석을 통해 획득할 수 없는 분석 결과를 제공할 수 있는 효과가 있다.
이를 통해, 본 발명의 일 실시예에 따르면, 의미역 인식과 상호참조해결과 같은 의미의 연결성을 유지함으로써, 단편적인 고립된 정보 분석에 따른 결과의 모호성을 해결하고, 복잡한 지식도 추출할 수 있는 효과가 있다.
이상, 본 발명의 구성에 대하여 첨부 도면을 참조하여 상세히 설명하였으나, 이는 예시에 불과한 것으로서, 본 발명이 속하는 기술분야에 통상의 지식을 가진자라면 본 발명의 기술적 사상의 범위 내에서 다양한 변형과 변경이 가능함은 물론이다. 따라서 본 발명의 보호 범위는 전술한 실시예에 국한되어서는 아니 되며 이하의 특허청구범위의 기재에 의하여 정해져야 할 것이다.
100 : 문서 입력부 200 : 의미 정보 분석부
300 : 의미 단위 추출부 400 : 의미 단위 연결부
500 : 그래프 구축부

Claims (10)

  1. 문서 입력부는 문서 정보를 입력받는 단계;
    의미 정보 분석부는 상기 입력된 문서 정보의 전체 문장에 대한 의미 정보를 분석하는 단계;
    의미 단위 추출부는 상기 분석된 의미 정보에서 의미 단위로 추출하는 단계;
    의미 단위 연결부는 추출된 의미 단위들을 연결하는 단계; 및
    그래프 구축부는 상기 분석된 의미 단위들을 연결하여 지식 그래프를 구축하는 단계를 포함하되,
    상기 추출된 의미 단위들을 연결하는 단계는,
    연결되지 않은 의미 단위가 존재하는지를 판단하는 단계; 상기 연결되지 않은 의미 단위가 존재하는지의 여부를 판단하는 단계에서 연결되지 않는 의미 단위가 존재하면, 개체명 인식, 어휘의미 분석, 의미역 논항의 의미 단위가 상이한지의 여부를 판단하는 단계; 및 상기 의미 단위가 상이한지를 판단하는 단계에서 각 의미 단위가 상이하면, 각 의미 단위 중 최장형태의 의미단위와 작은 의미 단위를 연결하는 단계를 포함하고,
    상기 지식 그래프를 구축하는 단계는,
    의미역 인식 결과를 통해서도 연결되지 않은 의미 단위가 존재하는지를 판단하는 단계; 상기 의미역 인식 결과를 통해서도 연결되지 않은 의미 단위가 존재하는지를 판단하는 단계에서 연결되지 않는 의미 단위가 존재하면, 종단의 의미 단위를 중심으로, 차례로 나열, 대조, 선택, 역할, 특성, 선행, 양보와 같은 정보를 갖는 의미 단위를 연결 대상으로 채택하는 단계; 및 상기 채택된 연결 대상들을 이용하여 연결되지 않은 의미 단위를 연결하는 단계;를 포함하는 지식 그래프 기반 문장 분석 방법.
  2. 제1항에 있어서,
    상기 의미 정보를 분석하는 단계는,
    개체명 인식, 어휘의미 분석, 의미역 인식 및 상호참조해결 기술을 이용하여 전체 문장에 대한 의미 정보를 분석하는 것을 특징으로 하는 지식 그래프 기반 문장 분석 방법.
  3. 삭제
  4. 제1항에 있어서,
    상기 추출된 의미 단위들을 연결하는 단계는,
    의미역 인식을 이용한 분석에서 술어-논항 관계와 상호참조해결을 이용한 분석 결과를 연결하는 것을 특징으로 하는 지식 그래프 기반 문장 분석 방법.
  5. 제 1항에 있어서,
    상기 지식 그래프를 구축하는 단계는,
    의미역 인식 결과, 논항이 용언이 되는지를 판단하는 단계;
    상기 판단 단계에서 논항이 용언이 되면, 이유, 조건, 목적, 도구, 방법에 해당하는 의미역을 연결 대상으로 채택하고, 채택된 의미역을 이용하여 연결되지 않은 의미 단위를 연결하는 단계;를 포함하는 것을 특징으로 하는 지식 그래프 기반 문장 분석 방법.
  6. 제1항에 있어서,
    의미역 인식 결과를 통해서도 연결되지 않은 의미 단위가 존재하는지를 판단하는 단계;
    상기 의미역 인식 결과를 통해서도 연결되지 않은 의미 단위가 존재하는지를 판단하는 단계에서 연결되지 않는 의미 단위가 존재하면, 종단의 의미 단위를 중심으로, 차례로 나열, 대조, 선택, 역할, 특성, 선행, 양보와 같은 정보를 갖는 의미 단위를 연결 대상으로 채택하는 단계; 및
    상기 채택된 연결 대상들을 이용하여 연결되지 않은 의미 단위를 연결하는 단계;를 포함하는 지식 그래프 기반 문장 분석 방법.
  7. 제1항에 있어서,
    상기 의미 단위는, 대상과 연결 값으로 표시하는 것을 특징으로 하는 지식 그래프 기반 문장 분석 방법.
  8. 문서 정보를 입력받는 문서 입력부;
    상기 입력된 문서 정보의 전체 문장에 대한 의미 정보를 분석하는 의미 정보 분석부;
    지식 그래프의 노드를 구성할 수 있도록, 상기 분석된 의미 정보에서 의미 단위로 추출하는 의미 단위 추출부;
    상기 추출된 의미 단위들을 그래프 형태로 연결할 수 있도록, 추출된 의미 단위들을 연결하는 의미 단위 연결부; 및
    상기 분석된 의미 단위들을 연결하여 지식 그래프를 구축하는 그래프 구축부를 포함하되,
    상기 의미 단위 연결부는,
    연결되지 않은 의미 단위가 존재하는지를 판단하여 연결되지 않는 의미 단위가 존재하면, 개체명 인식, 어휘의미 분석, 의미역 논항의 의미 단위가 상이한지의 여부를 판단하고, 상기 의미 단위가 상이한지를 판단한 결과 각 의미 단위가 상이하면, 각 의미 단위 중 최장형태의 의미단위와 작은 의미 단위를 연결하고,
    상기 그래프 구축부는,
    의미역 인식 결과를 통해서도 연결되지 않은 의미 단위가 존재하는지를 판단한 후 상기 의미역 인식 결과를 통해서도 연결되지 않은 의미 단위가 존재하는지를 판단하되, 연결되지 않는 의미 단위가 존재하면, 종단의 의미 단위를 중심으로, 차례로 나열, 대조, 선택, 역할, 특성, 선행, 양보와 같은 정보를 갖는 의미 단위를 연결 대상으로 채택하고, 상기 채택된 연결 대상들을 이용하여 연결되지 않은 의미 단위를 연결하는 것을 특징으로 하는 지식 그래프 기반 문장 분석 장치.
  9. 제8항에 있어서,
    상기 의미 정보 분석부는,
    개체명 인식, 어휘의미 분석, 의미역 인식 및 상호참조해결 기술을 이용하여 전체 문장에 대한 의미 정보를 분석하는 것을 특징으로 하는 지식 그래프 기반 문장 분석 장치.
  10. 삭제
KR1020180115920A 2018-09-28 2018-09-28 지식 그래프 기반 문장 분석 방법 KR102588185B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180115920A KR102588185B1 (ko) 2018-09-28 2018-09-28 지식 그래프 기반 문장 분석 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180115920A KR102588185B1 (ko) 2018-09-28 2018-09-28 지식 그래프 기반 문장 분석 방법

Publications (2)

Publication Number Publication Date
KR20200036367A KR20200036367A (ko) 2020-04-07
KR102588185B1 true KR102588185B1 (ko) 2023-10-13

Family

ID=70290956

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180115920A KR102588185B1 (ko) 2018-09-28 2018-09-28 지식 그래프 기반 문장 분석 방법

Country Status (1)

Country Link
KR (1) KR102588185B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114610852B (zh) * 2022-05-10 2022-09-13 天津大学 一种基于课程学习的细粒度中文句法分析方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011175568A (ja) * 2010-02-25 2011-09-08 Mitsubishi Electric Corp 文書間距離算出器および文章検索器
JP2014106707A (ja) * 2012-11-27 2014-06-09 Yahoo Japan Corp 単語分割装置、単語分割用辞書のデータ構造、単語分割方法、およびプログラム
KR101831058B1 (ko) * 2016-01-11 2018-02-21 한국과학기술원 구체화된 삼항 관계 추출을 위한 개방형 정보 추출 방법 및 시스템

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101012504B1 (ko) * 2008-10-29 2011-02-08 한국과학기술원 의존 문법 구문 트리의 탐색을 통한 자동 관계 트리플 추출방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011175568A (ja) * 2010-02-25 2011-09-08 Mitsubishi Electric Corp 文書間距離算出器および文章検索器
JP2014106707A (ja) * 2012-11-27 2014-06-09 Yahoo Japan Corp 単語分割装置、単語分割用辞書のデータ構造、単語分割方法、およびプログラム
KR101831058B1 (ko) * 2016-01-11 2018-02-21 한국과학기술원 구체화된 삼항 관계 추출을 위한 개방형 정보 추출 방법 및 시스템

Also Published As

Publication number Publication date
KR20200036367A (ko) 2020-04-07

Similar Documents

Publication Publication Date Title
Baldwin et al. Extracting the unextractable: A case study on verb-particles
Misra et al. Measuring the similarity of sentential arguments in dialog
CN106156083B (zh) 一种领域知识处理方法及装置
JP5825676B2 (ja) ノン・ファクトイド型質問応答システム及びコンピュータプログラム
RU2637992C1 (ru) Способ извлечения фактов из текстов на естественном языке
de Caseli et al. Alignment-based extraction of multiword expressions
US8285541B2 (en) System and method for handling multiple languages in text
KR101972408B1 (ko) 술어 템플릿 수집 장치, 특정 프레이즈 페어 수집 장치, 및 이들을 위한 컴퓨터 프로그램
RU2626555C2 (ru) Извлечение сущностей из текстов на естественном языке
Van de Cruys et al. Semantics-based multiword expression extraction
CN106055536A (zh) 一种中文事件联合推理方法和系统
Oudah et al. NERA 2.0: Improving coverage and performance of rule-based named entity recognition for Arabic
KR20180078318A (ko) 선행사의 결정방법 및 장치
CN105912629A (zh) 一种智能问答方法及装置
CN106446018B (zh) 基于人工智能的查询信息处理方法和装置
US8775158B2 (en) Data processing device, data processing method, and data processing program
RU2646380C1 (ru) Использование верифицированных пользователем данных для обучения моделей уверенности
CN109271492A (zh) 一种语料正则表达式的自动生成方法及系统
KR102588185B1 (ko) 지식 그래프 기반 문장 분석 방법
RU2640718C1 (ru) Верификация атрибутов информационных объектов
CN109360552A (zh) 一种自动过滤唤醒词的方法及系统
CN110390085A (zh) 文本相似度的分析方法、分析装置、存储介质和电子设备
CN109800430A (zh) 一种语义理解方法及系统
Aksan et al. Multi-word expressions in genre specification
JP2005202924A (ja) 対訳判断装置、方法及びプログラム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right