KR20180086801A - Rdf 트리플 기반의 문장 의미 정형화 및 문장 생성 방법, 그리고 이를 구현한 문장 생성 장치 - Google Patents

Rdf 트리플 기반의 문장 의미 정형화 및 문장 생성 방법, 그리고 이를 구현한 문장 생성 장치 Download PDF

Info

Publication number
KR20180086801A
KR20180086801A KR1020170010698A KR20170010698A KR20180086801A KR 20180086801 A KR20180086801 A KR 20180086801A KR 1020170010698 A KR1020170010698 A KR 1020170010698A KR 20170010698 A KR20170010698 A KR 20170010698A KR 20180086801 A KR20180086801 A KR 20180086801A
Authority
KR
South Korea
Prior art keywords
sentence
rdf
triple
rdf triple
input
Prior art date
Application number
KR1020170010698A
Other languages
English (en)
Inventor
송도규
Original Assignee
(주)센솔로지
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)센솔로지 filed Critical (주)센솔로지
Priority to KR1020170010698A priority Critical patent/KR20180086801A/ko
Publication of KR20180086801A publication Critical patent/KR20180086801A/ko

Links

Images

Classifications

    • G06F17/2705
    • G06F17/274

Landscapes

  • Machine Translation (AREA)

Abstract

적어도 하나의 프로세서에 의해 동작하는 장치가 리소스 디스크립션 프레임워크(Resource Description Framework, RDF) 기반으로 문장 의미를 정형화하고 문장을 생성하는 방법으로서, 복수의 문장으로 구성된 입력문을 형태소 분석, 어절 생성, 문장성분 분석, 그리고 블록단위 분절 과정을 수행하여 입력문 분석 결과를 출력하는 단계, 상기 입력문 분석 결과 기초로, 상기 입력문을 격구조를 포함하는 RDF 트리플들로 변환하는 단계, 그리고 상기 RDF 트리플들을 해당 격에 지정된 문장에서의 출력 형태로 변환하여 문장을 만드는 단계를 포함한다.

Description

RDF 트리플 기반의 문장 의미 정형화 및 문장 생성 방법, 그리고 이를 구현한 문장 생성 장치{APPARATUS AND METHOD FOR SENTENCE MEANING FORMALIZATION AND TEXT GENERATION BASED ON RDF TRIPLES}
본 발명은 텍스트 자동 처리 장치에 관한 것이다.
현대 사회는 로봇, 지능형 가전제품, 내비게이션 등의 등장으로 사람과 기계와의 직접적이고 구체적인 의사소통이 중요한 요소로 부각되고 있다. 사람이 선호하는 의사소통 수단은 단연 일상적으로 사용하는 자연언어일 것이다. 자연언어는 별다른 보조장치가 필요하지도 않고, 사용법을 따로 익혀야 하는 불편함도 없다. 말로써 기계를 작동하고, 기계와 정보를 주고 받으며, 로봇과 친구처럼 대화하고 로봇을 비서나 가사도우미처럼 부릴 수 있다면 나날이 증가하는 고독한 노령층을 비롯한 나홀로족에게 편리함과 위안을 주고 그들의 삶의 질을 향상시킬 수 있다.
그러나 자연언어가 가지는 비정형성과 다양성 때문에 컴퓨터가 자연언어의 의미를 정확히 이해하지 못하고, 자연언어의 풍부한 표현력을 충분히 다루지 못하는 문제점이 있다.
인간의 언어가 컴퓨터가 이해할 수 있는 형태로 정형화되지 않는다면, 자연언어가 전달하는 의미를 컴퓨터는 이해할 수 없다. 최근 인간의 언어를 컴퓨터가 이해할 수 있는 포맷인 RDF(Resource Description Framework) 트리플로 정형화하여 텍스트의 의미를 분석하여 저장하고 검색하고 변경할 뿐만 아니라 RDF 트리플이 함유하고 있는 의미를 사람에게 전달하기 위해 RDF 트리플을 기반으로 문장을 생성하는 기술이 연구되고 있다. RDF 트리플은 월드 와이드 웹 컨소시엄(World Wide Web Consortium, W3C)이 관장하는 국제 표준으로, 지식과 정보를 서브젝트[Subject(resource)], 프레디키트[Predicate(property)], 오브젝트[(Object(literal)]의 세 쌍으로 나타내는 형식이다. 그러나 현재는 문장의 의미를 손실없이 그대로 RDF 트리플로 정형화하고, RDF 트리플을 기반으로 문장을 생성하는 기술이 아직 완성되지 못해 실제로 적용하지 못하는 한계가 있다.
본 발명이 해결하고자 하는 과제는 컴퓨터가 문장의 의미를 이해하고 다룰 수 있도록 RDF 트리플 기반으로 문장 의미를 정형화하여 문장을 생성하는 방법, 그리고 이를 구현한 문장 생성 장치를 제공하는 것이다.
본 발명의 실시예에 따른 적어도 하나의 프로세서에 의해 동작하는 장치가 리소스 디스크립션 프레임워크(Resource Description Framework, RDF) 기반으로 문장 의미를 정형화하고 문장을 생성하는 방법으로서, 복수의 문장으로 구성된 입력문을 형태소 분석, 어절 생성, 문장성분 분석, 그리고 블록단위 분절 과정을 수행하여 입력문 분석 결과를 출력하는 단계, 상기 입력문 분석 결과를 기초로, 상기 입력문을 격구조를 포함하는 RDF 트리플들로 변환하는 단계, 그리고 상기 RDF 트리플들을 해당 격에 지정된 문장에서의 출력 형태로 변환하여 문장을 만드는 단계를 포함한다.
상기 RDF 트리플들로 변환하는 단계는 상기 입력문을 격구조로 분석한 후, 주격은 RDF 트리플의 서브젝트 자리에 표지하고, 목적격은 RDF 트리플의 오브젝트 자리에 표지하며, 상기 주격과 목적격 이외의 보조격으로 분석된 값은 RDF 트리플 형식의 오브젝트에 해당 텍스트를 표지하고, RDF 트리플 형식의 프레디키트에 격명칭을 표지하여 RDF 트리플들을 생성하며, 상기 보조격은 관형격, 여격, 탈격, 공동격, 도구격, 처소격, 그리고 자격격 중 적어도 하나를 포함할 수 있다.
상기 문장 생성 방법은 변환한 RDF 트리플들을 RDF 트리플 리파지토리에 저장하는 단계를 더 포함하고, 상기 문장을 만드는 단계는 상기 RDF 트리플 리파지토리에 저장된 RDF 트리플들을 추출하여 문장을 만들 수 있다.
상기 문장을 만드는 단계는 상기 RDF 트리플들 중에서, 주격은 RDF 트리플의 서브젝트에 주격 조사를 붙여서 문장을 만들고, 목적격은 RDF 트리플의 오브젝트에 목적격 조사를 붙여서 문장을 만들고, 관형격은 관형격이 프레디키트인 RDF 트리플의 오브젝트에 관형격 조사를 붙여서 문장을 만들고, 여격은 여격이 프레디키트인 RDF 트리플의 오브젝트에 여격 조사를 붙여서 문장을 만들고, 탈격은 탈격이 프레디키트인 RDF 트리플의 오브젝트에 탈격 조사를 붙여서 문장을 만들고, 공동격은 공동격이 프레디키트인 RDF 트리플의 오브젝트에 공동격 조사 붙여서 문장을 만들고, 도구격은 도구격이 프레디키트인 RDF 트리플의 오브젝트에 도구격 조사를 붙여서 문장을 만들고, 처소격은 처소격이 프레디키트인 RDF 트리플의 오브젝트에 처소격 조사를 붙여서 문잘을 만들며, 자격격은 자격격이 프레디키트인 RDF 트리플의 오브젝트에 자격격 조사를 붙여서 문장을 생성할 수 있다.
상기 문장 생성 방법은 만든 문장들을 해당 문장의 RDF 트리플 생성 순서에 따라 정렬하는 단계, 그리고 정렬한 문장들을 출력하는 단계를 더 포함할 수 있다.
본 발명의 다른 실시예에 따라 적어도 하나의 프로세서에 의해 동작하고, 리소스 디스크립션 프레임워크(Resource Description Framework, RDF) 기반으로 문장 의미를 정형화하고 문장을 생성하는 장치로서, 복수의 문장으로 구성된 입력문을 형태소 분석, 어절 생성, 문장성분 분석, 그리고 블록단위 분절 과정을 수행하여 입력문 분석 결과를 출력하는 문장 분석부, 상기 문장 분석부에서 출력된 상기 입력문 분석 결과를 기초로, 상기 입력문을 격구조를 포함하는 RDF 트리플들로 변환하는 RDF 트리플 변환부, 그리고 상기 RDF 트리플들을 해당 격에 지정된 문장에서의 출력 형태로 변환하여 문장을 만드는 문장 변환부를 포함한다.
상기 RDF 트리플 변환부는 상기 입력문을 격구조로 분석한 후, 주격은 RDF 트리플의 서브젝트 자리에 표지하고, 목적격은 RDF 트리플의 오브젝트 자리에 표지하며, 상기 주격과 목적격 이외의 보조격으로 분석된 값은 RDF 트리플 형식의 오브젝트에 해당 텍스트를 표지하고, RDF 트리플 형식의 프레디키트에 격명칭을 표지하여 RDF 트리플들을 생성하며, 상기 보조격은 관형격, 여격, 탈격, 공동격, 도구격, 처소격, 그리고 자격격 중 적어도 하나를 포함할 수 있다.
상기 문장 생성 장치는 상기 RDF 트리플 변환부에서 변환한 RDF 트리플들을 저장하는 RDF 트리플 리파지토리를 더 포함하고, 상기 문장 변환부는 상기 RDF 트리플 리파지토리에 저장된 RDF 트리플들을 추출하여 문장을 만들 수 있다.
상기 문장 변환부는 상기 RDF 트리플들 중에서, 주격은 RDF 트리플의 서브젝트에 주격 조사를 붙여서 문장을 만들고, 목적격은 RDF 트리플의 오브젝트에 목적격 조사를 붙여서 문장을 만들고, 관형격은 관형격이 프레디키트인 RDF 트리플의 오브젝트에 관형격 조사를 붙여서 문장을 만들고, 여격은 여격이 프레디키트인 RDF 트리플의 오브젝트에 여격 조사를 붙여서 문장을 만들고, 탈격은 탈격이 프레디키트인 RDF 트리플의 오브젝트에 탈격 조사를 붙여서 문장을 만들고, 공동격은 공동격이 프레디키트인 RDF 트리플의 오브젝트에 공동격 조사 붙여서 문장을 만들고, 도구격은 도구격이 프레디키트인 RDF 트리플의 오브젝트에 도구격 조사를 붙여서 문장을 만들고, 처소격은 처소격이 프레디키트인 RDF 트리플의 오브젝트에 처소격 조사를 붙여서 문잘을 만들며, 자격격은 자격격이 프레디키트인 RDF 트리플의 오브젝트에 자격격 조사를 붙여서 문장을 생성할 수 있다.
상기 문장 생성 장치는 만든 문장들을 해당 문장의 RDF 트리플 생성 순서에 따라 정렬하고, 정렬한 문장들을 출력하는 문장 출력부를 더 포함할 수 있다.
본 발명의 또 다른 실시예에 따라 리소스 디스크립션 프레임워크(Resource Description Framework, RDF) 기반으로 문장을 생성하는 장치로서, 입력문을 입력받는 입력 인터페이스부, 상기 입력문에 대한 형태소 분석, 어절 생성, 문장 성분 분석, 그리고 블록단위 분절을 통해 입력문 분석 결과를 출력하고, 상기 입력문 분석 결과를 기초로, 상기 입력문을 격구조를 포함하는 RDF 트리플들로 변환하고, 상기 RDF 트리플들을 해당 격에 지정된 문장에서의 출력 형태로 변환하여 문장을 만드는 프로세서, 그리고 상기 프로세서에서 생성된 문장들을 출력하는 출력 인터페이스부를 포함한다.
상기 프로세서는 상기 입력문을 격구조로 분석한 후, 주격은 RDF 트리플의 서브젝트 자리에 표지하고, 목적격은 RDF 트리플의 오브젝트자리에 표지하며, 상기 주격과 목적격 이외의 보조격으로 분석된 값은 RDF 트리플 형식의 오브젝트에 해당 텍스트를 표지하고, RDF 트리플 형식의 프레디키트에 격명칭을 표지하여 RDF 트리플들을 생성하며, 상기 보조격은 관형격, 여격, 탈격, 공동격, 도구격, 처소격, 그리고 자격격 중 적어도 하나를 포함할 수 있다.
상기 프로세서는 격마다 지정된 조사를 서브젝트 또는 오브젝트에 붙여서 문장을 만들 수 있다.
상기 프로세서는 만든 문장들을 해당 문장의 RDF 트리플 생성 순서에 따라 정렬하고, 정렬한 문장들을 상기 출력 인터페이스부를 통해 출력할 수 있다.
실시예에 따르면 문장의 의미를 컴퓨터가 이해할 수 있는 형태로 정형화하고 이를 기반으로 문장을 생성하므로, 컴퓨터가 문장과 문장들로 이루어진 텍스트의 의미를 자동으로 이해하여 처리할 수 있다.
실시예에 따르면 컴퓨터가 텍스트를 읽고 그 내용을 파악하여 다양한 응용에 활용할 수 있다.
도 1은 본 발명의 한 실시예에 따른 문장 생성 장치의 블록도이다.
도 2는 본 발명의 한 실시예에 따른 RDF 트리플 변환 방법의 흐름도이다.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
이제 도면을 참고하여 본 발명의 실시예에 따른 RDF 트리플 기반의 문장 의미 정형화와 문장 생성 방법, 그리고 이를 구현한 문장 생성 장치에 대해 설명한다.
도 1은 본 발명의 한 실시예에 따른 문장 생성 장치의 블록도이다.
도 1을 참고하면, RDF 트리플 기반으로 문장 의미를 정형화하고 문장을 생성하는 장치(앞으로, 간단히 '문장 생성 장치'라고 한다)(100)는 텍스트를 구성하는 복수의 문장을 입력받고, 입력 문장들을 리소스 디스크립션 프레임워크(RDF) 트리플로 변환한다. 그리고 문장 생성 장치(100)는 RDF 트리플들을 기반으로 문장을 생성한다.
문장 생성 장치(100)는 적어도 하나의 프로세서에 의해 동작하고, 프로세서는 본 발명에서 설명하는 동작을 수행하는 명령어들을 포함하는 프로그램을 구동하여 동작한다. 문장 생성 장치(100)는 입력문을 입력받는 입력 인터페이스부, 그리고 생성한 문장들을 출력문으로 출력하는 출력 인터페이스부를 더 포함할 수 있다. 입력 인터페이스부나 출력 인터페이스부는 송수신 통신 모듈을 포함할 수 있다. 또는 입력 인터페이스부는 키보드 등의 입력 장치와 연동하는 인터페이스부일 수 있다. 출력 인터페이스부는 디스플레이 등의 출력 장치와 연동하는 인터페이스부일 수 있다.
적어도 하나의 프로세서에 의해 동작하는 문장 생성 장치(100)는 문장 분석부(200), RDF 트리플 변환부(300), 문장 변환부(400), 그리고 문장 출력부(500)를 포함한다. RDF 트리플 변환부(300)에서 생성된 RDF 트리플들은 RDF 트리플 리파지토리(600)에 저장되고, 문장 변환부(400)는 RDF 트리플 리파지토리(repository)(600)에 저장된 RDF 트리플들을 문장으로 변환할 수 있다.
문장 분석부(200)는 텍스트 입력부(210), 형태소 분석부(230), 어절 생성부(250), 문장성분 분석부(270), 그리고 블록단위 문장 분절부(290)를 포함한다.
텍스트 입력부(210)는 텍스트로 구성된 입력문을 입력받는다. 텍스트는 복수의 문장으로 구성될 수 있다. 텍스트 입력부(210)는 텍스트 파일, 웹 문서, 음성 파일 등 텍스트로 구성된 입력문을 입력받을 수 있다.
형태소 분석부(230)는 입력문을 형태소 분석기와 전자사전을 이용하여 형태소로 분석한다. 형태소는 문장을 구성하는 요소 중 의미를 가진 가장 작은 단위이다.
어절 생성부(250)는 형태소를 기초로 어절을 생성한다. 어절은 맞춤법에 맞게 쓰여진 문장에서 공백으로 구분되는 문장 구성 요소이다. 어절은 품사적 성격에 따라 체언(NN), 용언(VV), 관형어(MM), 부사어(MA), 감탄사(IC), 접속사(CONJ)로 구분될 수 있다.
문장성분 분석부(270)는 어절의 문장 내에서의 역할, 즉 문장성분을 분석한다. 문장 성분은 주어(SBJ), 목적어(OBJ), 서술어(PRD), 보어(CMP), 수식어(MOD), 부가어(AJT), 접속어(CNJ), 독립어(INT)로 구분될 수 있다.
블록단위 문장 분절부(290)는 문장성분 분석부(270)에서 출력된 문장성분을 기초로 각 문장을 문장 블록으로 나누어 문장 분절 정보를 생성한다. 문장 블록은 체언 블록(N), 복합 명사 블록(N), 고유 명사 블록(P), 단위 명사 블록(U), 관형격 블록(G), 대등 연결 블록(O), 용언 블록(V), 관형어 블록(C), 부사어 블록(B), 절 블록(S), 의문 블록(Q)을 포함할 수 있다.
이렇게, 문장 분석부(200)는 형태소 분석, 어절 생성, 문장 성분 분석, 그리고 블록단위 분절을 통해 입력문 분석 결과를 출력한다.
RDF 트리플 변환부(300)는 문장 분석부(200)에서 출력된 입력문 분석 결과를 기초로 입력문을 RDF 트리플로 변환한다. RDF 트리플은 서브젝트, 프레디키트, 오브젝트의 세 쌍으로 구성된다. 여기서, RDF 트리플 변환부(300)는 문장 분석부(200)의 형태소 분석부(230), 어절 생성부(250), 문장성분 분석부(270), 블록단위 문장 분절부(290)에서 출력된 형태소, 어절, 문장성분, 블록단위 분절 정보를 기초로 입력문의 격구조를 분석한다. RDF 트리플 변환부(300)는 입력문을 주격, 목적격, 보조격의 격구조로 분석한다. 보조격은 주격과 목적격 이외의 격으로서, 예를 들면, 관형격, 여격, 탈격, 공동격, 도구격, 처소격, 자격격 등을 포함할 수 있다.
RDF 트리플 변환부(300)는 주격과 목적격으로 분석된 값은 RDF 트리플에서의 자리(서브젝트, 오브젝트)에 표지한다. RDF 트리플 변환부(300)는 관형격, 여격, 탈격, 공동격, 도구격, 처소격, 자격격 등으로 분석된 값은 오브젝트에 해당 텍스트를 표지하고, 프레디키트에 "관형격", "여격", "탈격", "공동격", "도구격", "처소격", "자격격"과 같은 격명칭을 표지한다.
예를 들어 입력문이 "유재석이 박명수와 함께 MC로서 문화방송으로부터 연예대상을 수상했다 . 문화방송은 MBC공개홀에서 유재석에게 문화방송의 연예대상을 수여하며 연예대상으로 감사함을 표했다."인 경우, RDF 트리플 변환부(300)는 입력문을 표 1과 같은 RDF 트리플들로 변환한다. 이때, RDF 트리플 변환부(300)는 관형격, 여격, 탈격, 공동격, 도구격, 처소격, 자격격으로 분류된 트리플과 해당 격에 관계된 트리플을 쌍으로 표시한다. 표 1에서 트리플번호는 쌍을 나타내기 위해 임의로 붙인 것으로서 반드시 표 1과 같이 번호가 부여되는 것은 아니다.
트리플번호 서브젝트 프레디키트 오브젝트
트리플1 유재석 수상하다 연예대상
트리플2-1 유재석 수상하다 ?y
트리플2-2 ?y 공동격 박명수
트리플3-1 유재석 수상하다 ?y
트리플3-2 ?y 자격격 MC
트리플4-1 유재석 수상하다 ?y
트리플4-2 ?y 탈격 문화방송
트리플5 문화방송 수여하다 연예대상
트리플6-1 문화방송 수여하다 ?y
트리플6-2 ?y 여격 유재석
트리플7-1 문화방송 수여하다 ?y
트리플7-2 ?y 처소격 MBC공개홀
트리플8 연예대상 관형격 문화방송
트리플9 문화방송 표하다 감사함
트리플10-1 문화방송 표하다 ?y
트리플10-2 ?y 도구격 연예대상
표 1에서, 트리플2-1와 트리플2-2는 공동격을 나타내기 위한 한 쌍이고, 트리플3-1과 트리플3-2는 자격격을 나타내기 위한 한 쌍이며, 트리플4-1과 트리플4-2는 탈격을 나타내기 위한 한 쌍이다. 또, 트리플6-1과 트리플6-2는 여격을 나타내기 위한 한 쌍이고, 트리플7-1과 트리플7-2는 처소격을 나타내기 위한 한 쌍이며, 트리플10-1과 트리플10-2는 도구격을 나타내기 위한 한 쌍이다.
격에 따라 표지되는 부분이 정의되는데, 주격은 트리플의 서브젝트 자리에, 목적격은 트리플의 오브젝트 자리에 표지된다. 관형격, 여격, 탈격, 공동격, 도구격, 처소격, 자격격은 트리플의 프레디키트 자리에 해당 격 명칭으로 나타내도록 표지된다. 이를 정리하면 표 2와 같다.
표지 RDF 트리플
서브젝트 프레디키트 오브젝트
주격(행위자격, nominative) 트리플에서의
서브젝트 자리
유재석 수상하다 연예대상
문화방송 수여하다 연예대상
문화방송 표하다 감사함
목적격(대격, accusative) 트리플에서의
오브젝트 자리
유재석 수상하다 연예대상
문화방송 수여하다 연예대상
문화방송 표하다 감사함
관형격(소유격, 속격, genitive) 관형격으로 나타냄 연예대상 관형격 문화방송
여격(dative) 여격으로 나타냄 문화방송 수여하다 ?y
?y 여격 유재석
탈격
(원격, ablative)
탈격으로 나타냄 유재석 수상하다 ?y
?y 탈격 문화방송
공동격 공동격으로 나타냄 유재석 수상하다 ?y
?y 공동격 박명수
도구격
(instrumental)
도구격으로 나타냄 문화방송 표하다 ?y
?y 도구격 연예대상
처소격(locative) 처소격으로 나타냄 문화방송 수여하다 ?y
?y 처소격 MBC공개홀
자격격 자격격으로 나타냄 유재석 수상하다 ?y
?y 자격격 MC
RDF 트리플 변환부(300)는 변환된 RDF 트리플들을 RDF 트리플 리파지토리(600)에 저장한다.
문장 변환부(400)는 RDF 트리플 변환부(300)에서 변환된 RDF 트리플들을 이용하여 문장을 만든다. 이때, 문장 변환부(400)는 RDF 트리플 변환부(300)에서 가져온 RDF 트리플들을 이용하여 문장을 만들 수 있다.
문장 변환부(400)는 문장 격구조에 지정된 조사를 붙여서 문장을 만든다.
문장 변환부(400)는 다음과 같이 격에 따라 지정된 문장에서의 출력 형태(조사)로 문장을 만든다. 예를 들면, 주격은 RDF 트리플의 서브젝트에 "~가", "~이" 등의 주격 조사를 붙여서 문장을 만든다. 목적격은 RDF 트리플의 오브젝트에 "~을", "~를"의 목적격 조사를 붙여서 문장을 만든다. 관형격은 관형격이 프레디키트인 RDF 트리플의 오브젝트에 "~의"의 관형격 조사를 붙여서 문장을 만든다. 여격은 여격이 프레디키트인 RDF 트리플의 오브젝트에 "~에게", "~께", "~한테" 등의 여격 조사를 붙여서 문장을 만든다. 탈격은 탈격이 프레디키트인 RDF 트리플의 오브젝트에 "~(으)로부터", "~에게서", "~한테서" 등의 탈격 조사를 붙여서 문장을 만든다. 공동격은 공동격이 프레디키트인 RDF 트리플의 오브젝트에 "~과", "~와"의 공동격 조사를 붙여서 문장을 만든다. 도구격은 도구격이 프레디키트인 RDF 트리플의 오브젝트에 "~(으)로" 등의 도구격 조사를 붙여서 문장을 만든다. 처소격은 처소격이 프레디키트인 RDF 트리플의 오브젝트에 "~에(서)" 등의 처소격 조사를 붙여서 문장을 만든다. 자격격은 자격격이 프레디키트인 RDF 트리플의 오브젝트에 "~(으)로(서)" 등의 자격격 조사를 붙여서 문장을 만든다. 각 격이 문장에서 출력되는 형태는 표 3과 같이 정의될 수 있다.
RDF 트리플 문장에서의 출력 형태
서브젝트 프레디키트 오브젝트
주격(행위자격, nominative) 유재석 수상하다 연예대상 주격 조사(~가, ~이)
목적격(대격, accusative) 유재석 수상하다 연예대상 목적격 조사(~을, ~를)
관형격(소유격, 속격, genitive) 연예대상 관형격 문화방송 관형격 조사(~의)
여격(dative) 문화방송 수여하다 ?y 여격 조사(~에게, ~께, ~한테)
?y 여격 유재석
탈격
(원격, ablative)
유재석 수상하다 ?y 탈격 조사(~(으)로부터, ~에게서, ~한테서)
?y 탈격 문화방송
공동격 유재석 수상하다 ?y 공동격 조사(~과, ~와)
?y 공동격 박명수
도구격
(instrumental)
문화방송 표하다 ?y 도구격 조사(~(으)로)
?y 도구격 연예대상
처소격(locative) 유재석 수상하다 ?y 처소격 조사(~에(서))
?y 처소격 MBC공개홀
자격격 유재석 수상하다 ?y 자격격 조사(~(으)로(서))
?y 자격격 MC
문장 변환부(400)는 격에 따라 표 4와 같은 문장들을 생성할 수 있다.
RDF 트리플 문장
서브젝트 프레디키트 오브젝트
주격(행위자격, nominative) 유재석 수상하다 연예대상 유재석이 연예대상을 수상했다
목적격(대격, accusative) 유재석 수상하다 연예대상 유재석이 연예대상을 수상했다
문화방송 수여하다 연예대상 문화방송은 연예대상을 수여했다
문화방송 표하다 감사함 문화방송은 감사함을 표했다
관형격(소유격, 속격, genitive) 연예대상 관형격 문화방송 문화방송의 연예대상
여격(dative) 문화방송 수여하다 ?y 문화방송은 유재석에게 수여했다
?y 여격 유재석
탈격(원격, ablative) 유재석 수상하다 ?y 유재석이 문화방송으로부터 수상했다
?y 탈격 문화방송
공동격 유재석 수상하다 ?y 유재석이 박명수와 수상했다
?y 공동격 박명수
도구격
(instrumental)
문화방송 표하다 ?y 문화방송은 연예대상으로 표했다
?y 도구격 연예대상
처소격(locative) 문화방송 수여하다 ?y 문화방송은 MBC공개홀에서 수여했다
?y 처소격 MBC공개홀
자격격 유재석 수상하다 ?y 유재석이 MC로서 수상했다
?y 자격격 MC
문장 출력부(500)는 문장 변환부(400)에서 생성된 문장들을 해당 문장의 RDF 트리플 생성 순서에 따라 정렬한다.
예를 들면, 표 1의 트리플 생성 순서에 따라 문장들을 정렬하면 표 5와 같다.
생성 순서 생성 문장
1 유재석이 연예대상을 수상했다.
2 유재석이 박명수와 수상했다.
3 유재석이 MC로서 수상했다.
4 유재석이 문화방송으로부터 수상했다.
5 문화방송은 연예대상을 수여했다.
6 문화방송은 유재석에게 수여했다.
7 문화방송은 MBC공개홀에서 수여했다.
8 문화방송의 연예대상.
9 문화방송은 감사함을 표했다.
10 문화방송은 연예대상으로 표했다.
문장 출력부(500)는 트리플 생성 순서에 따라 나열된 문장들을 출력한다.
출력 문장과 입력 문장을 비교해 볼 때, 자구가 똑같지는 않지만 텍스트가 전달하고자 하는 내용이 동일하다. 여기서, 본 발명에 따라 출력된 출력 문장은 컴퓨터가 내용을 이해하고 그 의미를 자동으로 처리할 수 있는 정형화된 형태라는 점에서 입력 문장과 차이가 있다.
도 2는 본 발명의 한 실시예에 따른 RDF 트리플 변환 방법의 흐름도이다.
도 2를 참고하면, 문장 생성 장치(100)는 텍스트로 구성된 입력문을 입력받는다(S110).
문장 생성 장치(100)는 입력문의 형태소, 어절, 문장성분 그리고 블록단위 문장 분절 정보를 분석한다(S120).
문장 생성 장치(100)는 입력문의 분석 결과를 기초로 입력문을 격구조를 포함하는 RDF 트리플로 변환한다(S130). 격구조는 주격, 목적격, 관형격, 여격, 탈격, 공동격, 도구격, 처소격, 자격격 등을 포함한다. 문장 생성 장치(100)는 주격과 목적격으로 분석된 값은 RDF 트리플에서의 자리(주격은 트리플의 서브젝트, 목적격은 트리플의 오브젝트)에 표지한다. 문장 생성 장치(100)는 관형격, 여격, 탈격, 공동격, 도구격, 처소격, 자격격 등으로 분석된 값은 오브젝트에 해당 텍스트를 표지하고, 프레디키트에 "관형격", "여격", "탈격", "공동격", "도구격", "처소격", "자격격"과 같은 격명칭을 표지한다. 문장 생성 장치(100)는 관형격, 여격, 탈격, 공동격, 도구격, 처소격, 자격격으로 변환된 트리플과 해당 격에 관계된 트리플을 쌍으로 표시할 수 있다.
문장 생성 장치(100)는 RDF 트리플들을 해당 격에 지정된 문장에서의 출력 형태(주격 조사, 목적격 조사, 여격 조사 등)로 변환하여 문장을 만든다(S140).
문장 생성 장치(100)는 생성된 문장들을 해당 문장의 RDF 트리플 생성 순서에 따라 정렬한다(S150).
문장 생성 장치(100)는 트리플 생성 순서에 따라 정렬된 문장들을 출력한다(S160). 문장 생성 장치(100)에서 출력하는 문장들은 정제되어 출력될 수 있다.
이와 같이, 실시예에 따르면 문장의 의미를 컴퓨터가 이해할 수 있는 형태로 정형화하고 이를 기반으로 문장을 생성하므로, 컴퓨터가 문장과 문장들로 이루어진 텍스트의 의미를 자동으로 이해하여 처리할 수 있다. 실시예에 따르면 컴퓨터가 텍스트를 읽고 그 내용을 파악하여 다양한 응용에 활용할 수 있다.
이상에서 설명한 본 발명의 실시예는 장치 및 방법을 통해서만 구현이 되는 것은 아니며, 본 발명의 실시예의 구성에 대응하는 기능을 실현하는 프로그램 또는 그 프로그램이 기록된 기록 매체를 통해 구현될 수도 있다.
이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.

Claims (14)

  1. 적어도 하나의 프로세서에 의해 동작하는 장치가 리소스 디스크립션 프레임워크(Resource Description Framework, RDF) 기반으로 문장 의미를 정형화하고 문장을 생성하는 방법으로서,
    복수의 문장으로 구성된 입력문을 형태소 분석, 어절 생성, 문장성분 분석, 그리고 블록단위 분절 과정을 수행하여 입력문 분석 결과를 출력하는 단계,
    상기 입력문 분석 결과를 기초로, 상기 입력문을 격구조를 포함하는 RDF 트리플들로 변환하는 단계, 그리고
    상기 RDF 트리플들을 해당 격에 지정된 문장에서의 출력 형태로 변환하여 문장을 만드는 단계
    를 포함하는 문장 생성 방법.
  2. 제1항에서,
    상기 RDF 트리플들로 변환하는 단계는
    상기 입력문을 격구조로 분석한 후, 주격은 RDF 트리플의 서브젝트 자리에 표지하고, 목적격은 RDF 트리플의 오브젝트 자리에 표지하며,
    상기 주격과 목적격 이외의 보조격으로 분석된 값은 RDF 트리플 형식의 오브젝트에 해당 텍스트를 표지하고, RDF 트리플 형식의 프레디키트에 격명칭을 표지하여 RDF 트리플들을 생성하며,
    상기 보조격은 관형격, 여격, 탈격, 공동격, 도구격, 처소격, 그리고 자격격 중 적어도 하나를 포함하는 문장 생성 방법.
  3. 제2항에서,
    변환한 RDF 트리플들을 RDF 트리플 리파지토리에 저장하는 단계를 더 포함하고,
    상기 문장을 만드는 단계는
    상기 RDF 트리플 리파지토리에 저장된 RDF 트리플들을 추출하여 문장을 만드는 문장 생성 방법.
  4. 제3항에서,
    상기 문장을 만드는 단계는
    상기 RDF 트리플들 중에서, 주격은 RDF 트리플의 서브젝트에 주격 조사를 붙여서 문장을 만들고, 목적격은 RDF 트리플의 오브젝트에 목적격 조사를 붙여서 문장을 만들고, 관형격은 관형격이 프레디키트인 RDF 트리플의 오브젝트에 관형격 조사를 붙여서 문장을 만들고, 여격은 여격이 프레디키트인 RDF 트리플의 오브젝트에 여격 조사를 붙여서 문장을 만들고, 탈격은 탈격이 프레디키트인 RDF 트리플의 오브젝트에 탈격 조사를 붙여서 문장을 만들고, 공동격은 공동격이 프레디키트인 RDF 트리플의 오브젝트에 공동격 조사 붙여서 문장을 만들고, 도구격은 도구격이 프레디키트인 RDF 트리플의 오브젝트에 도구격 조사를 붙여서 문장을 만들고, 처소격은 처소격이 프레디키트인 RDF 트리플의 오브젝트에 처소격 조사를 붙여서 문잘을 만들며, 자격격은 자격격이 프레디키트인 RDF 트리플의 오브젝트에 자격격 조사를 붙여서 문장을 생성하는 문장 생성 방법.
  5. 제1항에서,
    만든 문장들을 해당 문장의 RDF 트리플 생성 순서에 따라 정렬하는 단계, 그리고
    정렬한 문장들을 출력하는 단계
    를 더 포함하는 문장 생성 방법.
  6. 적어도 하나의 프로세서에 의해 동작하고, 리소스 디스크립션 프레임워크(Resource Description Framework, RDF) 기반으로 문장 의미를 정형화하고 문장을 생성하는 장치로서,
    복수의 문장으로 구성된 입력문을 형태소 분석, 어절 생성, 문장성분 분석, 그리고 블록단위 분절 과정을 수행하여 입력문 분석 결과를 출력하는 문장 분석부,
    상기 문장 분석부에서 출력된 상기 입력문 분석 결과를 기초로, 상기 입력문을 격구조를 포함하는 RDF 트리플들로 변환하는 RDF 트리플 변환부, 그리고
    상기 RDF 트리플들을 해당 격에 지정된 문장에서의 출력 형태로 변환하여 문장을 만드는 문장 변환부
    를 포함하는 문장 생성 장치.
  7. 제6항에서,
    상기 RDF 트리플 변환부는
    상기 입력문을 격구조로 분석한 후, 주격은 RDF 트리플의 서브젝트 자리에 표지하고, 목적격은 RDF 트리플의 오브젝트 자리에 표지하며,
    상기 주격과 목적격 이외의 보조격으로 분석된 값은 RDF 트리플 형식의 오브젝트에 해당 텍스트를 표지하고, RDF 트리플 형식의 프레디키트에 격명칭을 표지하여 RDF 트리플들을 생성하며,
    상기 보조격은 관형격, 여격, 탈격, 공동격, 도구격, 처소격, 그리고 자격격 중 적어도 하나를 포함하는 문장 생성 장치.
  8. 제6항에서,
    상기 RDF 트리플 변환부에서 변환한 RDF 트리플들을 저장하는 RDF 트리플 리파지토리를 더 포함하고,
    상기 문장 변환부는
    상기 RDF 트리플 리파지토리에 저장된 RDF 트리플들을 추출하여 문장을 만드는 문장 생성 장치.
  9. 제6항에서,
    상기 문장 변환부는
    상기 RDF 트리플들 중에서, 주격은 RDF 트리플의 서브젝트에 주격 조사를 붙여서 문장을 만들고, 목적격은 RDF 트리플의 오브젝트에 목적격 조사를 붙여서 문장을 만들고, 관형격은 관형격이 프레디키트인 RDF 트리플의 오브젝트에 관형격 조사를 붙여서 문장을 만들고, 여격은 여격이 프레디키트인 RDF 트리플의 오브젝트에 여격 조사를 붙여서 문장을 만들고, 탈격은 탈격이 프레디키트인 RDF 트리플의 오브젝트에 탈격 조사를 붙여서 문장을 만들고, 공동격은 공동격이 프레디키트인 RDF 트리플의 오브젝트에 공동격 조사 붙여서 문장을 만들고, 도구격은 도구격이 프레디키트인 RDF 트리플의 오브젝트에 도구격 조사를 붙여서 문장을 만들고, 처소격은 처소격이 프레디키트인 RDF 트리플의 오브젝트에 처소격 조사를 붙여서 문잘을 만들며, 자격격은 자격격이 프레디키트인 RDF 트리플의 오브젝트에 자격격 조사를 붙여서 문장을 생성하는 문장 생성 장치.
  10. 제6항에서,
    만든 문장들을 해당 문장의 RDF 트리플 생성 순서에 따라 정렬하고, 정렬한 문장들을 출력하는 문장 출력부
    를 더 포함하는 문장 생성 장치.
  11. 리소스 디스크립션 프레임워크(Resource Description Framework, RDF) 기반으로 문장을 생성하는 장치로서,
    입력문을 입력받는 입력 인터페이스부,
    상기 입력문에 대한 형태소 분석, 어절 생성, 문장 성분 분석, 그리고 블록단위 분절을 통해 입력문 분석 결과를 출력하고, 상기 입력문 분석 결과를 기초로, 상기 입력문을 격구조를 포함하는 RDF 트리플들로 변환하고, 상기 RDF 트리플들을 해당 격에 지정된 문장에서의 출력 형태로 변환하여 문장을 만드는 프로세서, 그리고
    상기 프로세서에서 생성된 문장들을 출력하는 출력 인터페이스부
    를 포함하는 문장 생성 장치.
  12. 제11항에서,
    상기 프로세서는
    상기 입력문을 격구조로 분석한 후, 주격은 RDF 트리플의 서브젝트 자리에 표지하고, 목적격은 RDF 트리플의 오브젝트자리에 표지하며,
    상기 주격과 목적격 이외의 보조격으로 분석된 값은 RDF 트리플 형식의 오브젝트에 해당 텍스트를 표지하고, RDF 트리플 형식의 프레디키트에 격명칭을 표지하여 RDF 트리플들을 생성하며,
    상기 보조격은 관형격, 여격, 탈격, 공동격, 도구격, 처소격, 그리고 자격격 중 적어도 하나를 포함하는 문장 생성 장치.
  13. 제11항에서,
    상기 프로세서는
    격마다 지정된 조사를 서브젝트 또는 오브젝트에 붙여서 문장을 만드는, 문장 생성 장치.
  14. 제11항에서,
    상기 프로세서는
    만든 문장들을 해당 문장의 RDF 트리플 생성 순서에 따라 정렬하고, 정렬한 문장들을 상기 출력 인터페이스부를 통해 출력하는 문장 생성 장치.
KR1020170010698A 2017-01-23 2017-01-23 Rdf 트리플 기반의 문장 의미 정형화 및 문장 생성 방법, 그리고 이를 구현한 문장 생성 장치 KR20180086801A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170010698A KR20180086801A (ko) 2017-01-23 2017-01-23 Rdf 트리플 기반의 문장 의미 정형화 및 문장 생성 방법, 그리고 이를 구현한 문장 생성 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170010698A KR20180086801A (ko) 2017-01-23 2017-01-23 Rdf 트리플 기반의 문장 의미 정형화 및 문장 생성 방법, 그리고 이를 구현한 문장 생성 장치

Publications (1)

Publication Number Publication Date
KR20180086801A true KR20180086801A (ko) 2018-08-01

Family

ID=63227860

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170010698A KR20180086801A (ko) 2017-01-23 2017-01-23 Rdf 트리플 기반의 문장 의미 정형화 및 문장 생성 방법, 그리고 이를 구현한 문장 생성 장치

Country Status (1)

Country Link
KR (1) KR20180086801A (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492112A (zh) * 2018-10-24 2019-03-19 北京百科康讯科技有限公司 一种基于知识图谱的计算机辅助写作科普文章的方法
KR20200057611A (ko) 2019-09-30 2020-05-26 지의소프트 주식회사 통계 데이터베이스의 데이터를 대화형으로 제공하는 질의 답변 시스템
KR102381079B1 (ko) * 2021-08-02 2022-04-01 주식회사 닥터송 기본 문형 단위 분해에 기반한 한국어 구문 학습 시스템

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492112A (zh) * 2018-10-24 2019-03-19 北京百科康讯科技有限公司 一种基于知识图谱的计算机辅助写作科普文章的方法
KR20200057611A (ko) 2019-09-30 2020-05-26 지의소프트 주식회사 통계 데이터베이스의 데이터를 대화형으로 제공하는 질의 답변 시스템
KR102381079B1 (ko) * 2021-08-02 2022-04-01 주식회사 닥터송 기본 문형 단위 분해에 기반한 한국어 구문 학습 시스템
WO2023013826A1 (ko) * 2021-08-02 2023-02-09 주식회사 닥터송 기본 문형 단위 분해에 기반한 외국어 구문 학습 시스템

Similar Documents

Publication Publication Date Title
US7555475B2 (en) Natural language based search engine for handling pronouns and methods of use therefor
CN107451153A (zh) 输出结构化查询语句的方法和装置
CN101872349A (zh) 处理自然语言问题的方法和装置
US20190171713A1 (en) Semantic parsing method and apparatus
CN102955848A (zh) 一种基于语义的三维模型检索系统和方法
Bundgaard et al. Who is the back translator? An integrative literature review of back translator descriptions in cross-cultural adaptation of research instruments
EP1318466A2 (en) Apparatus for interpreting electronic legal documents
O'Donnell et al. From student hard drive to web corpus (part 2): The annotation and online distribution of the Michigan Corpus of Upper-level Student Papers (MICUSP)
KR20180086801A (ko) Rdf 트리플 기반의 문장 의미 정형화 및 문장 생성 방법, 그리고 이를 구현한 문장 생성 장치
Eika et al. Assessing the reading level of web texts for WCAG2. 0 compliance—can it be done automatically?
JP6388212B2 (ja) タグ付与方法、タグ付与装置、プログラム及び質問回答検索方法
Sitender et al. Sansunl: a Sanskrit to UNL enconverter system
Reeder et al. The naming of things and the confusion of tongues: An MT metric
Al-Shawakfa A rule-based approach to understand questions in Arabic question answering
US20090144280A1 (en) Electronic multilingual business information database system
EP4300375A1 (en) Method and system for information retrieval
Bopche et al. Grammar checking system using rule based morphological process for an Indian language
KR102280028B1 (ko) 빅데이터와 인공지능을 이용한 챗봇 기반 콘텐츠 관리 방법 및 장치
KR20100025281A (ko) 어학문제생성 시스템 및 방법
US20090259995A1 (en) Apparatus and Method for Standardizing Textual Elements of an Unstructured Text
Tannebaum et al. Analyzing query logs of uspto examiners to identify useful query terms in patent documents for query expansion in patent searching: a preliminary study
Karmani et al. Building a standardized Wordnet in the ISO LMF for aeb language
KR101117298B1 (ko) 온톨로지 기반 한국어 의미 분석 시스템 및 방법
Engel et al. Towards accessible charts for blind and partially sighted people
US20060195313A1 (en) Method and system for selecting and conjugating a verb