KR101962113B1 - 자연어 문장을 확장하는 장치와 상기 자연어 문장을 확장하는 방법 - Google Patents

자연어 문장을 확장하는 장치와 상기 자연어 문장을 확장하는 방법 Download PDF

Info

Publication number
KR101962113B1
KR101962113B1 KR1020170039297A KR20170039297A KR101962113B1 KR 101962113 B1 KR101962113 B1 KR 101962113B1 KR 1020170039297 A KR1020170039297 A KR 1020170039297A KR 20170039297 A KR20170039297 A KR 20170039297A KR 101962113 B1 KR101962113 B1 KR 101962113B1
Authority
KR
South Korea
Prior art keywords
natural language
morpheme
language sentence
extended
sentence
Prior art date
Application number
KR1020170039297A
Other languages
English (en)
Other versions
KR20180110316A (ko
Inventor
이현호
박외진
Original Assignee
(주)아크릴
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)아크릴 filed Critical (주)아크릴
Priority to KR1020170039297A priority Critical patent/KR101962113B1/ko
Publication of KR20180110316A publication Critical patent/KR20180110316A/ko
Application granted granted Critical
Publication of KR101962113B1 publication Critical patent/KR101962113B1/ko

Links

Images

Classifications

    • G06F17/2755
    • G06F17/2705
    • G06F17/2795

Landscapes

  • Machine Translation (AREA)

Abstract

본 발명의 실시 예들에 따른 자연어 문장 확장 장치를 이용하여 자연어 문장을 확장하는 방법은 자연어 문장을 수신하고, 수신된 자연어 문장을 분석하여 형태소들을 포함하는 형태소열을 생성하고, 상기 형태소열에 포함된 형태소들 중에서 유사어 사전 데이터베이스에 등록된 제1형태소를 식별하기 위한 확장 정보를 생성하고, 상기 제1형태소와 유사한 제2형태소를 상기 유사어 사전 데이터베이스로부터 추출하고, 상기 확장 정보에 기초하여 상기 제1형태소를 상기 제2형태소로 치환함으로써 상기 자연어 문장에 대응하는 확장 자연어 문장을 생성하고, 상기 확장 자연어 문장이 자연어 문법을 만족하는지를 판단하여 상기 확장 자연어 문장을 검증한다.

Description

자연어 문장을 확장하는 장치와 상기 자연어 문장을 확장하는 방법{DEVICE FOR EXTENDING NATURAL LANGUAGE SENTENCE AND METHOD THEREOF}
본 발명에 따른 실시 예들은 자연어 문장을 확장하는 장치와, 상기 자연어 문장을 확장하는 방법에 관한 것이다.
자연어(natural language)는 사람들로부터 자연적으로 발생한 언어를 의미한다. 예컨대, 영어, 한국어, 및 일본어 등은 자연어라고 할 수 있다.
자연어 처리(natural language processing(NLP))는 컴퓨터가 자연어를 분석하고 이해하는 프로세스를 의미한다. 일반적으로 자연어 처리를 수행하는 인공지능 시스템(이하, 자연어 기반 인공지능 시스템)은 특정 언어의 문장 또는 문서를 입력으로 하여 학습하는데, 상기 인공지능 시스템의 학습 성능에 가장 큰 영향을 미치는 요인은 입력되는 자연어 문장의 양이므로, 자연어 기반 인공지능 시스템의 학습에 필요한 충분한 양의 자연어 문장을 확보하는 것이 중요하다.
공개특허공보 10-2012-0081471 (2011. 01. 11.)
본 발명이 해결하고자 하는 과제는, 입력된 자연어 문장에 포함된 형태소들을 상기 형태소들과 유사한 다른 형태소들로 치환함으로써, 상기 입력된 자연어 문장으로부터 새로운 확장 자연어 문장을 생성하는 자연어 문장 확장 장치와 자연어 문장 확장 방법을 제공하는 것에 있다.
본 발명의 실시 예들에 따른 자연어 문장 확장 장치를 이용하여 자연어 문장을 확장하는 방법은 웹 크롤링 방식에 의해 적어도 하나의 웹 페이지로부터 수집된 데이터인 상기 자연어 문장을 수신하는 단계와, 수신된 자연어 문장을 분석하여 형태소들을 포함하는 형태소열을 생성하는 단계와, 상기 형태소열에 포함된 형태소들 중에서 유사어 사전 데이터베이스에 등록된 제1형태소를 식별하기 위한 확장 정보를 생성하는 단계와, 상기 제1형태소와 유사한 제2형태소를 상기 유사어 사전 데이터베이스로부터 추출하는 단계와, 상기 확장 정보에 기초하여 상기 제1형태소를 상기 제2형태소로 치환함으로써 상기 자연어 문장에 대응하는 확장 자연어 문장을 생성하는 단계와, 상기 확장 자연어 문장이 자연어 문법을 만족하는지를 판단하여 상기 확장 자연어 문장을 검증하는 단계를 포함하고, 상기 확장 자연어 문장을 생성하는 단계는, 상기 제1형태소가 n 개이고 상기 제2형태소가 m 개일 때, 상기 n 개의 제1형태소 각각을 상기 m 개의 제2형태소 각각으로 치환하여 총 n*m 개의 확장 자연어 문장들을 생성하고, 상기 n과 상기 m 각각은 2이상의 자연수이다.
본 발명의 실시 예들에 따른 자연어 문장 확장 장치는 입력된 자연어 문장을 분석하여 형태소들을 포함하는 형태소열을 생성하는 형태소 분석기와, 상기 형태소열에 포함된 형태소들 중에서 유사어 사전 데이터베이스에 등록된 제1형태소를 식별하기 위한 확장 정보를 생성하고, 상기 제1형태소와 유사한 제2형태소를 상기 유사어 사전 데이터베이스로부터 추출하는 확장 후보 도출기와, 상기 확장 정보에 기초하여 상기 제1형태소를 상기 제2형태소로 치환함으로써 상기 자연어 문장에 대응하는 확장 자연어 문장을 생성하는 형태소 확장기와, 상기 확장 자연어 문장이 자연어 문법을 만족하는지를 판단하여 상기 확장 자연어 문장을 검증하는 문장 검증기를 포함하고, 상기 자연어 문장은 웹 크롤링 방식에 의해 적어도 하나의 웹 페이지로부터 수집된 데이터이고, 상기 형태소 확장기는, 상기 제1형태소가 n 개이고 상기 제2형태소가 m 개일 때, 상기 n 개의 제1형태소 각각을 상기 m 개의 제2형태소 각각으로 치환하여 총 n*m 개의 확장 자연어 문장들을 생성하고, 상기 n과 상기 m 각각은 2이상의 자연수이다.
본 발명의 실시 예들에 따른 자연어 문장 확장 방법을 수행하기 위한 명령들을 포함하는 컴퓨터 프로그램은 컴퓨터로 판독 가능한 저장 매체 저장될 수 있다.
본 발명의 실시 예들에 따른 방법과 장치는, 수집된 자연어 문장에 포함된 형태소들을 상기 형태소들과 유사한 다른 형태소들로 치환함으로써, 상기 입력된 자연어 문장으로부터 새로운 확장 자연어 문장을 생성할 수 있는 효과가 있다. 따라서, 상기 방법과 장치는 수집된 자연어 문장 데이터를 확장할 수 있는 효과가 있다.
도 1은 본 발명의 실시 예들에 따른 자연어 문장 확장 시스템을 개념적으로 나타낸다.
도 2는 본 발명의 실시 예들에 따른 자연어 문장 확장기의 구조를 개념적으로 나타낸다.
도 3은 본 발명의 실시 예들에 따른 자연어 문장 확장기의 작동을 나타내는 플로우차트이다.
도 4는 본 발명의 실시 예들에 따른 형태소 분석기의 작동을 설명하기 위한 도면이다.
도 5는 본 발명의 실시 예들에 따른 확장 후보 도출기의 작동을 설명하기 위한 도면이다.
도 6은 본 발명의 실시 예들에 따른 형태소 확장기의 작동을 설명하기 위한 도면이다.
도 7은 본 발명의 실시 예들에 따른 문장 검증기의 작동을 설명하기 위한 도면이다.
도 8은 본 발명의 실시 예들에 따른 문장 검증기의 작동을 설명하기 위한 도면이다.
이하, 첨부된 도면을 참조하여 본 발명을 실시하기 위한 구체적인 내용을 설명한다.
도 1은 본 발명의 실시 예들에 따른 자연어 문장 확장 시스템을 개념적으로 나타낸다. 도 1을 참조하면, 자연어 문장 확장 시스템(10)은 자연어 문장(IS)을 확장할 수 있다.
본 명세서에서, 자연어(natural language)는 사람들로부터 자연적으로 발생한 언어를 의미한다. 실시 예들에 따라, 상기 자연어는 영어, 한국어, 일본어 또는 중국어일 수 있으나 이들 언어에 한정되는 것은 아니다. 자연어 문장(IS)은 자연어로 구성된 문장을 의미한다.
자연어 문장 확장 시스템(10)은 장치(100), 자연어 데이터베이스(이하, 자연어 DB(database); 210), 유사어 사전 데이터베이스(이하, 유사어 사전 DB; 220), 및 문법 데이터베이스(이하, 문법 DB; 230)를 포함한다. 각 DB(210, 220, 및 230)는 서로 다른 데이터 저장 장치로 구현되거나 하나의 데이터 저장 장치로 구현될 수 있다.
장치(100)는 유사어 사전 DB(220)를 이용하여 자연어 문장(IS)을 확장하여 확장 자연어 문장(ES)을 생성하고, 확장 자연어 문장(ES)이 자연어 문법을 만족하는지 검증하고, 검증 결과(VRES)를 생성할 수 있다.
장치(100)는 연산 또는 작업을 수행할 수 있는 컴퓨터(computer) 또는 서버를 의미할 수 있다. 장치(100)는 프로세서(110)와 메모리(120)를 포함할 수 있다.
프로세서(110)는 연산을 수행할 수 있고, 장치(100)의 작동을 제어할 수 있다. 예컨대, 프로세서(110)는 CPU(central processing unit), GPU(graphics processing unit) 또는 GPGPU(general-purpose computing on graphics processing units)를 의미할 수 있으나 이에 한정되는 것은 아니다.
메모리(120)는 장치(100)의 작동에 필요한 데이터 또는 정보를 저장할 수 있는 데이터 저장 장치이다. 메모리(120)는 자연어 문장 확장기(또는 자연어 확장기; 300)를 저장할 수 있다. 예컨대, 자연어 문장 확장기(300)는 소프트웨어 또는 컴퓨터로 읽을 수 있는 컴퓨터 프로그램 또는 프로그램 코드들의 집합일 수 있다.
프로세서(110)는 메모리(120)에 저장된 자연어 문장 확장기(300)를 실행시키고, 실행된 자연어 문장 확장기(300)의 제어에 따라 장치(100)가 작동하도록 장치 (100)를 제어할 수 있다.
자연어 DB(210)는 자연어 문장(IS)을 저장하는 데이터베이스 또는 데이터 저장 장치를 의미한다. 실시 예들에 따라, 자연어 문장(IS)은 웹 크롤링(web crawling) 방식에 의해 적어도 하나의 웹 페이지(web page)로부터 수집된 데이터일 수 있다. 예컨대, 자연어 문장(IS)은 인공지능(artificial intelligence(AI)) 기반의 자연어 처리 프로그램의 입력 데이터일 수 있다.
유사어 사전 DB(220)는 단어들을 저장하는 DB로서, 상기 단어들 사이의 관계(예컨대, 유사관계 또는 동의관계)를 이용하여 상기 단어들을 저장할 수 있다. 실시 예들에 따라, 유사어 사전 DB(220)은 유사어들 및/또는 동의어들을 저장할 수 있다. 예컨대, 유사어 사전 DB(220)에 저장된 제1단어는 상기 제1단어의 의미와 유사한(또는 동일한) 의미를 가지는 제2단어와 매칭되어 저장될 수 있다.
문법 DB(230)은 자연어 문법에 관련된 문법 정보(GI)를 저장할 수 있다. 여기서 자연어 문법이라 함은 자연어의 사용과 관련된 규칙을 의미한다.
실시 예들에 따라, 문법 정보(GI)는 자연어 문법을 만족하는 기준 자연어 문장들 및/또는 자연어 문법에 관련된 규칙들을 의미할 수 있다.
비록 도 1에는 자연어 DB(210), 유사어 사전 DB(220), 및 문법 DB(230)가 장치(100) 외부에 도시되어 있으나, 실시 예들에 따라, 자연어 DB(210), 유사어 사전 DB(220), 및 문법 DB(230)는 장치(100) 내에 포함될 수 있다.
도 2는 본 발명의 실시 예들에 따른 자연어 문장 확장기(300)의 구조를 개념적으로 나타낸다. 도 1과 도 2를 참조하면, 자연어 문장 확장기(300)는 형태소 분석기(310), 확장 후보 도출기(320), 형태소 확장기(330), 문장 검증기(340)를 포함할 수 있다.
본 명세서에는 자연어 문장 확장기(300)를 형태소 분석기(310), 확장 후보 도출기(320), 형태소 확장기(330), 및 문장 검증기(340)로 나누어 설명하나, 자연어 문장 확장기(300)는 통합된 하나의 프로그램, 소프트웨어, 또는 프로그램 코드일 수 있다.
도 3은 본 발명의 실시 예들에 따른 자연어 문장 확장기의 작동을 나타내는 플로우차트이고, 도 4는 본 발명의 실시 예들에 따른 형태소 분석기의 작동을 설명하기 위한 도면이다. 도 2 내지 도 4를 참조하면, 형태소 분석기(310)는 자연어 문장(IS)을 수신하고, 수신된 자연어 문장(IS)을 분석하여 자연어 문장(IS)에 포함된 형태소들을 포함하는 형태소열(MC)을 생성할 수 있다(S1010). 형태소(morpheme)란, 의미를 가지는 최소의 단위를 의미한다.
실시 예들에 따라, 형태소 분석기(310)는 자연어 문장(IS)을 분석하여 품사 정보가 태깅(tagging)된 형태소들을 포함하는 형태소열(MC)을 생성할 수 있다.
예컨대, 도 4에 도시된 바와 같이, 자연어 문장(IS)이 "사과는 맛있다"일 때, 형태소 분석기(310)는 자연어 문장(IS)을 분석하여, "사과(명사)/는(조사)/맛있(형용사)/다(어미)."로 표현되는 형태소열(MC)을 생성할 수 있다. 여기서 "사과", "는", "맛있", 및 "다"는 모두 형태소들이고, 각 형태소에는 품사 정보(예컨대, "명사", "조사", "형용사", 및 "어미")가 태깅되어 있다.
도 5는 본 발명의 실시 예들에 따른 확장 후보 도출기의 작동을 설명하기 위한 도면이다. 도 2, 도 3, 및 도 5를 참조하면, 확장 후보 도출기(320)는 형태소열 (MC)에 포함된 형태소들 중에서 확장의 대상이 될 제1형태소(M1)를 식별(또는 도출)하고, 제1형태소(M1)를 식별하기 위한 확장 정보(EI)를 생성할 수 있다(S1020). 제1형태소(M1)는 복수 개일 수 있다.
실시 예들에 따라, 확장 정보(E1)는 제1형태소(M1)의 형태소열(MC) 내에서의 위치 값 및/또는 제1형태소(M1)의 개수를 포함할 수 있다.
확장 후보 도출기(320)는 형태소열(MC)에 포함된 형태소들 중에서 유사어 사전 DB(220)에 등록되어 있는 제1형태소(M1)를 식별(또는 도출)할 수 있다. 본 명세서에서, 어떤 단어가 유사어 사전 DB(220)에 등록되어 있다는 말은 상기 어떤 단어와 동일한 단어가 유사어 사전 DB(220)에 저장되어 있음을 의미한다. 제1형태소 (M1)는 복수 개일 수 있다.
실시 예들에 따라, 확장 후보 도출기(320)는 스트링 매칭(string matching) 알고리즘을 이용하여 형태소열(MC)에 포함된 형태소들 중에서 유사어 사전 DB(220)에 저장된 단어들 중에서 적어도 하나의 단어와 동일한 제1형태소(M1)를 식별할 수 있다.
실시 예들에 따라, 확장 후보 도출기(320)는 형태소열(MC)에 포함된 형태소들 각각의 품사 정보에 기초하여 형태소열(MC)에 포함된 형태소들 중에서 특정 품사의 형태소에 대해서만 스트링 매칭(string matching) 알고리즘을 적용할 수 있다.
도 5에 도시된 바와 같이, 유사어 사전 DB(220)에는 단어들(WD1~WDn)이 등록 (또는 저장)되어 있고, 단어들(WD1~WDn)과 유사한 유사어들(SYN1~SYNn)이 매칭되어 있다.
형태소열(MC)에 포함된 형태소들 "사과", "는", "맛있", 및 "다" 중에서 "사과"는 유사어 사전 DB(220)에 저장된 제1단어(WD1, 예컨대, "사과")와 동일하므로 확장 후보 도출기(320)는 "사과"를 제1형태소(M1)로서 식별하고, "사과"를 식별하기 위한 확장 정보(EI)를 생성할 수 있다. 예컨대, 도 5에 도시된 바와 같이, 제1형태소(M1)가 "사과"일 때, 확장 후보 도출기(320)는 형태소열(MC) 내에서의 "사과"의 위치 값을 포함하는 확장 정보(EI)를 생성할 수 있다.
확장 후보 도출기(320)는 제1형태소(M1)와 유사한 제2형태소(M2)를 유사어 사전 DB(220)로부터 추출(또는 수신)할 수 있다(S1030). 제2형태소(M2)는 복수 개일 수 있다.
실시 예들에 따라, 확장 후보 도출기(320)는 유사어 사전 DB(220)에 저장된 단어들 중에서 제1형태소(M1)와 유사한 단어를 제2형태소(M2)로서 추출할 수 있다.
예컨대, 도 5에 도시된 바와 같이, "사과"가 제1형태소(M1)일 때, 유사어 사전 DB(220)에는 "사과"가 제1단어(WD1)로 저장되어 있고, "홍옥" 및 "복숭아"가 제1단어(WD1, "사과")와 유사한 제1유사어(SYN1)로서 저장되어 있다. 따라서, 확장 후보 도출기(320)는 유사어 사전 DB(220)으로부터 "사과"와 유사한 단어로서 저장된 "홍옥" 및/또는 "복숭아"를 제2형태소(M2)로서 추출할 수 있다.
도 6은 본 발명의 실시 예들에 따른 형태소 확장기의 작동을 설명하기 위한 도면이다. 도 2, 도 3, 및 도 6을 참조하면, 형태소 확장기(330)는 확장 정보(EI)에 기초하여, 형태소열(MC)의 제1형태소(M1)를 제2형태소(M2)로 치환(replacement)하여 자연어 문장(IS)에 해당하는 확장 자연어 문장(ES)을 생성할 수 있다(S1040).
실시 예들에 따라, 제1형태소(M1)가 n 개(n은 1 이상의 자연수)이고, 제2형태소(M2)가 m 개(m은 1 이상의 자연수, n=m 또는 n≠m)일 때 형태소 확장기(330)는 n 개의 제1형태소(M1) 각각을 m 개의 제2형태소(M2) 각각으로 치환하여 총 n*m 개의 확장 자연어 문장들을 생성할 수 있다.
도 6에 도시된 바와 같이, 형태소열(MC)이 "사과/는/맛있/다" 이고, 제1형태소(M1)가 "사과"이고, 제2형태소(M2)가 "홍옥" 및 "복숭아"일 때, 형태소 확장기 (330)는, 확장 정보(EI)에 기초하여, "사과/는/맛있/다"에 포함된 "사과"를 "홍옥" 및 "복숭아"로 각각 치환하여, "홍옥/는/맛있/다"로 나타내어지는 제1확장 자연어 문장(ES1)과, "복숭아/는/맛있/다"로 나타내어지는 제2확장 자연어 문장(ES2)을 생성할 수 있다.
실시 예들에 따라, 확장 정보(EI)가 제1형태소(M1)의 위치 값을 포함할 때, 형태소 확장기(330)는 상기 위치 값을 이용하여 상기 위치 값에 대응하는 제1형태소(M1)를 제2형태소(M2)로 치환함으로써 확장 자연어 문장(ES)을 생성할 수 있다.
예컨대, 도 6에 도시된 바와 같이, 형태소열(MC)이 "사과/는/맛있/다" 이고, 제1형태소(M1)가 "사과"이고, 제2형태소(M2)가 "홍옥"일 때, 확장 정보(EI)는 "사과"의 위치 값을 포함할 수 있고, 형태소 확장기(330)는 확장 정보(EI)를 이용하여 "사과"를 "홍옥"으로 치환하여, "홍옥/는/맛있/다"로 나타내어지는 제1확장 자연어 문장(ES1)을 생성할 수 있다.
도 7과 도 8은 본 발명의 실시 예들에 따른 문장 검증기의 작동을 설명하기 위한 도면이다. 도 2, 도 3, 도 7, 및 도 8을 참조하면, 문장 검증기(340)는 확장 자연어 문장(ES1과 ES2; 집합적으로 'ES')이 자연어 문법을 만족하는지를 판단하여 확장 자연어 문장(ES)을 검증할 수 있다(S1050).
문장 검증기(340)는 확장 자연어 문장(ES)이 자연어 문법을 만족하는지에 관한 검증 결과(VRES)를 생성할 수 있다. 실시 예들에 따라, 문장 검증기(340)는 검증이 완료된 확장 자연어 문장(예컨대, ES2)을 출력 또는 저장할 수 있다.
실시 예들에 따라, 문장 검증기(340)는 확장 자연어 문장(ES)에 포함된 형태소(예컨대, 제1형태소(M1)와 대체된 제2형태소(M2))와 인접한 조사가 자연어 문법에 부합하는지를 판단할 수 있다.
실시 예들에 따라, 문장 검증기(340)는 문법 DB(230)에 저장된 문법 정보 (GI)에 기초하여 확장 자연어 문장(ES)을 검증할 수 있다. 문법 정보(GI)는 올바른 자연어 문법에 관한 정보를 포함할 수 있다.
도 7에 도시된 바와 같이, 문장 검증기(340)는 문법 정보(GI)에 기초하여 제1확장 자연어 문장("홍옥/는/맛있/다"; ES1)의 제2형태소("홍옥"; M2) 뒤에 위치하는 "는"은 자연어 문법에 부합하지 않는 것으로 판단할 수 있다. 즉, 문장 검증기 (340)는 제1확장 자연어 문장(ES1)이 자연어 문법을 만족하지 못하는 것으로 판단할 수 있다.
그러나 문장 검증기(340)는 문법 정보(GI)에 기초하여 제2확장 자연어 문장 ("복숭아/는/맛있/다"; ES2)의 제2형태소("복숭아"; M2) 뒤에 위치하는 "는"은 자연어 문법에 부합하는 것으로 판단할 수 있다. 즉, 문장 검증기(340)는 제2확장 자연어 문장(ES2)이 자연어 문법을 만족하는 것으로 판단할 수 있다.
실시 예들에 따라, 문장 검증기(340)는 인공 신경망(artificial neural network(ANN)) 기반의 기계 학습에 기초하여 확장 자연어 문장(ES)에 포함된 형태소(예컨대, 제2형태소(M2))와 인접한 단어가 자연어 문법을 만족하는지를 판단하여 확장 자연어 문장(ES)을 검증할 수 있다. 상기 인공 신경망 기반의 기계 학습은 n-gram 모델일 수 있다.
예컨대, 문장 검증기(340)는 인공 신경망 기반의 기계 학습에 기초하여 확장 자연어 문장(ES)에 포함된 제2형태소(M2)와 문법적으로 인접할 수 있는 후보 인접 단어를 생성하고, 생성된 후보 인접 단어와 실제 제2형태소(M2)와 인접한 실제 인접 단어를 비교하고, 상기 실제 인접 단어가 상기 후보 인접 단어와 일치할 때 확장 자연어 문장(ES)이 자연어 문법을 만족하는 것으로 판단할 수 있다.
또한, 문장 검증기(340)는 인공 신경망 기반의 기계 학습의 결과에 따라 제2확장 자연어 문장("복숭아/는/맛있/다"; ES2)의 제2형태소("복숭아"; M2)와 인접할 수 있는 후보 인접 단어("는")를 생성한다.
그 후, 문장 검증기(340)는 제2확장 자연어 문장("복숭아/는/맛있/다"; ES2)의 제2형태소("복숭아"; M2)와 실제로 인접한 실제 인접 단어("는")와 후보 인접 단어("는")를 비교한다. 실제 인접 단어("는")와 후보 인접 단어("는")가 동일하므로, 문장 검증기(340)는 제2확장 자연어 문장(ES2)이 자연어 문법을 만족하는 것으로 판단할 수 있다.
예컨대, 도 8에 도시된 바와 같이, 문장 검증기(340)는 인공 신경망 기반의 기계 학습의 결과에 따라 제1확장 자연어 문장("홍옥/는/맛있/다"; ES1)의 제2형태소("홍옥"; M2)와 인접할 수 있는 후보 인접 단어("은")를 생성한다.
그 후, 문장 검증기(340)는 실제 제2형태소("홍옥"; M2)와 인접한 실제 인접 단어("는")와 후보 인접 단어("은")를 비교한다. 실제 인접 단어("는")가 후보 인접 단어("은")가 다르므로, 문장 검증기(340)는 제1확장 자연어 문장(ES1)이 자연어 문법을 만족하지 못하는 것으로 판단할 수 있다.
본 발명의 실시 예들에 따른 자연어 문장 확장 방법은 컴퓨터로 읽을 수 있는 컴퓨터 프로그램(또는 프로그램 코드)으로 작성되고, 컴퓨터로 판독 가능한 기록 매체(예컨대, 메모리 장치, 데이터베이스, 또는 프로세서)에 저장되고 실행될 수 있다.
본 발명은 도면에 도시된 실시 예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시 예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 등록청구범위의 기술적 사상에 의해 정해져야 할 것이다.
100: 장치
110: 프로세서
120: 메모리
210: 자연어 데이터베이스
220: 유사어 사전 데이터베이스
230: 문법 데이터베이스
300: 자연어 문장 확장기
310: 형태소 분석기
320: 확장 후보 도출기
330: 형태소 확장기
340: 문장 검증기

Claims (12)

  1. 자연어 문장 확장 장치를 이용하여 자연어 문장을 확장하는 방법에 있어서,
    웹 크롤링 방식에 의해 적어도 하나의 웹 페이지로부터 수집된 데이터인 상기 자연어 문장을 수신하는 단계;
    수신된 자연어 문장을 분석하여 형태소들을 포함하는 형태소열을 생성하는 단계;
    상기 형태소열에 포함된 형태소들 중에서 유사어 사전 데이터베이스에 등록된 제1형태소를 식별하기 위한 확장 정보를 생성하는 단계;
    상기 제1형태소와 유사한 제2형태소를 상기 유사어 사전 데이터베이스로부터 추출하는 단계;
    상기 확장 정보에 기초하여, 상기 제1형태소를 상기 제2형태소로 치환함으로써 상기 자연어 문장에 대응하는 확장 자연어 문장을 생성하는 단계; 및
    상기 확장 자연어 문장이 자연어 문법을 만족하는지를 판단하여 상기 확장 자연어 문장을 검증하는 단계를 포함하고,
    상기 확장 자연어 문장을 생성하는 단계는, 상기 제1형태소가 n 개이고 상기 제2형태소가 m 개일 때, 상기 n 개의 제1형태소 각각을 상기 m 개의 제2형태소 각각으로 치환하여 총 n×m 개의 확장 자연어 문장들을 생성하고,
    상기 n과 상기 m 각각은 2이상의 자연수인 자연어 문장 확장 방법.
  2. 제1항에 있어서, 상기 확장 정보를 생성하는 단계는,
    스트링 매칭 알고리즘을 이용하여 상기 형태소열에 포함된 상기 형태소들 중에서 상기 유사어 사전 데이터베이스에 저장된 적어도 하나의 단어와 동일한 상기 제1형태소를 식별하기 위한 상기 확장 정보를 생성하는 자연어 문장 확장 방법.
  3. 제1항에 있어서,
    상기 확장 정보는 상기 제1형태소의 상기 형태소열에서의 위치 값을 포함하고,
    상기 확장 자연어 문장을 생성하는 단계는 상기 위치 값을 이용하여, 상기 위치 값에 대응하는 상기 제1형태소를 상기 제2형태소로 치환함으로써 상기 확장 자연어 문장을 생성하는 자연어 문장 확장 방법.
  4. 삭제
  5. 제1항에 있어서, 상기 확장 자연어 문장을 검증하는 단계는,
    문법 데이터베이스에 저장된 문법 정보를 이용하여 상기 확장 자연어 문장이 상기 자연어 문법을 만족하는지를 판단하여 상기 확장 자연어 문장을 제1검증하는 단계; 및
    상기 확장 자연어 문장이 상기 제1검증을 통과했을 때, 인공 신경망 (artificial neural network(ANN)) 기반의 기계 학습에 기초하여 상기 확장 자연어 문장에 포함된 상기 제2형태소에 인접한 단어들이 상기 자연어 문법을 만족하는지를 판단하여 상기 확장 자연어 문장을 제2검증 하는 단계를 포함하는 자연어 문장 확장 방법.
  6. 삭제
  7. 제5항에 있어서,
    상기 인공 신경망 기반의 기계 학습은 n-gram 모델인 자연어 문장 확장 방법.
  8. 입력된 자연어 문장을 분석하여 형태소들을 포함하는 형태소열을 생성하는 형태소 분석기;
    상기 형태소열에 포함된 형태소들 중에서 유사어 사전 데이터베이스에 등록된 제1형태소를 식별하기 위한 확장 정보를 생성하고, 상기 제1형태소와 유사한 제2형태소를 상기 유사어 사전 데이터베이스로부터 추출하는 확장 후보 도출기;
    상기 확장 정보에 기초하여, 상기 제1형태소를 상기 제2형태소로 치환하여 상기 자연어 문장에 대응하는 확장 자연어 문장을 생성하는 형태소 확장기; 및
    상기 확장 자연어 문장이 자연어 문법을 만족하는지를 판단하여 상기 확장 자연어 문장을 검증하는 문장 검증기를 포함하고,
    상기 자연어 문장은 웹 크롤링 방식에 의해 적어도 하나의 웹 페이지로부터 수집된 데이터이고,
    상기 형태소 확장기는, 상기 제1형태소가 n 개이고 상기 제2형태소가 m 개일 때, 상기 n 개의 제1형태소 각각을 상기 m 개의 제2형태소 각각으로 치환하여 총 n×m 개의 확장 자연어 문장들을 생성하고,
    상기 n과 상기 m 각각은 2이상의 자연수인 자연어 문장 확장 장치.
  9. 제8항에 있어서, 상기 확장 후보 도출기는,
    스트링 매칭 알고리즘을 이용하여 상기 형태소열에 포함된 상기 형태소들 중 상기 유사어 사전 데이터베이스에 저장된 적어도 하나의 단어와 동일한 상기 제1형태소를 식별하기 위한 상기 확장 정보를 생성하는 자연어 문장 확장 장치.
  10. 제8항에 있어서, 상기 문장 검증기는,
    문법 데이터베이스에 저장된 문법 정보를 이용하여 상기 확장 자연어 문장이 상기 자연어 문법을 만족하는지를 판단하여 상기 확장 자연어 문장을 제1검증하고,
    상기 확장 자연어 문장이 상기 제1검증을 통과했을 때, 인공 신경망 (artificial neural network(ANN)) 기반의 기계 학습에 기초하여 상기 확장 자연어 문장에 포함된 상기 제2형태소에 인접한 단어들이 상기 자연어 문법을 만족하는지를 판단하여 상기 확장 자연어 문장을 제2검증하는 자연어 문장 확장 장치.
  11. 삭제
  12. 제1항, 제2항, 제3항, 제5항, 또는 제7항에 기재된 자연어 문장 확장 방법을 수행하기 위한 명령들을 포함하는 컴퓨터 프로그램이 저장된 컴퓨터로 판독 가능한 저장 매체.
KR1020170039297A 2017-03-28 2017-03-28 자연어 문장을 확장하는 장치와 상기 자연어 문장을 확장하는 방법 KR101962113B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170039297A KR101962113B1 (ko) 2017-03-28 2017-03-28 자연어 문장을 확장하는 장치와 상기 자연어 문장을 확장하는 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170039297A KR101962113B1 (ko) 2017-03-28 2017-03-28 자연어 문장을 확장하는 장치와 상기 자연어 문장을 확장하는 방법

Publications (2)

Publication Number Publication Date
KR20180110316A KR20180110316A (ko) 2018-10-10
KR101962113B1 true KR101962113B1 (ko) 2019-07-19

Family

ID=63875837

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170039297A KR101962113B1 (ko) 2017-03-28 2017-03-28 자연어 문장을 확장하는 장치와 상기 자연어 문장을 확장하는 방법

Country Status (1)

Country Link
KR (1) KR101962113B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021145514A1 (en) * 2020-01-17 2021-07-22 Samsung Electronics Co., Ltd. Structured adversarial training for natural language machine learning tasks

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102168319B1 (ko) * 2018-12-17 2020-10-21 주식회사 한글과컴퓨터 신규 개체명 단어에 연관된 말뭉치 생성을 위한 문장 자동 생성 장치 및 그 동작 방법
KR102445497B1 (ko) * 2020-12-15 2022-09-21 주식회사 엘지유플러스 학습 예문 및 어휘 패턴 생성 장치와 이의 동작 방법
KR102540564B1 (ko) * 2020-12-23 2023-06-05 삼성생명보험주식회사 자연어 처리를 위한 데이터 증강을 위한 방법
KR102487571B1 (ko) * 2021-03-09 2023-01-12 주식회사 마이데이터랩 자연어 의도를 분류하는 뉴럴 네트워크 훈련을 위한 데이터 처리 방법 및 장치

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101806151B1 (ko) 2016-07-21 2017-12-07 숭실대학교산학협력단 대체어 자동 추출 장치 및 방법, 이를 수행하기 위한 기록 매체

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100975044B1 (ko) * 2007-11-09 2010-08-11 한국전자통신연구원 복합 명사의 동일 의미 문장 생성을 위한 문장 성분 복원 장치 및 방법
KR101220841B1 (ko) * 2008-12-02 2013-01-10 한국전자통신연구원 자동번역을 위한 번역메모리 적용 방법 및 그 장치
KR101776673B1 (ko) 2011-01-11 2017-09-11 삼성전자주식회사 자연어 처리용 문법 자동 생성 장치 및 방법
KR101629415B1 (ko) * 2012-08-10 2016-06-10 에스케이텔레콤 주식회사 문법 오류 검출 방법 및 이를 위한 오류검출장치

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101806151B1 (ko) 2016-07-21 2017-12-07 숭실대학교산학협력단 대체어 자동 추출 장치 및 방법, 이를 수행하기 위한 기록 매체

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
이수원 외, 병렬말뭉치를 이용한 대체어 자동 추출 방법, 정보과학회논문지 제16권제12호 pp.1254-1258 (2010.12)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021145514A1 (en) * 2020-01-17 2021-07-22 Samsung Electronics Co., Ltd. Structured adversarial training for natural language machine learning tasks
US11544472B2 (en) 2020-01-17 2023-01-03 Samsung Electronics Co., Ltd. Structured adversarial, training for natural language machine learning tasks

Also Published As

Publication number Publication date
KR20180110316A (ko) 2018-10-10

Similar Documents

Publication Publication Date Title
KR101962113B1 (ko) 자연어 문장을 확장하는 장치와 상기 자연어 문장을 확장하는 방법
Fernandes et al. Latent structure perceptron with feature induction for unrestricted coreference resolution
CN107870901B (zh) 从翻译源原文生成相似文的方法、记录介质、装置以及系统
KR102013230B1 (ko) 구문 전처리 기반의 구문 분석 장치 및 그 방법
US20140163951A1 (en) Hybrid adaptation of named entity recognition
US9720903B2 (en) Method for parsing natural language text with simple links
US20130007020A1 (en) Method and system of extracting concepts and relationships from texts
US20190013012A1 (en) System and method for learning sentences
US20170286103A1 (en) Identifying and correlating semantic bias for code evaluation
US9600469B2 (en) Method for detecting grammatical errors, error detection device for same and computer-readable recording medium having method recorded thereon
US11170169B2 (en) System and method for language-independent contextual embedding
JP6817556B2 (ja) 類似文生成方法、類似文生成プログラム、類似文生成装置及び類似文生成システム
EP3598321A1 (en) Method for parsing natural language text with constituent construction links
Fashwan et al. SHAKKIL: an automatic diacritization system for modern standard Arabic texts
US20220019737A1 (en) Language correction system, method therefor, and language correction model learning method of system
KR102026967B1 (ko) n-gram 데이터 및 언어 분석에 기반한 문법 오류 교정장치 및 방법
US10810368B2 (en) Method for parsing natural language text with constituent construction links
KR101356417B1 (ko) 병렬 말뭉치를 이용한 동사구 번역 패턴 구축 장치 및 그 방법
Mudge The design of a proofreading software service
US20220229986A1 (en) System and method for compiling and using taxonomy lookup sources in a natural language understanding (nlu) framework
KR102203895B1 (ko) 임베딩 기반의 인과 관계 탐지 시스템과 방법 및 이를 실행하기 위한 프로그램이 기록된 기록매체
Açıkgöz et al. All-words word sense disambiguation for Turkish
Li et al. A unified model for solving the OOV problem of chinese word segmentation
JP2018077604A (ja) 機能記述からの実現手段・方法の侵害候補を自動特定する人工知能装置
KR20010103151A (ko) 기계번역 장치 및 시스템, 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant