KR102157390B1 - 언어모델에 기반한 한국어 생략 성분 복원 방법 - Google Patents

언어모델에 기반한 한국어 생략 성분 복원 방법 Download PDF

Info

Publication number
KR102157390B1
KR102157390B1 KR1020170164239A KR20170164239A KR102157390B1 KR 102157390 B1 KR102157390 B1 KR 102157390B1 KR 1020170164239 A KR1020170164239 A KR 1020170164239A KR 20170164239 A KR20170164239 A KR 20170164239A KR 102157390 B1 KR102157390 B1 KR 102157390B1
Authority
KR
South Korea
Prior art keywords
sentence
language model
restoration
candidate
word
Prior art date
Application number
KR1020170164239A
Other languages
English (en)
Other versions
KR20190064910A (ko
Inventor
임수종
김현기
김민호
류지희
배경만
배용진
왕지현
이형직
임준호
장명길
최미란
허정
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020170164239A priority Critical patent/KR102157390B1/ko
Publication of KR20190064910A publication Critical patent/KR20190064910A/ko
Application granted granted Critical
Publication of KR102157390B1 publication Critical patent/KR102157390B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Machine Translation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)

Abstract

본 발명은 언어모델에 기반한 한국어 생략 성분 복원 방법에 관한 것으로, 문장을 입력받는 입력 단계; 입력된 문장에 대한 구문을 분석하는 분석 단계; 구문 분석을 통해 생략된 단어가 존재하는지 판단하는 판단 단계; 판단 단계에서 생략된 단어가 존재하면, 이전 구문 중 생략된 단어가 없는 문장의 어구를 대상으로 문장 내에서 복원 후보 단어를 추출하는 추출 단계; 생략된 성분이 존재하는 성분들을 이용하여 구성 가능한 복원 후보 문장들을 생성하는 언어모델 적용 단계; 및 생성된 각 복원 후보 문장에 대한 구성 확률 값을 산출하고, 산출된 구성 확률 값을 이용하여 복원 후보 문장을 선택하는 생략 대상 결정 단계;를 포함한다.

Description

언어모델에 기반한 한국어 생략 성분 복원 방법{Method for restoring Korean omitted components based on language model}
본 발명은 한국어 생략 성분 복원 방법 및 장치에 관한 것으로, 더욱 상세하게는 언어모델을 사용하여 생략된 단어를 복원하기 위해 장치 및 방법에 관한 것이다.
한국어는 어순이 자유로울 뿐 아니라, 문장을 이루기 위해서 반드시 필요한 주어, 목적어 같은 성분도 생략되는 현상이 빈번한 언어이다. 이러한 생략 현상 때문에, 한국어에서 용언 중심으로 정보를 추출할 경우 다음과 같은 문제가 발생한다.
예를 들어, "대통령은 남항국민학교를 졸업하고, 경남중학교에 입학하였다."라는 문장에서 용언을 중심으로 정보를 추출할 경우, "졸업하다(대통령 : 주어, 남항국민학고 : 목적어)", "입학하다(?? : 주어, 경남중학교)와 같은 형태가 되어, 경남중학교에 입학한 주어가 누구인지를 알 수가 없게 되어 정보의 완전성이 결여되는데, 이러한 생략된 성분을 복원하는 것이 생략복원 기술이다.
기본적으로 생략된 성분은 같은 문장에 존재하지만, 다음과 같은 경우에는 생략된 성분이 존재해도 복원할 수 없는 경우도 있다.
예를 들어, "공납은 호구 수가 아닌 토지를 기준으로 부과하였다."라는 문장에서 '부과하였다'의 주어는 생략되어 있지만, 문장 내에서는 부과한 주어가 어떤 단어인지 찾을 수 없다. 즉, 어떠한 문장 성분이 생략되었다 하더라도 무조건 복원을 하는 것이 아닌 경우도 존재한다.
종래 기술은 생략 성분을 복원함에 있어, 규칙을 사용하거나, 학습데이터에 기반하는 기계학습 기법을 사용하여 이를 분류 문제로 접근하였다.
그러나 종래 규칙을 사용하는 방법은 확장성에 문제가 있고, 다양한 한국어 현상에 모두 대처하는 규칙을 구축하는 것도 쉽지 않은 문제이다.
그리고 종래 기계학습을 이용한 방법은 학습 데이터를 구축하는데 시간, 비용이 많이 소요되는 문제가 있다.
본 발명은 종래 문제점을 해결하기 위해 안출된 것으로, 본 발명의 목적은 단어 순서에 대한 확률 분포로 n개의 단어가 주어졌을 때, 이 단어들의 순서(즉, 문장)가 나타날 확률을 판별해 주는 언어모델을 이용하여 한국어 문장에서 생략된 성분을 복원하는 언어모델에 기반한 한국어 생략 성분 복원 방법 및 장치를 제공하고자 한다.
본 발명의 목적은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 언어모델에 기반한 한국어 생략 성분 복원 장치는 문장을 입력받는 입력부; 상기 입력부를 통해 입력된 문장에 대한 구문을 분석하는 분석부; 상기 분석부를 통해 분석된 구문 중 생략된 단어가 존재하는지 판단하는 판단부; 상기 판단부를 통해 생략된 단어가 존재함을 확인하면, 이전 구문 중 생략된 단어가 없는 문장의 어구를 대상으로 문장 내에서 복원 후보 단어를 추출하는 추출부; 상기 추출부를 통해 생략된 성분이 존재하는 성분들을 이용하여 구성 가능한 복원 후보 문장들을 생성하는 문장 후보 생성부; 및 상기 문장 후보 생성부를 통해 생성된 각 복원 후보 문장에 대한 구성 확률 값을 산출하고, 상기 산출된 구성 확률 값을 이용하여 복원 후보 문장을 선택하는 생략 대상 결정부;를 포함한다.
상기 판단부는, 구문 분석된 결과를 바탕으로 용언의 주어, 목적어와 같은 성분이 생략되었는지를 판단하고, 상기 추출부는, 복원 대상이 주어인 경우, 문장의 맨 앞에 복원 후보를 위치시키고, 복원 대상이 주어가 아닌 경우, 용언 바로 앞에 위치시키는 것이 바람직하다.
그리고 상기 생략 대상 결정부는, 언어 모델의 확률 값을 문장의 길이로 나눈 값을 최종 확률 값으로 결정하는 것이 바람직하다.
본 발명의 일 실시예에 따른 언어모델에 기반한 한국어 생략 성분 복원 방법은 문장을 입력받는 입력 단계; 입력된 문장에 대한 구문을 분석하는 분석 단계; 구문 분석을 통해 생략된 단어가 존재하는지 판단하는 판단 단계; 상기 판단 단계에서 생략된 단어가 존재하면, 이전 구문 중 생략된 단어가 없는 문장의 어구를 대상으로 문장 내에서 복원 후보 단어를 추출하는 추출 단계; 생략된 성분이 존재하는 성분들을 이용하여 구성 가능한 복원 후보 문장들을 생성하는 언어모델 적용 단계; 및 생성된 각 복원 후보 문장에 대한 구성 확률 값을 산출하고, 상기 산출된 구성 확률 값을 이용하여 복원 후보 문장을 선택하는 생략 대상 결정 단계;를 포함한다.
상기 판단하는 단계는, 구문 분석된 결과를 바탕으로 용언의 주어, 목적어와 같은 성분이 생략되었는지를 판단하는 것이 바람직하다.
그리고 상기 언어모델 적용 단계는, 복원 대상이 주어인 경우, 문장의 맨 앞에 복원 후보를 위치시키고, 복원 대상이 주어가 아닌 경우, 용언 바로 앞에 위치시키는 것이 바람직하다.
또한 상기 생략 대상 결정 단계는, 언어 모델의 확률 값을 문장의 길이로 나눈 값을 최종 확률 값으로 결정하는 것이 바람직하다.
본 발명의 일 실시예에 따르면, 질의응답, 정보추출, 문서 요약 시스템에서 생략된 주어나 목적어 등 주요 성분을 복원하여 추출하고, 해당 시스템의 정보 품질 향상 효과를 기대할 수 있는 효과가 있다.
그리고 본 발명의 일 실시예에 따르면, 자동번역 시스템에서 생략현상을 허용하지 않는 언어(예:영어)로 번역을 할 경우, 한국어 생략 성분을 복원하지 않으면 완전한 번역이 불가능하기 때문에 생략성분 복원을 통해 번역 품질 향상 효과를 기대할 수 있다.
또한, 본 발명의 일 실시예에 따르면, 생략복원 기술을 개발함에 있어, 인터넷에서 쉽게 구할 수 있는 한국어 문장으로 구축된 언어모델을 사용하기 때문에, 종래 기술과 다르게 학습데이터나 규칙을 위한 언어자원 구축 시간 및 비용을 절감할 수 있는 장점이 있다.
도 1은 본 발명의 일 실시예에 따른 언어모델에 기반한 한국어 생략 성분 복원 장치를 설명하기 위한 기능블럭도.
도 2는 본 발명의 일 실시예에 따른 언어모델에 기반한 한국어 생략 성분 복원 방법을 설명하기 위한 순서도이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 한편, 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성소자, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성소자, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.
이하, 본 발명의 바람직한 실시예에 대하여 첨부한 도면을 참조하여 상세히 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따른 언어모델에 기반한 한국어 생략 성분 복원 장치를 설명하기 위한 기능블럭도이다.
도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 언어모델에 기반한 한국어 생략 성분 복원 장치는 입력부(110), 분석부(120), 판단부(130), 추출부(140), 문장 후보 생성부(150) 및 생략 대상 결정부(160)를 포함하여 이루어진다.
입력부(110)는 문장을 입력받는 역할을 한다.
그리고 분석부(120)는 문장 구조에서 주어, 목적어 등을 파악하여 생략 여부를 판단하는 기본적인 분석 정보를 획득할 수 있도록, 입력부(110)를 통해 입력된 문장에 대한 구문을 분석하는 역할을 한다.
또한, 판단부(130)는 분석부(120)를 통해 분석된 구문 중 생략된 단어가 존재하는지 판단하는 역할을 한다. 본 발명의 일 실시예에 채용된 판단부(130)는, 구문 분석된 결과를 바탕으로 용언의 주어, 목적어와 같은 성분이 생략되었는지를 판단하는 것이 바람직하다.
추출부(140)는 상기 판단부(130)를 통해 생략된 단어가 존재함을 확인하면, 이전 구문 중 생략된 단어가 없는 문장의 명사(구)를 대상으로 문장 내에서 복원 후보 단어를 추출하는 역할을 한다.
그리고 문장 후보 생성부(150)는 상기 추출부(140)를 통해 생략된 성분이 존재하는 성분들을 이용하여 구성 가능한 복원 후보 문장들을 생성하는 역할을 한다.
또한, 생략 대상 결정부(160)는 상기 문장 후보 생성부(150)를 통해 생성된 각 복원 후보 문장에 대한 구성 확률 값을 산출하고, 상기 산출된 구성 확률 값을 이용하여 복원 후보 문장을 선택하는 역할을 한다.
본 발명의 일 실시예에 따른 언어모델에 기반한 한국어 생략 성분 복원 장치에 대하여 하기의 예를 참조하여 설명하기로 한다.
먼저, 입력부(110)를 통해, "대통령은 남항국민학교를 졸업하고, 경남중학교에 입학하였다."와 같은 문장을 입력받는다.
그러면, 분석부(120)는 "대통령은"은 주어, "남항국민학교를"은 목적어, "졸업하고"는 서술어로 판단하고, "입학하였다"는 서술어로 분석한다.
이후, 판단부(130)는 분석된 구문 중, "졸업하고"에 대하여 주어와 목적어가 모두 존재하여 생략 성분이 없다고 판단하고, "입학하였다"는 구분 분석 결과 주어가 탐지되지 않기 때문에 주어를 복원해야함을 판단할 수 있다.
이에, 추출부(140)는 판단부(130)를 통해 "대통령은 남항국민학교를 졸업하고"와 같은 문장에 생략된 성분이 없다고 판단하여 주어가 생략된 다음 문장 즉, "경남중학교에 입학하였다"에 대하여 복원 후보를 추출하게 된다.
이를 위해, 추출부(140)는 "대통령은", "남항국민학교를", 경남중학교에"와 같은 구문을 후보로 추출한다.
다만, 추출부(140)는 "경남중학교에"는 구문분석 결과 "입학하였다"와 직접적인 관련이 있기 때문에, 제외하고, 복원 후보로 "대통령은"과 "남항국민학교를"를 채택한다.
이후, 문장 후보 생성부(150)는 추출부(140)를 통해 생략된 성분이 존재하는 성분들을 이용하여 구성 가능한 복원 후보 문장들을 생성한다.
예를 들어, 문장 후보 생성부(150)는 1) "경남중학교에 입학하였다.", 2) 대통령이(주어) 경남중학교에 입학하였다. 3) "남항국민학교가(주어) 경남중학교에 입학하였다."와 같은 문장들을 생성한다. 즉, 1) 문장은 복원을 하지 않은 그대로의 문장이고, 2) 문장은 '대통령은'을 복원한 문장이며, 3) 문장은 '남항국민학교를'을 복원한 문장이다.
이때 복원 대상이 주어일 경우는 문장의 맨 앞에 복원 후보를 위치시키고, 그렇지 않을 경우 용언 바로 앞에 위치시킨다.
만약, 주격조사, 목적격 조사가 필요한 경우에는 이에 맞게 교체하여 준다. 예문에서 원 단어는 '남항국민학교를' 이지만, '를'의 경우 목적격 조사이고, 필요한 것을 주격 조사이기 때문에 '남항국민학교가'로 교체하여 복원 후보 문장을 생성한다.
이후, 생략 대상 결정부(160)는 문장 후보 생성부(150)를 통해 생성된 각 복원 후보 문장에 대한 구성 확률 값을 산출하고, 상기 산출된 구성 확률 값을 이용하여 복원 후보 문장을 선택한다.
즉, 생략 대상 결정부(160)는 각 복원 후보 문장에 대해 언어모델을 적용하여 각 문장들이 문장을 구성할 확률을 알 수 있다.
따라서, 생략 대상 결정부(160)는 각 후보 문장을 대상으로 하여 계산된 확률을 이용하여 확률이 가장 높은 복원 후보 문장을 선택하고, 만약 복원하지 않은 원문장이 가장 확률이 높으면 '복원 불필요', 그렇지 않은 경우는 해당 복원 후보와 주어 목적어 등의 복원 격 정보를 같이 출력하고 종료하여 다음 문장을 처리한다.
이와 같이, 생략 대상 결정부(160)는 언어모델 특성상 문장의 길이에 따라 확률 값이 달라지기 때문에, 정확한 비교를 위해서는 정규화 과정이 필요하기 때문에 언어모델의 확률값을 문장의 길이로 나눈 값을 최종 확률 값으로 결정한다.
본 발명의 일 실시예에 따르면, 질의응답, 정보추출, 문서 요약 시스템에서 생략된 주어나 목적어 등 주요 성분을 복원하여 추출하고, 해당 시스템의 정보 품질 향상 효과를 기대할 수 있는 효과가 있다.
그리고 본 발명의 일 실시예에 따르면, 자동번역 시스템에서 생략현상을 허용하지 않는 언어(예:영어)로 번역을 할 경우, 한국어 생략 성분을 복원하지 않으면 완전한 번역이 불가능하기 때문에 생략성분 복원을 통해 번역 품질 향상 효과를 기대할 수 있다.
또한, 본 발명의 일 실시예에 따르면, 생략복원 기술을 개발함에 있어, 인터넷에서 쉽게 구할 수 있는 한국어 문장으로 구축된 언어모델을 사용하기 때문에, 종래 기술과 다르게 학습데이터나 규칙을 위한 언어자원 구축 시간 및 비용을 절감할 수 있는 장점이 있다.
도 2는 본 발명의 일 실시예에 따른 언어모델에 기반한 한국어 생략 성분 복원 방법을 설명하기 위한 순서도이다.
도 2에 도시된 바와 같이, 먼저 문장을 입력받는다(S110). 즉, 입력부(110)를 통해, "대통령은 남항국민학교를 졸업하고, 경남중학교에 입학하였다."와 같은 문장을 입력받는다.
이어서, 입력된 문장에 대한 구문을 분석한다(S120). 그러면, 분석부(120)는 "대통령은"은 주어, "남항국민학교를"은 목적어, "졸업하고"는 서술어로 판단하고, "입학하였다"는 서술어로 분석한다.
이후, 구문 분석을 통해 생략된 단어가 존재하는지 판단한다(S130). 즉, 판단부(130)는 분석된 구문 중, "졸업하고"에 대하여 주어와 목적어가 모두 존재하여 생략 성분이 없다고 판단하고, "입학하였다"는 구분 분석 결과 주어가 탐지되지 않기 때문에 주어를 복원해야함을 판단할 수 있다. 이와 같이, 상기 판단하는 단계(S130)는, 구문 분석된 결과를 바탕으로 용언의 주어, 목적어와 같은 성분이 생략되었는지를 판단하는 것이 바람직하다.
상기 판단 단계(S130)에서 생략된 단어가 존재하면(YES), 이전 구문 중 생략된 단어가 없는 문장의 명사(구)를 대상으로 문장 내에서 복원 후보 단어를 추출한다(S140). 즉, 상기 언어모델 적용 단계(S140)는 복원 대상이 주어인 경우, 문장의 맨 앞에 복원 후보를 위치시키고, 복원 대상이 주어가 아닌 경우 용언 바로 앞에 위치시킨다.
이에, 추출부(140)는 판단부(130)를 통해 "대통령은 남항국민학교를 졸업하고"와 같은 문장에 생략된 성분이 없다고 판단하여 주어가 생략된 다음 문장 즉, "경남중학교에 입학하였다"에 대하여 복원 후보를 추출하게 된다.
이를 위해, 추출부(140)는 "대통령은", "남항국민학교를", 경남중학교에"와 같은 구문을 후보로 추출한다.
다만, 추출부(140)는 "경남중학교에"는 구문분석 결과 "입학하였다"와 직접적인 관련이 있기 때문에, 제외하고, 복원 후보로 "대통령은"과 "남항국민학교를"를 채택한다.
이어서, 생략된 성분이 존재하는 성분들을 이용하여 구성 가능한 복원 후보 문장들을 생성한다(S150). 이후, 문장 후보 생성부(150)는 추출부(140)를 통해 생략된 성분이 존재하는 성분들을 이용하여 구성 가능한 복원 후보 문장들을 생성한다.
예를 들어, 문장 후보 생성부(150)는 1) "경남중학교에 입학하였다.", 2) 대통령이(주어) 경남중학교에 입학하였다. 3) "남항국민학교가(주어) 경남중학교에 입학하였다."와 같은 문장들을 생성한다. 즉, 1) 문장은 복원을 하지 않은 그대로의 문장이고, 2) 문장은 '대통령은'을 복원한 문장이며, 3) 문장은 '남항국민학교를'을 복원한 문장이다.
이때 복원 대상이 주어일 경우는 문장의 맨 앞에 복원 후보를 위치시키고, 그렇지 않을 경우 용언 바로 앞에 위치시킨다.
만약, 주격조사, 목적격 조사가 필요한 경우에는 이에 맞게 교체하여 준다. 예문에서 원 단어는 '남항국민학교를' 이지만, '를'의 경우 목적격 조사이고, 필요한 것을 주격 조사이기 때문에 '남항국민학교가'로 교체하여 복원 후보 문장을 생성한다.
이후, 생성된 각 복원 후보 문장에 대한 구성 확률 값을 산출하고, 상기 산출된 구성 확률 값을 이용하여 복원 후보 문장을 선택한다(S160). 이후, 생략 대상 결정부(160)는 문장 후보 생성부(150)를 통해 생성된 각 복원 후보 문장에 대한 구성 확률 값을 산출하고, 상기 산출된 구성 확률 값을 이용하여 복원 후보 문장을 선택한다.
즉, 생략 대상 결정부(160)는 각 복원 후보 문장에 대해 언어모델을 적용하여 각 문장들이 문장을 구성할 확률을 알 수 있다.
따라서, 생략 대상 결정부(160)는 각 후보 문장을 대상으로 하여 계산된 확률을 이용하여 확률이 가장 높은 복원 후보 문장을 선택하고, 만약 복원하지 않은 원문장이 가장 확률이 높으면 '복원 불필요', 그렇지 않은 경우는 해당 복원 후보와 주어 목적어 등의 복원 격 정보를 같이 출력하고 종료하여 다음 문장을 처리한다.
이와 같이, 생략 대상 결정부(160)는 언어모델 특성상 문장의 길이에 따라 확률 값이 달라지기 때문에, 정확한 비교를 위해서는 정규화 과정이 필요하기 때문에 언어모델의 확률값을 문장의 길이로 나눈 값을 최종 확률 값으로 결정한다.
이상, 본 발명의 구성에 대하여 첨부 도면을 참조하여 상세히 설명하였으나, 이는 예시에 불과한 것으로서, 본 발명이 속하는 기술분야에 통상의 지식을 가진 자라면 본 발명의 기술적 사상의 범위 내에서 다양한 변형과 변경이 가능함은 물론이다. 따라서 본 발명의 보호 범위는 전술한 실시예에 국한되어서는 아니되며 이하의 특허청구범위의 기재에 의하여 정해져야 할 것이다.
110 : 입력부 120 : 분석부
130 : 판단부 140 : 추출부
150 : 문장 후보 생성부 160 : 생략 대상 결정부

Claims (10)

  1. 문장을 입력받는 입력 단계;
    입력된 문장에 대한 구문을 분석하는 분석 단계;
    구문 분석을 통해 생략된 단어가 존재하는지 판단하는 판단 단계;
    상기 판단 단계에서 생략된 단어가 존재하면, 구문 분석 결과 이전 구문 중 생략된 단어가 없는 문장의 어구를 대상으로 문장 내에서 복원 후보 단어를 추출하는 추출 단계;
    생략된 성분이 존재하는 성분들을 이용하여 구성 가능한 복원 후보 문장들을 생성하는 언어모델 적용 단계; 및
    생성된 각 복원 후보 문장에 대한 구성 확률 값을 산출하고, 상기 산출된 구성 확률 값을 이용하여 복원 후보 문장을 선택하는 생략 대상 결정 단계;를 포함하되,
    상기 생략 대상 결정 단계는,
    언어 모델의 확률 값을 문장의 길이로 나눈 값을 최종 확률 값으로 결정하는 것인 언어모델에 기반한 한국어 생략 성분 복원 방법.
  2. 제 1항에 있어서,
    상기 판단하는 단계는,
    구문 분석된 결과를 바탕으로 용언의 주어, 목적어와 같은 성분이 생략되었는지를 판단하는 것인 언어모델에 기반한 한국어 생략 성분 복원 방법.
  3. 제 1항에 있어서,
    상기 언어모델 적용 단계는,
    복원 대상이 주어인 경우, 문장의 맨 앞에 복원 후보를 위치시키는 것인 언어모델에 기반한 한국어 생략 성분 복원 방법.
  4. 제 1항에 있어서,
    상기 언어모델 적용 단계는,
    복원 대상이 주어가 아닌 경우, 용언 바로 앞에 위치시키는 것인 언어모델에 기반한 한국어 생략 성분 복원 방법.
  5. 삭제
  6. 문장을 입력받는 입력부;
    상기 입력부를 통해 입력된 문장에 대한 구문을 분석하는 분석부;
    상기 분석부를 통해 분석된 구문 중 생략된 단어가 존재하는지 판단하는 판단부;
    상기 판단부를 통해 생략된 단어가 존재함을 확인하면, 구문 분석 결과 이전 구문 중 생략된 단어가 없는 문장의 어구를 대상으로 문장 내에서 복원 후보 단어를 추출하는 추출부;
    상기 추출부를 통해 생략된 성분이 존재하는 성분들을 이용하여 구성 가능한 복원 후보 문장들을 생성하는 문장 후보 생성부; 및
    상기 문장 후보 생성부를 통해 생성된 각 복원 후보 문장에 대한 구성 확률 값을 산출하고, 상기 산출된 구성 확률 값을 이용하여 복원 후보 문장을 선택하는 생략 대상 결정부;를 포함하되,
    상기 생략 대상 결정부는,
    언어 모델의 확률 값을 문장의 길이로 나눈 값을 최종 확률 값으로 결정하는 것인 언어모델에 기반한 한국어 생략 성분 복원 장치.
  7. 제 6항에 있어서,
    상기 판단부는,
    구문 분석된 결과를 바탕으로 용언의 주어, 목적어와 같은 성분이 생략되었는지를 판단하는 것인 언어모델에 기반한 한국어 생략 성분 복원 장치.
  8. 제 6항에 있어서,
    상기 추출부는,
    복원 대상이 주어인 경우, 문장의 맨 앞에 복원 후보를 위치시키는 것인 언어모델에 기반한 한국어 생략 성분 복원 장치.
  9. 제 6항에 있어서,
    상기 추출부는,
    복원 대상이 주어가 아닌 경우, 용언 바로 앞에 위치시키는 것인 언어모델에 기반한 한국어 생략 성분 복원 장치.
  10. 삭제
KR1020170164239A 2017-12-01 2017-12-01 언어모델에 기반한 한국어 생략 성분 복원 방법 KR102157390B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170164239A KR102157390B1 (ko) 2017-12-01 2017-12-01 언어모델에 기반한 한국어 생략 성분 복원 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170164239A KR102157390B1 (ko) 2017-12-01 2017-12-01 언어모델에 기반한 한국어 생략 성분 복원 방법

Publications (2)

Publication Number Publication Date
KR20190064910A KR20190064910A (ko) 2019-06-11
KR102157390B1 true KR102157390B1 (ko) 2020-09-18

Family

ID=66846834

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170164239A KR102157390B1 (ko) 2017-12-01 2017-12-01 언어모델에 기반한 한국어 생략 성분 복원 방법

Country Status (1)

Country Link
KR (1) KR102157390B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102621869B1 (ko) * 2023-04-24 2024-01-05 고려대학교 산학협력단 한국어 문서-수준 관계 추출 데이터셋 구축 장치 및 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100641053B1 (ko) * 2005-10-06 2006-11-02 한국전자통신연구원 생략된 문장성분 복원 장치 및 방법
KR100725723B1 (ko) 2005-12-09 2007-06-08 한국전자통신연구원 연결어미 제약을 이용한 한국어 주어의 생략 성분 복원방법 및 장치
KR100805191B1 (ko) * 2006-09-20 2008-02-21 한국전자통신연구원 한국어 문장에서의 생략 성분 복원 방법 및 장치
JP2014521158A (ja) * 2011-07-14 2014-08-25 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 テキスト入力方法、装置、およびシステム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120105063A (ko) * 2010-12-16 2012-09-25 한국전자통신연구원 문장 자질 정보에 기반한 생략 성분 복원 방법 및 이를 위한 장치

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100641053B1 (ko) * 2005-10-06 2006-11-02 한국전자통신연구원 생략된 문장성분 복원 장치 및 방법
KR100725723B1 (ko) 2005-12-09 2007-06-08 한국전자통신연구원 연결어미 제약을 이용한 한국어 주어의 생략 성분 복원방법 및 장치
KR100805191B1 (ko) * 2006-09-20 2008-02-21 한국전자통신연구원 한국어 문장에서의 생략 성분 복원 방법 및 장치
JP2014521158A (ja) * 2011-07-14 2014-08-25 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 テキスト入力方法、装置、およびシステム

Also Published As

Publication number Publication date
KR20190064910A (ko) 2019-06-11

Similar Documents

Publication Publication Date Title
Xu et al. Optimizing statistical machine translation for text simplification
Cheung et al. Unsupervised sentence enhancement for automatic summarization
US10824816B2 (en) Semantic parsing method and apparatus
CN111079408B (zh) 一种语种识别方法、装置、设备及存储介质
CN110765235A (zh) 训练数据的生成方法、装置、终端及可读介质
CN110727803A (zh) 文本事件抽取方法及装置
CN111178098B (zh) 一种文本翻译方法、装置、设备及计算机可读存储介质
KR102157390B1 (ko) 언어모델에 기반한 한국어 생략 성분 복원 방법
Meetei et al. Hindi to English Multimodal Machine Translation on News Dataset in Low Resource Setting
Hu et al. CSCD-IME: correcting spelling errors generated by pinyin IME
Sabbah et al. A framework for Quranic verses authenticity detection in online forum
Liu et al. Analyzing program readability based on WordNet
CN103019924B (zh) 输入法智能性评测系统和方法
JP5911931B2 (ja) 述語項構造抽出装置、方法、プログラム、及びコンピュータ読取り可能な記録媒体
Ji Mining name translations from comparable corpora by creating bilingual information networks
JP3936687B2 (ja) 機械翻訳文の評価方法、および機械翻訳文の評価装置
Kumano et al. Extracting phrasal alignments from comparable corpora by using joint probability SMT model
KR101705804B1 (ko) 시맨틱 콘텐츠 분류 장치 및 이를 이용한 콘텐츠 분류 방법
KR101735314B1 (ko) 하이브리드 번역 장치 및 그 방법
CN114896269A (zh) 结构化查询语句检测方法、装置、电子设备及存储介质
Perera et al. RealText-lex: A Lexicalization Framework for Linked Open Data.
Novák Pronoun prediction with linguistic features and example weighing
Karagoz et al. Extracting location information from crowd-sourced social network data
Spranger et al. Semantic tools for forensics: towards finding evidence in short messages
CN112148838A (zh) 一种业务源对象提取方法与装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right