KR102528779B1 - 한국어 생략어 복원을 위한 학습 말뭉치 생성 장치 및 방법 - Google Patents

한국어 생략어 복원을 위한 학습 말뭉치 생성 장치 및 방법 Download PDF

Info

Publication number
KR102528779B1
KR102528779B1 KR1020180055617A KR20180055617A KR102528779B1 KR 102528779 B1 KR102528779 B1 KR 102528779B1 KR 1020180055617 A KR1020180055617 A KR 1020180055617A KR 20180055617 A KR20180055617 A KR 20180055617A KR 102528779 B1 KR102528779 B1 KR 102528779B1
Authority
KR
South Korea
Prior art keywords
word
sentence
tagging
user terminal
abbreviation
Prior art date
Application number
KR1020180055617A
Other languages
English (en)
Other versions
KR20190130905A (ko
Inventor
류지희
김현기
김민호
배경만
배용진
왕지현
이형직
임수종
임준호
장명길
최미란
허정
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020180055617A priority Critical patent/KR102528779B1/ko
Publication of KR20190130905A publication Critical patent/KR20190130905A/ko
Application granted granted Critical
Publication of KR102528779B1 publication Critical patent/KR102528779B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 한국어 생략어 복원을 위한 학습 말뭉치 생성 방법에 관한 것으로, 사용자 단말이 생략어 복원을 위해 태깅 작업에 이용되는 문장을 제공받는 단계; 사용자 단말이 제공된 문장에서 어절을 선택할 수 있도록, 문장에서 어절을 분리하는 단계; 사용자 단말에 의해 어절이 선택되면, 어절을 정의할 수 있도록, 선택된 어절 일측에 태깅 정보를 표시하는 단계; 및 사용자 단말에 의해 태깅 정보가 선택되면, 선택된 해당 어절을 선택된 태깅 정보로 태깅되고, 해당 어절에 태깅 정보가 태깅되었음을 나타내도록 표시하는 단계;를 포함한다.

Description

한국어 생략어 복원을 위한 학습 말뭉치 생성 장치 및 방법{Method and Apparatus for Korean Zero Anaphora Resolution Tagging}
본 발명은 한국어 생략어 복원을 위한 학습 말뭉치 생성 장치 및 방법에 관한 것으로, 더욱 상세하게는 기계학습 방법으로 한국어 생략어를 복원할 수 있도록 학습 말뭉치를 구축할 수 있는 태깅 장치 및 방법을 제공하고자 한다.
우리의 일상 언어 사용에서 경제성의 원리가 작용되어 청자가 알고 있는 것이나 충분히 유추가 가능한 정보는 축약하거나 생략하여 표현하는 경우가 있다.
축약되었거나 생략된 표현은 대용어(anaphora: 조응어 또는 조응 대용어)로 나타날 수 있고, 컴퓨터가 이것을 명확하게 인식하기 위하여 대용어 해결(anaphora resolution)이라는 자연어 처리 문제로 정의하여 다루고 있다.
생략어 복원(zero anaphora resolution)은 어떠한 동사 표현 어구나 명사 표현 어구에서 일부 문장 성분이 미리 나타나 유추가 가능하거나 암묵적으로 알고 있기에 문장 내에서 생략된 성분을 발견하고 해당 성분의 원래 표현을 찾아 복원해주는 문제이다.
생략된 문장 성분을 생략어(zero anaphora: 생략된 대용어 또는 무형대용어)라 하고, 생략된 문장 성분이 종속되는 대상을 지배소(head)라 하고, 생략어가 복원되어야 할 원래 표현을 선행어(antecedent)라고 한다.
종래 대용어 해결 문제의 대표적인 사례는 상호참조해결과 생략어 복원이다. 상호참조해결(coreference resolution)은 임의의 개체(entity)에 대하여 다른 표현으로 사용되는 어절들을 찾아 서로 같은 개체로 연결해주는 자연어처리 문제이다.
멘션(mention)은 상호참조해결의 대상이 되는 모든 명사구를 의미한다. 멘션에서 해당 구의 실질적인 의미를 핵심적으로 나타내는 어절을 중심어라 하며, 멘션의 범위는 중심어와 이를 수식하는 수식어를 포함한다.
개체(entity)는 동일한 멘션의 집합으로써 상호참조해결의 결과가 된다. 선행 멘션(antecedent)과 현재 등장한 멘션 간의 참조 관계를 인식함으로써 하나의 개체임을 파악하게 된다.
생략어 복원은 종래 상호참조해결과 달리 선행어를 대신하여 사용된 대용어가 대명사나 약어 등의 형태로 나타나는 것이 아니라 아예 생략되었다는 것이 차이점이라고 할 수 있다. 대용어가 생략되어 있기 때문에 주어진 문장을 읽다가 특정 동사 표현 어구나 명사 표현 어구 내에서 생략어가 존재함을 먼저 알아내야 한다. 그 뒤, 해당 생략어에 대한 선행어를 결정하는 과정에서 문서 내에 나타난 표현 이외에도 암묵적이기에 문서 내에 존재하지 않는 표현까지도 고려해야 하는 특수성이 있다.
이에, 한국어뿐만 아니라, 중국어와 일본어에 대해서도 이러한 생략어 복원 문제를 해결하기 위한 방법들이 각각 제안되어 왔다.
방법론 면에서도 규칙과 구문적 패턴을 활용하는 방법에서부터 전통적인 기계학습 방법 등이 이용되고 있으며, 최근에는 딥러닝을 활용하는 방법까지 다양하게 시도되고 있다.
한국어 생략어 복원 기술에 대해서는 아직까지 기계학습을 활용한 방법이 가장 좋은 것으로 알려져 있으며, 효과적이고 성공적인 기계학습 모델을 만들기 위해서는 우수한 품질의 다량의 학습데이터 구축이 선행되어야 한다.
이러한 학습데이터를 우수한 품질로 다량으로 구축하기 위해서는 많은 비용과 노력이 들고, 구축 방법에 따라 데이터 변환, 데이터 수동 검토 등의 부가적인 노력이 동반되는 문제점이 있다.
본 발명의 종래 문제점을 해결하기 위해 안출된 것으로, 본 발명의 목적은 어떠한 동사 표현 어구나 명사 표현 어구에서 일부 문장 성분이 미리 나타나 유추 가능하거나 암묵적으로 알고 있기에 문장 내에서 생략된 성분을 발견하고 해당 성분의 원래 표현을 찾아 복원해주는 생략어 복원 기술을 개발하기 위한 기계학습용 학습 말뭉치를 생성하는 한국어 생략어 복원을 위한 학습 말뭉치 생성 장치 및 방법을 제공하고자 한다.
또한, 본 발명은 문장 내에서 생략되어 있는 성분인 생략어에 대해서 복원되어야할 원래 표현인 선행어를 찾아 연결한 것을 표현한 태깅 말뭉치를 사전에 구축할 수 있는 한국어 생략어 복원을 위한 학습 말뭉치 생성 장치 및 방법을 제공하고자 한다.
본 발명의 목적은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 한국어 생략어 복원을 위한 학습 말뭉치 생성 장치는 사용자 단말이 접속하면, 생략어 복원을 위해 태깅 작업에 이용되는 문장을 상기 사용자 단말에 제공하는 문장 제공부; 상기 사용자 단말에 제공된 문장에서 어절을 선택할 수 있도록, 문장에서 어절을 분리하는 어절 분리부; 상기 사용자 단말에 의해 어절이 선택되면, 어절을 정의할 수 있도록, 선택된 어절 일측에 태깅 정보를 표시하는 어절성분 정의부; 및 상기 사용자 단말에 의해 태깅 정보가 선택되면, 선택된 해당 어절을 선택된 태깅 정보로 태깅되고, 해당 어절에 태깅 정보가 태깅되었음을 나타내도록 표시하는 태깅 정보 처리부;를 포함한다.
상기 태깅 정보 처리부는, 상기 사용자 단말로부터 상기 선택된 어절이 문장 구조의 형태를 가지고 있는 어절이면, 생략된 어절이 존재하는지의 여부를 판단하고, 문장 내에서 생략된 어절이 존재하는 것으로 판단되면, 상기 어절 일측에 태깅 정보를 표시하며, 상기 사용자 단말에 의해 태깅 정보가 선택되면 생략된 선행어를 문장에 포함시켜 말뭉치 사전에 등록하는 것이 바람직하다.
그리고, 상기 태깅 정보 처리부는, 태깅 작업자가 상기 사용자 단말을 통해 등록된 생략어의 문장 속 위치를 수정할 수 있도록, 해당 생략어를 문장의 가상 위치에 삽입하고, 상기 가상 위치에 삽입된 생략어를 태깅 작업자가 사용자 단말을 통해 선택하면, 생략어 추가를 위한 정보를 사용자 단말에 제공하며, 상기 사용자 단말에 의해 가상 위치에 삽입된 생략어의 추가를 승인하면, 생략어가 추가된 문장을 말뭉치 사전에 등록한다.
한편, 상기 태깅 정보 처리부는, 문장에 포함시킬 생략된 선행어를 문장내 어절과 다른 색상으로 표현하는 것이 바람직하다.
본 발명의 일 실시예에 따른 한국어 생략어 복원을 위한 학습 말뭉치 생성 방법은 사용자 단말이 생략어 복원을 위해 태깅 작업에 이용되는 문장을 제공받는 단계; 상기 사용자 단말이 제공된 문장에서 어절을 선택할 수 있도록, 문장에서 어절을 분리하는 단계; 상기 사용자 단말에 의해 어절이 선택되면, 어절을 정의할 수 있도록, 선택된 어절 일측에 태깅 정보를 표시하여 생략어 태깅을 추가하는 단계; 및 상기 사용자 단말에 의해 태깅 정보가 선택되면, 선택된 해당 어절을 선택된 태깅 정보로 태깅하거나, 태깅된 생략어를 수정 또는 삭제할 수 있도록 태깅 정보를 표시하는 단계;를 포함한다.
그리고, 상기 제공된 문장의 어절 중 문장 구조의 형태를 갖는 어절을 검출하는 단계; 상기 판단단계에서 선택된 어절이 문장 구조의 형태를 가지고 있는 어절이면, 생략된 어절이 존재하는지의 여부를 판단하는 단계; 상기 생략된 어절이 존재하는지의 여부를 판단하는 단계에서 문장 내에서 생략된 어절이 존재하는 것으로 판단되면, 상기 어절 일측에 태깅 정보를 표시하는 단계; 및 상기 사용자 단말에 의해 태깅 정보가 선택되면, 생략된 선행어를 문장에 포함시켜 말뭉치 사전에 등록하는 단계;를 포함하는 것이 바람직하다.
또한 상기 생략된 선행어를 문장에 포함시켜 상기 말뭉치 사전에 등록하는 단계는, 태깅 작업자가 상기 사용자 단말을 통해 태깅된 문장을 수정할 수 있도록, 태깅된 생략어가 포함된 문장의 표시하는 단계; 태깅 작업자가 사용자 단말을 통해 상기 태깅된 생략어를 선택하는 단계; 태깅된 생략어 수정 또는 삭제를 위한 태깅 정보 표시하는 단계; 및 사용자 단말에 의해 태깅된 생략어의 수정 또는 삭제하고, 그 수정 또는 삭제한 문장을 말뭉치 사전에 등록하는 단계를 포함한다.
한편, 상기 생략된 선행어를 문장에 포함시켜 상기 말뭉치 사전에 등록하는 단계는, 문장에 포함시킬 생략된 선행어를 문장내 어절과 다른 색상으로 표현하는 것이 바람직하다.
본 발명의 일 실시예에 따르면, 생략어가 포함된 문장에 대한 태깅 작업 시 태깅 작업자가 실제로 생성되는 태깅 말뭉치의 형태나 포맷을 알지 못하더라도 태깅 작업을 용이하게 할 수 있도록, 직관적이면서 시각적으로 태깅 정보를 표시함으로써, 태깅 작업자가 종래 텍스트 편집기를 통해 태깅 작업 시 발생할 수 있는 잘못된 키 입력 등의 오류를 원천적으로 차단할 수 있는 효과가 있다.
도 1은 본 발명의 일 실시예에 따른 한국어 생략어 복원을 위한 학습 말뭉치 생성 장치를 설명하기 위한 기능블럭도.
도 2a 내지 도 2c는 본 발명의 일 실시예에서 선행어를 선택하기 위한 과정을 설명하기 위한 참고도.
도 3a 내지 도 3c는 본 발명의 일 실시예에서 생략어를 추가하기 위한 과정을 설명하기 위한 참고도.
도 4a 내지 도 4c는 본 발명의 일 실시예에서 생략어가 태깅된 문장에서 생략어 태깅 결과를 수정하기 위한 과정을 설명하기 위한 참고도.
도 5a 내지 도 5c는 본 발명의 일 실시예에서 생략어가 태깅된 문장에서 생략어 태깅 결과를 삭제하기 위한 과정을 설명하기 위한 참고도.
도 6은 본 발명의 일 실시예에 따른 한국어 생략어 복원을 위한 학습 말뭉치 생성 방법을 설명하기 위한 순서도.
도 7은 본 발명의 일 실시예에서 태깅 정보를 표시하는 단계의 세부 단계를 설명하기 위한 순서도.
도 8은 본 발명의 일 실시예에서 말뭉치 사전에 등록하는 단계의 세부 단계를 설명하기 위한 순서도이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 한편, 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성소자, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성소자, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.
이하, 본 발명의 바람직한 실시예에 대하여 첨부한 도면을 참조하여 상세히 설명하기로 한다. 도 1은 본 발명의 일 실시예에 따른 한국어 생략어 복원을 위한 학습 말뭉치 생성 장치를 설명하기 위한 기능블럭도이다.
도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 한국어 생략어 복원을 위한 학습 말뭉치 생성 장치는 문장 제공부(110), 어절 분리부(120), 어절성분 정의부(130) 및 태깅 정보 처리부(140)를 포함하여 이루어진다.
문장 제공부(110)는 사용자 단말(10)이 접속하면, 생략어 복원을 위해 태깅 작업에 이용되는 문장을 사용자 단말(10)에 제공한다. 여기서 사용자 단말(10)의 접속이란 태깅 작업자가 사용자 단말(10)의 웹 브라우저를 통해 웹페이지에 접속함을 의미한다.
그리고 어절 분리부(120)는 사용자 단말(10)에 제공된 문장에서 태깅 작업자가 어절을 선택할 수 있도록, 문장에서 어절을 분리하는 역할을 한다.
어절성분 정의부(130)는 사용자 단말(10)에 의해 어절이 선택되면, 어절을 정의할 수 있도록, 선택된 어절 일측에 태깅 정보를 표시하는 역할을 한다. 이러한, 어절성분 정의부(130)는 생략된 문장 성분을 생략어, 생략된 문장 성분이 종속되는 대상을 지배소, 생략어가 복원되어야할 원래 표현을 선행어로 정의하고, 선택된 어절의 문장 성분을 분석하며, 그 문장 성분에 따라 선택할 수 있는 태깅 정보를 태깅 작업자가 선택할 수 있도록 표시하는 것이다.
그리고 태깅 정보 처리부(140)는 사용자 단말(10)에 의해 상기 표시된 태깅 정보가 선택되면, 선택된 해당 어절을 선택된 태깅 정보로 태깅하고, 해당 어절에 태깅 정보가 태깅되었음을 나타내도록 표시하며, 생략어 태깅 정보(지배소의 위치, 생략어의 종류, 선행어의 위치 등)가 포함된 문장을 말뭉치 사전에 등록한다.
한편, 본 발명의 일 실시예에 채용된 태깅 정보 처리부(140)는 사용자 단말(10)로부터 선택된 어절이 문장 구조의 형태를 가지고 있는 어절이면, 생략된 문장 성분이 존재하는지의 여부를 판단하고, 생략된 문장 성분이 존재하는 것으로 판단되면, 선택된 상기 어절 일측에 태깅 정보를 표시한다.
만약, 상기 사용자 단말(10)에 의해 태깅 정보가 선택되면, 생략된 선행어를 문장에 포함시켜 말뭉치 사전에 등록한다.
이와 같은 본 발명의 일 실시예에 따르면, 생략어가 포함된 문장에 대한 태깅 작업 시, 태깅 작업자가 실제로 생성되는 태깅 말뭉치의 형태나 포맷을 알지 못하더라도 태깅 작업을 용이하게 할 수 있도록, 직관적이면서 시각적으로 태깅 정보를 자동으로 표시함으로써, 태깅 작업자가 종래 텍스트 편집기를 통해 태깅 작업 시 발생할 수 있는 잘못된 키 입력 등의 오류를 원천적으로 차단할 수 있는 효과가 있다.
결과적으로 본 발명을 통해 태깅 작업자는 태깅 가이드라인에 대한 숙지와 함께 태깅 장치를 통해 본인이 생각하는 태깅 결과를 직관적인 형식의 마우스 입력 또는 키보드 입력을 통해 효과적인 태깅 말뭉치 구축을 할 수 있는 장점이 있다.
이하, 하기에서는 본 발명의 태깅 작업자가 "케냐(Kenya)는 동아프리카의 공화국이다. 인도양에 면해 있으며 ..."라는 문장에서 "케냐(Kenya)는"이라는 어절이 뒤에 나오게 되는 생략어의 선행어가 될 수 있다고 생각하여 선행어로 추가했다가 다시 삭제하는 실시 예에 대하여 설명하기로 한다.
예를 들어, 도 2a에 도시된 바와 같이, 문장 제공부(110)가 사용자 단말(10)을 통해 "케냐(Kenya)는 동아프리카의 공화국이다."라는 문장을 태깅 작업자에게 표시하되, 어절 분리부(120)가 문장의 어절을 분리한다.
이후, 태깅 작업자가 사용자 단말(10)을 통해 "케냐(Kenya)는"이라는 어절을 선택하면, 도 2a에 도시된 바와 같이, 해당 어절 하단에 드롭다운 형태로 버튼(선행어(131), 생략어(132)와 같은 태깅 버튼)들이 나타나고, 이 중에서 태깅 작업자가 사용자 단말(10)을 통해 "선행어" 버튼(131)을 선택하면 도 2b에 도시된 바와 같이, 토글 방식으로 선행어로 설정되며, 선행어를 의미하는 색상의 상자(133)가 어절 주위에 형성된다. 다시 같은 방식으로 “선행어” 버튼을 클릭하면 도 2c에 도시된 바와 같이 선행어에서 해제되어 그 상자가 없어지는 것이 바람직하다.
이후, 본 발명의 일 실시예에 채용된 태깅 정보 처리부(140)는 사용자 단말(10)로부터 선택된 어절이 문장 구조의 형태를 가지고 있는 어절이면, 생략된 어절이 존재하는지의 여부를 판단하고, 문장 내에서 생략된 문장 성분에 대한 태깅 정보가 존재하는 것으로 판단되면 태깅된 결과(151)를 클릭했을 때 태깅 정보(141)를 표시한다.
따라서, 태깅 정보 처리부(140)는 연결된 다음 문장에서 생략어의 존재여부를 판단하게 된다.
이와 같이, 태깅 정보 처리부(140)는 "케냐(Kenya)는 동아프리카의 공화국이다."와 같은 문장 다음 문장인 "인도양에 면해 있으며 ..."에서 "면해"라는 어절은 "면하다"라는 동사를 원형으로 갖고 있으면서, "[무엇이 어디에 면하다]"라는 형태가 기본 형태임을 확인하고, "면해"에 대한 주어가 생략됨을 알 수 있다.
따라서, 태깅 작업자는 “면해”에 대한 생략어 태깅 정보를 추가 해줘야 한다.
이에, 태깅 정보 처리부(140)는 "면해"라는 어절의 경우, 생략어에 대한 지배소가 되고, 주어가 생략됨을 판단할 수 있고, 생략된 주어가 이전 문장의 "케나(Kenya)는"으로 확인할 수 있음에 따라, 태깅 작업자가 "면해"를 선택하면, 도 3a에 도시된 바와 같이, 드롭다운 형태의 버튼(선행어(131), 생략어(132)와 같은 태깅 버튼)들을 표시한다.
이후, 태깅 작업자가 "생략어"(132)를 선택하면, 태깅 정보 처리부(140)는 태깅 작업자가 생략어 추가를 용이하게 할 수 있도록, 도 3b에 도시된 바와 같이, 사용자 단말(10)을 통해 태깅 작업자에게 생략어에 대한 정보(141)를 제공한다. 여기서, 생략어에 대한 정보는 도 3b에 도시된 바와 같이, 선택된 어절의 정보가 표시되고, 생략어의 종류를 선택할 수 있도록, "주어", "목적어 및 필수 부사어" 및 "관형어"와 같은 선택 버튼과 선행어를 선택할 수 있도록, "표제어", "암묵적 선행어" 및 작업자가 미리 등록한 선행어들에 대한 버튼을 표시해주고, 취소 및 추가 버튼을 포함한다.
따라서, 팝업 형태로 제공되는 생략어에 대한 정보(141)에서 태깅 작업자가 "주어"와 이전 문장의 주어인 "케냐(Kenya)는"을 선택한 후 추가 버튼을 선택하게 되면, 태깅 정보 처리부(140)는 도 3c에 도시된 바와 같이, "면해" 어절 앞에 "케냐(Kenya)는"과 같은 생략어 태깅 결과(151)를 표시한다.
본 발명의 일 실시예에 따르면, 생략어를 태깅한 문장에 대하여 생략어 태깅 결과를 수정할 수 있다.
태깅 작업자가 태깅된 문장을 수정할 수 있도록, 제공되는 복수개의 문장 중 하나를 선택하기 위한 문장 선택부(150)를 더 포함할 수 있다. 이러한, 문장 선택부(150)는 사용자 단말(10)을 통해 접속한 태깅 작업자에게 태깅이 필요한 문장들을 선택할 수 있도록 해준다.
한편, 태깅 작업자는 사용자 단말(10)을 통해 웹 서버로부터 제공되는 문장들 중 하나를 선택한다.
이와 같이, 문장 선택부(150)를 통해 태깅 작업자가 태깅하고자 하는 문장을 선택하게 되면, 태깅 정보 처리부(140)는 해당 문장에 태깅이 되어 있는지를 판단한다.
만약, 태깅 작업자가 태깅 하고자 하는 문장을 선택하게 되면, 어절 분리부(120)는 생략어 태깅 결과(152)가 포함된 문장을 사용자 단말(10)을 통해 태깅 작업자에게 제공한다. 이때, 생략어 태깅 결과(152)는 도 4a에 도시된 바와 같이, 생략어(152)의 종류에 따라 다른 색상으로 표현하여 태깅 작업자가 용이하게 식별할 수 있도록 하는 것이 바람직하다.
이후, 도 4a에 도시된 바와 같이, 태깅 작업자가 생략어 태깅 결과(152)를 선택하면, 태깅 정보 처리부(140)는 생략어의 수정 및 삭제를 위한 정보(142)를 팝업의 형태로 표시한다.
한편, 태깅 정보 처리부(140)는 태깅 작업자가 생략어를 수정할 수 있도록, 도 4b에 도시된 바와 같이, 사용자 단말(10)을 통해 태깅 작업자에게 생략어에 대한 정보를 제공할 수도 있다.
여기서, 생략어에 대한 정보(142)는 선택된 어절의 정보를 포함하는 것으로, 생략어의 종류를 선택할 수 있도록, "주어", "목적어 및 필수 부사어" 및 "관형어"와 같은 선택 버튼과 선행어를 선택할 수 있도록, "표제어", "암묵적 선행어" 및 작업자가 미리 등록한 선행어들에 대한 버튼, 취소, 삭제 및 수정 버튼을 포함한다.
이후, 태깅 작업자가 선행어를 "암묵적 선행어"로 선택하고, 수정을 선택하면, 태깅 정보 처리부(140)는 도 4c와 같이 태깅된 어절을 문장에서 수정하여 말뭉치 사전에 등록하게 된다.
한편, 태깅 작업자가 상기 사용자 단말(10)을 통해 등록된 생략어의 문장 속 위치를 수정할 수 있도록, 해당 생략어를 문장의 가상 위치에 삽입한다. 만약, 상기 가상 위치에 삽입된 생략어를 태깅 작업자가 사용자 단말(10)을 통해 선택하면, 생략어 추가를 위한 정보를 사용자 단말(10)에 제공한다. 이후, 태깅 작업자가 상기 사용자 단말(10)에 의해 가상 위치에 삽입된 생략어의 추가를 승인하면, 생략어가 추가된 문장을 말뭉치 사전에 등록할 수도 있다.
반면에, 태깅 작업자는 문장에서 태깅된 선행어를 삭제할 수도 있다. 이에, 태깅 작업자가 도 5a에 도시된 바와 같이, 사용자 단말(10)을 통해 문장의 생략어 태깅 결과(152)를 선택하면, 태깅 정보 처리부(140)는 도 5b에 도시된 바와 같이, 사용자 단말(10)을 통해 태깅 작업자에게 생략어에 대한 정보를 제공한다.
이후, 태깅 작업자가 삭제를 선택하게 되면, 도 5c에 도시된 바와 같이, 선행어가 삭제된 상태의 문장으로 복원할 수도 있다.
한편, 본 발명의 일 실시예에 따른 한국어 생략어 복원을 위한 학습 말뭉치 생성 장치는 웹 프레임워크를 기반으로 복수개의 사용자 단말(10)을 통해 수행되는 것이 바람직하다.
따라서, 본 발명의 일 실시예에 따르면, 다수의 태깅 작업자들이 웹 서버로부터 공급되는 태깅 작업화면을 자신의 컴퓨터 내의 브라우저 프로그램인 웹클라이언트로 접속함으로써, 동시에 태깅 작업을 수행할 수 있으면서도, 태깅 검토자도 또한 동시에 시각적으로 태깅 결과를 검토할 수 있는 장점이 있다.
이러한, 본 발명의 일 실시예에 따른 한국어 생략어 복원을 위한 학습 말뭉치 생성 장치는 추후에 컴퓨터가 학습 말뭉치를 바탕으로 기계학습 알고리즘에 의한 학습 모델을 생성할 수 있게 한다. 이를 통해, 학습 모델로부터의 판단 결과를 이용하여 사람이 생략어를 인식하고, 복원시키는 과정을 컴퓨터가 모사할 수 있게 된다.
본 발명의 일 실시예에 따르면, 일관성 있는 기준에 따라 가이드라인을 제시하고, 효율적인 반자동 구축도구를 제공함으로써, 말뭉치 구축에 드는 비용이 감소하는 장점이 있다.
이에, 태깅 작업자가 사용자 단말(10)을 통해 처음 접속하면, index.html 페이지에서 장치에 대한 소개를 제공한다.
본 발명의 일 실시예에 따른 한국어 생략어 복원을 위한 학습 말뭉치 생성 장치는 태깅 작업자의 등록 여부에 따라 개별적으로 태깅 작업을 관리할 수 있다. 이를 위해, 태깅 작업자가 사용자 단말(10)을 통해 접속하면, 로그인을 통해 태깅 작업자의 정보를 확인하고, 등록된 태깅 작업자가 아닌 경우 회원 가입 페이지를 통해 가입시키고, 등록된 태깅 작업자인 경우, 사전에 부여된 사용자 정보로 로그인을 하고, ZA_index.html 페이지에서 현재까지의 태깅 작업 상태를 확인하면서 남겨진 태깅 문서 목록을 시각적으로 확인할 수 있게 한다.
이하, 하기에서는 본 발명의 일 실시예에 따른 한국어 생략어 복원을 위한 학습 말뭉치 생성 방법에 대하여 도 6을 참조하여 설명하기로 한다.
먼저, 사용자 단말(10)이 생략어 복원을 위해 태깅 작업에 이용되는 문장을 제공받는다(S110).
상기 사용자 단말(10)이 제공된 문장에서 어절을 선택할 수 있도록, 문장에서 어절을 분리한다(S120).
상기 사용자 단말(10)에 의해 어절이 선택되면, 어절을 정의할 수 있도록, 선택된 어절 일측에 태깅 정보를 표시하여 생략어 태깅을 추가한다(S130).
이어서, 상기 사용자 단말(10)에 의해 태깅 정보가 선택되면, 선택된 해당 어절을 선택된 태깅 정보로 태깅함을 확인하거나, 태깅된 생략어 정보를 수정 또는 삭제할 수 있도록 해당 태깅 정보를 표시한다(S140). 이후, 태깅된 문장은 말뭉치 사전에 등록된다(S150).
도 7은 본 발명의 일 실시예에서 태깅 정보를 표시하는 단계의 세부 단계를 설명하기 위한 순서도이다. 도 7에 도시된 바와 같이, 상기 제공된 문장의 어절 중 문장 구조의 형태를 갖는 어절을 검출한다(S131).
상기 검출된 어절로부터 문장 구조에서 생략된 어절이 존재하는지의 여부를 판단한다(S132).
상기 생략된 어절이 존재하는지의 여부를 판단하는 단계(S132)에서 문장 내에서 생략된 어절이 존재하는 것으로 판단되면(YES), 상기 어절 일측에 태깅 정보를 표시한다(S133).
이후, 상기 사용자 단말(10)에 의해 태깅 정보가 선택되면, 생략된 선행어를 문장에 포함시켜 말뭉치 사전에 등록한다(S134).
여기서, 상기 생략된 선행어를 문장에 포함시켜 상기 말뭉치 사전에 등록하는 단계(S134)는, 문장에 포함시킬 생략된 선행어를 문장내 어절과 다른 색상으로 표현하는 것이 바람직하다.
도 8은 본 발명의 일 실시예에서 말뭉치 사전에 등록하는 단계의 세부 단계를 설명하기 위한 순서도이다. 도 8에 도시된 바와 같이, 상기 생략된 선행어를 문장에 포함시켜 상기 말뭉치 사전에 등록하는 단계(S140)는 하기의 세부 단계를 포함한다.
먼저, 태깅 작업자가 상기 사용자 단말(10)을 통해 태깅된 문장을 수정할 수 있도록, 태깅된 생략어가 포함된 문장의 표시한다(S141).
이어서, 태깅 작업자가 사용자 단말(10)을 통해 상기 태깅된 생략어를 선택하면(S142), 태깅된 생략어 수정 또는 삭제를 위한 태깅 정보 표시한다(S143).
이후, 상기 사용자 단말(10)에 의해 태깅된 생략어의 수정 또는 삭제하고, 그 수정 또는 삭제한 문장을 말뭉치 사전에 등록한다(S144).
이상, 본 발명의 구성에 대하여 첨부 도면을 참조하여 상세히 설명하였으나, 이는 예시에 불과한 것으로서, 본 발명이 속하는 기술분야에 통상의 지식을 가진자라면 본 발명의 기술적 사상의 범위 내에서 다양한 변형과 변경이 가능함은 물론이다. 따라서 본 발명의 보호 범위는 전술한 실시예에 국한되어서는 아니되며 이하의 특허청구범위의 기재에 의하여 정해져야 할 것이다.
110 : 문장 제공부 120 : 어절 분리부
130 : 어절성분 정의부 140 : 태깅 정보 처리부

Claims (8)

  1. 사용자 단말이 생략어 복원을 위해 태깅 작업에 이용되는 문장을 제공받는 단계;
    상기 사용자 단말이 제공된 문장에서 어절을 선택할 수 있도록, 문장에서 어절을 분리하는 단계;
    상기 사용자 단말에 의해 어절이 선택되면, 어절을 정의할 수 있도록, 선택된 어절 일측에 태깅 정보를 표시하여 생략어 태깅을 추가하는 단계; 및
    상기 사용자 단말에 의해 태깅 정보가 선택되면, 선택된 해당 어절을 선택된 태깅 정보로 태깅함을 확인하거나, 태깅된 생략어를 수정 또는 삭제할 수 있도록 태깅 정보를 표시하는 단계;를 포함하고,
    상기 태깅 정보를 표시하는 단계는,
    상기 선택된 어절의 하단에 표시되는 드롭다운 형태의 생략어 태깅 버튼을 표시하는 단계; 및
    상기 생략어 태깅 버튼을 이용하여 생략어를 선택하면, 생략어의 종류를 선택하기 위한 선택 버튼, 작업자가 미리 등록한 선행어를 선택하기 위한 버튼 및 상기 태깅된 생략어를 수정 또는 삭제하기 위한 취소 및 추가 버튼을 표시하는 단계
    를 포함하는 한국어 생략어 복원을 위한 학습 말뭉치 생성 방법.
  2. 제1항에 있어서,
    상기 제공된 문장의 어절 중 문장 구조의 형태를 갖는 어절을 검출하는 단계;
    상기 사용자 단말에서 선택된 어절이 문장 구조의 형태를 가지고 있는 어절이면, 생략된 어절이 존재하는지의 여부를 판단하는 단계;
    상기 생략된 어절이 존재하는지의 여부를 판단하는 단계에서 문장 내에서 생략된 어절이 존재하는 것으로 판단되면, 상기 어절 일측에 태깅 정보를 표시하는 단계; 및
    상기 사용자 단말에 의해 태깅 정보가 선택되면, 생략된 선행어를 문장에 포함시켜 말뭉치 사전에 등록하는 단계;를 포함하는 한국어 생략어 복원을 위한 학습 말뭉치 생성 방법.
  3. 제2항에 있어서,
    상기 생략된 선행어를 문장에 포함시켜 상기 말뭉치 사전에 등록하는 단계는,
    태깅 작업자가 상기 사용자 단말을 통해 태깅된 문장을 수정할 수 있도록, 태깅된 생략어가 포함된 문장의 표시하는 단계; 태깅 작업자가 사용자 단말을 통해 상기 태깅된 생략어를 선택하는 단계; 태깅된 생략어 수정 또는 삭제를 위한 태깅 정보 표시하는 단계; 및
    사용자 단말에 의해 태깅된 생략어의 수정 또는 삭제하고, 그 수정 또는 삭제한 문장을 말뭉치 사전에 등록하는 단계를 포함하는 한국어 생략어 복원을 위한 학습 말뭉치 생성 방법.
  4. 제2항에 있어서,
    상기 생략된 선행어를 문장에 포함시켜 상기 말뭉치 사전에 등록하는 단계는,
    문장에 포함시킬 생략된 선행어를 문장내 어절과 다른 색상으로 표현하는 것인 한국어 생략어 복원을 위한 학습 말뭉치 생성 방법.
  5. 사용자 단말이 접속하면, 생략어 복원을 위해 태깅 작업에 이용되는 문장을 상기 사용자 단말에 제공하는 문장 제공부;
    상기 사용자 단말에 제공된 문장에서 어절을 선택할 수 있도록, 문장에서 어절을 분리하는 어절 분리부;
    상기 사용자 단말에 의해 어절이 선택되면, 어절을 정의할 수 있도록, 선택된 어절 일측에 태깅 정보를 표시하는 어절성분 정의부; 및
    상기 사용자 단말에 의해 태깅 정보가 선택되면, 선택된 해당 어절을 선택된 태깅 정보로 태깅되고, 해당 어절에 태깅 정보가 태깅되었음을 나타내도록 표시하는 태깅 정보 처리부;를 포함하고,
    상기 태깅 정보 처리부는,
    상기 선택된 어절의 하단에 표시되는 드롭다운 형태의 생략어 태깅 버튼을 표시하고, 상기 생략어 태깅 버튼을 이용하여 생략어를 선택하면, 생략어의 종류를 선택하기 위한 선택 버튼, 작업자가 미리 등록한 선행어를 선택하기 위한 버튼 및 상기 태깅된 생략어를 수정 또는 삭제하기 위한 취소 및 추가 버튼을 표시하는 한국어 생략어 복원을 위한 학습 말뭉치 생성 장치.
  6. 제5항에 있어서,
    상기 태깅 정보 처리부는,
    상기 사용자 단말로부터 상기 선택된 어절이 문장 구조의 형태를 가지고 있는 어절이면, 생략된 어절이 존재하는지의 여부를 판단하고, 문장 내에서 생략된 어절이 존재하는 것으로 판단되면, 상기 어절 일측에 태깅 정보를 표시하며, 상기 사용자 단말에 의해 태깅 정보가 선택되면 생략된 선행어를 문장에 포함시켜 말뭉치 사전에 등록하는 것인 한국어 생략어 복원을 위한 학습 말뭉치 생성 장치.
  7. 제 6항에 있어서,
    상기 태깅 정보 처리부는,
    태깅 작업자가 상기 사용자 단말을 통해 등록된 생략어의 문장 속 위치를 수정할 수 있도록, 해당 생략어를 문장의 가상 위치에 삽입하고, 상기 가상 위치에 삽입된 생략어를 태깅 작업자가 사용자 단말을 통해 선택하면, 생략어 추가를 위한 정보를 사용자 단말에 제공하며, 상기 사용자 단말에 의해 가상 위치에 삽입된 생략어의 추가를 승인하면, 생략어가 추가된 문장을 말뭉치 사전에 등록하는 것인 한국어 생략어 복원을 위한 학습 말뭉치 생성 장치.
  8. 제 5항에 있어서,
    상기 태깅 정보 처리부는,
    문장에 포함시킬 생략된 선행어를 문장내 어절과 다른 색상으로 표현하는 것인 한국어 생략어 복원을 위한 학습 말뭉치 생성 장치.




KR1020180055617A 2018-05-15 2018-05-15 한국어 생략어 복원을 위한 학습 말뭉치 생성 장치 및 방법 KR102528779B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180055617A KR102528779B1 (ko) 2018-05-15 2018-05-15 한국어 생략어 복원을 위한 학습 말뭉치 생성 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180055617A KR102528779B1 (ko) 2018-05-15 2018-05-15 한국어 생략어 복원을 위한 학습 말뭉치 생성 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20190130905A KR20190130905A (ko) 2019-11-25
KR102528779B1 true KR102528779B1 (ko) 2023-05-08

Family

ID=68730635

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180055617A KR102528779B1 (ko) 2018-05-15 2018-05-15 한국어 생략어 복원을 위한 학습 말뭉치 생성 장치 및 방법

Country Status (1)

Country Link
KR (1) KR102528779B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102628304B1 (ko) * 2023-06-29 2024-01-24 주식회사 멜로우컴퍼니 자연어 처리 프로세서를 이용한 영상 원문 수정 장치

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004326367A (ja) 2003-04-23 2004-11-18 Sharp Corp テキスト解析装置及びテキスト解析方法、ならびにテキスト音声合成装置
KR100805191B1 (ko) 2006-09-20 2008-02-21 한국전자통신연구원 한국어 문장에서의 생략 성분 복원 방법 및 장치
JP2015052858A (ja) * 2013-09-05 2015-03-19 京セラドキュメントソリューションズ株式会社 省略語管理プログラム、省略語管理装置、フルスペル表示プログラムおよびフルスペル表示装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101116471B1 (ko) * 2010-02-10 2012-03-07 한국과학기술원 코더 친화적 기계이해형 자연어 텍스트 표현 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004326367A (ja) 2003-04-23 2004-11-18 Sharp Corp テキスト解析装置及びテキスト解析方法、ならびにテキスト音声合成装置
KR100805191B1 (ko) 2006-09-20 2008-02-21 한국전자통신연구원 한국어 문장에서의 생략 성분 복원 방법 및 장치
JP2015052858A (ja) * 2013-09-05 2015-03-19 京セラドキュメントソリューションズ株式会社 省略語管理プログラム、省略語管理装置、フルスペル表示プログラムおよびフルスペル表示装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
류지희 외 3명, "한국어 생략어복원 가이드라인", 제29회 한글 및 한국어 정보처리 학술대회 논문집, 2017.10., pp.213-219. 1부.*

Also Published As

Publication number Publication date
KR20190130905A (ko) 2019-11-25

Similar Documents

Publication Publication Date Title
US20200257848A1 (en) System and method for generating task-embedded documents
US7219050B2 (en) Automatic interpreting system including a system for recognizing errors
US20050187755A1 (en) Method and system for character sequence checking according to a selected language
KR100570224B1 (ko) 전표정의데이터 작성방법 및 전표처리장치
JPH04505227A (ja) ドキュメント生成装置および方法
KR20190095099A (ko) 거래 시스템 에러 검출 방법, 장치, 저장 매체 및 컴퓨터 장치
CN103049458A (zh) 一种修正用户词库的方法和系统
Glass et al. A naive salience-based method for speaker identification in fiction books
Mahlow et al. 12 Production media: Writing as using tools in media convergent environments
JP6439434B2 (ja) ナレッジ抽出編集プログラム、ナレッジ抽出編集方法、ナレッジ抽出編集装置およびナレッジ抽出編集システム
CN113032548A (zh) 信息处理装置、存储介质及信息处理方法
KR102528779B1 (ko) 한국어 생략어 복원을 위한 학습 말뭉치 생성 장치 및 방법
CN112733517B (zh) 需求模板符合性检查的方法、电子设备及存储介质
CN111985232B (zh) 基于nlp的机载显控系统需求的领域模型提取方法
JP2019197336A (ja) 学習データ生成装置、方法、およびプログラム
CN111611779A (zh) 辅助文本标注方法、装置、设备及其存储介质
AU2013200000B2 (en) Method and apparatus for analyzing a document
CN115905759A (zh) 一种无障碍网页生成方法、装置、介质和设备
JP2017151768A (ja) 翻訳プログラム及び情報処理装置
US10331948B1 (en) Rules based data extraction
JP2006276912A (ja) 文書編集装置、文書編集方法およびプログラム
JP2006309377A (ja) 文書検索装置および文書検索方法ならびにそのプログラムと記録媒体
CN113886748A (zh) 网页内容的编辑信息生成、信息输出方法、装置及设备
JP2004234402A (ja) Web画面作成ツール及び用語チェックツール
JPH0778138A (ja) コメント付与方法及び文書処理装置

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right