KR101757222B1 - 한글 문장에 대한 의역 문장 생성 방법 - Google Patents

한글 문장에 대한 의역 문장 생성 방법 Download PDF

Info

Publication number
KR101757222B1
KR101757222B1 KR1020150121843A KR20150121843A KR101757222B1 KR 101757222 B1 KR101757222 B1 KR 101757222B1 KR 1020150121843 A KR1020150121843 A KR 1020150121843A KR 20150121843 A KR20150121843 A KR 20150121843A KR 101757222 B1 KR101757222 B1 KR 101757222B1
Authority
KR
South Korea
Prior art keywords
sentence
morpheme
synonym
paraphrase
present
Prior art date
Application number
KR1020150121843A
Other languages
English (en)
Other versions
KR20170025424A (ko
Inventor
최호진
오교중
김종명
권가진
김현기
허정
류법모
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to KR1020150121843A priority Critical patent/KR101757222B1/ko
Publication of KR20170025424A publication Critical patent/KR20170025424A/ko
Application granted granted Critical
Publication of KR101757222B1 publication Critical patent/KR101757222B1/ko

Links

Images

Classifications

    • G06F17/2755
    • G06F17/2705
    • G06F17/274
    • G06F17/278
    • G06F17/2795

Landscapes

  • Machine Translation (AREA)

Abstract

본 발명의 실시 형태에 따른 의역 문장 생성 방법은 한글 문장에서 실질 형태소를 분류하는 단계; 상기 한글 문장에서 상기 실질 형태소로 분류된 어근 어휘를 언어학적 자질에 근거하여 동의어로 치환하는 단계; 상기 한글 문장에서 형식 형태소를 분류하는 단계; 및 상기 동의어 치환된 상기 한글 문장에서 상기 형식 형태소로 분류된 조사 및 어미 어휘 중 적어도 어느 하나를 조사 및 어미 변형 규칙에 따라 문법적으로 변형하는 단계를 포함한다.

Description

한글 문장에 대한 의역 문장 생성 방법 {PARAPHRASE SENTENCE GENERATION METHOD FOR A KOREAN LANGUAGE SENTENCE}
본 발명은 한글 문장에 대한 의역 문장 생성 방법에 관한 것이다.
지금까지 인간의 음성 신호를 분석하여 말을 문장으로 바꾸는 기술 및 문장을 구성하는 성분들을 분석하는 기술 등 자연어 처리 분야에서 다양한 연구가 이루어져 왔다. 이러한 연구를 통해 사람이 말하는 언어를 기계가 입력받는 기술에 대한 큰 진보가 있었다.
자연어 문장의 뜻을 이해하거나 질문의 의도를 파악하는 기술은 검색 엔진, 음성 인식, 질의 응답 시스템 등에서 규칙 기반, 지식 기반, 기계 학습 기반 등의 여러 접근 방법으로 시도가 되고 있다. 하지만, 현재까지도 사람이 말하는 문장의 뜻을 기계가 이해하거나 질문의 의도를 파악하는 기술 수준은 초기 단계에 머물고 있다. 따라서, 사람이 말하는 문장의 뜻을 기계가 이해하거나 특히 질문의 의도를 용이하게 파악할 수 있도록 하는 기술에 대한 필요성이 증가하고 있다.
한국 공개공보 제10-2011-0017129호 (2011.02.21. 공개)
본 발명은 인간이 말하거나 입력하는 한글 문장의 뜻을 기계가 이해하거나 특히 질문의 의도를 용이하게 파악할 수 있도록 하는 기술을 제공하기 위한 것이다.
본 발명의 실시 형태에 따른 의역 문장 생성 방법은 한글 문장에서 실질 형태소를 분류하는 단계; 상기 한글 문장에서 상기 실질 형태소로 분류된 어근 어휘를 언어학적 자질에 근거하여 동의어로 치환하는 단계; 상기 한글 문장에서 형식 형태소를 분류하는 단계; 및 상기 동의어 치환된 상기 한글 문장에서 상기 형식 형태소로 분류된 조사 및 어미 어휘 중 적어도 어느 하나를 조사 및 어미 변형 규칙에 따라 문법적으로 변형하는 단계를 포함한다.
본 발명의 실시형태에 따르면 인간이 말하거나 입력하는 한글 문장의 뜻을 기계가 이해하거나 특히 질문의 의도를 용이하게 파악할 수 있도록 하는 자연어 문장에 대한 의역 생성 방법을 제공할 수 있다.
또한 본 발명의 실시형태에 따르면 한글 질문 형 문장의 의역 문장을 생성할 수 있다.
또한 본 발명의 실시형태에 따르면, 어근 어휘의 동의어 정보와 언어학적 자질을 기반으로 문장에 따른 중의 성이 해소된 동의어를 추출할 수 있다.
또한 본 발명의 실시형태에 따르면, 한글 문장에서 문법적인 요소에 해당하는 조사와 어미의 변형 규칙, 줄임 말, 띄어쓰기 규칙 등을 이용하여 문법 정확도가 높은 의역 문장을 생성할 수 있다.
또한 본 발명의 실시형태에 따르면, 음성 인식, 질의 응답 등에서 기계가 이해하지 못한 사용자의 표현에 대해서 보다 이해하기 쉬운 의역 문장을 생성하여 기계가 질문에 해당하는 답을 제공할 때 보다 넓은 범위의 답의 근거들을 찾을 수 있도록 한다.
도 1은 본 발명의 실시형태에 따른 한글 문장에 대한 의역 문장 생성 방법의 흐름도이다.
도 2a, 2b 및 2c는 각각, 본 발명의 실시형태에 따른 한글 문장에 대한 의역 문장 생성 방법에서, 입력된 문장, 형태소가 분류된 문장, 및 의존 관계에 따라 분류된 문장을 나타낸다.
도 3a, 3b 및 3c는 각각, 도2a, 2b 및 2c를 통해 처리된 문장, 동의어 치환된 문장, 및 의역된 문장을 나타낸다.
도 4는 본 발명의 실시형태에 따른 의역 문장 생성 시스템의 구조를 예시한다.
후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시 예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시 예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시 예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시 예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시 예로 구현될 수 있다. 또한, 각각의 개시된 실시 예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.
본 발명은 자연어 형태의 입력 문장에 대한 의역 문장을 생성하는 방법에 관한 것으로, 언어학적 자질을 통해 어휘의 중의 성을 제거하여 입력 문장과 의미적으로 동일한 의역 문장을 생성하되 문적 규칙에 기반하여 문법적인 의역 문장을 생성하는 기술에 관한 것이다.
특히, 본 발명은 기계가 한글 표현의 사람의 말을 보다 잘 이해하도록 하기 위하여 사람이 말하는 문장 표현을 동일한 의미의 한글 문장으로 의역하는 기술에 관한 것이다. 일반적으로 질의와 같은 질문 형 문장의 경우 해당 질의와 함께 제공되는 정보량이 적기 때문에 질문의 의미와 의도를 파악하기 위해서 의역 문장 생성 기술을 이용하여 정보량을 늘림으로써 해당 문장을 이해하거나 및/또는 해당 질문에 대한 답을 찾을 수 있다. 본 명세서에서는 검색 엔진, 음성 인식 및 질의 응답 시스템 등에서 널리 이용될 수 있도록 질문자의 의도가 확실하게 포함되어 있는 질문 형 문장의 의역기술에 대해서 중점적으로 다룬다.
이하에서는 한글 언어를 기반으로 본 발명에 대해서 설명하나 당해 기술분야의 당업자에게는 본 발명이 다른 언어에도 동일/유사하게 적용될 수 있음이 자명할 것이다. 또한, 이하에서는 질문형 문장에 대한 의역 문장 생성에 대해서 설명하나 당해 기술분야의 당업자에게는 본 발명이 평서문 문장, 구, 절, 문당 등에도 적용될 수 있음이 자명할 것이다.
이하, 첨부되는 도면을 참조하여 본 발명의 실시 형태에 따른 한글 문장에 대한 의역 문장 생성 방법을 설명한다.
도 1은 본 발명의 실시형태에 따른 한글 문장에 대한 의역 문장 생성 방법의 흐름도이다. 본 발명의 실시형태에 따른 의역 문장 생성 방법은 각 단계들이 컴퓨터에서 실행될 수 있도록 하는 프로그램 언어로 기록되어, 컴퓨터에서 실행될 수 있다.
도 1을 참조하면, 본 발명의 실시형태에 따른 한글 문장에 대한 의역 문장 생성 방법은 입력된 문장의 언어학적 자질들을 추출하는 단계(S100), 입력된 문장에서 실질 형태소를 분류하는 단계(S200), 실질 형태소에 해당하는 어휘의 동의어 지식과 어휘에 따른 사용 자질 통계를 분석하는 단계(S300), 실질 형태소에 해당하는 어휘를 중의 성이 해소된 어휘로 치환하는 단계(S400), 상기 입력된 문장의 형식 형태소를 분류하는 단계(S500), 조사 및/또는 어미 변형 규칙에 따라 동의어 치환된 문장을 문법적으로 변형하는 단계(S600), 및/또는 변형된 문장을 줄임말 및/또는 띄어쓰기 규칙에 따라 후처리하는 단계(S700)를 포함할 수 있다.
본 명세서에서 의역된 문장은 입력된 문장, 예컨대 질문형 한글 문장을 의역하여 생성된 문장을 지칭할 수 있다. 본 명세서에서 의역된 문장은 입력된 문장, 예컨대 질문형 문장에서 표현의 일부분을 동의어로 대체하고 문법에 맞게 변형하여, 기계가 한글 자연어에 대한 이해력을 높이기 위한 문장이다. 이때, 기계는 컴퓨터(computer), 컴퓨터 기반의 로봇(robot), 또는 컴퓨터 기반의 장치일 수 있다. 의역된 문장을 통해 기계는 해당 문장을 이해하고 및/또는 질문형 문장에 대한 답을 용이하게 이해할 수 있다.
실시예에서 입력된 문장의 언어학적 자질들을 추출하는 단계(S100)는 일반적인 여러 문장 자질 분석 기술에 기반하여 수행될 수 있다. 본 발명의 실시예에서 자질 추출 단계(S100)는 전처리 과정으로 수행될 수 있으며, 형태소 분석, 어휘 의미 분석, 개체명 인식, 구문 분석, 의미역인식, 상호참조해결, 무형대용어 복원, POS(Part-Of-Speech) 태그, 의존구문분석 등의 기법이 이용될 수 있다. 본 명세서에서 이용하는 자질 추출 기법은 예컨대 한국전자통신연구원(ETRI: Electronics and Telecommunications Research Institute)에서 개발된 언어 분석 시스템을 통해서 수행될 수 있다. 본 명세서에서는 자질 분석 기법 중 형태소 분석, 개체명인식, 구문분석, 의미역인식 등 기법에 따라 추출된 결과를 본 발명에 따른 의역 문장 생성을 위한 자질로서 이용하는 것을 예로 들어 설명한다.
본 발명의 실시예에서 형태소 종류는 형태소의 태그셋(tag set)을 의미할 수 있으며, 예컨대 세종계획의 세종 태그셋 45종에 따라 일반명사, 고유명사, 의존명사 및 대명사 등의 태그셋으로 구별될 수 있다.
본 발명의 실시예에서 의존 관계는 의존 관계 레이블(label)을 의미할 수 있으며 문장, 명사구, 동사구, 주격, 목적격 등 18종으로 구별될 수 있다.
본 발명의 실시예에서 의미 역 인식 또는 의미 역 결정은 서술어를 중심으로 서술어에 대한 의미적인 역할을 하는 문장의 부분을 인식하는 기법으로서, 해당 어절이 어떤 의미로 서술어에 부착되는지를 결정 및 인식하는 것이다. 예컨대, 행동주(agent), 사동주(causer), 대상(theme), 장소(loc) 등에 대한 정보가 분석될 수 있다.
자질 추출 단계(S100)에서, 문장이 형태소 단위로 분해가 될 수 있으며 해당 형태소의 타입(type)을 나타내는 태그(tag)와 문장 내의 위치 등의 정보가 분석될 수 있다. 개체명인식 기법을 통해 고유명사, 복합어 등이 추출될 수 있다. 또한, 구문 분석 기법을 통해 어절 별로 문장에서의 역할을 나타내는 태그와 의존되는 어절 정보, 그리고 신뢰도 값이 분석될 수 있다. 의미역인식 기법을 통해 용어(동서/형용사)를 기준으로 용언에 의미역들에 해당하는 주어, 목적어 및 수식어 등의 부착 관계가 트리(tree) 구조 형태로 정의될 수 있다.
자질 추출 단계(S100)에서, 기존의 어휘 사전 자원(예컨대, 부산대에서 제작한 한국어 어휘 의미망(Korlex), 울산대에서 제작한 한글 어휘망(Wordnet), 세종말뭉치, 낱말) 등, 그리고 다양한 한글 웹문서(뉴스, 블로그 등)에 대해 언어모델링을 통해 학습한 결과들이 분석에 이용될 수 있다. 또한, 실시예에 따라 본 명세서에서 어휘 치환 등을 위해서 언어 분석 시스템과는 별도로 낱말 동의어 사전 등 어휘 사전 자원이 이용될 수 있다.
실시예에서 입력된 문장에서 실질 형태소를 분류하는 단계(S200)는 입력된 문장 내에서 의미를 담당하는 어근에 해당하는 실질 형태소를 구분 및 분류하는 단계이다. 실질 형태소를 분류하는 단계(S200)는 입력된 문장 내의 어휘들 중 동의어로 치환이 될 수 있는 성분들을 찾는 단계로써, 일반명사, 고유명사, 의존명사, 대명사, 수사, 동사, 보조용언, 긍정지정사, 부정지정사, 관형사, 접속부사, 일반부사, 감탄사의 형태소를 실질 형태소로 지정할 수 있다.
이때, 실시예에 따라 개체명 인식 기술에 의해 추출된 개체명 표현을 포함하는 형태소는 실질 형태소에서 제외될 수 있다. 개체명(entity)은 예컨대 인명, 지명, 기관명 등을 포함할 수 있다. 이러한 개체명은 실시예에 따른 의역 문장 생성 방법이 이용될 수 있는 질의응답 시스템에서 질문의 정답을 찾는데 가장 중요한 증거(evidence)가 될 수 있다. 이러한 개체명 표현을 치환하는 경우 질문에 대한 바른 답을 찾을 수 없는 경우가 많다. 따라서, 본 발명의 실시예에 따른 의역 문장 생성 방법에서는 개체명은 실질 형태소에서 제외하여 치환하지 않을 수 있다. 본 발명의 실시예에서는 이러한 개체명은 사전 기반으로 전처리와 후처리를 하고, 어휘-시맨틱 패턴(Lexicon-Semantic pattern)을 기반으로 규칙을 제공하여 추출될 수 있다. 본 발명의 실시예에서는 언어 분석 시스템과는 별도로, 책이름 등의 고유 명사, 복합 명사, 명사구(체언, 접두사, 접미사, 전성어미, 의존 명사와 결합된 명사) 등을 자체적으로 추출하여 개체명으로 추출 및 분석할 수 있다.
이상에서 분류된 형태소는 국립국어원의 세종말뭉치에 기반하여 정의된 형태소 분류에 해당하는 것으로, 문장 자질 분석 기술이 달라지는 경우 다른 분류 기준 및/또는 표현에 따라 형태소가 분류될 수 있다.
실시예에 따른 실질 형태소에 해당하는 어근 어휘의 동의어 지식과 어휘에 따른 사용 자질 통계를 분석하는 단계(S300)에서는, 우선 어근 어휘에 해당하는 실질 형태소의 어휘에 대해서 동의어 지식이 추출된다. 이때, 동의어는, 예컨대 동의어 지식 사전을 이용하여 추출될 수 있다. 이러한 동의어 지식 사전은 본 발명의 의역 문장 생성 방법을 실행하는 장치의 내부 또는 외부의 데이터베이스(Data base)에 저장되어 있을 수 있다.
단순히 동의어 지식만을 이용하여 의역 문장을 생성하는 경우, 다의어나 상의어, 하의어로 치환하는 경우에 어휘의 중의 성(Word Sense Disambiguation)이 발생하게 되어 원래 입력된 문장과 다른 문장이 생성되는 문제가 발생할 수 있다. 따라서 본 발명의 실시예에서는 여러 자질 정보에 기반하여 대규모 말뭉치에서 어휘 별로 사용 자질 통계를 분석하고 이 통계 정보에 기반하여 중의 성을 해소할 수 있다. 예컨대, 단계(S100)에서 추출한 언어학적 자질을 이용하여 해당 자질의 통계적인 처리 및 분석에 따라 의미를 구별할 수 있다.
특정 단어가 어떤 형태소 타입으로 주로 사용되었는지 및 어떤 의존구문 자질로 태깅(tagging)되었는지에 따라 문장 내 동음 이의어의 시맨틱(semantic)한 차이가 구별될 수 있다. 추가적으로 의미역관계 자질을 이용하면, 특정 용언과 결합되는 문맥적인 차이를 구별할 수 있다. 예를 들어, "경주"의 경우 지명을 나타내는 "경주"와 "레이스(race)"를 나타내는 "경주"가 있을 수 있다. 우선, 이 둘은 형태소 타입에서 고유 명사와 일반 명사로 구별될 수 있다. 또한, 이 둘은 의존 관계에서 주절에 포함되는 경우와 목적절에 사용되는 빈도가 서로 상이하다. 또한, "레이스"를 나타내는 "경주"는 "이기다" 또는 "지다"와 같은 동사와 의미역으로 연결되는 통계가 더 높게 나타날 수 잇다. 본 발명의 실시예에서는 이와 같이 자질 통계 분석을 통해서 중의 성을 해소할 수 있다.
이때, 동의어 치환 시 중의 성을 해소하기 위해 어휘 별로 사용 자질 통계를 분석하는 데는, 대규모의 말뭉치가 필요하며, 본 명세서에서는 2013년에 9개월에 걸쳐 수집한 뉴스 문서 말뭉치가 이용되었다. 이는 단지 예시일 뿐이며 상기 말뭉치 이외의 위키피디아(Wikipedia) 문서나 블로그(blog) 등의 웹 문서 등이 말뭉치로 이용될 수 있다. 이러한 말뭉치는 본 발명의 의역 문장 생성 방법을 실행하는 장치의 내부 또는 외부의 데이터베이스(Data base)에 저장되어 있을 수 있다.
실시예에서, 실질 형태소에 해당하는 어휘를 중의 성이 해소된 어휘로 치환하는 단계(S400)에서는, 동의어 지식 추출 및 어휘에 따른 사용 자질 통계 자료를 분석한 결과에 기반하여 실질 형태소에 해당하는 어휘는 중의 성을 해소하는 최적의 동의어로 치환될 수 있다. 이 단계에서는 후보 동의어 중에서 통계 정보에 기반하여 형태소의 종류, 의존 관계 및 의미 역 결정(SRL: Semantic Role Labeling) 등의 자질에 따라 동의어 별로 적합도가 점수화될 수 있다. 이때, 적합도가 계산되는 동의어는 해당 어휘와 의미 역 결정 자질이 동일한 동의어에 대해서 수행될 수 있다. 각 동의어의 적합도는 아래의 수학식(1)에 따라 연산될 수 있다. 이 적합도에 따라 최고의 점수를 얻은 동의어가 치환 대상 단어로 선정될 수 있다.
Figure 112015083843725-pat00001
수학식(1)
여기서, t: 선택된 형태소의 종류, wi: i단어, Fmt(wi): i단어의 형태소 종류의 빈도, Fdt(wi): i단어의 의존 관계 종류의 빈도, Fmtotal(wi)=∑t Fmt(wi), 그리고 Fdtotal(wi)=∑t Fdt(wi)이다. 보다 구체적으로, 수학식(1)은 치환 대상 어휘와 동의어 사이의 형태소 및 의존관계 자질의 유사도를 계산하는 수식이다. 본 명세서에서 적합도가 높은 동의어란 치환 대상 어휘와 자질 분석 결과 동일한 형태소 및 의존 관계로 유사한 빈도로 사용된 동의어를 지칭할 수 있다. 즉, 비슷한 유형의 형태소 및/또는 의존관계로 사용된 빈도가 높은 동의어의 적합도 수치가 높을 수 있다.
실시예에서 상기 입력된 문장의 형식 형태소를 분류하는 단계(S500)는 조사 및/또는 어미에 해당하는 형태소를 분류할 수 있다. 실시예에서는 한글 의역 문장의 문법성을 향상시키기 위하여 실질 형태소뿐 아니라 조사 및/또는 어미에 해당하는 형태소도 분류할 수 있다.
실시예에서 조사 및/또는 어미 변형 규칙에 따라 동의어 치환된 문장을 문법적으로 변형하는 단계(S600)가 수행될 수 있다. 조사 및/또는 어미 변형 규칙은 본 발명의 의역 문장 생성 방법을 실행하는 장치의 내부 또는 외부의 데이터베이스(Data base)에 저장되어 있을 수 있다. 실시예에서 사용되는 규칙은 국립언어원에서 발간한 여러 문헌으로부터 관련 자료로부터 수집될 수 있다. 또한, 이러한 규칙에 따라 문장을 문법적으로 변형하는 단계는 자동화 프로그램을 통해서 구현될 수 있다.
실시예에서, 전술한 단계(S600)를 통해 문법적으로 변형된 문장에 대해서 후처리하는 단계(S700)가 수행될 수 있다. 이러한 후처리 단계에서는 줄임말 및/또는 띄어쓰기 규칙에 따라 문장을 변형할 수 있다. 후처리를 위한 줄임말 및/또는 띄어쓰기 규칙은 본 발명의 의역 문장 생성 방법을 실행하는 장치의 내부 또는 외부의 데이터베이스(Data base)에 저장되어 있을 수 있다. 실시예에서 사용되는 규칙은 국립언어원에서 발간한 여러 문헌으로부터 관련 자료로부터 수집될 수 있다. 또한, 이러한 규칙에 따라 문장을 변형하는 단계는 자동화 프로그램을 통해서 구현될 수 있다.
이상에서 살펴본 바와 같이, 본 발명의 실시형태에 따르면 예컨대 질문 형 문장의 한글 의역 문장을 생성할 수 있다. 본 발명의 실시형태에 따른 한글 의역 문장 생성 방법은 검색 엔진, 음성 인식, 질의 응답 시스템 등에서 기계가 사람의 말을 이해하고 의도를 분석하는데 이용 될 수 있으며, 문장 어휘 표현의 범위를 넓혀 질문에 대한 답을 찾는데 도움을 줄 수 있다.
도 2a, 2b 및 2c는 각각, 본 발명의 실시형태에 따른 자연어 문장에 대한 의역 문장 생성 방법에서, 입력된 문장, 형태소 분석 결과에 따라 분류된 문장, 및 의존 관계 분석 및 의미역 결정에 따라 분류된 문장을 나타낸다.
도 2a에서 입력되는 문장으로서, 질의형 한글 문장이 "경주에서 어떤 사람이 이겼는가"라는 문장이 예시된다. 도 2b에서는 형태소 별로 분류된 문장을 예시한다. 이때, 형태소 1 (경주), 3 (어떤), 4(사람) 및 6(이기)는 실시예에서 어근을 나타내는 실질 형태소일 수 있다. 형태소 2 (에서), 5 (이), 7 (었) 및 8 (는가)는 실시예에서 조사 또는 어미를 나타내는 형식 형태소일 수 있다. 도 2c에서는 분석된 의존관계 분석 및 의미역 결정에 따라 분류된 문장을 나타낸다.
도 3a, 3b 및 3c는 각각, 도2a, 2b 및 2c를 통해 처리된 문장, 동의어 치환 및 조사와 어미를 문법에 맞게 변형하고 축약이 일어나는 과정, 및 의역된 문장을 나타낸다. 도 3a에서 실질 형태소 1 (경주)는 중의 성이 해소된 "레이스"로 치환되고, 실질 형태소 3 및 4 (어떤 사람)는 중의 성이 해소된 "누구"로 치환되고, 실질형태소 6 (이기)는 중의 성이 해소된 "승리"로 치환된 것이 도 3b에 예시된다. 이때, 형식 형태소 5(이)는 조사 변환 규칙에 따라 "가"로 변환된고, 형식 형태소 7(었)는 어미 변환 규칙에 따라 "였"로 변환된 것이 도 3b에 예시된다. 또한, 도 3b에서는 준말규칙에 따라 "누구"와 "가"가 결합하여 "누가"로 축약되고 "하"와 "였"이 결합하여 "했"으로 변환된 것이 예시된다. 도 3c는 이상에 따른 치환 및 변환 후의 의역된 문장 "레이스에서 누가 승리했는가"를 예시한다.
실시예에 따라, 후처리 단계(S700)에서 추가의 규칙이 적용되어 도 3c에 예시된 의역된 문장은 추가로 변형될 수도 있다. 예컨대, 처소 교차 문법이 적용되는 경우, "레이스에서 누가 승리했는가" 문장은 "누가 레이스에서 승리했는가"로 변환될 수 있다. 이때, "누가 레이스에서 승리했는가" 문장이 실시예에 따른 의역 문장이 될 수 있다.
이렇게 의역된 문장은 중의성이 해소되어 기계가 이해하기 용이하고, 이에 따라 질문에 대한 정확한 답변을 제공할 가능성을 높일 수 있다.
본 발명의 실시예에 따른 의역 문장 생성 방법은 프로그램 언어로 기록되어 컴퓨터에서 실행될 수 있다. 예컨대, 본 발명의 실시예에 따른 의역 문장 생성 방법은 도4에 예시된 바와 같은 의역 문장 생성 시스템(100)을 통해서 수행될 수 있다.
본 발명의 실시예에 따른 의역 문장 생성 시스템(100)은 형태소 분류부(10), 동의어 치환부(20), 문장 변형부(30) 및 데이터 베이스(40)를 포함하여 구성될 수 있다. 본 발명의 실시예에 따른 의역 문장 생성 시스템(100)에서 형태소 분류부(10), 동의어 치환부(20) 및 문장 변형부(30) 각각은 모듈(module)화되어 구성될 수 있으며 적어도 하나 이상의 구성요소가 하나의 모듈로 구성될 수 있다. 본 발명의 실시예에 따른 데이터 베이스(40)는 의역 문장 생성 시스템(100) 내부에 포함되거나 의역 문장 생성 시스템(100)이 접속 가능한 외부 데이터 베이스로 구성될 수도 있다.
본 발명의 실시예에 따른 의역 문장 생성 시스템(100)의 형태소 분류부(10)에서는 본 발명의 실시예에 따른 의역 문장 생성 방법의 형태소를 분류하는 단계들(S200, S500)을 수행할 수 있다. 형태소 분류부(10)에서 실질 형태소를 분류하는 단계(S200)와 조사 및 어미 형태소를 분류하는 단계(S500)는 별개의 구성요소에서 수행되도록 구현될 수 있다. 실시예에 따른 동의어 치환부(20)는 어근 어휘의 동의어 지식과 어휘에 따른 사용 자질 통계를 분석하는 단계(S300) 및 어근 어휘를 동의어 중 중의성이 해소된 어휘로 치환하는 단계(S400)를 수행할 수 있다. 마찬가지로 동의어 치환부(20)에서 각 단계는 별개의 구성요소에서 수행되도록 구현될 수 있다. 실시예에 따른 문장 변형부(30)는 조사/어미 변형 규칙에 따라 문장을 문법적으로 변형하는 단계(S600) 및 문장 후처리 단계(S700)를 수행할 수 있다. 이때, 문장 변형부(30)에서 각 단계는 별개의 구성요소에서 수행되도록 구현될 수 있다. 또한, 실시예에 따른 형태소 분류부(10), 동의어 치환부(20) 및/또는 문장 변형부(30)에서 각 단계를 수행하는데 필요한 데이터 및 지식은 데이터 베이스(40)에 저장되어 있을 수 있다. 실시예에 따라 필요한 데이터 및 지식 중 적어도 일부는 형태소 분류부(10), 동의어 치환부(20) 및 문장 변형부(30)에 포함되어 있을 수 있다.
이상에서 실시 예들에 설명된 특징, 구조, 효과 등은 본 발명의 하나의 실시 예에 포함되며, 반드시 하나의 실시 예에만 한정되는 것은 아니다. 나아가, 각 실시 예에서 예시된 특징, 구조, 효과 등은 실시 예들이 속하는 분야의 통상의 지식을 가지는 자에 의해 다른 실시 예들에 대해서도 조합 또는 변형되어 실시 가능하다. 따라서 이러한 조합과 변형에 관계된 내용들은 본 발명의 범위에 포함되는 것으로 해석되어야 할 것이다.
또한, 이상에서 실시 예를 중심으로 설명하였으나 이는 단지 예시일 뿐 본 발명을 한정하는 것이 아니며, 본 발명이 속하는 분야의 통상의 지식을 가진 자라면 본 실시 예의 본질적인 특성을 벗어나지 않는 범위에서 이상에 예시되지 않은 여러 가지의 변형과 응용이 가능함을 알 수 있을 것이다. 예를 들어, 실시 예에 구체적으로 나타난 각 구성 요소는 변형하여 실시할 수 있는 것이다. 그리고 이러한 변형과 응용에 관계된 차이점들은 첨부된 청구 범위에서 규정하는 본 발명의 범위에 포함되는 것으로 해석되어야 할 것이다.
100: 의역 문장 생성 시스템
10: 형태소 분류부 20: 동의어 치환부
30: 문장 변형부 40: 데이터 베이스

Claims (8)

  1. 한글 문장에서 실질 형태소를 분류하는 단계;
    상기 한글 문장에서 상기 실질 형태소로 분류된 어근 어휘를 언어학적 자질에 근거하여 동의어로 치환하는 단계;
    상기 한글 문장에서 형식 형태소를 분류하는 단계; 및
    상기 동의어 치환된 상기 한글 문장에서 상기 형식 형태소로 분류된 조사 및 어미 어휘 중 적어도 어느 하나를 조사 및 어미 변형 규칙에 따라 문법적으로 변형하는 단계를 포함하며,
    상기 언어학적 자질은 의미역 결정, 형태소 종류 및 의존관계를 포함하며,
    상기 동의어로는, 상기 어근 어휘와 의미역 결정이 같은 동의어 후보 중 상기 어근 어휘와 동일한 형태소 종류 및 의존관계로 사용되는 빈도에 근거한 적합도가 가장 높은 동의어가 선택되는,
    의역 문장 생성 방법.
  2. 제1항에 있어서,
    상기 실질 형태소를 분류하는 단계에서,
    개체명 인식 기술에 의해 추출된 개체명은 상기 실질 형태소에서 제외되는, 의역 문장 생성 방법.
  3. 제1항에 있어서,
    상기 동의어로 치환하는 단계에서,
    상기 어근 어휘는 상기 어근 어휘의 사용 자질 통계에 근거하여 중의 성이 해소된 동의어로 치환되는, 의역 문장 생성 방법.
  4. 삭제
  5. 삭제
  6. 제1항 내지 제3항 중 어느 한 항에 있어서,
    상기 변형된 문장에 대해서 줄임말 규칙 및 띄어쓰기 규칙 중 적어도 어느 하나에 따라 변형하는 단계를 더 포함하는, 의역 문장 생성 방법.
  7. 청구항 제1항 내지 제3항 중 어느 한 항에 따른 의역 문장 생성 방법에서 한글 문장에 대해서 조사 및 어미 어휘 중 적어도 어느 하나를 조사 및 어미 변형 규칙에 따라 문법적으로 변형하는 단계를 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능 매체.
  8. 청구항 제6항에 따른 의역 문장 생성 방법에서 한글 문장에 대해서 줄임말 규칙 및 띄어쓰기 규칙 중 적어도 어느 하나에 따라 변형하는 단계를 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능 매체.
KR1020150121843A 2015-08-28 2015-08-28 한글 문장에 대한 의역 문장 생성 방법 KR101757222B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020150121843A KR101757222B1 (ko) 2015-08-28 2015-08-28 한글 문장에 대한 의역 문장 생성 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150121843A KR101757222B1 (ko) 2015-08-28 2015-08-28 한글 문장에 대한 의역 문장 생성 방법

Publications (2)

Publication Number Publication Date
KR20170025424A KR20170025424A (ko) 2017-03-08
KR101757222B1 true KR101757222B1 (ko) 2017-07-13

Family

ID=58404315

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150121843A KR101757222B1 (ko) 2015-08-28 2015-08-28 한글 문장에 대한 의역 문장 생성 방법

Country Status (1)

Country Link
KR (1) KR101757222B1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102347505B1 (ko) * 2018-11-29 2022-01-10 부산대학교 산학협력단 한국어 워드넷 기반 지식 주도 심층학습을 이용한 워드 임베딩 장치 및 방법
KR102293071B1 (ko) * 2018-12-11 2021-08-26 서울대학교산학협력단 Rdf 지식베이스 기반의 개체명 중의성 해소 방법 및 장치
KR102648782B1 (ko) * 2020-11-13 2024-03-19 한국전자통신연구원 적대적 패러프레이즈 문장 자동 생성 시스템

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101070371B1 (ko) 2009-08-13 2011-10-05 부산대학교 산학협력단 한국어 어휘의미망을 이용한 어의 중의성 해소 장치 및 방법 그리고 그를 위한 프로그램을 기록한 기록 매체

Also Published As

Publication number Publication date
KR20170025424A (ko) 2017-03-08

Similar Documents

Publication Publication Date Title
Benajiba et al. Arabic named entity recognition: A feature-driven study
Anderson et al. Towards a computational history of the ACL: 1980-2008
Orosz et al. PurePos 2.0: a hybrid tool for morphological disambiguation
US9600469B2 (en) Method for detecting grammatical errors, error detection device for same and computer-readable recording medium having method recorded thereon
US20150154184A1 (en) Morphology analysis for machine translation
Sen et al. Bangla natural language processing: A comprehensive analysis of classical, machine learning, and deep learning-based methods
Najar et al. Opinion mining and sentiment analysis for Arabic on-line texts: application on the political domain
Alam et al. A review of bangla natural language processing tasks and the utility of transformer models
KR101757222B1 (ko) 한글 문장에 대한 의역 문장 생성 방법
Singha et al. Part of speech tagging in Manipuri: a rule-based approach
Masroor et al. Transtech: development of a novel translator for Roman Urdu to English
Chatterjee et al. DEPSYM: A Lightweight Syntactic Text Simplification Approach using Dependency Trees.
Singha et al. Part of speech tagging in Manipuri with hidden markov model
Alqrainy A morphological-syntactical analysis approach for Arabic textual tagging
Sen et al. Bangla natural language processing: A comprehensive review of classical machine learning and deep learning based methods
Mara English-Wolaytta Machine Translation using Statistical Approach
Garje et al. Transmuter: an approach to rule-based English to Marathi machine translation
Zhou et al. Combining probability models and web mining models: a framework for proper name transliteration
Starchenko et al. A cross-genre morphological tagging and lemmatization of the russian poetry: distinctive test sets and evaluation
Fashwan et al. Developing a tag-set and extracting the morphological lexicons to build a morphological analyzer for egyptian arabic
Chege et al. Developing an Open source Spell-checker for Gıkuyu
Sankaravelayuthan et al. A Comprehensive Study of Shallow Parsing and Machine Translation in Malaylam
Muhongo et al. Detection of loanwords in angolan portuguese: A text mining approach
Qamet et al. Development Kazakh-Turkish machine translation on the base of complete set of endings model
Le et al. An experimental study on lexicalized statistical parsing for Vietnamese

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant