KR101755437B1 - 어휘의미패턴을 이용한 한국어의 기계번역방법 - Google Patents

어휘의미패턴을 이용한 한국어의 기계번역방법 Download PDF

Info

Publication number
KR101755437B1
KR101755437B1 KR1020160007468A KR20160007468A KR101755437B1 KR 101755437 B1 KR101755437 B1 KR 101755437B1 KR 1020160007468 A KR1020160007468 A KR 1020160007468A KR 20160007468 A KR20160007468 A KR 20160007468A KR 101755437 B1 KR101755437 B1 KR 101755437B1
Authority
KR
South Korea
Prior art keywords
sentence
lsp
korean
pattern
target language
Prior art date
Application number
KR1020160007468A
Other languages
English (en)
Inventor
장준환
장정훈
Original Assignee
주식회사 와이즈넛
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 와이즈넛 filed Critical 주식회사 와이즈넛
Priority to KR1020160007468A priority Critical patent/KR101755437B1/ko
Application granted granted Critical
Publication of KR101755437B1 publication Critical patent/KR101755437B1/ko

Links

Images

Classifications

    • G06F17/289
    • G06F17/2755
    • G06F17/277
    • G06F17/2785

Landscapes

  • Machine Translation (AREA)

Abstract

한국어를 외국어로 보다 자연스럽고 정확하게 번역할 수 있는 LSP을 이용한 한국어의 기계번역방법이 제공된다. 이 한국어의 기계번역방법은, (a) 형태소 분석을 통하여 한국어 LSP 지식을 사전에 구축하고 LSP에 대응하는 목적언어패턴을 매핑하는 단계와, (b) 원시문장의 형태소를 분석하여 원시문장에 매칭하는 LSP를 검출하는 단계와, (c) 검출된 LSP에 매핑된 목적언어패턴을 획득하는 단계와, (d) 목적언어패턴 내의 어휘변수에 대응되는 어휘를 선택하는 단계를 포함한다.

Description

어휘의미패턴을 이용한 한국어의 기계번역방법{Method for machine-translating Korean into other languages by using Lexico Semantic Pattern}
본 발명은 한국어의 기계번역방법에 관한 것으로서, 더욱 상세하게는 어휘의미패턴 (Lexico Semantic Pattern: 이하 "LSP"이라 함)을 이용하여 한국어를 다른 언어로 번역하는 방법에 관한 것이다.
기계번역이란 컴퓨터를 사용하여 서로 다른 언어를 번역하는 것을 말한다. 기계번역에 대한 연구는 1950년대부터 자연어 처리를 중심으로 시작되었다. 근래 들어 세계 각국이 학술, 상업 및 외교적으로 더욱 밀접한 관계를 가짐에 따라 더욱 편리한 커뮤니케이션을 위하여 기계번역에 대한 관심과 요구가 증가되고 있는 실정이다.
우리나라의 경우 한국어와 외국어 간의 기계번역이 주된 개발과제인데, 종래 서비스되고 있는 기계번역의 경우 번역 대상에 따라 정확성에 큰 차이를 보이고 있다. 구체적으로, 한국어와 어순이 같은 일본어에 대해서는 한국어와 일본어 간에 상당히 높은 정확도로 번역되고 있다.
하지만, 한국어와 어순이 다른 영어, 중국어, 스페인어 등의 경우 기계번역된 수준이 매우 낮다. 특히 이들 외국어를 한국어로 기계번역할 때는 비교적 의미가 통할 정도의 수준을 보이나, 한국어를 이들 외국어로 번역할 때는 그 의미를 파악하기 힘들 정도로 번역수준이 매우 낮다. 이는 한국어와 외국어의 어순이 다를 뿐만 아니라 문장을 구성하는 품사 및 형태소에 있어서도 큰 차이를 가지기 때문이다.
예를 들어, Google 번역기(translate.google.co.kr)를 통하여 한국어 "첫 눈이 내린다고 그에게 전해 주시겠어요"를 영어로 번역하면 "First snow naerindago Could you tell him?"으로 번역된다. Bing 번역기(www.bing.com/translator)를 통해서는 "The first snow fell on him, tell him, please?"로 번역된다. 이와 같은 종래 기계번역기는 한국어의 문장 성분 및 구조를 제대로 이해하지 못하거나 이를 번역 프로세스에 제대로 반영하지 못했기 때문에, 원문과는 의미가 전혀 다른 번역문이 생성되곤 하였다.
본 발명이 해결하고자 하는 과제는, 한국어를 외국어로 보다 자연스럽고 정확하게 번역할 수 있는 LSP을 이용한 한국어의 기계번역방법을 제공하고자 하는 것이다.
본 발명이 해결하고자 하는 과제들은 이상에서 언급한 과제로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
상기 과제를 달성하기 위한 본 발명의 일 실시예에 따른 어휘의미패턴을 이용한 한국어의 기계번역방법은, 어휘의미패턴(LSP)을 이용하여 원시문장을 목적언어로 기계번역하는 방법에 있어서, 한국어 번역장치가: (a) 형태소 분석을 통하여 한국어 LSP 지식을 사전에 구축하고 상기 LSP에 대응하는 목적언어패턴을 매핑하는 단계; (b) 상기 원시문장의 형태소를 분석하여 상기 원시문장에 매칭하는 LSP를 검출하는 단계; (c) 상기 검출된 LSP에 매핑된 상기 목적언어패턴을 획득하는 단계; 및 (d) 상기 목적언어패턴 내의 어휘변수에 대응되는 어휘를 선택하는 단계를 포함한다.
상기 (a) 단계는 상기 LSP 지식을 문형에 따라 분류하여 구축할 수 있고, 상기 (b) 단계는 상기 원시문장의 문형을 기반으로 상기 LSP를 검출할 수 있다.
상기 (b) 단계에서 상기 원시문장이 구 또는 절을 포함하는 경우, 상기 구 또는 절을 분리하여 제외한 후에 상기 원시문장의 문형을 분류할 수 있다.
상기 원시문장의 문형은 상기 원시문장의 종결어미를 기준으로 분류될 수 있다.
상기 종결어미 뒤에 문장부호가 있는 경우, 상기 문장부호에 따라 문형을 예비 분류하는 단계를 더 포함할 수 있다.
상기 (d) 단계는, 어휘 데이터 베이스로부터 상기 어휘변수에 대한 어휘후보군을 획득하는 단계; 및 상기 어휘후보군 중 통계적으로 상기 목적언어패턴의 컨텍스트에 적합한 어휘를 선택하는 단계를 포함할 수 있다.
기타 실시예들의 구체적인 사항들은 구체적인 내용 및 도면들에 포함되어 있다.
상술한 바와 같이 본 발명에 따른 한국어의 기계번역방법에 의하면 다음과 같은 우수한 효과가 있다.
첫째, 문형에 따라 한국어의 LSP를 분류하여 사용하기 때문에 번역의 정확도를 현저히 높일 수 있으며 번역시간도 줄일 수 있다. 구체적으로, 한국어에 대한 기본적인 LSP를 구축하고 이를 문형에 따라 분류한 후 번역대상인 원시문장의 문형에 따라 이에 매칭하는 LSP를 검출하기 때문에 정확한 기계번역의 기반이 되는 LSP를 보다 쉽게 검출할 수 있다.
둘째, 외국어의 목적언어패턴을 LSP에 매핑시켜 번역을 위한 기본 문형으로 사용함으로써 번역의 완성도를 높일 수 있다.
셋째, 목적언어패턴 중 치환가능한 어휘변수에 대하여 어휘후보군을 획득한 후 기계학습에 의하여 통계적으로 컨텍스트에 적합한 어휘를 선택함으로써 한국어를 보다 자연스러운 외국어로 번역할 수 있다.
도 1은 본 발명의 일 실시예에 따른 한국어 번역장치의 구성을 개략적으로 나타낸 블록도이다.
도 2는 본 발명의 일 실시예에 따른 LSP를 이용한 한국어의 기계번역방법을 순차적으로 나타낸 순서도이다.
도 3은 도 2의 한국어 LSP 지식을 구축하고 목적언어패턴과의 매핑하는 단계를 구체적으로 나타낸 순서도이다.
도 4는 도 3의 컨셉을 정의함에 있어서 관리자 단말의 화면 구성을 예시적으로 나타낸 도면이다.
도 5는 도 3의 의미자질 사전을 구축함에 있어서 의미자질을 정의한 의미자질 사전 테이블을 예시적으로 나타낸 도면이다.
도 6은 도 5의 의미자질 "meeting(4469)"에 대한 엔트리 테이블의 구성을 예시적으로 나타낸 도면이다.
도 7은 본 발명의 방법에 따라 생성된 LSP 구축 테이블의 구성을 예시적으로 나타낸 도면이다.
도 8은 도 2의 원시문장의 문형을 분석하는 단계를 구체적으로 나타낸 순서도이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
본 발명에 있어서 "원시언어"는 번역의 대상이 되는 언어를 말하며 "원시문장"은 원시언어로 된 문장을 의미한다. 또한 본 발명에 있어서 "목적언어"는 원시언어를 번역 처리하여 출력하고자 하는 다른 언어를 의미한다. 본 발명의 실시예들에서 원시언어로서 한국어를, 목적언어로서 외국어를 예를 들어 설명한다. 바람직하게는 목적언어는 원시언어와 어순이 다른 외국어일 수 있다. 더욱 바람직하게는 목적언어는 영어일 수 있다. 본 발명의 실시예들에서는 한국어를 영어로 기계번역을 하는 경우 우수한 완성도를 보이는 것을 예로 들어 설명하고 있으나, 본 발명은 이에 한정되지 않으며 목적언어는 임의의 외국어가 될 수 있다.
이하 도 1을 참조하여 본 발명의 일 실시예에 따른 한국어 번역장치를 설명한다. 도 1은 본 발명의 일 실시예에 따른 한국어 번역장치의 구성을 개략적으로 나타낸 블록도이다.
도 1에 도시된 바와 같이, 본 발명의 한국어 번역장치(100)는 번역대상인 원시문장이 입력되는 입력부(10)와, 한국어 LSP 지식을 구축하고 이를 문형에 따라 분류한 후 목적언어의 특정한 패턴에 매핑하는 LSP 지식 구축부(20)와, 원시문장을 분석하여 이에 매칭하는 LSP를 획득하는 LSP 검출부(30)와, 검출된 LSP에 매핑된 목적언어패턴을 획득하는 목적언어패턴 추출부(40)와, 목적언어패턴에 적용될 어휘후보군을 획득하는 어휘후보군 조사부(50)와, 어휘후보군에서 적절한 어휘를 선택하는 어휘선택부(60)와, 완성된 번역문을 출력하는 출력부(70)와, 상기 구성요소들의 기능 및 작용에 필요한 데이터를 저장하는 DB(80)를 포함한다.
LSP 지식 구축부(20)는 한국어에 대한 LSP 지식을 구축하여 정의한다. 예를 들어, LSP 지식 구축부(20)는 수많은 한국어 샘플 데이터를 수집하고 이를 컨셉, 의미자질 및 어휘엔트리의 개념으로 다면 분류하여 한국어 LSP를 구조화함으로써 LSP 지식을 구축한다. LSP 지식을 구축하는 방법에 대해서는 추후에 자세히 설명한다.
또한 LSP 지식 구축부(20)는 원시언어에 대하여 구축된 LSP를 문형에 따라 분류한다. 여기서 사용되는 문형은 평서문, 의문문, 명령문, 청유문, 및 감탄문을 포함한다. 나아가 LSP 지식 구축부(20)는 각 한국어 LSP에 대응하는 목적언어패턴을 매핑한다. 목적언어패턴은 목적언어로 이루어진 LSP 형태의 문장을 말한다. 예를 들어, 목적언어패턴은 LSP 형태의 영어 문장일 수 있다.
한편, LSP 검출부(30)는 입력된 원시문장의 형태소를 분석한 후 원시문장의 종결어미에 따라 원시문장이 해당하는 문형을 정의한다. LSP 검출부(30)는 상기 원시문장의 문형을 기준으로 LSP 지식으로부터 원시문장에 매칭하는 LSP를 검출한다.
목적언어패턴 추출부(40)는 상기 검출된 LSP에 대응하여 상기 LSP 지식 구축부(20)가 매핑한 목적언어패턴을 추출한다. 예를 들어, 목적언어패턴 추출부(40)는 원시문장의 LSP로부터 이에 매핑된 영어로 된 LSP 패턴을 획득할 수 있다.
어휘후보군 조사부(50)는 상기 추출된 목적언어패턴 내에 정의된 어휘변수에 대하여 어휘 데이터 베이스로부터 어휘후보군을 획득한다. 여기서 어휘후보군은 서로 치환가능한 것이 바람직하다. 어휘 데이터 베이스는 DB(80) 내에 저장되어 있을 수도 있고, 인터넷 등과 같은 유무선 네트워크를 통하여 외부에 저장될 수도 있다.
어휘선택부(60)는 자연언어 처리를 위한 기계학습(machine learning)에 의하여 어휘변수 주변에 배치된 어휘들을 참조하여 어휘변수에 대하여 통계적으로 가장 적합한 어휘를 선택하여 번역문을 완성할 수 있다. 본 실시예에서 사용되는 어휘선택을 위한 기계학습 과정은 다양한 공지된 기술을 이용할 수 있다.
이하 도 2 내지 도 8을 참조하여 본 발명의 일 실시예에 따른 LSP를 이용한 한국어의 기계번역방법에 대하여 자세히 설명한다. 여기서 도 2는 본 발명의 일 실시예에 따른 LSP를 이용한 한국어의 기계번역방법을 순차적으로 나타낸 순서도이다.
LSP 지식 구축부(20)는 한국어에 대한 LSP 지식을 구축하고 한국어 LSP를 목적언어패턴과 매핑한다(S100). 구체적으로, 수집한 한국어 샘플 데이터로부터 한국어 LSP를 구조화하여 한국어 LSP 지식을 구축하는데, 도 3 내지 도 7을 참조하여 이를 자세히 설명한다. 도 3은 도 2의 한국어 LSP 지식을 구축하고 목적언어패턴과의 매핑하는 단계를 구체적으로 나타낸 순서도이다. 도 4는 도 3의 컨셉을 정의함에 있어서 관리자 단말의 화면 구성을 예시적으로 나타낸 도면이다. 도 5는 도 3의 의미자질 사전을 구축함에 있어서 의미자질을 정의한 의미자질 사전 테이블을 예시적으로 나타낸 도면이다. 도 6은 도 5의 의미자질 "meeting(4469)"에 대한 엔트리 테이블의 구성을 예시적으로 나타낸 도면이다. 도 7은 본 발명의 방법에 따라 생성된 LSP 구축 테이블의 구성을 예시적으로 나타낸 도면이다.
본 발명의 일 실시예에 따른 LSP 지식 구축 방법은 텍스트 분석 및 LSP 사전의 구축 프로세스이기도 하다. 이들 각 단계들은 하드웨어/소프트웨어 모듈이 구축되어 있는 컴퓨팅 시스템인 관리자 단말에 의해서 수행될 수 있다.
먼저, LSP 지식 구축부(20)는 컨셉(Concept)을 정의하여 구축한다(S101). 컨셉은 문장의 의미 분석을 통해 해석된 문장의 의미로 정의된다. 컨셉은 LSP들이 속하는 집합으로 표현될 수 있으며, 비슷한 내용의 텍스트를 분석할 수 있는 LSP를 하나로 컨셉으로 묶어놓음으로써 LSP를 보다 쉽게 관리할 수 있다.
또한 컨셉은 계층구조를 가질 수 있다. 도 4의 컨셉 생성화면(200)에 나타난 바와 같이, 복수의 컨셉들이 계층구조를 형성하고 있다. 예컨대 큰 범주의 navigation 컨셉이 정의되면, 그 하위 범주로, search, TV 컨셉이 정의되고, search 컨셉 아래에는 다시 map, path 컨셉이 정의되어 등록될 수 있다. 이처럼 컨셉은 큰 범주의 의미표현에서부터 세부 의미표현까지 계층을 이루며 문장의 의미를 분류하여 정의될 수 있다. 본 실시예의 컨셉은 적어도 하나의 LSP를 포함하는 것이 바람직하다.
각 컨셉에 속하는 LSP들을 구축하기 위해서는 대상이 되는 텍스트인 샘플 데이터를 확보할 필요가 있다. 샘플 데이터를 수집하여 상기 컨셉에 맞게 분류한다(S102). 샘플 데이터를 많이 수집할수록 더욱 정교한 컨셉과 LSP 구축이 가능해진다. 이는 번역시스템의 성능에 직접적인 영향을 미친다. 수집한 샘플 데이터는 구축한 컨셉에 맞게 각각 분류하게 되는데, 만일 수집한 샘플 데이터 중에서 특정 컨셉으로 분류하기 어려운 데이터 경우, 즉 수집한 샘플 데이터에 대응하는 컨셉이 없는 경우에는 컨셉을 추가하거나 수정할 수 있다.
설명의 편의를 위해서 다음 문장과 같은 샘플 데이터를 예시한다:
(A) "회의하기 좋은 장소가 근처에 있을까?"
(B) "강남에 회의하기 좋은 식당 알려줘"
(C) "야구하는 채널 보여줘"
한국어의 문장 구조 및 구성성분을 정확하게 파악하고 분석하기 위해서는 단어는 다르지만 동일한 의미를 가지는 어휘를 구조화할 필요가 있다. 이를 위해서, LSP 지식 구축부(20)는 상기 컨셉의 의미를 구성하는 기본 단위를 의미자질(Semantic feature)로 정의하고, 의미자질 사전을 구축한다(S103).
의미자질은 LSP를 구성하는 기본 단위 중 하나이며, 의미자질 사전은 동일한 의미를 가지는 한 개 이상의 엔트리들을 하나의 집합으로 묶어놓은 것을 말한다.
상기 샘플 데이터의 문장에 관해서 말하자면, (A) 문장은 "요청", "장소", "미팅"과 같은 의미자질들로 구성되어 있다. 각각의 의미자질은 예컨대 "요청(알려줘)", "장소(식당)", "미팅(회의, 약속)" 등의 엔트리를 포함할 수 있다. (B)문장은 "지역", "미팅", "장소" 와 같은 의미자질들로 구성되고, (C) 문장은 "스포츠", "채널", "요청" 과 같은 의미자질로 구성되어 있다. 위 문장들을 포괄하는 컨셉은 "navigation"으로 볼 수 있을 것이다. 결국 몇 개의 샘플 문장으로부터 이 컨셉은 "요청", "장소", "미팅", "지역", "스포츠", "채널"과 같은 의미자질로 구성될 수 있다.
도 4에서 navigation 컨셉 밑의 map 컨셉은 장소 검색을 요청을 의미하며, 이 컨셉은 "장소", "요청", "미팅", "지역" 등의 의미자질로 구성될 수 있다. navigation 컨셉 밑의 path 컨셉은 "미팅" 의미자질 대신에 "경로" 의미자질이 추가 구성될 수도 있다.
도 5를 참조하여 의미자질에 대하여 상세히 설명한다. 의미자질 사전 테이블(210) 중 4469번 의미자질(220) "meeting"을 예로 설명해보자.
문장에서 "논의", "디스커션", "만나+기", "모임", "미팅", "약속", "얘기", "회의"는 동일한 의미를 갖는다. 따라서 이들 단어를 "meeting"이라는 의미자질(220)의 엔트리로 묶을 수 있으며, 도 6의 엔트리 테이블(230)처럼, 하나의 엔트리로 분류하고, 이 엔트리가 "meeting"이라는 의미자질(220)의 하위 분류의 집합이 되도록 구조화할 수 있다.
이러한 의미자질은 사전과 같은 역할을 하며, 이처럼 정의된 의미자질에 동일한 의미를 가지는 어휘 엔트리를 추가하기 때문에, 의미자질은 어휘 엔트리의 집합이 될 수 있다. 도메인 내에 키워드로 이루어진 의미자질과 서술 표현의 의미자질이 포함될 수 있다.
LSP에서는 기호 "@"을 사용하여 의미자질을 "@meeting"으로 표현한다. 이러한 의미자질은 일종의 어휘변수의 역할을 하며, 상기 어휘변수에는 어휘엔트리가 치환가능하게 대입될 수 있다. 의미자질 사전의 구축이 끝나면 이를 활용하여 앞서 수집하고 분류한 샘플 데이터에 대한 LSP 지식을 구축한다(S104).
LSP 지식을 구축할 때는 의미자질뿐만 아니라 다양한 문법표현에 기반한 어절, 형태소, 음절, 사전, 변수 등의 표현과, 여러 연산자들을 사용할 수 있다. 전술한 것처럼 본 발명에 있어서 LSP들은 임의의 컨셉에 속해야 한다.
앞서 설명한 의미자질 사전을 구축하는 단계(S103)를 먼저 실행해 둠으로써, 하나의 대표 문형을 표현하는 LSP는 그 LSP를 구성하는 의미자질 및 엔트리의 조합만큼의 문장들을 인식할 수 있다.
도 7에 도시된 바와 같이, 본 발명의 일 실시예에 따른 LSP 구축 테이블(240)은 상기 S102 단계의 샘플 데이터 예문 (A), (B), (C)에 관련한 대표문형들의 LSP의 일부이다. LSP의 기본 구성은 어휘, 품사, 형태소를 포함한다. 아래의 표 1은 도 7에서 LSP를 표현하기 위하여 사용된 기호(연산자와 품사)의 의미를 설명한 것이다.
연산자 의미
| OR
= 값의 범주를 지정하는 연산자
/ 품사 표현
+ 좌/우변에 대한 형태소 결합을 표현
? 모든 표현에 대해 적용 혹은 미적용을 의미
모든 표현을 한 번 대치하거나 공집합을 의미
! 표현이나 단어의 본래 의미를 부정하는 표현
* 표현식을 반복
품사 N_: 체언(명사류를 포함)
J_: 조사
V_: 용언(동사, 형용사)
E_: 어미
MA: 부사
LSP 지식 구축부(20)는 앞에서 구축된 LSP 지식을 문형에 따라 분류한다(S105). 이와 같이 LSP 지식을 문형에 따라 분류함으로써 추후 번역대상인 원시문장의 LSP를 검출할 때 상기 문형을 이용함으로써 검출이 용이하여 전체적인 번역프로세스 속도를 높일 수 있다. 본 실시예에서 LSP를 분류하는 문형은 평서문, 의문문, 명령문, 청유문 및 감탄문을 포함한다.
이어서 LSP 지식 구축부(20)는 각 한국어 LSP에 대응하는 목적언어패턴을 매핑한다(S106). 목적언어패턴은 목적언어로 이루어진 LSP 형태의 문장을 의미한다. 즉, 목적언어패턴은 표 1의 다수의 연산자와 목적언어(예를 들어, 영어)를 사용하여 LSP 문장 형태로 표현될 수 있는데, 상기 연산자를 모두 사용할 경우 추후 번역되어 출력가능한 문장의 개수가 지나치게 증가할 수 있기 때문에 필수적으로 사용되거나 사용빈도가 높은 기본적인 연산자만을 사용하는 것이 바람직하다. 예를 들어, 목적언어패턴은 물음표, 괄호, 변수연산자(@), 품사연산자(/)만으로 표현될 수 있다. 또한 한국어 LSP가 이미 S105 단계에 의해서 문형에 따라 분류되어 있기 때문에, 목적언어패턴도 동일하게 문형에 따라 분류된다.
이와 같이 한국어에 대한 LSP 지식을 구축하고 각 LSP에 대하여 목적언어패턴을 매핑하고 나면 한국어를 목적언어로 번역하기 위한 기본적인 지식 구축 프로세스가 완료된다. 이하에서는 한국어로 된 원시문장이 입력되면 이를 목적언어로 번역하는 과정을 자세히 설명한다.
도 2를 참조하면, 번역하고자 하는 원시언어로 이루어진 원시문장이 입력부(10)를 통하여 입력되면, LSP 검출부(30)는 원시문장의 형태소를 분석한다(S110). 본 실시예에서는 원시언어로 한국어를 예로 들어 설명한다.
원시문장은 단문뿐만 아니라 중문, 복문 등 여러 문장이 결합된 형태로 나타나므로, 복합된 형태의 원시문장을 자연스럽게 번역하기 위하여 형태소 분석이 매우 중요하다. 형태소는 의미를 가지고 있는 문법 요소 중 가장 작은 단위를 말한다. 문장이란 생각이나 감정을 말로 표현할 때 완결된 내용을 나타내는 최소 단위로서, 주어와 서술어를 가지는 것이 원칙이나 때로는 이들이 생략될 수도 있다. 경우에 따라 문장은 구(句) 또는 절(節)을 포함할 수 있는데, 구는 두 개 이상의 어절이 모여서 하나의 문장 성분을 이루는 단위로서 주어와 서술어 관계가 없는 덩어리를 말하며, 명사구, 동사구, 형용사구, 관형사구, 부사구가 있다. 절은 주어와 서술어를 가지고 있지만 독립적으로 사용되지 못하는 단위를 말하며, 명사절, 서술절, 관형절, 부사절, 인용절 등이 있다.
아래의 예문 1을 예로 들어 형태소를 분석하는 방법에 대하여 자세히 설명한다.
예문 1
새하얀 첫 눈이 펑펑 내린다고 그에게 전해 주시겠어요?
예문 1의 문장에서 "새하얀 첫 눈"은 명사구이고 "펑펑 내린다"는 동사구이고, "새하얀 첫 눈이 펑펑 내린다고"는 인용절에 해당하며, 전체 문장의 문형은 의문문에 해당한다. LSP 검출부(30)가 예문 1의 형태소를 분석하면 아래 예문 2의 결과가 나오게 된다.
예문 2
새하얗/VA+ㄴ/ETM 첫/MM 눈/NNG+이/J_ 펑펑/MA 내리/VV+ㄴ다고/EM 그/NP+에게/J_ 전하/VV+어/EM 주/VX+시겠/EP+어요/EM ?/SC
이어서 LSP 검출부(30)는 형태소 단위로 분리된 원시문장의 문형을 분석한다(S120). 상기 문형은 평서문, 의문문, 명령문, 청유문 및 감탄문을 포함한다. 본 실시예에서는 형태소 분석을 통하여 구와 절을 분리하여 문장의 길이를 최소화함으로써 번역 과정에서 그 의미가 혼동되지 않도록 한다. 이하 도 8을 참조하여 원시문장의 문형분석 방법에 대하여 자세히 설명한다. 도 8은 도 2의 원시문장의 문형을 분석하는 단계를 구체적으로 나타낸 순서도이다.
우선 원시문장이 구절을 포함하고 있는지 분석한다(S121). 원시문장에 포함된 서술어를 중심으로 해당 문장 내에 구나 절이 포함되어 있는지 알 수 있으며, 특히 /VV 태그 뒤에 문장의 종결어미가 오는지 여부에 따라 문장을 분리할 수 있다. 만약 원시문장이 구 또는 절을 포함하는 경우 구 또는 절을 분리하여 제외한 나머지 부분을 문형판단의 기준으로 삼는다(S122).
이와 같이 구절이 제외된 문장에 대하여 종결 어미 뒤에 마침표, 물음표, 느낌표 등의 문장부호가 있는 경우, LSP 검출부(30)는 문장부호의 유형에 따라 원시문장의 문형을 예비분류한다(S124). 예를 들어, 문장부호가 물음표인 경우, 문형은 의문문으로 1차적으로 분류된다. 문장부호가 느낌표인 경우, 문형은 명령문 또는 감탄문으로 1차적으로 분류된다.
이어서, LSP 검출부(30)는 원시문장의 종결어미를 기준으로 문형을 분류한다(S125). 아래 표 2는 종결어미 및 문장부호에 따라 분류된 문형의 종류를 나타낸 것이다. 표 2에 나열된 어미들은 번역 대상에 따라 추가 또는 제거될 수 있다.
문형 종결어미 (격식체) 종결어미 (비격식체) 문장부호
평서문 [-(는/ㄴ)다 | -네 | -오 | -(ㅂ니)다] [-어 | -어요] [.]
의문문 [-(느)냐 | -(느)ㄴ가 | -오 | -(ㅂ니)까] [-어 | -어요 | -나요] [?]
명령문 [-어라 | -게 | -오 | -(ㅂ)시오] [-어 | -어요] [. | !]
청유문 [-자 | -세 | -(ㅂ)시다 | -시지요] [-어 | -어요] [.]
감탄문 [-(는)구나 | -(는)구먼 | -(는)구려] [-어 | -어요] [!]
이와 같이 예비적으로 문장부호를 기준으로 문형을 분류하고 이어서 종결어미를 이용하여 문형을 재분류함으로써 좀 더 정확하게 문형을 정의할 수 있다. 또한 본 발명은 종결어미로 문형을 분류함과 동시에 격식체 또는 비격식체 인지를 파악함으로써 번역의 완성도를 더욱 높일 수 있다.
예를 들어, 아래 예문 3은 비격식체 의문문을 형태소 분석한 것이다.
예문 3
(원시문장) 후추 좀 건네 줄래?
(형태소 분석) 후추/NNG 좀/MA 건네/VV+어/EM 주/VX+ㄹ래/EM ?/SC
아래 예문 4는 격식체 의문문을 형태소 분석한 것이다.
예문 4
(원시문장) 후추 좀 건네 주실래요?
(형태소 분석) 후추/NNG 좀/MA 건네/VV+어/EM 주/VX+시/EP+ㄹ래요/EM ?/SC
예문 3 및 4에 나타난 바와 같이, 형태소 분석을 통하여 격식체인지, 비격식체인지를 파악하여 추후 번역과정에 반영함으로써 원시문장의 원래 의미에 가까운 번역문을 제공할 수 있다. 예를 들어, 후속 번역과정을 거치게 되면 예문 3은 "Can you pass me the pepper?"로 번역되고 예문 4는 "Could you pass me the pepper, please?"로 번역되는데, 원시언어가 격식체인 경우 번역의 완성도를 높이기 위해 "could", "please" 등이 사용되거나 추가될 수 있다.
이어서, LSP 검출부(30)는 상기 문형 및 격식체/비격식체를 기준으로 LSP 지식으로부터 원시문장에 매칭하는 LSP를 검출한다(S130). 예문 4를 LSP로 표현하면 아래 예문 5와 같다.
예문 5
(/NN_) (/MA)*2? @주다+*3+(시/EP|시겠/EP)+(/EM) ?/SC
목적언어패턴 추출부(40)는 원시문장의 LSP에 매핑된 목적언어패턴을 획득한다(S140). 본 실시예에서는 목적언어패턴으로서 LSP 형태의 영어 문장을 예로 들어 설명하며, 아래 예문 6은 예문 5에 매핑된 목적언어패턴이다.
예문 6
(Would|Could) you @give @whom (articles)? (/NN_) (,/SC)?+(please)? ?
한국어 LSP에 의해 목적언어패턴의 문형이 이미 정해지기 때문에 번역의 오류가 생길 우려가 적다.
이어서, 어휘후보군 조사부(50)는 목적언어패턴 내에 변수연산자 "@"로 정의된 어휘변수에 대하여 어휘 데이터 베이스로부터 치환가능한 어휘후보군을 획득한다(S150). 구체적으로 상기 어휘후보군은 동사, 명사, 형용사, 부사 등의 품사별로, 내부에 저장된 DB(80) 또는 외부 데이터 베이스, 예를 들어 WordNet이나 Thesaurus 등에서 획득할 수 있다. 어휘후보군 조사부(50)는 어휘 데이터 베이스에서 사용할 지식 정보의 양을 조절함으로써 번역의 완성도를 함께 높일 수 있다. 예를 들어, 예문 6에서 "@give"에 대한 어휘후보군은 give, pass, grant, donate, deliver, provide 등을 포함할 수 있다.
이어서, 어휘선택부(60)는 상기 어휘후보군에서 목적언어패턴의 컨텍스트에 가장 적합한 어휘를 선택한다(S160). 이 때 자연언어 처리를 위한 기계학습법이 이용될 수 있으며, 목적언어패턴에서 관사를 제외한 어휘변수 주변에 위치한 어휘들을 참조하여 통계적으로 가장 적합한 어휘를 선택하여 번역문을 완성한다(S170). 이와 같은 방법으로 예문 6을 영어로 번역하게 되면 다음의 예문 7과 같은 번역문이 완성된다.
예문 7
Would you pass me the pepper, please?
이상에서 설명한 각 블록은 특정된 논리적 기능(들)을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또한 몇 가지 대체 실행 예들에서는 블록들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대 잇달아 도시되어 있는 두 개의 블록들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.
참고로, 본 발명의 바람직한 여러 가지 실시예에 따른 LSP 사전 구축 및 한국어의 기계번역방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독가능매체에 기록될 수 있다. 상기 컴퓨터 판독가능매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용가능한 것일 수도 있다. 컴퓨터 판독가능매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체, 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함될 수 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급언어코드를 포함한다. 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상 첨부된 도면을 참조하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.
10: 입력부 20: LSP 지식 구축부
30: LSP 검출부 40: 목적언어패턴 추출부
50: 어휘후보군 조사부 60: 어휘선택부
70: 출력부 80: DB
100: 한국어 번역장치 200: 컨셉 생성화면
210: 의미자질 사전 테이블 220: 의미자질
230: 엔트리 테이블 240: LSP 구축 테이블

Claims (6)

  1. 어휘의미패턴(LSP)을 이용하여 원시문장을 목적언어로 기계번역하는 방법에 있어서, 한국어 번역장치가:
    (a) 형태소 분석을 통하여 한국어 샘플 데이터로부터 한국어 문장을 한국어 LSP로 패턴화하여 한국어 LSP 지식을 사전에 구축하고, 목적언어 문장을 패턴화하여 LSP로 표현한 목적언어 LSP(이를 '목적언어패턴'이라 함)를 정의하고, 상기 한국어 LSP와 이에 대응하는 상기 목적언어패턴을 매핑하는 단계;
    (b) 상기 원시문장의 형태소를 분석하여 상기 원시문장에 매칭하는 한국어 LSP를 검출하는 단계;
    (c) 상기 검출된 한국어 LSP에 매핑된 상기 목적언어패턴을 획득하는 단계; 및
    (d) 상기 목적언어패턴 내의 어휘변수에 대응되는 어휘를 선택하는 단계를 포함하는 어휘의미패턴을 이용한 한국어의 기계번역방법.
  2. 제1항에 있어서,
    상기 (a) 단계는 상기 한국어 LSP를 문형에 따라 분류하여 구축하는 것을 특징으로 하고,
    상기 (b) 단계는 상기 원시문장의 문형을 기반으로 상기 한국어 LSP를 검출하는 것을 특징으로 하는 어휘의미패턴을 이용한 한국어의 기계번역방법.
  3. 제2항에 있어서, 상기 (b) 단계에서 상기 원시문장이 구 또는 절을 포함하는 경우,
    상기 구 또는 절을 분리하여 제외한 후에 상기 원시문장의 문형을 분류하는 것을 특징으로 하는 어휘의미패턴을 이용한 한국어의 기계번역방법.
  4. 제2항에 있어서,
    상기 원시문장의 문형은 상기 원시문장의 종결어미를 기준으로 분류되는 어휘의미패턴을 이용한 한국어의 기계번역방법.
  5. 제4항에 있어서,
    상기 종결어미 뒤에 문장부호가 있는 경우, 상기 문장부호에 따라 문형을 예비 분류하는 단계를 더 포함하는 어휘의미패턴을 이용한 한국어의 기계번역방법.
  6. 제1항에 있어서, 상기 (d) 단계는,
    어휘 데이터 베이스로부터 상기 어휘변수에 대한 어휘후보군을 획득하는 단계; 및
    상기 어휘후보군 중 통계적으로 상기 목적언어패턴의 컨텍스트에 적합한 어휘를 선택하는 단계를 포함하는 어휘의미패턴을 이용한 한국어의 기계번역방법.

KR1020160007468A 2016-01-21 2016-01-21 어휘의미패턴을 이용한 한국어의 기계번역방법 KR101755437B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160007468A KR101755437B1 (ko) 2016-01-21 2016-01-21 어휘의미패턴을 이용한 한국어의 기계번역방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160007468A KR101755437B1 (ko) 2016-01-21 2016-01-21 어휘의미패턴을 이용한 한국어의 기계번역방법

Publications (1)

Publication Number Publication Date
KR101755437B1 true KR101755437B1 (ko) 2017-07-12

Family

ID=59352895

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160007468A KR101755437B1 (ko) 2016-01-21 2016-01-21 어휘의미패턴을 이용한 한국어의 기계번역방법

Country Status (1)

Country Link
KR (1) KR101755437B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220087704A (ko) * 2020-12-18 2022-06-27 주식회사 와이즈넛 언어 자원을 이용한 텍스트 문장의 패턴인식 방법
WO2023013826A1 (ko) * 2021-08-02 2023-02-09 주식회사 닥터송 기본 문형 단위 분해에 기반한 외국어 구문 학습 시스템

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220087704A (ko) * 2020-12-18 2022-06-27 주식회사 와이즈넛 언어 자원을 이용한 텍스트 문장의 패턴인식 방법
KR102445748B1 (ko) 2020-12-18 2022-09-21 주식회사 와이즈넛 언어 자원을 이용한 텍스트 문장의 패턴인식 방법
WO2023013826A1 (ko) * 2021-08-02 2023-02-09 주식회사 닥터송 기본 문형 단위 분해에 기반한 외국어 구문 학습 시스템

Similar Documents

Publication Publication Date Title
JP6643555B2 (ja) 曖昧なエンティティワードに基づくテキスト処理方法及び装置
US9710458B2 (en) System for natural language understanding
US9824083B2 (en) System for natural language understanding
US6760695B1 (en) Automated natural language processing
US9098489B2 (en) Method and system for semantic searching
RU2592395C2 (ru) Разрешение семантической неоднозначности при помощи статистического анализа
RU2579699C2 (ru) Разрешение семантической неоднозначности при помощи не зависящей от языка семантической структуры
KR100530154B1 (ko) 변환방식 기계번역시스템에서 사용되는 변환사전을생성하는 방법 및 장치
JPS62163173A (ja) 機械翻訳方法
KR20160060253A (ko) 자연어 질의 응답 시스템 및 방법
JP2013502643A (ja) 構造化データ翻訳装置、システム及び方法
JP2006012168A (ja) 翻訳メモリシステムにおいてカバレージおよび質を改良する方法
KR101818598B1 (ko) 자동 번역 엔진 서버 및 자동 번역 방법
KR20140021838A (ko) 문법 오류 검출 방법 및 이를 위한 오류검출장치
US10503769B2 (en) System for natural language understanding
JP2006164293A (ja) 自動自然言語翻訳
RU2579873C2 (ru) Разрешение семантической неоднозначности при помощи семантического классификатора
JP2004513458A (ja) ユーザが変更可能な翻訳のウエイト
KR20040086775A (ko) 단어 분석 시스템 및 방법
KR101755437B1 (ko) 어휘의미패턴을 이용한 한국어의 기계번역방법
KR102108129B1 (ko) 텍스트 이모티콘 의미 해석 장치, 이를 위한 기록매체
CN112380877A (zh) 一种用于篇章级英译中机器翻译测试集的构建方法
Sankaravelayuthan et al. A Comprehensive Study of Shallow Parsing and Machine Translation in Malaylam
KR20040018008A (ko) 품사 태깅 장치 및 태깅 방법
Tohma et al. Challenges Encountered in Turkish Natural Language Processing Studies

Legal Events

Date Code Title Description
GRNT Written decision to grant