KR20140059877A - 병렬 말뭉치를 이용한 중국어 단어분리 성능 향상 방법 및 장치 - Google Patents

병렬 말뭉치를 이용한 중국어 단어분리 성능 향상 방법 및 장치 Download PDF

Info

Publication number
KR20140059877A
KR20140059877A KR1020120125764A KR20120125764A KR20140059877A KR 20140059877 A KR20140059877 A KR 20140059877A KR 1020120125764 A KR1020120125764 A KR 1020120125764A KR 20120125764 A KR20120125764 A KR 20120125764A KR 20140059877 A KR20140059877 A KR 20140059877A
Authority
KR
South Korea
Prior art keywords
word
chinese
character string
words
combination
Prior art date
Application number
KR1020120125764A
Other languages
English (en)
Other versions
KR101757237B1 (ko
Inventor
김운
김창현
양성일
황금하
신종훈
나승훈
권오욱
노윤형
이기영
최승권
박은진
정상근
서영애
김영길
박상규
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020120125764A priority Critical patent/KR101757237B1/ko
Publication of KR20140059877A publication Critical patent/KR20140059877A/ko
Application granted granted Critical
Publication of KR101757237B1 publication Critical patent/KR101757237B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/226Validation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 중국어 단어분리 성능 향상 방법 및 그 장치에 관한 것으로써, 보다 구체적으로는 중국어 단어분리기에 자주 나타나는 미등록어 오류와 모호성 오류를 줄이기 위해 중국어의 단어 분리 오류를 단어의 경계가 명확한 병렬 말뭉치의 타언어, 예를 들어 영어나 한국어 문장으로부터 그 단어의 정확한 경계를 자동 인식하여 처리함으로써 단어분리 성능을 개선하고자 하는 방법 및 장치에 관한 것이다. 본 발명에 의하여, 중국어 문장의 단어분리 시에 처리하기 힘든 미등록어 오류와 모호성 오류에 대하여 병렬 말뭉치를 통해 지속적으로 추출하고 정정된 단어분리 정보를 저장함으로써, 대량의 인력, 시간을 소모하여 단어분리 결과에서 오류를 확인하는 한계를 극복할 수 있다.

Description

병렬 말뭉치를 이용한 중국어 단어분리 성능 향상 방법 및 장치 {Apparatus and Method for Chinese Word Segmentation Performance Improvement using Parallel Corpus}
본 발명은 중국어 단어분리 성능 향상 방법 및 장치에 관한 것으로써, 보다 구체적으로는 병렬 말뭉치를 이용하여 중국어 단어분리기에서 자주 나타나는 미등록어 식별오류와 단어분리 모호성 오류를 줄이기 위한 단어분리 성능 향상 방법 및 장치에 관한 것이다.
중국어는 영어나 한국어와 달리 문장 중 단어의 경계를 나타내는 띄어쓰기를 하지 않기 때문에 중국어 단어분리기는 중국어 자연어처리에서 가장 먼저 수행해야 하는 처리 단계이다. 따라서, 단어분리 성능은 불가피하게 중국어 정보검색, 질의응답, 정보추출, 자동번역 등과 같은 중국어 자연어 처리 응용 시스템의 성능에 영향을 준다.
중국어 단어분리 기법의 종래의 기술은 크게 다음과 같다.
n-gram 기반 방법은 인접한 n개의 글자들로 구성된 문자열로 분할한다. 일반적으로 주로 사용하는 n-gram은 unigram, bigram, trigram이 있다. Unigram은 하나의 문자들을 단어로 추출하고, bigram은 연속된 두 개의 문자를 하나의 단어로 추출한다. Trigram은 연속된 세 개의 문자를 하나의 단어로 추출하는 방법으로서, i번째 단어의 두 번째 문자와 세 번째 문자는 (i+1)번째 단어의 첫 번째 문자와 두 번째 문자가 된다. 중국어에서는 두 개의 문자로 구성된 단어가 75%를 차지하므로 상기 세가지 방법 중에서는 bigram 방법이 가장 효과적으로 알려져 있다. n-gram 기반 방법은 다른 방법과는 달리 사전이나 통계 정보 추출을 위한 문서 집합, 예를 들어 병렬 말뭉치를 요구하지 않으므로 사전 구축이나 통계 정보 추출을 위한 작업이 불필요하다.
다음, 사전 기반 방법을 들 수 있다. 최장 및 최단 일치법과 같은 간단한 휴리스틱을 사용하는 방법과 문법과 같은 복잡한 언어 지식을 사용하는 방법들이 이에 속한다. 일반적으로 복잡한 언어 지식을 사용할수록 보다 정확한 분할 결과를 얻을 수 있으며, 사전에 대한 지속적인 관리가 필요하다는 단점을 지니고 있다. 최장일치법은 입력 문자열의 일부가 사전에 포함된 단어와 일치하면 상기 단어를 입력 문자열로부터 분할한다. 이때 둘 이상의 단어가 일치될 수 있으며, 최장 일치법은 가장 긴 단어를 입력 문자열로부터 분할한다. 한편, 입력 문자열의 분할을 진행하는 방향으로 두 가지 방향, 즉 순방향과 역방향을 사용할 수 있다.
다음, 상호 정보 기반 방법이 있다. 두 개의 문자에 대한 상호 정보 계수는 두 개 문자 사이의 관련 정도를 나타낸다. 즉, 상호 정보 계수는 두개의 문자가 인접해서 사용될 가능성이 높을수록 큰 값을 갖는다. 가장 큰 상호정보 계수를 갖는 bigram부터 문자열로부터 분리하여 단어를 완성한다.
또한, 단어 확률 기반 색인 방법은 단어 분할에 선행하여 문자열과 단어열 쌍들로 구성된 훈련 집합을 이용하여 단어 확률 사전을 구축한다. 즉, 훈련 집합은 문자열과 이 문자열에 대한 단어열로 구성되며, 일반적으로 이러한 단어열은 사람이 문자열을 분할함으로써 생성된다. 상기 방법은 문자열을 분할하기 위해 문자열을 구성하는 모든 단어들에 대한 단어 확률을 요구하며, 일반적으로 단어 확률 사전에 포함되는 단어들은 사람에 의해 생성된 훈련집합으로부터 생성된다. 그러나 많은 경우에 훈련 집합에 포함되지 않은 단어들이 문자열에 존재할 수 있으며, 이러한 문제점을 보완하기 위해 임의의 단어들을 단어 확률 사전에 등록시키고, 이 단어들에 대한 단어 확률로서 사람에 의해 지정된 일정한 값이 사용된다.
다음으로 상기의 방법을 결합하는 하이브리드 방법이다. 하지만, 대부분의 하이브리드방법처럼 이 방법 역시 어느 한 방법의 성능의 한계 제약을 받으며, 한가지 방법에 의한 성능을 획기적으로 초과할 수 없는 단점을 갖는다.
이상의 종래의 기술들은 대부분의 중국어 단어분리 기법들은 중국어의 미등록어 인식과 모호성이 있는 문자열을 처리하는데 어려움을 겪고 있다.
첫째로, 중국어 미등록어 인식문제는 일부 전문적인 기술용어와 신조어의 존재 및 중국어 고유명사가 미등록 상태로 인식되지 못하는 경우이다.
두번째로, 단어분리 모호성 문제는 다음과 같은 두 가지 중 하나로 분류된다.
오버랩 모호성(Overlapping Ambiguity)은 한 중국어 문자열이 분리 가능한 경우가 서로 겹치는 경우를 말한다. 예를 들면, ABC 라는 문자열이 있을 때, AB, C와 A, BC로 분리 가능한 경우를 말한다. 또한 결합 모호성(Combination Ambiguity)은 한 중국어 문자열의 분리 가능한 경우가 분리 또는 조합되는 경우를 말한다. 예를 들면, AB라는 문자열이 있을 때, A,B 와 AB로 분리 가능한 경우를 말한다.
중국어 단어분리기에서 미등록어 인식 문제에 대한 종래의 기술로써 해결방법은 고유명사와 같은 단어를 수집하여 고빈도 단어는 단어사전에 저장하는 방법으로 해결해왔다. 확률과 통계기반 방법 역시 이런 고유명사 단어사전을 자질로 사용하여 반복하여 학습하는 방법을 사용해왔다. 또한, 전문용어와 신조어는 대량의 말뭉치에서 자동 추출하여 고빈도 단어를 사람에 의해 신조어 여부를 확인하여 단어사전에 업데이트하는 방법으로 해결해 왔다.
그리고, 중국어 단어분리기에서 단어분리 모호성 문제를 해결하는 종래의 방법으로 사람이 단어분리 결과를 분석하여 정확하게 단어 분리된 결과를 테이블에 반영하거나, 미리 분리한 단어분리 모호성 문자열을 학습함으로써 해결하는 방법을 사용하였다.
하지만, 상기 미등록어와 단어분리 모호성에 대한 종래의 해결방법은 일부 대표적이고, 제한적인 도메인이나 또는 문자열에 대해 처리하는데 그쳤으며, 많은 사람의 개입과 시간 노력이 필요하다.
상기 기술적 과제를 해결하기 위해 본 발명인 중국어 단어분리 성능 향상 장치에 있어서, 적어도 하나의 단어를 포함하는 중국어 단어 조합을 입력 받고, 상기 입력된 중국어 단어 조합을 기 설정된 제1기준에 따라 단어 단위로 분리한 중국어 문자열을 획득하는 중국어 단어 분리부; 상기 중국어 단어 조합에 대응하는 번역문인 타언어 단어 조합을 이용하여, 상기 입력된 타언어 단어 조합에 포함된 각 단어의 형태소 정보를 획득하는 형태소 분석부; 상기 타언어 단어 조합에 포함된 각 단어의 형태소 정보를 이용하여, 상기 단어 단위로 분리된 중국어 문자열에 포함된 오류 정보를 탐지하는 오류 탐지부; 상기 오류 정보를 고려하여 상기 중국어 문자열을 정정하는 정정부; 및 상기 오류 정보 및 정정된 중국어 문자열을 이용하여 상기 제1기준을 갱신하는 개선부를 포함하는 병렬말뭉치를 이용한 중국어 단어분리 성능 향상 장치을 제공한다.
또한, 상기 오류탐지부는 상기 단어 단위로 분리된 중국어 문자열에서 연속된 한 글자 단어로 분리된 문자열에 대응하는 타언어의 단어 조합이 하나의 단어인 경우에, 상기 연속된 한 글자 단어로 분리된 문자열 및 상기 문자열에 대응하는 타언어 단어 조합을 상기 오류정보로 탐지하는 것을 특징으로 하는 병렬말뭉치를 이용한 중국어 단어분리 성능 향상 장치을 제공한다.
또한, 상기 오류탐지부는 중국어 순차 및 역차 최장일치 기법을 이용하여 상기 단어 단위로 분리된 중국어 문자열을 다시 단어 분리 수행하여 상기 순차 및 역차 최장일치 기법에 따른 각각의 단어단위로 분리된 중국어 문자열을 얻고 상기 각각의 문자열을 비교하여 서로 다른 문자열이 존재하는 경우에, 상기 서로 다른 중국어 문자열 및 상기 문자열에 대응하는 타언어 단어조합을 상기 오류 정보로 탐지하는 것을 특징으로 하는 병렬말뭉치를 이용한 중국어 단어분리 성능 향상 장치을 제공한다.
또한, 상기 오류탐지부는 상기 단어 단위로 분리된 중국어 문자열에 고빈도 기능어가 포함되는 경우에, 상기 고빈도 기능어가 포함된 중국어 문자열 및 상기 문자열에 대응하는 타언어 단어 조합을 상기 오류 정보로 탐지하는 것을 특징으로 하는 병렬말뭉치를 이용한 중국어 단어분리 성능 향상 장치을 제공한다.
또한, 상기 정정부는 상기 연속된 한 글자 단어로 분리된 문자열과 상기 문자열에 대응하는 타언어 단어 조합의 음역 유사성 비교 혹은 웹 검색을 통해 상기 연속된 한 글자 단어로 분리된 중국어 문자열을 정정하는 것을 특징으로 하는 병렬말뭉치를 이용한 중국어 단어분리 성능 향상 장치을 제공한다.
또한, 상기 정정부는 상기 오류정보의 상기 중국어 문자열에 대응하는 타언어 단어조합이 상기 타언어 번역문에 등장하는 빈도를 고려하여 상기 중국어 문자열을 정정하는 것을 특징으로 하는 병렬말뭉치를 이용한 중국어 단어분리 성능 향상 장치을 제공한다.
상기 기술적 과제를 해결하기 위하여 본 발명인 중국어 단어분리 성능 향상 방법에 있어서 적어도 하나의 단어를 포함하는 중국어 단어 조합을 입력 받고, 상기 입력된 중국어 단어 조합을 기 설정된 제1기준에 따라 단어 단위로 분리한 중국어 문자열을 획득하는 단계; 상기 중국어 단어 조합에 대응하는 번역문인 타언어 단어 조합을 이용하여, 상기 입력된 타언어 단어 조합에 포함된 각 단어의 형태소 정보를 획득하는 단계; 상기 타언어 단어 조합에 포함된 각 단어의 형태소 정보를 이용하여, 상기 단어 단위로 분리된 중국어 문자열의 오류 정보를 탐지하는 단계; 상기 오류 정보를 고려하여 상기 중국어 문자열을 정정하는 단계; 및 상기 오류 정보 및 정정된 중국어 문자열을 이용하여 상기 제1기준을 갱신하는 단계를 포함하는 병렬말뭉치를 이용한 중국어 단어분리 성능 향상 방법을 제공한다.
또한, 상기 오류 정보를 탐지하는 단계는 상기 단어 단위로 분리된 중국어 문자열에서 연속된 한 글자 단어로 분리된 문자열에 대응하는 타언어의 단어 조합이 하나의 단어인 경우에, 상기 연속된 한 글자 단어로 분리된 문자열 및 상기 문자열에 대응하는 타언어 단어 조합을 상기 오류정보로 탐지하는 것을 특징으로 하는 병렬말뭉치를 이용한 중국어 단어분리 성능 향상 방법을 제공한다.
또한, 상기 오류 정보를 탐지하는 단계는 중국어 순차 및 역차 최장일치 기법을 이용하여 상기 단어 단위로 분리된 중국어 문자열을 다시 단어 분리 수행하여 상기 순차 및 역차 최장일치 기법에 따른 각각의 단어단위로 분리된 중국어 문자열을 얻고 상기 각각의 문자열을 비교하여 서로 다른 문자열이 존재하는 경우에, 상기 서로 다른 중국어 문자열 및 상기 문자열에 대응하는 타언어 단어조합을 상기 오류 정보로 탐지하는 것을 특징으로 하는 병렬말뭉치를 이용한 중국어 단어분리 성능 향상 방법을 제공한다.
또한, 상기 오류 정보를 탐지하는 단계는 상기 단어 단위로 분리된 중국어 문자열에 고빈도 기능어가 포함되는 경우에, 상기 고빈도 기능어가 포함된 중국어 문자열 및 상기 문자열에 대응하는 타언어 단어 조합을 상기 오류 정보로 탐지하는 것을 특징으로 하는 병렬말뭉치를 이용한 중국어 단어분리 성능 향상 방법을 제공한다.
또한, 상기 중국어 문자열을 정정하는 단계는 상기 연속된 한 글자 단어로 분리된 문자열과 상기 문자열에 대응하는 타언어 단어 조합의 음역 유사성 비교 혹은 웹 검색을 통해 상기 연속된 한 글자 단어로 분리된 중국어 문자열을 정정하는 것을 특징으로 하는 병렬말뭉치를 이용한 중국어 단어분리 성능 향상 방법을 제공한다.
또한, 상기 중국어 문자열을 정정하는 단계는 상기 오류정보의 상기 중국어 문자열에 대응하는 타언어 단어조합이 상기 타언어 번역문에 등장하는 빈도를 고려하여 상기 중국어 문자열을 정정하는 것을 특징으로 하는 병렬말뭉치를 이용한 중국어 단어분리 성능 향상 방법을 제공한다.
본 발명에 따른 병렬 말뭉치를 이용한 중국어 문장 단어 분리 성능 향상 방법 및 장치, 이를 포함하는 중국어 단어분리 오류 자동 추출, 정확한 단어분리 마이닝 및 이를 적용하여 단어분리 성능을 개선하는 방법 및 장치에 따르면, 영어와 한국어와 달리 단어 간의 띄어쓰기를 하지 않아 단어의 경계가 모호한 중국어 단어분리에서 단어의 경계가 명확한 타언어의 도움을 받아 중국어 단어 분리 오류를 추출하고 정확한 단어의 경계를 추정함으로써 자동으로 중국어 단어분리 오류를 정확히 추정하여 추출할 수 있다. 또한, 중국어 문장에서 단어분리에서 처리하기 힘든 미등록어 오류와 단어분리 모호성 오류를 병렬 말뭉치를 통해 지속적으로 추출하고 정확한 단어분리 결과를 저장함으로써, 대량의 인력, 시간을 소모하면서 단어분리 결과에서 오류를 확인하여 추출하는 종래의 기술적 한계를 극복할 수 있다.
도 1은 본 발명의 일 실시예에 따른 병렬 말뭉치를 이용한 중국어 단어분리 성능 향상 장치의 블록도이다.
도 2은 본 발명의 일 실시예에 따른 병렬 말뭉치를 이용한 중국어 단어분리 성능 향상 방법의 흐름도이다.
이하에서는 도면을 참조하여 본 발명의 바람직한 실시예들을 상세히 설명한다.
이하 설명 및 첨부된 도면들에서 실질적으로 동일한 구성요소들은 각각 동일한 부호들로 나타냄으로써 중복 설명은 생략하기로 한다. 또한 본 발명을 설명함에 있어 관련된 공지기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그에 대한 상세한 설명은 생략하기로 한다.
본 발명은 병렬 말뭉치를 이용한 중국어 단어분리 성능 향상 장치 및 방법에 관한 것으로, 도 1, 도 2를 참조하여 이하에서 기술된다. 그렇지만, 당업자라면, 본 발명이 이들 제한 된 실시예를 넘어 확장되기 때문에, 이들 도면과 관련하여 본 명세서에 주어진 상세한 설명이 예시를 위한 것임을 용이하게 알 것이다.
2개 국어 이상의 번역된 문서를 모은 말뭉치를 병렬말뭉치(parallel corpus, 병렬 코퍼스)라 부른다. 병렬말뭉치는 문장 대 문장 혹은 문단 대 문단으로 구축되어 있다. 병렬말뭉치는 언어 간의 대조 분석, 번역 연구에 활용된다. 병렬 말뭉치를 구축할 때의 가장 큰 주의점은 되도록 직역한 것을 위주로 모으는 것이 좋으며, 원문과 번역문의 표시를 명확하게 해야 한다는 것이다.
병렬말뭉치는 2개국어 이상의 말뭉치를 뜻하나, 본 발명의 일 실시예로 2개 국어를 이용하는 경우를 설명한다. 상기 2개 국어 중에 하나의 언어는 반드시 중국어이어야 하고, 중국어에 대응하는 타언어는 단어의 경계가 명백한 영어 또는 한국어가 될 수 있다. 또한, 타언어로 그 외 다른 언어도 포함하는 것으로 이해되어야 하고, 한정하려는 의도가 아니다.
도 1은 본 발명의 일 실시예에 따른 병렬말뭉치를 이용한 중국어 단어분리 성능향상 장치의 블록도이다.
도 1의 중국어 단어분리 성능향상 장치(1)는 중국어 단어 분리부(10), 형태소 분석부(30), 오류 탐지부(50), 정정부(70) 및 개선부(90)를 포함한다.
상기 중국어 단어 분리부(10)는 상기 중국어 단어 조합을 입력받아, 제 1기준에 따라 단어 단위로 분리한 중국어 문자열을 획득한다. 상기 중국어 단어 조합은 문장 혹은 문단이 될 수 있다. 제 1기준에 해당하는 단어 분리 기법은 순방향 혹은 역방향 최장일치 기법 또는 CRF(Conditional Random Field)같은 통계적인 기법 등이 이용될 수 있다. 본 발명은 상기 단어 분리 기법에 한정되지 않고 임의의 중국어 단어분리 기법을 활용하여 중국어 단어 조합을 단어 단위로 분리할 수 있다. 상기 중국어 단어 분리부(10)는 상기 획득된 단어 단위로 분리된 중국어 문자열을 오류탐지부(50)로 전송한다.
상기 형태소 분석부(30)는 상기 중국어 단어 조합에 대응하는 번역문인 타언어 단어조합을 이용하여, 상기 입력된 타언어 단어조합에 포함된 각 단어의 형태소 정보를 획득한다. 예를 들어 영어문장에 대하여, 영어 단어의 형태소 태깅 정보를 획득한다. 형태소 태깅(Morpheme Tagging) 이란 문자열을 분석하여 자연언어 분석의 기본 단위인 형태소로 분해하여, 해당되는 정확한 문법 정보를 제시하는 것이다. 상기 형태소 분석부(30)가 획득한 형태소 정보를 오류탐지부(50)로 전송한다.
상기 오류탐지부(50)는 상기 번역문에 포함된 각 단어의 형태소 정보를 이용하여 상기 단어 단위로 분리된 중국어 문자열에 포함된 오류 정보를 탐지한다.
상기 중국어 단어분리부(10)가 어떤 단어분리 기법을 사용하여 단어를 분리하던지, 미등록어가 존재하는 경우에는 중국어 문자열을 한 글자씩 단어 분리하는 오류를 유발한다. 상기 오류탐지부(50)는 상기 단어 단위로 분리된 중국어 문자열에서 연속된 한 글자 단어로 분리된 문자열을 찾고, 상기 문자열에 대응되는 타언어의 단어 조합이 하나의 단어인 경우에, 상기 연속된 한 글자 단어로 분리된 문자열 및 상기 문자열에 대응하는 타언어 단어 조합을 상기 오류정보로 탐지한다. 상기 오류를 미등록어 오류라고 한다. 상기 오류탐지부(50)는 상기 연속된 한 글자 단어로 분리된 문자열의 앞쪽 혹은 뒤쪽에 위치한 공기단어(Co-occurrence)에 대응하는 타언어 단어를 대역어 사전(3)을 통하여 찾는 것으로 상기 연속된 한 글자 단어로 분리된 문자열에 대응되는 타언어의 단어 조합을 찾을 수 있다. 나아가, 상기 타언어 번역문의 형태소 정보에 따른 품사 정보, 중국어와 타언어의 음역 유사도를 활용하면 미등록어 중 고유명사에 의한 오류정보 탐지의 정확도를 높힐 수 있다.
또한, 상기 오류탐지부(50)는 중국어 순차 및 역차 최장일치 기법을 이용하여 상기 단어 단위로 분리된 중국어 문자열을 다시 단어 분리 수행하여 상기 순차 및 역차 최장일치 기법에 따른 각각의 단어단위로 분리된 중국어 문자열을 얻고 상기 각각의 문자열을 비교하여 서로 다른 문자열이 존재하는 경우에, 상기 서로 다른 중국어 문자열 및 상기 문자열에 대응하는 타언어 단어조합을 상기 오류 정보로 탐지한다. 예를 들어, 상기 오류 탐지부(50)가 중국어 문자열을 순차 최장일치 기법으로 1+2로 분리하고, 역차 최장일치 기법으로 2+1로 분리한다면 상기 문자열 및 이에 대응하는 타언어 단어조합을 상기 오류 정보로 탐지한다. 상기 오류를 오버랩 모호성(Overlapping Ambiguity) 오류라고 한다. 또한, 상기 오류탐지부(50)는 상기 단어 단위로 분리된 중국어 문자열에 고빈도 기능어가 포함되는 경우에, 상기 고빈도 기능어가 포함된 중국어 문자열 및 상기 문자열에 대응하는 타언어 단어 조합을 상기 오류 정보로 탐지한다. 상기 오류를 결합 모호성(Combination Ambiguity) 오류라 한다. 나아가, 모호성 오류에 의한 오류 정보 탐지의 정확도를 높이기 위해서, 대역어 사전을 참조하면서 대응되는 타언어의 단어 조합과 비교하고, 중국어 문자열의 공기 단어 정보를 활용한다면 상기 오류 탐지의 정확도를 높힐 수 있다. 예를 들어, 결합 모호성의 경우, 2+2 형태의 단어는 1+3 형태가 가능하며, 2글자 단어는 1+1 형태가 가능하므로 경우에 따른 대역어 사전의 대역어를 통해 오류 탐지의 정확도를 높힌다.
상기 오류탐지부(50)는 탐지한 오류 정보를 상기 정정부(70)로 전송한다.
상기 정정부(70)는 상기 오류 정보 속에 포함된 중국어 문자열과 대응되는 타언어의 단어조합으로부터 상기 중국어 문자열을 정정한다.
상기 오류 정보가 미등록어 오류에 의한 것이라면, 상기 오류 정보는 연속된 한 글자 단어로 분리된 중국어 문자열과 이에 대응하는 타언어의 단어 조합을 포함한다. 상기 정정부(70)는 미등록어가 고유명사라면 대부분 언어의 고유명사가 음역으로 매우 유사한 점을 이용하여, 상기 연속된 한 글자 단어로 분리된 문자열과 상기 문자열에 대응하는 타언어 단어 조합의 음역 유사성 비교를 통해 상기 중국어 문자열을 정정할 수 있다. 또한, 미등록어가 신조어 혹은 전문기술용어라면, 상기 대응하는 타언어 단어 조합 혹은 상기 중국어 문자열 일부를 질의어로 웹검색하거나, 타언어 단어를 중국어 사이트에서 검색하여 검색 결과 중 중국어 미등록어 오류로 추정되는 문자열과 겹치는 부분을 단어 분리의 경계로 하여 단어 분리 정보를 정정할 수 있다.
상기 오류 정보가 모호성 오류에 의한 것이라면, 상기 오류 정보는 중국어 문자열과 이에 대응되는 타언어 단어 조합을 포함한다. 상기 정정부(70)는 상기 오류정보의 상기 중국어 문자열에 대응하는 타언어 단어조합이 상기 타언어 번역문에 등장하는 빈도를 고려하여 상기 중국어 문자열을 정정한다. 모호성 오류는 대부분 일반 단어끼리 결합의 문제이므로, 중영 대역어 사전에 모두 존재하는 단어이다. 따라서, 모호성 오류로 인해 가능한 여러 가지 중국어 문자열의 단어 조합 중 그 대역어가 타언어 번역문에 나타나는 빈도가 높은 조합이 정확한 단어분리일 확률이 높다. 또한 조합 중 기능어를 제외한 단어의 대역어가 타언어 번역문에 전혀 나타나지 않으면 패널티를 부가할 수 있다. 예를 들어, 中將(중장, 군대 계급장)은 서로 분리되어야 바람직한 경우에, 中, 將은 모두 기능어 이므로 그 대역어가 나타날 확률은 적지만, 결합된 경우에 中將이라는 용어는 타언어 번역문에 전혀 나타나지 않으므로 패널티를 주어 상기 정정부(70)가 中, 將으로 정정하도록 한다.
또한, 상기 정정부(70)는 오류 정보에 포함된 중국어 문자열을 키워드로 하며, 정정된 중국어 문자열 및 상기 문자열이 전체 중국어 단어 조합에서 차지하는 빈도, 그 문자열의 공기단어(Co-occurrence Word) 정보를 단어분리 오류사전(5)에 저장한다.
상기 개선부(90)는 단어분리 오류사전(5)으로부터 상기 단어분리의 빈도 정보를 수신하여 중국어 단어 분리부(10)의 제 1기준을 갱신할 지 결정하고, 다음과 같이 갱신한다.
상기 개선부(90)는 상기 오류 정보가 고유명사로 유발된 미등록어 오류에 의한 것이라면 고유명사에 공기하는 단어를 이용하여 중국어 단어분리부(10)의 제1기준을 갱신한다. 예를 들어 중국어 인명의 경우, XXX 부장, 서기 YYY형태로 호칭어가 앞뒤로 공기하거나, XXX와 YYY 형태로 병렬구조를 가지게 된다. 또한, 지명은 에서와 같은 기능어가 공기하고, 지명+지명 형태로 나타나거나, 성, 현, 촌 등 지명어근과 결합하는 경우가 많다. 또한, 회사명은 XXX회사와 같은 회사 혹은 주식회사 등 단어와 공기한다. 따라서, 상기 개선부(90)는 상기 규칙을 중국어 단어분리부(10)의 제1기준에 추가한다. 상기 개선부(90)는 상기 오류 정보가 전문기술용어 및 신조어로 유발된 미등록어 오류에 의한 것이라면 상기 오류 정보가 발생하는 빈도에 따라 대역어사전(3)에 추가한다.
상기 개선부(90)는 모호성 오류에 의하여 상기 오류정보가 발생한 경우에, 상기 중국어 단어 조합의 단어 분리가 항상 같은 방식으로 분리되면 그 단어분리 문자열을 대역어사전(3)에 추가함으로써, 단어분리 시 한 단어로 취급되도록 한다. 만약 항상 일정하게 단어분리 되지 않으면서 공기 단어를 포함한 문자열의 규칙이 있다면, 상기 규칙을 중국어 단어분리부(10)에 추가한다. 만약 항상 일정하게 단어분리 되지 않으면서 상기 규칙도 발견할 수 없다면, 상기 단어분리 문자열을 공기단어와 함께 대역어사전(3)에 추가한다.
또한, 상기 개선부(90)는 대역어사전(3)에 추가하거나 중국어 단어분리부의 제1기준을 갱신하는 경우에, 단어분리 오류사전(5)에서 상기 오류 정보, 정정된 중국어 문자열, 빈도 및 공기단어 정보를 삭제한다.
도 2는 본 발명의 일 실시예에 따른 병렬말뭉치를 이용한 중국어 단어분리 성능향상 방법의 흐름도이다.
중국어 단어 분리부(10)는 상기 중국어 단어 조합을 입력받아, 제 1기준에 따라 단어 단위로 분리한 중국어 문자열을 획득한다.(S202) 제 1기준에 해당하는 단어 분리 기법은 순방향 혹은 역방향 최장일치 기법 또는 CRF(Conditional Random Field)같은 통계적인 기법 등이 이용될 수 있다.
형태소 분석부(30)는 상기 중국어 단어 조합에 대응하는 번역문인 타언어 단어 조합을 이용하여, 상기 입력된 타언어 단어조합에 포함된 각 단어의 형태소 정보를 획득한다. (S204)
오류탐지부(50)는 상기 번역문에 포함된 각 단어의 형태소 정보를 이용하여 상기 단어 단위로 분리된 중국어 문자열에 포함된 오류 정보를 탐지한다.(S206)
상기 오류탐지부(50)는 상기 단어 단위로 분리된 중국어 문자열에서 연속된 한 글자 단어로 분리된 문자열을 찾고, 상기 문자열에 대응되는 타언어의 단어 조합이 하나의 단어인 경우에, 상기 연속된 한 글자 단어로 분리된 문자열 및 상기 문자열에 대응하는 타언어 단어 조합을 상기 오류정보로 탐지한다. 상기 오류를 미등록어 오류라고 한다.
또한, 상기 오류탐지부(50)는 중국어 순차 및 역차 최장일치 기법을 이용하여 상기 단어 단위로 분리된 중국어 문자열을 다시 단어 분리 수행하여 상기 순차 및 역차 최장일치 기법에 따른 각각의 단어단위로 분리된 중국어 문자열을 얻고 상기 각각의 문자열을 비교하여 서로 다른 문자열이 존재하는 경우에, 상기 서로 다른 중국어 문자열 및 상기 문자열에 대응하는 타언어 단어조합을 상기 오류 정보로 탐지한다. 상기 오류를 오버랩 모호성(Overlapping Ambiguity) 오류라고 한다. 또한, 상기 오류탐지부(50)는 상기 단어 단위로 분리된 중국어 문자열에 고빈도 기능어가 포함되는 경우에, 상기 고빈도 기능어가 포함된 중국어 문자열 및 상기 문자열에 대응하는 타언어 단어 조합을 상기 오류 정보로 탐지한다. 상기 오류를 결합 모호성(Combination Ambiguity) 오류라 한다.
상기 정정부(70)는 상기 오류 정보 속에 포함된 중국어 문자열과 대응되는 타언어의 단어조합으로부터 상기 중국어 문자열을 정정한다.(S208)
상기 오류 정보가 미등록어 오류에 의한 것이라면, 상기 오류 정보는 연속된 한 글자 단어로 분리된 중국어 문자열과 이에 대응하는 타언어의 단어 조합을 포함한다. 상기 정정부(70)는 미등록어가 고유명사라면 대부분 언어의 고유명사가 음역으로 매우 유사한 점을 이용하여, 상기 연속된 한 글자 단어로 분리된 문자열과 상기 문자열에 대응하는 타언어 단어 조합의 음역 유사성 비교를 통해 상기 중국어 문자열을 정정할 수 있다. 또한, 미등록어가 신조어 혹은 전문기술용어라면, 상기 대응하는 타언어 단어 조합 혹은 상기 중국어 문자열 일부를 질의어로 웹검색하거나, 타언어 단어를 중국어 사이트에서 검색하여 검색 결과 중 중국어 미등록어 오류로 추정되는 문자열과 겹치는 부분을 단어 분리의 경계로 하여 단어 분리 정보를 정정할 수 있다.
상기 오류 정보가 모호성 오류에 의한 것이라면, 상기 오류 정보는 중국어 문자열과 이에 대응되는 타언어 단어 조합을 포함한다. 상기 정정부(70)는 상기 오류정보의 상기 중국어 문자열에 대응하는 타언어 단어조합이 상기 타언어 번역문에 등장하는 빈도를 고려하여 상기 중국어 문자열을 정정한다. 모호성 오류는 대부분 일반 단어끼리 결합의 문제이므로, 중영 대역어 사전에 모두 존재하는 단어이다. 따라서, 모호성 오류로 인해 가능한 여러 가지 중국어 문자열의 단어 조합 중 그 대역어가 타언어 번역문에 나타나는 빈도가 높은 조합이 정확한 단어분리일 확률이 높다. 또한 조합 중 기능어를 제외한 단어의 대역어가 타언어 번역문에 전혀 나타나지 않으면 패널티를 부가할 수 있다.
또한, 상기 정정부(70)는 오류 정보에 포함된 중국어 문자열을 키워드로 하며, 정정된 중국어 문자열 및 상기 문자열이 전체 중국어 단어 조합에서 차지하는 빈도, 그 문자열의 공기단어(Co-occurrence Word) 정보를 단어분리 오류사전(5)에 저장한다.
상기 개선부(90)는 단어분리 오류사전(5)으로부터 상기 단어분리의 빈도 정보를 수신하여 중국어 단어 분리부(10)의 제 1기준을 갱신할 지 결정하고, 다음과 같이 갱신한다.(S210)
상기 개선부(90)는 상기 오류 정보가 고유명사로 유발된 미등록어 오류에 의한 것이라면 고유명사에 공기하는 단어를 이용하여 중국어 단어분리부(10)의 제1기준을 갱신한다. 또한 상기 개선부(90)는 상기 오류 정보가 전문기술용어 및 신조어로 유발된 미등록어 오류에 의한 것이라면 상기 오류 정보가 발생하는 빈도에 따라 대역어사전(3)에 추가한다.
상기 개선부(90)는 모호성 오류에 의하여 상기 오류정보가 발생한 경우에, 상기 중국어 단어 조합의 단어 분리가 항상 같은 방식으로 분리되면 그 단어분리 문자열을 대역어사전(3)에 추가함으로써, 단어분리 시 한 단어로 취급되도록 한다. 만약 항상 일정하게 단어분리 되지 않으면서 공기 단어를 포함한 문자열의 규칙이 있다면, 상기 규칙을 중국어 단어분리부(10)에 추가한다. 만약 항상 일정하게 단어분리 되지 않으면서 상기 규칙도 발견할 수 없다면, 상기 단어분리 문자열을 공기단어와 함께 대역어사전(3)에 추가한다.
또한, 상기 개선부(90)는 대역어사전(3)에 추가하거나 중국어 단어분리부의 제1기준을 갱신하는 경우에, 단어분리 오류사전(5)에서 상기 오류 정보, 정정된 중국어 문자열, 빈도 및 공기단어 정보를 삭제한다.
여태까지 본 발명에 대하여 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
1: 중국어 단어분리 성능향상 장치
3: 대역어사전
5: 단어분리 오류사전
10: 중국어 단어 분리부
30: 형태소 분석부
50: 오류 탐지부
70: 정정부
90: 개선부

Claims (1)

  1. 중국어 단어분리 성능 향상 장치에 있어서,
    적어도 하나의 단어를 포함하는 중국어 단어 조합을 입력 받고, 상기 입력된 중국어 단어 조합을 기 설정된 제1기준에 따라 단어 단위로 분리한 중국어 문자열을 획득하는 중국어 단어 분리부;
    상기 중국어 단어 조합에 대응하는 번역문인 타언어 단어 조합을 이용하여, 상기 입력된 타언어 단어 조합에 포함된 각 단어의 형태소 정보를 획득하는 형태소 분석부;
    상기 타언어 단어조합에 포함된 각 단어의 형태소 정보를 이용하여, 상기 단어 단위로 분리된 중국어 문자열에 포함된 오류 정보를 탐지하는 오류 탐지부;
    상기 오류 정보를 고려하여 상기 중국어 문자열을 정정하는 정정부; 및
    상기 오류 정보 및 정정된 중국어 문자열을 이용하여 상기 제1기준을 갱신하는 개선부를 포함하는 병렬말뭉치를 이용한 중국어 단어분리 성능 향상 장치.
KR1020120125764A 2012-11-08 2012-11-08 병렬 말뭉치를 이용한 중국어 단어분리 성능 향상 방법 및 장치 KR101757237B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020120125764A KR101757237B1 (ko) 2012-11-08 2012-11-08 병렬 말뭉치를 이용한 중국어 단어분리 성능 향상 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120125764A KR101757237B1 (ko) 2012-11-08 2012-11-08 병렬 말뭉치를 이용한 중국어 단어분리 성능 향상 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20140059877A true KR20140059877A (ko) 2014-05-19
KR101757237B1 KR101757237B1 (ko) 2017-07-27

Family

ID=50889476

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120125764A KR101757237B1 (ko) 2012-11-08 2012-11-08 병렬 말뭉치를 이용한 중국어 단어분리 성능 향상 방법 및 장치

Country Status (1)

Country Link
KR (1) KR101757237B1 (ko)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106484677A (zh) * 2016-09-30 2017-03-08 北京林业大学 一种基于最小信息量的汉语快速分词系统及方法
CN111523308A (zh) * 2020-03-18 2020-08-11 大箴(杭州)科技有限公司 中文分词的方法、装置及计算机设备
KR20200137936A (ko) * 2019-05-29 2020-12-09 경희대학교 산학협력단 한국어 기반 신경망 언어 모델을 위한 어휘 목록 생성 방법 및 장치
CN112487826A (zh) * 2020-11-30 2021-03-12 北京百度网讯科技有限公司 信息抽取方法、抽取模型训练方法、装置以及电子设备
KR20220033614A (ko) 2020-09-08 2022-03-17 고려대학교 산학협력단 기계 번역을 이용한 고대한글 번역 방법
KR102395811B1 (ko) 2021-11-24 2022-05-09 주식회사 엘솔루 기계번역 모델을 위한 한문고서 말뭉치 증강방법

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4203102B2 (ja) 2007-06-25 2008-12-24 株式会社東芝 中国語解析装置、中国語解析方法および中国語解析プログラム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106484677A (zh) * 2016-09-30 2017-03-08 北京林业大学 一种基于最小信息量的汉语快速分词系统及方法
KR20200137936A (ko) * 2019-05-29 2020-12-09 경희대학교 산학협력단 한국어 기반 신경망 언어 모델을 위한 어휘 목록 생성 방법 및 장치
CN111523308A (zh) * 2020-03-18 2020-08-11 大箴(杭州)科技有限公司 中文分词的方法、装置及计算机设备
CN111523308B (zh) * 2020-03-18 2024-01-26 大箴(杭州)科技有限公司 中文分词的方法、装置及计算机设备
KR20220033614A (ko) 2020-09-08 2022-03-17 고려대학교 산학협력단 기계 번역을 이용한 고대한글 번역 방법
CN112487826A (zh) * 2020-11-30 2021-03-12 北京百度网讯科技有限公司 信息抽取方法、抽取模型训练方法、装置以及电子设备
KR102395811B1 (ko) 2021-11-24 2022-05-09 주식회사 엘솔루 기계번역 모델을 위한 한문고서 말뭉치 증강방법

Also Published As

Publication number Publication date
KR101757237B1 (ko) 2017-07-27

Similar Documents

Publication Publication Date Title
KR102268875B1 (ko) 전자 장치에 텍스트를 입력하는 시스템 및 방법
CN106537370B (zh) 在存在来源和翻译错误的情况下对命名实体鲁棒标记的方法和系统
US7478033B2 (en) Systems and methods for translating Chinese pinyin to Chinese characters
US9575955B2 (en) Method of detecting grammatical error, error detecting apparatus for the method, and computer-readable recording medium storing the method
KR101757237B1 (ko) 병렬 말뭉치를 이용한 중국어 단어분리 성능 향상 방법 및 장치
US8589370B2 (en) Acronym extraction
KR101500617B1 (ko) 한국어 어휘 의미망을 이용한 문맥 철자오류 교정 장치 및 방법
US20070021956A1 (en) Method and apparatus for generating ideographic representations of letter based names
US20140298168A1 (en) System and method for spelling correction of misspelled keyword
Sibarani et al. A study of parsing process on natural language processing in bahasa Indonesia
Ganfure et al. Design and implementation of morphology based spell checker
Kaur et al. Spell checker for Punjabi language using deep neural network
KR100509917B1 (ko) 어절 엔-그램을 이용한 띄어쓰기와 철자 교정장치 및 방법
JP2010244385A (ja) 機械翻訳装置、機械翻訳方法、およびプログラム
Kumar et al. Design and implementation of nlp-based spell checker for the tamil language
US20200133946A1 (en) Method and apparatus for searching for similar patent based on element alignment
Boubas et al. GENESTEM: A novel approach for an Arabic stemmer using genetic algorithms
US10042843B2 (en) Method and system for searching words in documents written in a source language as transcript of words in an origin language
Huang et al. Error detection and correction based on Chinese phonemic alphabet in Chinese text
Tongtep et al. Multi-stage automatic NE and pos annotation using pattern-based and statistical-based techniques for thai corpus construction
Doermann et al. Translation lexicon acquisition from bilingual dictionaries
Purey et al. Language resources for Mongolian
JP2004348514A (ja) 対訳語抽出方法、対訳辞書構築方法及び翻訳メモリ構築方法
Anbananthen et al. Typographic error identification and correction in chatbot using n-gram overlapping approach
Kovács Efficient dictionary matching of character stream

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant