KR100886688B1 - 한국어 수량사 생성 방법 및 장치 - Google Patents

한국어 수량사 생성 방법 및 장치 Download PDF

Info

Publication number
KR100886688B1
KR100886688B1 KR1020070128563A KR20070128563A KR100886688B1 KR 100886688 B1 KR100886688 B1 KR 100886688B1 KR 1020070128563 A KR1020070128563 A KR 1020070128563A KR 20070128563 A KR20070128563 A KR 20070128563A KR 100886688 B1 KR100886688 B1 KR 100886688B1
Authority
KR
South Korea
Prior art keywords
korean
quantifier
water
information
corpus
Prior art date
Application number
KR1020070128563A
Other languages
English (en)
Inventor
이기영
김영길
권오욱
김창현
노윤형
서영애
양성일
최승권
김운
박은진
오영순
윤창호
황영숙
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020070128563A priority Critical patent/KR100886688B1/ko
Application granted granted Critical
Publication of KR100886688B1 publication Critical patent/KR100886688B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

일반적으로 한국어의 경우, 숫자(수사)와 함께 결합되는 명사의 경우 그 명사에 따라 서로 다른 수량사(Quantifier)가 함께 사용된다. 대표적인 한국어 수량사로는 "개, 명, 대, 가지, 마리, …" 등이 있으며, 이러한 수량사는 함께 사용되는 명사에 따라 서로 다르다. 본 발명은 기계번역 시스템에서 보다 자연스러운 한국어 문장을 생성하기 위해서 한국어 수량사를 생성하는 장치 및 방법에 관한 것이다. 더욱 상세하게는, 입력된 원문에 대해 형태소 분석, 구조 분석과 같은 일련의 기계번역 과정을 거쳐서 번역된 결과를 생성할 때, 원문에 있어서 숫자와 결합된 명사에 대해 한국어의 문법적 특성에 맞도록 해당 명사에 적당한 수량사를 생성하는 장치 및 방법을 제공하기 위한 것이다. 이러한 수량사 생성은 원시 언어에는 수량사가 발달하지 않았지만 한국어 생성시에는 수량사를 생성시켜 번역해야 자연스러운 영한 번역과 같은 언어쌍의 기계번역에서 자연스럽고 가독성이 높은 번역 품질을 제공해 줄 수 있다.
기계번역, 한국어 생성, 수량사(Quantifier) 생성, 수분류사 생성

Description

한국어 수량사 생성 방법 및 장치{METHOD AND APPARATUS FOR CREATING QUANTIFIER OF KOREAN LANGUAGE}
본 발명은 한국어 수량사 생성 기술에 관한 것으로, 특히 기계번역 시스템에서 보다 자연스러운 한국어 문장을 생성하는데 적합한 한국어 수량사(Quantifier) 생성 방법 및 장치에 관한 것이다.
본 발명은 정보통신부 및 정보통신연구진흥원의 IT성장동력기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2006-S-037-02, 과제명: 응용 특화 한중영 자동번역 기술개발].
대부분의 기계번역 시스템은 원시 문장 분석 단계(source sentence analysis phase), 원시 문장-목표 문장 변환 단계(source-target sentence transfer phase), 목표 문장 생성 단계(target sentence generation phase)를 포함한다.
원시 문장 분석 단계에서는 형태소 분석(morphological analysis) 기능과 구조 분석(syntactic analysis) 기능을 수행하며, 입력된 문장을 구성하는 각 어휘에 대한 형태론적 분석을 수행하여 활용된 형태의 표층 구조로부터 어휘의 원형 등을 복원하고, 전체 문장의 문법적 구조를 밝혀낸다.
변환 단계는 원시 문장을 목표 문장으로 번역하기 위한 과정의 중간 단계로서, 어순 등을 고려하여 원시 언어와 목표 언어 간의 구조 변환(structure transfer)과 어휘 변환(lexical transfer)을 수행한다.
마지막으로 생성 단계는 변환 단계의 결과를 목적 언어의 문법, 활용에 맞도록 최종 번역 결과를 생성한다.
기계번역 시스템을 구성하는 이러한 세 가지 단계들 가운데, 생성 단계에서는 최종적인 번역 결과를 목표 언어의 문법에 맞는 올바른 문장을 생성한다. 특히, 한국어 생성의 경우에는 한국어가 갖는 다양한 특성들, 즉, 다양한 활용 처리, 띄어쓰기 처리, 격조사 생성 등의 작업을 수행한다.
수량사(Quantifier) 생성도 이러한 한국어 생성 단계에서 처리되는 작업으로서 숫자와 결합된 명사에 대해 번역 결과를 생성할 때 한국어 문법 및 사용에 맞는 적당한 수량사를 함께 생성함으로써 번역 결과에 대한 가독성을 높이고 보다 자연스러운 번역 결과를 생성하는데 많은 도움을 준다.
현재까지 한국어를 목표로 하는 대부분의 기계번역 시스템에서는 이러한 수량사 처리는 그 관심 범위 밖이었으며, 실제로 그러한 시스템의 번역 결과를 검토하면 수량사가 생성되지 않아서 매우 어색한 경우가 많았다.
일반적으로 한국어의 경우, 숫자(수사)와 함께 결합되는 명사의 경우 그 명사에 따라 서로 다른 수량사가 함께 사용된다. 대표적인 한국어 수량사로는 "개, 명, 대, 가지, 마리, …" 등이 있으며, 이러한 수량사는 함께 사용되는 명사에 따 라 서로 다르다. 이러한 수량사의 유무에 대한 가독성 측면에서의 자연스러움은 다음과 같은 예를 보면 알 수 있다.
[예문 1]
나는 2 강아지를 보았다.
[예문 2]
나는 2마리의 강아지를 보았다.
[예문 3]
뉴스에서 2 감염자에 대한 소식을 들었다.
[예문 4]
뉴스에서 2명의 감염자에 대한 소식을 들었다.
위의 예문을 보면 수량사가 포함되지 않은 [예문 1]과 [예문 3]의 경우, 각각 적당한 수량사가 '강아지'와 '감염자'에 대해 생성된 [예문 2] 및 [예문 4]에 비해 자연스러움이 확연히 떨어짐을 알 수 있다.
즉, 한국어는 각 명사에 따라 서로 다른 수량사가 사용되며, 이러한 수량사의 올바른 생성은 자연스러움을 증가시킨다. 나아가, 한국어를 목표로 하는 기계번역 시스템의 경우, 수량사 생성은 전체적인 번역 결과에 대한 품질을 한 단계 더 높일 수 있는 매우 중요한 기술이다
이에 본 발명은, 입력된 원문에 대해 형태소 분석, 구조 분석과 같은 일련의 기계번역 과정을 거쳐서 번역된 결과를 생성할 때, 원문에 있어서 숫자와 결합된 명사에 대해 한국어의 문법적 특성에 맞도록 해당 명사에 적절한 수량사를 생성할 수 있는 기술을 제공하고자 한다.
본 발명의 과제를 해결하기 위한 일 관점에 따르면, 한국어 코퍼스를 구성하는 모든 문장들에 대한 품사 정보에 따라 한국어의 수량사 정보를 추출하는 수량사 추출 수단과, 상기 수량사 추출 수단에 의해 추출된 수량사 정보를 필터링하는 수량사 필터링 수단과, 상기 필터링된 수량사 정보에서 사용 빈도수가 최대인 수량사 정보만을 사전 데이터베이스의 한국어 대역어에 특정 자질(feature)값으로 할당하는 자질값 할당 수단과, 입력된 문장에 대해 변환까지의 기계번역 과정이 종료되면 상기 사전 데이터베이스의 각 대역어에 할당된 수량사와 관련된 자질값을 사용하여 수량사를 생성하는 수량사 생성 수단을 포함하는 한국어 수량사 생성 장치를 제공 한다.
본 발명의 과제를 해결하기 위한 다른 관점에 따르면, 한국어를 목표 언어로 하는 수량사 생성 방법으로서, 한국어 코퍼스를 대상으로 하여 한국어 코퍼스를 구성하는 모든 문장들에 대해서 형태소 분석 및 태깅을 수행하여 명사 어휘 및 명사 어휘와 함께 사용되는 한국어 수량사를 추출하는 과정과, 상기 추출된 수량사 정보를 필터링하며, 상기 필터링된 수량사 정보에서 사용 빈도수가 최대인 수량사 정보만을 사전 데이터베이스의 한국어 대역어에 특정 자질(feature)값으로 할당하는 과정과, 번역을 목적으로 입력된 원시 문장에 대한 분석 및 변환이 종료되면 한국어 생성 과정에서 수량사가 필요한 명사에 대해서 상기 사전 데이터베이스를 참조하여 한국어 수량사를 생성하는 과정을 포함하는 한국어 수량사 생성 방법을 제공한다.
본 발명에 의하면, 수량사가 발달되지 않은 영어와 같은 언어를 한국어로 번역할 때, 수사와 결합된 명사 구문을 올바로 번역 생성하기 위해서 최적의 수량사를 부착하여 보다 자연스러운 번역 결과를 생성한다. 상기의 수량사 생성 방식을 자동번역에 적용함으로써, 보다 자연스러운 번역 품질을 얻을 수 있으며, 현재 좁은 도메인에서만 활용되고 있는 기계번역 시스템의 활용도를 보다 높이는데 도움이 될 수 있다. 또한, 이러한 수량사 생성 시스템은 본 특허에서 제시한 기계번역뿐만 아니라 한국어를 목표 언어로 하는 다양한 생성 시스템에서 활용되어 고품질의 한국어 생성 결과를 얻을 수 있다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 대하여 상세하게 설명한다.
도 1은 본 발명의 일 관점에 따른 한국어 수량사 생성 장치에 대한 블록 구성도로서, 한국어 코퍼스(corpus) 수집부(100), 한국어 원시 코퍼스(source corpus) DB(Data Base)(102), 한국어 형태소 분석 및 태깅부(104), 한국어 태그드(tagged) 코퍼스 DB(106), 품사열 스캔부(108), 수량사 추출부(110), 품사 시퀀스 패턴 DB(112), 수량사 필터링부(114), 자질값 할당부(116), 기계번역용 사전 DB(118), 수량사 생성부(120)를 포함한다.
한국어 코퍼스 수집부(100)는 대량의 한국어 코퍼스를 수집하여 한국어 원시 코퍼스 DB(102)에 저장하며, 한국어 형태소 분석 및 태깅부(104)는 한국어 원시 코퍼스 DB(102)에 저장된 한국어 코퍼스에 대해서 코퍼스를 구성하는 모든 문장에 대한 형태소 분석 및 태깅을 수행하여 한국어 태그드 코퍼스 DB(106)에 저장하는 역할을 한다.
품사열 스캔부(108)는 한국어 태그드 코퍼스DB(106)에 저장된 어휘들, 즉 형태소 분석 및 태깅부(104)에 의해 형태소 분석 및 태깅된 코퍼스를 구성하는 모든 어휘들에 대한 품사 정보를 파악한다.
수량사 추출부(110)는 상기 품사열 스캔부(108)를 통해 파악된 품사 정보에 따라 한국어의 수량사 정보를 추출하여 품사 시퀀스 패턴 DB(112)에 저장한다. 이때, 수량사 추출부(110)는 모호성이 가능한 없는 특정 패턴에 해당하는 한국어 품 사열만을 대상으로 하여 수량사 정보를 추출하는 것을 특징으로 한다.
수량사 필터링부(114)는 상기 수량사 추출부(110)를 통해 추출된 수량사 정보를 필터링하며, 자질값 할당부(116)는 상기 수량사 필터링부(114)에서 필터링된 수량사 정보에서 정확한 수량사 정보만을 기계번역에서 사용하는 사전의 한국어 대역어에 특정 자질(feature)값으로 할당하여 기계 번역용 사전 DB(118)에 저장하는 역할을 한다. 이때, 자질값 할당부(116)는 모호성을 해소하기 위하여 확률적으로 가장 자주 사용되는 수량사만을 기계 번역용 사전 DB(118)에 자질값으로 할당하는 것을 특징으로 한다.
수량사 생성부(120)는 입력된 문장에 대해 변환까지의 기계번역 과정이 종료된 후에, 기계 번역용 사전 DB(118)의 각 대역어에 할당된 수량사와 관련된 자질값을 사용하여 수량사를 생성하는 역할을 한다. 기계번역에서 수량사를 생성하는 시점은, 모든 분석 과정과 변환 과정이 종료되고 최종 한국어 문자열들을 생성하는 시점이다. 따라서 생성 시점에서는 완료된 구조 분석 정보를 활용하여 '수사+명사'의 구조를 파악할 수 있으며, 이러한 구조에 대해서 사전을 참조하여 해당 대역어의 자질값을 로딩하여 수량사 정보를 생성할 수 있다.
이하, 상술한 구성과 함께, 본 발명의 다른 관점에 따른 한국어 수량사 생성 방법을 첨부한 도 2의 흐름도를 참조하여 상세히 설명한다.
먼저, 본 발명에서 제안하는 한국어 수량사 생성 방법은, 수량사 정보를 추출하는 과정과, 추출된 수량사 정보를 필터링하여 정확한 수량사 정보만을 기계번역에서 사용하는 사전의 한국어 대역어에 특정 자질(feature)값으로서 할당하는 과 정과, 입력된 문장에 대해 변환까지의 기계번역 과정이 종료된 후에 사전의 각 대역어에 할당된 수량사와 관련된 자질값을 사용하여 수량사를 생성하는 과정으로 크게 구성될 수 있다.
첫 번째 과정인 수량사 정보를 추출하는 과정을 자세히 설명하면 다음과 같다.
우선, 대량의 한국어 코퍼스를 수집한다(S200).
이렇게 수집된 한국어 코퍼스에 대해서는 한국어 형태소 분석기와 한국어 태거를 사용하여 코퍼스를 구성하는 모든 문장에 대해서 형태소 분석 및 태깅을 수행한다(S202). 이러한 형태소 분석 및 태깅 과정에 의해서 코퍼스를 구성하는 모두 어휘들에 대한 품사 정보를 알 수 있다.
이러한 품사 정보를 기본적으로 사용하여 수량사 정보를 추출한다(S204). 수량사 정보 추출 과정에서 중요한 것은 기존의 한국어 형태소 및 한국어 태거의 정확률이 100%가 아니라는 점이다. 이를 고려하여 모호성이 가능한 없는 특정 패턴에 해당하는 한국어 품사열만을 대상으로 하여 수량사 정보를 추출한다.
[패턴 1]
명사 + 수사 + 수량사 + 관형격조사 명사 + 조사/보조사
예시) 3개의 사과를…
[패턴 2]
명사 + 수사 + 수량사 + 관형격조사 형용사 + 관형사형전성어미 + 명사 + 조사/보조사
예시) 3개의 맛있는 사과를…
[패턴 3]
명사 + 수사 + 수량사 + 관형격조사 성상관형사 + 명사 + 조사/보조사
예시) 3가지의 기본적 안건을…
[패턴 4]
명사 + 수사 + 수량사 + 관형격조사 동사 + 관형사형전성어미 + 명사 + 조사/보조사
예시) 3개의 떨어지는 사과를…
[패턴 5]
수사 + 수량사 명사 + 조사/보조사(관형격조사 제외)
예시) 3개 사과를…
[패턴 6]
명사 + 수사 + 수량사 + 조사/보조사(관형격조사 제외)
예시) 사과 3개를…
본 특허에서는 한국어 코퍼스를 대상으로 수량사 정보를 추출할 때, 구조적 모호성 등을 고려하여 명사에 대한 가능한 정확한 수량사 정보를 추출하기 위하여 상기의 6가지 패턴을 정의하였으며, 이러한 패턴과 일치되는 품사열로부터 그 어휘 정보를 사용하여 수량사를 추출하였다. 즉, 형태소 분석 및 태깅이 완료된 한국어 코퍼스를 스캔하면서, 상기에서 정의한 패턴에 해당하는 품사열이 발견될 경우, 해당하는 명사와 그에 상응하는 수량사 정보를 함께 추출하였다.
상기의 [패턴 1]에 대한 예에서는 명사 '사과'의 경우 '개'라는 수량사 정보가 추출될 수 있다는 것을 보이며, [패턴 3]의 경우 명사 '안건'에 대해 '가지''라는 수량사 정보가 추출될 수 있다는 것을 보인다.
본 특허에서 제안하는 수량사 생성 과정의 두번째 과정인 추출된 수량사 정보를 필터링하여 정확한 수량사 정보만을 기계번역에서 사용하는 사전의 한국어 대역어에 특정 자질(feature)값으로서 할당하는 과정(S206)을 자세히 설명하며 다음과 같다.
우선, 추출된 수량사 정보를 기계번역용 사전의 한국어 대역어에 할당하기 위해 사전의 모든 명사 엔트리에 대한 한국어 대역어들에 대해서 'KCOUNT'라는 자질(feature)을 새로 정의하였으며, 추출된 수량사 정보는 해당하는 한국어 대역어의 'KCOUNT' 자질의 자질값(feature value)으로 할당된다.
다음은 KCOUNT 자질이 사용된 사전의 예를 나타낸다.
<영어어휘 'paper'의 사전 표현 예시>
[KEY]
paper@NOUN
[CONTENT]
[(ETYPE COMM)(KPOS NOUN)(WSEM paper#4)(SEM piece#6)(KROOT 논문)(KCODE NN00001)(KCOUNT 개)(KCCODE UU00601)(SOURCE KEDICT)]
[(ETYPE COMM)(KPOS NOUN)(WSEM )(SEM )(KROOT 페이퍼)(KCODE NN00001)(KCOUNT 장)(KCCODE UU00601)(SOURCE KEDICT)]
[(ETYPE COMM)(KPOS NOUN)(WSEM paper#1)(SEM paper#1)(KROOT 종이)(KCODE NN00001)(KCOUNT 장)(KCCODE UU00601)(SOURCE KEDICT)]
위의 영어 어휘 'paper'에 대한 예를 보면. 'paper'는 '논문', '페이퍼', '종이' 등의 한국어 대역어를 가지고 있으며, 이들 대역어에 대한 수량사는 'KCOUNT' 자질의 자질값으로 부여되며, 각각 '개', '장', '장'이라는 수량사가 할당되어 있음을 알 수 있다.
이와 같은 수량사 정보를 자질화하여 할당하는 사전의 구조를 설명하였으며, 두 번째 과정에서는 첫 번째 과정에서 추출된 수량사 정보들에 대해서 필터링 작업을 거쳐서 가장 적합한 수량사를 선정하는 과정을 포함한다.
몇몇 한국어 명사의 경우는 하나 이상의 수량사가 혼재되어 사용될 수 있으며, 이러한 특성은 한국어 코퍼스에서도 발견된다. 이와 같은 원인은, 첫째, 언어학적으로 몇몇 한국어 명사 어휘가 두 가지 이상의 수량사를 사용할 수도 있기 때문이며, 둘째, 수량사 추출을 위한 첫 번째 과정에서 한국어 형태소 분석기나 한국어 태거가 가지는 오류가 발생하기 때문이다.
따라서 이러한 모호성을 해소하기 위하여 확률적으로 가장 자주 사용되는 수량사만을 사전에 KCOUNT 자질의 자질값으로 할당하도록 한다. 이를 위해 첫 번째 과정에서 한국어 명사 어휘 및 함께 나타나는 수량사에 대한 빈도 정보를 사용하여 임계값(threshold)을 정의하고 정의된 임계값을 벗어나는 편향성을 가진 경우에 대해 올바른 수량사 정보로 인식한다.
이러한 필터링을 위해 빈도 정보가 '1'인 명사 및 수량사 정보는 모두 배제 하였다. 이렇게 빈도 정보가 '1'인 경우는 매우 극소수로 나타나는 경우를 나타내며, 이러한 명사-수량사 정보는 오류일 가능성이 크다. 또한 명사-수량사 빈도에 대해 정규화를 수행하여 하나의 명사에 대해서 두 가지 이상의 수량사가 가능할 경우, 특정 임계값을 정의하고 그 이상의 편차를 보이는 경우만을 대표 수량사로 추정하였다.
정규화 공식은 다음과 같다.
<정규화 공식>
정규화된 명사 - 수량사 빈도
= (명사 - 수량사 빈도) / (전체 명사 - 수량사 빈도)
마지막으로 수량사 생성의 세 번째 과정은, 입력된 문장에 대해 변환까지의 기계번역 과정이 종료된 후에, 사전의 각 대역어에 할당된 수량사와 관련된 자질값을 사용하여 수량사를 생성하는 과정(S208)으로 구성된다.
기계번역에서 수량사를 생성하는 시점은 모든 분석 과정과 변환 과정이 종료되고 최종 한국어 문자열들을 생성하는 시점이다. 따라서 생성 시점에서는 완료된 구조 분석 정보를 활용하여 '수사+명사'의 구조를 파악할 수 있으며, 이러한 구조에 대해서 사전을 참조하여 해당 대역어의 KCOUNT 자질값을 로딩하여 수량사 정보를 생성한다.
이때, 수량사를 생성하여 부착하는 과정(S210)은 다음과 같다.
<수량사 부착 알고리즘>
1) 수사와 결합된 명사 어휘의 헤드 어휘 정보를 추출한다. 이때, 복합명사 의 경우, 헤드 어휘를 추출(주로 마지막 명사 어휘)한다.
2) 수사(NUM)로 태깅된 숫자 어휘를 모두 숫자로만 구성하거나 모두 문자로만 구성한다. 예컨대, "3, 5, 100, two, five" 등을 허용한다던지, "3%, 5cc" 등과 같이 단위가 붙은 숫자의 경우, 일반적으로 함께 '수사'로 태깅되며, 이러한 어휘들에 대해서는 수량사가 함께 사용되지 않는다.
3) 수사와 결합된 명사 어휘의 헤드 어휘가 수량사와 함께 사용될 수 있는 어휘인지를 조사한다. 예컨대, "Min, year, hour, minute, day, week, second, month" 등과 같은 어휘는 수량사가 함께 호응하지 않는 어휘로 미리 분류한다.
4) 수량사와 호응하는 영어 어휘의 대역어에 따라 KCOUNT 값을 참조하여 수량사를 부착한다.
이상 설명한 바와 같이, 본 발명은 입력된 원문에 대해 형태소 분석, 구조 분석과 같은 일련의 기계번역 과정을 거쳐서 번역된 결과를 생성할 때, 원문에 있어서 숫자와 결합된 명사에 대해 한국어의 문법적 특성에 맞도록 해당 명사에 적절한 수량사를 생성하도록 구현한 것이다.
한편, 본 발명의 실시예에 대해 상세히 기술하였으나 본 발명은 이러한 실시예에 국한되는 것은 아니며, 후술하는 청구범위에 기재된 본 발명의 기술적 사상과 범주 내에서 당업자로부터 여러 가지 변형이 가능함은 물론이다.
도 1은 본 발명에 따른 한국어를 목표 언어로 하는 기계번역에서 수(number)와 함께 사용되는 명사의 수량사를 생성하는 수량사 생성 장치의 블록 구성도,
도 2는 본 발명에 따른 한국어를 목표 언어로 하는 기계번역에서 명사의 수량사를 생성하는 수량사 생성 과정을 나타낸 흐름도.
<도면의 주요 부분에 대한 부호의 설명>
100 : 한국어 코퍼스 수집부
104 : 한국어 형태소 분석 및 태깅부
108 : 품사열 스캔부
110 : 수량사 추출부
114 : 수량사 필터링부
116 : 자질값 할당부
120 : 수량사 생성부

Claims (8)

  1. 한국어를 목표 언어로 하는 수량사 생성 방법으로서,
    한국어 코퍼스를 대상으로 하여 한국어 코퍼스를 구성하는 모든 문장들에 대해서 형태소 분석 및 태깅을 수행하여 명사 어휘 및 명사 어휘와 함께 사용되는 한국어 수량사를 추출하는 과정과,
    상기 추출된 수량사 정보를 필터링하며, 상기 필터링된 수량사 정보에서 사용 빈도수가 최대인 수량사 정보만을 사전 데이터베이스의 한국어 대역어에 특정 자질(feature)값으로 할당하는 과정과,
    번역을 목적으로 입력된 원시 문장에 대한 분석 및 변환이 종료되면 한국어 생성 과정에서 수량사가 필요한 명사에 대해서 상기 사전 데이터베이스를 참조하여 한국어 수량사를 생성하는 과정
    을 포함하는 한국어 수량사 생성 방법.
  2. 제 1 항에 있어서,
    상기 추출하는 과정은, 특정 패턴에 해당하는 한국어 품사열만을 대상으로 하여 수량사 정보를 추출하는 것을 특징으로 하는 한국어 수량사 생성 방법.
  3. 제 1 항에 있어서,
    상기 할당하는 과정은, 통계 정보를 사용하여 수량사 정보를 필터링하며, 상기 사용 빈도수가 최대인 수량사 정보 이외의 후보들을 제거하는 것을 특징으로 하는 한국어 수량사 생성 방법.
  4. 제 1 항에 있어서,
    상기 사전 데이터베이스는, 기계 번역용 사전 데이터베이스인 것을 특징으로 하는 한국어 수량사 생성 방법.
  5. 한국어 코퍼스를 구성하는 모든 문장들에 대한 품사 정보에 따라 한국어의 수량사 정보를 추출하는 수량사 추출 수단과,
    상기 수량사 추출 수단에 의해 추출된 수량사 정보를 필터링하는 수량사 필터링 수단과,
    상기 필터링된 수량사 정보에서 사용 빈도수가 최대인 수량사 정보만을 사전 데이터베이스의 한국어 대역어에 특정 자질(feature)값으로 할당하는 자질값 할당 수단과,
    입력된 문장에 대해 변환까지의 기계번역 과정이 종료되면 상기 사전 데이터베이스의 각 대역어에 할당된 수량사와 관련된 자질값을 사용하여 수량사를 생성하 는 수량사 생성 수단
    을 포함하는 한국어 수량사 생성 장치.
  6. 제 5 항에 있어서,
    상기 장치는,
    대량의 한국어 코퍼스를 수집하여 한국어 원시 코퍼스로서 데이터베이스화하는 한국어 코퍼스 수집 수단과,
    데이터베이스화된 한국어 코퍼스에 대해서 코퍼스를 구성하는 모든 문장에 대한 형태소 분석 및 태깅을 수행하여 한국어 태그드 코퍼스로서 데이터베이스화하는 한국어 형태소 분석 및 태깅 수단과,
    상기 한국어 태그드 코퍼스로서 데이터베이스화된 상기 형태소 분석 및 태깅된 코퍼스를 구성하는 모든 어휘들에 대한 품사 정보를 파악하는 품사열 스캔 수단
    을 더 포함하는 한국어 수량사 생성 장치.
  7. 제 5 항에 있어서,
    상기 수량사 추출 수단은, 특정 패턴에 해당하는 한국어 품사열만을 대상으로 하여 수량사 정보를 추출하는 것을 특징으로 하는 한국어 수량사 생성 장치.
  8. 제 5 항에 있어서,
    상기 사전 데이터베이스는, 기계 번역용 사전 데이터베이스인 것을 특징으로 하는 한국어 수량사 생성 장치.
KR1020070128563A 2007-12-11 2007-12-11 한국어 수량사 생성 방법 및 장치 KR100886688B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020070128563A KR100886688B1 (ko) 2007-12-11 2007-12-11 한국어 수량사 생성 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020070128563A KR100886688B1 (ko) 2007-12-11 2007-12-11 한국어 수량사 생성 방법 및 장치

Publications (1)

Publication Number Publication Date
KR100886688B1 true KR100886688B1 (ko) 2009-03-04

Family

ID=40697644

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070128563A KR100886688B1 (ko) 2007-12-11 2007-12-11 한국어 수량사 생성 방법 및 장치

Country Status (1)

Country Link
KR (1) KR100886688B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102037453B1 (ko) 2018-11-29 2019-10-29 부산대학교 산학협력단 부분단어 정보에 기반을 둔 워드임베딩을 이용한 수분류사 중의성 해소 장치 및 방법
CN112417823A (zh) * 2020-09-16 2021-02-26 中国科学院计算技术研究所 一种中文文本语序调整和量词补全方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH096778A (ja) * 1995-06-15 1997-01-10 Canon Inc 自然言語解析方法及びその装置
JP2004280509A (ja) 2003-03-17 2004-10-07 Fuji Xerox Co Ltd 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
KR20050064574A (ko) * 2003-12-24 2005-06-29 한국전자통신연구원 영한 자동번역에서 의미 벡터와 한국어 국소 문맥 정보를사용한 대역어 선택시스템 및 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH096778A (ja) * 1995-06-15 1997-01-10 Canon Inc 自然言語解析方法及びその装置
JP2004280509A (ja) 2003-03-17 2004-10-07 Fuji Xerox Co Ltd 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
KR20050064574A (ko) * 2003-12-24 2005-06-29 한국전자통신연구원 영한 자동번역에서 의미 벡터와 한국어 국소 문맥 정보를사용한 대역어 선택시스템 및 방법

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102037453B1 (ko) 2018-11-29 2019-10-29 부산대학교 산학협력단 부분단어 정보에 기반을 둔 워드임베딩을 이용한 수분류사 중의성 해소 장치 및 방법
CN112417823A (zh) * 2020-09-16 2021-02-26 中国科学院计算技术研究所 一种中文文本语序调整和量词补全方法及系统
CN112417823B (zh) * 2020-09-16 2023-08-29 中国科学院计算技术研究所 一种中文文本语序调整和量词补全方法及系统

Similar Documents

Publication Publication Date Title
US6965857B1 (en) Method and apparatus for deriving information from written text
Pettersson et al. A multilingual evaluation of three spelling normalisation methods for historical text
Llidó et al. Extracting temporal references to assign document event-time periods
Zeroual et al. Adapting a decision tree based tagger for Arabic
Fung et al. Automatic word segmentation for spoken Cantonese
Saharia et al. Stemming resource-poor Indian languages
Basili et al. A shallow syntactic analyser to extract word associations from corpora
Bronikowska et al. The use of electronic historical dictionary data in corpus design
JP5291351B2 (ja) 評価表現抽出方法、評価表現抽出装置、および、評価表現抽出プログラム
Shvedova et al. Handling of nonstandard spelling in GRAC
KR100886688B1 (ko) 한국어 수량사 생성 방법 및 장치
KR101757222B1 (ko) 한글 문장에 대한 의역 문장 생성 방법
CN110705285A (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
Weller et al. Using noun class information to model selectional preferences for translating prepositions in smt
KR20110018140A (ko) 문서정보 학습기반 통계적 hmm 품사 태깅 장치 및 그 방법
Gretter et al. Seed words based data selection for language model adaptation
Lavie et al. Domain portability in speech-to-speech translation
Iswarya et al. Speech and text query based Tamil-English Cross Language Information Retrieval system
Knyazeva et al. Automatic Extraction of Verb Paradigms in Regional Languages: the case of the Linguistic Crescent varieties
Gupta et al. A new approach towards bibliographic reference identification, parsing and inline citation matching
Asker et al. Applying machine learning to Amharic text classification
Alkhazi et al. BAAC: Bangor Arabic Annotated Corpus
Khokhlova et al. Studying Word Sketches for Russian.
Adesam et al. A lexical resource for computational historical linguistics
Nongmeikapam et al. Identification of reduplicated multiword expressions using CRF

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20111208

Year of fee payment: 20