KR101745349B1 - 병렬 말뭉치의 구 정렬을 이용한 숙어 표현 인식 장치 및 그 방법 - Google Patents

병렬 말뭉치의 구 정렬을 이용한 숙어 표현 인식 장치 및 그 방법 Download PDF

Info

Publication number
KR101745349B1
KR101745349B1 KR1020100085959A KR20100085959A KR101745349B1 KR 101745349 B1 KR101745349 B1 KR 101745349B1 KR 1020100085959 A KR1020100085959 A KR 1020100085959A KR 20100085959 A KR20100085959 A KR 20100085959A KR 101745349 B1 KR101745349 B1 KR 101745349B1
Authority
KR
South Korea
Prior art keywords
idiomatic
expression
candidate
phrases
parallel corpus
Prior art date
Application number
KR1020100085959A
Other languages
English (en)
Other versions
KR20120022390A (ko
Inventor
김상범
윤창호
황영숙
임해창
이형규
Original Assignee
에스케이플래닛 주식회사
고려대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에스케이플래닛 주식회사, 고려대학교 산학협력단 filed Critical 에스케이플래닛 주식회사
Priority to KR1020100085959A priority Critical patent/KR101745349B1/ko
Priority to PCT/KR2011/003832 priority patent/WO2012030053A2/ko
Priority to US13/820,199 priority patent/US20140303955A1/en
Publication of KR20120022390A publication Critical patent/KR20120022390A/ko
Application granted granted Critical
Publication of KR101745349B1 publication Critical patent/KR101745349B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/191Automatic line break hyphenation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/49Data-driven translation using very large corpora, e.g. the web

Abstract

본 발명은 병렬 말뭉치의 구 정렬을 이용한 숙어 표현 인식 장치 및 그 방법에 관한 것으로서, 상세하게는 병렬 말뭉치의 구 정렬 정보를 이용하여 숙어 후보 표현을 추출하고, 그 추출된 숙어 후보 표현마다 숙어 표현 지수를 측정하여 숙어 표현으로 인식함으로써, 단어의 번역 엔트로피 측정 및 단어의 대표 대역어 추출의 오류를 해결하고 숙어 표현 인식의 정확률을 향상시킬 수 있다.

Description

병렬 말뭉치의 구 정렬을 이용한 숙어 표현 인식 장치 및 그 방법{APPARATUS AND METHOD FOR FIDING GENERAL IDIOMATIC EXPRESSION USING PHRASE ALIGNMENT OF PARALLEL CORPUS}
본 발명은 병렬 말뭉치의 구 정렬을 이용한 숙어 표현 인식 장치 및 그 방법에 관한 것으로서, 상세하게는 병렬 말뭉치의 구 정렬 정보를 이용하여 숙어 후보 표현을 추출하고, 그 추출된 숙어 후보 표현마다 숙어 표현 지수를 측정하여 숙어 표현으로 인식함으로써, 단어의 번역 엔트로피 측정 및 단어의 대표 대역어 추출의 오류를 해결하고 숙어 표현 인식의 정확률을 향상시킬 수 있는, 병렬 말뭉치의 구 정렬을 이용한 숙어 표현 인식 장치 및 그 방법에 관한 것이다.
자동 번역 기술은 한 언어를 다른 언어로 자동으로 전환해주는 소프트웨어적 기술을 의미한다. 이러한 기술은 20세기 중반부터 미국에서 군사적인 목적으로 연구가 시작되었으며, 지금은 세계적으로 정보접근범위의 확대와 휴먼인터페이스의 혁신을 목적으로 다수의 연구소와 민간기업에서 활발히 연구 중이다.
자동 번역 기술의 초기 단계에서는 전문가가 수동으로 작성한 양국어(Bilingual) 사전과 한 언어를 다른 언어로 변환할 수 있는 규칙을 기반으로 발전 되어 왔다. 그러나 컴퓨팅 파워의 급속한 발전이 진행된 21세기 초부터는 대량의 데이터로부터 통계적으로 번역 알고리즘을 자동으로 학습하는 기술 개발이 활발히 전개되고 있다.
병렬 말뭉치(Bilingual Parallel Corpus)로부터 숙어 표현을 인식하는 종래 기술은 하나의 표현 또는 단어 열이 주어졌을 때 그 표현의 개별 단어들의 번역 엔트로피(Translational Entropy) 또는 디폴트 번역의 비율을 측정한다. 그 측정값으로 후보 표현들을 순위화하여 상위 표현들을 숙어 표현으로 획득할 수 있다. 이러한 종래 기술은 병렬 말뭉치에서의 단어 정렬을 사용하는 것이 숙어 표현을 인식하는 데에 유용함을 입증한다. 그리고 언어적 제약이 가해진 구(Phrase)를 후보로 하여 높은 정확률로 숙어 표현을 획득할 수 있었다. 그러나 이러한 종래 기술은 다양한 숙어 표현을 획득하기에는 한계가 있다.
첫째, 종래 기술에서의 숙어 후보 표현들은 언어적 제약이 가해진 패턴으로 한정되어, 말뭉치 내에는 다양한 패턴의 수많은 숙어 표현이 존재할지라도 단지 극소수의 숙어 표현만을 획득할 수 있다. 예를 들면, 다양한 패턴의 수많은 숙어 표현에는 동사와 전치사구의 조합으로 이루어진 동사구가 포함될 수 있다. 단순히 종래 기술을 모든 가능한 N-그램(N-gram)으로 확장한다면 수많은 노이즈가 포함되어 추출될 것이다. 따라서 다양한 숙어 표현을 획득하기 위해서는 언어적으로 제한되지 않으며 의미 있는 N-그램 단위를 추출하는 것이 필요하다.
둘째, 종래 기술에서는 단어 단위 번역은 고려하였지만, 구 단위 번역이 고려되지 않아 숙어 표현 인식의 정확성에 한계가 존재한다. 구 정렬을 이용하여 개별 단어들과 그것들이 구로 묶였을 때의 번역 성향의 차이가 정밀하게 분석되지 않기 때문에 숙어 표현 인식의 정확률이 떨어지는 문제점이 있다.
종래의 숙어 인식 기술은 구를 구성하는 각 단어의 번역 엔트로피를 측정하거나 대표 대역어를 통한 의미 파악을 위해 단어 정렬 정보를 이용하고 있다. 이러한 종래의 숙어 표현 인식 방법은 병렬 말뭉치로부터 숙어적 표현을 인식하기 위하여, 주로 단어 정렬 정보를 이용한다. 주어진 표현이 숙어적 표현인지를 결정하기 위해 병렬 말뭉치의 단어 정렬 통계를 이용하여 단어의 번역 엔트로피를 측정하거나, 단어의 디폴트 대역어를 선정한 후, 최종 스코어를 계산한다. 단어 정렬만으로 디폴트 대역어, 번역 엔트로피를 구하는 종래의 기술은 단어 대 단어(1:1) 번역에만 의미가 있고 한 단어가 여러 단어로(1:n) 번역되는 경우에는 잘못된 디폴트 대역어가 선정되거나 번역 엔트로피의 정확성이 떨어지게 되는 문제점이 있다. 즉, 이러한 종래의 숙어 인식 기술은 단어의 번역 엔트로피 측정 및 단어의 대표 대역어 추출에서 오류가 발생하는 문제점이 있다.
본 발명은 상기의 문제점을 해결하기 위해 창안된 것으로서, 병렬 말뭉치의 구 정렬 정보를 이용하여 숙어 후보 표현을 추출하고, 그 추출된 숙어 후보 표현마다 숙어 표현 지수를 측정하여 숙어 표현으로 인식함으로써, 단어의 번역 엔트로피 측정 및 단어의 대표 대역어 추출의 오류를 해결하고 숙어 표현 인식의 정확률을 향상시킬 수 있는, 병렬 말뭉치의 구 정렬을 이용한 숙어 표현 인식 장치 및 그 방법을 제공하는 것을 목적으로 한다.
이를 위하여, 본 발명의 제1 측면에 따른 장치는, 병렬 말뭉치를 입력받는 병렬 말뭉치 입력부; 상기 입력된 병렬 말뭉치의 각 문장 쌍마다 구 정렬을 수행하는 구 정렬부; 상기 수행된 구 정렬 결과를 이용하여 숙어 후보 표현을 추출하는 후보 표현 추출부; 및 상기 추출된 숙어 후보 표현마다 숙어 표현 지수를 측정하고 상기 측정된 숙어 표현 지수와 미리 설정된 임계치와의 비교를 통해 상기 추출된 숙어 후보 표현을 숙어 표현으로 인식하는 숙어 표현 인식부를 포함하는 것을 특징으로 한다.
바람직하게는, 상기 구 정렬부는, 상기 입력된 병렬 말뭉치의 병렬 문장 쌍에서 소스 구와 타겟 구를 연결하여 구 정렬을 수행하는 것을 특징으로 한다.
바람직하게는, 상기 구 정렬부는, 상기 입력된 병렬 말뭉치의 각 문장 쌍마다 단어 대 단어, 하나의 단어 대 여러 단어, 여러 단어 대 여러 단어의 단어 정렬을 포함하는 구 정렬을 수행하는 것을 특징으로 한다.
바람직하게는, 상기 후보 표현 추출부는, 상기 구 정렬된 각 구 쌍에서 소스 부분 구를 하나의 기본 단위로 하여 숙어 후보 표현을 추출하는 것을 특징으로 한다.
바람직하게는, 상기 후보 표현 추출부는, 상기 추출된 숙어 후보 표현 중에서 마침표, 콤마, 따옴표 및 괄호 중에서 하나 이상 존재하는 구를 제거하거나, 관사 또는 전치사를 제외한 단어가 하나인 구를 제거하는 것을 특징으로 한다.
바람직하게는, 상기 숙어 표현 인식부는, 상기 추출된 숙어 후보 표현의 숙어 표현 지수를 번역 엔트로피 함수를 이용해 계산하여 숙어 표현을 인식하는 것을 특징으로 한다.
바람직하게는, 상기 숙어 표현 인식부는, 상기 수행된 구 정렬 결과로부터 획득되는 디폴트 대역구 내의 단어들과 구의 각 단어들의 디폴트 대역구들 내의 단어들을 비교하여 겹치는 비율을 계산하여 숙어 표현을 인식하는 것을 특징으로 한다.
한편, 본 발명의 제2 측면에 따른 방법은, 병렬 말뭉치를 입력받는 병렬 말뭉치 입력 단계; 상기 입력된 병렬 말뭉치의 각 문장 쌍마다 구 정렬을 수행하는 구 정렬 단계; 상기 수행된 구 정렬 결과를 이용하여 숙어 후보 표현을 추출하는 후보 표현 추출 단계; 및 상기 추출된 숙어 후보 표현마다 숙어 표현 지수를 측정하고 상기 측정된 숙어 표현 지수와 미리 설정된 임계치와의 비교를 통해 상기 추출된 숙어 후보 표현을 숙어 표현으로 인식하는 숙어 표현 인식 단계를 포함하는 것을 특징으로 한다.
바람직하게는, 상기 구 정렬 단계는, 상기 입력된 병렬 말뭉치의 병렬 문장 쌍에서 소스 구와 타겟 구를 연결하여 구 정렬을 수행하는 것을 특징으로 한다.
바람직하게는, 상기 구 정렬 단계는, 상기 입력된 병렬 말뭉치의 각 문장 쌍마다 단어 대 단어, 하나의 단어 대 여러 단어, 여러 단어 대 여러 단어의 단어 정렬을 포함하는 구 정렬을 수행하는 것을 특징으로 한다.
바람직하게는, 상기 후보 표현 추출 단계는, 구 정렬된 각 구 쌍에서 소스 부분 구를 하나의 기본 단위로 하여 숙어 후보 표현을 추출하는 것을 특징으로 한다.
바람직하게는, 상기 후보 표현 추출 단계는, 상기 추출된 숙어 후보 표현 중에서 마침표, 콤마, 따옴표 및 괄호 중에서 하나 이상 존재하는 구를 제거하거나, 관사 또는 전치사를 제외한 단어가 하나인 구를 제거하는 것을 특징으로 한다.
바람직하게는, 상기 숙어 표현 인식 단계는, 상기 추출된 숙어 후보 표현의 숙어 표현 지수를 번역 엔트로피 함수를 이용해 계산하여 숙어 표현을 인식하는 것을 특징으로 한다.
바람직하게는, 상기 숙어 표현 인식 단계는, 상기 수행된 구 정렬 결과로부터 획득되는 디폴트 대역구 내의 단어들과 구의 각 단어들의 디폴트 대역구들 내의 단어들을 비교하여 겹치는 비율을 계산하여 숙어 표현을 인식하는 것을 특징으로 한다.
본 발명은, 병렬 말뭉치를 이용해 숙어적 표현을 인식하기 위해 구 정렬(phrase alignment) 정보를 이용하여 단어의 번역 엔트로피 측정 및 단어의 대표 대역어 추출의 오류를 해결할 수 있는 효과가 있다.
또한, 본 발명은 구의 번역 엔트로피 및 구의 대표 대역어를 추출함으로써, 단어에서 구로의 엔트로피 변화 및 대역어 변화에 초점을 맞춰 더욱 정확하게 숙어 표현을 인식할 수 있는 효과가 있다. 본 발명은 병렬 말뭉치의 구 정렬 통계를 이용하여 구 단위의 번역 엔트로피와 디폴트 대역어를 구하여 더욱 정확도 높은 숙어 자동 인식을 가능하게 하는 효과가 있다.
본 발명은, 숙어 표현 인식의 정확률을 향상시킬 수 있는 효과가 있다. 본 발명에 따른 숙어 표현 인식의 정확률을 실험한 결과, 영어-한국어 병렬 말뭉치를 이용한 영어의 숙어 표현 인식에서 단어 정렬을 이용한 종래의 기술과 비교하여 단어 정렬 이용한 종래 기술 대비 평균 정확률이 36.2% 향상되는 효과가 있다.
본 발명은, 다양하고 많은 숙어 표현을 인식할 수 있는 효과가 있다. 본 발명에 따른 숙어 표현 인식 개수를 실험한 결과, 약 50만 문장 쌍의 말뭉치에서 신뢰할 만한 정확률(예컨대, 약 71%)로 50,000개 이상의 숙어 표현을 인식할 수 있는 효과가 있다.
도 1 은 본 발명에 따른 병렬 말뭉치의 구 정렬 정보를 이용한 숙어 인식 장치의 일실시예 구성도,
도 2 는 본 발명에 따른 도 1의 구 정렬부에 의해 수행되는 구 정렬에 대한 일실시예 예시도,
도 3 은 본 발명에 따른 병렬 말뭉치의 구 정렬 정보를 이용한 숙어 인식 방법에 대한 일실시예 흐름도이다.
이하, 첨부된 도면을 참조하여 본 발명에 따른 실시 예를 상세하게 설명한다. 본 발명의 구성 및 그에 따른 작용 효과는 이하의 상세한 설명을 통해 명확하게 이해될 것이다. 본 발명의 상세한 설명에 앞서, 동일한 구성요소에 대해서는 다른 도면 상에 표시되더라도 가능한 동일한 부호로 표시하며, 공지된 구성에 대해서는 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 구체적인 설명은 생략하기로 함에 유의한다.
본 발명은 언어적 제약을 가하여 극소수의 숙어 표현만을 획득하였던 종래 기술의 문제점을 해결하고자 다양한 숙어 표현을 획득할 수 있게 해주는 의미 있는 n-그램(n-gram) 단위를 추출하고자 한다. 본 발명은 의미 있는 n-그램 단위를 추출하여 숙어 후보 표현을 추출하고, 구 단위 번역을 고려한 숙어 표현 인식을 통해 후보 중에서 숙어 표현을 인식할 수 있다.
본 발명은 구 단위 번역을 고려하지 않아 숙어 표현 자체의 번역 성향을 분석하지 못했던 종래 기술의 문제점을 해결하고자 구 정렬에 기반하여 구 단위 번역을 고려한 숙어 표현 인식 장치 및 그 방법에 관한 것이다.
도 1 은 본 발명에 따른 병렬 말뭉치의 구 정렬 정보를 이용한 숙어 인식 장치의 일실시예 구성도이다.
도 1에 도시된 바와 같이, 본 발명에 따른 병렬 말뭉치의 구 정렬 정보를 이용한 숙어 인식 장치(100)는 병렬 말뭉치 입력부(110), 구 정렬부(120), 후보 표현 추출부(130) 및 숙어 표현 인식부(140)를 포함한다.
이하, 본 발명에 따른 숙어 인식 장치(100)의 구성요소 각각에 대하여 살펴보기로 한다.
병렬 말뭉치 입력부(110)는 병렬 말뭉치를 입력받는다. 여기서, 병렬 말뭉치는 소스언어 문장 및 이에 대응하는 타겟언어 대역문으로 이루어져 있다.
그리고 구 정렬부(120)는 병렬 말뭉치 입력부(110)에서 입력된 병렬 말뭉치의 각 문장 쌍마다 구 정렬(Phrase Alignment)을 수행한다. 구 정렬부(120)는 숙어 표현을 인식하기 위해서 병렬 말뭉치에서의 단어 단위 속성뿐만이 아닌 구 단위 속성을 추출한다. 즉, 구 정렬부(120)는 병렬 말뭉치에서의 구 정렬 결과를 구한다.
여기서, 구 정렬은 의미 있는 단어 덩어리인 청크(Chunk)를 추출할 수 있도록 해주고, 구의 번역 성향을 분석하는 데에 사용될 유용한 통계를 제공해줄 수 있다. 구 정렬은 통계기반 기계 번역에서 연구되고 있다. 구 정렬은 주어진 하나의 병렬 문장 쌍에서 소스 문장의 소스 구와 그것의 번역으로 여겨지는 타겟구를 연결한다.
도 2 는 본 발명에 따른 도 1의 구 정렬부(120)에서의 구 정렬에 대한 일실시예 예시도이다.
도 2에 도시된 바와 같이, 구 정렬부(120)는 병렬 말뭉치 입력부(110)로부터 "john kicked the bucket"(210) 및 "존이 세상을 떠났다"(220)라는 소스 문장이 포함된 병렬 말뭉치를 전달받는다. 여기서, 검은 사각형(231)은 병렬 말뭉치에서 각각의 단어 정렬 결과를 나타낸다.
구 정렬부(120)는 "kick the bucket"(211)과 "세상을 떠났다"(221)를 하나의 구로 인식하여 구 정렬(232)을 수행한다. 구 정렬부(120)는 다양한 구 정렬 방식을 통해 구 정렬을 수행할 수 있다. 구 정렬부(120)는 단어 대 단어(1:1) 정렬, 단어 대 여러 단어(1:n) 정렬 및 여러 단어 대 여러 단어(n:m) 정렬 중에서 어느 하나의 구 정렬 결과를 구한다.
한편, 후보 표현 추출부(130)는 구 정렬부(120)에서 수행된 구 정렬 결과를 이용하여 숙어 후보 표현(Candidate Idiomatic Expression)들을 추출한다. 후보 표현 추출부(130)는 복잡도를 줄이면서도 다양한 패턴으로 표현되는 숙어 표현(예컨대, 명사구 숙어, 동사구 숙어 및 전치사구 숙어 등)을 추출할 수 있다. 후보 표현 추출부(130)는 구 정렬부(120)에서 수행된 구 정렬 결과를 이용하여 의미 있는 청크(Chunk)를 인식하여 숙어 후보 표현을 추출한다. 후보 표현 추출부(130)는 구 정렬된 각 구 쌍에서 소스 부분 구를 하나의 기본 단위로 하여 숙어 후보 표현으로 추출한다. 후보 표현 추출부(130)는 이렇게 추출된 모든 후보 구들에 대해서 몇 가지 간단한 규칙을 적용하여 필터링을 수행할 수 있다.
후보 표현 추출부(130)는 마침표, 콤마, 따옴표, 괄호가 하나 이상 존재하는 구를 제거하는 제1 필터링 규칙에 따라 모든 후보 구들에 대해서 필터링을 수행할 수 있다. 또한, 후보 표현 추출부(130)는 관사, 전치사를 제외한 단어가 단 하나인 구를 제거하는 제2 필터링 규칙에 따라 모든 후보 구들에 대해서 필터링을 수행할 수 있다. 후보 표현 추출부(130)는 이러한 제1 및 제2 필터링 규칙을 통해 숙어 후보 표현의 개수를 현저하게 줄여 숙어 인식 장치의 효율을 높일 수 있다.
숙어 표현 인식부(140)는 후보 표현 추출부(130)에서 추출된 숙어 후보 표현마다 숙어 표현 지수를 측정하고, 그 측정된 숙어 표현 지수와 미리 설정된 임계치와의 비교를 통해 숙어 표현을 인식한다. 즉, 숙어 표현 인식부(140)는 복수의 숙어 후보 표현마다 숙어 표현 지수를 측정함으로써 얼마나 숙어 표현에 가까운지에 대해 순위화한다. 이어서, 숙어 표현 인식부(140)는 측정된 숙어 표현 지수와 미리 정해진 임계치와 비교하여 숙어 표현을 인식한다.
구체적으로 살펴보면, 숙어 표현 인식부(140)는 각 후보 표현마다 숙어 표현 지수를 부여한다. 여기서, 높은 숙어 표현 지수를 받은 숙어 후보 표현은 상대적으로 숙어 표현이라 할 수 있다. 반면, 낮은 숙어 표현 지수를 받은 후보 표현은 상대적으로 숙어가 아닌 일반적인 표현이라 할 수 있다.
숙어 표현 인식부(140)는 구 정렬 결과에 기반한 두 가지의 숙어 표현 지수 함수를 이용하여 각 후보 표현마다 숙어 표현 지수를 부여할 수 있다.
첫째로, 번역 엔트로피의 감소율(DTE: Decrement of Translational Entropy)에 대한 숙어 표현 지수 함수(이하, '제1 숙어 표현 지수 함수'라 함)에 대해서 살펴보기로 한다.
숙어 표현 내의 개별 단어는 다양한 단어로 번역될 수 있다. 하지만, 제1 숙어 표현 지수 함수는 개별 단어들이 구로 묶였을 경우에 구 자체의 번역이 몇 가지 고정된 표현으로 번역될 것이라는 가정을 갖는 숙어 표현 지수 함수이다. 예를 들면, "lie down"에서 "lie"와 "down" 각각은 수많은 다양한 대역어를 갖지만, "lie down"은 주로 "눕다" 또는 "드러눕다"로 제한적으로 번역되는 경향이 있다. 하기의 [수학식 1]은 이러한 번역 경향을 반영한 제1 숙어 표현 지수 함수(DTE(p))를 나타낸다.
Figure 112010057123597-pat00001
여기서, DTE(p)는 제1 숙어 표현 지수 함수를 나타내며, Wp는 하나의 구(p)에서의 단어들의 집합을 나타내며, Tp는 구(p)로 정렬된 타겟구들의 집합을 나타내며, H(Tp|p)는 하기의 [수학식 2] 및 [수학식 3]에 따라 계산된 구(p)의 번역 엔트로피를 나타낸다.
Figure 112010057123597-pat00002
Figure 112010057123597-pat00003
여기서, P(t|p)는 소스구(p)가 타겟구(t)로 번역될 확률을 나타내며, count(t,p p)는 소스구(p) 및 타겟구(t)가 함께 위치한 개수를 나타낸다.
제1 숙어 표현 지수 함수(DTE(p))를 이용하여 번역 엔트로피의 감소율을 계산하는 일례를 하기의 [표 1]을 참조하여 살펴보기로 한다.
Figure 112010057123597-pat00004
상기의 [표 1]에 표시된 바와 같이, 후보 구가 "tv drama"와 "new york"인 경우에 그 후보 구에 대한 제1 숙어 표현 지수 함수의 계산 과정을 살펴보기로 한다.
첫째, "tv drama"인 경우에 제1 숙어 표현 지수 함수(DTE(tv drama)는 "0.32"로 계산된다.
둘째, "new york"인 경우에 제1 숙어 표현 지수 함수(DTE(new york)는 "0.72"로 계산된다.
제1 숙어 표현 지수 함수값이 낮을수록 숙어 표현으로 인식될 확률이 증가하고, 제1 숙어 표현 지수 함수값이 높을수록 숙어 표현으로 인식될 확률이 낮아진다.
둘째로, 번역된 단어들의 차이점(DTW: Difference of Translated Words)(이하, '제2 숙어 표현 지수 함수'라 함)에 대해서 살펴보기로 한다.
제2 숙어 표현 지수 함수(DTW)인 번역된 단어들의 차이점은 구 정렬로부터 얻을 수 있는 디폴트 대역구(Default Phrase Translation)를 이용한다. 디폴트 대역구란 한 소스 구의 N-베스트(best) 번역을 나타낸다. 여기서, N-베스트 번역이란 가장 많이 번역되는 대역구를 의미한다. 제2 숙어 표현 지수 함수는 숙어 표현의 각 개별 단어의 디폴트 대역구와 그 표현 자체의 디폴트 대역구 사이에는 어휘 차이가 클 것이라는 가정을 내포하고 있다. 이는 숙어 표현으로 번역된 단어들의 차이점이 크다는 것을 의미한다. 번역된 단어들의 차이점을 나타내는 제2 숙어 표현 지수 함수는 하기의 [수학식 4]에 나타나 있다.
Figure 112010057123597-pat00005
여기서, Dp는 구(p)의 디폴트 대역구 즉, 구(p)의 N-베스트 번역들의 집합을 나타내며, Dw는 단어(w)의 N-베스트 번역들을 나타낸다. 'tokens()'은 구 집합이 주어졌을 때의 그 원소들로부터 얻어지는 모든 단어들의 집합을 출력하는 함수를 나타내며, 하기의 [수학식 5]와 같이 표현된다.
Figure 112010057123597-pat00006
여기서, Dp는 구(p)의 N-베스트 번역들을 나타낸다.
제2 숙어 표현 지수 함수(DTW(p))를 이용하여 번역된 단어들의 차이점을 계산하는 일례를 하기의 [표 2]를 참조하여 살펴보기로 한다.
Figure 112010057123597-pat00007
상기의 [표 2]에 표시된 바와 같이, 후보 구(Candidate Phrase)가 "tv drama"와 "takechangeof"인 경우에 그 후보 구에 대한 제2 숙어 표현 지수 함수의 계산 과정(Candidate Procedure)을 살펴보기로 한다.
첫째, "tv drama"인 경우에 제2 숙어 표현 지수 함수(DTW(tv drama)는 "0.00"로 계산된다.
둘째, "takechangeof"인 경우에 제2 숙어 표현 지수 함수(DTW(takechangeof)는 "1.00"로 계산된다.
제2 숙어 표현 지수 함수값이 높을수록 숙어 표현으로 인식될 확률이 증가하고, 제2 숙어 표현 지수 함수값이 낮을수록 숙어 표현으로 인식될 확률이 낮아진다.
제2 숙어 표현 지수 함수(DTW)는 구(p)의 디폴트 대역구 내의 단어들과 구(p)의 각 단어들의 디폴트 대역구들 내의 단어들을 비교하여 겹치는 비율을 계산한다. 여기서, 디폴드 대역구 내의 단어들과 각 단어들의 디폴트 대역구들 내의 단어들이 적게 겹칠수록 숙어 표현이고, 많이 겹칠수록 숙어가 아닌 표현이다. 제2 숙어 표현 지수 함수(DTW)는 숙어 표현에 큰 값을 할당하기 위해 그 비율 값을 '1'에서 뺀다. 제2 숙어 표현 지수 함수는 구 정렬을 이용함으로써 후보 구 자체의 디폴트 대역구를 직접적으로 추출할 수 있어 구 레벨의 번역 과정을 숙어 표현 인식에 반영할 수 있다.
통합 숙어 표현 지수 함수는 제1 및 제2 숙어 표현 지수 함수(DTE 및 DTW)를 선형 결합하여 하기의 [수학식 6]와 같이 나타난다.
Figure 112010057123597-pat00008
여기서, Score(p)는 구(p)의 통합 숙어 표현 지수 함수값을 나타내고, DTE(p)는 제1 숙어 표현 지수 함수를 나타내고, DTW(p)는 제2 숙어 표현 지수 함수를 나타내고, λ는 숙어 표현 지수 함수의 상수값을 나타낸다.
도 3 은 본 발명에 따른 병렬 말뭉치의 구 정렬 정보를 이용한 숙어 인식 방법에 대한 일실시예 흐름도이다.
병렬 말뭉치 입력부(110)는 병렬 말뭉치를 입력받는다(302).
구 정렬부(120)는 병렬 말뭉치 입력부(110)에서 입력된 병렬 말뭉치의 각 문장 쌍마다 구 정렬을 수행한다(304). 구 정렬부(120)는 숙어 표현 인식을 위해서 병렬 말뭉치에서의 단어 단위 속성뿐만이 아닌 구 단위 속성을 추출한다. 구 정렬부(120)는 병렬 말뭉치에서의 구 정렬 결과를 구한다.
한편, 후보 표현 추출부(130)는 구 정렬부(120)에서 수행된 구 정렬 결과를 이용하여 숙어 후보 표현들을 추출한다(306). 후보 표현 추출부(130)는 복잡도를 줄이면서도 다양한 패턴으로 표현되는 숙어 표현(예컨대, 명사구 숙어, 동사구 숙어 및 전치사구 숙어 등)을 추출할 수 있다. 후보 표현 추출부(130)는 구 정렬부(120)에서 수행된 구 정렬 결과를 이용하여 의미 있는 청크(Chunk)를 인식하여 숙어 후보 표현을 추출한다. 후보 표현 추출부(130)는 구 정렬된 각 구 쌍에서 소스 부분 구를 하나의 기본 단위로 하여 숙어 후보 표현으로 추출한다. 후보 표현 추출부(130)는 이렇게 추출된 모든 후보 구들에 대해서 몇 가지 간단한 규칙을 적용하여 필터링을 수행할 수 있다.
후보 표현 추출부(130)는 마침표, 콤마, 따옴표, 괄호가 하나 이상 존재하는 구를 제거하는 제1 필터링 규칙에 따라 모든 후보 구들에 대해서 필터링을 수행할 수 있다. 또한, 후보 표현 추출부(130)는 관사, 전치사를 제외한 단어가 단 하나인 구를 제거하는 제2 필터링 규칙에 따라 모든 후보 구들에 대해서 필터링을 수행할 수 있다. 후보 표현 추출부(130)는 이러한 제1 및 제2 필터링 규칙을 통해 숙어 후보 표현의 개수를 현저하게 줄여 숙어 인식 장치의 효율을 높일 수 있다.
숙어 표현 인식부(140)는 후보 표현 추출부(130)에서 추출된 복수의 숙어 후보 표현마다 숙어 표현 지수를 측정함으로써 얼마나 숙어 표현에 가까운지에 대해 순위화한다(308). 숙어 표현 인식부(140)는 측정된 숙어 표현 지수와 미리 정해진 임계치와 비교하여 숙어 표현을 인식한다.
구체적으로 살펴보면, 숙어 표현 인식부(140)는 각 후보 표현마다 숙어 표현 지수를 부여한다. 여기서, 높은 숙어 표현 지수를 받은 숙어 후보 표현은 상대적으로 숙어 표현이라 할 수 있다. 반면, 낮은 숙어 표현 지수를 받은 후보 표현은 상대적으로 숙어가 아닌 일반적인 표현이라 할 수 있다. 숙어 표현 인식부(140)는 구 정렬 결과에 기반한 두 가지의 숙어 표현 지수 함수를 이용하여 각 후보 표현마다 숙어 표현 지수 함수값을 부여한다.
한편, 본 발명은 상기 병렬 말뭉치의 구 정렬을 이용한 숙어 표현 인식 방법을 소프트웨어적인 프로그램으로 구현하여 컴퓨터로 읽을 수 있는 소정 기록매체에 기록해 둠으로써 다양한 재생장치에 적용할 수 있다.
다양한 재생장치는 PC, 노트북, 휴대용 단말 등일 수 있다.
예컨대, 기록매체는 각 재생장치의 내장형으로 하드디스크, 플래시 메모리, RAM, ROM 등이거나, 외장형으로 CD-R, CD-RW와 같은 광디스크, 콤팩트 플래시 카드, 스마트 미디어, 메모리 스틱, 멀티미디어 카드일 수 있다.
이 경우, 컴퓨터로 읽을 수 있는 기록매체에 기록한 프로그램은, 앞서 설명한 바와 같이, 병렬 말뭉치를 입력받는 병렬 말뭉치 입력 기능; 상기 입력된 병렬 말뭉치의 각 문장 쌍마다 구 정렬을 수행하는 구 정렬 기능; 상기 수행된 구 정렬 결과를 이용하여 숙어 후보 표현을 추출하는 후보 표현 추출 기능; 및 상기 추출된 숙어 후보 표현마다 숙어 표현 지수를 측정하고 상기 측정된 숙어 표현 지수와 미리 설정된 임계치와의 비교를 통해 상기 추출된 숙어 후보 표현을 숙어 표현으로 인식하는 숙어 표현 인식 기능을 포함하여 실행될 수 있다.
여기서, 각 과정에서의 구체적인 기술은 상기의 병렬 말뭉치의 구 정렬을 이용한 숙어 표현 인식 장치 및 그 방법의 구성과 동일하므로 중복되는 기술 설명은 생략한다.
이상의 설명은 본 발명을 예시적으로 설명한 것에 불과하며, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 본 발명의 기술적 사상에서 벗어나지 않는 범위에서 다양한 변형이 가능할 것이다. 따라서 본 발명의 명세서에 개시된 실시 예들은 본 발명을 한정하는 것이 아니다. 본 발명의 범위는 아래의 특허청구범위에 의해 해석되어야 하며, 그와 균등한 범위 내에 있는 모든 기술도 본 발명의 범위에 포함되는 것으로 해석해야 할 것이다.
본 발명은 병렬 말뭉치의 구 정렬 정보를 이용하여 숙어 후보 표현을 추출하고, 그 추출된 숙어 후보 표현마다 숙어 표현 지수를 측정하여 숙어 표현으로 인식함으로써, 단어의 번역 엔트로피 측정 및 단어의 대표 대역어 추출의 오류를 해결하고 숙어 표현 인식의 정확률을 향상시킬 수 있다.
100: 숙어 표현 인식 장치 110: 병렬 말뭉치 입력부
120: 구 정렬부 130: 후보 표현 추출부
140: 숙어 표현 인식부

Claims (15)

  1. 병렬 말뭉치를 입력받는 병렬 말뭉치 입력부;
    상기 입력된 병렬 말뭉치의 각 문장 쌍마다 복수 단어 대 복수 단어의 단어 정렬을 포함하는 구 정렬을 수행하는 구 정렬부;
    상기 수행된 구 정렬 결과를 이용하여 복수의 숙어 후보 표현을 추출하는 후보 표현 추출부; 및
    상기 추출된 숙어 후보 표현마다 숙어 표현 지수를 측정하고 상기 측정된 숙어 표현 지수와 미리 설정된 임계치와의 비교를 통해 상기 추출된 숙어 후보 표현을 숙어 표현으로 인식하는 숙어 표현 인식부를 포함하고,
    상기 숙어 표현 인식부는 추출된 숙어 후보 표현에 대하여, 번역엔트로피 감소율에 대한 제1숙어표현지수함수 DTE(p) 및 번역된 단어들의 차이점인 제2 숙어표현지수함수 DTW(p)를 산출하고, 제1,2 숙어표현지수함수의 선형결합을 통해 통합숙어표현지수 score(p)를 산출하여, 상기 통합숙어표현지수를 상기 임계치와 비교하여 상기 추출된 숙어 후보 표현을 숙어 표현으로 인식할지를 결정하는 것을 특징으로 하는 병렬 말뭉치의 구 정렬을 이용한 숙어 표현 인식 장치.
    [수학식 1]
    Figure 112017010092666-pat00012

    (여기서, Wp는 하나의 구(p)에서의 단어들의 집합을 나타내며, Tp는 구(p)로 정렬된 타겟구들의 집합을 나타내며, H(Tp|p)는 구(p)의 번역 엔트로피를 나타냄)
    [수학식 4]
    Figure 112017010092666-pat00013

    (여기서, Dp는 구(p)의 디폴트 대역구 즉, 구(p)의 N-베스트 번역들의 집합을 나타내며, Dw는 단어(w)의 N-베스트 번역들을 나타내고, 'tokens()'은 구 집합이 주어졌을 때의 그 원소들로부터 얻어지는 모든 단어들의 집합을 출력하는 함수임)
    [수학식 6]
    Figure 112017010092666-pat00014

    (여기서, λ는 숙어 표현 지수 함수의 상수값)
  2. 제 1 항에 있어서,
    상기 구 정렬부는,
    상기 입력된 병렬 말뭉치의 병렬 문장 쌍에서 소스 구와 타겟 구를 연결하여 구 정렬을 수행하는 병렬 말뭉치의 구 정렬을 이용한 숙어 표현 인식 장치.
  3. 제 1 항에 있어서,
    상기 구 정렬부는,
    상기 입력된 병렬 말뭉치의 각 문장 쌍마다 단어 대 단어, 하나의 단어 대 복수 단어를 더 포함하는 구 정렬을 수행하는 병렬 말뭉치의 구 정렬을 이용한 숙어 표현 인식 장치.
  4. 제 1 항에 있어서,
    상기 후보 표현 추출부는,
    상기 구 정렬된 각 구 쌍에서 소스 부분 구를 하나의 기본 단위로 하여 숙어 후보 표현을 추출하는 병렬 말뭉치의 구 정렬을 이용한 숙어 표현 인식 장치.
  5. 제 1 항에 있어서,
    상기 후보 표현 추출부는,
    상기 추출된 숙어 후보 표현 중에서 마침표, 콤마, 따옴표 및 괄호 중에서 하나 이상 존재하는 구를 제거하거나, 관사 또는 전치사를 제외한 단어가 하나인 구를 제거하는 병렬 말뭉치의 구 정렬을 이용한 숙어 표현 인식 장치.
  6. 삭제
  7. 제 1 항에 있어서,
    상기 숙어 표현 인식부는,
    상기 수행된 구 정렬 결과로부터 획득되는 디폴트 대역구 내의 단어들과 구의 각 단어들의 디폴트 대역구들 내의 단어들을 비교하여 겹치는 비율을 계산하여 제2 숙어표현지수함수를 산출하는 병렬 말뭉치의 구 정렬을 이용한 숙어 표현 인식 장치.
  8. 숙어 표현 인식 장치가 병렬 말뭉치를 입력받는 병렬 말뭉치 입력 단계;
    상기 입력된 병렬 말뭉치의 각 문장 쌍마다 복수 단어 대 복수 단어의 단어 정렬을 포함하는 구 정렬을 수행하는 구 정렬 단계;
    상기 수행된 구 정렬 결과를 이용하여 복수의 숙어 후보 표현을 추출하는 후보 표현 추출 단계; 및
    상기 추출된 숙어 후보 표현마다 숙어 표현 지수를 측정하고 상기 측정된 숙어 표현 지수와 미리 설정된 임계치와의 비교를 통해 상기 추출된 숙어 후보 표현을 숙어 표현으로 인식하는 숙어 표현 인식 단계를 포함하고,
    상기 숙어 표현 인식 단계는, 추출된 숙어 후보 표현에 대하여, 번역엔트로피 감소율에 대한 제1숙어표현지수함수 DTE(p) 및 번역된 단어들의 차이점인 제2 숙어표현지수함수 DTW(p)를 산출하고, 제1,2 숙어표현지수함수의 선형결합을 통해 통합숙어표현지수 Score(p)를 산출하여, 상기 통합숙어표현지수를 상기 임계치와 비교하여 상기 추출된 숙어 후보 표현을 숙어 표현으로 인식할지를 결정하는 것을 특징으로 하는 병렬 말뭉치의 구 정렬을 이용한 숙어 표현 인식 방법.
    [수학식 1]
    Figure 112017010092666-pat00015

    (여기서, Wp는 하나의 구(p)에서의 단어들의 집합을 나타내며, Tp는 구(p)로 정렬된 타겟구들의 집합을 나타내며, H(Tp|p)는 구(p)의 번역 엔트로피를 나타냄)
    [수학식 4]
    Figure 112017010092666-pat00016

    (여기서, Dp는 구(p)의 디폴트 대역구 즉, 구(p)의 N-베스트 번역들의 집합을 나타내며, Dw는 단어(w)의 N-베스트 번역들을 나타내고, 'tokens()'은 구 집합이 주어졌을 때의 그 원소들로부터 얻어지는 모든 단어들의 집합을 출력하는 함수임)
    [수학식 6]
    Figure 112017010092666-pat00017

    (여기서, λ는 숙어 표현 지수 함수의 상수값)
  9. 제 8 항에 있어서,
    상기 구 정렬 단계는,
    상기 입력된 병렬 말뭉치의 병렬 문장 쌍에서 소스 구와 타겟 구를 연결하여 구 정렬을 수행하는 병렬 말뭉치의 구 정렬을 이용한 숙어 표현 인식 방법.
  10. 제 8 항에 있어서,
    상기 구 정렬 단계는,
    상기 입력된 병렬 말뭉치의 각 문장 쌍마다 단어 대 단어, 하나의 단어 대 복수 단어를 더 포함하는 구 정렬을 수행하는 병렬 말뭉치의 구 정렬을 이용한 숙어 표현 인식 방법.
  11. 제 8 항에 있어서,
    상기 후보 표현 추출 단계는,
    구 정렬된 각 구 쌍에서 소스 부분 구를 하나의 기본 단위로 하여 숙어 후보 표현을 추출하는 병렬 말뭉치의 구 정렬을 이용한 숙어 표현 인식 방법.
  12. 제 8 항에 있어서,
    상기 후보 표현 추출 단계는,
    상기 추출된 숙어 후보 표현 중에서 마침표, 콤마, 따옴표 및 괄호 중에서 하나 이상 존재하는 구를 제거하거나, 관사 또는 전치사를 제외한 단어가 하나인 구를 제거하는 병렬 말뭉치의 구 정렬을 이용한 숙어 표현 인식 방법.
  13. 삭제
  14. 제 8 항에 있어서,
    상기 숙어 표현 인식 단계는,
    상기 수행된 구 정렬 결과로부터 획득되는 디폴트 대역구 내의 단어들과 구의 각 단어들의 디폴트 대역구들 내의 단어들을 비교하여 겹치는 비율을 계산하여 상기 제2 숙어표현지수함수를 산출하는 병렬 말뭉치의 구 정렬을 이용한 숙어 표현 인식 방법.
  15. 제 8 항 내지 제 12 항 및 제14항 중 어느 한 항에 의한 숙어 표현 인식 방법을 실행시키는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체.
KR1020100085959A 2010-09-02 2010-09-02 병렬 말뭉치의 구 정렬을 이용한 숙어 표현 인식 장치 및 그 방법 KR101745349B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020100085959A KR101745349B1 (ko) 2010-09-02 2010-09-02 병렬 말뭉치의 구 정렬을 이용한 숙어 표현 인식 장치 및 그 방법
PCT/KR2011/003832 WO2012030053A2 (ko) 2010-09-02 2011-05-25 병렬 말뭉치의 구 정렬을 이용한 숙어 표현 인식 장치 및 그 방법
US13/820,199 US20140303955A1 (en) 2010-09-02 2011-05-25 Apparatus and method for recognizing an idiomatic expression using phrase alignment of a parallel corpus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100085959A KR101745349B1 (ko) 2010-09-02 2010-09-02 병렬 말뭉치의 구 정렬을 이용한 숙어 표현 인식 장치 및 그 방법

Publications (2)

Publication Number Publication Date
KR20120022390A KR20120022390A (ko) 2012-03-12
KR101745349B1 true KR101745349B1 (ko) 2017-06-09

Family

ID=45773336

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100085959A KR101745349B1 (ko) 2010-09-02 2010-09-02 병렬 말뭉치의 구 정렬을 이용한 숙어 표현 인식 장치 및 그 방법

Country Status (3)

Country Link
US (1) US20140303955A1 (ko)
KR (1) KR101745349B1 (ko)
WO (1) WO2012030053A2 (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9785704B2 (en) * 2012-01-04 2017-10-10 Microsoft Technology Licensing, Llc Extracting query dimensions from search results
KR102013230B1 (ko) * 2012-10-31 2019-08-23 십일번가 주식회사 구문 전처리 기반의 구문 분석 장치 및 그 방법
US10347240B2 (en) * 2015-02-26 2019-07-09 Nantmobile, Llc Kernel-based verbal phrase splitting devices and methods
CN106202068B (zh) * 2016-07-25 2019-01-22 哈尔滨工业大学 基于多语平行语料的语义向量的机器翻译方法
US11288452B2 (en) * 2019-07-26 2022-03-29 Beijing Didi Infinity Technology And Development Co., Ltd. Dual monolingual cross-entropy-delta filtering of noisy parallel data and use thereof

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080004862A1 (en) * 2006-06-28 2008-01-03 Barnes Thomas H System and Method for Identifying And Defining Idioms

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6161083A (en) * 1996-05-02 2000-12-12 Sony Corporation Example-based translation method and system which calculates word similarity degrees, a priori probability, and transformation probability to determine the best example for translation
KR100261273B1 (ko) * 1997-12-05 2000-07-01 정선종 다국어 기계번역 장치를 위한 다국어용 숙어 인식 시스템
KR20010027882A (ko) * 1999-09-16 2001-04-06 정선종 대역문틀에 기반한 구 단위 숙어의 인식 장치 및 그 방법
JP2005527894A (ja) * 2002-03-28 2005-09-15 ユニバーシティ・オブ・サザン・カリフォルニア 統計的機械翻訳
KR100530154B1 (ko) * 2002-06-07 2005-11-21 인터내셔널 비지네스 머신즈 코포레이션 변환방식 기계번역시스템에서 사용되는 변환사전을생성하는 방법 및 장치
US7249012B2 (en) * 2002-11-20 2007-07-24 Microsoft Corporation Statistical method and apparatus for learning translation relationships among phrases
US7765098B2 (en) * 2005-04-26 2010-07-27 Content Analyst Company, Llc Machine translation using vector space representations
US7536295B2 (en) * 2005-12-22 2009-05-19 Xerox Corporation Machine translation using non-contiguous fragments of text
WO2009149549A1 (en) * 2008-06-09 2009-12-17 National Research Council Of Canada Method and system for using alignment means in matching translation
US8244519B2 (en) * 2008-12-03 2012-08-14 Xerox Corporation Dynamic translation memory using statistical machine translation
KR101266361B1 (ko) * 2009-09-10 2013-05-22 한국전자통신연구원 구조화된 번역 메모리 기반의 자동 번역 시스템 및 자동 번역 방법
US8548796B2 (en) * 2010-01-20 2013-10-01 Xerox Corporation Statistical machine translation system and method for translation of text into languages which produce closed compound words
US8543374B2 (en) * 2010-08-12 2013-09-24 Xerox Corporation Translation system combining hierarchical and phrase-based models

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080004862A1 (en) * 2006-06-28 2008-01-03 Barnes Thomas H System and Method for Identifying And Defining Idioms

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
B. Villada et al., Identifying idiomatic expressions using automatic word alignment, Proc. of the EACL 2006 Workshop on Multiword Expressions, 2006.*
HM Caseli et al., Statistically-driven alignment-based multiword expression identification for technical domains, Proc. of the Workshop on Multiword Expressions, 2009.

Also Published As

Publication number Publication date
KR20120022390A (ko) 2012-03-12
US20140303955A1 (en) 2014-10-09
WO2012030053A2 (ko) 2012-03-08
WO2012030053A3 (ko) 2012-04-19

Similar Documents

Publication Publication Date Title
US9367541B1 (en) Terminological adaptation of statistical machine translation system through automatic generation of phrasal contexts for bilingual terms
US8548794B2 (en) Statistical noun phrase translation
US8886514B2 (en) Means and a method for training a statistical machine translation system utilizing a posterior probability in an N-best translation list
He et al. Interpretese vs. translationese: The uniqueness of human strategies in simultaneous interpretation
US9600469B2 (en) Method for detecting grammatical errors, error detection device for same and computer-readable recording medium having method recorded thereon
Smith On integrating discourse in machine translation
US9311299B1 (en) Weakly supervised part-of-speech tagging with coupled token and type constraints
KR101745349B1 (ko) 병렬 말뭉치의 구 정렬을 이용한 숙어 표현 인식 장치 및 그 방법
Gupta et al. Improving mt system using extracted parallel fragments of text from comparable corpora
Van Der Goot et al. Lexical normalization for code-switched data and its effect on POS-tagging
Mansouri et al. State-of-the-art english to persian statistical machine translation system
KR102398683B1 (ko) 패러프레이징을 이용한 감정 사전 구축 및 이를 이용한 텍스트 상의 감정 구조 인식 시스템 및 방법
KR102108129B1 (ko) 텍스트 이모티콘 의미 해석 장치, 이를 위한 기록매체
CN111178060A (zh) 一种基于语言模型的韩语分词还原方法
Zhou et al. Constrained phrase-based translation using weighted finite-state transducers
CN112183117B (zh) 一种翻译评价的方法、装置、存储介质及电子设备
Steele et al. Divergences in the usage of discourse markers in English and Mandarin Chinese
Do et al. Improving translation of emphasis with pause prediction in speech-to-speech translation systems.
US9779079B2 (en) Authoring system
JP2006004366A (ja) 機械翻訳システム及びそのためのコンピュータプログラム
KR101753708B1 (ko) 통계적 기계 번역에서 명사구 대역 쌍 추출 장치 및 방법
Sim Smith Coherence in machine translation
Dinh Building an annotated English-Vietnamese parallel corpus
Fujita et al. A method of creating new valency entries
Long et al. Patent nmt integrated with large vocabulary phrase translation by smt at wat 2017

Legal Events

Date Code Title Description
N231 Notification of change of applicant
N231 Notification of change of applicant
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant