KR20090046280A - 기계 번역을 위한 문장 분할 방법 - Google Patents

기계 번역을 위한 문장 분할 방법 Download PDF

Info

Publication number
KR20090046280A
KR20090046280A KR1020070112310A KR20070112310A KR20090046280A KR 20090046280 A KR20090046280 A KR 20090046280A KR 1020070112310 A KR1020070112310 A KR 1020070112310A KR 20070112310 A KR20070112310 A KR 20070112310A KR 20090046280 A KR20090046280 A KR 20090046280A
Authority
KR
South Korea
Prior art keywords
sentence
pattern
chinese
text
machine translation
Prior art date
Application number
KR1020070112310A
Other languages
English (en)
Inventor
이종훈
이근배
이동현
Original Assignee
포항공과대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 포항공과대학교 산학협력단 filed Critical 포항공과대학교 산학협력단
Priority to KR1020070112310A priority Critical patent/KR20090046280A/ko
Publication of KR20090046280A publication Critical patent/KR20090046280A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 통계적 기계 번역 기술에 기반한 음성 자동 통역 시스템에서 입력 문장이 길어짐에 따라 번역의 질이 떨어지는 현상을 개선하기 위한 기계 번역을 위한 문장 분할 방법에 관한 것이다. 본 발명에 따른 중문 분할 기술은 통계적 기계 번역기에 입력으로 들어오는 문장들 중 중문에 적용되어 그 문장들을 2개 이상의 짧은 문장으로 나누어 줌으로써 한 번에 번역되는 입력 문장의 길이를 줄임으로써 전체적인 번역 성능을 향상시킬 수 있다. 본 발명에서 문장 분할은 변환 기반(transformation-based) 방법론에 의해 이루어지며 이에 필요한 각 변환(transformation)들은 미리 분리된 문장 예제로부터 자동적으로 학습된다.
기계, 번역, 문장, 분할, 중문, 자동, 유발, 환경, 다시쓰기

Description

기계 번역을 위한 문장 분할 방법{Method and system for partitioning sentence for machine translation}
본 발명은 기계 번역을 위한 문장 분할 방법에 관한 것으로서, 더 상세하게는 예를 들어 통계적 기계 번역기에 입력으로 들어오는 문장 중에서 중문(重文; compound sentence, 둘 이상의 절이 이어져서 만들어진 문장)에 해당하는 문장을, 미리 분리되어 마련된 문장 예제로부터 자동적으로 학습되는 변환 기반(transformation-based) 방법론에 의해, 2개 이상의 짧은 문장으로 분할하여 번역할 수 있게 함으로써 중문을 한번에 번역하는 것보다 번역 성능을 향상시킬 수 있도록 한 기계 번역을 위한 문장 분할 방법에 관한 것이다.
당업자에게 잘 알려져 있는 바와 같이, 기계 번역 기술은 일반적으로 통계적 또는 분석적인 방법론의 차이를 막론하고 장문(長文; 긴글) 또는 중문(重文; compound sentence)의 입력에 대해서 상대적으로 취약한 면을 보인다. 이러한 문제를 완화하기 위해 종래에도 장문 또는 중문을 분할하여 번역함으로써 번역 성공률을 높이는 방법이 제시된 바 있다. 그러나 영한 번역, 즉 입력 문장이 영문인 경우에 대한 방법은 제시되었으나 한국어 입력을 대상으로는 그러한 바가 없다. 영문 분할의 경우 긴 문장에서 앞 뒤 문장의 경계점만 찾으면 분리가 가능하나 한국어의 경우 적절한 종결어미를 결정지어 주어야 하는 문제가 있으므로 단순히 분할 위치만을 찾는 방법은 적용에 한계가 있다. 따라서 한영 번역 등의 한국어 문장을 입력으로 하는 기계 번역에 있어서는 종래와 다른 기술이 요구된다.
따라서, 본 발명이 이루고자 하는 기술적 과제는, 예를 들어 통계적 기계 번역기에 입력으로 들어오는 문장 중에서 중문(重文; compound sentence)에 해당하는 문장을, 미리 분리되어 마련된 문장 예제로부터 자동적으로 학습되는 변환 기반(transformation-based) 방법론에 의해, 2개 이상의 짧은 문장으로 분할하여 번역할 수 있게 함으로써 중문을 한번에 번역하는 것보다 번역 성능을 향상시킬 수 있도록 한 기계 번역을 위한 문장 분할 방법을 제공하는 데 있다.
본 발명은 상기한 기술적 과제를 달성하기 위하여, 기계 번역을 위한 문장 분할 방법에 있어서, 중문 분리의 예제를 데이터베이스로 구축하기 위해 중문 원문을 수집하는 단계; 상기 수집된 중문 원문을 접속패턴을 중심으로 앞부분 문장과 뒷부분 문장으로 분리(분할)하여 데이터베이스화하는 단계; 상기 앞부분 문장과 뒷부분 문장에 대해 형태소 분석을 하는 단계;를 포함하는 것을 특징으로 하는 기계 번역을 위한 문장 분할 방법이 제공된다.
즉, 본 발명은 기계 번역을 위한 문장 분할 방법에 있어서, 분할한 문장 예제로부터 변환을 추출하고 확장하는 단계 및 이를 이용하여 실제 중문 분할에 적용하는 과정을 포함하는 방법을 제공한다.
바람직하게는, 상기 분할한 예제로부터 변환을 추출하는 단계는 예제에서 문장 분할 후 달라진 부분은 다시 쓰기 규칙으로 추출하고 초기 변환을 정립한다.
바람직하게는, 상기 변환을 확장하는 단계는 단지 문장 분할 후에 서로 다른 부분만으로 구성된 초기 변환을 주어진 예제들에 대해서 오류가 없을 때까지 유발 환경을 확장하고, 기계 번역 성능을 평가하는 정량적 평가 기준에 따라 이들 사이의 순위를 정립한다.
바람직하게는, 상기 변환을 실제 중문 분할에 적용하는 과정은 주어진 입력에 대해 적합한 유발 환경을 가진 변환을 검색하고, 그에 대응하는 다시 쓰기 규칙을 적용하여 입력문을 분리하는 방법 및 이들을 각각 번역하여 접속패턴에 따라 재결합시킴으로서 번역문을 생성하는 방법을 포함한다.
이상에서 살펴본 바와 같이 본 발명에 따르면, 한국어를 원문으로 하는 문장이 기계 번역 장치에 입력될 경우 중문에 해당하는 문장을 2개 이상의 짧은 문장으로 분리함으로써 문장 길이를 줄여 이를 통해 기계 번역의 성능을 향상 시킬 수 있는 이점을 제공한다.
이상 본 발명의 바람직한 실시예에 대해 상세히 기술하였지만, 본 발명이 속하는 기술분야에 있어서 통상의 지식을 가진 사람이라면, 첨부된 청구 범위에 정의된 본 발명의 정신 및 범위를 벗어나지 않으면서 본 발명을 여러 가지로 변형 또는 변경하여 실시할 수 있음을 알 수 있을 것이다. 따라서 본 발명의 앞으로의 실시예들의 변경은 본 발명의 기술을 벗어날 수 없을 것이다.
이하, 첨부한 도면을 참조하면서 본 발명에 따른 기계 번역을 위한 문장 분 할 방법의 바람직한 실시예를 상세하게 설명한다. 본 발명을 설명함에 있어서 관련된 공지기술 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략할 것이다. 그리고, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
도 1은 본 발명에 따른 기계 번역을 위한 문장 분할 방법을 위한 말뭉치(corpus) 구축 과정의 실시예도이고, 도 2는 본 발명에 따른 기계 번역을 위한 문장 분할 방법에 적용되는 유발환경(triggering environment) 확장 과정의 흐름도, 도 3은 본 발명에 따른 기계 번역을 위한 문장 분할 방법에 적용되는 유발환경 확장과정의 개념도, 도 4는 본 발명에 따른 기계 번역을 위한 문장 분할 방법이 적용되는 시스템의 구성도이다.
본 발명에서의 중문 분할 규칙은 □□변환(transformation)□□ 이라고 하는 형태로 규정되며, 데이터베이스화된 중문 분할 예제로부터 자동학습되고, 학습된 규칙은 기계 번역 시에 전처리로서 작용하여 중문을 분할하는데 사용된다. 본 발명의 작동 원리에 대한 이해를 돕기 위해 변환의 개념, 학습과정 및 중문 분할에 관한 것을 아래에 상술한다. 본 발명의 실시예를 한영 번역을 예로 들어 설명하지만, 본 발명이 한영 번역에만 국한되는 것은 아니다.
본 발명에서의 중문 분할 규칙인 변환(transformation)은 일종의 규칙으로서 크게 유발환경(triggering environment)과 다시쓰기 규칙(re-writing rule)에 의해 정의된다. 여기서 유발환경은 다시쓰기 규칙이 적용되기 위한 전제 조건으로, 주어진 입력이 이 조건을 충족하면 다시쓰기 규칙을 적용한다. 다시 쓰기 규칙이 적용되면 원래 패턴의 일정 부분이 규칙에서 명시하는 대로 바뀌게 된다.
본 발명에서 해결하고자 하는 종래기술의 문제점인 중문 분할에서의 유발 환경은, 입력으로 주어진 문장에서 어떤 특수한 패턴이 나타날 것을 요구한다. 즉, 중문 분할을 위한 변환에서 유발환경은 특정한 단어 순열로서 정의된다. 이때 본 발명에서는 입력을 형태소 분석 이후에 처리하므로 유발환경은 단순한 단어 순열이기 보다는 형태소 및 그에 대응하는 품사 태그의 순열로서 정의되나 이는 뒤에 상세히 설명한다.
다시 쓰기 규칙은 연결어미를 종결어미로 바꾸어 씀으로써 중문에서 전반 부에 해당하는 문장을 종결시켜 원래의 문장을 두 개의 문장으로 나누는 역할을 한다.
변환은 앞서 기술한 바와 같이 데이터베이스화된 예를 바탕으로 학습된다. 중문 분리의 예제를 데이터베이스로 구축하는 과정을 도 1에 나타내 보였다.
도 1을 참조하면, 중문 분리의 예제를 데이터베이스로 구축하기 위해, 먼저 컴퓨터(미도시) 등을 이용하여 중문 원문(101)을 수집한다. 수집된 원문(101)의 예로서, "어제 예약을 하였지만 다시 한번 확인 하려고 합니다."에는 중문이 충분히 포함될 수 있도록 해야 한다. 수집된 원문(101)은 사람이 컴퓨터 작업 등을 통해 직접 판단하여 중문으로서 단순히 분리가 가능한 경우는 앞 뒤 문장을 연결하는 연결 어미를 적합한 종결어미로 바꾸어 앞부분의 문장("어제 예약을 하였습니다.")(102)을 완전히 종결시키고 뒷부분의 문장("다시 한번 하려고 합니다.")(103)과의 관계에 해당하는 접속 패턴("그러나")(104)을 기록함으로써 원문을 2개의 문장으로 분리한다. 이때 분리가 가능한 경우라 함은 원문의 단어 배열을 흩트리지 않은 상태에서 특정 부분을 수정하여 분리하더라도 그 결과로 생긴 2개의 문장이 원래의 문장과 같은 의미를 지닐 수 있는 것을 의미하며, 도 1에 예시된 원문(101)은 분리 가능한 경우에 해당한다. 이러한 작업의 분리를 거친 후 각 원문과 원문을 분리하여 얻은 문장들에 대해 형태소 분석을 한다. 이와 같은 과정을 통해 만들어지는 중문 분할 예제는 원문의 형태소 분석 정보(105), 분리 후 생성된 문장의 형태소 분석 정보(106, 107), 분리 후 생성된 문장들 사이의 접속 패턴(108) 및 원문의 분리가능 여부의 4가지 정보를 포함한다. 이때 원문이 분리 가능한지의 정보는 직접적으로 도 1에 나타나지 않았으나 불가능한 경우라면 원문 분리 후 얻어지는 정보들(106, 107, 108)은 존재하지 않는다.
중문 분할 예제로부터 변환을 얻는 과정은 초기 변환을 얻는 것과 그것을 조정하는 것의 두 가지 단계로 진행된다. 초기 변환을 뽑는 단계에서는 중문 분할 예제로부터 다시쓰기 규칙과 접속 패턴에 관한 정보를 얻는다. 다시 쓰기 규칙은 원문과 중문 분할 결과로 생성된 문장들을 비교하여 달라진 부분으로부터 추출하는데 서로 다른 부분 중 원문 쪽의 패턴을 분할 결과 쪽의 패턴으로 바꿔 쓰는 규칙이 된다. 도 1에서는 (105)의 □□지만/EC"를 (106)의 □□습니다/EF ./SF"로 바꿔 쓰는 것이 다시쓰기 규칙이 되며, 접속 패턴은 (108)의 □□그러나□□가 된다. 초기 변환을 정하는 단계에서 유발 환경은 입력 문장에서 다시쓰기 규칙의 원문 쪽 패턴 이 나타나는 것으로 정의한다. 이러한 작업을 각각의 중문 분할된 예제에 반영하여 각 예제로부터 하나씩의 초기 변환을 얻어낸다. 이때 중문 분할된 예제는 미리 정해진 규칙에 의해 판단된 것, 예를 들면 사람의 컴퓨터 작업에 의해서 분할된 예제를 의미하고, 이들은 소정의 데이터베이스(100)에 저장되어 데이터베이스화된다.
앞에서 기술한 대로 얻은 초기 변환을 확장하는 과정은 도 2의 순서도에 나타나 있다. 도 2는 초기 변환 하나를 확장하는 과정이며, 앞에서 얻은 모든 초기 변환에 대해 같은 작업을 수행한다. 주어진 모든 문장 분할 예제에 대해 각각의 변환을 테스트한다(S201). 그 과정은 다음과 같다. 초기 변환을 예제의 원문에 적용하여 문장 분할을 시도하여(S202), 그 결과를 사람이 컴퓨터 작업 등에 의해서 분할하여 데이터베이스(100)에 저장해 놓은 예제와 비교한다. 여기서 문장 분할 예제는 사람에 의해서 분할된 것과 분할이 불가능 한 것을 모두 포함할 수 있음은 물론이다.
상기 문장 분할 결과가 데이터베이스(100)에 저장된 예제와 비교되어 그 결과에 오류가 없다면(S203), 다음 예제로 넘어가고, 오류가 있다면 그 변환이 오류를 발생시키지 않을 때까지 유발 환경을 확장한다(S204). 이러한 과정을 통해 각 변환들은 적어도 주어진 예제에 대해서는 오류가 없는 수준까지 확장된다.
여기서 풀고자 하는 문제인 중문 분할에서 유발 환경이라는 것은 원문에 나타나는 패턴이라고 할 수 있다. 즉, 미리 정의된 패턴이 입력 문장에 나타날 때 다시쓰기 규칙이 적용되는 것이며, 그 패턴은 분할 예제 원문의 특정 부분에 해당한다. 도 3에 도시된 바와 같은 유발 환경의 확장은 초기 변환에서 설정된 패턴에서 부터 그 패턴을 조금씩 늘려 나가는 것으로 진행되며, 패턴은 다시 형태소 패턴(301)과 품사 태그 패턴(302)으로 나뉘어 관리된다. 유발 환경의 확장은 한 번에 한 단계씩 일어나며 각 단계마다 형태소 패턴을 앞으로 확장(303), 형태소 패턴을 뒤로 확장(304), 품사태그 패턴을 앞으로 확장(305), 품사태그 패턴을 뒤로 확장(306) 하는 4가지 확장 방식 중 한 가지가 선택된다. 이 선택은 분할하고자 하는 언어, 주제, 문체 등에 따라 차이가 있을 수 있으므로 여러 가지 경우를 비교해 보고, 그 중 적합한 전략을 선택해야 한다. 도 3에서 (304)는 형태소 패턴을 뒤로 확장하는 것이다.
상기와 같은 과정을 통해 얻어진 변환들을 실제 문장 분할에 적용할 때는 하나의 입력 문장에 대해 2개 이상의 변환들이 동시에 적용 가능할 수 있으므로 이들에 대한 우선순위를 정립하는 과정이 필요하다. 먼저 일정한 테스트 데이터를 준비하여 그것을 번역하여 그 성능을 측정한다. 그 다음으로 하나씩의 변환을 테스트 데이터의 모든 문장에 적용해 보고 그 결과를 번역하여 그 번역 성능을 앞의 경우와 비교해 본다. 이 작업을 모든 변환에 대해서 수행하여 그중 개선 폭이 가장 큰 것으로부터 높은 우선순위를 매기는 방식으로 순위를 정한다. 이때 번역 성능을 측정하는 기준은 객관적이고 정량적인 평가가 가능한 것으로 사용해야 하며, 통계적 기게 번역 성능 평가에 널리 쓰이는 기준으로 BLEU(Bilingual Evaluation Understudy) 점수가 있다.
상기한 일련의 과정을 통해 얻어진 변환들은 실제 중문 분할에 적용될 때는 도 4에 나타낸 바와 같이 주어진 입력 문장에 대해서 전처리로서 작용한다. 주어진 원문(401)은 번역되기 전에 형태소 분석기(402)를 거친 후 문장 분할기(403)를 거치는데 문장 분할기(403)에서는 원문에 해당되는 유발 환경을 가진 모든 변환을 검색한 뒤, 그 중 가장 순위가 높은 하나를 선택하여 적용한다. 변환의 적용은 유발 환경의 확인 뒤 다시쓰기 규칙을 적용하여 연결어미를 종결 어미로 바꾼 후 종결 어미를 경계로 문장의 앞뒤를 분리함으로써 이루어진다. 이 결과로서 두 문장(404, 405)와 접속 패턴(406)을 얻을 수 있다. 문장 분할의 각 결과는 각각 독립적으로 기계 번역기(407)에 의해서 두 개의 번역문(408, 409)으로 번역된다. 이후 앞에서 얻은 접속 패턴(406)에 따라서 그에 맞는 접속사를 삽입하여 두 문장(408, 409)을 연결함으로써 최종 번역 결과(410)를 얻을 수 있다.
도 1은 본 발명에 따른 기계 번역을 위한 문장 분할 방법을 위한 말뭉치(corpus) 구축 과정의 실시예도.
도 2는 본 발명에 따른 기계 번역을 위한 문장 분할 방법에 적용되는 유발환경(triggering environment) 확장 과정의 흐름도.
도 3은 본 발명에 따른 기계 번역을 위한 문장 분할 방법에 적용되는 유발환경 확장과정의 개념도.
도 4는 본 발명에 따른 기계 번역을 위한 문장 분할 방법이 적용되는 시스템 구성도.
<도면의 주요부분에 대한 부호의 설명>
100 : 데이터베이스
402 : 형태소 분석기
403 : 문장 분할기
407 : 기계 번역기

Claims (10)

  1. 기계 번역을 위한 문장 분할 방법에 있어서,
    중문 분리의 예제를 데이터베이스로 구축하기 위해 중문 원문을 수집하는 단계;
    상기 수집된 중문 원문을 접속패턴을 중심으로 앞부분 문장과 뒷부분 문장으로 분리(분할)하여 데이터베이스화하는 단계;
    상기 앞부분 문장과 뒷부분 문장에 대해 형태소 분석을 하는 단계;를 포함하는 것을 특징으로 하는 기계 번역을 위한 문장 분할 방법.
  2. 제1항에 있어서,
    상기 중문 분리의 예제로부터 다시쓰기 규칙과 접속 패턴에 관한 정보를 획득하는 단계를 포함하고,
    상기 다시쓰기 규칙은 원문과 중문 분할 결과로 생성된 문장들을 비교하여 달라진 부분으로부터 추출하고, 달라진 부분 중 원문 쪽의 패턴을 분할 결과 쪽의 패턴으로 바꿔 쓰는 규칙이 되는 것을 특징으로 하는 기계 번역을 위한 문장 분할 방법.
  3. 제1항 또는 제2항에 있어서,
    상기 수집된 중문 원문에서 상기 다시쓰기 규칙의 원문 쪽 패턴이 나타나는 것으로 정의되는 유발 환경을 이용하고,
    상기 다시쓰기 규칙 및 유발 환경을 분할된 예제에 반영하여 각각의 예제로부터 하나씩의 초기 변환을 획득하는 것을 특징으로 하는 기계 번역을 위한 문장 분할 방법.
  4. 제3항에 있어서,
    상기 수집된 중문 원문은 각각 분할된 후 상기 데이터베이스에 저장되어 있는 예제와 비교하여 오류가 있는지를 확인하고, 오류가 없으면 다음 원문으로 넘어가고 오류가 있다면 상기 초기 변환이 오류를 발생하지 않을 때까지 상기 유발 환경을 확장하는 것을 특징으로 하는 기계 번역을 위한 문장 분할 방법.
  5. 제4항에 있어서,
    상기 유발 환경의 확장은 상기 초기 변환에서 설정된 패턴에서부터 그 패턴을 조금씩 늘려 나가는 것으로 진행되며, 상기 패턴은 다시 형태소 패턴과 품사 태그 패턴으로 나뉘어 관리되는 것을 특징으로 하는 기계 번역을 위한 문장 분할 방법.
  6. 제5항에 있어서,
    상기 유발 환경의 확장은 한 번에 한 단계씩 일어나며 각 단계마다 형태소 패턴을 앞으로 확장, 형태소 패턴을 뒤로 확장, 품사태그 패턴을 앞으로 확장, 품 사태그 패턴을 뒤로 확장하는 4가지 확장 방식 중 한 가지가 선택되는 것을 특징으로 하는 기계 번역을 위한 문장 분할 방법.
  7. 제3항에 있어서,
    상기 원문의 문장에 적용되는 변환들에 대해 우선순위를 정하는 것을 특징으로 하는 기계 번역을 위한 문장 분할 방법.
  8. 제1항에 있어서,
    상기 앞부분의 문장과 뒷부분의 문장은 각각 종결어미로 종결되는 형태를 취하는 것을 특징으로 하는 기계 번역을 위한 문장 분할 방법.
  9. 제1항에 있어서,
    상기 형태소 분석을 통해 상기 원문의 형태소 분석 정보, 분리 후 생성된 앞부분 문장과 뒷부분 문장의 형태소 분석 정보, 분리 후 생성된 문장들 사이의 접속패턴 정보 및 상기 원문의 분리가능 여부 정보를 획득하는 단계를 포함하는 것을 특징으로 하는 기계 번역을 위한 문장 분할 방법.
  10. 제9항에 있어서,
    상기 원문이 분리 가능하지 않은 경우에는 상기 원문 분리 후 얻어지는 정보들인 상기 앞부분 문장과 뒷부분 문장의 형태소 분석 정보 및 상기 접속패턴 정보 가 존재하지 않게 되는 것을 특징으로 하는 기계 번역을 위한 문장 분할 방법.
KR1020070112310A 2007-11-05 2007-11-05 기계 번역을 위한 문장 분할 방법 KR20090046280A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020070112310A KR20090046280A (ko) 2007-11-05 2007-11-05 기계 번역을 위한 문장 분할 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020070112310A KR20090046280A (ko) 2007-11-05 2007-11-05 기계 번역을 위한 문장 분할 방법

Publications (1)

Publication Number Publication Date
KR20090046280A true KR20090046280A (ko) 2009-05-11

Family

ID=40856176

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070112310A KR20090046280A (ko) 2007-11-05 2007-11-05 기계 번역을 위한 문장 분할 방법

Country Status (1)

Country Link
KR (1) KR20090046280A (ko)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8355904B2 (en) 2009-10-08 2013-01-15 Electronics And Telecommunications Research Institute Apparatus and method for detecting sentence boundaries
KR20150042533A (ko) * 2013-10-11 2015-04-21 에스케이텔레콤 주식회사 복합 문장 분석 장치, 이를 위한 기록매체
WO2015099418A1 (ko) * 2013-12-24 2015-07-02 서강대학교 산학협력단 채팅 데이터 학습 및 서비스 방법 및 그에 따른 시스템
KR101589948B1 (ko) 2015-03-13 2016-01-29 황준호 자동 번역 방법 및 장치
WO2019107623A1 (ko) * 2017-11-30 2019-06-06 주식회사 시스트란인터내셔널 기계 번역 방법 및 이를 위한 장치
KR20230025649A (ko) * 2021-08-13 2023-02-22 주식회사 투어링위키 식별 코드 기반 여행 콘텐츠 메타 미디어 플랫폼 제공 방법
KR20230065020A (ko) 2021-11-04 2023-05-11 주식회사 케이티 말뭉치 데이터를 복수의 문장으로 분리하는 방법 및 컴퓨터 프로그램
KR102558933B1 (ko) * 2022-08-19 2023-07-25 델타인덱스주식회사 시간 조건을 포함한 한글 요구사항을 위한 체계적 테스트 케이스 생성 방법 및 장치

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8355904B2 (en) 2009-10-08 2013-01-15 Electronics And Telecommunications Research Institute Apparatus and method for detecting sentence boundaries
KR20150042533A (ko) * 2013-10-11 2015-04-21 에스케이텔레콤 주식회사 복합 문장 분석 장치, 이를 위한 기록매체
WO2015099418A1 (ko) * 2013-12-24 2015-07-02 서강대학교 산학협력단 채팅 데이터 학습 및 서비스 방법 및 그에 따른 시스템
KR20150075191A (ko) * 2013-12-24 2015-07-03 서강대학교산학협력단 채팅 데이터 학습 및 서비스 방법 및 그에 따른 시스템
KR101589948B1 (ko) 2015-03-13 2016-01-29 황준호 자동 번역 방법 및 장치
WO2019107623A1 (ko) * 2017-11-30 2019-06-06 주식회사 시스트란인터내셔널 기계 번역 방법 및 이를 위한 장치
KR20230025649A (ko) * 2021-08-13 2023-02-22 주식회사 투어링위키 식별 코드 기반 여행 콘텐츠 메타 미디어 플랫폼 제공 방법
KR20230065020A (ko) 2021-11-04 2023-05-11 주식회사 케이티 말뭉치 데이터를 복수의 문장으로 분리하는 방법 및 컴퓨터 프로그램
KR102558933B1 (ko) * 2022-08-19 2023-07-25 델타인덱스주식회사 시간 조건을 포함한 한글 요구사항을 위한 체계적 테스트 케이스 생성 방법 및 장치

Similar Documents

Publication Publication Date Title
CN107209759B (zh) 注解辅助装置及记录介质
KR20090046280A (ko) 기계 번역을 위한 문장 분할 방법
CN109661663B (zh) 上下文解析装置以及计算机可读记录介质
RU2458391C2 (ru) Проверка ошибок сочетаний слов на базе сети интернет
US5907821A (en) Method of computer-based automatic extraction of translation pairs of words from a bilingual text
US20210124876A1 (en) Evaluating the Factual Consistency of Abstractive Text Summarization
EP1351158A1 (en) Machine translation
EP1349079A1 (en) Machine translation
JP6952967B2 (ja) 自動翻訳装置
Barlow Parallel texts and corpus-based contrastive analysis
US20090216522A1 (en) Apparatus, method, and computer program product for determing parts-of-speech in chinese
KR102209786B1 (ko) 자연어 처리 기반의 청크 구성 방법 및 장치
JP2000040085A (ja) 日本語形態素解析処理の後処理方法および装置
KR20080028655A (ko) 품사 태깅 장치 및 태깅 방법
KR20040018008A (ko) 품사 태깅 장치 및 태깅 방법
JP2010067021A (ja) 機械翻訳装置及び機械翻訳プログラム
KR100420474B1 (ko) 부분문틀을 이용한 장문 번역 장치 및 그 방법
KR101670995B1 (ko) 어순 조정 및 형태소 차이에 기반한 통계 기반 기계 번역 시스템 및 그 방법
JP2019197577A (ja) 照応・省略解析装置
KR101994901B1 (ko) 인공지능 키워드 등록 방법 및 장치
JP2009258887A (ja) 機械翻訳装置及び機械翻訳プログラム
KR100932644B1 (ko) 전역 유발 자질을 이용한 통계적 음성 언어 이해 방법 및프로그램 저장 매체
JP4001605B2 (ja) 翻訳パターン作成装置
Bankira et al. Automatic Extractive text Summarization for Ho Language
JP6083645B2 (ja) 語順並べ替え装置、翻訳装置、翻訳モデル学習装置、方法、及びプログラム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application