KR20170107808A - 원문문장을 번역 소단위들로 분할하고 소번역단위들의 번역어순을 결정하는 번역어순패턴 데이터 구조, 이를 생성하기 위한 명령어들을 저장한 컴퓨터 판독가능한 저장매체 및 이를 가지고 번역을 수행하는 컴퓨터 판독가능한 저장매체에 저장된 번역 프로그램 - Google Patents

원문문장을 번역 소단위들로 분할하고 소번역단위들의 번역어순을 결정하는 번역어순패턴 데이터 구조, 이를 생성하기 위한 명령어들을 저장한 컴퓨터 판독가능한 저장매체 및 이를 가지고 번역을 수행하는 컴퓨터 판독가능한 저장매체에 저장된 번역 프로그램 Download PDF

Info

Publication number
KR20170107808A
KR20170107808A KR1020160031588A KR20160031588A KR20170107808A KR 20170107808 A KR20170107808 A KR 20170107808A KR 1020160031588 A KR1020160031588 A KR 1020160031588A KR 20160031588 A KR20160031588 A KR 20160031588A KR 20170107808 A KR20170107808 A KR 20170107808A
Authority
KR
South Korea
Prior art keywords
translation
order
small
units
unit
Prior art date
Application number
KR1020160031588A
Other languages
English (en)
Inventor
이시용
Original Assignee
이시용
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 이시용 filed Critical 이시용
Priority to KR1020160031588A priority Critical patent/KR20170107808A/ko
Priority to PCT/KR2016/002909 priority patent/WO2017159906A1/ko
Publication of KR20170107808A publication Critical patent/KR20170107808A/ko

Links

Images

Classifications

    • G06F17/28
    • G06F17/2705
    • G06F17/2755
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

원문문장을 번역문장으로 번역하기 위한 번역 장치에서 번역을 위해 이용되는, 컴퓨터 판독 가능 저장 매체에 저장된 번역어순패턴 데이터 구조는 원문문장을 문두부터 문미까지 복수의 소번역단위들로 분할하기 위한 소번역단위 분할패턴 데이터들 - 상기 소번역단위 분할패턴 데이터들은 원문문장을 형태소 분석한 형태소열 중 하나 이상의 품사를 포함함 -, 및 복수의 소번역단위 분할패턴 데이터들 각각에 지정된(specify) 번역어순 순번 데이터들을 포함한다.

Description

원문문장을 번역 소단위들로 분할하고 소번역단위들의 번역어순을 결정하는 번역어순패턴 데이터 구조, 이를 생성하기 위한 명령어들을 저장한 컴퓨터 판독가능한 저장매체 및 이를 가지고 번역을 수행하는 컴퓨터 판독가능한 저장매체에 저장된 번역 프로그램{Data structure of translation word order pattern separating original text into sub-translation units and determining word order of sub-translation units, computer-readable storage media having instructions for creating data structure stored therein, and computer programs for translation stored in computer-readable storage media executing traslation therewith}
본 발명은 원문 언어 문장을 대상 언어 문장으로 번역할 때, 원문문장과 번역문장 사이의 번역 어순을 결정하는 것에 관한 것이다. 구체적으로, 원문문장을 분할하여 번역할 경우 번역이 일치하는 번역 소단위들인 소번역단위들로 분할하고, 소번역단위들 간의 번역 어순을 결정하는 번역어순패턴 데이터에 관한 것이다. 특히, 원문문장의 번역 소단위들을 구성하는 소번역단위들에 번역어순을 결정하는 번역어순패턴 데이터 구조, 및 이를 생성하는 컴퓨터 실행가능 명령어를 저장한 컴퓨터 판독가능 저장매체, 및 이러한 명령어들을 이용한 번역 프로그램에 관한 것이다.
근래에 통계 번역 및 머신 러닝을 이용하여 원문언어를 대상언어로 자동번역하는 기술이 크게 각광받고 있다. 그러나, 교착어와 고립어, 또는 교착어와 굴절어처럼 원문 언어와 대상 언어가 번역 어순이 상이한 언어 간의 자동번역은 단문과 짧은 문장일 때 잘되지만, 복문과 같이 긴 문장일 때 번역 정확도가 떨어지며, 특히 and/or 접속사가 문장에 존재하면 번역 정확도가 더 떨어진다.
또한, 번역가는 원문문장을 동일한 의미를 전달하는 여러 개의 번역문장으로 번역할 수 있는 반면, 기존의 자동번역은 동일한 문장에 대해 원문문장을 이해할 수 있는 보편적인 하나의 번역 결과만을 출력하기 때문에, 번역가, 특히 전문적인 번역가의 입장에서 자동번역 과정에서 자신의 번역 개성을 반영시키면서 자동번역할 수 없는 문제점을 가지고 있다.
본 발명은 원문 언어로 된 원문문장에서 대상 언어로 된 번역문장으로 번역하기 전에 원문 언어를 형태소 분석하고 원문문장을 번역 소단위인 소번역단위들로 분할하여 번역 어순을 미리 결정해 줌으로써 번역 전에 사용자에게 미리 정해진 번역어순을 제공하는데 목적이 있다.
일본어와 한국어와 동일한 계통의 언어 간의 번역은 번역 어순이 유사하기 때문에, 자동번역 정확도가 매우 높다. 그러나, 영어와 한국어, 중국어와 한국어와 같이 이종 계통의 언어 간의 번역은 번역 어순이 상이하기 때문에, 자동번역의 정확도가 상대적으로 낮다. 본 발명은 번역어순이 상이한 언어 간의 자동번역의 정확도를 높이기 위해, 일본어와 한국어와 같은 동종 계통의 언어 간에 자동번역할 경우의 수준까지 자동번역의 정확도를 높일 수 있도록 번역 어순을 결정해 주는데 목적이 있다.
본 발명의 일 양태에 따른 원문문장을 번역문장으로 번역하기 위한 번역 장치에서 번역을 위해 이용되는, 컴퓨터 판독 가능 저장 매체에 저장된 번역어순패턴 데이터 구조는 원문문장을 문두부터 문미까지 복수의 소번역단위들로 분할하기 위한 소번역단위 분할패턴 데이터들 - 상기 소번역단위 분할패턴 데이터들은 원문문장을 형태소 분석한 형태소열 중 하나 이상의 품사를 포함함 -, 및 복수의 소번역단위 분할패턴 데이터들 각각에 지정된(specify) 번역어순 순번 데이터들을 포함한다.
본 발명의 일 양태에서, 컴퓨터 판독 가능 저장 매체에 저장된 번역어순패턴 데이터 구조는 소번역단위 분할패턴 데이터들에 의해 원문문장으로부터 분할된 소번역단위들을 번역하고, 번역어순 순번 데이터들에 따라 상기 소번역단위들 각각의 번역문인 소번역문들을 정렬하여서 원문문장의 번역문장을 출력한 출력 데이터를 더 포함한다.
본 발명의 일 양태에서, 소번역단위 분할패턴 데이터들 각각은 각 소번역단위로의 분할의 시작을 지시하는 분할패턴 시작부, 중간부 및 각 소번역단위로의 분할의 종료를 지시하는 분할패턴 종료부로 구성되고, 소번역단위 분할패턴 시작부는 소번역단위 분할패턴 데이터의 형태소열 중 맨 앞에 위치된 하나 이상의 품사를 포함하고, 분할패턴 종료부는 소번역단위 분할패턴 데이터의 형태소열 중 마지막에 위치된 하나 이상의 품사를 포함하고, 상기 중간부가 생략될 수 있다.
본 발명의 일 양태에서, 소번역단위 분할패턴 시작부는 상기 소번역단위 분할패턴 데이터의 형태소열 중 맨 앞에 위치된 품사로 구성되고, 분할패턴 종료부는 소번역단위 분할패턴 데이터의 형태소열 중 마지막에 위치된 품사로 구성되고, 상기 중간부가 생략될 수 있다.
본 발명의 일 양태에서, 소번역단위 분할패턴 시작부는 소번역단위 분할패턴 데이터의 형태소열 중 맨 앞에 위치된 하나 또는 두개로 구성되고, 분할패턴 종료부는 소번역단위 분할패턴 데이터의 형태소열 중 마지막 명사로부터 소번역단위 분할패턴 데이터의 형태소열의 끝까지의 품사로 구성되고, 중간부가 생략될 수 있다.
본 발명의 일 양태에서, 소번역단위 분할패턴 데이터들에 의해 분할될 소번역단위의 소번역문의 문미에 위치될 조사, 어미 또는 전치사 대역어를 포함하는 문미 번역어가 상기 복수의 소번역단위 분할패턴 데이터들 중 하나 이상에 지정된다.
본 발명의 일 양태에 따른 원문문장(1)을 번역문장(2)으로 번역하기 위한 번역 장치에서 번역을 위해 이용되며 원문문장을 번역 소단위인 소번역단위들로 분할하고 상기 소번역단위들의 번역어순을 결정하기 위한 번역어순패턴 데이터 구조를 생성하는 컴퓨터 실행가능 명령어들을 저장한 컴퓨터 판독가능 저장매체로서, 상기 컴퓨터 실행가능 명령어들은 원문문장을 문두부터 문미까지 복수의 소번역단위들로 분할하고 상기 소번역단위들로부터 소번역단위 분할패턴 데이터들(300)을 생성하는 단계 - 상기 소번역단위 분할패턴 데이터들(300)은 원문문장을 형태소 분석한 형태소열 중 하나 이상의 품사를 포함함 -; 및 복수의 소번역단위 분할패턴 데이터들(300) 각각에 지정된 번역어순 순번 데이터들(5)을 생성하는 단계;를 포함한다.
본 발명의 일 양태에서, 번역어순패턴 데이터 구조를 생성하기 위한 명령어들을 포함하는 컴퓨터 판독 가능한 저장 매체로서 상기 명령어들은 소번역단위 분할패턴 데이터들에 의해 원문문장으로부터 분할된 소번역단위들을 번역하고, 번역어순 순번 데이터들에 따라 상기 소번역단위들 각각의 번역문인 소번역문들을 정렬하여서 상기 원문문장의 번역문장을 출력하는 단계를 더 포함한다.
본 발명의 일 양태에 따른 원문문장을 번역문장으로 번역하기 위한 번역 장치에서 번역을 위해 이용되는, 컴퓨터 판독 가능 저장 매체에 저장된 번역어순패턴 데이터 구조를 생성하는 컴퓨터 실행가능 명령어들을 저장한 컴퓨터 판독가능 저장매체로서, 상기 컴퓨터 실행가능 명령어들은 원문문장을 문두부터 문미까지 복수의 소번역단위들로 분할하기 위한 소번역단위 분할패턴 데이터들을 생성하는 단계 - 상기 소번역단위 분할패턴 데이터들은 원문문장을 형태소 분석한 형태소열 중 하나 이상의 품사를 포함함 -, 및 복수의 소번역단위 분할패턴 데이터들 각각에 지정된 번역어순 순번 데이터들를 생성하는 단계를 수행한다.
본 발명의 일 양태에 따른 원문문장(1)을 번역문장(2)으로 번역하기 위한 번역 장치에서 번역을 위해 이용되며, 원문문장을 번역 소단위들로 분할하고 소번역단위들의 번역어순을 결정하기 위한 번역어순패턴 데이터 구조를 생성하는 컴퓨터 실행가능 명령어들을 저장한 컴퓨터 판독가능한 저장매체로서, 상기 컴퓨터 실행가능 명령어들은 a) 원문문장을 불러오는 단계; b) 원문문장을 형태소 분석하고 상기 분석된 형태소들에 품사들을 태깅하여 형태소열로 변환하는 단계 - 상기 원문문장을 형태소 분석하고 품사를 태킹하는 것은 원문 부호를 형태소 분석하고 원문 부호를 태킹하는 것을 포함함 -; 및 c) 상기 번역어순패턴 데이터 구조를 포함하는 번역어순패턴 DB(160)에 저장된 번역어순패턴의 소번역단위 분할패턴들의 형태소열들과 원문문장의 형태소열을 비교하여 매칭되는 번역어순패턴을 불러오고 상기 불러온 번역어순패턴의 소번역단위 분할패턴에 따라 원문문장을 소번역단위들로 분할하고 상기 소번역단위들의 번역어순을 결정하는 단계;를 수행한다.
본 발명의 일 양태에 따른 원문문장을 번역문장으로 번역하기 위한 번역 장치에서 이용되는, 원문문장을 번역 소단위인 소번역단위들로 분할하고 상기 소번역단위들의 번역어순을 결정하기 위한 컴퓨터 실행가능 명령어들을 저장한 컴퓨터 판독가능한 저장매체로서, 상기 컴퓨터 실행가능 명령어들은 a) 원문문장을 불러오는 단계; b) 원문문장을 형태소 분석하고 상기 분석된 형태소들에 품사들을 태깅하여 형태소열로 변환하는 단계 - 상기 원문문장을 형태소 분석하고 품사를 태킹하는 것은 원문 부호를 형태소 분석하고 원문 부호를 태킹하는 것을 포함함 -; 및 c) 미리 결정된 특정 품사들 사이를 분할하는 분할 쌍을 포함하는 분할 어순 결정 규칙으로서, 상기 분할 쌍에 의해 분할될 앞뒤의 소번역단위들이 올림 차순의 순차 번역어순인지 또는 내림 차순의 역순 번역어순인지를 지정한, 분할 어순 결정 규칙에 따라 상기 형태소 분석된 원문문장을 복수의 소번역단위들로 분할하고 상기 소번역단위들에 번역어순을 결정하는 단계; d) 상기 결정된 소번역단위들 및 상기 소번역단위들에 지정된 번역어순 순번을 사용자에게 표시하고 사용자로부터 입력을 수신하는 단계; 및 e) 사용자로부터 입력을 수신하여 사용자에게 표시된 소번역단위들에 지정된 번역어순 순번과 비교하고, 사용자에게 표시한 소번역단위들에 지정된 번역어순 순번이 수정되었다면 사용자가 입력한 소번역단위들 및 상기 소번역단위들에 지정된 번역어순 순번으로부터 형태소 분석 및 품사 태킹을 통해 변환된 복수의 소번역단위 분할패턴 데이터들 및 상기 복수의 소번역단위 분할패턴 데이터들 각각에 지정된 번역어순 순번을 포함하는 번역어순패턴 데이터 구조를 생성하고 번역어순패턴 DB에 저장하고, 수정되지 않았다면 사용자에게 표시한 소번역단위들 및 상기 소번역단위들에 지정된 번역어순 순번으로부터 각각 형태소 분석 및 품사 태킹을 통해 변환된 복수의 소번역단위 분할패턴 데이터들으로서, 원문문장을 형태소 분석한 형태소열 중 하나 이상의 품사를 포함하는 복수의 소번역단위 분할패턴 데이터들, 및 상기 복수의 소번역단위 분할패턴 데이터들 각각에 지정된 번역어순 순번을 포함하는 번역어순패턴 데이터 구조를 생성하는, 번역어순패턴 데이터 구조를 생성하는 단계;를 수행한다.
본 발명의 일 양태에 따른 원문문장을 번역문장으로 번역하기 위한 번역 장치에서 번역을 위해 이용되는, 사용자 신호에 따라 원문문장을 번역 소단위인 소번역단위들로 분할하고 상기 소번역단위들의 번역어순을 결정하기 위한 컴퓨터 실행가능 명령어들을 저장한 컴퓨터 판독가능한 저장매체로서, 상기 컴퓨터 실행가능 명령어들은 a) 원문문장을 불러오고 사용자에게 표시하는 단계; b) 원문문장을 형태소 분석하고 상기 분석된 형태소들에 품사들을 태깅하는 단계 - 상기 원문문장을 형태소 분석하고 품사를 태킹하는 것은 원문 부호를 형태소 분석하고 원문 부호를 태킹하는 것을 포함함 -; c) 상기 원문문장 내 특정 위치 정보를 포함하며 상기 특정 위치를 기준으로 분할되는 앞뒤의 소번역단위들에 올림 차순의 순차 번역어순을 지시하는 제 1 신호, 및 상기 원문문장 또는 소번역단위 내 특정 위치 정보를 포함하며 상기 특정 위치를 기준으로 분할되는 앞뒤의 소번역단위들에 내림 차순의 역순 번역어순을 지시하는 제 2 신호를 입력받는 단계; d) 상기 제 1 신호 또는 상기 제 2 신호에 따라, 상기 원문문장을 복수의 소번역단위들로 분할하고 상기 소번역단위들의 번역어순 순번을 결정하는 단계; 및 e) 상기 분할된 소번역단위들 및 상기 소번역단위들에 지정된 번역어순 순번으로부터 각각 형태소 분석 및 품사 태킹을 통해 변환된 복수의 소번역단위 분할패턴 데이터들로서, 원문문장을 형태소 분석한 형태소열 중 하나 이상의 품사를 포함하는 복수의 소번역단위 분할패턴 데이터들, 및 상기 복수의 소번역단위 분할패턴 데이터들 각각에 지정된 번역어순 순번을 포함하는 번역어순패턴 데이터 구조를 생성하는, 번역어순패턴 데이터 구조를 생성하는 단계;를 포함한다.
본 발명의 일 양태에서, 원문문장을 소번역단위들로 분할하고 상기 소번역단위들의 번역어순 순번을 결정하는 단계는 상기 제 1 신호에 따라 상기 제 1 신호가 지시하는 특정 위치가 속하는 소번역단위 또는 원문문장을 상기 특정 위치를 기준으로 2 개의 앞뒤 소번역단위들로 분할하고, 분할되는 2 개의 소번역단위들에 올림차순의 순차 순번을 결정하되, 분할된 앞뒤 소번역단위들 간의 순차 순번은 분할되기 전 소번역단위가 원래 가지고 있던 번역어순 순번 및 상기 번역어순 순번에 1이 증가된 번역어순 순번으로 결정되고, 상기 제 1 신호가 지시하는 특정 위치가 속하는 소번역단위가 아닌 다른 소번역단위의 번역어순 순번이 상기 증가된 순번과 동일하거나 상기 증가된 순번보다 큰 순번을 가지면 상기 동일하거나 큰 순번을 갖는 다른 소번역단위들에 지정된 번역어순 순번을 1만큼 증가시키고, 상기 제 2 신호에 따라 상기 제 2 신호가 지시하는 특정 위치가 속하는 소번역단위 또는 원문문장을 상기 특정 위치를 기준으로 2 개의 앞뒤 소번역단위들로 분할하고, 분할되는 2 개의 소번역단위들에 내림차순의 역순 순번을 결정하되, 분할된 앞뒤 소번역단위들 간의 역순 순번은 분할되기 전 소번역단위가 원래 가지고 있던 번역어순 순번에 1이 증가된 번역어순 순번 및 원래 가지고 있던 번역어순 순번으로 결정되고, 상기 제 1 신호가 지시하는 특정 위치가 속하는 소번역단위가 아닌 다른 소번역단위의 번역어순 순번이 상기 증가된 순번과 동일하거나 상기 증가된 순번보다 큰 순번을 가지면 상기 동일하거나 큰 순번을 갖는 다른 소번역단위들에 지정된 번역어순 순번을 1만큼 증가시키는 단계를 포함한다.
본 발명의 일 양태에 따른 원문문장을 번역 소단위인 소번역단위들로 분할하고 상기 소번역단위들의 번역어순을 결정하기 위한 컴퓨터 실행가능 명령어들을 저장한 컴퓨터 판독가능한 저장매체로서, 상기 컴퓨터 실행가능 명령어들은 a) 원문문장을 불러오는 단계; b) 원문문장을 형태소 분석하고 상기 분석된 형태소들에 품사들을 태깅하여 형태소열로 변환하는 단계 - 상기 원문문장을 형태소 분석하고 품사를 태킹하는 것은 원문 부호를 형태소 분석하고 원문 부호를 태킹하는 것을 포함함 -; 및 c) 상기 번역어순패턴 데이터 구조를 포함하는 번역어순패턴 DB에 저장된 번역어순패턴 데이터의 소번역단위 분할패턴 데이터들의 형태소열들과 원문문장의 형태소열을 비교하여 매칭되는 번역어순패턴 데이터를 불러오고 상기 불러온 번역어순패턴 데이터의 소번역단위 분할패턴 데이터에 따라 원문문장을 소번역단위들로 분할하고 상기 소번역단위들의 번역어순을 결정하는 단계; d) 상기 원문문장, 상기 소번역단위들, 및 상기 소번역단위들의 번역어순 순번을 사용자에게 표시하는 단계; e) 상기 원문문장 내 특정 위치 정보를 포함하며 상기 특정 위치를 기준으로 분할되는 앞뒤의 소번역단위들에 올림 차순의 순차 번역어순을 지시하는 제 1 신호, 및 상기 원문문장 또는 소번역단위 내 특정 위치 정보를 포함하며 상기 특정 위치를 기준으로 분할되는 앞뒤의 소번역단위들에 내림 차순의 역순 번역어순을 지시하는 제 2 신호를 입력받는 단계; 및 f) 상기 원문문장 또는 상기 c)에 의해 결정된 소번역단위들을 상기 제 1 신호 또는 상기 제 2 신호에 따라 복수의 소번역단위들로 분할하고 상기 소번역단위들의 번역어순 순번을 결정하는 단계;를 포함한다.
본 발명의 일 양태에 따른 번역 프로그램은 전술된 원문문장을 번역 소단위인 소번역단위들로 분할하고 상기 소번역단위들의 번역어순을 결정하기 위한 컴퓨터 실행가능 명령어들을 저장한 컴퓨터 판독가능한 저장매체에 저장된 명령어들을 이용하여 번역을 수행한다.
본 발명의 일 양태에 따른 원문문장(1)을 번역문장(2)으로 번역하기 위한 번역 장치에서 번역을 위해 이용되며 원문문장을 번역 소단위인 소번역단위들로 분할하고 상기 소번역단위들의 번역어순을 결정하기 위한 번역어순패턴 데이터 구조를 생성하는 컴퓨터 실행가능 명령어들을 저장한 컴퓨터 판독가능 저장매체를 다운로드 가능한 형태로 배포하는 서버로서, 상기 컴퓨터 실행가능 명령어들은, 원문문장을 문두부터 문미까지 복수의 소번역단위들로 분할하고 상기 소번역단위들로부터 소번역단위 분할패턴 데이터들(300)을 생성하는 단계 - 상기 소번역단위 분할패턴 데이터들(300)은 원문문장을 형태소 분석한 형태소열 중 하나 이상의 품사를 포함함 -; 및 상기 복수의 소번역단위 분할패턴 데이터들(300) 각각에 지정된 번역어순 순번 데이터들(5)을 생성하는 단계;를 수행한다.
번역어순패턴 데이터는 동종 계통언어들(예, 한국어 및 일본어) 간의 번역어순 뿐만 아니라, 굴절어, 교착어 및 독립어와 같이 서로 어순이 다른 이종 계통언어 간에 번역어순을 결정해 줄 수 있다. 본 발명의 번역어순패턴 데이터는 영어와 한국어, 영어와 일본어와 같이, 이종 계통의 언어에 대해 마치 동일언어의 어순처럼 처리해주는 역활을 하기 때문에, 이종 계통 언어들 간의 자동 번역의 정확성을 동일 계통 언어의 자동 번역 정확도까지 끌어 올릴 수 있는 효과가 있다.
본 발명은 또한 번역가가 원문문장을 번역 소단위인 소번역단위들로 분할하고 이들 소번역단위들에 번역어순 순번을 결정한 경우 이를 번역어순패턴 데이터 구조로 저장하여 사용자가 저장한 번역어순을 차후 번역에서 이용할 수 있다. 또한, 번역 숙련자 등 다른 사람이 축적한 번역어순 DB를 이용하여 번역 초보자가 번역 전에 소번역단위로 분할된 번역어순에 따라 번역문장을 완성할 수 있다.
본 발명에서 번역어순패턴 데이터 구조는 소번역단위 분할패턴 데이터 및 번역어순 순번 데이터를 포함하고, 소번역단위 분할패턴 데이터 및 번역어순 순번 데이터는 번역어순 데이터 구조에서 각각 소번역단위 분할패턴에 대한 정보를 갖는 데이터 및 번역어순 순번에 대한 정보를 갖는 데이터를 의미하는 용어이다. 이하, "번역어순패턴 데이터", "소번역단위 분할패턴 데이터" 및 "번역어순 순번 데이터"는 본 명세서에서 문맥에 따라, "번역어순패턴", "소번역단위 분할패턴", 및 "어순"과 혼용하여 사용된다.
또한, 본 발명의 번역어순패턴은 원문문장을 번역 소단위인 소번역단위들로 분할하는 분할패턴들에 번역어순 순번을 지정한 것이기 때문에, 대상언어에 상관없이 이용가능하다. 예를 들어, 원문 언어가 영어이고 대상 언어가 한국어인 경우 영어 원문문장을 분석하여 원문인 영어에 대한 한국어 번역어순을 지정한 것이므로, 한국어와 번역 어순이 동일한 일본어 등 동종 계통 언어에 번역문이 없는 상태에서도 적용할 수 있다. 즉, 영어를 한국어로 번역할 때 얻어진 번역어순패턴을 영어로부터 일본어로의 번역에서 그대로 이용할 수 있다.
다수의 다른 양태는 이들 및 본 발명의 다른 실시예들에 따라 제공된다. 본 발명의 실시예들의 다른 특징 및 양태는 다음의 상세한 설명, 첨부된 청구범위, 및 첨부 도면으로부터 더욱 완전히 명백해질 것이다.
도 1a는 본 발명의 실시예에 따라 원문을 번역문으로 번역하는 번역 장치에서 포함된 원문문장을 번역 소단위인 소번역단위로 분할하고 상기 소번역단위들의 번역어순을 결정하기 위한 컴퓨터 실행가능 명령어들을 저장한 컴퓨터 판독가능 저장매체, 프로그램, 방법 또는 장치에 대한 블록도이다.
도 1b는 도 1a의 소번역단위 및 번역어순 결정유닛에 대한 확대도이다.
도 1c는 도 1a의 소번역문 및 번역문 생성유닛에 대한 확대도이다.
도 1d는 도 1a의 사용자 인터페이스유닛에 대한 확대도이다.
도 2a는 본 발명의 실시예들을 위해 사용되는 원문문장과 번역문장을 도시한다.
도 2b는 본 발명에 따른 복문 분할 어순 규칙의 일 실시예를 도시한다.
도 2c는 본 발명에 따른 단문 분할 어순 규칙의 일 실시예를 도시한다.
도 2d는 도 2a의 원문을 형태소 분석하고 품사를 태깅한 실시예를 도시한다.
도 3a 내지 3h는 분할 어순 규칙에 따라 도 2a의 원문문장을 복수의 소번역단위들로 분할하고 각 소번역단위들에 번역어순 순번을 결정한 후 소번역문을 생성하여 번역문을 생성하는 일련의 과정에 대한 실시예를 도시한다.
도 3i는 도 3c에서 원문문장을 3개의 소번역단위들로 분할하고 번역어순 순번을 결정한 후 각 소번역단위들에 대한 소번역문을 번역하여 번역문을 완성한 실시예를 도시한다.
도 4a은 본 발명에 따른 번역어순패턴 데이터의 일 실시예을 도시한다.
도 4b는 본 발명의 실시예에 따른 번역어순패턴 데이터 및 번역어순패턴 데이터를 기초로 분할패턴 중간부를 생략한 확장된 번역어순패턴 데이터의 실시예들이다.
도 4c는 분할패턴 데이터들 및 이에 지정된 순번 데이터들을 포함하는 번역어순패턴 데이터가 문미번역어를 더 포함하는 실시예을 도시한다.
도 4d는 본 발명의 실시예에 따라 도 3b 내지 도 3f의 소번역단위들로의 분할 후 생성되는 번역어순패턴 데이터들의 실시예들을 도시한다.
도 4e는 본 발명의 실시예에 따라 도 4a의 번역어순패턴으로부터 확장가능한 번역어순패턴 데이터들의 실시예들을 도시한다.
도 5a 내지 도 5m은 본 발명의 실시예에 따라 소번역단위 및 번역어순 결정 유닛에서 원문에 대해 소번역단위들로 분할하고 각 소번역단위들에 번역어순 순번을 결정한 것을 도시한다.
도 5n은 본 발명의 일 실시예에 따라 원문에 대해 소번역단위들로 분할하고 각 소번역단위들에 번역어순 순번을 결정한 후 소번역문 및 번역문 생성 유닛에서 자동번역을 통해 번역문장이 생성한 것을 도시한다.
도 6a 내지 도 6h는 도 2a의 원문이 도 4a 내지 도 4d의 번역어순패턴들로 번역어순패턴 DB에 저장된 후 저장된 번역어순패턴 데이터를 기초로 번역문장을 생성하는 일련의 과정을 도시한다.
도 7a는 본 발명의 실시예에 따라 원문문장을 번역 소단위인 소번역단위로 분할하고 상기 소번역단위들의 번역어순을 결정하기 위한 방법의 일 실시예이다.
도 7b는 본 발명의 실시예에 따라 원문문장을 번역 소단위인 소번역단위로 분할하고 상기 소번역단위들의 번역어순을 결정하기 위한 방법 및 이를 이용한 번역 장치의 일 실시예이다.
도 7c는 본 발명의 실시예에 따라 원문문장을 번역 소단위인 소번역단위로 분할하고 상기 소번역단위들의 번역어순을 결정하기 위한 방법 및 이를 이용한 번역 장치의 다른 실시예이다.
1. 번역어순패턴
원문문장(1)을 번역문장(2)으로 번역하기 위한 번역 장치에서 번역을 위해 이용되는 컴퓨터 판독 가능 저장 매체에 저장된 번역어순패턴 데이터 구조는 원문문장을 문두부터 문미까지 복수의 소번역단위들로 분할하기 위한 소번역단위 분할패턴 데이터들(300), 및 복수의 소번역단위 분할패턴들(300) 각각에 지정된 번역어순 순번 데이터들(5)을 포함한다. 또한, 이것은 소번역단위 분할패턴 데이터들(300)에 의해 원문문장(1)으로부터 분할된 소번역단위들을 번역하고, 상기 번역어순 순번에 따라 상기 소번역단위들 각각의 번역문인 소번역문들(4)을 정렬하여서 원문문장(2)의 번역문장(2)을 출력한 출력 데이터를 포함한다. '원문문장의 번역문장(2)을 출력한 출력 데이터'는 컴퓨터 판독가능한 저장매체, 예를 들어 메모리, 하드 디스크 등에 저장될 수 있고, 사용자에게 표시하기 위해 표시 유닛(141)으로, 또는 번역어순패턴 데이터를 생성하기 위해 번역어순패턴 생성 유닛(150), 또는 소번역메모리 및 번역메모리 DB로 송신될 수 있다.
도 4a는 본 발명의 실시예에 따라 원문을 형태소 분석하고 도 3f에서 분할된 소번역단위들을 형태소열로 변환한 소번역단위 분할패턴들에 번역어순 순번을 지정한 번역어순패턴(401, 405) 및 번역어순패턴을 기초로 분할패턴 중간부를 생략한 확장된 번역어순패턴(402-404, 406-408)의 실시예들을 도시한다. 도 4a의 번역어순패턴의 첫번째 행(401)의 소번역단위 분할패턴들(300)에서 AR A A N N(301), V V AR A N(321), R AR D A N PP N(361), PL PP V A N PR(371), V PV SY(381) 및 D PP N RV SY(391)은 도 3f의 소번역단위들(30, 32, 36, 37, 38, 39)에 대한 6개의 소번역단위 분할패턴들(300)을 나타내며, 각 소번역단위 분할패턴들(300)에 번역어순 순번들(5)이 지정되어 있다. 본 발명의 번역 장치 또는 번역 프로그램에서 상기 소번역단위 분할패턴(300)들에 의해 분할된 소번역단위(3)들을 번역하고, 상기 번역어순 순번(5)들에 따라 상기 소번역단위(3)들 각각의 번역문인 소번역문들(4)을 정렬하면 상기 원문문장(1)의 번역문장(2)이 된다. 소번역단위들(3) 각각은 다른 원문문장을 소번역단위들로 분할할 때 사용하기 위해 형태소 분석 및 품사 태킹을 통해 소번역단위의 형태소열 중 하나 이상의 품사를 포함하는 소번역단위 분할패턴(300)으로 변환될 수 있다. 다른 실시예에서, 소번역단위들(3) 각각은 원문언어 단어, 부호 및 이들을 형태소 분석한 품사 중 하나 이상을 포함하는 소번역단위 분할패턴(300)으로 표시될 수 있다('for'를 포함하는 도 4b 두번째 행 참조).
각각의 소번역단위 분할패턴(300)은 다른 문장을 형태소 분석한 형태소열 중 상기 소번역단위 분할패턴들 각각과 일치하는 형태소열이 존재할 경우 소번역단위로 분할하기 위한 분할 규칙으로 적용된다. 이 경우, 분할된 소번역단위들의 번역 어순은 상기 소번역단위 분할패턴과 경계를 이루는 앞뒤 소번역단위의 품사들과의 관계에 따라 결정된다. 또한, 번역 어순은 사용자가 하나의 원문문장을 복수의 소번역단위들로 분할하면서 분할되는 소번역단위들간의 어순을 지정하여 결정될 수 있다. 또한, 원문문장에 대해 분할된 소번역단위들 및 이에 지정된 번역어순 순번을 사용자에게 디스플레이하고 사용자가 잘못된 어순을 수정하여 소번역단위들 및 각 소번역단위들에 지정한 번역어순 순번을 입력하면, 사용자가 입력한 소번역단위들 및 각 소번역단위들에 지정한 번역어순 순번으로부터 번역어순패턴을 결정한다.
도 4a에서 원문문장을 번역 소단위들인 소번역단위(3)들로 분할하고 형태소 분석한 각각의 분할패턴들(300)에 /1, /6, /3, /2, /5, /4와 같이 번역어순 순번(5)이 지정되어 있다. 이러한 번역어순패턴들은 번역어순패턴 DB(160)에 저장되고, 이후 다른 문장을 번역할 때 동일한 소번역단위 분할패턴이 나타나면, 그 다른 문장을 상기 동일한 소번역단위 분할패턴에 의해 소번역단위로 분할할 수 있고, 6개의 소번역단위 분할패턴이 모두 매칭된다면 동일한 번역어순패턴을 적용하여서, 기계적으로 분할할 수 있는 분할 어순결정 규칙 없이 번역어순패턴만으로 원문문장을 소번역단위로 분할하고 각 소번역단위들 간에 번역어순을 결정할 수 있다.
도 4a에서와 같이, 번역어순패턴 생성유닛(150)에서 번역어순패턴(401, 405)에 기초하여 파생된 번역어순패턴(402 - 404, 406 - 408)이 생성될 수 있다. 도 4a의 번역어순패턴에 포함된 소번역단위 분할패턴은 분할패턴 형태소열 중 하나 이상의 품사를 포함하는 분할패턴 시작부, 분할패턴 중간부 및 분할패턴 형태소열 중 하나 이상의 품사를 포함하는 분할패턴 종료부로 구성된 것을 도시한다. 일 실시예에서, 분할패턴 시작부 및 분할패턴 종료부는 각각 소번역단위 분할패턴을 구성하는 형태소열 중 하나 이상의 품사로 구성될 수 있고, 분할패턴 중간부는 생략될 수 있다. 번역어순패턴 생성유닛(150)은 분할패턴 중간부를 생략하고, 분할패턴 시작부 및 분할패턴 종료부를 포함하는 소번역단위 분할패턴들, 및 상기 소번역단위 분할패턴들에 지정된 번역어순 순번을 포함하는 번역어순패턴을 생성할 수 있다. 분할패턴 시작부는 원문문장의 문두부터 문미까지 소번역단위들로의 분할이 시작되는, 소번역단위의 형태소열 중 맨 앞에 위치하는 하나 이상의 품사를 포함한다. 또한, 분할패턴 종료부는 소번역단위들로의 분할이 종료되는, 소번역단위의 형태소열 중 마지막에 위치하는 하나 이상의 품사를 포함한다. 원문문장을 소번역단위들로 분할할 때 분할되는 부분이 전치 품사와 후치 품사의 사이이기 때문에, 후치 품사와 전치 품사에 상응하는 부분인 소번역단위 분할패턴의 분할패턴 시작부와 분할패턴 종료부만 갖추어지면, 소번역단위 분할 패턴에 의해 원문문장을 소번역단위들로 분할할 수 있다. 소번역단위 분할패턴의 시작부는 분할어순규칙 분할쌍에 의해 분할되는 앞뒤 소번역단위 중 후치품사를 포함하는 소번역단위의 분할패턴의 시작부에 대응한다. 또한 소번역단위 분할패턴의 종료부는 분할어순규칙 분할쌍에 의해 분할되는 앞뒤 소번역단위 중 전치품사를 포함하는 소번역단위 분할패턴의 종료부에 대응한다.
분할패턴 중간부 생략 확장 번역어순패턴1의 첫번째 행(402)에서 첫번째 소번역단위 분할패턴(AR *** N)은 분할패턴 시작부(AR) 및 분할패턴 종료부(N)가 각각 하나의 품사로 이루어져 있고, 분할패턴 중간부(***)는 3개의 품사가 생략되었음을 표시한다. 분할패턴 중간부 생략 확장 번역어순패턴2의 첫번째 행(403)에서 첫번째 소번역단위 분할패턴(AR A*** N)은 분할패턴 시작부(AR A)가 2개의 품사이며 분할패턴 종료부(N)는 분할 패턴의 형태소열 중 마지막 명사를 나타내는 품사 N부터 끝까지의 품사로 표시되고, 분할패턴 중간부(**)는 2개의 품사가 생략되었음을 표시한다. 분할패턴 중간부 생략 확장 번역어순패턴2의 첫번째 행(403)에서, 제 4 분할패턴의 분할패턴 종료부(N PR)는 명사 N부터 끝까지의 품사 PR(우괄호)로 표시된다. 분할패턴 중간부 생략 번역어순패턴3의 첫번째 행(404)은 첫번째 소번역단위 분할패턴들이 분할패턴 시작부(AR, V R, PL, V, D)(302) 및 분할패턴 종료부(N, N, N, PR, SY, RV)(303)를 갖고, 분할패턴 중간부가 모두 생략된 형태(-)로 표시된다. 도 4a에서 번역어순패턴 및 분할패턴 중간부 생략 확장 번역어순패턴의 두번째 행(405-408)은 첫번째 행(401-404)의 번역어순패턴을 원문문장의 형태소열과 매칭시키기 용이하도록 형태소열로 표시한 실시예다. 각각의 분할패턴은 문두부터 해당 분할단위가 종료되는 품사위치(395)까지 카운팅한 숫자로 표시된다. 번역어순패턴은 이러한 분할단위(395)와 해당 분할단위에 지정되는 순번(5)으로 표시될 수 있다. 이러한 표시법은 원문문장의 형태소열과 매칭되는 형태소열을 갖는 번역어순패턴을 검색할 때 유용하며, 매칭되는 형태소열을 갖는 번역어순패턴을 가져온 뒤 가져온 번역어순패턴에 지정된 분할패턴들 및 번역어순 순번에 의해 원문문장을 소번역단위들로 분할할 수 있다.
도 4b는 본 발명의 실시예에 따라 원문을 형태소 분석하고 도 3f의 소번역단위들로 분할한 소번역단위 분할패턴들에 번역어순 순번을 포함하는 번역어순패턴 및 번역어순패턴을 기초로 파생된 분할패턴 중간부를 생략한 확장된 번역어순패턴의 실시예들이다. 도 4b는 도 4a의 번역어순패턴의 마지막 소번역단위 분할패턴 D PP N RV SY(391)이 전치사 for 및 하나 이상의 품사를 포함하는 소번역단위 분할패턴으로 변경된 번역 패턴(392)을 갖는 번역어순패턴(409 - 416)을 도시한다. 일 실시예에서, 하나 이상의 원문 단어 및 품사를 포함하는 번역 패턴은 원문문장의 번역 소단위가 될 수 있기 때문에 소번역단위 분할패턴이 될 수 있다.
도 4c는 본 발명의 실시예에 따라 도 3h에서 각 소번역단위들에 대한 소번역문들의 번역 후 생성되는 번역어순패턴에 문미 번역어를 더 포함하는 분할어순 패턴의 실시예들이다. 문미 번역어는 한국어에서 '은', '는', '이', '가', '을', 및 '를'와 같은 조사, '다', '하는', 및 '되는'과 같은 어미, 또는 '를 위해', '에 대해'와 같이 전치사의 번역어를 포함할 수 있다. 문미 번역어는 각 소번역단위들의 번역문인 소번역문들의 문미 번역어를 의미한다. 이러한 문미 번역어는 번역어순패턴에 의해 소번역단위들의 번역어순이 정해지고, 각 소번역단위들을 자동번역했을 때, 각 소번역문들 간을 연결하는데 이용될 수 있다. 문미 번역어(396)는 어순과 같이 분할패턴마다 지정해지는 것은 아니며, 서술어와 같이 자동번역된 문미 번역어와 동일한 경우, 필요에 따라 생략될 수 있다. 이러한 문미 번역어를 통해 소번역단위 분할패턴의 문장 성분을 파악할 수 있다. 예를 들어, 한국어에서 문미 번역어(396)가 '은', '는'이면, 소번역단위가 주격임을 알 수 있고, '을' '를'이면 목적격임을 알 수 있다.
도 4e은 도 4a의 분할패턴 중간부 생략 확장 번역어순패턴들(402-404, 406-408)과 같이, 파생된 번역어순패턴의 실시예들을 도시한다. 도 4a 또는 도 4b의 번역어순패턴(401, 405, 409, 413)으로부터 정해진 규칙에 따라, 확장 번역어순패턴 생성 유닛(150)에서 확장 번역어순패턴을 생성할 수 있다. 이들 확장 번역어순패턴은 번역어순패턴 DB(160)에 저장된다. 또한, 번역어순패턴 DB(160)를 분석하여 분할패턴의 형태소열들 및 이의 번역어순 순번에서 일정한 규칙성을 찾아서, 번역어순패턴을 확장시킬 수 있다. 확장된 번역어순패턴의 생성은 번역어순패턴 DB(160)의 번역어순패턴들을 분석하여 일정한 규칙성을 찾을 수 있고, 이미 결정된 번역어순패턴에서 분할패턴들을 병합하고 결번되는 번호를 다음으로 큰 순번을 갖는 소번역단위 분할패턴의 순번이 갖도록 하나씩 감소시켜 생성할 수 있다. 산술적으로 6개의 소번역단위들로 분할되고 순번이 지정된 번역어순패턴은 2개의 소번역단위들로 병합시켜서 5개, 4개, 3개 및 2개의 순번을 갖는 소번역단위 분할패턴들로 병합시킬 수 있다. 도 4d는 도 2a의 원문문장으로부터 2개 내지 6개의 분할패턴들을 갖는 번역어순패턴들(430-441) 및 분할패턴 중간부 생략 확장 번역어순패턴(442-453)을 도시한다.
부연하면, 도 4e는 도 4a에서 번역어순에 영향을 미치지 않는 괄호 부분을 생략하고 번역어순을 다시 결정한 것을 도시한다. 여기서, PL PP V A N PR / 2이 생략됨에 따라 2보다 큰 번역어순 순번들은 하나씩 감소되어 새로운 번역어순 순번이 결정된다.
도 4e의 다섯번째 행(480-484)는 도 4a의 번역어순패턴으로부터 번역어순 순번 /2, /3 및 /4의 관계사절을 하나의 소번역단위로 병합함으로써 AR A N / 1, V AR A N / 3 및 R Clause/3의 3개로 구성되는 확장 번역어순패턴을 도시한다. 이러한 확장 번역어순패턴은 문장 내에서 관계사절 뿐만 아니라, 특정 that절, which절, 명사절, 부사구, 전치사구, 동사구 등 특정 단어를 포함하는 소번역단위 분할패턴에 지정되는 번역어순패턴의 규칙으로 확장될 수 있다.
2. 기계적 분할 및 번역어순 결정 유닛으로부터 번역어순패턴 데이터 생성
도 1a는 본 발명의 실시예에 따라 원문문장을 번역문장으로 번역하는 장치 또는 프로그램에서 원문문장을 번역 소단위인 소번역단위로 분할하고 상기 소번역단위들의 번역어순을 결정하는 컴퓨터 실행가능 명령어들을 저장한 저장매체, 프로그램, 또는 장치의 일 실시예이다. 이러한 원문문장을 번역 소단위인 소번역단위로 분할하고 상기 소번역단위들의 번역어순을 결정하기 위한 컴퓨터 실행가능 명령어들을 저장한 저장매체, 번역 프로그램, 방법 및 장치는 개인용 컴퓨터, 모바일 장치, 서버 또는 이들의 2 이상의 장치가 결합된 네트워크 상에서 이용될 수 있다. 본 발명의 번역어순패턴 데이터 구조, 상기 컴퓨터 실행가능 명령어들을 저장한 저장매체 또는 번역 프로그램은 다운로드 가능한 형태로 서버를 통해 배포될 수 있다.
본 발명에 따른 컴퓨터 판독 가능 저장 매체는 컴퓨터 하드 디스크, 메모리, SSD, USB 등 광학적으로, 자기적으로, 또는 기타 방법으로 데이터가 저장되는 컴퓨터에서 판독 가능한 물리적 구성요소 또는 물질을 의미한다.
도 2a는 본 발명에서 예시적으로 사용되는 원문문장(1) 및 원문에 대한 번역문장(1)을 도시한다. 원문문장 수신 유닛(100)은 번역할 원문문장(1)을 불러 들인다. 형태소 분석 및 품사 태깅 유닛(110)은 원문문장 수신 유닛(100)으로부터 원문문장을 입력 받아 형태소 분석을 수행하고 품사를 태깅한다. 형태소분석 (morphological analysis)은 자연언어 분석의 첫 단계로써, 원문문장의 입력문자열을 형태소열로 바꾸는 작업을 한다. 형태소(morpheme)는 의미의 최소단위로써, 더 이상 분석 불가능한 가장 작은 의미 요소를 말한다. 예를 들어, 형태소는 문법적 혹은 관계적인 뜻을 나타내는 단어 또는 단어의 부분, 그리고 단순어의 어근(원형), 어미나 조사, 접두사, 접미사 등이다. 구두점(','), 세미콜론(';')과 같은 원문문장을 구성하는 원문 부호들도 품사처럼 구두점, 세미콜론으로 태킹되고 품사와 동일하게 취급된다. 본 발명에서 한국어가 원문 언어인 경우, 한국어 형태소의 품사를 '명사, 대명사, 수사, 동사, 형용사, 관형사, 부사, 감탄사, 조사, 어미, 접사, 어근, 부호, 한글 이외'와 같이 나누고 각 품사를 태깅할 수 있다. 본 발명에서 중국어가 원문 언어인 경우, 중국어 형태소의 품사를 '명사, 대명사, 수사, 양사, 동사, 형용사, 부사, 전치사, 조사, 부호, 중국어 이외'와 같이 나누고 각 품사를 태깅할 수 있다.
형태소 분석 및 품사 태깅 유닛(110)은 명사 및 명사의 형태소열과 같은 복합명사를 하나의 명사로 처리하거나, 전치사 및 관계사의 형태소열을 관계사로 묶는 등 복수의 품사를 하나의 품사로 묶는 청킹(chunking) 유닛을 포함할 수 있다.
원문문장을 형태소 분석하고 품사 태깅한 형태소열은 소번역단위 및 번역어순 결정 유닛(120)으로 입력되어 소번역단위들로 분할되고, 각 소번역단위들에 번역어순 순번을 결정한다. 소번역단위 및 번역어순 결정 유닛(120)은 번역어순패턴 매칭유닛(121) 및 기계적 분할 및 어순 결정 유닛(122)을 포함한다.
번역어순패턴 매칭 유닛(121)은 형태소 분석된 원문문장의 형태소열과 일치하는 소번역단위 분할 패턴을 포함하는 번역어순패턴(401-484)이 있는지 번역어순패턴 및 확장된 번역어순패턴이 저장된 번역어순패턴 DB(160)을 검색하고, 번역어순패턴 DB(160)에 전체적으로 또는 부분적으로 매칭되는 번역어순패턴(401-484)이 존재하면, 매칭된 번역어순패턴(401-484)에 포함된 소번역단위 분할패턴에 따라 원문문장을 소번역단위들로 분할하고 각 소번역단위들에 번역어순 순번을 결정한다. 번역어순패턴 DB(160)는 번역어순패턴(401-484)을 기록한 컴퓨터 판독가능한 저장매체들 중 하나이다. 형태소 분석된 원문문장의 형태소열과 전체적으로 매칭된다고 함은 번역어순패턴의 모든 소번역단위 분할패턴의 형태소열이 원문의 형태소열과 일치함을 의미하고, 부분적으로 매칭되는 번역어순패턴은 원문문장의 형태소열과 비교하여 모든 소번역단위 분할패턴들 중 하나를 제외한 나머지 소번역단위 분할패턴들의 형태소열이 매칭되는 번역어순패턴을 의미한다. 모든 소번역단위 분할패턴들 중 하나가 다른 경우에도, 그 다른 하나를 제외한 다른 매칭되는 분할패턴들 및 그 순번들이 매칭되기 때문에, 상기 매칭되는 분할패턴들 및 그 순번들로부터 매칭되지 않는 상기 하나의 분할패턴 및 그 순번을 유추할 수 있기 때문이다. 또한, 부분적으로 매칭되는 번역어순패턴은 원문문장을 소번역단위들로 분할했을 때 소번역단위들 각각의 형태소열 중 맨 앞에 위치된 하나 이상으로 구성된 소번역단위 분할패턴 시작부 그리고 소번역단위들 각각의 형태소열 중 마지막에 위치된 하나 이상으로 구성된 소번역단위 분할패턴 종료부와 매칭되는 번역어순패턴을 의미한다. 소번역단위 분할패턴 시작부 및 소번역단위 분할패턴 종료부로 구성된 소번역단위 분할패턴들 및 이들 분할패턴들 각각에 지정된 순번을 포함하는 번역어순패턴은 원문문장의 형태소열과 전체적으로 매칭되지 않는 경우라도, 소번역단위 분할패턴들 각각의 시작부와 종료부만 매칭되면 원문을 소번역단위들로 분할할 수 있고 상기 시작부 및 종료부를 포함하는 분할패턴들에 지정된 번역어순 순번에 따라 분할된 상기 소번역단위들에 번역어순 순번을 결정할 수 있다. 그러므로, 원문문장의 각 소번역단위들의 형태소열의 시작부 및 종료부가 매칭되는 번역어순패턴에 포함된 분할패턴 시작부와 분할패턴 종료부를 포함하는 각각의 분할패턴들과 모두 일치하는 경우 원문문장을 분할하고 분역어순을 결정하는 상기 어순결정 패턴으로 이용할 수 있다.
기계적 분할 및 어순 결정 유닛(122)은 도 2b 및 도 2c과 같은 분할 어순 규칙에 따라 원문문장을 복수의 소번역단위들로 분할하고 분할된 소번역단위들에 번역어순 순번을 결정한다(도 3f 참조). 기계적 분할 및 번역어순결정은 도 3a 내지 도 3i를 설명하는 부분에서 더 설명한다.
소번역단위 및 번역어순 결정 유닛(120)에서 번역어순패턴 매칭유닛(121) 및 기계적 분할 및 어순 결정 유닛(122)은 서로 중첩적으로 적용될 수 있다. 즉, 번역어순패턴 매칭유닛(121)으로 번역어순패턴 DB(160)를 검색하고 매칭된 번역어순패턴이 없는 경우 기계적 분할 및 어순 결정 유닛(122)을 통해 원문문장을 소번역단위들로 기계적으로 분할하고 각 소번역단위들의 번역어순 순번을 결정할 수 있다. 또한, 기계적 분할 및 어순 결정 유닛(122)을 통해 원문문장을 소번역단위들로 기계적으로 분할하고 각 소번역단위들의 번역어순 순번을 결정한후, 번역어순패턴 매칭유닛(121)으로 번역어순패턴 DB(160)를 검색하고 매칭된 번역어순패턴이 있는 경우 기계적 분할 및 어순 결정 유닛(122)을 통해 결정된 소번역단위들 및 이들 각각의 지정된 순번들을 리셋하고 번역어순패턴 매칭유닛(121)에서 불러온 번역어순패턴을 적용시킬 수 있다. 또한, 본 발명의 다른 실시예에서, 기계적 분할 및 어순 결정 유닛(122)을 통해 원문문장을 소번역단위들로 기계적으로 분할하고 번역어순패턴 매칭 유닛(121)을 통해 분할된 소번역단위들에 대해 번역어순 순번을 결정할 수 있다. 즉, 분할된 소번역단위들의 형태소열들에 대해, 번역어순패턴 매칭유닛(121)으로 번역어순패턴 DB(160)를 검색하고 매칭되는 형태소열들을 포함하는 번역어순패턴이 있는 경우 소번역단위들로의 분할은 기계적 분할 및 어순 결정 유닛(122)을 통해 수행하고, 분할된 소번역단위들의 번역어순 순번은 번역어순패턴 매칭유닛(121)에서 불러온 번역어순패턴의 번역어순 순번으로 결정할 수 있다.
소번역단위 및 번역어순 결정 유닛(120)은 원문문장에 대해 복수의 소번역단위들로의 분할과 분할된 소번역단위에 대해 지정된 번역어순 순번을 출력한다. 소번역단위 및 번역어순 결정 유닛(120)으로부터 출력된 복수의 소번역단위들 및 분할된 소번역단위에 대해 지정된 번역어순 순번은 사용자 인터페이스 유닛(140)으로 입력되어 사용자에게 표시 유닛(141)을 통해 디스플레이될 수 있고, 사용자는 복수의 소번역단위들로의 분할과 분할된 소번역단위에 대해 지정된 번역어순 순번을 입력 유닛(142)으로 수정하여 입력하면, 수정된 입력 사항을 소번역단위 및 번역 어순 결정 유닛(120) 또는 번역어순패턴 생성유닛(150)이 수신하여 각각 상기 입력 사항으로 소번역단위 및 번역어순 순번을 결정하거나 번역어순패턴을 생성할 수 있다. 번역어순패턴 생성 유닛(150)을 통해 사용자가 수정한 번역어순패턴을 번역어순패턴 DB(160)에 저장할 수 있다.
본 발명의 다른 실시예에서, 소번역단위 및 번역어순 결정 유닛(120)은 기계적 분할 및 어순 결정 유닛(121)에서 기계적으로 하나의 원문문장 또는 소번역단위를 2 개 소번역단위들로 분할할 때마다 표시 유닛(141)에 상기 결정된 소번역단위들 및 이들 각각에 지정된 순번을 사용자에게 표시할 수 있다. 이후 사용자가 분할된 소번역단위들 및 분할된 소번역단위에 대해 지정된 번역어순 순번을 입력 유닛(142)으로 수정하여 입력하면, 기계적 분할 및 어순 결정 유닛(121)에서 기계적으로 결정된 소번역단위들 및 이들 각각에 지정된 순번에 우선하여 상기 입력 유닛(142)을 통해 입력된 소번역단위 및 번역어순 순번을 원문문장에 대한 소번역단위들 및 이들 각각의 번역어순 순번으로 결정할 수 있다. 사용자는 입력 유닛(142)을 통해 직접 소번역단위들 및 분할된 소번역단위들 각각에 대해 순번을 결정하는 신호를 입력할 수 있을 뿐만 아니라, 분할되는 소번역단위들의 위치 정보 및 분할된 소번역단위들의 순번을 포함하는 제 1 신호 또는 제 2 신호를 입력하여, 소번역단위들 및 이들 각각에 지정되는 번역어순 순번을 결정할 수 있다(도 5a 내지 도 5m 참조). 이 경우에서, 소번역단위 및 번역어순 결정 유닛(120)은 제 1 신호 또는 제 2 신호에 의해 2 개의 소번역단위들로 분할될 때마다 표시유닛(141)에 상기 결정된 소번역단위들 및 이들 각각에 지정된 순번을 사용자에게 표시할 수 있다. 일 실시예에서, 제 1 신호는 마우스 좌클릭이고, 제 2 신호는 연속적인 마우스 좌클릭 및 우클릭이다. 소번역단위 및 번역어순 결정 유닛(120)으로부터 출력된 복수의 소번역단위들 및 각 소번역단위들에 대해 지정된 번역어순 순번은 사용자 인터페이스 유닛(140)으로 입력된다.
소번역문 및 번역문 생성유닛(130)은 번역 메모리 매칭 유닛(131), 자동번역유닛(132)을 포함하고 문미번역어 처리 유닛(133)을 더 포함할 수 있다. 번역메모리 매칭 유닛(131)은 번역메모리 DB(170)를 검색하여 소번역단위들과 매칭되는 번역메모리를 불러와서 소번역문을 생성할 수 있다. 매칭되는 번역메모리가 없어서 번역메모리를 불러오지 못한 소번역단위들은 자동번역유닛(132)을 통해 자동번역된다(도 3g 참조). 자동번역 유닛(132)은 Google Inc.의 자동번역엔진과 같이, 시판되고 있는 자동번역엔진을 이용할 수 있다. 또한, 소번역문 및 번역문 생성유닛(130)은 번역 메모리 매칭 유닛(131) 및 자동번역유닛(132)을 중첩적으로 적용할 수 있다. 소번역문 및 번역문 생성유닛(130)은 자동번역유닛(132)에서 자동번역을 통해 모든 소번역단위들에 대해 소번역문들을 생성한 후 번역 메모리 매칭 유닛(131)를 검색하고 매칭되는 번역메모리 또는 소번역메모리가 있는 경우 자동번역된 소번역문들에 우선하여 소번역메모리가 존재하는 소번역단위에 대해 소번역문들을 생성할 수 있다.
본 발명의 일 실시예에서, 소번역단위 및 번역어순 결정, 및 소번역문 및 번역문장 생성은 소번역단위 및 번역어순 결정유닛(120)에서 원문문장을 소번역단위들로 한번씩 분할하고 번역어순 순번을 결정할 때마다 소번역문 및 번역문 생성유닛(130)에서 분할된 복수의 소번역단위들에 대해 소번역문들을 생성하고 이들 소번역단위들에 지정된 번역어순 순번에 따라 정렬하여 전체 번역문장을 생성할 수 있다. 소번역문 및 번역문 생성유닛(130)에서 소번역문의 생성 및 번역문장의 생성한 후 소번역단위들, 번역어순 순번, 생성된 소번역문들, 및 번역문장을 사용자 인터페이스 유닛(140)으로 송신한다. 인터페이스 유닛(140)의 표시 유닛(141)은 결정된 소번역단위들 및 이들 각각에 지정된 순번, 그리고 각 소번역단위들에 대한 소번역문 및 이들 소번역문을 상기 소번역단위들 각각에 지정된 번역어순 순번대로 정렬하여 완성된 번역문장을 사용자에게 표시한다. 사용자가 분할된 소번역단위들 및 분할된 소번역단위에 대해 지정된 번역어순 순번을 입력 유닛(142)으로 수정하여 입력하면, 상기 입력된 소번역단위 및 번역어순 순번, 소번역문을 소번역단위, 번역어순 순번, 소번역문으로 저장할 수 있다. 사용자는 자신이 원문문장을 소번역단위들로 분할하고 번역어순 순번을 결정할 때마다 각 소번역단위들에 대해 번역된 소번역문들 및 번역문장을 확인하면서, 소번역문들의 추가적인 분할을 결정할 수 있다. 또한, 사용자가 원문문장을 소번역단위들로 분할할 때마다 번역어순 매칭 유닛(121)은 각 소번역단위들에 대해 통해 번역어순패턴 DB(160)를 검색할 수 있고, 사용자는 매칭된 번역어순 순번에 따라 소번역문 및 번역문 생성 유닛(130)을 통해 생성된 소번역문들 및 상기 소번역문들을 정렬한 번역문장을 확인하면서, 추가적으로 분할할 것인지, 또는 더이상 분할하지 않고, 번역된 소번역문 및 번역문을 이용할 것인지 결정할 수 있다.
문미번역어 처리 유닛(133)은 번역어순패턴 DB(160)의 번역어순패턴과 매칭되는 원문의 소번역단위들이 번역어순패턴에 포함된 문미번역어를 상기 존재하는 소번역단위들의 번역문인 소번역문들 문미에 부가하고 번역어순에 맞는 조사, 어미 또는 전치사 번역어 등을 처리하여 번역문장을 완성한다. 문미번역어 처리 유닛(133)은 번역어순 규칙의 분할 쌍의 전치 품사 및 후치 품사의 관계에 따라 번역어순 순번을 결정할 때 분할된 소번역단위들에 지정되는 조사, 어미 및 전치사 번역어 등을 생성할 수 있다. 예를 들어 명사-동사의 분할 쌍이면 전치 품사인 명사가 속하는 앞 소번역단위에 주격조사를 생성하고 뒤 소번역단위에 동사 종결어미를 생성하여 지정할 수 있다. 또한, 명사-형용사 또는 명사-관계사의 분할 쌍에서는 역순 어순으로 형용사 또는 관계사가 명사를 수식하게 되는 것이 미리 결정될 수 있으므로, 후치품사인 관계사가 속하는 뒤 소번역단위에 '~는' 또는 '~하는' 등의 수식 어미를 생성하여 지정할 수 있다.
문미 번역어 처리유닛(131)은 또한 각 소번역단위들에 대해 자동번역하고 번역어순 순번에 따라 정렬한 후 각 소번역단위들에 대해 자동번역으로 생성된 소번역문들 간에 필요한 수식어를 번역문장의 문법 및 맞춤법에 맞게 수정하고 추가하여 번역문장을 완성한다.
소번역문 및 번역문 생성 유닛(130)은 소번역단위들에 대한 소번역문들 및 번역문장을 출력한다. 소번역문 및 번역문 생성 유닛(120)으로부터 출력된 소번역문들 및 번역문장은 사용자 인터페이스 유닛(140)으로 입력되어 사용자에게 디스플레이 유닛(141)을 통해 디스플레이 되고, 사용자는 복수의 소번역단위들에 대한 소번역문들과 완성된 번역문장에 대해 소번역문들을 입력 유닛(142)으로 수정하여 입력하면, 소번역메모리 생성 유닛(130)을 통해 소번역단위들 및 상기 소번역단위들에 대한 소번역문의 쌍을 포함하며 각 소번역단위들 간의 번역어순 순번을 포함하는 번역메모리를 번역메모리 DB(170)에 저장한다.
번역메모리 DB(170)에 저장되는 소번역단위들 및 소번역문들의 쌍 및 번역어순 정보를 포함하는 번역메모리는 소번역단위들 각각에 대한 소번역문들의 대응관계가 소단위 대응관계표시자들에 의해 표시되고, 상기 소단위 대응관계표시자들의 소번역단위위치정보들은 상기 소번역단위들 각각의 원문문장 내 소단위로 세분화된 위치를 지시할 수 있고, 상기 소단위 대응관계표시자들의 소번역문위치정보들은 상기 소번역문들 각각의 번역문장 내 위치를 지시할 수 있다.
번역어순패턴 생성 유닛(150)은 또한 번역어순패턴 DB(160)에 저장된 번역어순패턴들을 기초로 확장될 수 있는 확장 번역어순패턴을 생성하여 번역어순패턴 DB(160)에 저장할 수 있다. 확장된 번역어순패턴은 원문문장의 형태소 분석된 품사들의 형태소열과 매칭시켜서 분할패턴 및 번역어순 순번을 지정하는데 사용될 수 있다. 확장된 번역어순패턴에 대해서는 도 4a 내지 도 4e에서 설명한다.
소번역문 및 번역문 생성 유닛(130)은 번역메모리 DB(170)로부터 소번역단위 및 소번역문의 쌍인 소번역메모리들을 분석하여 확장 번역메모리를 생성하고 번역메모리 DB(170)에 저장한다.
도 2b는 본 발명에 따른 복문 분할 어순 규칙(6)의 일 실시예를 도시하고, 도 2c는 본 발명에 따른 단문 분할 어순 규칙(6)의 일 실시예를 도시한다. 본 발명에서 분할 어순 규칙은 분할과 동시에 전치 품사 및 후치 품사에 따라 어순이 결정되는 경우, 반드시 복문 분할 어순 규칙을 우선적으로 먼저 적용하여서 원문문장을 소번역단위들로 분할하고, 이후 단문 분할 어순 규칙을 적용하는 순서로 이루어진다. 이는 복문을 단문으로 분할하는데 필요한 절과 절을 연결하는 등위 접속사를 먼저 분할하고 각각 단문들에 대해 분할하여야 후속적으로 분할되는 각 단문들 내의 소번역단위들 간의 번역 어순이 복문인 원문문장 전체 번역어순이 되기 때문이다. 또한, 명사 및 동사의 분할쌍은 단문 분할 어순 규칙들 중에서 우선적으로 먼저 분할되도록 정해진다. 단문 내에서 주어부는 번역어순 순번이 술어부보다 앞서 번역되는 번역 어순을 갖기 때문이다.
분할 어순 규칙은 원문문장의 형태소열에서 2개의 소번역단위로 분할되는 전치품사 및 후치품사의 분할 쌍 리스트를 포함한다. 분할 규칙에 지정된 전치 품사 및 후치 품사 사이가 분할되어 전치 품사는 분할되는 2개의 소번역단위들 중 앞 소번역단위의 마지막 품사가 되고 후치품사는 분할되는 2개의 소번역단위들 중 뒤 소번역단위의 첫번째 품사가 된다. 또한, 분할 어순 규칙은 소번역단위 분할패턴으로 분할하는 규칙이외에, 분할 쌍의 전치 품사 및 후치 품사에 따라 2개의 소번역단위들로 분할될 경우 분할된 후 전치 품사가 속하는 앞 소번역단위와 후치 품사가 속하는 뒤 소번역단위 간의 번역어순에 대한 정보 및 분할 쌍 간의 우선순위 정보를 포함할 수 있다.
도 2d는 도 2a의 원문문장에 대해 형태소 분석하고 품사를 태깅한 결과(20)를 도시한다. 원문문장에 포함된 부호(좌괄호, 우괄호, 쉼표, 및 마침표 등)는 형태소 분석에서 품사들과 동일하게 취급되어 하나의 품사처럼 태깅된다. '(' 및 ')'는 품사 태킹시 좌괄호 및 우괄호로 품사 태깅되며 PL 및 PR로 표시되고, 쉼표 및 마침표은 구두점으로 태킹되며 SY로 표시된다.
본 발명의 일 실시예에서, 분할 어순 결정 규칙은 그 사이가 분할될 2 개의 특정 품사들인 전치 품사 및 후치 품사의 분할 쌍들에 대한 리스트를 포함한다. 분할 어순 결정 규칙에 따라 원문을 복수의 소번역단위들로 분할하고 각 소번역단위들에 번역어순을 결정하는 것은 상기 분할 어순 결정 규칙의 분할 쌍과 일치하는 품사의 배열이 있으면 원문문장의 형태소열 중 일치하는 2개의 특정 품사들 사이를 2 개의 소번역단위들로 분할하고, 상기 분할 어순 결정 규칙의 분할 쌍에 지정된 순차 번역어순 또는 역순 번역어순에 따라 상기 분할된 2 개의 소번역단위들의 번역어순 순번을 결정하는 방식으로, 상기 형태소 분석 및 품사 태깅 유닛(110)을 통해 형태소 분석 및 품사 태깅한 원문문장을 구성하는 일련의 품사 및 부호의 형태소열을 문두부터 문미까지 복수의 소번역단위들로 분할하고, 상기 분할 어순 결정 규칙의 분할 쌍에 지정된 순차 번역어순 또는 역순 번역어순에 따라 상기 분할된 2 개의 소번역단위들의 번역어순 순번을 결정한다. 분할쌍 리스트에 포함된 전치 품사 및 후치 품사의 쌍들과 매칭되는 원문의 형태소열을 문두에서 문미까지 분할할 때까지 원문 전체에 대해 수행된다.
도 2b는 5개의 분할 쌍의 리스트를 포함하고, 도 2c는 14개의 분할 쌍의 리스트를 포함한다. 도 2b 및 도 2c에서 순차어순 열에 체크되지 않은 분할 쌍은 역순 번역어순을 지시한다. 순차 번역어순에 따라, 분할된 앞뒤 소번역단위들 간의 순차 순번은 분할되기 전 소번역단위가 원래 가지고 있던 번역어순 순번 및 상기 번역어순 순번에 1이 증가된 번역어순 순번으로 결정되고, 분할된 앞뒤 소번역단위들이 아닌 다른 소번역단위의 번역어순 순번이 상기 증가된 순번과 동일하거나 상기 증가된 순번보다 큰 순번을 가지면 상기 동일하거나 큰 순번을 갖는 다른 소번역단위들에 지정된 번역어순 순번을 1만큼 증가시키고, 역순 번역어순에 따라, 분할되는 2 개의 소번역단위들에 내림차순의 역순 순번을 결정하되, 분할된 앞뒤 소번역단위들 간의 역순 순번은 분할되기 전 소번역단위가 원래 가지고 있던 번역어순 순번에 1이 증가된 번역어순 순번 및 원래 가지고 있던 번역어순 순번으로 결정되고, 분할된 앞뒤 소번역단위들이 아닌 다른 소번역단위의 번역어순 순번이 상기 증가된 순번과 동일하거나 상기 증가된 순번보다 큰 순번을 가지면 상기 동일하거나 큰 순번을 갖는 다른 소번역단위들에 지정된 번역어순 순번을 1만큼 증가시킨다.
도 2b은 복문 분할 규칙의 일 예로써, 분할 쌍에 대한 번역어순 순번을 나타낸다. 분할 어순 규칙에서 접속사(AND/OR)는 모든 등위 접속사를 나타내는 것이 아니라 절과 절을 연결하는 등위 접속사만으로 한정되도록 내부적으로 프로그래밍될 수 있다. 즉, AND/OR 등위 접속사 앞뒤의 품사 중에 원문문장의 형태소열 중 최초 AND/OR가 있는 경우 최초 AND/OR 이전에 동사가 존재하고, 최초 AND/OR 이후부터 두번째 AND/OR를 포함하는 다음 접속사 또는 원문문장 끝까지 사이에 동사가 존재하는 경우만을 접속사 'AND/OR'로 식별하도록 프로그래밍될 수 있다. 만약 AND/OR 이전에 동사가 존재하지 않거나 AND/OR 이후부터 다음 AND/OR를 포함하는 다음 접속사까지 또는 원문문장 끝까지 사이에 동사가 존재하지 않으면 분할 어순 규칙의 접속사(AND/OR)가 아닌 것으로 프로그래밍할 수 있다. 접속사(AND/OR)-모든품사 분할 쌍은 절과 절을 연결하는 접속사(AND/OR)와 모든 품사 사이를 분할한다. 복문 분할 규칙에 모든품사-접속사(AND/OR) 및 접속사(AND/OR)-모든품사의 분할 쌍이 분할 규칙에 포함되면 절과 절을 연결하는 AND/OR는 앞뒤로 분할되어 단독으로 소번역단위를 구성할 수 있다.
도 2c는 단문 분할 어순 규칙의 일 예로써, 분할 쌍에 대한 번역어순 순번을 나타낸다. 도 2c의 분할 어순 규칙은 단문 분할어순 규칙의 일 실시예이고, 단문 분할 규칙은 순차 번역과 역순 번역이 되는 분할 쌍이 존재할 경우 이들 간의 선후 어순 결정에 따라 번역어순에 차이가 날 수 있기 때문에, 각 분할쌍들 간에 우선 순위를 미리 정해놓을 수 있다. 예를 들어 명사-동사, 과거분사-동사, 현재분사-동사, 명사-대명사는 원문문장의 주어부와 서술어부를 우선적으로 분할하도록 형태소 분석된 원문문장의 형태소열을 분할할 때 분할 쌍들 간에 우선순위를 정할 수 있다. 우선 순위가 정해지지 않은 분할 쌍들은 원문문장의 형태소 분석된 품사들의 형태소열의 문두부터 문미까지 순차적으로 매칭하여 분할 어순 규칙에 존재하는 분할 쌍에 따라 분할하고 번역어순 순번을 결정한다. 만약 우선 순위가 있는 분할 쌍이 있으면, 문두부터 문미까지의 순차적인 분할보다 우선적으로 분할 어순 규칙이 적용된다. 예를 들어, 접속사-모든 품사 및 명사-동사에 우선순위 1, 2가 지정되어 있으면 접속사-모든 품사의 분할 쌍이 명사-동사의 분할 쌍보다 뒤에 위치되더라도, 먼저 접속사-모든 품사를 먼저 분할하고 명사-동사가 다음으로 분할되고, 명사-동사 분할 쌍이 분할 쌍 리스트에 있는 다른 분할 쌍보다 먼저 분할된다. 예를 들어, 명사-동사, 과거분사-동사, 현재분사-동사, 명사-대명사의 분할 쌍 중 우선순위는 1, 2, 3, 4로 정할 수 있고, 나머지 다른 분할 쌍들에 대해서는 원문의 형태소열의 문두부터 문미까지 분할어순 규칙에 따라 분할이 수행된다. 분할 어순 규칙의 전치 품사 및 후치 품사는 언어에 따라 규칙이 달라질 수 있으며, 번역자가 분할하고자 하는 분할 쌍을 분할 쌍 리스트에 추가하거나 삭제함으로써 분할되는 소번역단위들을 조정할 수 있다.
문장에 대해 태깅된 품사들 중 하나가 등위 접속사이면, 분할된 소번역단위들의 번역어순의 순번은 순차로 증가되도록 결정되고, 이 경우 등위 접속사는 전치 품사 또는 후치품사가 되도록 분할 어순 규칙이 정해질 수 있고, 순차로 증가되도록 결정된다는 것은 분할되는 소번역단위의 앞쪽에 위치된 소번역단위의 소번역문이 원래 가지고 있던 번역어순 순번을 가지고 소번역단위의 뒤쪽에 위치된 소번역단위의 소번역문이 상기 번역어순 순번에 1이 증가된 번역어순 순번을 갖도록 결정되는 것을 의미한다.
또한, 원문문장에 대해 태깅된 품사들 중 하나가 종속 접속사이면, 후치 품사가 종속 접속사가 되도록 분할 어순 규칙이 결정될 수 있고, 분할된 소번역단위들의 번역어순의 순번은 역순으로 감소되도록 결정될 수 있다. 역순으로 감소되도록 결정된다는 것은 분할되는 소번역단위의 뒷쪽에 위치된 소번역단위가 분할전 소번역단위가 원래 가지고 있던 번역어순 순번을 가지고 소번역단위의 앞쪽에 위치된 소번역단위가 상기 분할전 소번역단위가 가지고 있던 번역어순 순번보다 1이 증가된 번역어순 순번을 갖도록 결정되는 것을 의미한다.
단문 분할 어순 규칙에서 원문언어가 영어의 경우 명사는 예를 들어 전치 품사가 되어 명사 뒷부분이 앞쪽 소번역단위의 문미에 포함되도록 분할된다. 이는 명사 뒤를 기준으로 분할하면 분할 어순 규칙에 의해 기계적 분할 후 번역어순을 기계적으로 결정할 수 있기 때문이다.
분할 어순 규칙은 번역자의 필요에 따라 분할 쌍의 리스트를 증감시킬 수 있다. 분할 어순 규칙의 분할 쌍의 리스트가 늘어나면 원문문장을 구성하는 소번역단위들의 갯수가 증가되어 번역어순으로 정렬해야하는 번역어순 순번이 증가하고 자동번역해야하는 소번역단위의 어절 수가 감소되어 자동번역이 정확해질 수 있으나, 번역자가 번역이 제대로 이루어졌는지 검수할 때, 검수 시간이 증가될 수 있다. 분할 쌍의 리스트가 감소하면 소번역단위들의 갯수가 감소하여 이에 지정되는 번역어순 순번의 수도 감소된다.
도 3a 내지 도 3h는 기계적 분할 및 번역어순 결정 유닛(122)에서 도 2a의 원문(1)을 도 2b 및 도 2c의 분할 어순규칙에 의해 사용자가 아래의 원문문장을 번역 소단위인 소번역단위로 프로그램에 의해 기계적으로 분할한 후 분할된 소번역단위들 간의 번역어순의 순번을 결정하고 각 소번역단위들을 번역하는 일련의 과정에 대한 일 실시예를 도시한다.
A second operating BZ2 state can be a operating state at which a very small amount of fuel (in contrast to operating state BZ1) is metered, especiallly for catalyst heating.
특정 품사들 간의 미리 결정된 분할 어순 결정 규칙은 상기 전치 품사 및 후치 품사의 분할쌍에 대해 분할될 앞뒤 소번역단위들이 올림차순의 순차 번역 어순인지 내림차순의 역순 번역어순인지를 지정한 분할어순 정보를 더 포함하고, 상기 2 개의 소번역단위들로 분할할 때마다 상기 분할 어순 결정 규칙의 분할 쌍의 분할어순 정보에 따라 2 개의 소번역단위들의 번역어순 순번을 결정한다. 상기 순차 번역어순에 따라, 분할된 앞뒤 소번역단위들 간의 순차 순번은 분할되기 전 소번역단위가 원래 가지고 있던 번역어순 순번 및 상기 번역어순 순번에 1이 증가된 번역어순 순번으로 결정된다. 예를 들어, 분할된 2 개 소번역단위들 간의 번역어순 순번은 분할되기 전 원문문장 또는 소번역단위가 원래 가지고 있던 번역어순 순번과 상기 번역어순 순번에 1이 증가된 번역어순 순번으로 결정된다. 예를 들어, 도 3a에서 분할되기 전 원문문장(1)은 도 3b에서 도 2c의 단문 분할어순 규칙(6)에 따라 명사-동사 사이를 분할하면, 분할 쌍의 분할된 2 개 소번역단위들(30, 31) 간의 번역어순 순번은 원문이 원래 가지고 있던 번역어순 순번 1과 상기 번역어순 순번에 1이 증가된 번역어순 순번(2)으로 결정된다. 또한, 도 3b에서 2번 소번역단위(31)는 번역어순 순번 2이지만, 2번 소번역단위(31)에 대해 단문 분할어순 규칙(6)에 따라 모든품사-관계사 사이를 분할하면(at which는 형태소 분석시 하나의 관계사처럼 분석되도록 미리 정해짐), 도 3c에서 분할된 2 개 소번역단위들(32, 33) 간의 번역어순 순번은 분할 전 소번역단위(31)가 원래 가지고 있던 번역어순 순번 2와 상기 번역어순 순번 2에 1이 증가된 번역어순 순번 3으로 결정되며, 도 2c의 분할어순 규칙에서 모든품사-관계사 분할 쌍의 번역어순은 역순 어순으로 정해져 있기 때문에, 분할되는 2개의 소번역단위들(32, 33) 중 뒤의 소번역단위(33)이 번역어순 순번 2로 결정되고 앞의 소번역단위(32)의 번역어순 순번은 3이 된다.
또한, 분할되는 2개의 소번역단위들이 아닌 다른 소번역단위의 번역어순 순번이 상기 증가된 번역어순 순번과 동일하거나 상기 증가된 번역어순 순번보다 큰 순번을 가지면 상기 동일하거나 증가된 순번보다 큰 순번을 갖는 다른 소번역단위들에 지정된 번역어순 순번을 각각 하나 증가시킨다. 예를 들어, 도 3d의 3번 소번역단위(34)를 분할 어순 규칙의 모든품사-좌괄호의 분할 쌍에 의해 분할하면, 도 3e의 3번 소번역단위(36) 및 4번 소번역단위(37)로 분할되며, 3번 소번역단위(36) 및 4번 소번역단위(37)의 번역어순 순번은 분할 전 소번역단위(34)가 가졌던 순번 2와 1이 증가된 순번 3을 갖게 되며, 분할 어순 규칙에서 모든품사-좌괄호의 분할 쌍의 어순이 역순으로 정해져 있으므로, 3번 소번역단위(36) 및 4번 소번역단위(37)의 번역어순 순번은 각각 순번 3, 순번 2가 된다. 이 때 분할전 도 3d에서 분할되는 소번역단위(34)가 아닌 2번 소번역단위(32) 및 4번 소번역단위(35)의 번역어순 순번은 각각 4 및 3이었으나, 분할 후 도 3e의 3번 소번역단위(36) 및 4번 소번역단위(37) 중 3번 소번역단위(36)의 순번 3과 같거나 큰 순번을 가지므로, 각각 1이 증가된 3번 4번 소번역단위(36, 37)은 각각 4, 5가 된다.
도 3g와 같이, 정해진 분할어순규칙의 분할 쌍 리스트에 따라 소번역단위들 및 각 소번역단위들에 번역어순 순번이 결정되면, 도 3g와 같이, 각 소번역단위들에 대한 번역문인 소번역문들(42)의 생성을 시작한다. 일 실시예로, 소번역문들(42)는 자동번역에 의해 생성된다. 다른 실시예에서, 소번역단위들과 매칭되는 번역메모리를 검색하여 소번역문(42)을 생성할 수 있다. 또 다른 실시예에서, 도 3b 내지 도 3h의 소번역단위로의 분할과 각 소번역단위들에 번역어순 순번이 결정될 때마다, 소번역문 및 번역문 생성유닛(130)에서 소번역문 및 번역문장 생성이 수행될 수 있다. 사용자는 도 3b 내지 도 3h의 소번역단위로의 분할과 각 소번역단위들에 번역어순 순번이 결정될 때마다 번역문장을 보면서 추가적인 분할 여부를 결정할 수 있다.
도 3h는 문미 번역어 처리 유닛(133)을 통해 각 소번역문들의 문미 번역어들이 번역어순에 맞게 처리된 결과를 보여준다. 문미 번역어 처리 유닛(133)은 번역어순패턴에 포함된 소번역단위 분할패턴에 의해 소번역단위로 분할된 경우 소번역단위 분할패턴에 지정된 문미 번역어를 자동번역된 소번역문 또는 불러온 소번역문에 부가하고 중복되는 조사 어미, 전치사 번역어 등을 번역어순 순번에 맞게 삭제, 또는 수정한다.
도 3i는 원문문장(1)이 단문 분할어순 규칙에 명사-동사, 모든품사-관계사의 분할 쌍만 적용되어 소번역문들 및 각 소번역문들에 번역어순 순번이 지정된 후, 각 소번역단위들에 대한 소번역문을 생성한 실시예이다.
3. 사용자 입력으로부터 번역어순패턴 데이터 생성
도 5a 내지 도 5n은 소번역단위 및 번역어순 결정유닛(120)에서 도 2a의 원문문장에 대해 입력 유닛으로부터 신호를 입력받아 원문문장을 번역 소단위인 소번역단위들로 분할하면서 원문문장에 대한 소번역단위들의 번역어순을 결정하기 위한 일 실시예를 도시한다.
도 1의 사용자 인터페이스 유닛(140)에 포함된 입력 유닛(142)은 상기 원문문장 또는 소번역단위 내 특정 위치 정보를 포함하며 상기 특정 위치를 기준으로 분할되는 앞뒤의 소번역단위들에 올림 차순의 순차 번역어순을 지시하는 제 1 신호, 및 상기 원문문장 또는 소번역단위 내 특정 위치 정보를 포함하며 상기 특정 위치를 기준으로 분할되는 앞뒤의 소번역단위들에 내림 차순의 역순 번역어순을 지시하는 제 2 신호를 입력받는다. 입력유닛(142)은 도 5a의 원문문장 내 특정 위치(51) 및 순차 어순을 지정하는 제 1 신호를 입력받는다. 이에 따라, 도 5b에서와 같이, 특정 위치(51)을 기준으로 앞 소번역단위(30) 및 뒤 소번역단위(31)로 분할되고, 순차 어순에 의해 각각 1 및 2의 번역어순 순번이 결정된다. 입력 유닛(142)은 특정위치(51) 및 순차어순에 대한 정보를 예를 들어, '29-1'과 같이 생성하여, 소번역단위 및 번역어순 결정 유닛(120)으로 송신할 수 있다. 여기서 29는 원문문장의 문두에서 빈칸을 포함한 29번째 카운팅된 특정위치(51)를 나타내며, 1은 순차 어순을 나타낸다. '29-2'이면 2는 역순 어순을 나타낸다.
도 1의 소번역단위 및 번역어순 결정 유닛(120)은 입력 유닛으로부터 제 1 신호 또는 상기 제 2 신호를 수신하고, 제 1 신호 또는 제 2 신호에 따라 원문문장을 복수의 소번역단위들로 분할하고, 분할된 소번역단위들의 번역어순 순번을 결정한다. 소번역단위 및 번역어순 결정 유닛(120)은 상기 입력 유닛으로부터 상기 제 1 신호 또는 상기 제 2 신호를 수신하면, 번역어순패턴 매칭 유닛(121) 또는 기계적 분할 및 번역어순 결정유닛(122)에서 이미 결정된 복수의 소번역단위 분할패턴들(300) 및 상기 복수의 소번역단위 분할패턴들 각각에 지정된 번역어순 순번(5)이 있는 경우 이를 리셋하고, 제 1 신호 또는 상기 제 2 신호에 따라 상기 원문문장을 문두부터 문미까지 복수의 소번역단위들로 분할하기 위해 원문문장을 형태소 분석한 형태소열 중 하나 이상의 품사를 포함하는 복수의 소번역단위 분할패턴들(300) 및 상기 복수의 소번역단위 분할패턴들 각각에 지정된 번역어순 순번(5)을 결정할 수 있다.
소번역단위 및 번역어순 결정 유닛(120)은 제 1 신호에 따라 제 1 신호가 지시하는 특정 위치(51, 52, 53, 54, 55)가 속하는 소번역단위 또는 원문문장을 상기 특정 위치를 기준으로 2 개의 앞뒤 소번역단위들로 분할하고, 분할되는 2 개의 소번역단위들에 올림차순의 순차 순번을 결정한다. 여기서, 분할된 앞뒤 소번역단위들 간의 순차 순번은 분할되기 전 소번역단위가 원래 가지고 있던 번역어순 순번 및 상기 번역어순 순번에 1이 증가된 번역어순 순번으로 결정된다. 또한, 제 1 신호가 지시하는 특정 위치가 속하는 소번역단위가 아닌 다른 소번역단위의 번역어순 순번이 상기 증가된 순번과 동일하거나 상기 증가된 순번보다 큰 순번을 가지면 상기 동일하거나 큰 순번을 갖는 다른 소번역단위들에 지정된 번역어순 순번을 1만큼 증가시킨다. 예를 들어, 도 5g에서, 분할된 앞뒤 소번역단위들(34, 35) 간의 순차 순번(순번 2 및 순번 3)은 분할되기 전 소번역단위(33, 도 5e 참조)가 원래 가지고 있던 번역어순 순번(순번 2) 및 상기 번역어순 순번에 1이 증가된 번역어순 순번(순번 3)으로 결정된다. 또한, 제 1 신호가 지시하는 특정 위치(53)가 속하는 소번역단위(33)가 아닌 다른 소번역단위(32)의 번역어순 순번(순번 3)이 증가된 순번(순번 3)과 동일하면(도 5f 참조) 상기 동일한 순번을 갖는 다른 소번역단위들(32)에 지정된 번역어순 순번(순번 3)을 1만큼 증가(순번 4, 도 5g 참조)시킨다. 소번역단위 및 번역어순 결정 유닛(120)은 표시 유닛(141)으로 분할된 앞뒤 소번역단위 및 상기 앞뒤 소번역단위에 지정된 순번을 송신한다.
제 2 신호에 따라 제 2 신호가 지시하는 특정 위치가 속하는 소번역단위 또는 원문문장을 특정 위치를 기준으로 2 개의 앞뒤 소번역단위들로 분할하고, 분할되는 2 개의 소번역단위들에 내림차순의 역순 순번을 결정한다. 분할된 앞뒤 소번역단위들 간의 역순 순번은 분할되기 전 소번역단위가 원래 가지고 있던 번역어순 순번에 1이 증가된 번역어순 순번 및 원래 가지고 있던 번역어순 순번으로 결정되고, 상기 제 2 신호가 지시하는 특정 위치가 속하는 소번역단위가 아닌 다른 소번역단위의 번역어순 순번이 상기 증가된 순번과 동일하거나 상기 증가된 순번보다 큰 순번을 가지면 상기 동일하거나 큰 순번을 갖는 다른 소번역단위들에 지정된 번역어순 순번을 1만큼 증가시킨다. 예를 들어, 도 5j에서 분할된 앞뒤 소번역단위들(32, 37) 간의 역순 순번(순번 3 및 순번 2)은 분할되기 전 소번역단위(34)가 원래 가지고 있던 번역어순 순번(순번 2, 도 5h 참조)에 1이 증가된 번역어순 순번(순번 3) 및 원래 가지고 있던 번역어순 순번(순번 2)으로 결정되고, 상기 제 2 신호가 지시하는 특정 위치(54)가 속하는 소번역단위(34)가 아닌 다른 소번역단위(32, 35)의 번역어순 순번(순번 4, 순번 3)이 상기 증가된 순번(순번 3)과 동일하거나(도 5i참조) 상기 증가된 순번(순번 3)보다 큰 순번(순번 4)을 가지면 상기 동일하거나 큰 순번을 갖는 다른 소번역단위들(32, 35)에 지정된 번역어순 순번을 1만큼 증가시킨다. 또 다른 소번역단위들의 분할에서, 예를 들어, 도 5m에서 분할된 앞뒤 소번역단위들(38, 39) 간의 역순 순번(순번 5 및 순번 4)은 분할되기 전 소번역단위(35)가 원래 가지고 있던 번역어순 순번(순번 4, 도 5k 참조)에 1이 증가된 번역어순 순번(순번 5) 및 원래 가지고 있던 번역어순 순번(순번 4)으로 결정되고, 상기 제 2 신호가 지시하는 특정 위치(55)가 속하는 소번역단위(35)가 아닌 다른 소번역단위(32)의 번역어순 순번(순번 5)이 상기 증가된 순번(순번 5)과 동일하면(도 5l 참조) 상기 동일한 순번(순번 5)을 갖는 다른 소번역단위(32)에 지정된 번역어순 순번을 1만큼 증가시킨다. 소번역단위 및 번역어순 결정 유닛(120)은 표시 유닛(141)으로 분할된 앞뒤 소번역단위 및 상기 앞뒤 소번역단위에 지정된 순번을 송신한다.
소번역문 및 번역문 생성유닛(130)은 소번역단위 및 번역어순 결정 유닛(120)으로부터 분할된 소번역단위들 및 이들에 지정된 번역어순 순번을 입력받아 소번역단위들 각각에 대한 소번역문들을 생성하고, 소번역단위들에 지정된 번역어순 순번에 따라 소번역문들을 정렬하여 번역문장을 생성하고 표시 유닛(141)으로 송신한다. 소번역문 및 번역문 생성유닛(130)에 포함된 문미 번역어 처리 유닛(133)은 소번역단위 및 번역어순 결정 유닛(120)으로부터 분할되는 분할패턴들의 형태소열 및 번역어순 순번에 대한 정보를 입력받아 각 소번역단위들에 대한 소번역문들의 문미 번역어를 번역문장이 완성되도록 처리할 수 있다.
다른 실시예에서, 사용자는 표시 유닛(141)으로부터 원문문장에 대해 제 1 신호 또는 제 2 신호로부터 분할된 소번역단위들과 소번역단위들의 순번을 보고 입력 유닛(142)을 통해 새로운 제 1 신호 또는 제 2 신호를 입력할 수 있다. 사용자는 특정 위치에 대한 제 1 신호 또는 제 2 신호를 입력한 후 이에 따라 번역어순 순번을 결정하고 디스플레이된 원문문장에 대한 자동번역 결과를 보고 자동번역결과가 불만족스러운 경우 분할된 소번역단위들을 추가적으로 분할하기 위해 추가적으로 제 1 신호 또는 제 2 신호를 입력하거나, 직접 입력 유닛(141)을 통해 소번역문 또는 번역문장 중 수정할 부분을 입력할 수 있다.
표시 유닛(141)에서 소번역단위들 및 이들 각각에 지정된 번역어순 순번의 표시는 도 5a 내지 도 5n에서와 같이 원문문장 내에서 표시될 수도 있고 도 3a 내지 도 3i에서와 같이, 각 소번역단위들에 대한 소번역문들의 표시영역에 각 소번역단위에 지정된 순번들(5)을 표시할 수도 있다. 도 5b은 도 3b에 대응하고, 도 5d는 도 3c에 대응하고, 도 5g는 도 3d에 대응하고, 도 5j는 도 3e에 대응하며, 도 5m은 도 3f에 대응한다.
도 5n은 도 5a 내지 도 5m에서 소번역단위 및 번역어순 결정 유닛(120)에서 소번역단위들로의 분할 및 각 소번역단위들에 번역어순 순번이 결정된 후 소번역문 및 번역문 생성 유닛(130)에서 번역메모리 DB(170) 검색 또는 자동번역을 통해 각 소번역단위들에 대한 소번역문들이 생성되고 번역어순 순번에 따라 소번역문들이 정렬되어 번역문장이 생성된 것을 도시한다.
4. 번역어순패턴 DB에 저장된 번역어순패턴을 이용한 소번역단위로의 분할 및 번역어순 순번 결정 및 번역어순패턴 생성
도 6a 내지 도 6h는 도 2a의 원문이 도 4a 내지 도 4d의 번역어순패턴들로 번역어순패턴 DB(160)에 저장된 후 저장된 번역어순패턴을 기초로 번역문장을 생성하는 일련의 과정을 도시한다.
도 6a는 새롭게 번역될 원문문장(601)이고, 도 6b는 원문문장(601)을 형태소 분석하고 태깅한 결과(650)이다. 도 6c는 번역어순패턴 DB(160)를 검색하여서 원문문장(601)을 형태소 분석하고 태깅한 형태소 분석 결과인 형태소열(651)과 매칭되는 번역어순패턴(462)을 도시한다. 형태소열은 원문문장(651)을 형태소 분석하고 태깅한 형태소분석 결과이다. 도 6d는 원문문장(601)의 형태소열 중 하나 이상이 번역어순패턴 DB(160)를 검색된 번역어순패턴(464)의 소번역단위 분할패턴들 각각의 시작부 및 종료부와 매칭되는 것을 도시한다.
도 6e는 매칭된 번역어순패턴(462) 또는 번역어순패턴(464)의 소번역단위 분할패턴들에 의해 소번역단위들(530)로 분할되고 번역어순 순번(5)을 표시한 결과이다.
도 6f는 각각의 소번역단위들(530)을 소번역문 및 번역문 생성 유닛(130)을 통해 자동번역한 결과(642)이다.
도 6g는 문미번역어 처리 유닛(133)에 의해 번역어순패턴(462, 464)의 문미 번역어를 추가한 결과(643)를 도시한다.
도 6h는 문미번역어 처리 유닛(133)에 의해 각 소번역단위 분할패턴들의 분할패턴 종료부와 분할패턴 시작부의 분할패턴 쌍으로부터 정해지는 조사, 어미 또는 전치사 번역어 등의 문미 번역어를 고려하여 문미 번역어들을 처리한 결과를 도시한다. 이러한 처리가 끝나면 원문에 대한 번역문장이 완성된다.
5. 소번역단위로의 분할 및 번역어순 순번을 결정하는 번역어순패턴을 생성하는 방법 및 이를 수행하는 명령어들을 포함하는 컴퓨터 판독가능한 저장 매체
도 7a는 도 1a의 본 발명의 실시예에 따른 번역 장치 또는 프로그램에서 이용되는, 원문문장을 번역 소단위인 소번역단위로 분할하고 상기 소번역단위들의 번역어순을 결정하기 위한 번역어순패턴 데이터 구조를 생성하기 위한 방법 또는 이를 생성하는 기능들의 일 실시예이고, 도 7b는 도 1a의 본 발명의 실시예에 따른 번역 장치 또는 프로그램에서 이용되는, 원문문장을 번역 소단위인 소번역단위로 분할하고 상기 소번역단위들의 번역어순을 결정하고, 번역문을 생성하는 방법의 일 실시예이다. 이러한 방법들은 컴퓨터 실행가능 명령어에 의해 수행되고 상기 명령어는 컴퓨터 판독가능 기록 매체에 저장된다.
본 발명에 따른 원문문장(1)을 번역문장(2)으로 번역하기 위한 번역 장치에서 번역을 위해 이용되는 번역어순패턴 데이터 구조를 생성하기 위한 방법은 원문문장을 문두부터 문미까지 복수의 소번역단위들로 분할하기 위한 소번역단위 분할패턴 데이터들(300)을 생성하는 단계 - 상기 소번역단위 분할패턴 데이터들(300)은 원문문장을 형태소 분석한 형태소열 중 하나 이상의 품사를 포함함 -; 및 복수의 소번역단위 분할패턴 데이터들(300) 각각에 지정된 번역어순 순번 데이터들(5)을 생성하는 단계;를 포함한다.
원문문장을 번역 소단위인 소번역단위들로 분할하고 상기 소번역단위들의 번역어순을 결정하기 위한 방법은, 원문문장을 불러오는 단계(1000 및 200), 원문문장을 형태소 분석하고 상기 분석된 형태소들에 품사들을 태깅하는 단계(1010 및 2010), 원문문장을 소번역단위로 분할하고 상기 소번역단위들의 번역어순을 결정하는 단계(1020 및 2020), 분할된 소번역단위들 및 상기 소번역단위들의 결정된 번역어순을 사용자에게 표시하고 사용자로부터 입력을 수신하는 단계(1030 및 2030), 사용자에게 표시된 상기 소번역단위들 및 상기 소번역단위들에 결정된 번역어순 순번과 사용자가 입력한 소번역단위들 및 상기 소번역단위들에 지정된 번역어순 순번을 비교하고 소번역단위들 및 상기 소번역단위들에 지정된 번역어순 순번을 포함하는 번역어순패턴을 생성하는 단계(1040 및 2040), 및 번역어순패턴을 번역어순패턴 DB(160)에 저장하는 단계(1050 및 2050)를 포함한다. 도 7a에서 번역어순패턴을 번역어순패턴 DB(160)에 저장하는 단계(1050) 이후에 다른 원문문장을 불러오면, 단계 1000부터 다시 상기 일련의 단계들을 다시 수행한다. 단계 1050에서 번역어순패턴 DB(160)에 저장된 번역어순패턴은 이후 원문문장을 번역할 때 번역어순패턴을 결정하기 위해 단계 1022에서 검색된다.
도 7b의 번역문을 생성하는 방법 또는 기능은 도 7a의 번역어순패턴을 결정하고 저장하는 단계 이후에 소번역문 및 번역문 생성 단계(2050) 및 소번역메모리 및 번역메모리 DB(170)에 소번역문 및 번역문을 저장하는 단계(2060)를 더 포함한다. 도 7b에서 소번역메모리 및 번역메모리 DB(170)에 소번역문 및 번역문을 저장하는 단계(2060) 이후에 다른 원문문장을 불러오면, 단계 2000부터 다시 상기 일련의 단계들을 다시 수행한다.
원문문장을 소번역단위로 분할하고 상기 소번역단위들의 번역어순을 결정하는 단계(1020 및 2020)는 원문문장을 형태소 분석한 형태소열을, 번역어순패턴 DB(160)에 저장된 번역어순패턴의 소번역단위 분할패턴들의 형태소열들과 비교하여 전체적 또는 부분적으로 매칭되는 번역어순패턴에 따라 원문문장을 소번역단위로 분할하고 상기 소번역단위들의 번역어순을 결정하는 단계(1022 및 2022), 및 품사가 태깅된 하나의 원문문장의 형태소열에서 특정 품사들 사이를 분할하는 미리 결정된 분할 쌍을 포함하고 상기 분할 쌍에 의해 분할될 앞뒤의 소번역단위들이 올림 차순의 순차 번역어순인지 또는 내림 차순의 역순 번역어순인지를 지정한 분할 어순 결정 규칙에 따라 복수의 소번역단위들로 분할하고 상기 소번역단위들에 번역어순을 결정하는, 원문문장을 소번역단위로 분할하고 상기 소번역단위들의 번역어순을 결정하는 단계(1024 및 2024) 중 하나 이상을 포함한다. 단계 1020에서 단계 1022 및 단계 1024는 양쪽 중 어느 하나의 단계가 수행될 수도 있고 양쪽 모두가 수행될 수 있다. 단계 2020에서 단계 2022 및 단계 2024는 양쪽 중 어느 하나의 단계가 수행될 수도 있고 양쪽 모두가 수행될 수 있다.
도 7c는 사용자가 입력한 신호들에 따라 원문문장을 번역 소단위인 소번역단위로 분할하고 상기 소번역단위들의 번역어순을 결정하기 위한 방법 또는 기능 및 이를 이용하여 번역하는 방법 또는 기능의 일 실시예이다.
원문문장을 번역 소단위인 소번역단위들로 분할하면서 원문문장에 대한 소번역단위들의 번역어순을 결정하기 위한 방법 또는 기능은 원문문장을 불러오고 사용자에게 표시하는 단계(3000), 원문문장을 형태소 분석하고 상기 분석된 형태소들에 품사들을 태깅하는 단계(3010), 원문문장 내 특정 위치 정보를 포함하며 상기 특정 위치를 기준으로 분할되는 앞뒤의 소번역단위들에 올림 차순의 순차 번역어순을 지시하는 제 1 신호, 및 상기 원문문장 또는 소번역단위 내 특정 위치 정보를 포함하며 상기 특정 위치를 기준으로 분할되는 앞뒤의 소번역단위들에 내림 차순의 역순 번역어순을 지시하는 제 2 신호를 입력받는 단계(3020), 입력 유닛으로부터 상기 제 1 신호 또는 상기 제 2 신호를 수신하고, 상기 제 1 신호 또는 상기 제 2 신호에 따라 원문문장을 복수의 소번역단위들로 분할하고, 분할된 상기 소번역단위들의 번역어순 순번을 결정하는 단계(3030)를 포함한다.
형태소 분석 및 품사 태킹을 통해 원문문장을 문두부터 문미까지 복수의 소번역단위들로 분할하기 위한 복수의 소번역단위 분할패턴들(300) 및 상기 복수의 소번역단위 분할패턴들(300) 각각에 지정된 번역어순 순번(5)을 포함하는 번역어순패턴을 생성하는 방법 또는 기능은 전술한 원문문장을 번역 소단위인 소번역단위들로 분할하면서 원문문장에 대한 소번역단위들의 번역어순을 결정하기 위한 방법 또는 기능의 단계들에 추가하여, 원문문장, 소번역단위들, 소번역단위들 각각에 지정된 번역어순 순번 및 번역문장을 사용자에게 디스플레이하고 사용자로부터 입력을 수신하는 단계(3050); 및 사용자로부터 입력을 수신하고, 입력이 제 1 신호 또는 제 2 신호이면 단계 3030, 단계 3050을 다시 수행하고, 입력이 제 1 신호 또는 제 2 신호가 아니면, 상기 분할된 소번역단위들 및 상기 소번역단위들에 지정된 번역어순 순번으로부터 형태소 분석 및 품사 태킹을 통해 변환된 상기 원문문장을 문두부터 문미까지 복수의 소번역단위들로 분할하기 위해 원문문장을 형태소 분석한 형태소열 중 하나 이상의 품사를 포함하는 복수의 소번역단위 분할패턴들(300) 및 상기 복수의 소번역단위 분할패턴들(300) 각각에 지정된 번역어순 순번(5)을 포함하는 번역어순패턴을 생성하는 단계를 더 포함한다.
다른 실시예에서, 형태소 분석 및 품사 태킹을 통해 원문문장을 문두부터 문미까지 복수의 소번역단위들로 분할하기 위한 복수의 소번역단위 분할패턴들(300) 및 상기 복수의 소번역단위 분할패턴들(300) 각각에 지정된 번역어순 순번(5)을 포함하는 번역어순패턴을 생성하는 방법 또는 기능은 전술한 번역어순패턴을 결정하는 방법 또는 기능에 부가하여 소번역단위들 각각을 자동번역하여 소번역문들을 생성하며 상기 소번역단위들에 지정된 번역어순 순번에 따라 상기 소번역문들을 정렬하여 번역문장을 생성하는, 각 소번역단위들에 대한 소번역문들 및 번역문을 생성하는 단계(3040), 원문문장, 상기 소번역단위들, 및 상기 소번역단위들 각각에 지정된 번역어순 순번, 번역문장을 사용자에게 디스플레이하고 사용자로부터 입력을 수신하는 단계(3050), 및 사용자로부터 입력을 수신하고, 입력이 제 1 신호 또는 제 2 신호이면 단계 3030, 단계 3040 및 단계 3050을 수행하고, 상기 입력이 제 1 신호 또는 제 2 신호가 아니면, 상기 분할된 소번역단위들 및 상기 소번역단위들에 지정된 번역어순 순번으로부터 형태소 분석 및 품사 태킹을 통해 변환된 상기 원문문장을 문두부터 문미까지 복수의 소번역단위들로 분할하기 위해 원문문장을 형태소 분석한 형태소열 중 하나 이상의 품사를 포함하는 복수의 소번역단위 분할패턴들(300) 및 상기 복수의 소번역단위 분할패턴들(300) 각각에 지정된 번역어순 순번(5)을 포함하는 번역어순패턴을 생성하는 단계(3070)를 포함한다.
본 발명의 다른 실시예에서, 원문문장(1)을 번역문장(2)으로 번역하기 위한 번역 장치에서 원문문장을 번역 소단위인 소번역단위들로 분할하고 상기 소번역단위들의 번역어순을 결정하기 위한 방법 또는 기능은 도 7c의 단계 3010과 단계 3020 사이에, 원문문장을 소번역단위들로 분할하고 상기 소번역단위들의 번역어순 순번을 결정하는 단계(3012), 및 결정된 번역어순을 사용자에게 표시하는 단계(3018)를 더 포함할 수 있다. 또한, 원문문장을 소번역단위들로 분할하고 상기 소번역단위들의 번역어순 순번을 결정하는 단계(3012)는 번역어순패턴 DB를 검색하여 번역어순을 결정하는 단계(3014) 및 원문 문장을 분할하고 및 어순결정규칙에 따라 어순을 결정하는 단계(3016)를 포함할 수 있다. 단계(3012)에서 단계 3014 및 단계 3016은 양쪽 중 어느 하나의 단계가 수행될 수도 있고 양쪽 모두가 수행될 수 있다. 결정된 번역어순을 사용자에게 표시하는 단계(3018) 이후 입력 유닛으로부터 상기 제 1 신호 또는 상기 제 2 신호를 수신하면, 원문문장을 소번역단위들로 분할하고 상기 소번역단위들의 번역어순 순번을 결정하는 단계(3012)에서 결정된 복수의 소번역단위 분할패턴들(300) 및 상기 복수의 소번역단위 분할패턴들 각각에 지정된 번역어순 순번(5)을 리셋하고, 단계 3030에서, 상기 제 1 신호 또는 상기 제 2 신호에 따라 상기 원문문장을 문두부터 문미까지 복수의 소번역단위들로 분할하기 위해 원문문장을 형태소 분석한 형태소열 중 하나 이상의 품사를 포함하는 복수의 소번역단위 분할패턴들(300) 및 상기 복수의 소번역단위 분할패턴들 각각에 지정된 번역어순 순번(5)을 결정할 수 있다.
본 발명의 도 7a, 도 7b, 도 7c의 실시예에서, 소번역문 및 번역문 생성 단계(2050, 3040)는 실시예에 따라 생략될 수 있다.
6. 사용 언어 형태의 제한 없이 응용
본 발명에서, 본 발명에 따른 번역어순패턴은 영어를 원문언어로 한국어를 목표언어로 하여 설명되었다. 그러나, 본 발명은 영어와 한국어에 한정되지 않고, 예를 들어 교착어, 굴절어, 고립어 간의 다른 원문 언어와 대상 언어 사이에서도 활용될 수 있다. 예를 들어, 일본어 및 중국어 뿐만 아니라, 독일어, 스페인어 등 다른 언어들 간에도 본 발명의 번역어순패턴을 번역에 적용시킬 수 있다.
전술한 설명은 본 발명의 단지 예시적인 실시예들을 개시한다. 본 발명의 범위 내에 속하는 위에 개시된 데이터 구조, 컴퓨터 실행가능 명령어들을 저장한 저장매체 및 방법의 변형예들은 당업자에게 매우 명백할 것이다. 따라서, 본 발명이 예시 실시예들과 관련하여 개시되었지만, 후속하는 청구 범위에 의해 정의되는 바와 같이, 당업자는 다른 실시예들이 본 발명의 범위 내에 있다는 것을 이해할 것이다.

Claims (22)

  1. 원문문장(1)을 번역문장(2)으로 번역하기 위한 번역 장치에서 번역을 위해 이용되며 원문문장을 번역 소단위인 소번역단위들로 분할하고 상기 소번역단위들의 번역어순을 결정하기 위한 컴퓨터 판독 가능 저장 매체에 저장된 번역어순패턴 데이터 구조로서,
    상기 원문문장을 문두부터 문미까지 복수의 소번역단위들로 분할하기 위한 소번역단위 분할패턴 데이터들(300) - 상기 소번역단위 분할패턴 데이터들(300)은 원문문장을 형태소 분석한 형태소열 중 하나 이상의 품사를 포함함 -; 및
    상기 복수의 소번역단위 분할패턴 데이터들(300) 각각에 지정된 번역어순 순번 데이터들(5);을 포함하는,
    컴퓨터 판독 가능한 저장 매체에 저장된 번역어순패턴 데이터 구조.
  2. 제 1 항에 있어서,
    상기 소번역단위 분할패턴 데이터들(300)에 의해 원문문장(1)으로부터 분할된 소번역단위들을 번역하고, 상기 번역어순 순번 데이터들에 따라 상기 소번역단위들 각각의 번역문인 소번역문들(4)을 정렬하여서 상기 원문문장의 번역문장(2)을 출력한 출력 데이터;를 더 포함하는,
    컴퓨터 판독 가능한 저장 매체에 저장된 번역어순패턴 데이터 구조.
  3. 제 1 항에 있어서,
    상기 소번역단위 분할패턴 데이터들(300) 각각은 각 소번역단위로의 분할의 시작을 지시하는 분할패턴 시작부, 중간부 및 각 소번역단위로의 분할의 종료를 지시하는 분할패턴 종료부로 구성되고, 상기 소번역단위 분할패턴 시작부는 상기 소번역단위 분할패턴 데이터의 형태소열 중 맨 앞에 위치된 하나 이상의 품사를 포함하고, 상기 분할패턴 종료부는 상기 소번역단위 분할패턴 데이터의 형태소열 중 마지막에 위치된 하나 이상의 품사를 포함하고, 상기 중간부가 생략될 수 있는,
    컴퓨터 판독 가능한 저장 매체에 저장된 번역어순패턴 데이터 구조.
  4. 제 1 항에 있어서,
    상기 소번역단위 분할패턴 데이터들(300) 각각은 각 소번역단위로의 분할의 시작을 지시하는 분할패턴 시작부, 중간부 및 각 소번역단위로의 분할의 종료를 지시하는 분할패턴 종료부로 구성되고, 상기 소번역단위 분할패턴 시작부는 상기 소번역단위 분할패턴 데이터의 형태소열 중 맨 앞에 위치된 품사로 구성되고, 상기 분할패턴 종료부는 상기 소번역단위 분할패턴 데이터의 형태소열 중 마지막에 위치된 품사로 구성되고, 상기 중간부가 생략될 수 있는,
    컴퓨터 판독 가능한 저장 매체에 저장된 번역어순패턴 데이터 구조.
  5. 제 1 항에 있어서,
    상기 소번역단위 분할패턴 데이터들(300) 각각은 각 소번역단위로의 분할의 시작을 지시하는 분할패턴 시작부, 중간부 및 각 소번역단위로의 분할의 종료를 지시하는 분할패턴 종료부로 구성되고, 상기 소번역단위 분할패턴 시작부는 상기 소번역단위 분할패턴 데이터의 형태소열 중 맨 앞에 위치된 하나 또는 두개로 구성되고, 상기 분할패턴 종료부는 상기 소번역단위 분할패턴 데이터의 형태소열 중 마지막 명사로부터 상기 소번역단위 분할패턴 데이터의 형태소열의 끝까지의 품사로 구성되고, 상기 중간부가 생략될 수 있는,
    컴퓨터 판독 가능한 저장 매체에 저장된 번역어순패턴 데이터 구조.
  6. 제 1 항에 있어서,
    상기 소번역단위 분할패턴 데이터들에 의해 분할될 소번역단위의 소번역문의 문미에 위치될 조사, 어미 또는 전치사 대역어를 포함하는 문미 번역어가 상기 복수의 소번역단위 분할패턴 데이터들 중 하나 이상에 지정된,
    컴퓨터 판독 가능한 저장 매체에 저장된 번역어순패턴 데이터 구조.
  7. 원문문장(1)을 번역문장(2)으로 번역하기 위한 번역 장치에서 번역을 위해 이용되며 원문문장을 번역 소단위인 소번역단위들로 분할하고 상기 소번역단위들의 번역어순을 결정하기 위한 번역어순패턴 데이터 구조를 생성하는 컴퓨터 실행가능 명령어들을 저장한 컴퓨터 판독가능 저장매체로서, 상기 컴퓨터 실행가능 명령어들은
    상기 원문문장을 문두부터 문미까지 복수의 소번역단위들로 분할하고 상기 소번역단위들로부터 소번역단위 분할패턴 데이터들(300)을 생성하는 단계 - 상기 소번역단위 분할패턴 데이터들(300)은 원문문장을 형태소 분석한 형태소열 중 하나 이상의 품사를 포함함 -; 및
    상기 복수의 소번역단위 분할패턴 데이터들(300) 각각에 지정된 번역어순 순번 데이터들(5)을 생성하는 단계;를 수행하는,
    컴퓨터 실행가능 명령어들을 저장한 컴퓨터 판독가능 저장매체.
  8. 원문문장(1)을 번역문장(2)으로 번역하기 위한 번역 장치에서 번역을 위해 이용되며, 원문문장을 번역 소단위들로 분할하고 소번역단위들의 번역어순을 결정하기 위한 번역어순패턴 데이터 구조를 생성하는 컴퓨터 실행가능 명령어들을 저장한 컴퓨터 판독가능한 저장매체로서, 상기 컴퓨터 실행가능 명령어들은
    a) 원문문장을 불러오는 단계;
    b) 원문문장을 형태소 분석하고 상기 분석된 형태소들에 품사들을 태깅하여 형태소열로 변환하는 단계 - 상기 원문문장을 형태소 분석하고 품사를 태킹하는 것은 원문 부호를 형태소 분석하고 원문 부호를 태킹하는 것을 포함함 -; 및
    c) 상기 제 1 항 내지 제 6항 중 어느 한 항에 따른 번역어순패턴 데이터 구조를 포함하는 번역어순패턴 DB(160)에 저장된 번역어순패턴의 소번역단위 분할패턴들의 형태소열들과 원문문장의 형태소열을 비교하여 매칭되는 번역어순패턴을 불러오고 상기 불러온 번역어순패턴의 소번역단위 분할패턴에 따라 원문문장을 소번역단위들로 분할하고 상기 소번역단위들의 번역어순을 결정하는 단계;를 수행하는,
    컴퓨터 실행가능 명령어들을 저장한 컴퓨터 판독가능한 저장매체.
  9. 제 8 항에 있어서,
    d) 상기 결정된 소번역단위들 및 상기 소번역단위들에 지정된 번역어순 순번을 사용자에게 표시하고 사용자로부터 입력을 수신하는 단계; 및
    e) 사용자로부터 입력을 수신하여 사용자에게 표시된 소번역단위들에 지정된 번역어순 순번과 비교하고,
    사용자에게 표시한 소번역단위들에 지정된 번역어순 순번이 수정되었다면 사용자가 입력한 소번역단위들 및 상기 소번역단위들에 지정된 번역어순 순번으로부터 형태소 분석 및 품사 태킹을 통해 변환된 복수의 소번역단위 분할패턴들(300) 및 상기 복수의 소번역단위 분할패턴들(300) 각각에 지정된 번역어순 순번(5)을 포함하는 번역어순패턴 데이터 구조를 생성하고 번역어순패턴 DB(160)에 저장하고,
    수정되지 않았다면 사용자에게 표시한 소번역단위들 및 상기 소번역단위들에 지정된 번역어순 순번을 포함하는 번역어순패턴을 번역어순패턴 DB(160)에 저장하는, 번역어순패턴 데이터 구조를 생성하는 단계;를 추가로 수행하는,
    컴퓨터 실행가능 명령어들을 저장한 컴퓨터 판독가능한 저장매체.
  10. 제 8 항에 있어서,
    상기 c) 상기 불러온 번역어순패턴의 소번역단위 분할패턴에 따라 원문문장을 소번역단위들로 분할하고 상기 소번역단위들의 번역어순을 결정하는 단계는
    원문문장의 형태소열과 비교하여 원문문장의 형태소열들이 모든 소번역단위 분할패턴들 중 하나를 제외한 나머지 소번역단위 분할패턴들의 형태소열들과 매칭되는 번역어순패턴을 불러오거나, 또는
    상기 원문문장을 소번역단위들로 분할하고, 상기 분할된 소번역단위들 각각을 형태소열로 변환했을 때, 상기 소번역단위 각각의 변환된 형태소열의 맨 앞에 위치된 하나 이상의 품사로 구성된 시작부 및 소번역단위들 각각의 형태소열 중 마지막에 위치된 하나 이상의 품사로 구성된 종료부와 매칭되는 번역어순패턴을 불러오는 것을 포함하는,
    컴퓨터 실행가능 명령어들을 저장한 컴퓨터 판독가능한 저장매체.
  11. 원문문장(1)을 번역문장(2)으로 번역하기 위한 번역 장치에서 번역을 위해 이용되며, 원문문장을 번역 소단위들로 분할하고 소번역단위들의 번역어순을 결정하기 위한 번역어순패턴 데이터 구조를 생성하는 컴퓨터 실행가능 명령어들을 저장한 컴퓨터 판독가능한 저장매체로서, 상기 컴퓨터 실행가능 명령어들은
    a) 원문문장을 불러오는 단계;
    b) 원문문장을 형태소 분석하고 상기 분석된 형태소들에 품사들을 태깅하여 형태소열로 변환하는 단계 - 상기 원문문장을 형태소 분석하고 품사를 태킹하는 것은 원문 부호를 형태소 분석하고 원문 부호를 태킹하는 것을 포함함 -;
    c) 특정 품사들 간의 미리 설정된 분할 어순 결정 규칙에 따라 상기 형태소 분석된 원문문장을 복수의 소번역단위들로 분할하고 상기 소번역단위들에 번역어순을 결정하는 단계;
    d) 상기 결정된 소번역단위들 및 상기 소번역단위들에 지정된 번역어순 순번을 사용자에게 표시하고 사용자로부터 입력을 수신하는 단계; 및
    e) 번역어순패턴 데이터 구조를 생성하는 단계로서, 사용자로부터 입력을 수신하여
    사용자에게 표시된 소번역단위들에 지정된 번역어순 순번과 비교하고,
    사용자에게 표시한 소번역단위들에 지정된 번역어순 순번이 수정되었다면 사용자가 입력한 소번역단위들 및 상기 소번역단위들에 지정된 번역어순 순번으로부터 형태소 분석 및 품사 태킹을 통해 변환된 복수의 소번역단위 분할패턴들(300) 및 상기 복수의 소번역단위 분할패턴들(300) 각각에 지정된 번역어순 순번(5)을 포함하는 번역어순패턴 데이터 구조를 생성하고,
    수정되지 않았다면 사용자에게 표시한 소번역단위들 및 상기 소번역단위들에 지정된 번역어순 순번으로부터 각각 형태소 분석 및 품사 태킹을 통해 변환된 복수의 소번역단위 분할패턴들(300)으로서, 원문 문장을 형태소 분석한 형태소열 중 하나 이상의 품사를 포함하는 복수의 소번역단위 분할패턴들(300), 및 상기 복수의 소번역단위 분할패턴들 각각에 지정된 번역어순 순번(5)을 포함하는 번역어순패턴 데이터 구조를 생성하는, 번역어순패턴 데이터 구조를 생성하는 단계;를 수행하는,
    컴퓨터 실행가능 명령어들을 저장한 컴퓨터 판독가능한 저장매체.
  12. 제 11 항에 있어서,
    상기 c) 상기 형태소 분석된 원문문장을 복수의 소번역단위들로 분할하고 상기 소번역단위들에 번역어순을 결정하는 단계는
    미리 설정된 특정 품사들 사이를 분할하는 분할 쌍을 포함하고, 상기 분할 쌍에 의해 분할될 앞뒤의 소번역단위들이 올림 차순의 순차 번역어순인지 또는 내림 차순의 역순 번역어순인지를 지정하는 상기 분할 어순 결정 규칙에 의해, 상기 분할 어순 결정 규칙의 분할 쌍과 일치하는 품사의 배열이 있으면 원문문장의 형태소열 중 일치하는 2개의 특정 품사들 사이를 2 개의 소번역단위들로 분할하고, 상기 분할 어순 결정 규칙의 분할 쌍에 지정된 순차 번역어순 또는 역순 번역어순에 따라 상기 분할된 2 개의 소번역단위들의 번역어순 순번을 결정하는 방식으로, 원문문장을 문두부터 문미까지 복수의 소번역단위들로 분할하고, 상기 분할 어순 결정 규칙의 분할 쌍에 지정된 순차 번역어순 또는 역순 번역어순에 따라 상기 분할된 2 개의 소번역단위들의 번역어순 순번을 결정하는 단계를 포함하는,
    컴퓨터 실행가능 명령어들을 저장한 컴퓨터 판독가능한 저장매체.
  13. 제 12 항에 있어서,
    상기 분할 어순 결정 규칙의 분할 쌍에 지정된 순차 번역어순 또는 역순 번역어순에 따라 상기 분할된 2 개의 소번역단위들의 번역어순 순번을 결정하는 단계는
    상기 순차 번역어순에 따라, 분할된 앞뒤 소번역단위들 간의 순차 순번은 분할되기 전 소번역단위가 원래 가지고 있던 번역어순 순번 및 상기 번역어순 순번에 1이 증가된 번역어순 순번으로 결정되고, 분할된 앞뒤 소번역단위들이 아닌 다른 소번역단위의 번역어순 순번이 상기 증가된 순번과 동일하거나 상기 증가된 순번보다 큰 순번을 가지면 상기 동일하거나 큰 순번을 갖는 다른 소번역단위들에 지정된 번역어순 순번을 1만큼 증가시키는 단계; 또는
    상기 역순 번역어순에 따라, 분할되는 2 개의 소번역단위들에 내림차순의 역순 순번을 결정하되, 분할된 앞뒤 소번역단위들 간의 역순 순번은 분할되기 전 소번역단위가 원래 가지고 있던 번역어순 순번에 1이 증가된 번역어순 순번 및 원래 가지고 있던 번역어순 순번으로 결정되고, 분할된 앞뒤 소번역단위들이 아닌 다른 소번역단위의 번역어순 순번이 상기 증가된 순번과 동일하거나 상기 증가된 순번보다 큰 순번을 가지면 상기 동일하거나 큰 순번을 갖는 다른 소번역단위들에 지정된 번역어순 순번을 1만큼 증가시키는 단계;를 포함하는
    컴퓨터 실행가능 명령어들을 저장한 컴퓨터 판독가능한 저장매체.
  14. 제 12 항에 있어서,
    상기 특정 품사들 간의 미리 설정된 분할 어순 결정 규칙은 분할 쌍들 사이에 먼저 분할되는 우선 순위를 지정할 수 있는,
    컴퓨터 실행가능 명령어들을 저장한 컴퓨터 판독가능한 저장매체.
  15. 제 13 항에 있어서,
    상기 특정 품사들 간의 미리 결정된 분할 어순 결정 규칙은 절과 절을 연결하는 등위접속사를 포함하는 분할 쌍이 우선순위에서 먼저 분할되는 것을 포함하는,
    컴퓨터 실행가능 명령어들을 저장한 컴퓨터 판독가능한 저장매체.
  16. 원문문장(1)을 번역문장(2)으로 번역하기 위한 번역 장치에서 번역을 위해 이용되며, 원문문장을 번역 소단위들로 분할하고 소번역단위들의 번역어순을 결정하기 위한 번역어순패턴 데이터 구조를 생성하는 컴퓨터 실행가능 명령어들을 저장한 컴퓨터 판독가능한 저장매체로서, 상기 컴퓨터 실행가능 명령어들은
    a) 원문문장을 불러오고 사용자에게 표시하는 단계;
    b) 원문문장을 형태소 분석하고 상기 분석된 형태소들에 품사들을 태깅하는 단계 - 상기 원문문장을 형태소 분석하고 품사를 태킹하는 것은 원문 부호를 형태소 분석하고 원문 부호를 태킹하는 것을 포함함 -;
    c) 상기 원문문장 내 특정 위치 정보를 포함하며 상기 특정 위치를 기준으로 분할되는 앞뒤의 소번역단위들에 올림 차순의 순차 번역어순을 지시하는 제 1 신호, 및 상기 원문문장 또는 소번역단위 내 특정 위치 정보를 포함하며 상기 특정 위치를 기준으로 분할되는 앞뒤의 소번역단위들에 내림 차순의 역순 번역어순을 지시하는 제 2 신호를 입력받는 단계;
    d) 상기 제 1 신호 또는 상기 제 2 신호에 따라, 상기 원문문장을 복수의 소번역단위들로 분할하고 상기 소번역단위들의 번역어순 순번을 결정하는 단계; 및
    e) 상기 분할된 소번역단위들 및 상기 소번역단위들에 지정된 번역어순 순번으로부터 각각 형태소 분석 및 품사 태킹을 통해 변환된 복수의 소번역단위 분할패턴들(300)로서, 원문문장을 형태소 분석한 형태소열 중 하나 이상의 품사를 포함하는 복수의 소번역단위 분할패턴들(300), 및 상기 복수의 소번역단위 분할패턴들 각각에 지정된 번역어순 순번(5)을 포함하는 번역어순패턴 데이터 구조를 생성하는, 번역어순패턴 데이터 구조를 생성하는 단계;를 수행하는,
    컴퓨터 실행가능 명령어들을 저장한 컴퓨터 판독가능한 저장매체.
  17. 제 16 항에 있어서,
    f) 상기 분할된 소번역단위들 및 상기 소번역단위들에 지정된 번역어순 순번을 입력받고, 상기 소번역단위들 각각을 번역하여 소번역문들을 생성하며 상기 소번역단위들에 지정된 번역어순 순번에 따라 상기 소번역문들을 정렬하여 번역문장을 생성하는, 소번역문 및 번역문 생성 단계; 및
    g) 상기 원문문장, 상기 소번역단위들, 상기 소번역단위들의 번역어순 순번, 및 상기 번역문장을 사용자에게 표시하는 단계;를 추가로 수행하는,
    컴퓨터 실행가능 명령어들을 저장한 컴퓨터 판독가능한 저장매체.
  18. 제 16 항에 있어서,
    원문문장을 소번역단위들로 분할하고 상기 소번역단위들의 번역어순 순번을 결정하는 단계는
    상기 제 1 신호에 따라 상기 제 1 신호가 지시하는 특정 위치가 속하는 소번역단위 또는 원문문장을 상기 특정 위치를 기준으로 2 개의 앞뒤 소번역단위들로 분할하고, 분할되는 2 개의 소번역단위들에 올림차순의 순차 순번을 결정하되, 분할된 앞뒤 소번역단위들 간의 순차 순번은 분할되기 전 소번역단위가 원래 가지고 있던 번역어순 순번 및 상기 번역어순 순번에 1이 증가된 번역어순 순번으로 결정되고, 상기 제 1 신호가 지시하는 특정 위치가 속하는 소번역단위가 아닌 다른 소번역단위의 번역어순 순번이 상기 증가된 순번과 동일하거나 상기 증가된 순번보다 큰 순번을 가지면 상기 동일하거나 큰 순번을 갖는 다른 소번역단위들에 지정된 번역어순 순번을 1만큼 증가시키고,
    상기 제 2 신호에 따라 상기 제 2 신호가 지시하는 특정 위치가 속하는 소번역단위 또는 원문문장을 상기 특정 위치를 기준으로 2 개의 앞뒤 소번역단위들로 분할하고, 분할되는 2 개의 소번역단위들에 내림차순의 역순 순번을 결정하되, 분할된 앞뒤 소번역단위들 간의 역순 순번은 분할되기 전 소번역단위가 원래 가지고 있던 번역어순 순번에 1이 증가된 번역어순 순번 및 원래 가지고 있던 번역어순 순번으로 결정되고, 상기 제 1 신호가 지시하는 특정 위치가 속하는 소번역단위가 아닌 다른 소번역단위의 번역어순 순번이 상기 증가된 순번과 동일하거나 상기 증가된 순번보다 큰 순번을 가지면 상기 동일하거나 큰 순번을 갖는 다른 소번역단위들에 지정된 번역어순 순번을 1만큼 증가시키는 단계를 포함하는,
    컴퓨터 실행가능 명령어들을 저장한 컴퓨터 판독가능한 저장매체.
  19. 원문문장(1)을 번역문장(2)으로 번역하기 위한 번역 장치에서 번역을 위해 이용되며, 원문문장을 번역 소단위들로 분할하고 소번역단위들의 번역어순을 결정하기 위한 번역어순패턴 데이터 구조를 생성하는 컴퓨터 실행가능 명령어들을 저장한 컴퓨터 판독가능한 저장매체로서, 상기 컴퓨터 실행가능 명령어들은
    a) 원문문장을 불러오는 단계;
    b) 원문문장을 형태소 분석하고 상기 분석된 형태소들에 품사들을 태깅하여 형태소열로 변환하는 단계 - 상기 원문문장을 형태소 분석하고 품사를 태킹하는 것은 원문 부호를 형태소 분석하고 원문 부호를 태킹하는 것을 포함함 -; 및
    c) 상기 제 1 항 내지 제 6 항에 따른 번역어순패턴 데이터 구조를 포함하는 번역어순패턴 DB(160)에 저장된 번역어순패턴의 소번역단위 분할패턴들의 형태소열들과 원문문장의 형태소열을 비교하여 매칭되는 번역어순패턴을 불러오고 상기 불러온 번역어순패턴의 소번역단위 분할패턴에 따라 원문문장을 소번역단위들로 분할하고 상기 소번역단위들의 번역어순을 결정하는 단계;
    d) 상기 원문문장, 상기 소번역단위들, 및 상기 소번역단위들의 번역어순 순번을 사용자에게 표시하는 단계;
    e) 상기 원문문장 내 특정 위치 정보를 포함하며 상기 특정 위치를 기준으로 분할되는 앞뒤의 소번역단위들에 올림 차순의 순차 번역어순을 지시하는 제 1 신호, 및 상기 원문문장 또는 소번역단위 내 특정 위치 정보를 포함하며 상기 특정 위치를 기준으로 분할되는 앞뒤의 소번역단위들에 내림 차순의 역순 번역어순을 지시하는 제 2 신호를 입력받는 단계; 및
    f) 상기 원문문장을 상기 제 1 신호 또는 상기 제 2 신호에 따라 복수의 소번역단위들로 분할하고 상기 소번역단위들의 번역어순 순번을 결정하거나, 또는 상기 c)에 의해 결정된 소번역단위들을 상기 제 1 신호 또는 상기 제 2 신호에 따라 복수의 소번역단위들로 분할하고 상기 소번역단위들의 번역어순 순번을 결정하는 단계; 및
    e) 상기 분할된 소번역단위들 및 상기 소번역단위들에 지정된 번역어순 순번으로부터 각각 형태소 분석 및 품사 태킹을 통해 변환된 복수의 소번역단위 분할패턴들(300)로서, 원문 문장을 형태소 분석한 형태소열 중 하나 이상의 품사를 포함하는 복수의 소번역단위 분할패턴들(300), 및 상기 복수의 소번역단위 분할패턴들 각각에 지정된 번역어순 순번(5)을 포함하는 번역어순패턴 데이터 구조를 생성하는, 번역어순패턴 데이터 구조를 생성하는 단계;를 수행하는,
    컴퓨터 실행가능 명령어들을 저장한 컴퓨터 판독가능한 저장매체.
  20. 제 19 항에 있어서,
    상기 f) 상기 제 1 신호 또는 상기 제 2 신호에 따라 원문문장을 소번역단위들로 분할하고 상기 소번역단위들의 번역어순 순번을 결정하는 단계는
    상기 제 1 신호에 따라 상기 제 1 신호가 지시하는 특정 위치가 속하는 소번역단위 또는 원문문장을 상기 특정 위치를 기준으로 2 개의 앞뒤 소번역단위들로 분할하고, 분할되는 2 개의 소번역단위들에 올림차순의 순차 순번을 결정하되, 분할된 앞뒤 소번역단위들 간의 순차 순번은 분할되기 전 소번역단위가 원래 가지고 있던 번역어순 순번 및 상기 번역어순 순번에 1이 증가된 번역어순 순번으로 결정되고, 상기 제 1 신호가 지시하는 특정 위치가 속하는 소번역단위가 아닌 다른 소번역단위의 번역어순 순번이 상기 증가된 순번과 동일하거나 상기 증가된 순번보다 큰 순번을 가지면 상기 동일하거나 큰 순번을 갖는 다른 소번역단위들에 지정된 번역어순 순번을 1만큼 증가시키고,
    상기 제 2 신호에 따라 상기 제 2 신호가 지시하는 특정 위치가 속하는 소번역단위 또는 원문문장을 상기 특정 위치를 기준으로 2 개의 앞뒤 소번역단위들로 분할하고, 분할되는 2 개의 소번역단위들에 내림차순의 역순 순번을 결정하되, 분할된 앞뒤 소번역단위들 간의 역순 순번은 분할되기 전 소번역단위가 원래 가지고 있던 번역어순 순번에 1이 증가된 번역어순 순번 및 원래 가지고 있던 번역어순 순번으로 결정되고, 상기 제 1 신호가 지시하는 특정 위치가 속하는 소번역단위가 아닌 다른 소번역단위의 번역어순 순번이 상기 증가된 순번과 동일하거나 상기 증가된 순번보다 큰 순번을 가지면 상기 동일하거나 큰 순번을 갖는 다른 소번역단위들에 지정된 번역어순 순번을 1만큼 증가시키는 단계를 포함하는,
    컴퓨터 실행가능 명령어들을 저장한 컴퓨터 판독가능한 저장매체.
  21. 제 7 항 내지 제 20 항에 따른 컴퓨터 판독가능한 저장매체에 저장된 명령어들을 이용하여 번역을 수행하는,
    컴퓨터 판독가능한 저장매체에 저장된 번역 프로그램.
  22. 원문문장(1)을 번역문장(2)으로 번역하기 위한 번역 장치에서 번역을 위해 이용되며 원문문장을 번역 소단위인 소번역단위들로 분할하고 상기 소번역단위들의 번역어순을 결정하기 위한 번역어순패턴 데이터 구조를 생성하는 컴퓨터 실행가능 명령어들을 저장한 컴퓨터 판독가능 저장매체를 다운로드 가능한 형태로 배포하는 서버로서, 상기 컴퓨터 실행가능 명령어들은
    상기 원문문장을 문두부터 문미까지 복수의 소번역단위들로 분할하고 상기 소번역단위들로부터 소번역단위 분할패턴 데이터들(300)을 생성하는 단계 - 상기 소번역단위 분할패턴 데이터들(300)은 원문문장을 형태소 분석한 형태소열 중 하나 이상의 품사를 포함함 -; 및
    상기 복수의 소번역단위 분할패턴 데이터들(300) 각각에 지정된 번역어순 순번 데이터들(5)을 생성하는 단계;를 수행하는,
    컴퓨터 실행가능 명령어들을 저장한 컴퓨터 판독가능 저장매체를 다운로드 가능한 형태로 배포하는 서버.
KR1020160031588A 2016-03-16 2016-03-16 원문문장을 번역 소단위들로 분할하고 소번역단위들의 번역어순을 결정하는 번역어순패턴 데이터 구조, 이를 생성하기 위한 명령어들을 저장한 컴퓨터 판독가능한 저장매체 및 이를 가지고 번역을 수행하는 컴퓨터 판독가능한 저장매체에 저장된 번역 프로그램 KR20170107808A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020160031588A KR20170107808A (ko) 2016-03-16 2016-03-16 원문문장을 번역 소단위들로 분할하고 소번역단위들의 번역어순을 결정하는 번역어순패턴 데이터 구조, 이를 생성하기 위한 명령어들을 저장한 컴퓨터 판독가능한 저장매체 및 이를 가지고 번역을 수행하는 컴퓨터 판독가능한 저장매체에 저장된 번역 프로그램
PCT/KR2016/002909 WO2017159906A1 (ko) 2016-03-16 2016-03-23 원문의 번역어순을 결정하는 데이터 구조, 상기 구조를 생성하는 프로그램 및 이를 저장하는 컴퓨터 판독가능 저장매체

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160031588A KR20170107808A (ko) 2016-03-16 2016-03-16 원문문장을 번역 소단위들로 분할하고 소번역단위들의 번역어순을 결정하는 번역어순패턴 데이터 구조, 이를 생성하기 위한 명령어들을 저장한 컴퓨터 판독가능한 저장매체 및 이를 가지고 번역을 수행하는 컴퓨터 판독가능한 저장매체에 저장된 번역 프로그램

Publications (1)

Publication Number Publication Date
KR20170107808A true KR20170107808A (ko) 2017-09-26

Family

ID=59851030

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160031588A KR20170107808A (ko) 2016-03-16 2016-03-16 원문문장을 번역 소단위들로 분할하고 소번역단위들의 번역어순을 결정하는 번역어순패턴 데이터 구조, 이를 생성하기 위한 명령어들을 저장한 컴퓨터 판독가능한 저장매체 및 이를 가지고 번역을 수행하는 컴퓨터 판독가능한 저장매체에 저장된 번역 프로그램

Country Status (2)

Country Link
KR (1) KR20170107808A (ko)
WO (1) WO2017159906A1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019107623A1 (ko) * 2017-11-30 2019-06-06 주식회사 시스트란인터내셔널 기계 번역 방법 및 이를 위한 장치
KR20200059625A (ko) * 2018-11-21 2020-05-29 한국전자통신연구원 번역단위 대역 코퍼스를 이용하는 동시통역 시스템 및 방법
KR20200075539A (ko) * 2018-12-18 2020-06-26 (주)아이브릭스 특허 청구항 구조화를 위한 방법 및 장치

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4330285B2 (ja) * 2001-04-16 2009-09-16 沖電気工業株式会社 機械翻訳用辞書登録装置、機械翻訳用辞書登録方法、機械翻訳装置、機械翻訳方法及び記録媒体
KR100542755B1 (ko) * 2003-09-15 2006-01-20 한국전자통신연구원 규칙 기반 방식과 번역 패턴 방식을 혼합한 하이브리드자동 번역 장치 및 방법과 그 프로그램을 기록한 컴퓨터로읽을 수 있는 기록매체
US7747427B2 (en) * 2005-12-05 2010-06-29 Electronics And Telecommunications Research Institute Apparatus and method for automatic translation customized for documents in restrictive domain
KR101023210B1 (ko) * 2008-12-16 2011-03-18 한국전자통신연구원 구문 분석 방법 및 그 장치
KR20120046414A (ko) * 2010-11-02 2012-05-10 에스케이플래닛 주식회사 중간 번역처리 결과 제공 장치 및 그 방법

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019107623A1 (ko) * 2017-11-30 2019-06-06 주식회사 시스트란인터내셔널 기계 번역 방법 및 이를 위한 장치
KR20200059625A (ko) * 2018-11-21 2020-05-29 한국전자통신연구원 번역단위 대역 코퍼스를 이용하는 동시통역 시스템 및 방법
KR20200075539A (ko) * 2018-12-18 2020-06-26 (주)아이브릭스 특허 청구항 구조화를 위한 방법 및 장치

Also Published As

Publication number Publication date
WO2017159906A1 (ko) 2017-09-21

Similar Documents

Publication Publication Date Title
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
JP4459443B2 (ja) 中国語テキストにおける単語分割
US20070233460A1 (en) Computer-Implemented Method for Use in a Translation System
JPH0877173A (ja) 文字列修正システムとその方法
US20070242071A1 (en) Character Display System
JPS63254559A (ja) 複合ワードのためのスペリング援助方法
JP2002229981A (ja) 文字列の正規化表示を生成するシステム
JPS62163173A (ja) 機械翻訳方法
KR20160138077A (ko) 기계 번역 시스템 및 방법
US20190155912A1 (en) Multi-dimensional query based extraction of polarity-aware content
Chiarcos et al. Analyzing middle high German syntax with RDF and SPARQL
KR20170107808A (ko) 원문문장을 번역 소단위들로 분할하고 소번역단위들의 번역어순을 결정하는 번역어순패턴 데이터 구조, 이를 생성하기 위한 명령어들을 저장한 컴퓨터 판독가능한 저장매체 및 이를 가지고 번역을 수행하는 컴퓨터 판독가능한 저장매체에 저장된 번역 프로그램
US9218336B2 (en) Efficient implementation of morphology for agglutinative languages
JP5447368B2 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
KR101663038B1 (ko) 개체의 표면형 문자열 용례학습기반에 의한 텍스트에서의 개체 범위 인식 장치 및 그 방법
KR20040018008A (ko) 품사 태깅 장치 및 태깅 방법
JP2006127405A (ja) バイリンガルパラレルテキストをアライメントする方法及びそのためのコンピュータで実行可能なプログラム
Sankaravelayuthan et al. A Comprehensive Study of Shallow Parsing and Machine Translation in Malaylam
JP2632806B2 (ja) 言語解析装置
Bhowmik et al. Development of A Word Based Spell Checker for Bangla Language
JP3508312B2 (ja) キーワード抽出装置
JP5160120B2 (ja) 情報検索装置、情報検索方法及び情報検索プログラム
Singh et al. Intelligent Bilingual Data Extraction and Rebuilding Using Data Mining for Big Data
Jawaid Statistical Machine Translation between Languages with Significant Word Order Differences
JP3935374B2 (ja) 辞書構築支援方法、装置及びプログラム

Legal Events

Date Code Title Description
N231 Notification of change of applicant