KR20040070168A

KR20040070168A - 번역 방법, 번역문의 출력방법, 기억 매체, 프로그램 및컴퓨터 장치

Info

Publication number: KR20040070168A
Application number: KR10-2004-7001553A
Authority: KR
Inventors: 토모히로 미야히라; 요시로 카미야마; 히로미 하토리
Original assignee: 인터내셔널 비지네스 머신즈 코포레이션
Priority date: 2002-01-29
Filing date: 2002-12-19
Publication date: 2004-08-06
Also published as: ATE484029T1; US8005662B2; EP1482414A4; CN1618064A; DE60237922D1; US20060167675A1; CN1618064B; US7529656B2; EP1482414A1; EP1482414B1; US20090254334A1; WO2003065245A1; JPWO2003065245A1

Abstract

이 이상 연속하는 동일한 문자를 포함하는 강조어를 포함하는 문장을 바르게 인식하고 기계번역하는 번역방법을 제공한다,

우선, 번역을 행하는 원문텍스트의 단어에 대해서 사전인출을 실행하여, 미등록어를 포함하는지를 판단한다. 다음, 미등록어가 연속하는 문자를 포함하는 지를 판단하여, 연속하는 문자가 있는 경우에는 연속하는 문자의 문자수를 감소시키고, 얻어진 수정어가 사전에 존재하는지를 판단한다. 사전에 존재하는 것으로 판단되면, 그 미등록어를 수정어로 결정하고, 품사와 속성을 결정하여 미등록어를 수정어로 변환한 상태에서 번역 처리를 실행한다.

Description

번역 방법, 번역문의 출력방법, 기억 매체, 프로그램 및 컴퓨터 장치{Translating Method, Translated Sentence Outputing Method, Recording Medium, Program, And Computer Device}

종래, 퍼스널 컴퓨터 등에서 번역용 프로그램이 이용되고 있다. 이러한 번역용 프로그램에서는, 모니터 상에 표시된 문장을 기계적으로 번역하는 것이 가능하며, 예를 들면, 인터넷에서는 웹 페이지나, 전자 메일 등의 문장을 번역할 때 사용된다.

그런데 최근에는, 인터넷 이용자의 증가로 인해 개인이 직접 정보를 발신하는 것이 많이 행해지고 있다. 예를 들면, 개인에 의해 만들어진 웹페이지나, 전언판과 같이 개인이 코멘트를 기입하는 웹페이지나, 상호 작용으로(interactive) 이야기할 수 있는 채트(chat)에서는 개인에 의해 직접 기술된 문장이 그대로 전달되고 있다. 이와 같이, 개인이 발신한 정보를 번역할 때에도, 전술한 번역용 프로그램이 사용되고 있다.

따라서, 번역용 프로그램을 이용하여 개인이 발신한 정보를 번역하면, 그 정보가 포함되어 있는 구어(口語)로 인해 번역을 할 수 없거나 번역이 틀리게 된다. 구어에는 번역용 프로그램을 참조하는 사전에 기록되지 않는 어구가 많이 포함되어 있으며, 이러한 미등록어는 동사나 형용사도 명사로 취급되어 버리기 때문에 번역용 프로그램은 그 문장의 번역에 실패해 버린다.

이러한 미등록어로는, 예를 들면, 문장중에서 특정의 단어를 강조하기 때문에, 의도적으로 단어를 구성하는 문자를 연속적으로 중복시킨 어구(이하, 강조어라고 함)이다. 구체적으로는, 영어에서의 「cool」의「o」를 중복시킨 「coool」이나 「work」의 「r」을 중복시킨「worrk」등을 열거할 수 있다. 이러한 강조어를 포함한 문장의 번역시에는 형용사인 「coool」이나 동사인「worrk」가 명사로 취급되어, 최종적으로 잘못된 번역문이 생성된다.

여기서, 「cool」의 강조가 통상「o」가 세개의 문자인 「coool」로 기재되어 있으면, 그 「coool」을 사전에 등록하는 것으로 정확하게 번역할 수 있게 되지만, 강조를 위해 연속하는 문자의 문자수는 일정하지 않으며, 「o」가 3개인 경우 외에 「o」가 4개 또는 5개의 경우 등도 상정할 수 있다. 이처럼 상정할 수 있는 단어는 수에 한정이 없으며, 모든 경우에 대응한 단어를 사전에 등록하는 것은 사실상 곤란하다.

이와 같이, 개인이 기술한 문장에는 구어가 이용되는 것이 많으며, 특히 주고받는 회화를 문장으로 수행하는 채트에서는 그 경향이 현저하여, 번역 처리의 실패가 발발하고 있다,

또한, 상기와 같은 동일한 문자를 중복시키는 것에 의한 단어의 강조는 구어등의 스스럼없는 표현을 이용한 문장중에서 사용되는 경우가 많다. 그러한 문장에 대한 번역문에서는 가벼운 표현은 아니고, 나긋나긋한 스스럼없는 표현을 이용한 방법이 바람직한 경우도 상정된다. 이러한 경우에는 원문중에서 강조된 단어를 번역문중에서도 강조하는 경우와 함께 스스럼없는 표현의 역어(번역어)를 선택하는 것으로 문장의 분위가가 보다 적절하게 전달되는 것이 기대된다.

본 발명은 이러한 기술적 과제에 기인하지 않고, 강조어등의 미등록어가 포함되어 있어도 적절한 번역을 할 수 있는 번역방법 등을 제공하는 것을 목적으로 한다.

본 발명은 문장중의 강조어를 인식하여 기계번역하기 위한 방법 등에 관한 것이다.

도 1은 본 실시 형태에 대한 컴퓨터 장치의 개략구성을 도시하는 도면이다.

도 2는 번역처리블럭의 구성을 도시하는 도면이다.

도 3은 사전데이터격납부에 격납된 데이터의 일예를 도시하는 도면이다.

도 4는 번역의 구체예를 도시하고, (a)는 번역문의 원문 텍스트를 (b)는 번역후에 표시되는 역문을 도시하는 도면이다.

도 5는 번역처리블럭에 대한 번역처리의 흐름을 도시하는 도면이다.

도 6은 도 5에 도시하는 형태소 해석의 구체적인 처리의 흐름을 도시하는 도면이다.

도 7은 도 5에 도시하는 번역생성의 구체적인 흐름을 도시하는 도면이다.

도 8은 (a)(b)(b)는 각각 강조어의 번역에 대한 다른 표기예를 도시하는 도면이다.

이러한 목적으로, 본 발명의 번역 방법은 컴퓨터 장치에 입력된 소정 언어의 원문 텍스트를 다른 언어로 번역하는 번역 방법에 있어서, 추출 단계에서는 컴퓨터 장치가 참조가능한 데이터 베이스에 등록되어 있지 않은 미등록어를 원문 텍스트에서 추출하고, 수정어 생성단계에서는 추출된 미등록어로 2이상 연속하는 동일한 문자가 포함될 때, 연속하는 문자의 문자를 감소시켜서 미등록어로부터 수정어를 생성하고, 번역단계에서는 원문 텍스트 중의 미등록어를 수정어로 변환하고, 상기 데이터 베이스를 참조하여 원문 텍스트를 번역하는 것을 특징으로 하는 방법이다. 이 번역방법에서는 원문 텍스트에 미등록어가 포함되어 번역이 불가능하여도, 그 미등록어가 구어에서 사용되도록 연속하는 문자를 포함하고 있는 경우에는 미등록어 대신 수정어를 이용하는 것으로 원문 텍스트의 번역이 가능하게 된다.

더욱, 미등록에서 연속하는 문자의 중복수는 일정하지 않으며, 또한 연속하는 문자가 그 미등록어중에서 그 문자로 어떤것도 일정하지 않다. 그래서, 예를 들면 수정어 생성 단계에 있어서, 3개 이상 연속하는 상기 문자를 2개 문자로 줄이거나 두개 이상 연속하는 상기 문자를 한개 문자로 줄일 수 있다.

또한, 이 번역방법에서는 번역문중의 미등록어에 대응하는 번역어가 수정어에 기초하여 번역된 것이라는 것을 분명하게 한 상태에서 번역문을 출력하는 출력 단계를 더 가질수 있다.

즉, 번역 단계에서는, 수정어에 대응하는 수정어용의 번역어를 데이터 베이스에서 추출함으로써 번역을 수행할 수 있다.

또한 본 발명은 번역문의 출력방법으로 얻을 수 있다. 이 번역문의 출력방법은, 컴퓨터 장치에 의해 번역된 번역문을 컴퓨터 장치가 출력하는 출력방법에 있어서, 특정단계에서는 컴퓨터 장치에 입력된 원문텍스트에서 본래의 문자철자와 다른 문자철자가 이용된 조어를 특정하고, 출력단계에서는 조어를 포함하는 원문텍스트를 번역하여 번역문을 추출하고, 게다가 특정 단계에 의해 특정된 조어에 대응하는 번역어에 강조표현을 적용하여 번역문을 출력하는 것을 특징으로 하는 방법이다.

본 출력단계에서는 강조표현으로 번역어에 소정의 표기를 부가하거나 또는 번역어의 서식을 변화시킬 수 있다. 예를 들면, 「cool」의 번역어인 「시원한」의 전후에「*」의 표기를 부가하여 「*시원한*」로 표기하거나 그 「시원한」의 폰트나 색을 변경할 수 있다.

더욱이 본발명은 컴퓨터 정치에 실행시킨 프로그램을, 컴퓨터장치가 독해가능하게 기억한 기억매체로서 얻을 수 있다. 이 기억매체에 기억되는 프로그램은 컴퓨터장치에 입력된 원문텍스트를 구성하는 단어의 품사와 속성을 참조가능한 데이터 베이스에서 추출하는 형태소 해석처리와, 그 결과에 기초하여, 원문의 트리 구조를 갖는 구문트리데이터를 작성하는 구문해석처리와, 구문해석처리의 결과에 기초하여, 역문(번역문)의 구문 트리 데이터를 작성하는 구문생성처리와, 원문텍스트의 단어에 대응하는 번역어를 데이터 베이스로부터 얻어서, 역문의 구문트리 데이터에 기초하여 번역어를 연결하여 번역문을 생성하는 번역문 생성처리를 컴퓨터장치로 실행시키고, 형태소해석처리에서는 원문텍스트가 데이터 베이스에 등록되어 있지 않은 미등록어를 포함하고, 또 상기 미등록어가 2 이상 연속하는 동일한 문자를 포함할 때는 연속하는 문자를 1 또는 2 문자로 감소시킨 수정어를 생성하고, 미등록어대신 수정어의 품사와 속성을 데이터 베이스에서 추출하는 것을 컴퓨터장치로 실행시키는 것을 특징으로 하는 것이다.

또한, 번역문 생성처리에서는 미등록어대신 수정어의 속성이 강조속성을 갖을 때, 강조속성과 관련되어 있는 강조역어를 번역어로하여 데이터 베이스로부터 얻어서, 강조역어를 포함하는 번역문을 생성하거나 수정어에 대응하는 번역어에 대해 수정어를 번역한 것인 것을 표시하기 위해 데이터를 부여할 수 있다. 예를 들면, 이 데이터에 기초하여 수정어에 대응하는 번역어를 번역문중에서 식별할 수 있도록 표시할 수 있다.

또한 본 발명은 번역처리를 컴퓨터 장치로 실행시키는 프로그램으로 얻을 수있다. 이 프로그램은 컴퓨터장치로 입력된 원문텍스트에서부터 참조가능한 데이터 베이스로 등록되어 있지 않은 미등록어를 추출하는 처리와, 추출된 미등록어가 미등록어의 중복하는 문자의 문자수를 변화시킴으로써 데이터 베이스에 등록된 등록어로 합치할 때, 미등록어를 대신하여 등록어를 이용하여 원문 텍스트를 번역하는 처리와, 추출된 미등록어가 미등록어의 중복하는 문자의 문자수를 변화시키는 것으로 하여 데이터베이스에 등록된 등록어에 합치할 때 미등록어를 대신하여 등록어를 이용하여 원문 텍스트를 번역하는 처리와, 미등록어를 대신하여 등록어를 이용하여 원문 텍스트를 번역하는 처리와 미등록어에 대신하여 번역문을 표시시키는 처리를 컴퓨터장치로 실행시키는 것을 특징으로 하는 것이다.

예를 들면, 이 프로그램에서는 번역문을 표시시키는 처리에서, 미등록어를 대신하여 등록어를 이용한 부분을 다른 부분으로부터 식별할 수 있도록 하기 위해, 그 부분에 대해 소정의 강조 데이터(예를 들면, 「*」등)의 추가, 폰트데이터(서체, 스타일, 크기를 포함함)의 변경 및 색의 변경 중 적어도 한개를 실시할 수 있다.

그외, 본 발명은 컴퓨터 장치로 얻을 수 있다. 이 컴퓨터 장치에서는 데이터 베이스가 복수어의 데이터를 격납하여, 입력부가 원문 텍스트의 데이터를 입력하고, 번역처리부가 입력된 원문 텍스트를 데이터 베이스를 참조하여 번역처리하고, 출력부가 원문 텍스트의 번역문데이터를 출력하고, 또 번역처리부는 2 이상 연속하는 동일한 문자를 갖는 강조어로서 연속하는 문자의 문자수를 감소시킨 수정어를 생성하고, 수정어에 대응하는 번역어를 데이터 베이스로부터 얻는는 것을 특징으로 하는 것이다.

데이터 베이스에는 번역어를 특정하기 위한 속성으로 강조속성데이터와 강조속성데이터에 관련되는 강조역어가 수정어에 관련되어 등록되며, 출력부는 수정어에 관련되어 강조속성 데이터가 데이터 베이스에 등록되어 있는 경우 강조속성 데이터에 관련된 강조역어를 번역어로서 이용한 번역문데이터를 출력할 수 있다.

또한, 출력부는 번역문 데이터 중의 번역어가 수정어에 기초하여 번역된 어구인 것을 도시하는 데이터를 번역문데이터와 함께 출력할 수 있다. 이 경우 출력부에 의해 출력된 번역문 데이터에 기초하여 번역어를 강조한 상태에서 번역문을 표시하는 표시부을 더 포함시킬 수 있다.

이하, 첨부도면에 도시하는 실시의 형태에 기초하여 이 발명을 상세하게 설명한다.

도 1은 본 실시의 형태에 의한 컴퓨터장치의 개략구성을 설명하기 위한 도면이다. 도 1에 도시한 바와 같이, 컴퓨터장치(1)는 CPU나 메인메모리, HDD등을 구비한 제어부(2), CRT나 LCD패널등을 이용한 디스플레이(표시부)(3), 디스플레이(3)의 표시화면상에 표시되는 문자 등을 입력하기 위한 키보드나 포인터를 조작하기 위한 마우스 등의 입력 디바이스(4)를 포함한다.

제어부(2)는 디스플레이(3)에서 CPU로부터의 추출명령에 기초하여 화면의 표시를 수행하게 위한 표시제어 블럭(5), 유저에 의해 입력된 데이터를 제어하기 위한 입력 디바이스 제어블럭(6), 번역처리를 행하기 위한 번역처리블럭(7)으로서의 기능을 갖는다

표시제어블럭(5)은 도시하지 않은 비디오드라이브, 비디오칩 등에 의해 실현되는 것으로 메인메모리 등으로부터 전송된 화상데이터에 기초한 표시를 디스플레이(3)에 실행시킨다.

입력디바이스 제어블럭(6)은 포인팅디바이스나 키보드 등의 입력디바이스(4)를 유저가 조작했을 때의 이벤트를 처리하는 유저인터페이스 드라이브에 의해 실현되는 것으로, 특히, 유저에 의해 입력디바이스(4)의 조작에 기초하여 입력된 데이터를 디스플레이(3)의 표시화면상에 표시시키기 위한 처리를 실행한다.

번역처리블럭(7)은 HDD등에 격납된 프로그램에 기초한 처리를 CPU가 메인메모리등과 협력하여 실행하는 것으로 실현되는 것이다. 여기서, 번역처리블럭(7)에 대해서 상세하게 설명한다.

도 2는 번역처리블럭(7)의 기능적인 구성을 도시하는 도면이다.

번역처리블럭(7)은 번역할 원문텍스트를 입력하는 입력부(10)와, 입력된 원문텍스트의 번역처리를 실행하는 번역처리부(20)와, 실행된 번역처리의 결과인 역문 등을 디스플레이(3)에 표시하기위해 데이터를 출력하는 출력부(30)와, 번역처리를 수행할 때 이용하는 사전데이터를 격납한 사전데이터격납부(50)를 포함한다. 사전데이터격납부(50)는 기본사전(51), 유저사전(52)외에, 예를 들면, 스포츠, 컴퓨터, 광고, 엔터테인먼트, 정치경제, 과학, 가정 등 분야별 데이터를 구비한 분야별사전(53)을 갖고 있다.

도 3은 사전데이터격납부(50)에 격납된 데이터의 일예를 도시하는 도면이다.

사전데이터격납부(50)는, 예를 들면, 도 3에 도시하는 것과 같은 데이터를 격납하고 있으며, 즉, 품사, 의미속성, 강조속성, 역어, 일본어속성의 데이터가 단어마다 기록되어 있다, 여기서, 일예로 발췌되어 있는 단어 「cool」은 품사로서 형용사가 특정되어 있으며, 그 역어로서 「냉정」과「시원한」의 두개가 등록되어 있다. 또한 단어 「Japanese」는 품사로 명사와 형용사가 특정되어 있으며, 그 역어로서 명사로는 「일본인」과「일본어」가 형용사로는「일본」이 등록되어 있다. 「냉정」과 「시원한」이나, 「일본인」과 「일본어」와 같이, 한개의 단어에 대한역어의 결정에서, 동일한 품사의 역어가 복수개인 경우, 원문텍스트를 구성하는 단어끼리 연결되어 있어서, 의미속성, 강조속성, 일본어속성 등에 기초하여, 그 역어를 사용하는는지 결정된다. 또한, 강조속성으로는 강조표현에 이용하는 역어의 유무를 표시하는 것으로, 강조속성이 "예스"인 경우에는 강조 표현에 이용하는 역어인 것을 의미한다.

전술한 바와 같은 구성을 갖는 컴퓨터장치(1)의 변역처리블록(7)에서는 번역처리를 행할 때에, 입력부(10)에서 얻어진 원문텍스트(문장이나 단어)를 기본으로 사전데이터격납부(50)를 참조하여, 번역처리부(20)가 번역처리를 행하여 역문을 생성하고, 출력부(30)에서부터 역문을 출력한다. 번역처리에는 문법규칙, 단어 데이터 등이 격납된 사전데이터 격납부(50)를 참조하여, 형태소해석, 구문해석, 구문생성, 역서생성 등의 처리가 번역처리부(20)에서 순차적으로 행해진다. 이와 같이 번역처리를 수행할 때 원문텍스트에 강조어가 포함된 경우에도, 번역처리부(20)는 정확한 역문을 얻을 수 있으며, 더욱이 강조어를 강조한 상태에서 역문을 출력할 수 있다. 예를 들면, 도 4(a)에 도시한 것과 같이 번역전의 영문이 원문 텍스트에서는 「cool」이 「o」를 중복시킨 「coool」로 해두고, 번역후의 일본어의 역문에서는 도 4(b)에 도시한 바와 같이, 「*시원한*」으로 강조되어 번역된다.

이하에 강조어를 정확하게 더 강조하여 출력하기 위해 번역처리블럭(7)에 의한 처리에 의해서, 도 4(a)에 도시하는 원문 텍스트를 도 4(b)에 도시하는 일본어문에 번역하는 예를 이용하여 구체적으로 설명한다. 즉, 번역처리의 개요그것은, 일반적인 방법이기 때문에, 종래 공지의 번역처리에 의해 상세한 설명은 생략한다.또한 번역처리 알고리즘이나 번역결과의 출력형태에 대해서 특히 한정하는 것을 의미하지는 않는다.

도 5는 번역처리블럭(7)에 의한 번역처리의 주요 흐름을 도시하는 도면이다.

우선, 번역처리블럭(7)은 입력부(10)에서부터 얻어진 원문텍스트에 대해서 형태소해석을 수행한다(단계 S101). 형태소해석에서는 사전 데이터 격납부(50)에 격납된 데이터를 참조하면서 원문 텍스트의 문장을 단어마다 분할하여, 품사와 속성의 결정을 수행한다.

여기서, 도 6에 단계 (S101)에 대한 형태소해석이 더 구체적으로 처리 흐름을 도시한다.

도 6에 도시한 바와 같이, 우선 번역처리부(20)는 원문텍스트의 분할된 단어의 각각에 대해서 사전 데이터 격납부(50)의 데이터를 참조하면서 사전인출을 실행한다(S201). 그리고, 사전 데이터 격납부(50)에는, 도 3에 도시한 바와 같이, 단어마다, 의미속성, 강조속성, 역어, 일본어 속성이 데이터로서 기록되어 있다. 사전인출에서는 단어마다 사전데이터 격납부(50)에 일치하는 단어를 추출하는 처리를 수행한다. 따라서, 도 4(a)에 도시하는 원문 텍스트의 경우에는 분할된 단어 it, is, very, coool의 각각에 대해서 사전인출을 수행하고, 사전데이터 격납부(50) 중에서 일치하는 단어의 추출을 수행한다.

그 다음, 단계(S201)에서 사전인출의 결과에 기초하여, 원문 텍스트에는 사전데이터 격납부(50)의 데이터 중에 등록되어 있지 않는 단어(이하, "미등록어"라고 말함)가 포함되어 있는지를 판단한다(단계 S203). 단계 (S203)에서 미등록어는포함되어 있지 않으며, 즉 원문텍스트를 구성하는 단어가 모두 사전데이터격납부(50)에 격납된 데이터 중에 존재하는지를 판단하면, 다음 단계 (S217)의 처리, 즉 품사와 속성의 결정을 수행한다.

한편, 도 4(a)에 도시한 것처럼 원문텍스트에는 「coool」이라고 하는 사전데이터격납부(50)에 등록되어 있지 않은 미등록어가 포함되어 있다. 이러한 경우, 번역처리부(20)는 단계 (S203)에서 원문텍스트는 미등록어를 포함하는지를 판단하여, 그 미등록어에서 2 이상 연속하는 동일한 문자(이하, "연속문자"라고 함)가 있는지 지를 판단한다(S205). 단계 S205에서, 미등록어에는 연속문자가 존재하지 않는 것으로 판단한 경우, 번역처리부(20)는 그 미등록어를 미지의 어구(미지어)로서 처리하는 결정을 수행한다(S206).

또한, 「coool」중의 「ooo」와 같은 미등록어에 연속문자가 존재하는지를 (단계 S205)에서 판단한 경우, 번역처리부(20)는 3문자 이상의 연속하는 연속문자를 2 문자로 변환하는 것으로 수정한 단어(이하, "수정어"하고 말함)를 생성하여, 그 수정어에 대해서 사전데이터 격납부(50)를 참조하여 사전인출을 수행한다(S207). 즉, 「coool」을 「cool」로 수정하고, 「cool」에 대해서 사전인출을 수행한다. 그리고 번역처리부(20)는 단계 (S207)의 사전인출 결과에 기초하여, 수정어는 사전 데이터격납부(50)의 데이터 중에 등록되어 있는지를 판단한다(S209). 도 4(a)에 되시하는 예의 경우, 단계 (S207)에서 수정된 수정어 「cool」은 도 4에 도시하도록 사전데이터 격납부(50)에 격납되어 있는 단어 「cool」와 일치하기 때문에 수정어가 사전 데이터격납부(50)에 등록되어 있는지 판단한다.

즉, 단계 (S209)에서, 3문자이상의 연속하는 연속문자를 2 문자로 수정한 수정어가 사전데이터 격납부(50)의 데이터 중에 등록되어 있는지 판단한 경우, 혹은 3개 문자 이상의 연속문자가 아니기 (예를 들면, 2개 문자의 연속 문자)때문에 수정어를 작성하지 않은 경우, 번역처리부(20)는 미등록어의 2문자이상의 연속문자를 한 문자로 변환하는 것으로 수정한 새로운 수정어를 생성하고, 그 새로운 수정어에 대해서 사전데이터 격납부(50)를 참조하여 사전인출을 수행한다(S211). 그리고, 번역처리부(20)는 사전인출의 결과에 기초하여 새로운 수정어가 사전데이터 격납부(50)의 데이터 중에 등록되어 있는지를 판단한다(S213).

즉, 단계 (S207)이나 단계 (S211)과 같이 수정어를 생성하고 사전인출하는 처리에 있어서, 단어에서는 「pleeeaaase」의 예와 같이, 연속문자부가 복수인 경우도 발견할 수 있으므로, 이러한 경우에는 각각의 연속문자(이 경우에는 「e」의 연속과 「a」의 연속인 두부분)를 각각 2문자 혹은 1문자에 제거한 경우의 조합을 수정어로서 사전인출할 필요가 있다. 도면에 도시하지 않지만, 이러한 처리는 본 실시의 형태에 도시한 처리로부터 당업자라면 용이하게 확장가능하다.

단계 (S209)에서 미등록어에 포함된 3문자이상의 연속문자를 2문자로 수정한 수정어 또는 단계 (S213)에서 미등록어의 2 문자이상의 연속 문자를 1문자로 수정한 수정어가, 사전데이터격납부(50)의 데이터 중에 등록되어 있는지 판단한 경우, 번역처리부(20)는 그 미등록어를 수정어로서 처리하는 결정을 수행한다(S215). 이 때, 그 수정어에는 미등록어를 수정한 단어의 뜻을 표시하는 플래그(데이터)가 부여된다.

이와과 같이 하여, 미등록어가 있는 경우에는 단계 (S215)에서 수정어로 결정하거나 단계 (S206)에서 미지어로 결정한 다음, 원문 텍스트를 구성하는 각각의 단어의 품사와 속성 결정을 행하고(S217), 단계 (S101)의 형태소해석의 처리를 종료한다. 다음, 단계 (S101)의 형태소 해석에서는 품사나 속성을 임의적으로 결정할 수 없는 경우가 있으며, 이 경우에는 복수의 품사나 속성을 유보하여 남겨둘 수 있다.

도 5의 단계 (S101)에서, 번역처리블럭(7)은 구문해석을 수행한다(S103). 구문해석에서는 단어마다 분할된 원문텍스트를 사전데이터 격납부(50)의 기본사전(51)에 기록되어 있는 문법규칙을 참조하면서 해석하고, 구문트리데이터라 부르는 트리구조의 데이터를 작성한다. 구문트리데이터로는 원문 텍스트중에서, 예를 들면, 그 부분이 주어이고, 그 부분이 술어이고, 더욱이 술어 부분은 동사와 목적어로 이루어진 동사구로 목적어 부분은 관사와 명사로 이루어진 명사구라 하는 것을 계층적으로 표현한 트리 구조의 데이터이다. 또한, 구문해석에 사용되는 문법규칙은 문법적인 속성뿐만아니라 의미적인 속성이 지정되어 있는 것도 있다.

후속하여, 단계 (S103)의 결과에 기초하여, 번역처리블럭(7)은 구문생성을 수행한다(S105). 구문생성에서는 단계 (S103)의 구문해석에서 얻어진 원래언어(영일번역이면 영어)의 구문트리데이터를 참조하면서, 목적언어(영일번역인 경우 일본어)의 구문트리데이터를 작성한다.

그리고, 단계 (S105)에서 얻어진 구문트리데이터에 기초하여, 번역처리블럭(7)은 역어생성을 수행한다(S107). 역어생성에서는, 예를 들면, 구문트리 데이터 중에서 역어가 결정되어 있지 않은 단어(한개의 단어에 대해 품사가 동일한 역어가 복수개인 경우, 역어의 후보가 복수개 존재하는 단어)에 관하여, 사전데이터 격납부(50)를 참조하여 원문 텍스트의 각 단어에 대응하는 역어를 특정한다. 그리고, 최종적으로 얻어진 역어를 연결하여 하나의 문장을 생성한다.

여기서, 도 7에는 단계 (S107)에서는 역어 생성이 더 구체적인 처리의 흐름을 도시한다.

도 7에 도시한 바와 같이, 우선 번역처리부(20)는 원문텍스트의 분할된 단어의 각각에 대해서 사전데이터격납부(50)의 데이터를 참조하면서 사전인출을 실행한다(S301). 이 사전인출은 도 1에 도시하는 단계 (S105)에서 얻어진 구문트리 데이터에 기초하여 사전일출하는 단어의 품사를 특정한 후에 최종적인 역어를 결정하기 위해 수행되는 처리이다.

계속하여, 번역처리부(20)는 사전인출한 한개의 단어에 대해서 품사가 매칭하는 역어가 복수개 존재하는지 아닌지를 판단한다(S303). 사전 데이터 격납부(50)에는 각 단어의 품사 마다에 역어가 등록되어 있지만 동일한 한개의 품사에 복수의 역어가 등록되어 있는 경우가 있다. 예를 들면, 도 3에 도시한 바와 같이, 단어 Japanese에 대해서는 명사로서 일본인(의미속성 : 사람)과 일본어(의미속성 : 언어)라고 하는 역어가 등록되어 있다. 단계 (S303)에서 역어가 복수개 존재하지 않는 것으로 판단한 경우 후술의 단계 (S309)의 처리를 행한다.

한편, 단계 (S303)에서, 역어가 복수개 존재하는 것으로 판단한 경우, 그와 같이 판단된 단어는 단계 (S101)(단계 S207 또는 단계 S211)에서 생성된 수정어인지 아닌지를 판단한다(S305). 여기서는 전술한 단계 (S215)에서, 미등록어를 수정한 단어인 뜻을 도시하는 플래그가 있는지 여부에 따라 수정어가 있는지 없는지를 판단한다. 단계 (S305)에서 그 단어가 수정어인것으로 판단한 경우, 그 수정어에 대해서 강조속성이 부여된 역어가 존재하는지 아닌지를 판단한다(S307). 예를 들면, 도 4(a)에 도시하는 「coool」은 단계 (S101)에서 수정되어 「cool」로 되었다. 이 「cool」에 대해서는 도 3에 도시한 바와 같이 강조속성이 예스로 등록된 역어 「시원한」이 존재한다. 이와 같이 강조속성이 부가된 역어가 존재하는 것으로 판단한 경우, 그 어구를 역문에 사용하는 역어로 결정한다(S309)).」

한편, 단계 (S305)에서 그 단어가 수정어는 아니라고 판단한 경우, 또는 단계 (S305)에서 수정어에 대응하는 역어는 존재하지 않는다고 판단한 경우, 그 단어에 대해서 구문트리 데이터중에서 요구된 의미속성등의 다른 속성에 대해서의 부합을 수행한다(S308). 그리고, 부합에 의해 속성이 가장 잘 부합하는 역어를 추출하여 역문에 사용하는 역어를 결정한다(S308). 또한, 구문트리 데이터중에서 속성이 결정되지 않는 경우에는 제1 역어(가장 바람직하게 사용되는 역어)를 선택할 수 있다.

계속하여, 번역처리부(20)는 역어가 결정된 단어는 수정어가 있는지 없는지를 다시 판단한다(S311). 수정어는 없는 것으로 판단되면, 번역처리부(20)는 역어를 출력부(30)로 그대로 출력하고(S312), 본 처리를 완료한다.

한편, 역어가 결정된 단어가 수정어인 것으로 판단한 경우, 번역처리부(20)는 역어를 강조처리하여 출력부(30)에서부터 출력하고(S313), 본 처리를 종료한다.강조처리에서는 그 단어가 원문텍스트에서는 강조어였던 것을 명확하게 하기 때문에, 「*」등의 기호가 그 역어의 전후에 부여된다.

이와 같이 하여 도 7에 도시하는 처리에 의해 단어마다 역어를 확정하고, 연결 결합시킴으로써 최종적인 역문을 출력부(30)는 출력한다. 출력된 역문은 컴퓨터 장치(1)의 번역처리블럭(7) 및 표시제어블럭(5)의 처리에 의해 디스플레이(3)에 표시된다. 예를 들면, 도 4(a)에 표시된 원문 텍스트는 도 4(b)에 도시한 것처럼 번역문으로 되어 디스플레이(3)에 표시된다. 도 4(a)(b)에 도시하는 예에서는 강조어인「coool」이 강조속성이 부여된 역어「시원한」을 사용하여 번역되고, 더욱이 단어의 전후에 부호「*」를 부가하여 「*시원한*」로 표시되어 있다.

이와 같은 본 실시의 형태에 관한 컴퓨터 장치(1)에서는 구어의 번역에서 동일한 문자가 연속하는 부분을 포함하는 강조어를 연속한 문자를 줄이는 것으로 사전데이터 격납부(50)에 등록되어 있는 어구와 일치시킨다. 따라서, 컴퓨터장치(1)에서는 강조어의 품사를 정확하게 식별할 수 있으며, 오역의 발생을 억제할 수 있으며, 또 종래의 기술에서 번역 불가능한 문장도 번역하는 것이 가능하다.

더욱이, 강조어를 번역한 경우에는 강조어에 대응한 역어를 사용하고, 또한 역어의 전후에 기호 등을 부여하는 것으로 원문텍스트에서 강조어였던 것을 분명하게 할 수 있다. 그 결과, 유저는 번역전의 문장의 의도를 보다 정확하게 이해하는 것이 가능하게 된다.

또한 그와 같은 강조어를 포함하는 문장에 대해서 강조어로서 특유의 역어를 선택하는 것으로 문장의 분위기가 보다 적절하게 변화하는 것이 기대된다.

또한, 강조어의 번역에서 출력되는 역어의 강조처리는 도 4(b)에 도시한 것과 같이 부호를 부가하는 처리에 한정되지 않는다. 도 8 (a)(b)(c)에 강조어의 번역에 의한 다른 표기예를 도시한다.

도 8(a)에서는 (a)에 도시하는 원문 텍스트는「Oops」의「o」가 연속문자로되어 강조된 「Oooooooops」가 포함되어 있다. 그것에 대해 (b)에 도시하는 번역문에서는 강조어의 역어가 「아뿔사」로 되어 있으며, 더욱이 역어의 전후에서 눈에 띄도록 복수의 부호 「***」가 부여되어 있다. 이와 같이, 강조데이터로서 부여되는 부호는 특히 한정되지 않으며, 다른 형상의 부호에서도 좋다. 또한 부여되는 위치도 특별히 한정되지 않으며 「아*뿔*사*아~」와 같이 단어의 사이에 부가되어도 좋다.

또한 예를 들면, 디스플레이(3)에 출력할 때에 간단한 텍스트에서는 없으며, HTML형식 등의 폰트데이터나 색의 설정이 가능한 경우에는 서체, 스타일, 크기 등의 폰트데이터나 색을 변경하는 것으로 강조되어 있는 것을 분명하게 할 수 있다.

예를 들면, 도 8(b)에서는 (a)에 도시하는 원문 텍스트는 「so」의 「o」가 연속문자로 되어 강조된 「soooooo」가 포함되어 있다. 그것에 대해서 (b)에 도시하는 번역문에서는 강조속상이 예의 역어가 존재하지 않기 때문에, 강조어는 통상의 어구인(강조속성이 "예스"가 아닌 어구)「매우」로 번역되어 있지만, 이「매우」 의 부분이 강조되어 표시되어 있다.

또한, 도 8(c)에서는 (a)에 도시하는 원문 텍스트는 「please」의 「e」와「a」가 연속문자로 되어 강조된 「pleeeaaase」가 포함되어 있다. 그것에 대해 (b)에 도시하는 번역문에서는 강조어의 역어가 「제발~」 로 되어 있으며, 더욱이 그 역어가 눈에 띄도록 다른 문자보다 폰트를 크게 하여 표시되어 있다.

그 외, 강조어에 대해서 폰트 스타일, 사이즈, 색 등의 서식을 변화하거나 하는 것도 가능하며, 강조어인 것을 표시하는 방법이 특히 한정되어 있다. 또한 강조속성을 갖는 역어를 사용하는 경우나, 텍스트표시만 행하는 것이 바람직한 경우 등에서는 강조처리는 행하지 않아도 좋다.

그 외, 본 실시 형태의 번역처리는 영어의 원문텍스트를 일본어로 번역하고 있지만, 본 발명은 이것에 한정되지 않는다. 예를 들면, 영어를 독일어로 번역하는 경우나, 그 외의 언어를 다른 그 외의 언어로 번역하는 경우에도 본 발명을 적용할 수 있다.

또한, 본 실시의 형태의 번역처리는 노트북형 PC나 데스크탑형 PC등, PDA나 휴대전화기 등의 휴대형 컴퓨터 장치에서 실행하는 것이 가능하다. 또한 인터넷의 웹페이지나 채트 윈도우상에서 실행시키도록 하는 것도 가능하다.

게다가, 본 실시형태의 번역처리는 사전 데이터격납부(50)를 컴퓨터장치(1)내에 마련하고 있지만, 번역시에 컴퓨터장치(1)가 참조하는 사전 데이터는 컴퓨터장치(1)의 외부에 있어도 좋다. 예를 들면, 사전 데이터는 네트워크를 통해 컴퓨터장치(1)가 얻어지는 것이어도 좋다.

또, 상기 실시의 형태에서 도시된 것처럼 처리를 실행하는 프로그램은 이하와 같은 기억매체의 형태로 할 수 있다.

즉, 기억매체로는 컴퓨터장치에 상기와 같은 처리를 실행시킨 프로그램을 CD-ROM, DVD, 메모리, 하드 디스크 등의 기억매체에 컴퓨터장치가 독해가능하게 기억되면 좋다.

이 이외에도 본 발명의 주의미를 벗어남이 없이 한정하고, 상기 실시형태에서 부가한 구성을 취합 선택하거나 다른 구성에 적절하게 변경하는 것이 가능하다.

이상 설명한대로, 본 발명에 의하면, 동일 문자를 연속시키는 것으로 강조된 강조러를 번역하는 것이 가능하다.

Claims

컴퓨터 장치에 입력된 소정 언어의 원문텍스트를 다른 언어로 번역하는 번역 방법에 있어서,

상기 컴퓨터 장치가 참조 가능한 데이터베이스에 등록되어 있지 않은 미등록 어를, 상기 원문텍스트에서 추출하는 추출단계와,

추출된 상기 미등록 언어에 두개 이상의 연속하는 동일한 문자가 포함되어 있을 때에, 상기 연속하는 문자의 문자수를 감소시켜서 상기 미등록 언어로부터 수정어를 생성하는 수정어 생성 단계와,

상기 원문텍스트 중의 상기 미등록어를 상기 수정어로 변환하여, 상기 데이터 베이스를 참조하여 상기 원문 텍스트를 번역하는 번역 단계

를 포함하는 번역 방법.
제1항에 있어서,

상기 수정어 생성단계에서는 세개 이상의 연속하는 상기 문자를 두개 문자로 줄이거나 두개 이상 연속하는 상기 문자를 한개 문자로 줄이는 번역 방법.
제1항에 있어서,

상기 번역문 중의 상기 미등록어에 대응하는 번역어가 상기 수정어에 기초하여 번역되는 것을 분명하게 한 상태에서, 상기 번역문을 출력하는 출력단계를 구비하는 번역 방법.
제1항에 있어서,

상기 번역 단계에서는 상기 수정어에 대응하는 수정어용 번역어를 상기 데이터 베이스에서 추출하는 번역 방법.
컴퓨터 장치에 의해 번역된 번역문을 상기 컴퓨터 장치가 출력하는 출력방법에 있어서,

상기 컴퓨터 장치에 입력된 원문 텍스트에서 본래의 문자철자와 다른 문자철자가 이용되는 조어를 특정하는 특정 단계와,

상기 조어를 포함하는 상기 원문 텍스트를 번역하여, 상기 번역문을 출력하는 출력 단계

를 포함하며, 상기 출력 단계에서는

상기 특정 단계에 의해 특정된 상기 조어에 대응하는 번역어에 강조 표현을 적용하여 상기 번역문을 출력하는 출력 방법.
제 5항에 있어서,

상기 출력단계에서는 상기 강조 표현으로 상기 번역어에 소정의 표기를 부가하거나 또는 상기 번역어의 서식을 변화시키는 출력 방법.
컴퓨터 장치에 실행시키는 프로그램을 상기 컴퓨터 장치가 독출가능하게 기억한 기억매체에 있어서,

상기 프로그램은

상기 컴퓨터장치에 입력된 원문텍스트를 구성하는 단어의 품사와 속성을 상기 컴퓨터 장치가 참조가능한 데이터 베이스로부터 추출하는 형태소 해석처리와,

상기 형태소 해석처리의 결과에 기초하여, 원문의 트리구조를 갖는 구문트리 데이터를 작성하는 구문해석처리와,

상기 형태소해석처리의 결과에 기초하여 역문의 구문트리데이터를 작성하는 구문생성처리와,

상기 원문텍스트의 상기 단어에 대응하는 번역어를 상기 데이터 베이스로부터 얻어서, 상기 역문의 구문트리 데이터에 기초한 상기 번역어를 연결하여 번역문을 생성하는 번역문생성처리

를 상기 컴퓨터 장치로 실행시키고,

상기 형태소해석처리에서는 상기 원문텍스트가 상기 데이터 베이스에 등록되지 않는 미등록어를 포함하고, 또 상기 미등록어가 두개 이상 연속하는 동일한 문자를 포함할 때는 상기 연속하는 문자를 한개 또는 두개 문자로 줄여진 수정어를 생성하여, 상기 미등록어 대신 상기 수정어의 상기 품사와 상기 속성을 상기 데이터 베이스로부터 추출하는 것을 상기 컴퓨터장치로 실행시키는 기억 매체.
제7항에 있어서,

상기 번역문 생성처리에서는 상기 미등록어 대신 상기 수정어의 상기 속성이 강조속성을 포함할 때, 상기 강조 속성과 관련되는 강조역어를 상기 번역어로 하여 상기 데이터 베이스로부터 얻어서, 상기 강조역어를 포함하는 상기 번역문을 생성하는 것을 상기 컴퓨터장치로 실행시키는 기억 매체.
제7항에 있어서,

상기 번역문 생성처리에서는 상기 수정어에 대응하는 상기 번역어에 대해 상기 수정어를 번역하는 것을 표시하기 위한 데이터를 부여하는 것을 상기 컴퓨터장치로 실행시키는 기억매체.
번역처리를 컴퓨터 장치로 실행시키는 프로그램에 있어서,

컴퓨터장치에 입력된 원문텍스트에서, 상기 컴퓨터장치가 참조가능한 데이터 베이스에 등록되어 있지 않은 미등록어를 추출하는 처리와,

추출된 상기 미등록어가 상기 미등록어의 중복하는 문자의 문자수를 변화시킴으로서 상기 데이터 베이스에 등록된 등록어에 합치할 때, 상기 미등록어를 대신하여 상기 등록어를 이용하여 상기 원문텍스트를 번역하는 처리와,

상기 미등록어를 대신하여 상기 등록어를 이용한 부분을 다른 부분으로부터 식별할 수 있도록 하여 번역문을 표시시키는 처리를 상기 컴퓨터 장치로 실행시키는 프로그램.
제10항에 있어서,

상기 번역문을 표시시킨 처리에서는 상기 미등록어에 대해 상기 등록어를 이용한 부분을 상기 다른 부분으로부터 식별할 수 있도록 하기 위해, 상기 부분에 대해 소정의 강조데이터의 추가, 포인트데이터의 변경 및 색의 변경의 적어도 하나를 상기 컴퓨터 장치로 실행시키는 프로그램
제11항에 있어서,

상기 번역문을 표시시키는 처리에서는 상기 미등록어에 대해 상기 등록어를 이용한 부분에 대응하는 번역어로서 미리 등록된 강조역어를 이용하는 것을 상기 컴퓨터 장치에 실행시키는 프로그램.
복수어의 데이터를 격납한 데이터베이스와,

원문텍스트의 데이터를 입력하는 입력부와,

입력된 상기 원문 텍스트를 상기 데이터 베이스를 참조하여 번역처리하는 번역처리부와,

상기 원문 텍스트의 번역문데이터를 출력하는 출력부

를 포함하고, 상기 번역처리부는

두개 이상 연속하는 동일한 문자를 갖는 강조어에 있어서 상기 연속하는 문자의 문자수를 줄인 수정어를 생성하고 상기 수정어에 대응하는 번역어를 상기 데이터 베이스에서 취득하는 컴퓨터 장치.
제13항에 있어서,

상기 데이터 베이스에는 상기 번역어를 특정하기 위한 속성으로 강조속성데이터와, 상기 강조속성데이터에 관련된 강조역어가 상기 수정어에 관련하여 등록되어,

상기 출력부는 상기 수정어에 관련하여 상기 강조속성데이터가 상기 데이터 베이스에 등록되어 있는 경우, 상기 강조속성데이터에 관련한 상기 강조역어를 상기 번역어로서 이용한 상기 번역문데이터를 출력하는 컴퓨터장치.
제13항에 있어서,

상기 출력부는 상기 번역문 데이터중의 상기 번역어가 상기 수정어에 기초하여 번역된 어구인 것을 표시하는 데이터를 상기 번역문데이터와 함께 출력하는 컴퓨터 장치.
제15황에 있어서,

상기 출력부에 의해 출력된 상기 번역문데이터에 기초하여 상기 번역어를 강조한 상태에서 번역문을 표시하는 표시부를 더 포함하는 컴퓨터 장치.