KR20040070168A - 번역 방법, 번역문의 출력방법, 기억 매체, 프로그램 및컴퓨터 장치 - Google Patents

번역 방법, 번역문의 출력방법, 기억 매체, 프로그램 및컴퓨터 장치 Download PDF

Info

Publication number
KR20040070168A
KR20040070168A KR10-2004-7001553A KR20047001553A KR20040070168A KR 20040070168 A KR20040070168 A KR 20040070168A KR 20047001553 A KR20047001553 A KR 20047001553A KR 20040070168 A KR20040070168 A KR 20040070168A
Authority
KR
South Korea
Prior art keywords
word
translation
translated
registered
computer device
Prior art date
Application number
KR10-2004-7001553A
Other languages
English (en)
Inventor
토모히로 미야히라
요시로 카미야마
히로미 하토리
Original Assignee
인터내셔널 비지네스 머신즈 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인터내셔널 비지네스 머신즈 코포레이션 filed Critical 인터내셔널 비지네스 머신즈 코포레이션
Publication of KR20040070168A publication Critical patent/KR20040070168A/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/47Machine-assisted translation, e.g. using translation memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99932Access augmentation or optimizing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99934Query formulation, input preparation, or translation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Medicines Containing Material From Animals Or Micro-Organisms (AREA)
  • Jellies, Jams, And Syrups (AREA)

Abstract

이 이상 연속하는 동일한 문자를 포함하는 강조어를 포함하는 문장을 바르게 인식하고 기계번역하는 번역방법을 제공한다,
우선, 번역을 행하는 원문텍스트의 단어에 대해서 사전인출을 실행하여, 미등록어를 포함하는지를 판단한다. 다음, 미등록어가 연속하는 문자를 포함하는 지를 판단하여, 연속하는 문자가 있는 경우에는 연속하는 문자의 문자수를 감소시키고, 얻어진 수정어가 사전에 존재하는지를 판단한다. 사전에 존재하는 것으로 판단되면, 그 미등록어를 수정어로 결정하고, 품사와 속성을 결정하여 미등록어를 수정어로 변환한 상태에서 번역 처리를 실행한다.

Description

번역 방법, 번역문의 출력방법, 기억 매체, 프로그램 및 컴퓨터 장치{Translating Method, Translated Sentence Outputing Method, Recording Medium, Program, And Computer Device}
종래, 퍼스널 컴퓨터 등에서 번역용 프로그램이 이용되고 있다. 이러한 번역용 프로그램에서는, 모니터 상에 표시된 문장을 기계적으로 번역하는 것이 가능하며, 예를 들면, 인터넷에서는 웹 페이지나, 전자 메일 등의 문장을 번역할 때 사용된다.
그런데 최근에는, 인터넷 이용자의 증가로 인해 개인이 직접 정보를 발신하는 것이 많이 행해지고 있다. 예를 들면, 개인에 의해 만들어진 웹페이지나, 전언판과 같이 개인이 코멘트를 기입하는 웹페이지나, 상호 작용으로(interactive) 이야기할 수 있는 채트(chat)에서는 개인에 의해 직접 기술된 문장이 그대로 전달되고 있다. 이와 같이, 개인이 발신한 정보를 번역할 때에도, 전술한 번역용 프로그램이 사용되고 있다.
따라서, 번역용 프로그램을 이용하여 개인이 발신한 정보를 번역하면, 그 정보가 포함되어 있는 구어(口語)로 인해 번역을 할 수 없거나 번역이 틀리게 된다. 구어에는 번역용 프로그램을 참조하는 사전에 기록되지 않는 어구가 많이 포함되어 있으며, 이러한 미등록어는 동사나 형용사도 명사로 취급되어 버리기 때문에 번역용 프로그램은 그 문장의 번역에 실패해 버린다.
이러한 미등록어로는, 예를 들면, 문장중에서 특정의 단어를 강조하기 때문에, 의도적으로 단어를 구성하는 문자를 연속적으로 중복시킨 어구(이하, 강조어라고 함)이다. 구체적으로는, 영어에서의 「cool」의「o」를 중복시킨 「coool」이나 「work」의 「r」을 중복시킨「worrk」등을 열거할 수 있다. 이러한 강조어를 포함한 문장의 번역시에는 형용사인 「coool」이나 동사인「worrk」가 명사로 취급되어, 최종적으로 잘못된 번역문이 생성된다.
여기서, 「cool」의 강조가 통상「o」가 세개의 문자인 「coool」로 기재되어 있으면, 그 「coool」을 사전에 등록하는 것으로 정확하게 번역할 수 있게 되지만, 강조를 위해 연속하는 문자의 문자수는 일정하지 않으며, 「o」가 3개인 경우 외에 「o」가 4개 또는 5개의 경우 등도 상정할 수 있다. 이처럼 상정할 수 있는 단어는 수에 한정이 없으며, 모든 경우에 대응한 단어를 사전에 등록하는 것은 사실상 곤란하다.
이와 같이, 개인이 기술한 문장에는 구어가 이용되는 것이 많으며, 특히 주고받는 회화를 문장으로 수행하는 채트에서는 그 경향이 현저하여, 번역 처리의 실패가 발발하고 있다,
또한, 상기와 같은 동일한 문자를 중복시키는 것에 의한 단어의 강조는 구어등의 스스럼없는 표현을 이용한 문장중에서 사용되는 경우가 많다. 그러한 문장에 대한 번역문에서는 가벼운 표현은 아니고, 나긋나긋한 스스럼없는 표현을 이용한 방법이 바람직한 경우도 상정된다. 이러한 경우에는 원문중에서 강조된 단어를 번역문중에서도 강조하는 경우와 함께 스스럼없는 표현의 역어(번역어)를 선택하는 것으로 문장의 분위가가 보다 적절하게 전달되는 것이 기대된다.
본 발명은 이러한 기술적 과제에 기인하지 않고, 강조어등의 미등록어가 포함되어 있어도 적절한 번역을 할 수 있는 번역방법 등을 제공하는 것을 목적으로 한다.
본 발명은 문장중의 강조어를 인식하여 기계번역하기 위한 방법 등에 관한 것이다.
도 1은 본 실시 형태에 대한 컴퓨터 장치의 개략구성을 도시하는 도면이다.
도 2는 번역처리블럭의 구성을 도시하는 도면이다.
도 3은 사전데이터격납부에 격납된 데이터의 일예를 도시하는 도면이다.
도 4는 번역의 구체예를 도시하고, (a)는 번역문의 원문 텍스트를 (b)는 번역후에 표시되는 역문을 도시하는 도면이다.
도 5는 번역처리블럭에 대한 번역처리의 흐름을 도시하는 도면이다.
도 6은 도 5에 도시하는 형태소 해석의 구체적인 처리의 흐름을 도시하는 도면이다.
도 7은 도 5에 도시하는 번역생성의 구체적인 흐름을 도시하는 도면이다.
도 8은 (a)(b)(b)는 각각 강조어의 번역에 대한 다른 표기예를 도시하는 도면이다.
이러한 목적으로, 본 발명의 번역 방법은 컴퓨터 장치에 입력된 소정 언어의 원문 텍스트를 다른 언어로 번역하는 번역 방법에 있어서, 추출 단계에서는 컴퓨터 장치가 참조가능한 데이터 베이스에 등록되어 있지 않은 미등록어를 원문 텍스트에서 추출하고, 수정어 생성단계에서는 추출된 미등록어로 2이상 연속하는 동일한 문자가 포함될 때, 연속하는 문자의 문자를 감소시켜서 미등록어로부터 수정어를 생성하고, 번역단계에서는 원문 텍스트 중의 미등록어를 수정어로 변환하고, 상기 데이터 베이스를 참조하여 원문 텍스트를 번역하는 것을 특징으로 하는 방법이다. 이 번역방법에서는 원문 텍스트에 미등록어가 포함되어 번역이 불가능하여도, 그 미등록어가 구어에서 사용되도록 연속하는 문자를 포함하고 있는 경우에는 미등록어 대신 수정어를 이용하는 것으로 원문 텍스트의 번역이 가능하게 된다.
더욱, 미등록에서 연속하는 문자의 중복수는 일정하지 않으며, 또한 연속하는 문자가 그 미등록어중에서 그 문자로 어떤것도 일정하지 않다. 그래서, 예를 들면 수정어 생성 단계에 있어서, 3개 이상 연속하는 상기 문자를 2개 문자로 줄이거나 두개 이상 연속하는 상기 문자를 한개 문자로 줄일 수 있다.
또한, 이 번역방법에서는 번역문중의 미등록어에 대응하는 번역어가 수정어에 기초하여 번역된 것이라는 것을 분명하게 한 상태에서 번역문을 출력하는 출력 단계를 더 가질수 있다.
즉, 번역 단계에서는, 수정어에 대응하는 수정어용의 번역어를 데이터 베이스에서 추출함으로써 번역을 수행할 수 있다.
또한 본 발명은 번역문의 출력방법으로 얻을 수 있다. 이 번역문의 출력방법은, 컴퓨터 장치에 의해 번역된 번역문을 컴퓨터 장치가 출력하는 출력방법에 있어서, 특정단계에서는 컴퓨터 장치에 입력된 원문텍스트에서 본래의 문자철자와 다른 문자철자가 이용된 조어를 특정하고, 출력단계에서는 조어를 포함하는 원문텍스트를 번역하여 번역문을 추출하고, 게다가 특정 단계에 의해 특정된 조어에 대응하는 번역어에 강조표현을 적용하여 번역문을 출력하는 것을 특징으로 하는 방법이다.
본 출력단계에서는 강조표현으로 번역어에 소정의 표기를 부가하거나 또는 번역어의 서식을 변화시킬 수 있다. 예를 들면, 「cool」의 번역어인 「시원한」의 전후에「*」의 표기를 부가하여 「*시원한*」로 표기하거나 그 「시원한」의 폰트나 색을 변경할 수 있다.
더욱이 본발명은 컴퓨터 정치에 실행시킨 프로그램을, 컴퓨터장치가 독해가능하게 기억한 기억매체로서 얻을 수 있다. 이 기억매체에 기억되는 프로그램은 컴퓨터장치에 입력된 원문텍스트를 구성하는 단어의 품사와 속성을 참조가능한 데이터 베이스에서 추출하는 형태소 해석처리와, 그 결과에 기초하여, 원문의 트리 구조를 갖는 구문트리데이터를 작성하는 구문해석처리와, 구문해석처리의 결과에 기초하여, 역문(번역문)의 구문 트리 데이터를 작성하는 구문생성처리와, 원문텍스트의 단어에 대응하는 번역어를 데이터 베이스로부터 얻어서, 역문의 구문트리 데이터에 기초하여 번역어를 연결하여 번역문을 생성하는 번역문 생성처리를 컴퓨터장치로 실행시키고, 형태소해석처리에서는 원문텍스트가 데이터 베이스에 등록되어 있지 않은 미등록어를 포함하고, 또 상기 미등록어가 2 이상 연속하는 동일한 문자를 포함할 때는 연속하는 문자를 1 또는 2 문자로 감소시킨 수정어를 생성하고, 미등록어대신 수정어의 품사와 속성을 데이터 베이스에서 추출하는 것을 컴퓨터장치로 실행시키는 것을 특징으로 하는 것이다.
또한, 번역문 생성처리에서는 미등록어대신 수정어의 속성이 강조속성을 갖을 때, 강조속성과 관련되어 있는 강조역어를 번역어로하여 데이터 베이스로부터 얻어서, 강조역어를 포함하는 번역문을 생성하거나 수정어에 대응하는 번역어에 대해 수정어를 번역한 것인 것을 표시하기 위해 데이터를 부여할 수 있다. 예를 들면, 이 데이터에 기초하여 수정어에 대응하는 번역어를 번역문중에서 식별할 수 있도록 표시할 수 있다.
또한 본 발명은 번역처리를 컴퓨터 장치로 실행시키는 프로그램으로 얻을 수있다. 이 프로그램은 컴퓨터장치로 입력된 원문텍스트에서부터 참조가능한 데이터 베이스로 등록되어 있지 않은 미등록어를 추출하는 처리와, 추출된 미등록어가 미등록어의 중복하는 문자의 문자수를 변화시킴으로써 데이터 베이스에 등록된 등록어로 합치할 때, 미등록어를 대신하여 등록어를 이용하여 원문 텍스트를 번역하는 처리와, 추출된 미등록어가 미등록어의 중복하는 문자의 문자수를 변화시키는 것으로 하여 데이터베이스에 등록된 등록어에 합치할 때 미등록어를 대신하여 등록어를 이용하여 원문 텍스트를 번역하는 처리와, 미등록어를 대신하여 등록어를 이용하여 원문 텍스트를 번역하는 처리와 미등록어에 대신하여 번역문을 표시시키는 처리를 컴퓨터장치로 실행시키는 것을 특징으로 하는 것이다.
예를 들면, 이 프로그램에서는 번역문을 표시시키는 처리에서, 미등록어를 대신하여 등록어를 이용한 부분을 다른 부분으로부터 식별할 수 있도록 하기 위해, 그 부분에 대해 소정의 강조 데이터(예를 들면, 「*」등)의 추가, 폰트데이터(서체, 스타일, 크기를 포함함)의 변경 및 색의 변경 중 적어도 한개를 실시할 수 있다.
그외, 본 발명은 컴퓨터 장치로 얻을 수 있다. 이 컴퓨터 장치에서는 데이터 베이스가 복수어의 데이터를 격납하여, 입력부가 원문 텍스트의 데이터를 입력하고, 번역처리부가 입력된 원문 텍스트를 데이터 베이스를 참조하여 번역처리하고, 출력부가 원문 텍스트의 번역문데이터를 출력하고, 또 번역처리부는 2 이상 연속하는 동일한 문자를 갖는 강조어로서 연속하는 문자의 문자수를 감소시킨 수정어를 생성하고, 수정어에 대응하는 번역어를 데이터 베이스로부터 얻는는 것을 특징으로 하는 것이다.
데이터 베이스에는 번역어를 특정하기 위한 속성으로 강조속성데이터와 강조속성데이터에 관련되는 강조역어가 수정어에 관련되어 등록되며, 출력부는 수정어에 관련되어 강조속성 데이터가 데이터 베이스에 등록되어 있는 경우 강조속성 데이터에 관련된 강조역어를 번역어로서 이용한 번역문데이터를 출력할 수 있다.
또한, 출력부는 번역문 데이터 중의 번역어가 수정어에 기초하여 번역된 어구인 것을 도시하는 데이터를 번역문데이터와 함께 출력할 수 있다. 이 경우 출력부에 의해 출력된 번역문 데이터에 기초하여 번역어를 강조한 상태에서 번역문을 표시하는 표시부을 더 포함시킬 수 있다.
이하, 첨부도면에 도시하는 실시의 형태에 기초하여 이 발명을 상세하게 설명한다.
도 1은 본 실시의 형태에 의한 컴퓨터장치의 개략구성을 설명하기 위한 도면이다. 도 1에 도시한 바와 같이, 컴퓨터장치(1)는 CPU나 메인메모리, HDD등을 구비한 제어부(2), CRT나 LCD패널등을 이용한 디스플레이(표시부)(3), 디스플레이(3)의 표시화면상에 표시되는 문자 등을 입력하기 위한 키보드나 포인터를 조작하기 위한 마우스 등의 입력 디바이스(4)를 포함한다.
제어부(2)는 디스플레이(3)에서 CPU로부터의 추출명령에 기초하여 화면의 표시를 수행하게 위한 표시제어 블럭(5), 유저에 의해 입력된 데이터를 제어하기 위한 입력 디바이스 제어블럭(6), 번역처리를 행하기 위한 번역처리블럭(7)으로서의 기능을 갖는다
표시제어블럭(5)은 도시하지 않은 비디오드라이브, 비디오칩 등에 의해 실현되는 것으로 메인메모리 등으로부터 전송된 화상데이터에 기초한 표시를 디스플레이(3)에 실행시킨다.
입력디바이스 제어블럭(6)은 포인팅디바이스나 키보드 등의 입력디바이스(4)를 유저가 조작했을 때의 이벤트를 처리하는 유저인터페이스 드라이브에 의해 실현되는 것으로, 특히, 유저에 의해 입력디바이스(4)의 조작에 기초하여 입력된 데이터를 디스플레이(3)의 표시화면상에 표시시키기 위한 처리를 실행한다.
번역처리블럭(7)은 HDD등에 격납된 프로그램에 기초한 처리를 CPU가 메인메모리등과 협력하여 실행하는 것으로 실현되는 것이다. 여기서, 번역처리블럭(7)에 대해서 상세하게 설명한다.
도 2는 번역처리블럭(7)의 기능적인 구성을 도시하는 도면이다.
번역처리블럭(7)은 번역할 원문텍스트를 입력하는 입력부(10)와, 입력된 원문텍스트의 번역처리를 실행하는 번역처리부(20)와, 실행된 번역처리의 결과인 역문 등을 디스플레이(3)에 표시하기위해 데이터를 출력하는 출력부(30)와, 번역처리를 수행할 때 이용하는 사전데이터를 격납한 사전데이터격납부(50)를 포함한다. 사전데이터격납부(50)는 기본사전(51), 유저사전(52)외에, 예를 들면, 스포츠, 컴퓨터, 광고, 엔터테인먼트, 정치경제, 과학, 가정 등 분야별 데이터를 구비한 분야별사전(53)을 갖고 있다.
도 3은 사전데이터격납부(50)에 격납된 데이터의 일예를 도시하는 도면이다.
사전데이터격납부(50)는, 예를 들면, 도 3에 도시하는 것과 같은 데이터를 격납하고 있으며, 즉, 품사, 의미속성, 강조속성, 역어, 일본어속성의 데이터가 단어마다 기록되어 있다, 여기서, 일예로 발췌되어 있는 단어 「cool」은 품사로서 형용사가 특정되어 있으며, 그 역어로서 「냉정」과「시원한」의 두개가 등록되어 있다. 또한 단어 「Japanese」는 품사로 명사와 형용사가 특정되어 있으며, 그 역어로서 명사로는 「일본인」과「일본어」가 형용사로는「일본」이 등록되어 있다. 「냉정」과 「시원한」이나, 「일본인」과 「일본어」와 같이, 한개의 단어에 대한역어의 결정에서, 동일한 품사의 역어가 복수개인 경우, 원문텍스트를 구성하는 단어끼리 연결되어 있어서, 의미속성, 강조속성, 일본어속성 등에 기초하여, 그 역어를 사용하는는지 결정된다. 또한, 강조속성으로는 강조표현에 이용하는 역어의 유무를 표시하는 것으로, 강조속성이 "예스"인 경우에는 강조 표현에 이용하는 역어인 것을 의미한다.
전술한 바와 같은 구성을 갖는 컴퓨터장치(1)의 변역처리블록(7)에서는 번역처리를 행할 때에, 입력부(10)에서 얻어진 원문텍스트(문장이나 단어)를 기본으로 사전데이터격납부(50)를 참조하여, 번역처리부(20)가 번역처리를 행하여 역문을 생성하고, 출력부(30)에서부터 역문을 출력한다. 번역처리에는 문법규칙, 단어 데이터 등이 격납된 사전데이터 격납부(50)를 참조하여, 형태소해석, 구문해석, 구문생성, 역서생성 등의 처리가 번역처리부(20)에서 순차적으로 행해진다. 이와 같이 번역처리를 수행할 때 원문텍스트에 강조어가 포함된 경우에도, 번역처리부(20)는 정확한 역문을 얻을 수 있으며, 더욱이 강조어를 강조한 상태에서 역문을 출력할 수 있다. 예를 들면, 도 4(a)에 도시한 것과 같이 번역전의 영문이 원문 텍스트에서는 「cool」이 「o」를 중복시킨 「coool」로 해두고, 번역후의 일본어의 역문에서는 도 4(b)에 도시한 바와 같이, 「*시원한*」으로 강조되어 번역된다.
이하에 강조어를 정확하게 더 강조하여 출력하기 위해 번역처리블럭(7)에 의한 처리에 의해서, 도 4(a)에 도시하는 원문 텍스트를 도 4(b)에 도시하는 일본어문에 번역하는 예를 이용하여 구체적으로 설명한다. 즉, 번역처리의 개요그것은, 일반적인 방법이기 때문에, 종래 공지의 번역처리에 의해 상세한 설명은 생략한다.또한 번역처리 알고리즘이나 번역결과의 출력형태에 대해서 특히 한정하는 것을 의미하지는 않는다.
도 5는 번역처리블럭(7)에 의한 번역처리의 주요 흐름을 도시하는 도면이다.
우선, 번역처리블럭(7)은 입력부(10)에서부터 얻어진 원문텍스트에 대해서 형태소해석을 수행한다(단계 S101). 형태소해석에서는 사전 데이터 격납부(50)에 격납된 데이터를 참조하면서 원문 텍스트의 문장을 단어마다 분할하여, 품사와 속성의 결정을 수행한다.
여기서, 도 6에 단계 (S101)에 대한 형태소해석이 더 구체적으로 처리 흐름을 도시한다.
도 6에 도시한 바와 같이, 우선 번역처리부(20)는 원문텍스트의 분할된 단어의 각각에 대해서 사전 데이터 격납부(50)의 데이터를 참조하면서 사전인출을 실행한다(S201). 그리고, 사전 데이터 격납부(50)에는, 도 3에 도시한 바와 같이, 단어마다, 의미속성, 강조속성, 역어, 일본어 속성이 데이터로서 기록되어 있다. 사전인출에서는 단어마다 사전데이터 격납부(50)에 일치하는 단어를 추출하는 처리를 수행한다. 따라서, 도 4(a)에 도시하는 원문 텍스트의 경우에는 분할된 단어 it, is, very, coool의 각각에 대해서 사전인출을 수행하고, 사전데이터 격납부(50) 중에서 일치하는 단어의 추출을 수행한다.
그 다음, 단계(S201)에서 사전인출의 결과에 기초하여, 원문 텍스트에는 사전데이터 격납부(50)의 데이터 중에 등록되어 있지 않는 단어(이하, "미등록어"라고 말함)가 포함되어 있는지를 판단한다(단계 S203). 단계 (S203)에서 미등록어는포함되어 있지 않으며, 즉 원문텍스트를 구성하는 단어가 모두 사전데이터격납부(50)에 격납된 데이터 중에 존재하는지를 판단하면, 다음 단계 (S217)의 처리, 즉 품사와 속성의 결정을 수행한다.
한편, 도 4(a)에 도시한 것처럼 원문텍스트에는 「coool」이라고 하는 사전데이터격납부(50)에 등록되어 있지 않은 미등록어가 포함되어 있다. 이러한 경우, 번역처리부(20)는 단계 (S203)에서 원문텍스트는 미등록어를 포함하는지를 판단하여, 그 미등록어에서 2 이상 연속하는 동일한 문자(이하, "연속문자"라고 함)가 있는지 지를 판단한다(S205). 단계 S205에서, 미등록어에는 연속문자가 존재하지 않는 것으로 판단한 경우, 번역처리부(20)는 그 미등록어를 미지의 어구(미지어)로서 처리하는 결정을 수행한다(S206).
또한, 「coool」중의 「ooo」와 같은 미등록어에 연속문자가 존재하는지를 (단계 S205)에서 판단한 경우, 번역처리부(20)는 3문자 이상의 연속하는 연속문자를 2 문자로 변환하는 것으로 수정한 단어(이하, "수정어"하고 말함)를 생성하여, 그 수정어에 대해서 사전데이터 격납부(50)를 참조하여 사전인출을 수행한다(S207). 즉, 「coool」을 「cool」로 수정하고, 「cool」에 대해서 사전인출을 수행한다. 그리고 번역처리부(20)는 단계 (S207)의 사전인출 결과에 기초하여, 수정어는 사전 데이터격납부(50)의 데이터 중에 등록되어 있는지를 판단한다(S209). 도 4(a)에 되시하는 예의 경우, 단계 (S207)에서 수정된 수정어 「cool」은 도 4에 도시하도록 사전데이터 격납부(50)에 격납되어 있는 단어 「cool」와 일치하기 때문에 수정어가 사전 데이터격납부(50)에 등록되어 있는지 판단한다.
즉, 단계 (S209)에서, 3문자이상의 연속하는 연속문자를 2 문자로 수정한 수정어가 사전데이터 격납부(50)의 데이터 중에 등록되어 있는지 판단한 경우, 혹은 3개 문자 이상의 연속문자가 아니기 (예를 들면, 2개 문자의 연속 문자)때문에 수정어를 작성하지 않은 경우, 번역처리부(20)는 미등록어의 2문자이상의 연속문자를 한 문자로 변환하는 것으로 수정한 새로운 수정어를 생성하고, 그 새로운 수정어에 대해서 사전데이터 격납부(50)를 참조하여 사전인출을 수행한다(S211). 그리고, 번역처리부(20)는 사전인출의 결과에 기초하여 새로운 수정어가 사전데이터 격납부(50)의 데이터 중에 등록되어 있는지를 판단한다(S213).
즉, 단계 (S207)이나 단계 (S211)과 같이 수정어를 생성하고 사전인출하는 처리에 있어서, 단어에서는 「pleeeaaase」의 예와 같이, 연속문자부가 복수인 경우도 발견할 수 있으므로, 이러한 경우에는 각각의 연속문자(이 경우에는 「e」의 연속과 「a」의 연속인 두부분)를 각각 2문자 혹은 1문자에 제거한 경우의 조합을 수정어로서 사전인출할 필요가 있다. 도면에 도시하지 않지만, 이러한 처리는 본 실시의 형태에 도시한 처리로부터 당업자라면 용이하게 확장가능하다.
단계 (S209)에서 미등록어에 포함된 3문자이상의 연속문자를 2문자로 수정한 수정어 또는 단계 (S213)에서 미등록어의 2 문자이상의 연속 문자를 1문자로 수정한 수정어가, 사전데이터격납부(50)의 데이터 중에 등록되어 있는지 판단한 경우, 번역처리부(20)는 그 미등록어를 수정어로서 처리하는 결정을 수행한다(S215). 이 때, 그 수정어에는 미등록어를 수정한 단어의 뜻을 표시하는 플래그(데이터)가 부여된다.
이와과 같이 하여, 미등록어가 있는 경우에는 단계 (S215)에서 수정어로 결정하거나 단계 (S206)에서 미지어로 결정한 다음, 원문 텍스트를 구성하는 각각의 단어의 품사와 속성 결정을 행하고(S217), 단계 (S101)의 형태소해석의 처리를 종료한다. 다음, 단계 (S101)의 형태소 해석에서는 품사나 속성을 임의적으로 결정할 수 없는 경우가 있으며, 이 경우에는 복수의 품사나 속성을 유보하여 남겨둘 수 있다.
도 5의 단계 (S101)에서, 번역처리블럭(7)은 구문해석을 수행한다(S103). 구문해석에서는 단어마다 분할된 원문텍스트를 사전데이터 격납부(50)의 기본사전(51)에 기록되어 있는 문법규칙을 참조하면서 해석하고, 구문트리데이터라 부르는 트리구조의 데이터를 작성한다. 구문트리데이터로는 원문 텍스트중에서, 예를 들면, 그 부분이 주어이고, 그 부분이 술어이고, 더욱이 술어 부분은 동사와 목적어로 이루어진 동사구로 목적어 부분은 관사와 명사로 이루어진 명사구라 하는 것을 계층적으로 표현한 트리 구조의 데이터이다. 또한, 구문해석에 사용되는 문법규칙은 문법적인 속성뿐만아니라 의미적인 속성이 지정되어 있는 것도 있다.
후속하여, 단계 (S103)의 결과에 기초하여, 번역처리블럭(7)은 구문생성을 수행한다(S105). 구문생성에서는 단계 (S103)의 구문해석에서 얻어진 원래언어(영일번역이면 영어)의 구문트리데이터를 참조하면서, 목적언어(영일번역인 경우 일본어)의 구문트리데이터를 작성한다.
그리고, 단계 (S105)에서 얻어진 구문트리데이터에 기초하여, 번역처리블럭(7)은 역어생성을 수행한다(S107). 역어생성에서는, 예를 들면, 구문트리 데이터 중에서 역어가 결정되어 있지 않은 단어(한개의 단어에 대해 품사가 동일한 역어가 복수개인 경우, 역어의 후보가 복수개 존재하는 단어)에 관하여, 사전데이터 격납부(50)를 참조하여 원문 텍스트의 각 단어에 대응하는 역어를 특정한다. 그리고, 최종적으로 얻어진 역어를 연결하여 하나의 문장을 생성한다.
여기서, 도 7에는 단계 (S107)에서는 역어 생성이 더 구체적인 처리의 흐름을 도시한다.
도 7에 도시한 바와 같이, 우선 번역처리부(20)는 원문텍스트의 분할된 단어의 각각에 대해서 사전데이터격납부(50)의 데이터를 참조하면서 사전인출을 실행한다(S301). 이 사전인출은 도 1에 도시하는 단계 (S105)에서 얻어진 구문트리 데이터에 기초하여 사전일출하는 단어의 품사를 특정한 후에 최종적인 역어를 결정하기 위해 수행되는 처리이다.
계속하여, 번역처리부(20)는 사전인출한 한개의 단어에 대해서 품사가 매칭하는 역어가 복수개 존재하는지 아닌지를 판단한다(S303). 사전 데이터 격납부(50)에는 각 단어의 품사 마다에 역어가 등록되어 있지만 동일한 한개의 품사에 복수의 역어가 등록되어 있는 경우가 있다. 예를 들면, 도 3에 도시한 바와 같이, 단어 Japanese에 대해서는 명사로서 일본인(의미속성 : 사람)과 일본어(의미속성 : 언어)라고 하는 역어가 등록되어 있다. 단계 (S303)에서 역어가 복수개 존재하지 않는 것으로 판단한 경우 후술의 단계 (S309)의 처리를 행한다.
한편, 단계 (S303)에서, 역어가 복수개 존재하는 것으로 판단한 경우, 그와 같이 판단된 단어는 단계 (S101)(단계 S207 또는 단계 S211)에서 생성된 수정어인지 아닌지를 판단한다(S305). 여기서는 전술한 단계 (S215)에서, 미등록어를 수정한 단어인 뜻을 도시하는 플래그가 있는지 여부에 따라 수정어가 있는지 없는지를 판단한다. 단계 (S305)에서 그 단어가 수정어인것으로 판단한 경우, 그 수정어에 대해서 강조속성이 부여된 역어가 존재하는지 아닌지를 판단한다(S307). 예를 들면, 도 4(a)에 도시하는 「coool」은 단계 (S101)에서 수정되어 「cool」로 되었다. 이 「cool」에 대해서는 도 3에 도시한 바와 같이 강조속성이 예스로 등록된 역어 「시원한」이 존재한다. 이와 같이 강조속성이 부가된 역어가 존재하는 것으로 판단한 경우, 그 어구를 역문에 사용하는 역어로 결정한다(S309)).」
한편, 단계 (S305)에서 그 단어가 수정어는 아니라고 판단한 경우, 또는 단계 (S305)에서 수정어에 대응하는 역어는 존재하지 않는다고 판단한 경우, 그 단어에 대해서 구문트리 데이터중에서 요구된 의미속성등의 다른 속성에 대해서의 부합을 수행한다(S308). 그리고, 부합에 의해 속성이 가장 잘 부합하는 역어를 추출하여 역문에 사용하는 역어를 결정한다(S308). 또한, 구문트리 데이터중에서 속성이 결정되지 않는 경우에는 제1 역어(가장 바람직하게 사용되는 역어)를 선택할 수 있다.
계속하여, 번역처리부(20)는 역어가 결정된 단어는 수정어가 있는지 없는지를 다시 판단한다(S311). 수정어는 없는 것으로 판단되면, 번역처리부(20)는 역어를 출력부(30)로 그대로 출력하고(S312), 본 처리를 완료한다.
한편, 역어가 결정된 단어가 수정어인 것으로 판단한 경우, 번역처리부(20)는 역어를 강조처리하여 출력부(30)에서부터 출력하고(S313), 본 처리를 종료한다.강조처리에서는 그 단어가 원문텍스트에서는 강조어였던 것을 명확하게 하기 때문에, 「*」등의 기호가 그 역어의 전후에 부여된다.
이와 같이 하여 도 7에 도시하는 처리에 의해 단어마다 역어를 확정하고, 연결 결합시킴으로써 최종적인 역문을 출력부(30)는 출력한다. 출력된 역문은 컴퓨터 장치(1)의 번역처리블럭(7) 및 표시제어블럭(5)의 처리에 의해 디스플레이(3)에 표시된다. 예를 들면, 도 4(a)에 표시된 원문 텍스트는 도 4(b)에 도시한 것처럼 번역문으로 되어 디스플레이(3)에 표시된다. 도 4(a)(b)에 도시하는 예에서는 강조어인「coool」이 강조속성이 부여된 역어「시원한」을 사용하여 번역되고, 더욱이 단어의 전후에 부호「*」를 부가하여 「*시원한*」로 표시되어 있다.
이와 같은 본 실시의 형태에 관한 컴퓨터 장치(1)에서는 구어의 번역에서 동일한 문자가 연속하는 부분을 포함하는 강조어를 연속한 문자를 줄이는 것으로 사전데이터 격납부(50)에 등록되어 있는 어구와 일치시킨다. 따라서, 컴퓨터장치(1)에서는 강조어의 품사를 정확하게 식별할 수 있으며, 오역의 발생을 억제할 수 있으며, 또 종래의 기술에서 번역 불가능한 문장도 번역하는 것이 가능하다.
더욱이, 강조어를 번역한 경우에는 강조어에 대응한 역어를 사용하고, 또한 역어의 전후에 기호 등을 부여하는 것으로 원문텍스트에서 강조어였던 것을 분명하게 할 수 있다. 그 결과, 유저는 번역전의 문장의 의도를 보다 정확하게 이해하는 것이 가능하게 된다.
또한 그와 같은 강조어를 포함하는 문장에 대해서 강조어로서 특유의 역어를 선택하는 것으로 문장의 분위기가 보다 적절하게 변화하는 것이 기대된다.
또한, 강조어의 번역에서 출력되는 역어의 강조처리는 도 4(b)에 도시한 것과 같이 부호를 부가하는 처리에 한정되지 않는다. 도 8 (a)(b)(c)에 강조어의 번역에 의한 다른 표기예를 도시한다.
도 8(a)에서는 (a)에 도시하는 원문 텍스트는「Oops」의「o」가 연속문자로되어 강조된 「Oooooooops」가 포함되어 있다. 그것에 대해 (b)에 도시하는 번역문에서는 강조어의 역어가 「아뿔사」로 되어 있으며, 더욱이 역어의 전후에서 눈에 띄도록 복수의 부호 「***」가 부여되어 있다. 이와 같이, 강조데이터로서 부여되는 부호는 특히 한정되지 않으며, 다른 형상의 부호에서도 좋다. 또한 부여되는 위치도 특별히 한정되지 않으며 「아*뿔*사*아~」와 같이 단어의 사이에 부가되어도 좋다.
또한 예를 들면, 디스플레이(3)에 출력할 때에 간단한 텍스트에서는 없으며, HTML형식 등의 폰트데이터나 색의 설정이 가능한 경우에는 서체, 스타일, 크기 등의 폰트데이터나 색을 변경하는 것으로 강조되어 있는 것을 분명하게 할 수 있다.
예를 들면, 도 8(b)에서는 (a)에 도시하는 원문 텍스트는 「so」의 「o」가 연속문자로 되어 강조된 「soooooo」가 포함되어 있다. 그것에 대해서 (b)에 도시하는 번역문에서는 강조속상이 예의 역어가 존재하지 않기 때문에, 강조어는 통상의 어구인(강조속성이 "예스"가 아닌 어구)「매우」로 번역되어 있지만, 이「매우」 의 부분이 강조되어 표시되어 있다.
또한, 도 8(c)에서는 (a)에 도시하는 원문 텍스트는 「please」의 「e」와「a」가 연속문자로 되어 강조된 「pleeeaaase」가 포함되어 있다. 그것에 대해 (b)에 도시하는 번역문에서는 강조어의 역어가 「제발~」 로 되어 있으며, 더욱이 그 역어가 눈에 띄도록 다른 문자보다 폰트를 크게 하여 표시되어 있다.
그 외, 강조어에 대해서 폰트 스타일, 사이즈, 색 등의 서식을 변화하거나 하는 것도 가능하며, 강조어인 것을 표시하는 방법이 특히 한정되어 있다. 또한 강조속성을 갖는 역어를 사용하는 경우나, 텍스트표시만 행하는 것이 바람직한 경우 등에서는 강조처리는 행하지 않아도 좋다.
그 외, 본 실시 형태의 번역처리는 영어의 원문텍스트를 일본어로 번역하고 있지만, 본 발명은 이것에 한정되지 않는다. 예를 들면, 영어를 독일어로 번역하는 경우나, 그 외의 언어를 다른 그 외의 언어로 번역하는 경우에도 본 발명을 적용할 수 있다.
또한, 본 실시의 형태의 번역처리는 노트북형 PC나 데스크탑형 PC등, PDA나 휴대전화기 등의 휴대형 컴퓨터 장치에서 실행하는 것이 가능하다. 또한 인터넷의 웹페이지나 채트 윈도우상에서 실행시키도록 하는 것도 가능하다.
게다가, 본 실시형태의 번역처리는 사전 데이터격납부(50)를 컴퓨터장치(1)내에 마련하고 있지만, 번역시에 컴퓨터장치(1)가 참조하는 사전 데이터는 컴퓨터장치(1)의 외부에 있어도 좋다. 예를 들면, 사전 데이터는 네트워크를 통해 컴퓨터장치(1)가 얻어지는 것이어도 좋다.
또, 상기 실시의 형태에서 도시된 것처럼 처리를 실행하는 프로그램은 이하와 같은 기억매체의 형태로 할 수 있다.
즉, 기억매체로는 컴퓨터장치에 상기와 같은 처리를 실행시킨 프로그램을 CD-ROM, DVD, 메모리, 하드 디스크 등의 기억매체에 컴퓨터장치가 독해가능하게 기억되면 좋다.
이 이외에도 본 발명의 주의미를 벗어남이 없이 한정하고, 상기 실시형태에서 부가한 구성을 취합 선택하거나 다른 구성에 적절하게 변경하는 것이 가능하다.
이상 설명한대로, 본 발명에 의하면, 동일 문자를 연속시키는 것으로 강조된 강조러를 번역하는 것이 가능하다.

Claims (16)

  1. 컴퓨터 장치에 입력된 소정 언어의 원문텍스트를 다른 언어로 번역하는 번역 방법에 있어서,
    상기 컴퓨터 장치가 참조 가능한 데이터베이스에 등록되어 있지 않은 미등록 어를, 상기 원문텍스트에서 추출하는 추출단계와,
    추출된 상기 미등록 언어에 두개 이상의 연속하는 동일한 문자가 포함되어 있을 때에, 상기 연속하는 문자의 문자수를 감소시켜서 상기 미등록 언어로부터 수정어를 생성하는 수정어 생성 단계와,
    상기 원문텍스트 중의 상기 미등록어를 상기 수정어로 변환하여, 상기 데이터 베이스를 참조하여 상기 원문 텍스트를 번역하는 번역 단계
    를 포함하는 번역 방법.
  2. 제1항에 있어서,
    상기 수정어 생성단계에서는 세개 이상의 연속하는 상기 문자를 두개 문자로 줄이거나 두개 이상 연속하는 상기 문자를 한개 문자로 줄이는 번역 방법.
  3. 제1항에 있어서,
    상기 번역문 중의 상기 미등록어에 대응하는 번역어가 상기 수정어에 기초하여 번역되는 것을 분명하게 한 상태에서, 상기 번역문을 출력하는 출력단계를 구비하는 번역 방법.
  4. 제1항에 있어서,
    상기 번역 단계에서는 상기 수정어에 대응하는 수정어용 번역어를 상기 데이터 베이스에서 추출하는 번역 방법.
  5. 컴퓨터 장치에 의해 번역된 번역문을 상기 컴퓨터 장치가 출력하는 출력방법에 있어서,
    상기 컴퓨터 장치에 입력된 원문 텍스트에서 본래의 문자철자와 다른 문자철자가 이용되는 조어를 특정하는 특정 단계와,
    상기 조어를 포함하는 상기 원문 텍스트를 번역하여, 상기 번역문을 출력하는 출력 단계
    를 포함하며, 상기 출력 단계에서는
    상기 특정 단계에 의해 특정된 상기 조어에 대응하는 번역어에 강조 표현을 적용하여 상기 번역문을 출력하는 출력 방법.
  6. 제 5항에 있어서,
    상기 출력단계에서는 상기 강조 표현으로 상기 번역어에 소정의 표기를 부가하거나 또는 상기 번역어의 서식을 변화시키는 출력 방법.
  7. 컴퓨터 장치에 실행시키는 프로그램을 상기 컴퓨터 장치가 독출가능하게 기억한 기억매체에 있어서,
    상기 프로그램은
    상기 컴퓨터장치에 입력된 원문텍스트를 구성하는 단어의 품사와 속성을 상기 컴퓨터 장치가 참조가능한 데이터 베이스로부터 추출하는 형태소 해석처리와,
    상기 형태소 해석처리의 결과에 기초하여, 원문의 트리구조를 갖는 구문트리 데이터를 작성하는 구문해석처리와,
    상기 형태소해석처리의 결과에 기초하여 역문의 구문트리데이터를 작성하는 구문생성처리와,
    상기 원문텍스트의 상기 단어에 대응하는 번역어를 상기 데이터 베이스로부터 얻어서, 상기 역문의 구문트리 데이터에 기초한 상기 번역어를 연결하여 번역문을 생성하는 번역문생성처리
    를 상기 컴퓨터 장치로 실행시키고,
    상기 형태소해석처리에서는 상기 원문텍스트가 상기 데이터 베이스에 등록되지 않는 미등록어를 포함하고, 또 상기 미등록어가 두개 이상 연속하는 동일한 문자를 포함할 때는 상기 연속하는 문자를 한개 또는 두개 문자로 줄여진 수정어를 생성하여, 상기 미등록어 대신 상기 수정어의 상기 품사와 상기 속성을 상기 데이터 베이스로부터 추출하는 것을 상기 컴퓨터장치로 실행시키는 기억 매체.
  8. 제7항에 있어서,
    상기 번역문 생성처리에서는 상기 미등록어 대신 상기 수정어의 상기 속성이 강조속성을 포함할 때, 상기 강조 속성과 관련되는 강조역어를 상기 번역어로 하여 상기 데이터 베이스로부터 얻어서, 상기 강조역어를 포함하는 상기 번역문을 생성하는 것을 상기 컴퓨터장치로 실행시키는 기억 매체.
  9. 제7항에 있어서,
    상기 번역문 생성처리에서는 상기 수정어에 대응하는 상기 번역어에 대해 상기 수정어를 번역하는 것을 표시하기 위한 데이터를 부여하는 것을 상기 컴퓨터장치로 실행시키는 기억매체.
  10. 번역처리를 컴퓨터 장치로 실행시키는 프로그램에 있어서,
    컴퓨터장치에 입력된 원문텍스트에서, 상기 컴퓨터장치가 참조가능한 데이터 베이스에 등록되어 있지 않은 미등록어를 추출하는 처리와,
    추출된 상기 미등록어가 상기 미등록어의 중복하는 문자의 문자수를 변화시킴으로서 상기 데이터 베이스에 등록된 등록어에 합치할 때, 상기 미등록어를 대신하여 상기 등록어를 이용하여 상기 원문텍스트를 번역하는 처리와,
    상기 미등록어를 대신하여 상기 등록어를 이용한 부분을 다른 부분으로부터 식별할 수 있도록 하여 번역문을 표시시키는 처리를 상기 컴퓨터 장치로 실행시키는 프로그램.
  11. 제10항에 있어서,
    상기 번역문을 표시시킨 처리에서는 상기 미등록어에 대해 상기 등록어를 이용한 부분을 상기 다른 부분으로부터 식별할 수 있도록 하기 위해, 상기 부분에 대해 소정의 강조데이터의 추가, 포인트데이터의 변경 및 색의 변경의 적어도 하나를 상기 컴퓨터 장치로 실행시키는 프로그램
  12. 제11항에 있어서,
    상기 번역문을 표시시키는 처리에서는 상기 미등록어에 대해 상기 등록어를 이용한 부분에 대응하는 번역어로서 미리 등록된 강조역어를 이용하는 것을 상기 컴퓨터 장치에 실행시키는 프로그램.
  13. 복수어의 데이터를 격납한 데이터베이스와,
    원문텍스트의 데이터를 입력하는 입력부와,
    입력된 상기 원문 텍스트를 상기 데이터 베이스를 참조하여 번역처리하는 번역처리부와,
    상기 원문 텍스트의 번역문데이터를 출력하는 출력부
    를 포함하고, 상기 번역처리부는
    두개 이상 연속하는 동일한 문자를 갖는 강조어에 있어서 상기 연속하는 문자의 문자수를 줄인 수정어를 생성하고 상기 수정어에 대응하는 번역어를 상기 데이터 베이스에서 취득하는 컴퓨터 장치.
  14. 제13항에 있어서,
    상기 데이터 베이스에는 상기 번역어를 특정하기 위한 속성으로 강조속성데이터와, 상기 강조속성데이터에 관련된 강조역어가 상기 수정어에 관련하여 등록되어,
    상기 출력부는 상기 수정어에 관련하여 상기 강조속성데이터가 상기 데이터 베이스에 등록되어 있는 경우, 상기 강조속성데이터에 관련한 상기 강조역어를 상기 번역어로서 이용한 상기 번역문데이터를 출력하는 컴퓨터장치.
  15. 제13항에 있어서,
    상기 출력부는 상기 번역문 데이터중의 상기 번역어가 상기 수정어에 기초하여 번역된 어구인 것을 표시하는 데이터를 상기 번역문데이터와 함께 출력하는 컴퓨터 장치.
  16. 제15황에 있어서,
    상기 출력부에 의해 출력된 상기 번역문데이터에 기초하여 상기 번역어를 강조한 상태에서 번역문을 표시하는 표시부를 더 포함하는 컴퓨터 장치.
KR10-2004-7001553A 2002-01-29 2002-12-19 번역 방법, 번역문의 출력방법, 기억 매체, 프로그램 및컴퓨터 장치 KR20040070168A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2002020676 2002-01-29
JPJP-P-2002-00020676 2002-01-29
PCT/JP2002/013329 WO2003065245A1 (fr) 2002-01-29 2002-12-19 Procede de traduction, procede de production de phrase traduite, support d'enregistrement, programme et ordinateur

Publications (1)

Publication Number Publication Date
KR20040070168A true KR20040070168A (ko) 2004-08-06

Family

ID=27654365

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2004-7001553A KR20040070168A (ko) 2002-01-29 2002-12-19 번역 방법, 번역문의 출력방법, 기억 매체, 프로그램 및컴퓨터 장치

Country Status (8)

Country Link
US (2) US7529656B2 (ko)
EP (1) EP1482414B1 (ko)
JP (1) JPWO2003065245A1 (ko)
KR (1) KR20040070168A (ko)
CN (1) CN1618064B (ko)
AT (1) ATE484029T1 (ko)
DE (1) DE60237922D1 (ko)
WO (1) WO2003065245A1 (ko)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1482414B1 (en) * 2002-01-29 2010-10-06 International Business Machines Corporation Translating method for emphasised words
US20040004599A1 (en) * 2002-07-03 2004-01-08 Scott Shepard Systems and methods for facilitating playback of media
US20040006481A1 (en) * 2002-07-03 2004-01-08 Daniel Kiecza Fast transcription of speech
US7536293B2 (en) * 2003-02-24 2009-05-19 Microsoft Corporation Methods and systems for language translation
JP4027269B2 (ja) * 2003-06-02 2007-12-26 キヤノン株式会社 情報処理方法及び装置
EP1745392A2 (de) * 2004-03-16 2007-01-24 Star AG Computergestütztes hilfsmittel für ein verfahren zur erstellung von fremdsprachigen dokumenten
JP2006155433A (ja) * 2004-12-01 2006-06-15 Nec Corp 文字入力言語変換表示システム及びその方法並びにそれを用いた通信端末及びプログラム
US7849144B2 (en) * 2006-01-13 2010-12-07 Cisco Technology, Inc. Server-initiated language translation of an instant message based on identifying language attributes of sending and receiving users
US8145473B2 (en) 2006-10-10 2012-03-27 Abbyy Software Ltd. Deep model statistics method for machine translation
US20080140519A1 (en) * 2006-12-08 2008-06-12 Microsoft Corporation Advertising based on simplified input expansion
US8144990B2 (en) 2007-03-22 2012-03-27 Sony Ericsson Mobile Communications Ab Translation and display of text in picture
DE102007043803A1 (de) * 2007-09-13 2009-04-09 Vistec Semiconductor Systems Gmbh Einrichtung und Verfahren zur Bestimmung der räumlichen Lage bewegter Elemente einer Koordinaten-Messmaschine
CN101388011B (zh) * 2007-09-13 2011-07-20 北京搜狗科技发展有限公司 一种向用户词库中记录信息的方法和装置
US8972432B2 (en) * 2008-04-23 2015-03-03 Google Inc. Machine translation using information retrieval
US8296125B2 (en) * 2008-10-17 2012-10-23 International Business Machines Corporation Translating source locale input string to target locale output string
US20100332217A1 (en) * 2009-06-29 2010-12-30 Shalom Wintner Method for text improvement via linguistic abstractions
CN101739395A (zh) * 2009-12-31 2010-06-16 程光远 机器翻译方法和系统
US9047283B1 (en) * 2010-01-29 2015-06-02 Guangsheng Zhang Automated topic discovery in documents and content categorization
US8554558B2 (en) 2010-07-12 2013-10-08 Nuance Communications, Inc. Visualizing automatic speech recognition and machine translation output
KR101356417B1 (ko) * 2010-11-05 2014-01-28 고려대학교 산학협력단 병렬 말뭉치를 이용한 동사구 번역 패턴 구축 장치 및 그 방법
US20130326347A1 (en) * 2012-05-31 2013-12-05 Microsoft Corporation Application language libraries for managing computing environment languages
US9639676B2 (en) 2012-05-31 2017-05-02 Microsoft Technology Licensing, Llc Login interface selection for computing environment user login
US9674132B1 (en) * 2013-03-25 2017-06-06 Guangsheng Zhang System, methods, and user interface for effectively managing message communications
JP6417649B2 (ja) * 2013-08-22 2018-11-07 株式会社リコー 文章処理装置、文章表示システム、プログラム
JP6226321B2 (ja) * 2013-10-23 2017-11-08 株式会社サン・フレア 翻訳支援システム、翻訳支援システムのサーバー、翻訳支援システムのクライアント、翻訳支援システムの制御方法、及びそのプログラム
US10346546B2 (en) * 2015-12-23 2019-07-09 Oath Inc. Method and system for automatic formality transformation
US10740573B2 (en) 2015-12-23 2020-08-11 Oath Inc. Method and system for automatic formality classification
US20170185587A1 (en) * 2015-12-25 2017-06-29 Panasonic Intellectual Property Management Co., Ltd. Machine translation method and machine translation system
CN107291700A (zh) * 2017-07-17 2017-10-24 广州特道信息科技有限公司 实体词识别方法及装置
CN109522563B (zh) * 2018-10-15 2023-05-23 语联网(武汉)信息技术有限公司 自动判断语句翻译完毕的方法及装置
CA3045132C (en) * 2019-06-03 2023-07-25 Eidos Interactive Corp. Communication with augmented reality virtual agents
CN111368035A (zh) * 2020-03-03 2020-07-03 新疆大学 一种基于神经网络的汉维-维汉机构名词典的挖掘系统
JP7287412B2 (ja) * 2021-03-24 2023-06-06 カシオ計算機株式会社 情報処理装置、情報処理方法及びプログラム

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4730269A (en) * 1983-02-18 1988-03-08 Houghton Mifflin Company Method and apparatus for generating word skeletons utilizing alpha set replacement and omission
JP2815714B2 (ja) * 1991-01-11 1998-10-27 シャープ株式会社 翻訳装置
US5678051A (en) * 1992-12-24 1997-10-14 Matsushita Electric Industrial C., Ltd. Translating apparatus with special display mode for supplemented words
JP3408291B2 (ja) * 1993-09-20 2003-05-19 株式会社東芝 辞書作成支援装置
JP3161942B2 (ja) * 1995-06-14 2001-04-25 シャープ株式会社 訳振り機械翻訳装置
JPH09128396A (ja) * 1995-11-06 1997-05-16 Hitachi Ltd 対訳辞書作成方法
JPH10198680A (ja) * 1997-01-07 1998-07-31 Hitachi Ltd 分散辞書管理方法及びそれを用いた機械翻訳方法
US6973423B1 (en) * 1997-07-02 2005-12-06 Xerox Corporation Article and method of automatically determining text genre using surface features of untagged texts
US6424983B1 (en) * 1998-05-26 2002-07-23 Global Information Research And Technologies, Llc Spelling and grammar checking system
CN1266235A (zh) * 1999-03-04 2000-09-13 英业达股份有限公司 自动拾取英文原形单词的方法
JP3539479B2 (ja) * 1999-03-11 2004-07-07 シャープ株式会社 翻訳装置及び翻訳方法並びに翻訳プログラムを記録した記録媒体
US6708166B1 (en) * 1999-05-11 2004-03-16 Norbert Technologies, Llc Method and apparatus for storing data as objects, constructing customized data retrieval and data processing requests, and performing householding queries
US6618697B1 (en) * 1999-05-14 2003-09-09 Justsystem Corporation Method for rule-based correction of spelling and grammar errors
US6393389B1 (en) * 1999-09-23 2002-05-21 Xerox Corporation Using ranked translation choices to obtain sequences indicating meaning of multi-token expressions
US7225199B1 (en) * 2000-06-26 2007-05-29 Silver Creek Systems, Inc. Normalizing and classifying locale-specific information
JP3589972B2 (ja) 2000-10-12 2004-11-17 沖電気工業株式会社 音声合成装置
IT1315160B1 (it) * 2000-12-28 2003-02-03 Agostini Organizzazione Srl D Sistema e metodo di traduzione automatica o semiautomatica conposteditazione per la correzione degli errori.
US6983238B2 (en) * 2001-02-07 2006-01-03 American International Group, Inc. Methods and apparatus for globalizing software
EP1482414B1 (en) * 2002-01-29 2010-10-06 International Business Machines Corporation Translating method for emphasised words

Also Published As

Publication number Publication date
ATE484029T1 (de) 2010-10-15
US8005662B2 (en) 2011-08-23
EP1482414A4 (en) 2008-11-12
CN1618064A (zh) 2005-05-18
DE60237922D1 (de) 2010-11-18
US20060167675A1 (en) 2006-07-27
CN1618064B (zh) 2010-05-05
US7529656B2 (en) 2009-05-05
EP1482414A1 (en) 2004-12-01
EP1482414B1 (en) 2010-10-06
US20090254334A1 (en) 2009-10-08
WO2003065245A1 (fr) 2003-08-07
JPWO2003065245A1 (ja) 2005-05-26

Similar Documents

Publication Publication Date Title
KR20040070168A (ko) 번역 방법, 번역문의 출력방법, 기억 매체, 프로그램 및컴퓨터 장치
US6910004B2 (en) Method and computer system for part-of-speech tagging of incomplete sentences
JPH03224055A (ja) 同時通訳向き音声認識システムおよびその音声認識方法
WO2010046782A2 (en) Hybrid machine translation
Dickinson et al. Language and computers
US7136803B2 (en) Japanese virtual dictionary
JP5231698B2 (ja) 日本語の表意文字の読み方を予測する方法
Sharma et al. Word prediction system for text entry in Hindi
JP4298771B2 (ja) 機械翻訳装置及びプログラム
Demirsahin et al. Criteria for useful automatic Romanization in South Asian languages
KR100463376B1 (ko) 원시언어를 대상언어로 번역하기 위한 번역엔진 장치 및 그 번역방법
JP4643183B2 (ja) 翻訳装置および翻訳プログラム
JP7223450B2 (ja) 自動翻訳装置及び自動翻訳プログラム
JP2009258887A (ja) 機械翻訳装置及び機械翻訳プログラム
JPH11232003A (ja) ドキュメント表示装置,表示方法および記憶媒体
Balcha et al. Design and Development of Sentence Parser for Afan Oromo Language
Nojoumian Towards the development of an automatic diacritizer for the Persian orthography based on the Xerox finite state transducer
JP3253311B2 (ja) 言語処理装置および言語処理方法
JPH05290030A (ja) 文書処理装置
JPH09146958A (ja) 語彙対応辞書作成装置および語彙対応辞書作成方法
JPH09185629A (ja) 機械翻訳方法
JP2819766B2 (ja) 外国語電子辞書検索方式
JPH08241315A (ja) 文書処理装置の単語登録機構
JPH10307823A (ja) 翻訳方法、翻訳装置及び翻訳プログラムを格納した 記録媒体
Ziegenhain et al. LC-STAR II: starring more lexica

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application