KR101052004B1 - 번역서비스 제공방법 및 그 시스템 - Google Patents
번역서비스 제공방법 및 그 시스템 Download PDFInfo
- Publication number
- KR101052004B1 KR101052004B1 KR1020080133740A KR20080133740A KR101052004B1 KR 101052004 B1 KR101052004 B1 KR 101052004B1 KR 1020080133740 A KR1020080133740 A KR 1020080133740A KR 20080133740 A KR20080133740 A KR 20080133740A KR 101052004 B1 KR101052004 B1 KR 101052004B1
- Authority
- KR
- South Korea
- Prior art keywords
- keyword
- sentence
- translation
- combination
- service providing
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
번역서비스 제공방법 및 그 시스템이 개시된다. 상기 번역서비스 제공방법은 번역서비스 제공시스템이 문장을 수신하는 단계, 수신된 상기 문장을 파싱하여 적어도 하나의 단어로 구성된 키워드의 조합으로 분리하는 단계, 및 상기 키워드에 대응되는 번역어를 키워드 DB에서 검색하고, 검색된 결과 및 상기 키워드의 조합에 기초하여 상기 문장을 번역하는 단계를 포함한다.
Description
본 발명은 번역서비스 제공방법 및 그 시스템에 관한 것으로, 보다 상세하게는 자연어 번역에 의한 오번역 또는 부자연스러운 번역을 줄이고, 번역의 정확성을 높일 수 있는 번역서비스 제공방법 및 그 시스템에 관한 것이다.
종래의 여러 다양한 번역장치 또는 번역기법이 개시되어 있다. 이들 종래의 번역장치 또는 번역기법은 대부분 문장을 구성하는 구성요소를 단어별 또는 형태소별로 분리하여, 분리된 구성요소를 소정의 방법으로 효율적으로 번역하는데에 그 특징이 있었다. 하지만, 문장을 형태소 또는 단어별로 분리하여 소정의 방법으로 자연어 번역처리를 하는 경우에는 오번역 또는 매우 부자연스러운 번역이 될 여지가 높다. 특히, 이러한 오번역 또는 매우 부자연스러운 번역은 번역할 원문장이 특정 기술분야 또는 서비스분야의 전문적인 용어들을 많이 포함하는 경우에는 더욱 빈번히 발생할 수 있다.
예컨대, 경제용어, 법률용어 등을 종래의 방법으로 번역하는 경우에는 일반적으로 상기 경제용어 또는 법률용어의 번역어로 사용되는 언어와는 달리 매우 부 자연스러운 번역어가 생성되기 쉽다.
또한, 특정 분야의 전문적인 용어가 포함되지 않더라도, 원문장의 의미에는 별 차이가 없음에도 불구하고, 번역된 문장은 매우 의미가 큰 차이가 생기거나 부자연스러운 경우도 많다. 예컨대, 원문에서, '위 내용은', '앞서 말한 내용은', '상술한 내용은', 또는 '위 사항은' 등과 같이 실질적으로 동일한 의미를 가지는 다양한 문구들이 존재하는 경우, 종래의 방법에 의하면 상기 문구들마다 각각이 다른 번역문을 생성하게 된다. 또한, 생성된 번역문도 매우 부자연스러운 경우가 빈번하다.
이러한 종래의 방법들의 문제점은 특히 그 내용의 정확성이 매우 중요한 분야에서는 치명적인 문제점을 발생시킬 수 있다. 예컨대, 주식시장에서의 공시관련 문장, 법률적 권리의 발생, 변경, 소멸 등에 관한 문장 등을 번역하는 경우 오번역 또는 부자연스러운 번역이 발생하는 경우에는 매우 심각한 문제가 발생할 여지가 있어서, 오히려 번역을 하지 않고 원문을 사용하는 것이 더 나은 경우도 존재할 수 있다.
이처럼 번역의 정확성이 절실히 요구되고, 그에 따라 검증된 번역문만을 제시할 수 있는 새로운 번역시스템 또는 그 방법이 요구된다.
본 발명이 이루고자 하는 기술적인 과제는 번역의 정확성을 높여서 각 문장의 내용이 법률적, 사실적 권리관계 또는 기타 상황에 매우 중요한 영향을 미칠수 있는 상황에 적합한 번역서비스 제공시스템 및 그 방법을 제공하는 것이다.
또한, 특정 분야에서 널리 사용되는 언어들로 번역이 되어, 자연스럽고 고급스러운 번역문을 생성할 수 있는 번역서비스 제공시스템 및 그 방법을 제공하는 것이다.
또한, 검증되지 않거나 번역의 오류가 발생할 수 있는 문장은 아예 번역을 하지 않도록 하여, 오번역으로 인한 문제점을 최대한 줄일 수 있는 번역서비스 제공시스템 및 그 방법을 제공하는 것이다.
상기 기술적 과제를 달성하기 위한 번역서비스 제공방법은 번역서비스 제공시스템이 문장을 수신하는 단계, 수신된 상기 문장을 파싱하여 적어도 하나의 단어로 구성된 키워드의 조합으로 분리하는 단계, 및 상기 키워드에 대응되는 번역어를 키워드 DB에서 검색하고, 검색된 결과 및 상기 키워드의 조합에 기초하여 상기 문장을 번역하는 단계를 포함한다.
상기 적어도 하나의 키워드의 조합으로 분리하는 단계는 상기 적어도 하나의 단어가 상기 키워드 DB에 저장된 키워드 유형들에 포함되는 경우, 상기 적어도 하나의 단어를 상기 적어도 하나의 키워드로 결정하는 단계를 포함할 수 있다.
상기 키워드의 조합으로 분리하는 단계는 결정된 상기 적어도 하나의 키워드 각각의 키워드 타입을 결정하는 단계, 결정된 키워드 타입에 기초하여 상기 키워드의 조합에 상응하는 키워드 타입 조합을 결정단계, 및 미리 결정된 문장구조 유형들이 저장된 문장로직 DB를 참조하여 결정된 키워드 타입의 조합에 상응하는 문장 구조를 결정하는 단계를 더 포함할 수 있다.
상기 적어도 하나의 키워드 각각의 키워드 타입을 결정하는 단계는, 상기 적어도 하나의 키워드 각각의 키워드 타입이 복수개가 가능한 경우, 상기 문장로직 DB에 저장된 상기 문장구조 유형들을 참조하여 상기 적어도 하나의 키워드의 키워드 타입을 결정할 수 있다.
상기 번역서비스 제공방법은 상기 문장로직 DB를 참조하여도 상기 적어도 하나의 키워드 각각의 키워드 타입이 복수개가 가능한 경우, 소정의 선택메시지를 출력하거나 오류메시지를 출력하는 단계를 더 포함할 수 있다.
상기 번역서비스 제공방법은 상기 적어도 하나의 단어가 상기 키워드 DB에 저장된 키워드 유형들에 포함되지 않는 경우, 상기 적어도 하나의 단어를 상기 키워드 DB에 저장하는 단계를 더 포함할 수 있다.
상기 검색된 결과 및 상기 키워드의 조합에 기초하여 상기 문장을 번역하는 단계는, 결정된 문장구조 및 상기 번역어에 기초하여 번역문 프로토 타입을 결정하는 단계를 더 포함하며, 결정된 상기 번역문 프로토 타입에 기초하여 상기 문장을 번역할 수 있다. 상기 번역서비스 제공방법은 프로그램을 기록한 컴퓨터 판독 가능한 기록매체에 저장될 수 있다.
상기 기술적 과제를 달성하기 위한 번역서비스 제공시스템은 번역할 문장을 수신하는 제어 모듈 및 적어도 하나의 단어로 구성된 키워드 유형들 및 상기 키워드 유형들 각각에 대응되는 번역어가 저장된 키워드 DB를 포함하며, 상기 제어모듈은 상기 키워드 DB를 참조하여, 수신된 상기 문장을 키워드의 조합으로 분리하고, 분리된 키워드의 조합에 포함된 각각의 키워드에 대응되는 상기 번역어에 기초하여 상기 문장을 번역한다.
상기 제어모듈은 상기 적어도 하나의 단어가 상기 키워드 DB에 저장된 키워드 유형들에 포함되는 경우, 상기 적어도 하나의 단어를 상기 키워드 조합에 포함될 키워드로 결정할 수 있다.
상기 번역서비스 제공시스템은 미리 결정된 문장구조 유형들이 저장된 문장로직 DB를 더 포함하며, 상기 제어모듈은, 결정된 상기 키워드 각각의 키워드 타입을 결정하고, 결정된 키워드 타입에 기초하여 상기 키워드의 조합에 상응하는 키워드 타입 조합을 결정하며, 상기 문장로직 DB를 참조하여 결정된 키워드 타입의 조합에 상응하는 문장구조를 결정하며, 결정된 상기 문장구조를 참조하여 상기 문장을 번역할 수 있다.
상기 제어모듈은 결정된 문장구조 및 상기 번역어에 기초하여 번역문 프로토 타입을 결정하고, 결정된 상기 번역문 프로토 타입에 기초하여 상기 문장을 번역할 수 있다.
본 발명의 실시 예에 따른 번역서비스 제공방법 및 그 시스템은 키워드 DB를 통해 최상의 번역어 또는 특정 분야에서 널리 사용되는 번역어를 미리 준비함으로써 번역의 정확성을 높일 수 있고, 자연스러운 번역 문장을 생성할 수 있는 효과가 있다.
또한, 검증되지 않거나 번역의 오류가 발생할 수 있는 문장은 아예 번역을 하지 않도록 하여 오번역으로 인한 문제점을 최대한 줄일 수 있는 효과가 있다.
본 발명과 본 발명의 동작상의 이점 및 본 발명의 실시에 의하여 달성되는 목적을 충분히 이해하기 위해서는 본 발명의 바람직한 실시예를 예시하는 첨부 도면 및 첨부 도면에 기재된 내용을 참조하여야만 한다.
또한, 본 명세서에 있어서는 어느 하나의 구성요소가 다른 구성요소로 데이터를 '전송'하는 경우에는 상기 구성요소는 상기 다른 구성요소로 직접 상기 데이터를 전송할 수도 있고, 적어도 하나의 또 다른 구성요소를 통하여 상기 데이터를 상기 다른 구성요소로 전송할 수도 있는 것을 의미한다.
반대로 어느 하나의 구성요소가 다른 구성요소로 데이터를 '직접 전송'하는 경우에는 상기 구성요소에서 다른 구성요소를 통하지 않고 상기 다른 구성요소로 상기 데이터가 전송되는 것을 의미한다.
이하, 첨부한 도면을 참조하여 본 발명의 바람직한 실시예를 설명함으로써, 본 발명을 상세히 설명한다. 각 도면에 제시된 동일한 참조부호는 동일한 부재를 나타낸다.
도 1은 본 발명의 실시 예에 번역서비스 제공시스템의 개략적인 기능블록도를 나타낸다.
도 1을 참조하면, 본 발명의 실시 예에 따른 번역서비스 제공시스템(100)은 제어모듈(110) 및 키워드 DB(120)를 포함한다. 상기 번역서비스 제공시스템(100)은 문장로직 DB(130)를 더 포함할 수 있다.
상기 번역서비스 제공시스템(100)의 각각의 구성요소들은 기능 및 논리적으로 분리될 수 있음을 나타나기 위해 별도로 도면에 표시한 것이며, 물리적으로 반드시 별도의 구성요소이거나 별도의 코드로 구현되는 것을 의미하는 것은 아니다.
상기 번역서비스 제공시스템(100)에 포함된 소정의 모듈이라 함은, 본 발명의 기술적 사상을 수행하기 위한 하드웨어 및 상기 하드웨어를 구동하기 위한 소프트웨어의 기능적, 구조적 결합을 의미할 수 있다. 예컨대, 상기 모듈은 소정의 코드와 상기 소정의 코드가 수행되기 위한 하드웨어 리소스의 논리적인 단위를 의미할 수 있으며, 반드시 물리적으로 연결된 코드를 의미하거나, 한 종류의 하드웨어를 의미하는 것은 아님은 본 발명의 기술분야의 평균적 전문가에게는 용이하게 추론될 수 있다.
또한, 상기 번역서비스 제공시스템(100)에 포함될 수 있는 소정의 DB(120, 130)는, 적어도 하나의 테이블로 구현될 수도 있으며, DB에 저장된 정보를 검색, 저장, 및 관리하기 위한 별도의 DBMS(Database Management System)을 더 포함할 수도 있다. 또한, 링크드 리스트(linked-list), 트리(Tree), 관계형 DB의 형태등 DB의 데이터 구조 또는 구동 방식에 제한을 받지 아니하며, 본 발명의 기술적 사상을 구현하기 위한 실시 예를 위해 필요한 정보를 저장할 수 있는 모든 데이터 저장매체 및 데이터 구조를 포함한다.
이하 본 명세서에서는 상기 번역서비스 제공시스템(100)은 주식의 공시내용을 번역하는 경우를 일 예로 설명하지만, 본 발명의 권리범위가 이에 한정되지는 않으며, 번역을 자동으로 수행할 필요가 있는 다양한 분야, 특히 특정 전문분야에 서 사용될 수 있음은 본 발명의 기술분야의 평균적 전문가에게는 용이하게 추론될 수 있을 것이다.
상기 번역서비스 제공시스템(100)은 소정의 회사들 또는 전자공시시스템(미도시)로부터 입력되는 공시정보를 입력받고, 상기 공시정보를 소정의 언어로 번역한 후, 번역된 문장을 상기 전자공시시스템(미도시)으로 출력하거나 소정의 다른 시스템(예컨대, 투자자의 시스템 또는 증권사 시스템 등)으로 출력할 수 있다. 본 명세서에서는 설명의 편의를 위해 한글 문장을 영어 문장으로 번역하는 경우를 일 예로 설명하나, 본 발명의 기술적 사상은 어떠한 언어로 번역하는 경우에도 공통적으로 적용될 수 있음을 당업자는 용이하게 추론할 수 있을 것이다.
상기 제어모듈(110)은 외부로부터 번역할 문장을 수신한다. 또한, 상기 제어모듈(110)은 본 발명의 기술적 사상을 구현하기 위해 상기 번역서비스 제공시스템(100)의 다른 구성요소(예컨대, 키워드 DB(120) 및/또는 문장로직 DB(130) 등)를 제어할 수 있다.
상기 키워드 DB(120)는 적어도 하나의 단어로 구성된 키워드 유형들 및 상기 키워드 유형들 각각에 대응되는 번역어가 저장될 수 있다. 즉, 상기 키워드 DB(120)는 단어별 또는 형태소별로 대응되는 번역어를 저장하는 것이 아닌, 의미분류 또는 자주 사용되는 키워드별로 대응되는 번역어를 저장할 수 있다. 예컨대, 연속된 단어 'a', 'b', 'c'가 존재하고 'abc'가 특정 의미를 갖는 키워드이거나 자주 사용되는 어구인 경우, 상기 키워드 DB(120)에는 'abc'라는 키워드 및 상기 'abc'라는 키워드의 번역어(예컨대, 'ABC')가 저장될 수 있다. 따라서, 본 발명의 실시 예에 따른 번역서비스 제공시스템(100)에서는 문장이 번역되는 경우, 'a', 'b', 'c'가 각각 번역되어 조합되는 것이 아니라, 항상 상기 키워드 DB(120)에 저장된 'abc'의 번역어로 한꺼번에 번역하는 것을 특징으로 한다. 한편, 상기 키워드 DB(120)에는 같은 번역어(예컨대, 'ABC')로 처리될 수 있는 유사한 키워드들(예컨대, 'a1 b c', 'a b1 c', 'a b c1' 등)에 대한 정보도 저장할 수 있다. 따라서, 상기 번역서비스 제공시스템(100)에 의해 번역되는 번역문은 원문장이 유사한 키워드들을 포함하고 있어서 서로 다르지만 실질적으로 동일한 의미를 가지는 경우, 원문장이 제각각 번역되어 부자연스럽거나 정형화된(formal)한 문장들이 사용되어야 하는 경우에 매우 유용할 수 있다.
이처럼 본 발명의 기술적 사상에 의하면, 키워드 DB(120)에 저장된 키워드별로 번역이 되므로, 단어별로 각각 번역되면 번역어의 조합이 매우 부자연스럽거나 다른 의미를 갖는 경우에 유용할 수 있다. 또한, 단어들이 조합되어 별개의 의미를 갖게 되거나 고유명사 또는 명칭이 되는 경우, 상기 키워드 DB(120)에 단어들(즉, 키워드) 전체가 갖는 의미의 번역어를 저장하고 있으므로 번역이 정확해질 수 있다. 또한, 단어들의 조합이 어떤 객체의 고유명사 또는 명칭이 되는 경우, 각각의 단어들을 번역하면 상기 고유명사 또는 명칭에 대응되는 번역어를 생성할 수 없는 경우에도 상기 키워드 DB(120)에 저장된 정보를 이용하여 정확한 번역이 가능토록 한다.
이를 위해, 상기 제어모듈(110)은 번역할 문장이 수신되면, 상기 키워드 DB(120)를 참조하여 상기 문장에 포함된 키워드를 파악한다. 상기 문장에 포함된 키워드들이 파악되면 상기 문장은 파악된 키워드들의 조합으로 분리될 수 있다. 그러면, 상기 제어모듈(110)은 상기 키워드 DB(120)를 참조하여 상기 분리된 키워드들의 조합에 포함된 각각의 키워드들에 대응되는 번역어들을 검색할 수 있으며, 검색된 번역어를 이용하여 상기 문장을 번역할 수 있다.
한편, 상기 번역서비스 제공시스템(100)은 문장로직 DB(130)를 더 포함할 수 있다. 상기 문장로직 DB(130)를 이용해 상기 번역서비스 제공시스템(100)은 번역의 정확성을 더욱 높일 수 있다.
이하에서는 본 발명의 실시 예에 따른 번역방법에 대해 예시와 함께 더욱더 구체적으로 설명하도록 한다.
도 2는 본 발명의 실시 예에 따른 번역서비스 제공방법을 설명하기 위한 도면이다.
도 1 및 도 2를 참조하면, 번역서비스 제공시스템(100)은 도 2에 도시된바와 같은 문장(예컨대, 'abcdef…xyz')을 외부로부터 수신할 수 있다. 여기서 상기 문장의 각각의 알파벳(예컨대, 'a', 'b', 'c' 등)은 하나의 음절이 아닌 하나의 단어를 나타낸다고 가정한다.
그러면, 상기 제어모듈(110)은 상기 키워드 DB(120)를 참조하여, 키워드 DB(120)에 미리 저장된 키워드 유형들에 포함되는 키워드가 존재하는지를 파악한다. 도 2에서는 'abcde'가 하나의 키워드를 구성하며 'xyz'가 다른 키워드를 구성하여, 총 다섯개의 키워드가 상기 문장에 포함된 경우임을 알 수 있다.
그러면, 본 발명의 실시 예에 따른 번역서비스 제공방법에 의하면, 상기 다 섯개의 키워드는 각각의 키워드에 포함된 단어별로 번역되는 것이 아니라, 키워드 DB(120)에 저장된 번역어로 번역된다. 즉, 각각의 키워드는 마치 하나의 단어처럼 취급되어 번역이 될 수 있다. 따라서, 상기 번역서비스 제공시스템(100)은 상기 문장을 다섯개의 키워드와 상기 다섯개의 키워드에 포함되지 않은 나머지 단어들로 구성된 문장으로 인식하고, 인식된 문장을 번역할 수 있다. 이때는 종래의 다양한 자연어 번역방법이 사용될 수 있다.
한편, 상기 번역서비스 제공시스템(100)은 문장로직 DB(130)를 이용하여 좀더 정확한 번역이 가능토록 하는 기술적 사상을 제공할 수 있다.
도 2에서 키워드로 확인된 적어도 하나의 단어들(예컨대, 'abcde' 및 'xyz' 등)은 각각의 키워드 타입을 가질 수 있다. 키워드 타입이라함은, 본 발명의 실시 예에 따라 번역서비스 제공시스템(100)이 번역을 수행하면서 키워드 자체의 의미는 다를 지라도 유사하게 취급하여 번역할 수 있는 키워드들을 구분하기 위한 소정의 식별값을 의미할 수 있다. 상기 키워드별 키워드에 대한 타입은 상기 키워드 DB(120)에 미리 저장될 수 있다. 상기 키워드 타입은 키워드의 의미와 상기 키워드가 문장에서 차지하는 문장성분에 의해 결정될 수 있지만, 이에 한정되지 않으며 구현 예에 따라 다양하게 정의될 수 있다. 예컨대, '나는 사과를 먹는다'와 '나는 배를 먹는다'에서 '사과'와 '배'가 각각 키워드인 경우라면, 동일한 키워드 타입을 가질 수 있다. 왜냐하면, 번역을 하는 경우, 비록 '사과'와 '배'는 다른 의미이지만, 동일하게 취급되어 번역될 수 있기 때문이다. 즉, 동일한 번역문의 골격에 '사과'와 '배' 각각의 번역어를 대입하면 번역이 될 수 있기 때문이다. 또한, 상기 번 역서비스 제공시스템(100)이 한정된 문장유형만 번역이 가능하도록 설정된 경우, 상기 한정된 문장유형이외의 문장을 번역하여 오번역이 발생하지 않도록 하기 위해 상기 키워드 타입을 이용할 수도 있다. 즉, 상기 번역서비스 제공시스템(100)은 이미 알고 있는 문장구조들에 대한 정보를 미리 입력한 후, 상기 문장구조들에 부합하는 문장만을 번역하도록 할 수 있다. 이러한 방법은 일정한 패턴을 가지는 문장구조들이 많이 사용되는 분야에 적용될 수 있으며, 매우 정확한 번역이 가능하도록 하는 효과가 있다.
이러한, 문장구조에 대한 정보는 문장로직 DB(130)에 미리 저장될 수 있다.
도 2를 참조하면, 문장에 포함되는 특정 키워드(예컨대, 'abcde')는 가능한 키워드 타입(예컨대,'A'타입 과 'E'타입 등)이 복수개일 수 있다. 이경우, 상기 번역서비스 제공시스템(100)은 문장로직 DB(130)를 참조하여 각각의 키워드의 키워드 타입을 결정할 수 있다. 예컨대, 상기 문장로직 DB(130)는 번역이 가능한 문장구조 및/또는 문법상 올바른 문장의 문장구조만을 저장할 수 있다. 따라서, 상기 문장로직 DB(130)에 저장된 문장구조 유형들을 참조하여 상기 제어모듈(110)은, 키워드 각각의 가능한 키워드 타입이 복수개인 경우에도, 각각의 키워드의 키워드 타입을 결정할 수 있다. 예컨대, 도 2에서는 키워드 타입의 조합이 (ABCDE), (ABCDA), (EBCDA), 및 (EBCDE)가 가능하다. 하지만, 상기 문장로직 DB(130)에 저장된 문장구조 유형들 중 상기 4개의 키워드 타입의 조합은 (ABCDE) 만 존재하는 경우, 상기 제어모듈(110)은 상기 키워드('abcde')의 키워드 타입은 'A'로 결정하고, 상기 키워드('xyz')의 키워드 타입은 'E'로 결정할 수 있다.
상술한 예에서, 만약 상기 문장로직 DB(130)에 저장된 문장구조 유형에 (ABCDE)와 (EBCDE)가 존재한다면, 상기 키워드('abcde')의 키워드 타입은 상기 문장로직 DB(130)를 참조하여도 결정되지 못할 수도 있다. 이때에는 상기 번역서비스 제공시스템(100)은 사용자로 하여금 상기 키워드('abcde')의 키워드 타입을 결정하도록 하기 위해 소정의 선택메시지를 출력할 수 있다. 이때에는 사용자가 키워드 타입을 결정하는데 도움이 될 수 있는 소정의 예시 정보(예컨대, 예시문장들)을 더 출력할 수도 있다 한편, 상기 키워드('abcde')의 키워드 타입을 결정하지 못하는 경우, 상기 번역서비스 제공시스템(100)은 소정의 오류 메시지를 출력하고 상기 문장을 번역하지 않을 수도 있다. 즉, 상기 문장이 오류가 있다고 판단하거나, 상기 번역서비스 제공시스템(100)이 번역하지 못하는 문장이라고 판단하여 번역을 하지 않는 것이다. 따라서 상기 번역서비스 제공시스템(100)은 상기 문장로직 DB(130)에 미리 저장된 문장구조에 부합하는 문장들만을 번역하게 된다. 그러므로 상기 번역서비스 제공시스템(100)은 잘못입력된 문장을 번역하거나, 미리 설정된 정보에 부합하지 않는 문장을 아예 번역하지으로써, 부정확한 번역으로 인해 발생할 수 있는 부작용을 원천적으로 차단한다. 왜냐하면, 아예 번역을 하지 않는 것이 잘못된 번역을 하는 것보다 나은 경우가 존재하기 때문이다. 예컨대, 주식의 공시정보 또는 법률관계를 확정짓는 문장들은 잘못된 번역이 더 큰 문제점을 야기시킬 수 있으므로, 정확한 번역을 위해 미리 번역할 수 있도록 한정된 정확한 문장이외에는 번역을 하지 않는 것이다.
다시 도 2를 참조하면, 상기 제어모듈(110)은 문장로직 DB(130)를 참조하여, 상기 문장의 문장구조를 (ABCDE)로 결정할 수 있다.
그러면, 상기 제어모듈(110)은 결정된 문장구조에 대응되는 번역문 프로토타입(prototype)을 결정할 수 있다. 상기 번역문 프로토타입에는 각각의 키워드에 대응되는 번역어(TA, TB, TC, TD, 및 TE)가 이미 포함되어 있을 수 있다. 즉, 상기 제어모듈(110)은 상기 키워드 각각에 대응되는 번역어들과 결정된 문장구조에 대응되는 번역문의 골격을 반영하여 개략적인 번역문을 생성할 수 있다. 그 후, 상기 제어모듈(110)은 상기 문장에서 상기 키어드 이외의 단어들에 대응되는 번역어를 상기 번역문 프로토타입에 삽입함으로써 번역을 완성할 수 있다.
도 3 내지 도 5는 본 발명의 실시 예에 따른 번역서비스 제공방법에 의해 문장이 번역되는 과정을 설명하기 위한 도면들이다.
먼저 도 1 및 도 3을 참조하면, 상기 제어모듈(110)은 도 3에 도시된 문장을 입력받고, 입력받은 문장을 형태소별로 분리할 수 있다. 종래의 방법은 이처럼 형태소별로 분리된 각각의 문장성분을 개별적으로 번역하지만, 상기 제어모듈(110)은 분리된 문장성분들 중 상기 문장의 키워드를 파악할 수 있다. 이를 위해 상기 제어모듈(110)은 키워드 DB(120)를 참조할 수 있으며, 상기 키워드 DB(120)에는 도 3에 도시된 바와 같이 키워드 K1, K2, K3, K4, 및 K5를 포함할 수 있다. 따라서, 상기 제어모듈(110)은 키워드의 조합으로 K1, K2, K3, K4, K5를 결정한다.
도 3에 도시된 바와 같이 상기 키워드 DB(120)에는 키워드 타입별로 소정의 키워드들이 저장되어 있을 수 있다. 예컨대, 키워드(K1)는 키워드 타입이 A일 수 있으며, A 타입 키워드로는 상기 문장에 포함된 '본건은' 이외에 '상기 내용은', '위 공시 내용은', 또는 '본 공시는' 등의 유사 키워드들이 존재할 수 있다. 따라서, 상기 키워드(K1)대신에 상기 유사 키워드들이 상기 문장에 포함되는 경우라도, 상기 번역서비스 제공시스템(100)은 동일한 결과의 번역문을 생성할 수 있다.
또한, 키워드(K2)는 키워드 타입이 B일 수 있으며, B 타입의 키워드에는 키워드(K2) 이외에도 '주주총회 특별결의사항' 등의 유사 키워드들이 존재할 수 있다. 키워드(K2)처럼 다수의 단어들(즉, '주주', '총회', '특별', '결의', '사항')이 각각 번역되는 경우에는 잘못된 번역 또는 부자연스러운 번역이 될 수 있으므로, 상기 번역서비스 제공시스템(100)에서는 상기 키워드 자체를 미리 결정된 번역어로 번역한다. 또한, 상기 B 타입의 키워드에는 '주주총회의 일반결의사항'이라는 키워드와 같이 키워드(K2)와 의미는 다르지만 번역상에서 유사하게 취급되는 키워드가 존재할 수 있다. 즉, 키워드(K2)와 의미는 다르지만, 번역을 할 때는 상기 키워드(K2)에 대응되는 번역어 대신 '주주총회의 일반결의사항'에 대응되는 번역어를 사용하면 번역이 가능하다. 이러한 키워드를 상기 키워드(K2)의 유사 유형 키워드라고 하면, 이러한 유사유형 키워드는 상기 키워드(K2)와 동일한 타입의 키워드로 분류할 수 있다.
또한, 키워드(K3)는 날짜를 나타내는 키워드로써, 날짜, 시간, 전화번호 등과 같이 문장에 표현된 대로 번역되어야 하는 타입의 키워드는 별도로 변수형 키워드로 정의할 수 있다. 이러한 변수형 타입의 키워드들은 소정의 레귤러 익스프레션(regular expression)으로 추출해낼 수 있으며, 상기 제어모듈(110)은 추출된 변 수형 타입의 키워드들을 상기 키워드 DB(120)에 저장된 번역어를 사용하지 않고, 종래의 자연어 번역으로 번역을 수행할 수 있다. 왜냐하면, 이러한 변수형 타입의 키워드는 그 자체로 의미가 있는 것으로, 모든 날짜들 각각에 해당하는 번역어를 미리 저장해둘 필요가 없기 때문이다.
또한, 키워드(K4)는 키워드 타입 D일 수 있으며, 상기 키워드 타입 D를 갖는 키워드들로는 상기 키워드(K4)와 유사한 의미를 갖는 유사 키워드들(예컨대, '임시주총 결의')과 상기 키워드(K4)의 유사유형 키워드(예컨대, '정기 주주총회의 결의')가 존재할 수 있다.
또한, 키워드(K5)는 키워드 타입 E일 수 있으며, 상기 키워드(K5)의 유사 키워드들 및/또는 유사유형 키워드들이 도 3에 도시된 바와 같이 상기 키워드 DB(120)에 저장되어 있을 수 있다.
그러면, 상기 제어모듈(110)은 상기 문장의 문장구조를 'ABCDE'로 결정하고, 결정된 문장구조에 해당하는 번역문 프로타입을 생성할 수 있다. 상기 번역문 프로타입에는 상기 키워드들(A,B,C,D,E) 각각의 번역어가 포함될 수 있다. 그 후, 상기 제어모듈(110)은 상기 키워드들(A,B,C,D,E)에 포함되어 있지 않는 단어(예컨대, '개최될' 또는 '~습니다')에 해당하는 단어를 번역하여 상기 번역문 프로타입에 삽입함으로써 번역을 수행할 수 있다.
상술한 바와 같이, 본 발명의 실시 예에 따른 번역서비스 제공방법에 의하면 키워드 DB를 어떻게 정의하느냐에 따라 동일한 문장을 번역하는 경우에도 다양한 번역의 실시 예가 가능하다. 예컨대, 도 3의 예에서 '개최될'이라는 단어도 유사 키워드들 또는 유사유형 키워드들의 존재여부와 관계없이 하나의 키워드로 취급할 수 있다. 그러면, 상기 '개최될'이라는 단어에 해당하는 키워드 타입별 DB가 상기 키워드 DB(120)에 포함될 수 있으며, 문장로직 DB(130)에 소정의 문장구조가 추가될 수도 있다. 또한, 키워드 DB(120)에 저장되는 키워드들을 어떻게 분류하느냐에 따라 번역의 정확성 또는 번역의 방법이 달라질 수도 있다. 예컨대, 도 3의 예에서 상기 문장의 키워드(K2)를 '주주총회'라는 키워드와 '특별결의 사항'이라는 키워드 2개로 취급할 수도 있다. 물론, 이때 '주주총회', '특별결의 사항'이라는 키워드의 유사 키워드 및/또는 유사유형 키워드는 도 3에 도시된 바와는 각각 달라질 수 있다.
도 4를 참조하면, 도 4에 예시된 문장 역시 도 3에서 설명한 바와 유사한 방법에 의해 번역이 수행될 수 있다. 상기 문장은 6개의 키워드들(K6, K7, K8, K9, K10, K11)로 분리될 수 있다. 이때 키워드(K7)과 같이 법령의 제목과 조항을 나타내는 문구들은 가급적 분리하지 않고 전체를 하나의 키워드로 묶을 수 있으며, 이를 통해 문장분석의 정확도와 해석의 정확도를 높일 수 있다. 그러면, 상기 키워드(K7)의 유사유형 키워드들은 도 4에 도시된 바와 같이 유사법령 및/또는 동일법령의 다른 조항들로 구성된 키워드일 수 있다.
또한, 키워드(K11)은 상기 키워드(K7)에 해당하는 법령에 규정되거나 개시된 문구들일 수 있다. 이때에는 상기 법령에 규정되거나 개시된 문구 자체를 키워드로 묶음으로써 번역의 정확도를 높이고 번역을 간편하게 할 수 있다.
도 5를 참조하면, 도 5에 예시된 문장은 5개의 키워드들(K12 ~ K16)을 포함 할 수 있다. 이때 상기 키워드(K12)와 같이 상품명이 사용되는 경우에는 상기 상품명에 해당하는 모든 키워드들을 키워드 DB(120)에 미리 저장할 수 없으므로, 상품명과 같은 키워드들은 변수형 타입의 키워드로 취급할 수 있다. 상술한 바와 같이 변수형 타입의 키워드 중 소정의 유형을 갖는 키워드(예컨대, 날짜, 시간, 전화번호 등)들은 상기 유형에 대응되는 방식으로 종래의 일반적인 번역방식으로 번역을 할 수 있다. 하지만, 키워드(K12)와 같이 소정의 유형을 갖지도 않으면서 상기 키워드 DB(120)에 존재하지 않는 키워드가 존재하는 경우, 상기 제어모듈(110)은 상기 키워드(K12)를 일반적인 자연어 번역으로 번역할 수도 있고, 발음나는대로 음역을 할 수도 있다. 또한, 번역서비스 제공시스템(100)은 키워드(K12)처럼 새로운 단어 또는 키워드가 문장에 포함되는 경우, 상기 단어 또는 키워드를 새로이 상기 키워드 DB(120)에 저장할 수 있다. 사용자는 새로이 저장된 키워드의 가장 적절한 번역어를 새롭게 상기 키워드 DB(120)에 저장할 수 있다. 그러면, 이후에 새롭게 저장된 키워드가 다른 문장에 포함되는 경우에는, 상기 번역서비스 제공시스템(100)은 새롭게 저장된 번역어로 저장될 수 있다.
본 발명의 실시 예에 따른 번역서비스 제공방법은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 하드 디스크, 플로피 디스크, 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어, 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있다.
본 발명은 도면에 도시된 일 실시 예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 등록청구범위의 기술적 사상에 의해 정해져야 할 것이다.
본 발명의 상세한 설명에서 인용되는 도면을 보다 충분히 이해하기 위하여 각 도면의 간단한 설명이 제공된다.
도 1은 본 발명의 실시 예에 번역서비스 제공시스템의 개략적인 기능블록도를 나타낸다.
도 2는 본 발명의 실시 예에 따른 번역서비스 제공방법을 설명하기 위한 도면이다.
도 3 내지 도 5는 본 발명의 실시 예에 따른 번역서비스 제공방법에 의해 문장이 번역되는 과정을 설명하기 위한 도면들이다.
Claims (12)
- 번역서비스 제공시스템이 문장을 수신하는 단계;수신된 상기 문장을 파싱하여 적어도 하나의 단어로 구성된 키워드의 조합으로 분리하는 단계; 및상기 키워드에 대응되는 번역어를 키워드 DB에서 검색하고, 검색된 결과 및 상기 키워드의 조합에 기초하여 상기 문장을 번역하는 단계를 포함하는 번역서비스 제공방법.
- 제 1항에 있어서, 상기 적어도 하나의 키워드의 조합으로 분리하는 단계는,상기 적어도 하나의 단어가 상기 키워드 DB에 저장된 키워드 유형들에 포함되는 경우, 상기 적어도 하나의 단어를 상기 적어도 하나의 키워드로 결정하는 단계를 포함하는 번역서비스 제공방법.
- 제 2항에 있어서, 상기 적어도 하나의 키워드의 조합으로 분리하는 단계는,결정된 상기 적어도 하나의 키워드 각각의 키워드 타입을 결정하는 단계;결정된 키워드 타입에 기초하여 상기 키워드의 조합에 상응하는 키워드 타입 조합을 결정하는 단계; 및미리 결정된 문장구조 유형들이 저장된 문장로직 DB를 참조하여 결정된 키워드 타입의 조합에 상응하는 문장구조를 결정하는 단계를 더 포함하는 번역서비스 제공방법.
- 제 3항에 있어서, 상기 적어도 하나의 키워드 각각의 키워드 타입을 결정하는 단계는,상기 적어도 하나의 키워드 각각의 키워드 타입이 복수개가 가능한 경우,상기 문장로직 DB에 저장된 상기 문장구조 유형들을 참조하여 상기 적어도 하나의 키워드의 키워드 타입을 결정하는 번역서비스 제공방법.
- 제 4항에 있어서, 상기 번역서비스 제공방법은,상기 문장로직 DB를 참조하여도 상기 적어도 하나의 키워드 각각의 키워드 타입이 복수개가 가능한 경우,소정의 선택메시지를 출력하거나 오류메시지를 출력하는 단계를 더 포함하는 번역서비스 제공방법.
- 제 2항에 있어서, 상기 번역서비스 제공방법은,상기 적어도 하나의 단어가 상기 키워드 DB에 저장된 키워드 유형들에 포함되지 않는 경우, 상기 적어도 하나의 단어를 상기 키워드 DB에 저장하는 단계를 더 포함하는 번역서비스 제공방법.
- 제 3항에 있어서, 상기 검색된 결과 및 상기 키워드의 조합에 기초하여 상기 문장을 번역하는 단계는,결정된 문장구조 및 상기 번역어에 기초하여 번역문 프로토 타입을 결정하는 단계를 더 포함하며,결정된 상기 번역문 프로토 타입에 기초하여 상기 문장을 번역하는 번역서비스 제공방법.
- 제1항 내지 제 7항 중 어느 한 항에 기재된 방법을 수행하기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록매체.
- 번역할 문장을 수신하는 제어 모듈; 및적어도 하나의 단어로 구성된 키워드 유형들 및 상기 키워드 유형들 각각에 대응되는 번역어가 저장된 키워드 DB를 포함하며,상기 제어모듈은 상기 키워드 DB를 참조하여, 수신된 상기 문장을 키워드의 조합으로 분리하고, 분리된 키워드의 조합에 포함된 각각의 키워드에 대응되는 상기 번역어에 기초하여 상기 문장을 번역하는 번역서비스 제공시스템.
- 제 9항에 있어서, 상기 제어모듈은,상기 적어도 하나의 단어가 상기 키워드 DB에 저장된 키워드 유형들에 포함되는 경우, 상기 적어도 하나의 단어를 상기 키워드 조합에 포함될 키워드로 결정하는 번역서비스 제공시스템.
- 제 10항에 있어서, 상기 번역서비스 제공시스템은,미리 결정된 문장구조 유형들이 저장된 문장로직 DB를 더 포함하며,상기 제어모듈은,결정된 상기 키워드 각각의 키워드 타입을 결정하고, 결정된 키워드 타입에 기초하여 상기 키워드의 조합에 상응하는 키워드 타입 조합을 결정하며, 상기 문장로직 DB를 참조하여 결정된 키워드 타입의 조합에 상응하는 문장구조를 결정하며, 결정된 상기 문장구조를 참조하여 상기 문장을 번역하는 번역서비스 제공시스템.
- 제 11항에 있어서, 상기 제어모듈은,결정된 문장구조 및 상기 번역어에 기초하여 번역문 프로토 타입을 결정하고, 결정된 상기 번역문 프로토 타입에 기초하여 상기 문장을 번역하는 번역서비스 제공시스템.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020080133740A KR101052004B1 (ko) | 2008-12-24 | 2008-12-24 | 번역서비스 제공방법 및 그 시스템 |
PCT/KR2009/007251 WO2010074426A2 (ko) | 2008-12-24 | 2009-12-07 | 번역서비스 제공방법 및 그 시스템 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020080133740A KR101052004B1 (ko) | 2008-12-24 | 2008-12-24 | 번역서비스 제공방법 및 그 시스템 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20100075118A KR20100075118A (ko) | 2010-07-02 |
KR101052004B1 true KR101052004B1 (ko) | 2011-07-27 |
Family
ID=42288236
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020080133740A KR101052004B1 (ko) | 2008-12-24 | 2008-12-24 | 번역서비스 제공방법 및 그 시스템 |
Country Status (2)
Country | Link |
---|---|
KR (1) | KR101052004B1 (ko) |
WO (1) | WO2010074426A2 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210105626A (ko) | 2020-02-19 | 2021-08-27 | 이영호 | 기술문서 번역 지원 시스템 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101382365B1 (ko) * | 2010-08-31 | 2014-04-11 | 대한민국 | 법률 정보 사이트를 이용한 정보 지도 서비스 방법 및 시스템 |
CN110287498B (zh) * | 2019-05-30 | 2023-04-07 | 北京百度网讯科技有限公司 | 层次化翻译方法、装置及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR19980067267A (ko) * | 1997-02-01 | 1998-10-15 | 김광호 | 부분문장 파싱기능을 가진 구문해석기 |
KR20010103411A (ko) * | 2000-05-10 | 2001-11-23 | 조양래 | 번역 효율이 향상된 언어 번역 시스템 및 방법 |
KR20070058950A (ko) * | 2005-12-05 | 2007-06-11 | 한국전자통신연구원 | 제한적인 도메인의 문서를 대상으로 특화된 자동 번역 장치및 방법 |
KR100805190B1 (ko) * | 2006-09-07 | 2008-02-21 | 한국전자통신연구원 | 영어 문장 분리 장치 및 방법 |
-
2008
- 2008-12-24 KR KR1020080133740A patent/KR101052004B1/ko active IP Right Grant
-
2009
- 2009-12-07 WO PCT/KR2009/007251 patent/WO2010074426A2/ko active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR19980067267A (ko) * | 1997-02-01 | 1998-10-15 | 김광호 | 부분문장 파싱기능을 가진 구문해석기 |
KR20010103411A (ko) * | 2000-05-10 | 2001-11-23 | 조양래 | 번역 효율이 향상된 언어 번역 시스템 및 방법 |
KR20070058950A (ko) * | 2005-12-05 | 2007-06-11 | 한국전자통신연구원 | 제한적인 도메인의 문서를 대상으로 특화된 자동 번역 장치및 방법 |
KR100805190B1 (ko) * | 2006-09-07 | 2008-02-21 | 한국전자통신연구원 | 영어 문장 분리 장치 및 방법 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210105626A (ko) | 2020-02-19 | 2021-08-27 | 이영호 | 기술문서 번역 지원 시스템 |
Also Published As
Publication number | Publication date |
---|---|
WO2010074426A3 (ko) | 2010-09-16 |
WO2010074426A2 (ko) | 2010-07-01 |
KR20100075118A (ko) | 2010-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Rayson | Matrix: A statistical method and software tool for linguistic analysis through corpus comparison | |
JP3906356B2 (ja) | 構文解析方法及び装置 | |
Maynard et al. | Architectural elements of language engineering robustness | |
Perkins | Python text processing with NLTK 2.0 cookbook | |
US6539348B1 (en) | Systems and methods for parsing a natural language sentence | |
US5903858A (en) | Translation machine for editing a original text by rewriting the same and translating the rewrote one | |
JP5362353B2 (ja) | 文書中のコロケーション誤りを処理すること | |
US20110040553A1 (en) | Natural language processing | |
Cherry | Writing tools | |
US20090307183A1 (en) | System and Method for Transmission of Communications by Unique Definition Identifiers | |
US10606903B2 (en) | Multi-dimensional query based extraction of polarity-aware content | |
CN100361124C (zh) | 用于词分析的系统和方法 | |
CA2504111A1 (en) | Critiquing clitic pronoun ordering in french | |
Ganfure et al. | Design and implementation of morphology based spell checker | |
KR101052004B1 (ko) | 번역서비스 제공방법 및 그 시스템 | |
Bagul et al. | Rule based POS tagger for Marathi text | |
Eide | Anföranden: Annotated and augmented parliamentary debates from Sweden | |
Foufi et al. | Multilingual parsing and MWE detection | |
KR102182248B1 (ko) | 문법 검사 시스템 및 방법과 이를 위한 컴퓨터 프로그램 | |
JP4007413B2 (ja) | 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム | |
Sankaravelayuthan et al. | English to tamil machine translation system using parallel corpus | |
Volk | The automatic resolution of prepositional phrase attachment ambiguities in German | |
Kulick | Exploiting separation of closed-class categories for Arabic tokenization and part-of-speech tagging | |
Gamu et al. | Morphology‐Based Spell Checker for Dawurootsuwa Language | |
Verulkar et al. | Transliterated search of Hindi lyrics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20140710 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20150717 Year of fee payment: 5 |
|
FPAY | Annual fee payment |
Payment date: 20160704 Year of fee payment: 6 |
|
FPAY | Annual fee payment |
Payment date: 20180703 Year of fee payment: 8 |
|
FPAY | Annual fee payment |
Payment date: 20190702 Year of fee payment: 9 |