KR101834436B1 - 텍스트 생성 방법 및 장치 - Google Patents

텍스트 생성 방법 및 장치 Download PDF

Info

Publication number
KR101834436B1
KR101834436B1 KR1020160088729A KR20160088729A KR101834436B1 KR 101834436 B1 KR101834436 B1 KR 101834436B1 KR 1020160088729 A KR1020160088729 A KR 1020160088729A KR 20160088729 A KR20160088729 A KR 20160088729A KR 101834436 B1 KR101834436 B1 KR 101834436B1
Authority
KR
South Korea
Prior art keywords
text
language
value
translation target
translated
Prior art date
Application number
KR1020160088729A
Other languages
English (en)
Other versions
KR20180007554A (ko
Inventor
김태완
Original Assignee
김태완
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 김태완 filed Critical 김태완
Priority to KR1020160088729A priority Critical patent/KR101834436B1/ko
Publication of KR20180007554A publication Critical patent/KR20180007554A/ko
Application granted granted Critical
Publication of KR101834436B1 publication Critical patent/KR101834436B1/ko

Links

Images

Classifications

    • G06F17/289
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • G06F17/2755
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

텍스트 생성 방법, 장치 및 텍스트 입출력 장치를 개시한다. 적어도 하나의 단어를 포함하는 제1 언어의 번역 대상 텍스트를 입력 받는 입력부, 번역 대상 텍스트를 분해하는 분해부, 분해된 번역 대상 텍스트에 대하여 검색을 실시하여 제1언어 출력 텍스트를 생성하는 텍스트 생성부를 포함하는 텍스트 생성 장치에 있어서, 사용자 단말이 적어도 하나의 단어를 포함하는 제1 언어의 번역 대상 텍스트를 입력 받는 단계, 번역 대상 텍스트를 형태소 단위분류에 따라 분해하는 단계 및 분해된 번역 대상 정보에 대하여 제1언어의 데이터베이스로부터 검색을 실시하여 제1 언어의 출력 텍스트를 생성하는 단계를 포함하는 텍스트 생성 방법을 개시한다.

Description

텍스트 생성 방법 및 장치{Method and Apparatus for Making Texts}
본 발명은 입력 받은 제1 언어의 텍스트들을 제2 언어로 번역 또는 통역하는 과정을 용이하게 하기 위한 것이다. 보다 상세하게는 번역 또는 통역 과정에 있어서 텍스트의 매칭을 용이하게 하기 위한 방법 및 장치에 관한 것이다.
종래에 다양한 기법의 번역 장치 또는 방법이 개시되어 있다. 다만 그 정확성에 대하여는 장담할 수 없는데, 이는 사용자로 하여금 불편을 발생시키고, 특히 내용의 정확성이 요구되는 분야, 예를 들어 법률적 권리 발생, 변경, 소멸 또는 금융 정보와 같은 분야에 있어서는 오역 및 부자연스러운 번역에 의하여 매우 치명적인 문제가 발생할 여지가 있어서, 차라리 원문이 사용되는 경우가 있었다. 이와 같이 번역의 정확성이 요구되어, 정확성이 검증된 번역 결과를 얻을 수 있는 새로운 번역 방법 등이 요구된다.
일반적인 기계번역은 제1언어가 번역된 제2언어의 데이터가 축적되어있는 정도에 따라 번역 결과의 정확성에 영향을 미친다. 그런데, 입력된 텍스트가 전형적인 문법을 만족하는 문장 형태가 아닌, 약어 등과 같이 변형된 형태를 가지고 있는 경우에 있어서는 입력 문장을 인식하지 못하고, 제2언어로 번역된 결과를 얻을 수 없거나 의미가 전혀 다른 결과물을 획득하는 문제가 있다. 또한, 기존의 번역 기법에 의하면 완전한 구성을 가진 문장만이 형태소 분석을 통하여 기계번역이 가능하였으나, 입력된 문장이 문법적으로 오류가 있는 경우, 형태소 분석에 오류가 생겨 번역이 어려운 문제가 있었으며, 제1 언어로 입력을 받고 제2 언어로 번역된 결과물만을 출력하여 보여주어 번역의 정확성을 알기 힘들었다. 이에, 데이터베이스에서 입력 언어와 출력 언어의 매칭이 잘 되어있더라도, 사용자가 입력한 언어의 의미를 파악할 수 없는 경우에 번역이 어려운 문제가 있었다.
또한, 제1언어를 제2언어로 기계번역 하는 과정에서 해당 입력문장의 형태소 집합의 의미를 왜곡하는 경우가 발생하는데, 하나의 단어가 여러 의미를 가지고 있을 때, 문장 내에서 해당 단어가 가지는 의미를 정확히 발현하지 못하여 번역이 되어 해석이 불가능한 문제가 있다.
공개특허 2002-0054244
본 발명은, 입력 받은 번역 대상 텍스트에 대하여, 효율적인 변환된 텍스트 생성 방법 및 장치를 제안하는 것을 목적으로 한다. 특히, 입력 받은 번역 대상 텍스트로부터 목적 언어의 데이터베이스와 매칭된 입력 제1언어의 출력 텍스트를 생성하여 번역 결과의 품질을 향상시키는 것을 목적으로 한다.
본 발명의 다른 목적은 번역 대상이 되는 번역 대상 텍스트를 입력 받고, 데이터베이스에 기 저장되고 번역 대상 텍스트와 매칭되는 생성된 제1언어의 출력 텍스트와 번역된 텍스트로서 제2언어의 출력 텍스트를 표시하는 텍스트 입출력 장치를 제공하는 것을 목적으로 한다.
상기와 같은 목적을 달성하기 위하여, 본 발명에 일 실시예에 따른 텍스트 생성 장치는, 적어도 하나의 단어를 포함하는 제1 언어의 번역 대상 텍스트를 입력 받는 입력부, 번역 대상 텍스트를 분해하는 분해부, 분해된 번역 대상 텍스트에 대하여 검색을 실시하여 제1언어 출력 텍스트를 생성하는 텍스트 생성부를 포함한다.
이때 텍스트 생성부는, 분해된 번역 대상 텍스트 성분들 중 검색에 사용되지 않는 단어를 판별하고, 판별된 단어들 중 적어도 하나를 검색 대상에서 제외하는 단어 판별부, 판별된 단어를 제외한 분해된 번역 대상 텍스트 성분들을 각 성분의 문법적 성질에 따라 분류하고, 분류에 따른 구별값을 부여하는 구별값 부여부, 제1 언어의 데이터베이스에 기 저장되고, 구별값이 부여된 텍스트들 중, 텍스트들 중에 포함되며 구별값의 구성에 따라 생성되는 구성 정보가 번역 대상 텍스트와 매칭되는 텍스트를 검색하는 텍스트 검색부를 포함할 수 있다.
또한 번역 대상 텍스트와 매칭되는 텍스트를 검색하는 것은, 설정된 텍스트 성분들에 대한 구별값과, 제외된 단어들의 수를 고려하여 구별값의 구성 정보를 생성하고, 제1언어의 데이터베이스에 기 저장되고, 구별값이 부여된 텍스트들 중, 구별값의 구성 정보가 매칭되는 텍스트가 있는지 검색하는 것으로 할 수 있다.
또한, 본 발명의 일 실시예에 따른 텍스트 생성 장치는 생성된 제1 언어 출력 텍스트에 대하여, 제1언어 출력 텍스트가 번역 대상 텍스트와 매칭되는 정도가 일정한 기준값 이상인지 판단하는 기준값 판단부를 더 포함할 수 있다. 이때, 번역 대상 텍스트와 매칭되는 정도가 일정한 기준값 이상인지 판단하는 것은, 생성된 제1언어 출력 텍스트에 대하여, 제1 언어 출력 텍스트가 번역 대상 텍스트와 매칭되는 정도를 판단하기 위한 기준값을 입력 받고, 제1 언어 출력 텍스트와 번역 대상 텍스트가 매칭되는 정도가 기준값 이상인지를 판단하는 것으로 할 수 있다.
본 발명의 일 실시예에 따른 텍스트 입출력 장치는, 사용자로부터 적어도 하나의 단어를 포함하는 제1 언어의 번역 대상 텍스트를 입력 받는 입력부, 입력 받은 텍스트를 분해하고, 분해된 성분들을 문법적 성질에 따라 분류하고, 분류에 따른 구별값을 부여하고, 제1 언어의 데이터베이스에 기 저장되고 구별값이 부여된 텍스트들 중, 텍스트들에 포함되며, 구별값의 구성이 번역 대상 텍스트와 매칭되는 텍스트를 검색하여 생성된 제1언어 출력 텍스트를 출력하는 제1언어 출력부, 제2언어의 데이터베이스로부터 제1언어 출력 텍스트에 대하여 매칭된 제2언어에서의 번역 대상 텍스트인 제2 언어 출력 텍스트를 출력하는 제2언어 출력부를 포함한다.
상기와 같은 목적을 달성하기 위한 본 발명의 일 실시예에 따른 텍스트 생성 방법은, 사용자 단말이 적어도 하나의 단어를 포함하는 제1언어의 번역 대상 텍스트를 입력 받는 단계, 번역 대상 텍스트를 형태소 단위분류에 따라 분해하는 단계 및 분해된 번역 대상 정보에 대하여 제1언어의 데이터베이스로부터 검색을 실시하여 제1 언어의 출력 텍스트를 생성하는 단계를 포함한다.
이때, 분해하는 것은, 번역 대상 텍스트를 미리 정해진 형태소 분류단위에 따라 문법적 성질을 고려한 소분류 단위까지 분해하고, 특히 명사의 경우에는 그 용법에 따라 세분류 단위까지 분해하는 것으로 할 수 있고, 번역 대상 텍스트에 대하여 검색을 실시하는 것은, 분해된 성분들을 문법적 성질에 따라 분류하고, 분류에 따른 구별값을 부여하고, 제1 언어의 데이터베이스에 기 저장되고 구별값이 부여된 텍스트들 중, 텍스트들에 포함되며, 구별값의 구성이 번역 대상 텍스트와 매칭되는 텍스트를 검색하는 것으로 할 수 있다.
본 발명의 다른 일 실시예에 따르면, 분해된 번역 대상 텍스트에 대하여 검색을 실시하여 제1 언어 출력 텍스트를 생성하는 단계는, 분해된 번역 대상 텍스트 성분들 중 검색에 사용되지 않는 단어를 판별하고, 판별된 단어 중 적어도 하나를 검색 대상에서 제외하는 단계, 판별된 단어를 제외한 분해된 번역 대상 텍스트 성분들을 각 성분의 문법적 성질에 따라 분류하고, 분류에 따른 구별값을 부여하는 단계, 제1 언어의 데이터베이스에 기 저장되고, 구별값이 부여된 텍스트들 중, 텍스트들 중에 포함되며, 구별값의 구성에 따라 생성되는 구성 정보가 번역 대상 텍스트와 매칭되는 텍스트를 검색하는 단계를 포함할 수 있다.
여기서 구성 정보는, 부여된 구별값과, 번역 대상 텍스트로부터 제외된 판별된 단어의 수를 고려하여 생성될 수 있고, 번역 대상 텍스트와 매칭되는 텍스트를 검색하는 것은, 부여된 텍스트 성분들에 대한 구별값과, 제외된 단어들의 수를 고려하여 구별값의 구성 정보를 생성하고, 제1언어의 데이터베이스에 기 저장되고, 구별값이 부여된 텍스트들 중, 구별값의 구성 정보가 매칭되는 텍스트가 있는지 검색하는 것으로 할 수 있다. 또한 생성된 제1 언어 출력 텍스트에 대하여, 제1 언어 출력 텍스트가 번역 대상 텍스트와 매칭되는 정도가 일정한 기준값 이상인지 판단하는 단계를 더 포함할 수 있다.
이때, 기준값 이상인지 판단하는 것은, 생성된 제1 언어 출력 텍스트에 대하여, 제1 언어 출력 텍스트가 번역 대상 텍스트와 매칭되는 정도를 판단하기 위한 기준값을 입력 받고, 제1 언어 출력 텍스트와 번역 대상 텍스트가 매칭되는 정도가 기준값 이상인지를 판단하는 것으로 할 수 있으며, 기준값은, 판별된 단어들의 글자의 수, 판별된 단어들 중 제외된 글자의 수를 고려하여 설정될 수 있다.
제1언어 출력 텍스트와 번역 대상 텍스트가 매칭되는 정도는, 판별된 단어들의 글자의 수, 판별된 단어들 중 제외된 글자의 수, 번역 대상 텍스트에서 가질 수 있는 최대 인접하는 공통 글자의 수 및 번역 대상 텍스트와 생성된 제1언어 출력 텍스트가 가질 수 있는 최대 인접하는 공통 글자의 수를 고려하여 계산될 수 있으며, 판별된 단어 중 적어도 하나를 제외하는 것은, 입력 받은 기준값을 고려하여, 판별된 단어의 글자의 수를 결정하여 제외할 수 있다. 또한, 생성된 제1언어 텍스트가 번역 대상 텍스트로부터 변경될 수 있는 글자의 수는, 판별된 단어들의 글자의 수, 판별된 단어들 중 제외된 글자의 수 및 입력 받은 기준값을 고려하여 정해질 수 있다.
도 1은 본 발명의 일 실시예에 따른 텍스트 생성 장치를 도시한 것이다.
도 2는 본 발명의 일 실시예에 따른 텍스트 입출력 장치를 도시한 것이다.
도 3은 본 발명의 일 실시예에 따른 텍스트 생성 방법을 도시한 것이다.
도 4는 본 발명의 일 실시예에 따른 텍스트 생성 방법에 있어서, 제1언어의 출력 텍스트를 생성하는 단계를 상세히 도시한 것이다.
도 5는 본 발명의 일 실시예에 따른 텍스트 생성 방법을 도시한 것이다.
도 6은 본 발명의 일 실시예에 따른 텍스트 입출력 장치를 도시한 것이다.
도 7은 본 발명의 일 실시예에 따른 텍스트 입출력 장치를 도시한 것이다.
발명과 본 발명의 동작상의 이점 및 본 발명의 실시에 의하여 달성되는 목적을 충분히 이해하기 위해서는 본 발명의 바람직한 실시예를 예시하는 첨부 도면 및 첨부 도면에 기재된 내용을 참조하여야만 한다.
이하, 첨부한 도면을 참조하여 본 발명의 바람직한 실시예를 설명함으로써, 본 발명을 상세히 설명한다. 그러나, 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 설명하는 실시예에 한정되는 것이 아니다. 그리고, 본 발명을 명확하게 설명하기 위하여 설명과 관계없는 부분은 생략되며, 도면의 동일한 참조부호는 동일한 부재임을 나타낸다.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 “포함”한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라, 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 “...부”, “...기”, “모듈”, “블록” 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
도 1은 본 발명의 일 실시예에 따른 텍스트 생성 장치를 도시한 것이다. 본 발명의 일 실시예에 따른 텍스트 생성 장치(10)는 입력부(100), 분해부(200) 및 텍스트 생성부(300)를 포함하여 구현될 수 있다. 텍스트 생성 장치(10)는, 사용자로부터 제1언어를 포함하는 번역 대상 텍스트를 입력받고, 번역 목적 언어인 제2언어와 매칭되는 제1언어 데이터베이스로부터 번역 대상 텍스트와 매칭되는 텍스트를 생성할 수 있다. 종래 기술에 의하면, 제1언어 문장과 제2언어 문장의 매칭이 정확한 경우라도, 사용자에 의하여 입력되는 제1언어의 문장의 기재에 문법적 또는 형식적인 문제가 있는 경우에 제2 언어 문장과 매칭되는 정확한 제1언어 문장을 얻을 수 없어 번역에 어려움이 있었으나, 본 발명의 텍스트 생성 장치에 따르면 사용자로부터 입력되는 문장과 매칭되는 제1언어의 출력 텍스트를 생성하도록 하여 번역 결과의 정확성을 제고할 수 있다.
입력부(100)는 적어도 하나의 단어를 포함하는 제1 언어의 번역 대상 텍스트를 입력 받을 수 있다. 입력부의 형태는 스마트폰 등의 터치 기반 사용자 단말에 있어서는 화면과 결합되어 마련되는 터치 입력부가 될 수 있으며, 데스크탑, 노트북 등의 컴퓨터 디바이스에 있어서는 키보드와 같은 별도의 입력부를 구비할 수 있으나, 이에 한정되지 아니한다.
분해부(200)는 번역 대상 텍스트를 형태소 단위에 따라 분해할 수 있다. 본 발명에서 형태소 분류는, 최소의 의미를 가지는 단위인 형태소의 단위에서, 형태소를 자립성 유무, 실질적 의미의 유무 등에 따라 분류하는 것을 말한다. 이때 형태소 분류에 따라 번역 대상 텍스트를 분해할 수 있다.
본 발명의 일 실시예에 따르면, 번역 대상 텍스트를 분해하는 것은, 번역 대상 텍스트를 미리 정해진 형태소 분류 단위에 따라 문법적 성질을 고려하여 소분류 단위까지 분해하고, 특히 명사의 경우에는 그 용법에 따라 세분류 단위까지 분해하는 것으로 할 수 있다.
이때, 형태소를 분해하는 것은, 체언, 용언, 수식언, 독립언, 관계언 및 의존형태에 따른 분류로서 대분류에 따라 분류하고, 체언의 하위개념으로서 명사, 대명사 및 수사, 용언의 하위개념으로서 동사, 형용사, 보조용언 및 지정사, 수식언의 하위개념으로서 관형사 및 부사, 독립언의 하위개념으로서 감탄사, 관계언의 하위개념으로서 격조사, 보조사 및 접속조사 및 의존형태의 하위개념으로서 어미, 접두사, 접미사 및 어근을 포함하는 소분류에 따라 분류할 수 있다. 또한, 명사를 세분류 단위까지 분해하는 것은, 명사의 하위 개념으로서 일반명사, 고유명사 및 의존명사 단위까지 분해하는 것으로 할 수 있다. 바람직하게는, 상기와 같이 분해하는 것은 한국어의 경우에 적용될 수 있다.
텍스트 생성부(300)는 분해된 번역 대상 정보에 대하여 제1언어의 데이터베이스로부터 검색을 실시하여 제1 언어의 출력 텍스트를 생성할 수 있다. 본 발명에서 텍스트를 생성하는 것은, 새로이 텍스트를 생성하는 것 외에, 제1언어의 데이터베이스에 저장되고 기 생성된 텍스트들로부터 매칭되는 텍스트를 검색하여 획득하는 것을 포함한다.
본 발명의 일 실시예에 따르면, 번역 대상 텍스트에 대하여 검색을 실시하는 것은, 분해된 성분들을 문법적 성질에 따라 분류하고, 분류에 따른 구별값을 부여하고, 제1 언어의 데이터베이스에 기 저장되고 구별값이 부여된 텍스트들 중, 텍스트들에 포함되며, 구별값의 구성이 번역 대상 텍스트와 매칭되는 텍스트를 검색하는 것으로 할 수 있다.
본 발명에서 분해된 성분들을 문법적 성질에 따라 분류하는 것은, 체언, 용언, 수식언, 독립언, 관계언 및 의존형태에 따른 분류로서 대분류에 따라 분류하고, 체언의 하위개념으로서 명사, 대명사 및 수사, 용언의 하위개념으로서 동사, 형용사, 보조용언 및 지정사, 수식언의 하위개념으로서 관형사 및 부사, 독립언의 하위개념으로서 감탄사, 관계언의 하위개념으로서 격조사, 보조사 및 접속조사 및 의존형태의 하위개념으로서 어미, 접두사, 접미사 및 어근을 포함하는 소분류에 따라 분류할 수 있다. 또한, 명사의 경우 세분류까지 고려하여, 명사의 하위 개념으로서 일반명사, 고유명사 및 의존명사 단위까지 분류할 수 있다.
텍스트 생성부(300)는 단어 판별부(310), 구별값 부여부(320) 및 텍스트 검색부(330)을 포함하여 구현될 수 있다. 텍스트 생성부(300)는, 입력 받은 제1언어로 작성된 텍스트로서 번역 대상 텍스트를 분해한 성분들을 입력으로 하여, 해당 성분들 각각의 문법적 성질을 고려하여 구별값을 부여하고, 부여된 구별값을 고려하여 텍스트의 구성 정보를 생성하고, 데이터베이스에 저장된 텍스트들의 구성 정보와 비교하여, 매칭되는 텍스트를 획득 또는 생성할 수 있다.
단어 판별부(310)는, 분해된 번역 대상 텍스트 성분들 중 검색에 사용되지 않는 단어를 판별하고, 판별된 단어 중 적어도 하나를 검색 대상에서 제외할 수 있다. 이때, 검색에 사용되지 않는 단어는 불용어(stopword)일 수 있으며, 예를 들어 관사, 전치사, 조사, 접속사 등 검색 색인 단어로서 의미를 가지지 않는 것일 수 있다.
구별값 부여부(320)는 판별된 단어를 제외한 분해된 번역 대상 텍스트 성분들을 각 성분의 문법적 성질에 따라 분류하고, 분류에 따른 구별값을 부여할 수 있다. 이때, 문법적 성질에 따라 분류하고, 분류에 따른 구별값을 부여하는 것은, 체언, 용언, 수식언, 독립언, 관계언 및 의존형태에 따른 분류로서 대분류에 따라 분류하고, 체언의 하위개념으로서 명사(구별값: NN), 대명사(구별값: NP) 및 수사(구별값: NR), 용언의 하위개념으로서 동사(구별값: VV), 형용사(구별값: VA), 보조용언(구별값: VX) 및 지정사(구별값: VC), 수식언의 하위개념으로서 관형사(구별값: MM) 및 부사(구별값: MA), 독립언의 하위개념으로서 감탄사(구별값: IC), 관계언의 하위개념으로서 격조사(구별값: JK), 보조사(구별값: JX) 및 접속조사(구별값: JC) 및 의존형태의 하위개념으로서 어미(구별값: E), 접두사(구별값: XP), 접미사(구별값: XS) 및 어근(구별값: XR)을 포함하는 소분류에 따라 분류할 수 있다. 상기와 같은 소분류 개념은 특히 제1언어가 한국어인 경우에 적용될 수 있으며, 이에 한정되지 아니하고 제1 언어에 따라 다른 형태소 분류 기준을 가질 수 있다. 또한, 명사를 세분류 단위까지 분해하는 것은, 명사의 하위 개념으로서 일반명사(구별값: NNG), 고유명사(구별값: NNP) 및 의존명사(구별값: NNB) 단위까지 분류하고 각 구별값을 부여하는 것으로 할 수 있다.
텍스트 검색부(330)는 제1 언어의 데이터베이스에 기 저장되고, 구별값이 부여된 텍스트들 중, 텍스트들 중에 포함되며, 구별값의 구성에 따라 생성되는 구성 정보가 번역 대상 텍스트와 매칭되는 텍스트를 검색할 수 있다.
이때, 구별값의 구성에 따라 생성되는 구성 정보는 텍스트가 포함하고 있는 성분들에 부여된 구별값의 순서에 관계없이, 텍스트가 포함하는 구별값들에 따라 다르게 부여될 수 있다. 또한, 구성 정보는 번역 대상 텍스트로부터 제외된 판별된 단어의 수를 고려하여 생성될 수 있다. 보다 상세하게는, 변역 대상 텍스트가, 번역 대상 텍스트에 포함되고 검색에 사용되지 않는 단어로서 판별되고 번역 대상 텍스트로부터 제외될 수 있는 텍스트를 포함하는 경우, 제외되는 텍스트의 글자 수에 따라 각각 구별되는 구성 정보를 생성하여, 검색에 이용할 수 있다.
본 발명의 일 실시예에 따른 텍스트 생성 장치(10)는 기준값 판단부(400)를 추가적으로 구비할 수 있다. 텍스트 생성 장치(10)는 입력 텍스트와 매칭되고, 데이터베이스에 제2언어의 텍스트와 매칭되도록 저장된 제1언어의 출력 텍스트를 생성할 수 있다.
기준값 판단부(400)는 생성된 제1 언어 출력 텍스트에 대하여, 제1 언어 출력 텍스트가 번역 대상 텍스트와 매칭되는 정도가 일정한 기준값 이상인지 판단할 수 있다. 본 발명에서의 기준값은 미리 설정되어 이용되거나 사용자로부터 임의의 값을 입력 받아 이용할 수 있다.
이때 기준값 이상인지 판단하는 것은, 생성된 제1 언어 출력 텍스트에 대하여, 제1 언어 출력 텍스트가 번역 대상 텍스트와 매칭되는 정도를 판단하기 위한 기준값을 입력 받고, 제1 언어 출력 텍스트와 번역 대상 텍스트가 매칭되는 정도가 기준값 이상인지를 판단할 수 있다. 이때 기준값은, 만족유사도 개념으로 표현될 수 있는데, 이는 입력 받은 번역 대상 텍스트와 검색 결과 생성된 제1 언어 출력 텍스트가 일치하는 정도를 평가하는 지표를 의미한다. 여기서 일치하는 정도의 평가는 n-gram 분석 방법을 이용할 수 있는데, n-gram 분석 방법은, 확률적 언어 모델로서 n개 단어의 연쇄를 측정하는 것으로서 이에 따라 두 텍스트에서 공통적으로 존재하고 연속하는 글자의 최대 수를 기준으로 평가할 수 있다.
따라서, 기준값 판단부(400)에서 제1언어 출력 텍스트와 번역 대상 텍스트가 매칭되는 정도는, 판별된 단어들의 글자의 수, 판별된 단어들 중 제외된 글자의 수, 번역 대상 텍스트에서 가질 수 있는 최대 인접하는 공통 글자의 수 및 번역 대상 텍스트와 생성된 제1언어 출력 텍스트가 가질 수 있는 최대 인접하는 공통 글자의 수를 고려하여 계산될 수 있다.
한편, 본 발명에서의 구성 정보는, 부여된 구별값과, 번역 대상 텍스트로부터 제외된 판별된 단어의 수를 고려하여 생성될 수 있다.
또한, 번역 대상 텍스트와 매칭되는 텍스트를 검색하는 것은, 부여된 텍스트 성분들에 대한 구별값과, 제외된 단어들의 수를 고려하여 구별값의 구성 정보를 생성하고, 제1언어의 데이터베이스에 기 저장되고, 구별값이 부여된 텍스트들 중, 구별값의 구성 정보가 매칭되는 텍스트가 있는지 검색하는 것으로 구현될 수 있다.
본 발명의 일 실시예에 따르면, 제1 언어 출력 텍스트가 번역 대상 텍스트와 매칭되는 정도의 기준값은 판별된 단어들의 글자의 수, 판별된 단어들 중 제외된 글자의 수를 고려하여 설정되는 것으로 할 수 있다. 이는 특히 판별된 단어 중 적어도 하나가 제외된 경우에 적용될 수 있으며, 기준값은 바람직하게는 번역 대상 텍스트에 포함된 판별된 단어들의 글자의 수에서 번역 대상 텍스트에 포함된 판별된 단어들 중 제외된 글자의 수를 차감한 값에 비례하도록 설정될 수 있다.
본 발명의 다른 실시예에 따르면, 판별된 단어 중 적어도 하나를 제외하는 것은, 입력 받은 기준값을 고려하여, 판별된 단어의 글자의 수를 결정하여 제외하는 것으로 할 수 있다. 바람직하게는, 판별된 단어들의 글자 수와 판별된 단어들 중 제외된 글자 수의 차감값을 판별된 단어들의 글자 수로 나눈 값과, 입력 받은 기준값 또는 만족유사도를 연산한 값을 차감하여, 입력 받은 번역 대상 텍스트에 포함된 형용사 또는 동사의 글자 수를 곱하여 정의될 수 있다.
한편, 생성된 제1언어 텍스트가 상기 번역 대상 텍스트로부터 변경될 수 있는 글자의 수는, 판별된 단어들의 글자의 수, 상기 판별된 단어들 중 제외된 글자의 수 및 입력 받은 기준값을 고려하여 정해질 수 있다. 특히, 1에서 입력 받은 기준값 또는 만족유사도를 차감한 값에 입력 받은 번역 대상 텍스트에 포함된 판별된 단어들의 글자의 수를 곱한 값을 곱하여 정의할 수 있다.
또한, 본 발명에서 입력 받은 번역 대상 텍스트의 구성 정보가 형용사(VA) 또는 동사(VV)를 포함하는 경우에 있어서, 평가의 기준이 되는 기준값 또는 만족유사도는, 번역 대상 텍스트에 포함된 형용사 또는 동사만을 추출하여, 번역 대상 텍스트로부터 추출된 형용사 또는 동사만으로 이루어진 텍스트가 가질 수 있는 최대 인접하는 공통 글자의 수와, 검색된 제1언어 출력 텍스트에서 추출된 형용사 또는 동사만으로 이루어진 텍스트와 번역대상 텍스트로부터 추출된 형용사 또는 동사만으로 이루어진 텍스트가 가지는 최대 인접하는 공통 글자의 수를 고려하여 계산되도록 할 수 있다.
특히, 본 발명에서 이용되는 기준값 또는 만족유사도는, 입력 받은 번역 대상 텍스트에 포함된 판별된 단어들의 글자의 수와 판별된 단어들 중 제외된 글자의 수의 차감값을 판별된 단어들의 글자의 수로 나눈 값과, 검색된 제1언어 출력 텍스트에서 추출된 형용사 또는 동사만으로 이루어진 텍스트와 번역대상 텍스트로부터 추출된 형용사 또는 동사만으로 이루어진 텍스트가 가지는 최대 인접하는 공통 글자의 수를 번역 대상 텍스트로부터 추출된 형용사 또는 동사만으로 이루어진 텍스트가 가질 수 있는 최대 인접하는 공통 글자의 수로 나눈 값을 곱한 것으로 정의될 수 있다.
한편 텍스트 검색부(330)로부터 생성된 제1언어의 출력 텍스트는 별도의 표시부 또는 결합되어 마련된 표시부에 출력될 수 있는데, 입력 받은 제1언어의 번역 대상 텍스트가 완전히 또는 일정 기준값 이상으로 매칭되는 텍스트를 데이터베이스로부터 찾지 못하는 경우에, 입력된 번역 대상 텍스트를 그대로 표시할 수 있다. 이 경우, 종래기술로서 일반적인 기계 번역 방식에 의하여 입력 받은 텍스트의 번역을 진행할 수 있다.
도 2는 본 발명의 일 실시예에 따른 텍스트 입출력 장치(20)를 도시한 것이다. 도 1을 참조하여 도 2를 설명하면 다음과 같다. 본 발명에 따른 텍스트 입출력 장치(20)는 입력부(21), 제1언어 출력부(23), 제2언어 출력부(25)를 포함할 수 있다. 텍스트 입출력 장치(20)는, 터치 입력이 가능한 스마트폰 등의 휴대용 디바이스, 디스플레이부가 별도로 마련된 컴퓨터 디바이스 등으로 구현될 수 있으나 이에 한정되지 아니한다. 텍스트 입출력 장치(20)는, 제1언어의 번역 대상 텍스트를 입력 받고, 제2언어 텍스트와 매칭되어 데이터베이스에 기 저장된 텍스트들로부터 선택되고 입력 받은 텍스트와 매칭되는 텍스트로서 제1언어 출력 텍스트를 표시하고, 제1언어 출력 텍스트와 매칭되고 데이터베이스에 기 저장된 제2언어 출력 텍스트를 표시할 수 있다.
입력부(21)는 사용자로부터 적어도 하나의 단어를 포함하는 제1 언어의 번역 대상 텍스트를 입력 받을 수 있다. 입력부(21)는 스마트폰 등 터치 기반 디바이스에 있어서 화면과 결합되어 마련되는 터치 입력부 또는 화면과 별도로 마련되는 키보드 등의 입력부로 구비될 수 있다. 입력부(21)는 사용자가 번역하고자 하는 대상 텍스트를 입력받을 수 있다. 본 발명의 일 실시예에 따라 입력부(21)가 표시 화면과 결합되는 경우에는 입력부(21)에서 입력 받은 제1언어의 번역 대상 텍스트를 표시할 수 있고, 별도로 화면을 구비하는 경우에도 화면에서 입력 받은 제1언어의 번역 대상 텍스트를 표시할 수 있다.
제1언어 출력부(23)는 입력 받은 텍스트를 분해하고, 상기 분해된 성분들을 문법적 성질에 따라 분류하고, 상기 분류에 따른 구별값을 부여하고, 상기 제1 언어의 데이터베이스에 기 저장되고 상기 구별값이 부여된 텍스트들 중, 상기 텍스트들에 포함되며, 상기 구별값의 구성이 상기 번역 대상 텍스트와 매칭되는 텍스트를 검색하여 생성된 제1언어 출력 텍스트를 출력할 수 있다. 제1언어 출력부(23)는 입력부(21)와 하나의 디바이스로 결합되어 실시될 수 있으며, 분리되어 별도로 마련될 수 있다. 또한, 제1언어 출력부(23)는, 입력 받은 제1언어의 번역 대상 텍스트가 완전히 또는 일정 기준값 이상으로 매칭되는 텍스트를 데이터베이스로부터 찾지 못하는 경우에, 입력된 번역 대상 텍스트를 그대로 표시할 수 있다.
제2언어 출력부(25)는 제2언어의 데이터베이스로부터 상기 제1언어 출력 텍스트에 대하여 매칭된 제2언어에서의 상기 번역 대상 텍스트인 제2 언어 출력 텍스트를 출력할 수 있다. 제2언어 출력부(25)는 입력부(21)와 하나의 디바이스로 결합되어 실시될 수 있으며, 분리되어 별도로 마련될 수 있다. 제1언어 출력부(25)는 데이터베이스에 저장되고, 입력 받은 제1언어 텍스트와 매칭되는 제2언어 텍스트를 출력할 수 있다. 이때, 제1언어 출력부(23)와 제2언어 출력부(25)는 사용자의 선택에 따라, 상호 매칭되는 문장, 단어와 같은 소단위의 상호 매칭 관계를 표시할 수 있다. 또한 제1언어 출력부(23)와 제2언어 출력부(25)는 하나의 기기에 동시에 구비될 수 있으며, 별도의 화면으로 마련될 수 있다.
도 3은 본 발명의 일 실시예에 따른 텍스트 생성 방법을 도시한 것이다. 도 1 및 2를 참조하여 도 3을 설명하면 다음과 같다. 본 발명에 따른 텍스트 생성 방법은 번역 대상 텍스트를 입력 받은 단계(S100), 형태소 분류에 따라 분해하는 단계(S200), 제1언어의 출력 텍스트를 생성하는 단계(S300)를 포함할 수 있다. 본 발명에 따른 텍스트 생성 방법은, 사용자로부터 제1언어를 포함하는 번역 대상 텍스트를 입력받고, 번역 목적 언어인 제2언어와 매칭되는 제1언어 데이터베이스로부터 번역 대상 텍스트와 완전히 또는 일정 기준 이상 매칭되는 제1언어 출력 텍스트를 생성할 수 있다. 종래 기술에 의하면, 제1언어 문장과 제2언어 문장의 매칭이 정확한 경우라도, 사용자에 의하여 입력되는 제1언어의 문장의 기재에 문법적 또는 형식적인 문제가 있는 경우에 제2 언어 문장과 매칭되는 정확한 제1언어 문장을 얻을 수 없어 번역에 어려움이 있었으나, 본 발명의 텍스트 생성 방법에 따르면 사용자로부터 입력되는 문장과 매칭되는 제1언어의 출력 텍스트를 생성하도록 하여 번역 결과의 정확성을 제고할 수 있다.
번역 대상 텍스트를 입력 받은 단계(S100)에서는 적어도 하나의 단어를 포함하는 제1 언어의 번역 대상 텍스트를 입력 받을 수 있다. 본 발명의 일 실시예에 따르면, 입력부(100)에 의하여 제1언어의 번역 대상 텍스트를 입력 받을 수 있으며, 입력부의 형태는 스마트폰 등의 터치 기반 사용자 단말에 있어서는 화면과 결합되어 마련되는 터치 입력부가 될 수 있으며, 데스크탑, 노트북 등의 컴퓨터 디바이스에 있어서는 키보드와 같은 별도의 입력부를 구비할 수 있으나, 이에 한정되지 아니한다.
형태소 분류에 따라 분해하는 단계(S200)에서는 입력 받은 제1 언어의 번역 대상 텍스트를 형태소 단위에 따라 분해할 수 있다. 본 발명에서 형태소 분류는, 최소의 의미를 가지는 단위인 형태소의 단위에서, 형태소를 자립성 유무, 실질적 의미의 유무 등의 문법적 성질에 따라 분류하는 것을 말한다. 이때 형태소 분류에 따라 번역 대상 텍스트를 분해할 수 있다.
본 발명의 일 실시예에 따르면, 번역 대상 텍스트를 분해하는 것은, 상기 번역 대상 텍스트를 미리 정해진 형태소 분류 단위에 따라 문법적 성질을 고려하여 소분류 단위까지 분해하고, 특히 명사의 경우에는 그 용법에 따라 세분류 단위까지 분해하는 것으로 할 수 있다.
이때, 형태소를 분해하는 것은, 체언, 용언, 수식언, 독립언, 관계언 및 의존형태에 따른 분류로서 대분류에 따라 분류하고, 체언의 하위개념으로서 명사, 대명사 및 수사, 용언의 하위개념으로서 동사, 형용사, 보조용언 및 지정사, 수식언의 하위개념으로서 관형사 및 부사, 독립언의 하위개념으로서 감탄사, 관계언의 하위개념으로서 격조사, 보조사 및 접속조사 및 의존형태의 하위개념으로서 어미, 접두사, 접미사 및 어근을 포함하는 소분류에 따라 분류할 수 있다. 또한, 명사를 세분류 단위까지 분해하는 것은, 명사의 하위 개념으로서 일반명사, 고유명사 및 의존명사 단위까지 분해하는 것으로 할 수 있다.
제1언어의 출력 텍스트를 생성하는 단계(S300)에서는 분해된 번역 대상 정보에 대하여 제1언어의 데이터베이스로부터 검색을 실시하여 제1 언어의 출력 텍스트를 생성할 수 있다. 본 발명에서 텍스트를 생성하는 것은, 새로이 텍스트를 생성하는 것 외에, 제1언어의 데이터베이스에 저장되고 기 생성된 문장들로부터 매칭되는 텍스트를 검색하여 획득하는 것을 포함한다.
본 발명의 일 실시예에 따르면, 번역 대상 텍스트에 대하여 검색을 실시하는 것은, 분해된 성분들을 문법적 성질에 따라 분류하고, 분류에 따른 구별값을 부여하고, 상기 제1 언어의 데이터베이스에 기 저장되고 구별값이 부여된 텍스트들 중, 텍스트들에 포함되며, 구별값의 구성이 번역 대상 텍스트와 매칭되는 텍스트를 검색하는 것으로 할 수 있다.
본 발명에서 분해된 성분들을 문법적 성질에 따라 분류하는 것은, 체언, 용언, 수식언, 독립언, 관계언 및 의존형태에 따른 분류로서 대분류에 따라 분류하고, 체언의 하위개념으로서 명사, 대명사 및 수사, 용언의 하위개념으로서 동사, 형용사, 보조용언 및 지정사, 수식언의 하위개념으로서 관형사 및 부사, 독립언의 하위개념으로서 감탄사, 관계언의 하위개념으로서 격조사, 보조사 및 접속조사 및 의존형태의 하위개념으로서 어미, 접두사, 접미사 및 어근을 포함하는 소분류에 따라 분류할 수 있다. 또한, 명사의 경우 세분류까지 고려하여, 명사의 하위 개념으로서 일반명사, 고유명사 및 의존명사 단위까지 분류할 수 있다. 상기와 같이 분류하는 것은, 바람직하게는 제1언어가 한국어인 경우에 적용될 수 있다.
도 4는 본 발명의 일 실시예에 따른 텍스트 생성 방법에 있어서, 제1언어의 출력 텍스트를 생성하는 단계를 상세히 도시한 것이다. 도 1 내지 3을 참조하여 도 4의 내용을 설명하면 다음과 같다. 제1언어의 출력 텍스트를 생성하는 단계(S300)는 판별된 단어 중 적어도 하나를 검색 대상에서 제외하는 단계(S310), 구별값을 부여하는 단계(S320) 및 텍스트를 검색하는 단계(S330)을 포함하여 구현될 수 있다. 제1언어의 출력 텍스트를 생성하는 단계(S300)에서는, 입력 받은 제1언어로 작성된 문장, 문단 등의 텍스트를 분해한 성분들을 입력으로 하여, 해당 성분들 각각의 문법적 성질을 고려하여 구별값을 부여하고, 부여된 구별값을 고려하여 텍스트의 구성 정보를 생성하고, 데이터베이스에 저장된 텍스트들의 구성 정보와 비교하여, 매칭되는 텍스트를 획득 또는 생성할 수 있다.
판별된 단어 중 적어도 하나를 검색 대상에서 제외하는 단계(S310)에서는, 분해된 번역 대상 텍스트 성분들 중 검색에 사용되지 않는 단어를 판별하고, 상기 판별된 단어 중 적어도 하나를 검색 대상에서 제외할 수 있다. 이때, 검색에 사용되지 않는 단어는 불용어(stopword)일 수 있으며, 예를 들어 관사, 전치사, 조사, 접속사 등 검색 색인 단어로서 의미를 가지지 않는 것일 수 있다.
구별값을 부여하는 단계(S320)에서는, 판별된 단어를 제외한 분해된 번역 대상 텍스트 성분들을 각 성분의 문법적 성질에 따라 분류하고, 상기 분류에 따른 구별값을 부여할 수 있다. 이때, 문법적 성질에 따라 분류하고, 분류에 따른 구별값을 부여하는 것은, 체언, 용언, 수식언, 독립언, 관계언 및 의존형태에 따른 분류로서 대분류에 따라 분류하고, 체언의 하위개념으로서 명사(구별값: NN), 대명사(구별값: NP) 및 수사(구별값: NR), 용언의 하위개념으로서 동사(구별값: VV), 형용사(구별값: VA), 보조용언(구별값: VX) 및 지정사(구별값: VC), 수식언의 하위개념으로서 관형사(구별값: MM) 및 부사(구별값: MA), 독립언의 하위개념으로서 감탄사(구별값: IC), 관계언의 하위개념으로서 격조사(구별값: JK), 보조사(구별값: JX) 및 접속조사(구별값: JC) 및 의존형태의 하위개념으로서 어미(구별값: E), 접두사(구별값: XP), 접미사(구별값: XS) 및 어근(구별값: XR)을 포함하는 소분류에 따라 분류할 수 있다. 또한, 명사를 세분류 단위까지 분해하는 것은, 명사의 하위 개념으로서 일반명사(구별값: NNG), 고유명사(구별값: NNP) 및 의존명사(구별값: NNB) 단위까지 분류하고 각 구별값을 부여하는 것으로 할 수 있다. 상기와 같은 소분류 개념은 특히 제1언어가 한국어인 경우에 적용될 수 있으며, 이에 한정되지 아니하고 제1 언어에 따라 다른 형태소 분류 기준을 가질 수 있다.
텍스트를 검색하는 단계(S330)에서는, 제1 언어의 데이터베이스에 기 저장되고, 상기 구별값이 부여된 텍스트들 중, 상기 텍스트들 중에 포함되며, 상기 구별값의 구성에 따라 생성되는 구성 정보가 상기 번역 대상 텍스트와 매칭되는 텍스트를 검색할 수 있다.
이때, 구별값의 구성에 따라 생성되는 구성 정보는 텍스트가 포함하고 있는 성분들에 부여된 구별값의 순서에 관계없이, 텍스트가 포함하는 구별값들에 따라 다르게 부여될 수 있다. 또한, 구성 정보는 번역 대상 텍스트로부터 제외된 판별된 단어의 수를 고려하여 생성될 수 있다. 보다 상세하게는, 변역 대상 텍스트가, 번역 대상 텍스트에 포함되고 검색에 사용되지 않는 단어로서 판별되고 번역 대상 텍스트로부터 제외될 수 있는 텍스트를 포함하는 경우, 제외되는 텍스트의 글자 수에 따라 각각 구별되는 구성 정보를 생성하여, 검색에 이용할 수 있다.
도 5는 본 발명의 일 실시예에 따른 텍스트 생성 방법을 도시한 것이다. 도 1 내지 4를 참조하여 도 5를 설명하면 다음과 같다. 본 발명의 일 실시예에 따른 텍스트 생성 방법은 매칭되는 정도가 일정한 기준값 이상인지 판단하는 단계(S400)를 추가적으로 구비할 수 있다. 텍스트 생성 방법은 입력 텍스트와 매칭되고, 데이터베이스에 제2언어의 텍스트와 매칭되도록 저장된 제1언어의 출력 텍스트를 생성할 수 있다.
매칭되는 정도가 일정한 기준값 이상인지 판단하는 단계(S400)는 텍스트를 검색하는 단계(S300)에서 생성된 제1언어의 출력 텍스트에 대하여, 상기 제1 언어 출력 텍스트가 상기 번역 대상 텍스트와 매칭되는 정도가 일정한 기준값 이상인지 판단할 수 있고, 기준값 이상인지 판단하는 것은, 생성된 제1 언어 출력 텍스트에 대하여, 제1 언어 출력 텍스트가 번역 대상 텍스트와 매칭되는 정도를 판단하기 위한 기준값을 입력 받고, 제1 언어 출력 텍스트와 상기 번역 대상 텍스트가 매칭되는 정도가 상기 기준값 이상인지를 판단할 수 있다. 이때 기준값은, 만족유사도로 정의될 수 있는데, 이는 입력 받은 번역 대상 텍스트와 검색 결과 생성된 제1 언어 출력 텍스트가 일치하는 정도를 평가하는 지표를 의미한다. 여기서 일치하는 정도의 평가는 n-gram 분석 방법을 이용할 수 있는데, n-gram 분석 방법은, 확률적 언어 모델로서 n개 단어의 연쇄를 측정하는 것으로서 이에 따라 두 텍스트에서 공통적으로 존재하고 연속하는 글자의 최대 수를 기준으로 평가할 수 있다.
따라서, 매칭되는 정도가 일정한 기준값 이상인지 판단하는 단계(S400)에서 제1언어 출력 텍스트와 번역 대상 텍스트가 매칭되는 정도는, 판별된 단어들의 글자의 수, 상기 판별된 단어들 중 제외된 글자의 수, 상기 번역 대상 텍스트에서 가질 수 있는 최대 인접하는 공통 글자의 수 및 상기 번역 대상 텍스트와 상기 생성된 제1언어 출력 텍스트가 가질 수 있는 최대 인접하는 공통 글자의 수를 고려하여 계산될 수 있다.
한편, 본 발명에서의 구성 정보는, 부여된 구별값과, 번역 대상 텍스트로부터 제외된 판별된 단어의 수를 고려하여 생성될 수 있다. 또한, 번역 대상 텍스트와 매칭되는 텍스트를 검색하는 것은, 부여된 텍스트 성분들에 대한 구별값과, 제외된 단어들의 글자의 수를 고려하여 구별값의 구성 정보를 생성하고, 상기 제1언어의 데이터베이스에 기 저장되고, 구별값이 부여된 텍스트들 중, 상기 구별값의 구성 정보가 매칭되는 텍스트가 있는지 검색하는 것으로 구현될 수 있다. 이때, 적어도 하나의 글자를 제외한 경우, 제외된 글자의 수에 따라 각각 구분되는 구성 정보를 생성할 수 있으며, 구별값의 구성 정보를 생성하는 것은 제외된 단어들의 구성을 추가적으로 고려하여 생성할 수 있다.
본 발명의 일 실시예에 따르면, 제1 언어 출력 텍스트가 번역 대상 텍스트와 매칭되는 정도의 기준값은 판별된 단어들의 글자의 수, 판별된 단어들 중 제외된 글자의 수를 고려하여 설정되는 것으로 할 수 있다. 이는 특히 판별된 단어 중 적어도 하나가 제외된 경우에 적용될 수 있으며, 기준값은 바람직하게는 번역 대상 텍스트에 포함된 판별된 단어들의 글자의 수에서 번역 대상 텍스트에 포함된 판별된 단어들 중 제외된 글자의 수를 차감한 값에 비례하도록 설정될 수 있다.
본 발명의 다른 실시예에 따르면, 판별된 글자를 모두 제외하거나 검색 속도를 늦추는 효율 저하를 방지하기 위해서, 판별된 단어 중 제외 될 수 있는 글자의 수를 제한할 수 있다. 판별된 단어 중 적어도 하나를 제외하는 것은, 입력 받은 기준값을 고려하여, 상기 판별된 단어의 글자의 수를 결정하여 제외하는 것으로 할 수 있다. 바람직하게는, 입력 받은 기준값을 연산한 값과 판별된 단어들의 글자의 수를 곱한 것으로 할 수 있다. 이때, 판별된 단어들 중 하나의 형태소와 결합된 단어의 글자의 수가 제한된 글자의 수보다 크다면 제외하지 아니할 수 있다. 또한, 해당 계산된 글자의 수 제한이 소수점 값을 가질 경우에, 그 이하의 정수로 내림하여 이용할 수 있다.
한편, 생성된 제1언어 텍스트가 상기 번역 대상 텍스트로부터 변경될 수 있는 글자의 수는, 판별된 단어들의 글자의 수, 상기 판별된 단어들 중 제외된 글자의 수 및 입력 받은 기준값을 고려하여 정해질 수 있다. 특히, 1 에서 입력 받은 기준값 또는 만족유사도를 차감한 값에 입력 받은 번역 대상 텍스트에 포함된 판별된 단어들의 글자의 수를 곱한 값을 곱하여 정의할 수 있다.
또한, 본 발명에서 입력 받은 번역 대상 텍스트의 구성 정보가 형용사(VA) 또는 동사(VV)를 포함하는 경우에 있어서, 평가의 기준이 되는 기준값 또는 만족유사도는, 번역 대상 텍스트에 포함된 형용사 또는 동사만을 추출하여, 번역 대상 텍스트로부터 추출된 형용사 또는 동사만으로 이루어진 텍스트가 가질 수 있는 최대 인접하는 공통 글자의 수와, 검색된 제1언어 출력 텍스트에서 추출된 형용사 또는 동사만으로 이루어진 텍스트와 번역대상 텍스트로부터 추출된 형용사 또는 동사만으로 이루어진 텍스트가 가지는 최대 인접하는 공통 글자의 수를 고려하여 계산되도록 할 수 있다.
특히, 본 발명에서 이용되는 기준값 또는 만족유사도는, 입력 받은 번역 대상 텍스트에 포함된 판별된 단어들의 글자의 수와 판별된 단어들 중 제외된 글자의 수의 차감값을 판별된 단어들의 글자의 수로 나눈 값과, 검색된 제1언어 출력 텍스트에서 추출된 형용사 또는 동사만으로 이루어진 텍스트와 번역대상 텍스트로부터 추출된 형용사 또는 동사만으로 이루어진 텍스트가 가지는 최대 인접하는 공통 글자의 수를 번역 대상 텍스트로부터 추출된 형용사 또는 동사만으로 이루어진 텍스트가 가질 수 있는 최대 인접하는 공통 글자의 수로 나눈 값을 곱한 것으로 정의될 수 있다.
한편 텍스트를 검색하는 단계(S330)로부터 생성된 제1언어의 출력 텍스트는 별도의 표시부 또는 결합되어 마련된 표시부에 출력될 수 있는데, 입력 받은 제1언어의 번역 대상 텍스트가 완전히 또는 일정 기준값 이상으로 매칭되는 텍스트를 데이터베이스로부터 찾지 못하는 경우에, 입력된 번역 대상 텍스트를 그대로 표시할 수 있다. 즉, 제1언어 출력 텍스트의 생성이 어려운 경우에는 입력 받은 번역 대상 텍스트를 그대로 번역할 수 있으며, 이 경우, 종래기술로서 일반적인 기계 번역 방식에 의하여 입력 받은 텍스트의 번역을 진행할 수 있다. 이는 입력 받은 번역 대상 텍스트의 일부에 대하여만 제1언어 출력 텍스트의 생성이 가능한 경우에도 마찬가지로, 제1언어 출력 텍스트의 생성이 곤란한 나머지 부분에 대하여는 입력 받은 번역 대상 텍스트에 대하여 기계번역을 진행할 수 있다.
도 6은 본 발명의 일 실시예에 따른 텍스트 입출력 장치(20)를 도시한 것이다. 도 1 내지 5를 참조하여 설명하면 다음과 같다. 본 실시예에서 텍스트 입출력 장치(20)는 터치 기반 디바이스로서 스마트폰인 경우를 예시하나, 이에 한정되지 아니한다.
도 6의 (a)는 본 발명에서의 텍스트 입출력 장치(20)의 일 실시예에 있어서, 번역 대상 텍스트를 입력 받은 상태를 도시한 것이다. 본 실시예의 경우, 장치가 스마트폰인 경우를 예시하므로 번역 대상 텍스트의 입력부와 제1언어 텍스트 출력부 및 제2언어 텍스트 출력부가 결합되어 하나의 장치로 구현되고, 번역 대상 텍스트의 입력은 입력부에 대한 터치 입력으로 이루어질 수 있다. 이때, 입력 받은 번역 대상 텍스트의 해당 언어인 제1언어를 감지하여, 사용자가 인지할 수 있도록 감지된 언어를 표시할 수 있다. 또한, 도시하지는 아니하였으나 입력 받은 번역 대상 텍스트와 이를 기초로 생성된 제1언어 출력 텍스트에 있어서 매칭되는 각각의 텍스트를 사용자의 선택에 따라 표시되도록 할 수 있다.
도 6의 (b)는 본 발명에서의 텍스트 입출력 장치(20)의 일 실시예에 있어서, 입력받은 번역 대상 텍스트와 매칭되는 제1언어 출력 텍스트가 표시되고, 제1언어 출력 텍스트와 매칭되는 제2언어 출력 텍스트로서 번역된 결과가 표시된 상태를 도시한 것이다. 또한, 생성된 제1언어 출력 텍스트와, 데이터베이스에 저장되고, 제1언어 출력 텍스트와 매칭되는 번역 결과인 제2언어 출력 텍스트에 있어서, 상호 매칭되는 텍스트 쌍을 사용자가 인지하고 비교할 수 있도록 도시한 바와 같이 표시할 수 있다.
한편, 생성된 텍스트가 입력 받은 번역 대상 텍스트와 완전히 또는 일정한 기준값 이상으로 매칭되지 않는 경우에는, 번역 대상 텍스트를 그대로 제1언어 텍스트 출력부에 표시하고, 이를 기계 번역한 결과를 제2언어 텍스트 출력부에 표시할 수 있다.
도 7은 본 발명의 일 실시예에 따른 텍스트 생성 장치(20)를 도시한 것이다. 도 1 내지 6을 참조하여 설명하면 다음과 같다. 본 실시예의 경우, 장치가 스마트폰, 태블릿 pc와 같은 터치 기반 디바이스로, 텍스트 생성 장치(20)의 구성 요소인 입력부(21), 입력언어 출력부로서 제1언어 출력부(23), 출력언어 출력부로서 제2언어 출력부(25)가 하나로 마련되고, 특히 입력부(21)의 경우 사용자로부터 텍스트를 입력 받음과 동시에 입력된 번역 대상 텍스트의 내용을 표시할 수 있다. 이때, 제1언어 출력부는 사용자로부터 입력된 번역 대상 텍스트를 인식하여 해당 언어인 제1언어의 국가를 감지하여 표시하고, 제2언어 출력부는 선택된 번역 목적 언어인 제2언어의 국가를 함께 표시할 수 있다.
본 발명에 따른 방법은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
본 발명은 도면에 도시된 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 청구범위의 기술적 사상에 의해 정해져야 할 것이다.

Claims (18)

  1. 텍스트를 생성하는 텍스트 생성 장치가 적어도 하나의 단어를 포함하는 제1언어의 번역 대상 텍스트를 입력 받는 단계;
    상기 번역 대상 텍스트를 형태소 분류 단위에 따라 분해하는 단계; 및
    상기 분해된 번역 대상 텍스트에 대하여 제1언어의 데이터베이스로부터 검색을 실시 하여 제1 언어의 출력 텍스트를 생성하는 단계; 를 포함하고,
    상기 제1 언어의 출력 텍스트를 생성하는 단계는,
    상기 분해된 번역 대상 텍스트 성분들 중 검색에 사용되지 않는 단어를 판별하고, 상기 판별된 단어 중 적어도 하나를 검색 대상에서 제외하는 단계;
    상기 판별된 단어를 제외한 분해된 번역 대상 텍스트 성분들을 각 성분의 문법적 성질에 따라 분류하고, 상기 분류에 따른 구별값을 부여하는 단계; 및
    상기 제1 언어의 데이터베이스에 기 저장되고, 상기 구별값이 부여된 텍스트들 중, 상기 텍스트들 중에 포함되며, 상기 구별값의 구성에 따라 생성되는 구성 정보가 상기 번역 대상 텍스트와 매칭되는 텍스트를 검색하는 단계; 를 포함하는 것을 특징으로 하는 텍스트 생성 방법.
  2. 제1항에 있어서,
    상기 분해하는 것은, 상기 번역 대상 텍스트를 미리 정해진 상기 형태소 분류 단위에 따라 문법적 성질을 고려한 소분류 단위까지 분해하고, 특히 명사의 경우에는 그 용법에 따라 세분류 단위까지 분해하는 것을 특징으로 하는 텍스트 생성 방법
  3. 제1항에 있어서, 상기 번역 대상 텍스트에 대하여 검색을 실시하는 것은,
    상기 분해된 번역 대상 텍스트 성분들을 문법적 성질에 따라 분류하고, 상기 분류에 따른 구별값을 부여하고, 상기 제1 언어의 데이터베이스에 기 저장되고 상기 구별값이 부여된 텍스트들 중, 상기 텍스트들에 포함되며, 상기 구별값의 구성이 상기 번역 대상 텍스트와 매칭되는 텍스트를 검색하는 것을 특징으로 하는 텍스트 생성 방법.
  4. 삭제
  5. 제1항에 있어서,
    상기 구성 정보는, 상기 부여된 구별값과, 상기 번역 대상 텍스트로부터 제외된 상기 판별된 단어의 수를 고려하여 생성되는 것을 특징으로 하는 텍스트 생성 방법.
  6. 제1항에 있어서,
    상기 번역 대상 텍스트와 매칭되는 텍스트를 검색하는 것은, 상기 부여된 텍스트 성분들에 대한 구별값과, 상기 제외된 단어들의 수를 고려하여 상기 구별값의 구성 정보를 생성하고, 상기 제1언어의 데이터베이스에 기 저장되고, 상기 구별값이 부여된 텍스트들 중, 상기 구별값의 구성 정보가 매칭되는 텍스트가 있는지 검색하는 것을 특징으로 하는 텍스트 생성 방법.
  7. 제1항에 있어서,
    상기 생성된 제1 언어 출력 텍스트에 대하여, 상기 제1 언어 출력 텍스트가 상기 번역 대상 텍스트와 매칭되는 정도가 일정한 기준값 이상인지 판단하는 단계; 를 더 포함하는 것을 특징으로 하는 텍스트 생성 방법.
  8. 제7항에 있어서, 상기 기준값 이상인지 판단하는 것은,
    상기 생성된 제1 언어 출력 텍스트에 대하여, 상기 제1 언어 출력 텍스트가 상기 번역 대상 텍스트와 매칭되는 정도를 판단하기 위한 기준값을 입력 받고, 상기 제1 언어 출력 텍스트와 상기 번역 대상 텍스트가 매칭되는 정도가 상기 기준값 이상인지를 판단하는 것을 특징으로 하는 텍스트 생성 방법.
  9. 제7항에 있어서 상기 기준값은,
    상기 판별된 단어들의 글자의 수, 상기 판별된 단어들 중 제외된 글자의 수를 고려하여 설정되는 것을 특징으로 하는 텍스트 생성 방법.
  10. 제8항에 있어서 상기 제1언어 출력 텍스트와 상기 번역 대상 텍스트가 매칭되는 정도는,
    상기 판별된 단어들의 글자의 수, 상기 판별된 단어들 중 제외된 글자의 수, 상기 번역 대상 텍스트에서 가질 수 있는 최대 인접하는 공통 글자의 수 및 상기 번역 대상 텍스트와 상기 생성된 제1언어 출력 텍스트가 가질 수 있는 최대 인접하는 공통 글자의 수를 고려하여 계산되는 것을 특징으로 하는 텍스트 생성 방법.
  11. 제8항에 있어서 상기 판별된 단어 중 적어도 하나를 제외하는 것은,
    상기 입력 받은 기준값을 고려하여, 상기 판별된 단어의 글자의 수를 결정하여 제외하는 것을 특징으로 하는 텍스트 생성 방법.
  12. 제8항에 있어서,
    상기 생성된 제1언어 텍스트가 상기 번역 대상 텍스트로부터 변경될 수 있는 글자의 수는,
    상기 판별된 단어들의 글자의 수, 상기 판별된 단어들 중 제외된 글자의 수 및 상기 입력 받은 기준값을 고려하여 정해지는 것을 특징으로 하는 텍스트 생성 방법.
  13. 적어도 하나의 단어를 포함하는 제1 언어의 번역 대상 텍스트를 입력 받는 입력부;
    상기 번역 대상 텍스트를 형태소 분류 단위에 따라 분해하는 분해부; 및
    상기 분해된 번역 대상 텍스트에 대하여 검색을 실시하여 제1언어 출력 텍스트를 생성하는 텍스트 생성부; 를 포함하고,
    상기 텍스트 생성부는,
    상기 분해된 번역 대상 텍스트 성분들 중 검색에 사용되지 않는 단어를 판별하고, 상기 판별된 단어들 중 적어도 하나를 검색 대상에서 제외하는 단어 판별부;
    상기 판별된 단어를 제외한 분해된 번역 대상 텍스트 성분들을 각 성분의 문법적 성질에 따라 분류하고, 상기 분류에 따른 구별값을 부여하는 구별값 부여부; 및
    상기 제1 언어의 데이터베이스에 기 저장되고, 상기 구별값이 부여된 텍스트들 중, 상기 텍스트들 중에 포함되며 상기 구별값의 구성에 따라 생성되는 구성 정보가 상기 번역 대상 텍스트와 매칭되는 텍스트를 검색하는 텍스트 검색부; 를 포함하는 것을 특징으로 하는 텍스트 생성 장치.
  14. 삭제
  15. 제13항에 있어서,
    상기 번역 대상 텍스트와 매칭되는 텍스트를 검색하는 것은,
    상기 분해된 번역 대상 텍스트 성분들에 대한 구별값과, 상기 제외된 단어들의 수를 고려하여 상기 구별값의 구성 정보를 생성하고, 상기 제1언어의 데이터베이스에 기 저장되고, 상기 구별값이 부여된 텍스트들 중, 상기 구별값의 구성 정보가 매칭되는 텍스트가 있는지 검색하는 것을 특징으로 하는 텍스트 생성 장치.
  16. 제13항에 있어서,
    상기 생성된 제1 언어 출력 텍스트에 대하여, 상기 제1언어 출력 텍스트가 상기 번역 대상 텍스트와 매칭되는 정도가 일정한 기준값 이상인지 판단하는 기준값 판단부;를 더 포함하는 것을 특징으로 하는 텍스트 생성 장치.
  17. 제16항에 있어서, 상기 번역 대상 텍스트와 매칭되는 정도가 일정한 기준값 이상인지 판단하는 것은,
    상기 생성된 제1언어 출력 텍스트에 대하여, 상기 제1 언어 출력 텍스트가 상기 번역 대상 텍스트와 매칭되는 정도를 판단하기 위한 기준값을 입력 받고, 상기 제1 언어 출력 텍스트와 상기 번역 대상 텍스트가 매칭되는 정도가 상기 기준값 이상인지를 판단하는 것을 특징으로 하는 텍스트 생성 장치.
  18. 사용자로부터 적어도 하나의 단어를 포함하는 제1 언어의 번역 대상 텍스트를 입력 받는 입력부;
    상기 입력 받은 번역 대상 텍스트를 형태소 분류 단위에 따라 분해하고, 상기 분해된 번역 대상 텍스트 성분들 중 검색에 사용되지 않는 단어를 판별하며, 상기 판별된 단어들 중 적어도 하나를 검색 대상에서 제외하고, 상기 판별된 단어를 제외한 분해된 번역 대상 텍스트 성분들을 각 성분의 문법적 성질에 따라 분류하며, 상기 분류에 따른 구별값을 부여하고, 상기 제1 언어의 데이터베이스에 기 저장되며, 상기 구별값이 부여된 텍스트들 중, 상기 텍스트들 중에 포함되며 상기 구별값의 구성에 따라 생성되는 구성 정보가 상기 번역 대상 텍스트와 매칭되는 텍스트를 검색하여 생성된 제1언어 출력 텍스트를 출력하는 제1언어 출력부; 및
    제2언어의 데이터베이스로부터 상기 제1언어 출력 텍스트에 대하여 매칭된 제2언어에서의 상기 번역 대상 텍스트인 제2 언어 출력 텍스트를 출력하는 제2언어 출력부; 를 포함하는 텍스트 입출력 장치.
KR1020160088729A 2016-07-13 2016-07-13 텍스트 생성 방법 및 장치 KR101834436B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160088729A KR101834436B1 (ko) 2016-07-13 2016-07-13 텍스트 생성 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160088729A KR101834436B1 (ko) 2016-07-13 2016-07-13 텍스트 생성 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20180007554A KR20180007554A (ko) 2018-01-23
KR101834436B1 true KR101834436B1 (ko) 2018-03-05

Family

ID=61071064

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160088729A KR101834436B1 (ko) 2016-07-13 2016-07-13 텍스트 생성 방법 및 장치

Country Status (1)

Country Link
KR (1) KR101834436B1 (ko)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007518164A (ja) 2004-01-06 2007-07-05 イン−ソプ リ 自動翻訳装置及びその自動翻訳装置を利用した自動翻訳方法並びにその自動翻訳装置が記録された記録媒体
JP2009258887A (ja) * 2008-04-15 2009-11-05 Toshiba Corp 機械翻訳装置及び機械翻訳プログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007518164A (ja) 2004-01-06 2007-07-05 イン−ソプ リ 自動翻訳装置及びその自動翻訳装置を利用した自動翻訳方法並びにその自動翻訳装置が記録された記録媒体
JP2009258887A (ja) * 2008-04-15 2009-11-05 Toshiba Corp 機械翻訳装置及び機械翻訳プログラム

Also Published As

Publication number Publication date
KR20180007554A (ko) 2018-01-23

Similar Documents

Publication Publication Date Title
US7774193B2 (en) Proofing of word collocation errors based on a comparison with collocations in a corpus
Şeker et al. Initial explorations on using CRFs for Turkish named entity recognition
US7269544B2 (en) System and method for identifying special word usage in a document
US20100332217A1 (en) Method for text improvement via linguistic abstractions
US10552467B2 (en) System and method for language sensitive contextual searching
KR101573854B1 (ko) 관계어 기반 확률추정 방법을 이용한 통계적 문맥의존 철자오류 교정 장치 및 방법
RU2491622C1 (ru) Способ классификации документов по категориям
US20100094615A1 (en) Document translation apparatus and method
JP6433937B2 (ja) キーワード評価装置、類似度評価装置、検索装置、評価方法、検索方法、及びプログラム
JPWO2014002774A1 (ja) 同義語抽出システム、方法および記録媒体
JP5097802B2 (ja) ローマ字変換を用いる日本語自動推薦システムおよび方法
Silla Jr et al. An analysis of sentence boundary detection systems for English and Portuguese documents
KR102351745B1 (ko) 사용자 리뷰 기반 평점 재산정 장치 및 방법
KR101834436B1 (ko) 텍스트 생성 방법 및 장치
JP4361299B2 (ja) 評価表現抽出装置、プログラム、及び記憶媒体
JP5364529B2 (ja) 辞書登録装置、文書ラベル判定システムおよび辞書登録プログラム
JP5025603B2 (ja) 機械翻訳装置、機械翻訳プログラム及び機械翻訳方法
JP6375367B2 (ja) 反論生成方法,反論生成システム
JP2007122660A (ja) 文書データ処理装置および文書データ処理プログラム
Demilie et al. Automated all in one misspelling detection and correction system for Ethiopian languages
Nishy Reshmi et al. Textual entailment classification using syntactic structures and semantic relations
JP2006331246A (ja) 意見分析処理方法、意見分析処理装置およびプログラム
WO2021049485A1 (ja) 法律分析装置、及び法律分析方法
KR20150111587A (ko) 디비피디아를 활용한 uri 스포팅 시스템 및 방법
CN113094469B (zh) 文本数据分析方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant