KR101664258B1 - 텍스트 전처리 방법 및 이를 수행하는 전처리 시스템 - Google Patents

텍스트 전처리 방법 및 이를 수행하는 전처리 시스템 Download PDF

Info

Publication number
KR101664258B1
KR101664258B1 KR1020150088695A KR20150088695A KR101664258B1 KR 101664258 B1 KR101664258 B1 KR 101664258B1 KR 1020150088695 A KR1020150088695 A KR 1020150088695A KR 20150088695 A KR20150088695 A KR 20150088695A KR 101664258 B1 KR101664258 B1 KR 101664258B1
Authority
KR
South Korea
Prior art keywords
term
text
substitute
preprocessing
alternative
Prior art date
Application number
KR1020150088695A
Other languages
English (en)
Inventor
문연국
이동현
채승훈
윤희화
Original Assignee
전자부품연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 전자부품연구원 filed Critical 전자부품연구원
Priority to KR1020150088695A priority Critical patent/KR101664258B1/ko
Priority to CN201680001271.6A priority patent/CN107148624A/zh
Priority to PCT/KR2016/006576 priority patent/WO2016208941A1/ko
Application granted granted Critical
Publication of KR101664258B1 publication Critical patent/KR101664258B1/ko

Links

Images

Classifications

    • G06F17/2809
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • G06F17/271
    • G06F17/2755
    • G06F17/2845
    • G06F17/289
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/49Data-driven translation using very large corpora, e.g. the web
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 번역 대상 텍스트에 포함된 용어를 표준어로 대체하는 전처리를 통해 기계 번역의 정확도를 높일 수 있는 텍스트 전처리 방법 및 이를 수행하는 전처리 시스템에 관한 것으로, 텍스트 전처리 시스템은 대체 용어를 저장하는 대체 용어 데이터베이스 및 상기 입력된 텍스트를 전처리하여 상기 입력된 텍스트와 동일한 언어의 텍스트를 출력하는 전처리 엔진을 실행하는 프로세서를 포함하되, 상기 전처리 엔진은 상기 입력된 텍스트에서 대체 대상 용어를 식별하고, 상기 식별된 대체 대상 용어를 대체 용어로 대체한 텍스트를 출력한다.

Description

텍스트 전처리 방법 및 이를 수행하는 전처리 시스템{TEXT PREPROCESSING METHOD AND PREPROCESSING SYTEM PERFORMING THE SAME}
본 발명은 텍스트 번역 기술에 관한 것으로, 보다 상세하게는 번역 대상 텍스트에 포함된 용어를 표준어로 대체하는 전처리를 통해 기계 번역의 정확도를 높일 수 있는 텍스트 전처리 방법 및 이를 수행하는 전처리 시스템에 관한 것이다.
웹툰(Webtoon)은 웹(Web)과 카툰(Cartoon)의 합성어로 웹 코믹 플랫폼을 통칭한다. 웹툰은 모바일 디바이스 기술과 결합하여 전세계적으로 인기 있는 하나의 미디어 컨텐츠로 부상하였다. 웹툰의 세계적인 인기와 함께 다양한 언어로 웹툰의 번역이 진행되고 있다.
현재 웹툰 번역은 사람이 직접 웹툰을 읽고 번역하는 수준에 머물러 있다. 체계적인 번역 과정 없이 개인의 능력에 의존하여 번역하는 경우가 대부분이어서 번역의 정확성 측면이나 문화적 차이를 고려한 표현의 측면에서 한계가 여실히 드러나고 있다.
또한, 종래 기계 번역 엔진은 신조어, 한글 파괴어, 구어체, 의성어, 의태어, 사투리 등 표준어가 아닌 언어들의 번역 정확도가 확연히 떨어지고, 번역 방식, 엔진 별 DB내 구축된 용어 등에 의해 정확도가 크게 영향을 받는 문제점 있다.
한국등록특허 제10-1099177호는 기계 번역기를 훈련하기 위한 방법 및 시스템에 관한 것으로, 다른 기계 번역기들에 의해 생성된 텍스트 입력들을 가지고 훈련되는 기계 번역기가 개시된다. 사용자 또는 다른 소스(source)에 의해 제1 언어로 된 텍스트 입력이 제공되고, 그 후 이러한 텍스트 입력이 제1 기계 번역기에 의해 번역되어 그 텍스트 입력의 제2 언어로 번역된 버전이 생성된다. 그 텍스트 입력 및 번역된 버전이 파싱되고(parsed) 훈련 아키텍처를 통과하여 전송 매핑(transfer mapping) 및 이중언어 사전(bilingual dictionary)이 개발된다. 이러한 컴포넌트들은 그 후 제2 기계 번역기에 의해 다른 텍스트 입력들을 번역할 때 사용된다.
한국등록특허 제10-0961717호는 병렬 코퍼스를 이용한 기계번역 오류 탐지 방법 및 장치에 관한 것으로, 병렬 코퍼스를 이용하여 규칙기반의 기계번역시스템의 오류를 자동으로 탐지하고 추적함에 있어, 기계 번역상 발견된 오류를 병렬 코퍼스의 목적언어 문장 즉, 정답 문장을 이용하여 오류 수정이 가능할 뿐만 아니라, 오류 유형을 분류하여 일정한 빈도수 이상의 오류들을 오류 정보로 제공함으로써, 기계번역상 오류를 탐지하는데 소요되는 시간과 노력을 획기적으로 줄일 수 있으며, 시스템 엔지니어가 탐지, 추적된 오류 정보를 통해 기계번역시스템의 성능을 쉽게 개선할 수 있도록 함으로써, 기계번역시스템의 성능 향상 효율을 극대화할 수 있다.
한국등록특허 제10-1099177호(2011.12.20) 한국등록특허 제10-0961717호(2010.05.28)
본 발명의 일 실시예는 번역 대상 텍스트에 포함된 용어를 표준어로 대체하는 전처리를 수행하는 텍스트 전처리 방법 및 이를 수행하는 전처리 시스템을 제공하고자 한다.
본 발명의 일 실시예는 기계 번역에 앞서 번역 대상 텍스트에 대한 전처리를 수행하여 번역 정확도를 향상시킬 수 있는 텍스트 전처리 방법 및 이를 수행하는 전처리 시스템을 제공하고자 한다.
본 발명의 일 실시예는 신조어, 한글 파괴어, 구어체, 의성어, 의태어, 사투리 등 표준어가 아닌 언어들을 포함하는 웹툰 텍스트의 번역 정확도를 향상시킬 수 있는 텍스트 전처리 방법 및 이를 수행하는 전처리 시스템을 제공하고자 한다.
실시예들 중에서, 텍스트 전처리 시스템은 대체 용어를 저장하는 대체 용어 데이터베이스 및 상기 입력된 텍스트를 전처리하여 상기 입력된 텍스트와 동일한 언어의 텍스트를 출력하는 전처리 엔진을 실행하는 프로세서를 포함하되, 상기 전처리 엔진은 상기 입력된 텍스트에서 대체 대상 용어를 식별하고, 상기 식별된 대체 대상 용어를 대체 용어로 대체한 텍스트를 출력한다.
일 실시예에서, 상기 전처리 엔진은 상기 입력된 텍스트를 형태소 단위로 분리하고 분리된 형태소의 품사를 결정하는 형태소 분석부, 상기 분리된 형태소가 대체 대상 용어에 해당하는 지 여부를 식별하는 용어 식별부 및 상기 분리된 형태소가 대체 대상 용어에 해당하는 경우, 용어의 일치 여부를 기초로 상기 대체 용어 데이터베이스에서 상기 대체 대상 용어에 대응되는 대체 용어를 검색하는 대체 용어 검색부를 포함할 수 있다.
일 실시예에서, 상기 전처리 엔진은 상기 대체 대상 용어를 상기 검색된 대체 용어로 대체한 텍스트를 생성하는 텍스트 생성부를 더 포함할 수 있다.
일 실시예에서, 상기 전처리 엔진은 용어의 일치 여부를 기초로 상기 대체 용어 데이터베이스에 대응되는 대체 용어가 없는 경우, 상기 입력된 텍스트의 구문을 분석하여 상기 대체 용어가 없는 용어에 대한 의미를 추정하는 구문 분석부를 더 포함하고, 상기 대체 용어 검색부는 상기 구문 분석 결과를 기초로 추정된 의미에 대응되는 대체 용어를 검색할 수 있다.
일 실시예에서, 상기 구문 분석부는 상기 분리된 형태소를 문법에 따라 분석하여 구문 트리 구조를 생성하여 상기 용어에 대한 의미를 추정할 수 있다.
일 실시예에서, 상기 전처리 엔진은 상기 용어와 해당 용어에 대해 추정된 의미에 대응되는 대체 용어를 연계하여 상기 대체 용어 데이터베이스에 저장하는 대체 용어 등록부를 더 포함할 수 있다.
일 실시예에서, 상기 텍스트 전처리 시스템은 대체 대상 용어를 저장하는 대체 대상 용어 데이터베이스를 더 포함하고, 상기 전처리 엔진은 상기 대체 대상 용어 데이터베이스에 저장된 대체 대상 용어와의 일치 여부를 기초로 상기 입력된 텍스트에서 대체 대상 용어를 식별할 수 있다.
일 실시예에서, 상기 텍스트 전처리 시스템은 기계 번역 용어를 저장하는 번역 용어 데이터베이스를 더 포함하고, 상기 전처리 엔진은 상기 번역 용어 데이터베이스에 용어가 포함되어 있는지 여부를 기초로 상기 입력된 텍스트에서 대체 대상 용어를 식별할 수 있다.
일 실시예에서, 상기 프로세서는 입력된 텍스트를 다른 언어의 텍스트로 번역하는 기계 번역 엔진을 실행하고, 상기 기계 번역 엔진은 상기 전처리 엔진에서 출력된 텍스트를 설정된 언어로 기계 번역할 수 있다.
실시예들 중에서, 텍스트 전처리 방법은 (a) 상기 입력된 텍스트를 형태소 단위로 분리하고 분리된 형태소의 품사를 결정하는 단계, (b) 상기 분리된 형태소가 대체 대상 용어에 해당하는 지 여부를 식별하는 단계, (c) 상기 분리된 형태소가 대체 대상 용어에 해당하는 경우, 용어의 일치 여부를 기초로 상기 대체 용어 데이터베이스에서 상기 대체 대상 용어에 대응되는 대체 용어를 검색하는 단계 및 (d) 상기 대체 대상 용어를 상기 검색된 대체 용어로 대체한 텍스트를 생성하는 단계를 포함한다.
본 발명의 일 실시예에 따른 텍스트 전처리 방법 및 이를 수행하는 전처리 시스템은 번역 대상 텍스트에 포함된 용어를 표준어로 대체하는 전처리를 수행할 수 있다.
본 발명의 일 실시예에 따른 텍스트 전처리 방법 및 이를 수행하는 전처리 시스템은 기계 번역에 앞서 번역 대상 텍스트에 대한 전처리를 수행하여 번역 정확도를 향상시킬 수 있다.
본 발명의 일 실시예에 따른 텍스트 전처리 방법 및 이를 수행하는 전처리 시스템은 신조어, 한글 파괴어, 구어체, 의성어, 의태어, 사투리 등 표준어가 아닌 언어들을 포함하는 웹툰 텍스트의 번역 정확도를 향상시킬 수 있다.
도 1은 본 발명의 일 실시예에 따른 텍스트 전처리 시스템을 설명하는 도면이다.
도 2는 도 1에 있는 텍스트 전처리 서버를 나타내는 블록도이다.
도 3은 도 2에 있는 전처리 엔진을 나타내는 블록도이다.
도 4는 구문 분석 과정을 나타내는 블록도이다.
도 5는 도 1에 있는 텍스트 전처리 시스템에서 수행되는 텍스트 번역 방법을 설명하는 흐름도이다.
본 발명에 관한 설명은 구조적 내지 기능적 설명을 위한 실시예에 불과하므로, 본 발명의 권리범위는 본문에 설명된 실시예에 의하여 제한되는 것으로 해석되어서는 아니 된다. 즉, 실시예는 다양한 변경이 가능하고 여러 가지 형태를 가질 수 있으므로 본 발명의 권리범위는 기술적 사상을 실현할 수 있는 균등물들을 포함하는 것으로 이해되어야 한다. 또한, 본 발명에서 제시된 목적 또는 효과는 특정 실시예가 이를 전부 포함하여야 한다거나 그러한 효과만을 포함하여야 한다는 의미는 아니므로, 본 발명의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.
한편, 본 출원에서 서술되는 용어의 의미는 다음과 같이 이해되어야 할 것이다.
"제1", "제2" 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하기 위한 것으로, 이들 용어들에 의해 권리범위가 한정되어서는 아니 된다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.
어떤 구성요소가 다른 구성요소에 "연결되어"있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결될 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어"있다고 언급된 때에는 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 한편, 구성요소들 간의 관계를 설명하는 다른 표현들, 즉 "~사이에"와 "바로 ~사이에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "포함하다"또는 "가지다" 등의 용어는 실시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
각 단계들에 있어 식별부호(예를 들어, a, b, c 등)는 설명의 편의를 위하여 사용되는 것으로 식별부호는 각 단계들의 순서를 설명하는 것이 아니며, 각 단계들은 문맥상 명백하게 특정 순서를 기재하지 않는 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 단계들은 명기된 순서와 동일하게 일어날 수도 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.
본 발명은 컴퓨터가 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현될 수 있고, 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있으며, 또한, 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
여기서 사용되는 모든 용어들은 다르게 정의되지 않는 한, 본 발명이 속하는 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한 이상적이거나 과도하게 형식적인 의미를 지니는 것으로 해석될 수 없다.
도 1은 본 발명의 일 실시예에 따른 텍스트 전처리 시스템을 설명하는 도면이다.
도 1을 참조하면, 텍스트 전처리 시스템(100)은 사용자 단말(110), 텍스트 전처리 서버(120), 제1 데이터베이스(130) 및 제2 데이터베이스(140)를 포함하고, 이들은 네트워크를 통해 연결될 수 있다.
사용자 단말(110)은 텍스트 전처리 서버(120)와 연결된 컴퓨팅 장치에 해당하고, 예를 들어, 데스크톱, 노트북, 태블릿 PC 또는 스마트폰으로 구현될 수 있다. 일 실시예에서, 사용자 단말(110)은 데스크톱에 해당할 수 있고, 텍스트 전처리 서버(120)와 LAN을 통해 연결될 수 있다.
텍스트 전처리 서버(120)는 입력된 텍스트를 다른 언어의 텍스트로 번역하기 전에 텍스트를 전처리하여 출력할 수 있다. 일 실시예에서, 텍스트 전처리 서버(120)는 입력된 텍스트를 전처리하는 전처리 엔진을 포함하고, 전처리된 텍스트를 기계 번역하는 기계 번역 엔진을 포함하는 텍스트 번역 서버(미도시)와 연계될 수 있다. 일 실시예에서, 전처리 엔진은 입력된 텍스트에서 대체 대상 용어를 식별하고, 식별된 대체 대상 용어를 대체 용어로 대체한 텍스트를 출력할 수 있다. 기계 번역 엔진은 전처리 엔진에서 출력된 텍스트를 설정된 언어로 기계 번역하여 출력한다.
일 실시예에서, 텍스트 전처리 서버(120)는 크라우드 소싱(crowd sourcing) 번역 엔진을 포함하는 크라우드 소싱 서버(미도시)와 연계될 수 있다. 크라우드 소싱(crowd sourcing) 번역 엔진은 크라우드 소싱을 통해 구축된 데이터베이스를 이용하여 기계 번역된 텍스트를 해당 언어의 표현에 적합하도록 수정할 수 있다. 일 실시예에서, 텍스트 전처리 서버, 번역 서버 및 크라우드 소싱 서버는 하나의 시스템 내에 구비되어 구현될 수도 있고, 각각 다른 시스템으로 구현되어 처리 순서에 따라 연결될 수도 있다.
일 실시예에서, 제1 데이터베이스(130)는 대체 대상 용어를 저장하는 대체 대상 용어 데이터베이스에 해당할 수 있다. 전처리 엔진은 제1 데이터베이스(130)에 저장된 대체 대상 용어가 텍스트에 포함되어 있는 지 여부를 판단하여 텍스트에 포함된 대체 대상 용어를 식별할 수 있다.
다른 실시예에서, 제1 데이터베이스(130)는 번역 용어를 저장하는 번역 용어 데이터베이스에 해당할 수 있다. 전처리 엔진은 텍스트에 포함된 용어가 제1 데이터베이스에 포함되어 있는지 여부를 판단하여 대체 대상 용어를 식별할 수 있다. 예를 들어, 텍스트에 포함된 용어가 제1 데이터베이스(130)에 포함되어 있지 않으면, 전처리 엔진은 대체 대상 용어로 식별할 수 있다.
제2 데이터베이스(140)는 대체 용어를 저장하는 대체 용어 데이터베이스에 해당할 수 있다. 전처리 엔진은 제2 데이터베이스(140)에서 대체 대상 용어에 대응되는 대체 용어를 검색할 수 있다.
도 2는 도 1에 있는 텍스트 전처리 서버를 나타내는 블록도이다.
도 2를 참조하면, 텍스트 전처리 서버(110)는 프로세서(210), 메모리(220), 저장장치(230), 네트워크 인터페이스(240), 사용자 인터페이스 입력 장치(250) 및 사용자 인터페이스 출력 장치(260)를 포함한다.
프로세서(210)는 전처리 엔진(212) 및 메모리 관리자(216)를 실행한다. 전처리 엔진(212)은 입력된 텍스트에서 대체 대상 용어를 식별하고, 식별된 대체 대상 용어를 대체 용어로 대체한 텍스트를 출력한다.
메모리 관리자(216)는 전처리 엔진(212) 에 의하여 읽혀지거나 또는 기록되는 메모리(220)에 있는 데이터를 관리한다. 메모리(220)는 휘발성 또는 비휘발성 메모리로 구현될 수 있다.
저장장치(230)는 SSD(Solid State Disk) 또는 HDD(Hard Disk Drive)와 같은 비휘발성 메모리로 구현될 수 있고, 텍스트 전처리 서버(120)에 필요한 데이터를 저장하는데 사용된다.
네트워크 인터페이스(240)는 네트워크와 연결하기 위한 장치를 포함하고, 예를 들어, LAN(Local Area Network) 통신을 위한 어댑터를 포함할 수 있다.
사용자 인터페이스 입력 장치(250)는 사용자 입력을 수신하기 위한 장치를 포함하고, 예를 들어, 마우스, 트랙볼, 터치 패드, 그래픽 태블릿, 스캐너, 터치 스크린, 키보드 또는 포인팅 장치와 같은 어댑터를 포함할 수 있다. 사용자 인터페이스 출력 장치(260)는 사용자에게 특정 정보(예를 들어, 번역된 텍스트)를 출력하기 위한 장치를 포함하고, 예를 들어, 모니터 또는 터치스크린과 같은 어댑터를 포함할 수 있다.
이하에서는 해당 시스템을 통해 웹툰의 텍스트를 전처리하는 경우를 예로 해당 시스템의 동작을 자세히 설명하기로 한다. 해당 시스템을 통해 신조어, 한글 파괴어, 구어체, 의성어, 의태어, 사투리 등 표준어가 아닌 언어들을 포함하는 웹툰 텍스트의 번역 정확도를 크게 향상시킬 수 있다.
도 3은 도 2에 있는 전처리 엔진을 나타내는 블록도이다.
도 3을 참조하면, 전처리 엔진(212)은 형태소 분석부(310), 용어 식별부(320), 대체 용어 검색부(330), 텍스트 생성부(340) 및 구문 분석부(350)를 포함한다.
전처리 엔진(212)은 형태소 분석부(310)는 웹툰에 포함된 텍스트(이하, 웹툰 텍스트)를 입력받는다. 예를 들어, 말풍선, 해설, 의성어, 의태어 등과 같이 웹툰에 포함된 모든 텍스트가 전처리 엔진(212)에 입력될 수 있다. 일 실시예에서, 전처리 엔진(212)은 이미지에 포함된 텍스트를 인식하는 텍스트 인식 엔진으로부터 웹툰 텍스트를 입력받을 수도 있고, 사람이 읽어서 정리한 웹툰 텍스트를 입력받을 수도 있다.
형태소 분석부(310)는 입력된 텍스트를 형태소 단위로 분리하고 분리된 형태소의 품사를 결정한다. 일 실시예에서, 형태소 분석부(310)는 분리된 각 형태소를 원형으로 복원하고 복원된 형태소를 기초로 품사를 결정할 수 있다. 형태소는 일정한 뜻을 가진 가장 작은 말의 단위로서, 최소의 유의적 단위이며, 어소라고도 한다. 예를 들어, '하늘이 맑다'는 '하늘', '이', '맑-', '-다'와 같이 4개의 형태소로 분리될 수 있으며, 해당 형태소들은 더 이상 분리되면 의미가 달라지거나 사라진다.
예를 들어, '늬들 어디 학교야!?라는 웹툰 텍스트가 입력된 경우, 형태소 분석부(310)는 '늬'(NP, 대명사), '들'(XSN, 명사 파생 접미사), '어디'(NP, 대명사), '학교'(NNG, 일반명사), '야'(JKV, 호격조사)로 형태소를 분리하고 품사를 결정할 수 있다.
용어 식별부(320)는 형태소 분석부(310)에서 분리된 형태소가 대체 대상 용어에 해당하는 지 여부를 식별한다. 일 실시예에서, 용어 식별부(320)는 웹툰 용어 데이터베이스(대체 대상 용어 데이터베이스)에 저장된 웹툰 용어(대체 대상 용어)와 해당 형태소가 일치하는 지 여부를 기초로 텍스트에 포함된 웹툰 용어(대체 대상 용어)를 식별할 수 있다. 웹툰 용어 데이터베이스(대체 대상 용어 데이터베이스)에는 미리 구축된 웹툰 용어(대체 대상 용어)가 저장될 수 있다.
다른 실시예에서, 용어 식별부(320)는 기계 번역 용어 데이터베이스(번역 용어 데이터베이스)에 저장된 기계 번역 용어(번역 용어)에 해당 형태소가 포함되어 있는 지 여부를 기초로 텍스트에 포함된 웹툰 용어(대체 대상 용어)를 식별할 수 있다. 예를 들어, 분리된 형태소가 기계 번역 용어에 포함되어 있지 않은 경우, 용어 식별부(320)는 해당 형태소를 웹툰 용어(대체 대상 용어)로 식별할 수 있다.
대체 용어 검색부(330)는 형태소 분석부(310)에서 분리된 형태소가 대체 대상 용어에 해당하는 경우, 용어의 일치 여부를 기초로 대체 용어 데이터베이스(140)에서 대체 용어를 검색한다. 예를 들어, 대체 용어 검색부(330)는 대체 대상 용어와 대체 용어 데이터베이스(140)에 저장된 대체 용어를 비교하여 일치율이 기 설정된 값(threshold) 이상인 대체 용어를 검색할 수 있다. 일 실시예에서, 대체 용어는 표준어에 해당할 수 있다.
예를 들어, 대체 용어인 '너희'에 대응되는 웹툰 용어로 '늬', '니', '너' 등이 연계되어 대체 용어 데이터베이스(140)에 저장되어 있는 경우, 형태소 분석부(310)에서 분리된 '늬'와 대체 용어인 '너희'에 연계된 '늬'가 100% 일치하므로, 대체 용어 검색부(330)는 '너희'를 대체 용어로 검색할 수 있다.
일 실시예에서, 일치율이 기설정된 값 이상인 대체 용어가 복수개 있는 경우, 대체 용어 검색부(330)는 대체 대상 용어의 품사 또는 대체 대상 용어로 식별된 형태소 주위의 다른 형태소와의 관계를 기초로 복수개의 대체 용어 가운데 하나의 대체 용어를 결정할 수 있다. 예를 들어, '늬'와 대응되는 대체 용어가 복수개 있는 경우, 대체 용어 검색부(330)는 '늬' 주위의 다른 형태소('들')의 결합관계(예를 들어, 복수의 타인을 지칭하는 결합 구조)를 고려하여 '너희'를 대체 용어로 결정할 수 있다.
식별된 대체 대상 용어가 복수 개 있는 경우, 대체 용어 검색부(330)는 각 대체 대상 용어에 대해 대체 용어를 검색할 수 있다.
텍스트 생성부(340)는 대체 대상 용어를 대체 용어 검색부(330)에서 검색된 대체 용어로 대체하여, 웹툰 용어를 표준어로 대체한 텍스트를 생성한다. 일 실시예에서, 전처리 엔진(212)는 전처리 되기 전의 웹툰 텍스트와 텍스트 생성부(340)에서 웹툰 용어를 표준어로 대체한 텍스트를 함께 출력할 수 있다.
용어의 일치 여부를 기초로 대체 용어 데이터베이스(140)에 대응되는 대체 용어가 없는 경우, 구문 분석부(350)는 입력된 텍스트의 구문을 분석하여 대체 용어가 없는 용어에 대한 의미를 추정한다. 구문 분석부(350)는 형태소 분석부(310)에서 분리된 형태소를 문법에 따라 분석하여 구문 트리 구조를 생성하고, 용어에 대한 의미를 추정한다.
도 4는 구문 분석 과정을 나타내는 블록도이다.
구문 분석부(350)는 분리된 형태소를 병렬 해석하고, 이를 문법에 따라 분석하여 구문 트리 구조를 생성할 수 있다. 예를 들어, 도 4의 (a)와 같은 '엑쓰세대 ?普망? 모르삼! ㅋㅋㅋㅋ'이라는 웹툰 텍스트가 입력된 경우, 구문 분석부(350)는 도 4의 (b)와 같은 구문 트리 구조를 생성한다. 예를 들어, 도 4의 (a)의 웹툰 텍스트는 한글 문법(예를 들어, 문장의 형식, 주어가 문장의 가장 앞에 오도록 하는 규칙, 동사가 문장의 끝에 오도록 하는 규칙 등)에 따라 제1 목적어 '엑쓰세대', 제2 목적어 '?普망?', 동사 '모르삼' 및 수식어 'ㅋㅋㅋㅋ'로 분류될 수 있다. 한글 문법 상 주어가 생략되어 있으므로, 구문 분석부(350)는 제3자를 지칭하는 주어 '너'를 추가하여 도 4의 (b)와 같은 구문 트리 구조를 생성할 수 있다. 도 4의 (b)의 구문 트리는 동사를 상위 노드에 배치하고, 주어, 목적어, 수식어 등을 동일한 하위 노드에 배치한 경우의 예이다.
구문 분석부(350)는 생성된 구문 트리 구조를 기초로 용어에 대한 의미를 추정한다. 예를 들어, '모르삼'의 경우 문장의 끝에 위치하는 동사로서 의문부호(?) 앞에 위치하므로 동사가 의문형으로 표현된 것으로 추론될 수 있다. 또한, '모르삼'의 경우 '모르다'와 가장 유사하므로, 구문 분석부(350)는 '모르삼'의 경우 '모르다'의 의문형 표현으로 추론할 수 있다.
대체 용어 검색부(330)는 구문 분석부(350)의 구문 분석 결과를 기초로 추정된 의미에 대응되는 대체 용어를 대체 용어 데이터베이스(140)에서 검색한다. 예를 들어, 대체 용어 검색부(330)는 '모르다'의 의문형 표현에 대응되는 '몰라', '모르니' 등을 검색할 수 있다.
텍스트 생성부(340)는 대체 대상 용어를 대체 용어 검색부(330)에서 검색된 대체 용어로 대체하여, 웹툰 용어를 표준어로 대체한 텍스트를 생성한다. 예를 들어, 도 4의 (a)의 웹툰 텍스트에 대해 대체 용어 검색부(330)가 '엑쓰'와 일치하는 대체 용어 'X', '?普망?'와 일치하는 대체 용어 '판타지', 'ㅋㅋㅋㅋ'와 일치하는 대체 용어 '하하하하'를 검색하고, '모르삼'의 추정된 의미에 대응되는 대체 용어 '몰라'를 검색한 경우, 텍스트 생성부(340)는 검색된 대체 용어를 기초로 '너 엑스세대 판타지 몰라?! 하하하하'와 같은 텍스트를 생성할 수 있다.
일 실시예에서, 전처리 엔진(212)은 대체 대상 용어와 추정된 의미에 대응되는 대체 용어를 연계하여 대체 용어 데이터베이스(140)에 저장하는 대체 용어 등록부(미도시)를 더 포함할 수 있다.
일 실시예에서, 용어의 일치 여부를 기초로 대체 용어 데이터베이스(140)에 대응되는 대체 용어가 없거나, 구문 분석 결과를 기초로 대체 용어 데이터베이스(140)에 대응되는 대체 용어가 없는 경우, 전처리 엔진(212)은 해당 용어에 대응되는 대체 용어를 운영자로부터 입력받을 수도 있다.
도 5는 도 1에 있는 텍스트 전처리 시스템에서 수행되는 텍스트 전처리 방법을 설명하는 흐름도이다.
도 5를 참조하면, 텍스트 전처리 서버(120)는 입력된 텍스트를 다른 언어의 텍스트로 번역하기 전에 전처리한다. 텍스트 전처리 서버(120)는 입력된 텍스트와 동일한 언어로 전처리된 텍스트를 출력할 수 있다. 전처리 엔진(212)은 번역할 텍스트를 입력 받는다(단계 S510). 일 실시예에서, 전처리 엔진(212)은 이미지에 포함된 텍스트를 인식하는 텍스트 인식 엔진으로부터 웹툰 텍스트를 입력받을 수도 있고, 사람이 읽어서 정리한 웹툰 텍스트를 입력받을 수도 있다.
전처리 엔진(212)은 입력된 텍스트를 형태소 단위로 분리하고 분리된 형태소의 품사를 결정한다(단계 S520). 전처리 엔진(212)은 분리된 형태소가 대체 대상 용어에 해당하는 지 여부를 식별한다(단계 S530).
일 실시예에서, 전처리 엔진(212)은 대체 대상 용어 데이터베이스에 저장된 대체 대상 용어와의 일치 여부를 기초로 대체 대상 용어를 식별할 수 있다. 다른 실시예에서, 전처리 엔진(212)은 번역 용어 데이터베이스에 용어가 포함되어 있는지 여부를 기초로 대체 대상 용어를 식별할 수 있다.
전처리 엔진(212)은 식별된 대체 대상 용어와 대체 용어 데이터 베이스(140)에 저장된 대체 용어의 일치 여부를 판단하여(단계 S540), 대체 대상 용어에 대응되는 대체 용어를 검색한다.
대체 대상 용어와 대체 용어 데이터베이스(140)에 저장된 대체 용어를 비교하여 일치율이 기 설정된 값 이상인 경우, 전처리 엔진(212)은 대체 대상 용어를 대체 용어로 대체한 텍스트를 생성한다(단계 S570).
일치율이 기 설정된 값 이상인 대체 용어가 없는 경우, 전처리 엔진(212)은 입력된 텍스트의 구문을 분석하여 대체 용어가 없는 용어에 대한 의미를 추정한다(단계 S550). 일 실시예에서, 전처리 엔진(212)은 입력된 텍스트의 구문을 분석하여 구문 트리 구조를 생성할 수 있다.
전처리 엔진(212)은 구문 분석 결과를 기초로 추정된 의미에 대응되는 대체 용어를 검색하고(단계 S560), 대체 대상 용어를 대체 용어로 대체한 텍스트를 생성한다(단계 S570).
상기에서는 본 출원의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 출원을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
100: 텍스트 전처리 시스템
110: 사용자 단말
120: 텍스트 전처리 서버
130: 제1 데이터베이스
140: 제2 데이터베이스

Claims (9)

  1. 입력된 텍스트를 다른 언어의 텍스트로 번역하기 전에 전처리하는 텍스트 전처리 시스템에 있어서,
    대체 용어를 저장하는 대체 용어 데이터베이스; 및
    상기 입력된 텍스트를 전처리하여 상기 입력된 텍스트와 동일한 언어의 텍스트를 출력하는 전처리 엔진을 실행하는 프로세서를 포함하되,
    상기 전처리 엔진은
    상기 입력된 텍스트를 형태소 단위로 분리하고 분리된 형태소의 품사를 결정하는 형태소 분석부;
    상기 분리된 형태소가 대체 대상 용어에 해당하는지 여부를 식별하는 용어 식별부;
    상기 분리된 형태소가 대체 대상 용어에 해당하는 경우, 용어의 일치 여부를 기초로 상기 대체 용어 데이터베이스에서 상기 대체 대상 용어에 대응되는 대체 용어를 검색하는 대체 용어 검색부; 및
    용어의 일치 여부를 기초로 상기 대체 용어 데이터베이스에 대응되는 대체 용어가 없는 경우, 상기 입력된 텍스트의 구문을 분석하여 상기 대체 용어가 없는 용어에 대한 의미를 추정하는 구문 분석부를 포함하고,
    상기 대체 용어 검색부는 상기 구문 분석 결과를 기초로 추정된 의미에 대응되는 대체 용어를 검색하는 텍스트 전처리 시스템.
  2. 삭제
  3. 제1항에 있어서, 상기 전처리 엔진은
    상기 대체 대상 용어를 상기 검색된 대체 용어로 대체한 텍스트를 생성하는 텍스트 생성부를 더 포함하는 것을 특징으로 하는 텍스트 전처리 시스템.
  4. 삭제
  5. 제1항에 있어서, 상기 구문 분석부는
    상기 분리된 형태소를 문법에 따라 분석하여 구문 트리 구조를 생성하여 상기 대체 용어가 없는 용어에 대한 의미를 추정하는 것을 특징으로 하는 텍스트 전처리 시스템.
  6. 제1항에 있어서, 상기 전처리 엔진은
    상기 용어와 해당 용어에 대해 추정된 의미에 대응되는 대체 용어를 연계하여 상기 대체 용어 데이터베이스에 저장하는 대체 용어 등록부를 더 포함하는 것을 특징으로 하는 텍스트 전처리 시스템.
  7. 제1항에 있어서,
    상기 대체 대상 용어를 저장하는 대체 대상 용어 데이터베이스를 더 포함하고,
    상기 전처리 엔진은 상기 대체 대상 용어 데이터베이스에 저장된 대체 대상 용어와의 일치 여부를 기초로 상기 입력된 텍스트에서 대체 대상 용어를 식별하는 것을 특징으로 하는 텍스트 전처리 시스템.
  8. 제1항에 있어서,
    기계 번역 용어를 저장하는 번역 용어 데이터베이스를 더 포함하고,
    상기 전처리 엔진은 상기 번역 용어 데이터베이스에 용어가 포함되어 있는지 여부를 기초로 상기 입력된 텍스트에서 대체 대상 용어를 식별하는 것을 특징으로 하는 텍스트 전처리 시스템.
  9. 입력된 텍스트를 다른 언어의 텍스트로 번역하기 전에 전처리하고, 대체 용어를 저장하는 대체 용어 데이터베이스와 상기 입력된 텍스트를 전처리하여 상기 입력된 텍스트와 동일한 언어의 텍스트를 출력하는 전처리 엔진을 실행하는 프로세서를 포함하며, 상기 프로세서에 의해서 수행되는 텍스트 전처리 방법에 있어서,
    (a) 상기 입력된 텍스트를 형태소 단위로 분리하고 분리된 형태소의 품사를 결정하는 단계;
    (b) 상기 분리된 형태소가 대체 대상 용어에 해당하는 지 여부를 식별하는 단계;
    (c) 상기 분리된 형태소가 대체 대상 용어에 해당하는 경우, 용어의 일치 여부를 기초로 상기 대체 용어 데이터베이스에서 상기 대체 대상 용어에 대응되는 대체 용어를 검색하는 단계; 및
    (d) 용어의 일치 여부를 기초로 상기 대체 용어 데이터베이스에 대응되는 대체 용어가 없는 경우, 상기 입력된 텍스트의 구문을 분석하여 상기 대체 용어가 없는 용어에 대한 의미를 추정하는 단계를 포함하고,
    상기 (c) 단계는 상기 구문 분석 결과를 기초로 추정된 의미에 대응되는 대체 용어를 검색하는 단계를 포함하는 텍스트 전처리 방법.
KR1020150088695A 2015-06-22 2015-06-22 텍스트 전처리 방법 및 이를 수행하는 전처리 시스템 KR101664258B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020150088695A KR101664258B1 (ko) 2015-06-22 2015-06-22 텍스트 전처리 방법 및 이를 수행하는 전처리 시스템
CN201680001271.6A CN107148624A (zh) 2015-06-22 2016-06-21 预处理文本的方法以及用于执行该方法的预处理系统
PCT/KR2016/006576 WO2016208941A1 (ko) 2015-06-22 2016-06-21 텍스트 전처리 방법 및 이를 수행하는 전처리 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150088695A KR101664258B1 (ko) 2015-06-22 2015-06-22 텍스트 전처리 방법 및 이를 수행하는 전처리 시스템

Publications (1)

Publication Number Publication Date
KR101664258B1 true KR101664258B1 (ko) 2016-10-11

Family

ID=57162178

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150088695A KR101664258B1 (ko) 2015-06-22 2015-06-22 텍스트 전처리 방법 및 이를 수행하는 전처리 시스템

Country Status (3)

Country Link
KR (1) KR101664258B1 (ko)
CN (1) CN107148624A (ko)
WO (1) WO2016208941A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102041935B1 (ko) * 2018-07-18 2019-12-02 주식회사 토리웍스 웹툰체 사전 서비스 제공 방법
US11093719B2 (en) 2018-02-12 2021-08-17 Samsung Electronics Co., Ltd. Machine translation method and apparatus

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107038160A (zh) * 2017-03-30 2017-08-11 唐亮 多语言智能预处理实时统计机器翻译系统的预处理模块
CN111971679A (zh) * 2018-01-26 2020-11-20 威盖特技术美国有限合伙人公司 基于行业语言模型生成自然语言推荐
CN111460836B (zh) * 2019-01-18 2024-04-19 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置
CN112597779A (zh) * 2020-12-24 2021-04-02 语联网(武汉)信息技术有限公司 文档翻译方法及装置
CN115359797A (zh) * 2022-08-18 2022-11-18 北京有竹居网络技术有限公司 语音识别的方法、装置、设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100911372B1 (ko) * 2006-12-05 2009-08-10 한국전자통신연구원 통계적 기계번역 시스템에서 단어 및 구문들간의 번역관계를 자율적으로 학습하기 위한 장치 및 그 방법
US20100088085A1 (en) * 2008-10-02 2010-04-08 Jae-Hun Jeon Statistical machine translation apparatus and method
KR100961717B1 (ko) 2008-09-16 2010-06-10 한국전자통신연구원 병렬 코퍼스를 이용한 기계번역 오류 탐지 방법 및 장치
KR20110112192A (ko) * 2010-04-06 2011-10-12 삼성전자주식회사 구문 분석 및 계층적 어구 모델 기반 기계 번역 시스템 및 방법
KR101099177B1 (ko) 2003-05-27 2011-12-27 마이크로소프트 코포레이션 기계 번역기를 훈련하기 위한 방법 및 시스템
KR20120035077A (ko) * 2010-10-04 2012-04-13 한국전자통신연구원 하이브리드 자동 번역 방법 및 이를 수행하는 장치

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100322743B1 (ko) * 1999-09-28 2002-02-07 윤종용 음성합성기의 문서해석기에서 사용되는 형태소 해석방법 및 그 장치
US20040030540A1 (en) * 2002-08-07 2004-02-12 Joel Ovil Method and apparatus for language processing
KR100837358B1 (ko) * 2006-08-25 2008-06-12 한국전자통신연구원 동적 번역자원을 이용한 분야 적응형 휴대용 방송자막기계번역 장치 및 방법
KR20120122894A (ko) * 2011-04-30 2012-11-07 삼성전자주식회사 수익 분배 방법 및 이를 이용한 수익 분배 시스템
KR20130047471A (ko) * 2011-10-31 2013-05-08 한국전자통신연구원 자동번역 시스템의 패러프레이징 데이터 구축방법
CN103914444B (zh) * 2012-12-29 2018-07-24 高德软件有限公司 一种纠错方法及其装置
CN104484374B (zh) * 2014-12-08 2018-11-16 百度在线网络技术(北京)有限公司 一种创建网络百科词条的方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101099177B1 (ko) 2003-05-27 2011-12-27 마이크로소프트 코포레이션 기계 번역기를 훈련하기 위한 방법 및 시스템
KR100911372B1 (ko) * 2006-12-05 2009-08-10 한국전자통신연구원 통계적 기계번역 시스템에서 단어 및 구문들간의 번역관계를 자율적으로 학습하기 위한 장치 및 그 방법
KR100961717B1 (ko) 2008-09-16 2010-06-10 한국전자통신연구원 병렬 코퍼스를 이용한 기계번역 오류 탐지 방법 및 장치
US20100088085A1 (en) * 2008-10-02 2010-04-08 Jae-Hun Jeon Statistical machine translation apparatus and method
KR20110112192A (ko) * 2010-04-06 2011-10-12 삼성전자주식회사 구문 분석 및 계층적 어구 모델 기반 기계 번역 시스템 및 방법
KR20120035077A (ko) * 2010-10-04 2012-04-13 한국전자통신연구원 하이브리드 자동 번역 방법 및 이를 수행하는 장치

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11093719B2 (en) 2018-02-12 2021-08-17 Samsung Electronics Co., Ltd. Machine translation method and apparatus
KR102041935B1 (ko) * 2018-07-18 2019-12-02 주식회사 토리웍스 웹툰체 사전 서비스 제공 방법
WO2020017770A1 (ko) * 2018-07-18 2020-01-23 주식회사 토리웍스 웹툰체 사전 서비스 제공 방법

Also Published As

Publication number Publication date
CN107148624A (zh) 2017-09-08
WO2016208941A1 (ko) 2016-12-29

Similar Documents

Publication Publication Date Title
KR101664258B1 (ko) 텍스트 전처리 방법 및 이를 수행하는 전처리 시스템
US11734514B1 (en) Automated translation of subject matter specific documents
KR101130444B1 (ko) 기계번역기법을 이용한 유사문장 식별 시스템
US7774193B2 (en) Proofing of word collocation errors based on a comparison with collocations in a corpus
US20040006466A1 (en) System and method for automatic detection of collocation mistakes in documents
KR20160008480A (ko) 명칭을 강인하게 태깅하는 방법 및 시스템
WO2005059771A1 (ja) 対訳判断装置、方法及びプログラム
JP2006252382A (ja) 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
EP1889180A2 (en) Collocation translation from monolingual and available bilingual corpora
JP5646792B2 (ja) 単語分割装置、単語分割方法、及び単語分割プログラム
KR20150017507A (ko) 한국어 어휘 의미망을 이용한 문맥 철자오류 교정 장치 및 방법
JP5204244B2 (ja) 誤訳の検出を支援する装置及び方法
KR20160133349A (ko) 구 표 생성 방법 및 구 표를 이용한 기계 번역 방법
KR20090061158A (ko) 번역 시스템에서 오류 보정 패턴을 이용한 번역 오류 수정방법 및 장치
Chakrawarti et al. Machine translation model for effective translation of Hindi poetries into English
US20070129932A1 (en) Chinese to english translation tool
KR101709693B1 (ko) 크라우드 소싱을 이용한 웹툰 언어 자동 번역 방법
Ganji et al. Novel textual features for language modeling of intra-sentential code-switching data
JP4401269B2 (ja) 対訳判断装置及びプログラム
KR101501459B1 (ko) 자동 번역 기술을 이용한 작문 시스템 및 방법
Mitkov et al. Comparing pronoun resolution algorithms
WO2022123716A1 (ja) 述語項構造修正プログラム、述語項構造修正方法、および情報処理装置
JP6451151B2 (ja) 質問応答装置、質問応答方法、プログラム
KR20120046409A (ko) 번역 분야별 단어를 이용한 번역 장치 및 그 방법
Bhowmik et al. Development of A Word Based Spell Checker for Bangla Language

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant