KR20100041019A - 문서 번역 장치 및 그 방법 - Google Patents
문서 번역 장치 및 그 방법 Download PDFInfo
- Publication number
- KR20100041019A KR20100041019A KR1020080099995A KR20080099995A KR20100041019A KR 20100041019 A KR20100041019 A KR 20100041019A KR 1020080099995 A KR1020080099995 A KR 1020080099995A KR 20080099995 A KR20080099995 A KR 20080099995A KR 20100041019 A KR20100041019 A KR 20100041019A
- Authority
- KR
- South Korea
- Prior art keywords
- document
- text
- english
- information
- tagging
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
Description
Claims (10)
- 입력된 영문 문서에 대해 형태소 분석 및 태깅을 수행하고, 그에 대한 통계 정보를 분석한 후, 그 텍스트 분석 정보가 반영된 태깅 결과를 출력하는 문서 처리 블록과,상기 문서 처리 블록으로부터 출력된 상기 태깅 결과에 대해 구조 분석 및 구조 변환을 수행한 후, 상기 텍스트 분석 정보에 참조하여 텍스트별로 대역어를 선택하고, 그에 대응하는 한글 형태소를 생성하여 상기 입력된 영문 문서에 대응하는 번역 문서를 출력하는 문서 번역 블록을 포함하는 문서 번역 장치.
- 제 1 항에 있어서,상기 문서 처리 블록은,상기 입력된 영문 문서에 대한 숫자 및 날짜를 인식하는 태깅 전처리를 수행하는 전처리부와,상기 영문 문서의 텍스트를 형태소로 구분 및 분석하여 형태소별로 태깅하는 태깅부와,상기 태깅된 영문 문서에 대한 상기 통계 정보를 분석하여 그 빈도에 따라 정렬시키고, 각각의 텍스트에 대한 상기 텍스트 분석 정보를 제공하는 텍스트 분석 부와,상기 텍스트 분석 정보에 따라 상기 태깅된 영문 문서에 대한 조정된 상기 태깅 결과를 출력하는 태깅 조정부를 포함하는 것을 특징으로 하는 문서 번역 장치.
- 제 2 항에 있어서,상기 텍스트 분석부는, 상기 영문 문서의 고유 명사, 명사구, 단어에 대한 통계 정보를 분석하여 이를 그 발생 빈도에 따라 정렬하고, 동의어, 유사어, 상위어, 하위어를 포함하는 상기 텍스트 분석 정보를 제공하는 것을 특징으로 하는 문서 번역 장치.
- 제 3 항에 있어서,상기 텍스트 분석부는, 고유 명사 사전 데이터, 부분 어휘 매칭 정보, 영문 사전 데이터, 한글 사전 데이터, 영어 시소러스(thesaurus), 한글 시소러스를 이용하여 상기 텍스트 분석 정보를 제공하는 것을 특징으로 하는 문서 번역 장치.
- 제 1 항 내지 제 4 항 중 어느 한 항에 있어서,상기 문서 번역 블록은,상기 문서 처리 블록으로부터 출력된 문서에 대해 상기 텍스트간 연관 관계에 따라 그 구조를 분석하여 구조 분석된 문서를 전달하는 구조 분석부와,상기 구조 분석된 문서를 영문 구조에서 한글 구조로 변환하는 구조 변환부와,상기 텍스트 분석 정보를 참조하여 상기 구조 변환된 문서의 각 텍스트에 대한 상기 대역어를 선택하는 대역어 선택부와,선택된 상기 대역어를 이용하여 상기 한글 형태소를 생성하여 상기 영문 문서에 대응하는 번역된 해당 문서를 출력하는 형태소 생성부를 포함하는 것을 특징으로 하는 문서 번역 장치.
- 제 5 항에 있어서,상기 대역어 선택부는, 변별 사전 데이터를 이용하여 상기 구조 변환된 문서의 고유 명사, 명사구, 단어에 대응하는 상기 대역어를 상기 텍스트 분석 정보를 기반으로 선택하는 것을 특징으로 하는 문서 번역 장치.
- 입력되는 영문 문서의 텍스트를 형태소로 구분 및 분석하여 형태소별로 태깅하는 단계와,상기 태깅된 영문 문서에 대한 통계 정보를 분석하여 그 빈도에 따라 정렬시키고, 각각의 텍스트에 대한 상기 텍스트 분석 정보를 제공하는 단계와,상기 텍스트 분석 정보에 따라 상기 태깅된 영문 문서에 대한 조정된 태깅 결과를 출력하는 단계와,출력된 상기 태깅 결과에 대해 상기 텍스트간 연관 관계에 따라 그 구조를 분석하고, 영문 구조에서 한글 구조로 변환하는 단계와,상기 텍스트 분석 정보를 참조하여 상기 구조 변환된 문서의 각 텍스트에 대한 대역어를 선택하고, 이를 이용하여 한글 형태소를 생성하고, 번역된 해당 문서를 출력하는 단계를 포함하는 문서 번역 방법.
- 제 7 항에 있어서,상기 텍스트 분석 정보를 제공하는 단계는, 상기 영문 문서의 고유 명사, 명사구, 단어에 대한 통계 정보를 분석하여 이를 그 발생 빈도에 따라 정렬하고, 동의어, 유사어, 상위어, 하위어를 포함하는 상기 텍스트 분석 정보를 제공하는 방식으로 수행되는 것을 특징으로 하는 문서 번역 방법.
- 제 8 항에 있어서,상기 텍스트 분석 정보를 제공하는 단계는, 고유 명사 사전 데이터, 부분 어휘 매칭 정보, 영문 사전 데이터, 한글 사전 데이터, 영어 시소러스(thesaurus), 한글 시소러스를 이용하여 상기 텍스트 분석 정보를 제공하는 방식으로 수행되는 것을 특징으로 하는 문서 번역 방법.
- 제 7 항 내지 제 9 항 중 어느 한 항에 있어서,상기 대역어의 선택은, 변별 사전 데이터를 이용하여 상기 구조 변환된 문서의 고유 명사, 명사구, 단어에 대응하는 상기 대역어를 상기 텍스트 분석 정보를 기반으로 선택하는 방식으로 수행되는 것을 특징으로 하는 문서 번역 방법.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020080099995A KR101023209B1 (ko) | 2008-10-13 | 2008-10-13 | 문서 번역 장치 및 그 방법 |
US12/484,550 US20100094615A1 (en) | 2008-10-13 | 2009-06-15 | Document translation apparatus and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020080099995A KR101023209B1 (ko) | 2008-10-13 | 2008-10-13 | 문서 번역 장치 및 그 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20100041019A true KR20100041019A (ko) | 2010-04-22 |
KR101023209B1 KR101023209B1 (ko) | 2011-03-18 |
Family
ID=42099694
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020080099995A KR101023209B1 (ko) | 2008-10-13 | 2008-10-13 | 문서 번역 장치 및 그 방법 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20100094615A1 (ko) |
KR (1) | KR101023209B1 (ko) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190052924A (ko) * | 2017-11-09 | 2019-05-17 | 한국전자통신연구원 | 발표자료 자동 분석에 기반한 실시간 강연 동시 통역 장치 및 그 방법 |
WO2022142823A1 (zh) * | 2020-12-29 | 2022-07-07 | 深圳市优必选科技股份有限公司 | 人机对话方法、装置、计算机设备及可读存储介质 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8321398B2 (en) * | 2009-07-01 | 2012-11-27 | Thomson Reuters (Markets) Llc | Method and system for determining relevance of terms in text documents |
US20140025368A1 (en) * | 2012-07-18 | 2014-01-23 | International Business Machines Corporation | Fixing Broken Tagged Words |
US9690771B2 (en) * | 2014-05-30 | 2017-06-27 | Nuance Communications, Inc. | Automated quality assurance checks for improving the construction of natural language understanding systems |
US10120862B2 (en) | 2017-04-06 | 2018-11-06 | International Business Machines Corporation | Dynamic management of relative time references in documents |
JP7139157B2 (ja) * | 2018-06-04 | 2022-09-20 | 株式会社ユニバーサルエンターテインメント | 検索文生成システム、及び検索文生成方法 |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02308370A (ja) * | 1989-05-24 | 1990-12-21 | Toshiba Corp | 機械翻訳システム |
JPH077419B2 (ja) * | 1989-06-30 | 1995-01-30 | シャープ株式会社 | 機械翻訳装置における略称付き固有名詞処理方法 |
US5416903A (en) * | 1991-08-19 | 1995-05-16 | International Business Machines Corporation | System and method for supporting multilingual translations of a windowed user interface |
US6760695B1 (en) * | 1992-08-31 | 2004-07-06 | Logovista Corporation | Automated natural language processing |
US6167368A (en) * | 1998-08-14 | 2000-12-26 | The Trustees Of Columbia University In The City Of New York | Method and system for indentifying significant topics of a document |
US6243669B1 (en) * | 1999-01-29 | 2001-06-05 | Sony Corporation | Method and apparatus for providing syntactic analysis and data structure for translation knowledge in example-based language translation |
US6473730B1 (en) * | 1999-04-12 | 2002-10-29 | The Trustees Of Columbia University In The City Of New York | Method and system for topical segmentation, segment significance and segment function |
KR100338806B1 (ko) * | 2000-02-18 | 2002-05-31 | 윤종용 | 목적언어 분석에 기반한 언어 번역 방법 및 장치 |
NO316480B1 (no) * | 2001-11-15 | 2004-01-26 | Forinnova As | Fremgangsmåte og system for tekstuell granskning og oppdagelse |
GB2390704A (en) * | 2002-07-09 | 2004-01-14 | Canon Kk | Automatic summary generation and display |
KR100487716B1 (ko) * | 2002-12-12 | 2005-05-03 | 한국전자통신연구원 | 단어레벨의 통계적 방법을 이용한 번역문 생성 방법 및 그장치 |
US20040230898A1 (en) * | 2003-05-13 | 2004-11-18 | International Business Machines Corporation | Identifying topics in structured documents for machine translation |
KR100511409B1 (ko) * | 2003-12-23 | 2005-08-31 | 한국전자통신연구원 | 기계번역을 위한 번역단위 추출/검색장치 및 방법 |
WO2005065061A2 (en) * | 2004-01-06 | 2005-07-21 | In-Seop Lee | The auto translator and the method thereof and the recording medium to program it |
US20070021956A1 (en) * | 2005-07-19 | 2007-01-25 | Yan Qu | Method and apparatus for generating ideographic representations of letter based names |
US7747427B2 (en) * | 2005-12-05 | 2010-06-29 | Electronics And Telecommunications Research Institute | Apparatus and method for automatic translation customized for documents in restrictive domain |
JP2007287134A (ja) * | 2006-03-20 | 2007-11-01 | Ricoh Co Ltd | 情報抽出装置、及び情報抽出方法 |
US20080154577A1 (en) * | 2006-12-26 | 2008-06-26 | Sehda,Inc. | Chunk-based statistical machine translation system |
KR100912502B1 (ko) * | 2007-07-27 | 2009-08-17 | 한국전자통신연구원 | Pdf 파일을 대상으로 하는 자동 번역 방법 |
KR100912501B1 (ko) * | 2007-08-09 | 2009-08-17 | 한국전자통신연구원 | 번역 지식 구축 방법 및 장치 |
US8041697B2 (en) * | 2007-08-31 | 2011-10-18 | Microsoft Corporation | Semi-automatic example-based induction of semantic translation rules to support natural language search |
KR20100037813A (ko) * | 2008-10-02 | 2010-04-12 | 삼성전자주식회사 | 통계적 자동 번역 장치 및 방법 |
-
2008
- 2008-10-13 KR KR1020080099995A patent/KR101023209B1/ko active IP Right Grant
-
2009
- 2009-06-15 US US12/484,550 patent/US20100094615A1/en not_active Abandoned
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190052924A (ko) * | 2017-11-09 | 2019-05-17 | 한국전자통신연구원 | 발표자료 자동 분석에 기반한 실시간 강연 동시 통역 장치 및 그 방법 |
WO2022142823A1 (zh) * | 2020-12-29 | 2022-07-07 | 深圳市优必选科技股份有限公司 | 人机对话方法、装置、计算机设备及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
KR101023209B1 (ko) | 2011-03-18 |
US20100094615A1 (en) | 2010-04-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Şeker et al. | Initial explorations on using CRFs for Turkish named entity recognition | |
US8849651B2 (en) | Method and system for natural language dictionary generation | |
KR101023209B1 (ko) | 문서 번역 장치 및 그 방법 | |
Kammoun et al. | The MORPH2 new version: A robust morphological analyzer for Arabic texts | |
Sawalha et al. | Fine-grain morphological analyzer and part-of-speech tagger for Arabic text | |
Belay et al. | Impacts of homophone normalization on semantic models for amharic | |
Hirpassa | Information extraction system for Amharic text | |
Elsheikh | Timeline of the development of Arabic PoS taggers and Morphological analysers | |
Raza et al. | Saraiki Language Word Prediction And Spell Correction Framework | |
Abdelghany et al. | Doc2Vec: An approach to identify Hadith Similarities | |
Sankaravelayuthan et al. | English to tamil machine translation system using parallel corpus | |
Borin et al. | Language technology for digital linguistics: Turning the linguistic survey of India into a rich source of linguistic information | |
Aytan et al. | Deep learning-based Turkish spelling error detection with a multi-class false positive reduction model | |
Biswas et al. | Development of a Bangla sense annotated corpus for word sense disambiguation | |
Baishya et al. | Present state and future scope of Assamese text processing | |
Shquier et al. | Fully automated Arabic to English machine translation system: transfer-based approach of AE-TBMT | |
Maulud et al. | Towards a Complete Kurdish NLP Pipeline: Challenges and Opportunities | |
Ogrodniczuk et al. | Improving polish mention detection with valency dictionary | |
Salim Elsheikh et al. | TIMELINE OF THE DEVELOPMENT OF ARABIC POS TAGGERS AND MORPHOLOGICALANALYSERS | |
Adali et al. | An integrated architecture for processing business documents in Turkish | |
Bhowmik et al. | Development of A Word Based Spell Checker for Bangla Language | |
Chaudhary et al. | A Study of Transliteration Approaches | |
Skiredj et al. | Arabic Text Diacritization In The Age Of Transfer Learning: Token Classification Is All You Need | |
Amezian et al. | Towards a large Biscript Moroccan Lexicon | |
Borowczyk | 1 Research in Persian Natural Language Processing–History and State of the Art |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20140303 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20150226 Year of fee payment: 5 |
|
FPAY | Annual fee payment |
Payment date: 20160226 Year of fee payment: 6 |
|
FPAY | Annual fee payment |
Payment date: 20170224 Year of fee payment: 7 |
|
FPAY | Annual fee payment |
Payment date: 20180226 Year of fee payment: 8 |
|
FPAY | Annual fee payment |
Payment date: 20200224 Year of fee payment: 10 |