KR20210105626A - 기술문서 번역 지원 시스템 - Google Patents

기술문서 번역 지원 시스템 Download PDF

Info

Publication number
KR20210105626A
KR20210105626A KR1020200020320A KR20200020320A KR20210105626A KR 20210105626 A KR20210105626 A KR 20210105626A KR 1020200020320 A KR1020200020320 A KR 1020200020320A KR 20200020320 A KR20200020320 A KR 20200020320A KR 20210105626 A KR20210105626 A KR 20210105626A
Authority
KR
South Korea
Prior art keywords
translation
reference data
module
data
target data
Prior art date
Application number
KR1020200020320A
Other languages
English (en)
Other versions
KR102338949B1 (ko
Inventor
이영호
Original Assignee
이영호
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 이영호 filed Critical 이영호
Priority to KR1020200020320A priority Critical patent/KR102338949B1/ko
Publication of KR20210105626A publication Critical patent/KR20210105626A/ko
Application granted granted Critical
Publication of KR102338949B1 publication Critical patent/KR102338949B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/47Machine-assisted translation, e.g. using translation memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • Technology Law (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 기술문서 관련 번역 작업을 지원하는 기술문서 번역 지원 시스템에 관한 것으로, 번역자가 기술분야별 전문 어휘나 용어를 빠르게 파악할 수 있게 하고 휴먼에러를 최소화시킴으로써 기술문서 번역의 효율 및 품질을 향상시킨다.
이러한 본 발명은, 최소단위 문장으로 형성된 제1 언어의 제1 참조데이터(10a)와 상기 제1 참조데이터(10a)에 대응하는 제2 언어의 제2 참조데이터(10b)로 이루어진 참조데이터 세트(10)가 기술분류별로 구분되어 저장된 번역 지원용 DB(100); 상기 번역 지원용 DB(100)와 연동되어 참조데이터 세트(10)를 로드하는 사용자 단말기(200); 및 상기 사용자 단말기(200)에 설치되며, 제1 언어의 원문을 최소단위 문장으로 구분한 번역 대상데이터(20a)를 출력하고 상기 번역 대상데이터(20a)에 대응하는 제2 언어의 번역 수행데이터(20b)를 입력받는 번역작업용 모듈(311)과, 검색어를 입력받아 검색어정보를 생성하는 검색용 모듈(312)과, 상기 번역 대상데이터(20a)의 기술분류와 매칭되고 상기 검색어정보가 하나 이상 포함된 참조데이터 세트(10)를 상기 번역 지원용 DB(100)에서 서치하여 출력하는 참조용 모듈(313)을 포함하는 번역 지원용 어플리케이션(300);을 포함하는 것을 기술적 특징으로 한다.

Description

기술문서 번역 지원 시스템{System for Supporting Translation of Technical Sentences}
본 발명은 번역 지원 시스템에 관한 것으로, 보다 구체적으로 기술문서 관련 번역 작업을 지원하는 기술문서 번역 지원 시스템에 관한 것이다.
대표적인 기술문서에는 특허 명세서, 논문서 등이 포함되며, 특히 지식재산권을 확보할 수 있는 특허 명세서의 경우에는 속지주의 원칙에 따라 어느 한 국가에서 특허에 대한 권리를 보호받고 싶은 경우 해당 국가에 출원을 진행해야 하며, 이때 대부분의 나라에서 해당 나라의 언어로 특허 문헌을 번역 또는 작성하여 출원해야 한다.
이러한 기술문서는 일반적으로 해당 기술분야에서 사용되는 전문적 어휘 및 용어로 작성되므로, 해당 분야에 대하여 전공 지식 등이 있는 전문가의 번역이 필요하다. 특히, 특허 명세서를 번역하는 경우에는 단어의 의미에 따라 권리범위가 달라질 수 있으므로 번역 작업시 신중한 어휘 선택이 요구된다.
그러나 기술문서가 속하는 전공 분야에서 능숙한 번역 전문가를 찾기가 어려운 점이 있으며, 적합한 번역자가 있더라도 기술문서 특성상 번역에 많은 시간이 소요되고 그 만큼 번역 비용에 대한 부담이 증가하는 문제점이 있었다.
또한, 기술문서에서는 도면을 통해 기술구성에 대하여 서술하는 경우가 다수인데 이 경우 기술구성 용어와 도면부호가 일치하지 않거나, 동일한 용어에 대한 번역어가 일치하지 않는 등의 휴먼에러(Human Error)가 발생하기 쉽다. 이러한 번역자의 오타, 오기 등이 발생할 경우 번역의 품질이 저하되어 문제가 되어왔다.
따라서 이러한 문제점을 해결하기 위하여 번역 작업을 지원해주고 휴먼에러나 용어불일치를 최소화하기 위한 보조 시스템이 필요하며, 본 발명은 이러한 요구에 따라 기술문서 번역 작업을 지원해주도록 하는 서비스 시스템에 관한 것이다.
대한민국특허청 공개특허공보 제10-2013-0042839호 대한민국특허청 등록특허공보 제10-1052004호
본 발명은 이러한 종래 기술의 문제점을 해결하기 위한 것으로, 원문의 기술분류와 매칭되는 참조데이터 중에서 번역하고자 하는 검색어를 입력받아 해당 검색어가 포함된 번역예시 문장들을 출력시켜 기술문서 번역의 어려움을 최소화시키는 기술문서 번역 지원 시스템의 제공을 과제로 한다.
또한, 본 발명은 번역자가 작업한 번역 수행데이터 중에서 도면부호가 기입된 어휘 리스트를 도면부호와 함께 출력시켜 휴먼에러를 검출할 수 있는 기술문서 번역 지원 시스템의 제공을 다른 과제로 한다.
본 발명에 의한 기술문서 번역 지원 시스템은, 최소단위 문장으로 형성된 제1 언어의 제1 참조데이터(10a)와 상기 제1 참조데이터(10a)에 대응하는 제2 언어의 제2 참조데이터(10b)로 이루어진 참조데이터 세트(10)가 기술분류별로 구분되어 저장된 번역 지원용 DB(100); 상기 번역 지원용 DB(100)와 연동되어 참조데이터 세트(10)를 로드하는 사용자 단말기(200); 및 상기 사용자 단말기(200)에 설치되며, 제1 언어의 원문을 최소단위 문장으로 구분한 번역 대상데이터(20a)를 출력하고 상기 번역 대상데이터(20a)에 대응하는 제2 언어의 번역 수행데이터(20b)를 입력받는 번역작업용 모듈(311)과, 검색어를 입력받아 검색어정보를 생성하는 검색용 모듈(312)과, 상기 번역 대상데이터(20a)의 기술분류와 매칭되고 상기 검색어정보가 하나 이상 포함된 참조데이터 세트(10)를 상기 번역 지원용 DB(100)에서 서치하여 출력하는 참조용 모듈(313)이 포함되는 번역 지원용 어플리케이션(300);을 포함할 수 있다.
본 발명의 검색용 모듈(312)은, 상기 번역작업용 모듈(311)을 통해 출력된 번역 대상데이터(20a) 중에서 드래그된 문자열(dragged string)을 수집하여 검색어정보를 생성할 수 있다.
본 발명의 참조용 모듈(313)은, 상기 검색용 모듈(312)로부터 검색어정보가 전달되면, 상기 번역 지원용 DB(100)로부터 참조데이터 세트(10)를 수집하는 참조데이터 수집유닛(313a); 상기 수집된 참조데이터 세트(10)의 제1 참조데이터(10a)와 상기 드래그된 문자열이 포함된 번역 대상데이터(20a)를 각각 단어 단위로 분할하는 데이터 분할유닛(313b); 상기 분할된 제1 참조데이터(10a) 및 번역 대상데이터(20a)의 단어가 서로 일치하는 개수에 따라 유사도를 판단하는 유사도 측정유닛(313c); 및 상기 측정된 유사도가 높은 순서대로 수집된 참조데이터 세트(10)를 출력하는 참조데이터 출력유닛(313d);을 포함할 수 있다.
또한, 본 발명에 의한 기술문서 번역 지원 시스템은, 최소단위 문장으로 형성된 제1 언어의 제1 참조데이터(10a)와 상기 제1 참조데이터(10a)에 대응하는 제2 언어의 제2 참조데이터(10b)로 이루어진 참조데이터 세트(10)가 기술분류별로 구분되어 저장된 번역 지원용 DB(100); 상기 번역 지원용 DB(100)와 연동되어 참조데이터 세트(10)를 로드하는 사용자 단말기(200); 및 상기 사용자 단말기(200)에 설치되는 번역 지원용 어플리케이션(300);을 포함하며, 상기 번역 지원용 어플리케이션(300)은, 제1 언어의 원문을 최소단위 문장으로 구분한 번역 대상데이터(20a)에 대응하는 제2 언어의 번역 수행데이터(20b)를 입력받고, 상기 번역 대상데이터(20a)의 기술분류와 매칭되는 참조데이터 세트(10) 중 입력된 검색어를 하나 이상 포함하는 참조데이터 세트(10)를 출력하는 번역지원 컴포넌트(310)와, 상기 번역 대상데이터(20a)와 번역 수행데이터(20b) 중 어느 하나 이상에서 도면부호가 기입된 어휘들을 추출하고, 상기 추출된 어휘 리스트를 도면부호와 함께 출력하는 에러검출 컴포넌트(320)를 포함할 수 있다.
본 발명의 에러검출 컴포넌트(320)는, 심도(Depth) 설정에 따라 상기 추출된 어휘를 중심으로 전/후 인접 단어를 더 포함하는 유사단어확인용 문자열을 추출하고, 상기 번역 대상데이터(20a)와 번역 수행데이터(20b) 중에서 상기 유사단어확인용 문자열과 매칭율이 기준매칭율보다 높은 유사단어확인용 문자열 리스트를 출력하는 에러검출 확장용 모듈(321)을 포함할 수 있다.
본 발명에 의한 기술문서 번역 지원 시스템에 따르면, 원문 번역 시 검색어 입력을 통해 관련 기술분야의 번역 참조데이터를 손쉽게 검색할 수 있다. 이에 따라 번역자가 기술분야별 전문 어휘나 용어를 빠르게 파악할 수 있게 되므로 번역의 속도와 정확도를 향상시킬 수 있다.
또한, 본 발명에 의하면 번역 수행데이터 중에서 도면부호가 기입된 어휘 리스트를 출력시킬 수 있다. 이에 따라 번역자가 다수의 도면부호와 기술구성을 한 눈에 확인할 수 있어 휴먼에러를 최소화시켜 번역의 품질을 향상시킬 수 있다.
도 1은 본 발명의 실시예에 따른 기술문서 번역 지원 시스템의 기본 구성을 나타내는 블록도이다.
도 2는 본 발명의 다른 실시예에 따른 기술문서 번역 지원 시스템의 기본 구성을 나타내는 블록도이다.
도 3은 본 발명의 실시예에 따른 번역 지원용 어플리케이션의 구성을 나타내는 블록도이다.
도 4는 본 발명의 실시예에 따른 기술문서 번역 지원 시스템의 번역지원 컴포넌트의 구성을 나타내는 블록도이다.
도 5는 본 발명의 실시예에 따른 기술문서 번역 지원 시스템의 참조용 모듈 및 용어색인용 모듈의 출력을 나타내는 도면이다.
도 6은 도 4에서 참조용 모듈의 구성을 나타내는 블록도이다.
도 7은 본 발명의 실시예에 따른 기술문서 번역 지원 시스템의 에러검출 컴포넌트의 구성을 나타내는 블록도이다.
도 8은 도 본 발명의 실시예에 따른 기술문서 번역 지원 시스템의 에러검출용 모듈의 출력을 나타내는 도면이다.
도 9는 본 발명의 실시예에 따른 기술문서 번역 지원 시스템의 용어통일 컴포넌트의 구성을 나타내는 블록도이다.
도 10은 본 발명의 실시예에 따른 기술문서 번역 지원 시스템의 작동 방법을 나타내는 순서도이다.
이하, 첨부된 도 1 내지 도 10을 참조하여 본 발명의 실시예를 상세하게 설명한다. 다만, 본 발명을 설명함에 있어서 이미 공지된 기능 혹은 구성에 대한 설명은 본 발명의 요지를 명료하게 하기 위하여 생략하기로 한다.
한편, 도면과 구체적인 내용에서 일반적인 단말기, DB(데이터베이스), 어플리케이션 등으로부터 이 분야의 종사자들이 용이하게 알 수 있는 구성 및 작용에 대한 도시 및 언급은 간략히 하거나 생략하였다.
도 1 및 2를 참조하면, 본 발명의 실시예에 따른 기술문서 번역 지원 시스템은 번역 지원용 DB(100), 사용자 단말기(200) 및 번역 지원용 어플리케이션(300)을 포함한다.
번역 지원용 DB(100)는 번역된 기술문서 관련 데이터가 저장되어 있는 데이터 집합체로서, 저장된 데이터를 검색, 저장 및 관리하기 위한 DBMS(Database Management System)을 포함할 수 있다.
이러한 번역 지원용 DB(100)에는 최소단위 문장으로 형성된 제1 언어의 제1 참조데이터(10a)와 상기 제1 참조데이터(10a)에 대응하는 제2 언어의 제2 참조데이터(10b)로 이루어진 참조데이터 세트(10)가 저장된다. 여기서 제1 언어와 제2 언어는 한국어, 영어, 중국어, 일본어, 스페인어 등의 다양한 언어가 해당될 수 있으며, 제1 언어와 제2 언어는 서로 다르다. 즉 참조데이터 세트(10)에는 제1 언어를 가지는 제1 참조데이터(10a)와 이를 제2 언어로 번역한 제2 참조데이터(10b)가 포함된다.
이러한 제1 참조데이터(10a)와 제2 참조데이터(10b)는 각각 최소단위 문장으로 형성되는데, 여기서 최소단위 문장은 하나 또는 다수의 문장을 의미할 수 있다. 이때 "문장"은 생각이나 감정을 언어로 표현할 때 완결된 의미를 나타내는 최소단위로서, 주어와 서술어를 갖추고 있는 것이 원칙이나 때로 이런 것이 생략될 수도 있다.
만약 최소단위 문장이 하나의 문장을 의미하게 될 경우, 일반적으로 문장 끝에는 ‘.’, ‘’, ‘!’ 따위의 마침표가 찍히므로, 이를 기준으로 제1 참조데이터(10a)와 제2 참조데이터(10b)를 구분하도록 할 수 있다. 이와 다르게, 최소단위 문장이 다수의 문장을 의미하게 될 경우, 하나의 문단이나 목차를 기준으로 제1 참조데이터(10a)와 제2 참조데이터(10b)를 구분하도록 할 수 있다. 예를 들어, 특허 명세서에서는 문헌번호([0001],[0002] 등) 또는 식별항목([기술분야], [발명의 내용], [청구범위] 등)을 기준으로 구분할 수 있다.
한편 번역 지원용 DB(100)에 저장되는 참조데이터 세트(10)는 기술분류별로 구분되어 저장되는데, 이러한 구성에 따라 번역 지원용 DB(100) 중에서 번역하고자 하는 원문의 기술분류와 매칭되는 참조데이터 세트(10)만 로드하여 과부화를 최소화하고 데이터 서칭 속도를 향상시킬 수 있다.
여기서 기술분류는 기술분야별 명칭(기계, 전자, 전산, 화학 등) 또는 기술분야별 주요 키워드(발광소자, 열전소자, 빅데이터, 비콘, 실리콘 등), 국제특허분류(IPC), CPC(협력적특허분류) 등을 기준으로 할 수 있다.
사용자 단말기(200)는 사용자가 소유하게 되는 데이터 입/출력을 위한 기기로서, PC 또는 스마트폰, 스마트패드 등이 해당될 수 있다. 이러한 사용자 단말기(200)는 번역 지원용 DB(100)와 연동되어 참조데이터 세트(10)를 로드한다.
번역 지원용 어플리케이션(300)은 상기 사용자 단말기(200)에 설치되는 것으로, 도 3에서와 같이 번역지원 컴포넌트(310), 에러검출 컴포넌트(320) 및 용어통일 컴포넌트(330)를 포함할 수 있다.
번역지원 컴포넌트(310)는 제1 언어의 원문을 최소단위 문장으로 구분한 번역 대상데이터(20a)에 대응하는 제2 언어의 번역 수행데이터(20b)를 입력받고, 번역 대상데이터(20a)의 기술분류와 매칭되는 참조데이터 세트(10) 중 입력된 검색어를 하나 이상 포함하는 참조데이터 세트(10)를 출력한다.
구체적으로, 번역지원 컴포넌트(310)는 도 4에서와 같이 번역작업용 모듈(311), 검색용 모듈(312), 참조용 모듈(313), 기술분류용 모듈(314) 및 저장용 모듈(315)를 포함할 수 있다.
번역작업용 모듈(311)은 제1 언어의 원문을 최소단위 문장으로 구분한 번역 대상데이터(20a)를 출력하고 이에 대응하는 제2 언어의 번역 수행데이터(20b)를 입력받는다.
검색용 모듈(312)은 검색어를 입력받아 검색어정보를 생성한다. 이때 검색어 입력은 번역작업용 모듈(311)을 통해 출력된 번역 대상데이터(20a) 중에서 드래그된 문자열(dragged string)이거나 텍스트로 입력된 문자열일 수 있다. 검색용 모듈(312)은 이러한 드래그된 문자열 또는 텍스트로 입력된 문자열을 수집하여 검색어정보를 생성한다.
참조용 모듈(313)은 번역 대상데이터(20a)의 기술분류와 매칭되고 검색용 모듈(312)을 통해 생성된 검색어정보가 하나 이상 포함된 참조데이터 세트(10)를 번역 지원용 DB(100)에서 서치하여 출력한다. 예를 들어, 도 5와 같이, 사용자에 의해 "기판"이라는 용어가 번역 대상데이터(20a)에서 드래그됨으로써 검색어 입력되면, 참조용 모듈(313)은 생성된 검색어 입력을 하나 이상 포함한 참조데이터 세트(10)를 서치하여 출력한다.
보다 구체적으로, 참조용 모듈(313)은 도 6에서와 같이 참조데이터 수집유닛(313a), 데이터 분할유닛(313b), 유사도 측정유닛(313c) 및 참조데이터 출력유닛(313d)을 포함할 수 있다.
여기서 참조데이터 수집유닛(313a)은 검색용 모듈(312)로부터 검색어정보가 전달되면 번역 지원용 DB(100)로부터 참조데이터 세트(10)를 수집하고, 데이터 분할유닛(313b)는 이렇게 수집된 참조데이터 세트(10)의 제1 참조데이터(10a) 및 검색어정보가 포함된 번역 대상데이터(20a)를 각각 단어 단위로 분할한다.
유사도 측정유닛(313c)은 이렇게 분할된 제1 참조데이터(10a) 및 번역 대상데이터(20a)의 단어가 서로 일치하는 개수에 따라 유사도를 판단한다. 예를 들어, 수집된 참조데이터 세트(10)의 제1 참조데이터(10a)에는 총 10개의 단어가 포함되어 있는데, 이와 일치하는 검색어정보가 포함된 번역 대상데이터(20a)의 단어 개수가 8개인 경우 유사도는 80%로 표시될 수 있다.
참조데이터 출력유닛(313d)은 참조데이터 수집유닛(313a)에 의해 수집된 참조데이터 세트(10)를 리스트 형태로 출력하되, 유사도 측정유닛(313c)에 의해 측정된 유사도가 높은 순서대로 정렬하여 출력할 수 있다.
기술분류용 모듈(314)은 기술분류를 입력받거나 업로드된 원문의 내용을 스캐닝 후 빅데이터를 이용하여 기술분류를 자동 판단하는 등의 방법으로 기술분류정보를 수집 및 생성한다. 기술분류용 모듈(314)의 작동 시기는 원문 업로드 전/후가 될 수 있으며, 다만 참조용 모듈(313)에 의한 참조데이터 세트(10) 서칭 이전인 것이 바람직하다.
저장용 모듈(315)은, 사용자에 의해 선택되면, 번역 대상데이터(20a)와 번역 수행데이터(20b)를 하나의 참조데이터 세트(10)로서 번역 지원용 DB(100)에 저장한다. 즉 번역 대상데이터(20a)가 제1 참조데이터(10a)로, 번역 수행데이터(20b)가 제2 참조데이터(10b)로 이루어지는 새로운 참조데이터 세트(10)가 번역 지원용 DB(100)에 저장된다. 이러한 구성에 의해, 사용자가 원문을 번역한 데이터는 번역 지원용 DB(100)에 축적되어 활용될 수 있다.
이때 저장용 모듈(315)은 기술분류용 모듈(314)을 통해 생성된 기술분류정보를 입력받아, 번역 지원용 DB(100) 중에서 원문의 기술분류와 매칭되는 곳에 번역 대상데이터(20a)와 번역 수행데이터(20b)를 저장하도록 할 수 있다.
에러검출 컴포넌트(320)는 기술구성 용어와 도면부호가 일치하지 않거나 도면부호가 기재되지 않은 기술구성 용어를 검출해내기 위한 것으로서, 도 7에서와 같이 에러검출용 모듈(321) 및 에러검출 확장용 모듈(322)를 포함할 수 있다.
에러검출용 모듈(321)은 에러검출 요청에 따라 번역 대상데이터(20a)와 번역 수행데이터(20b) 중 어느 하나 이상의 일부 또는 전부로 이루어지는 에러검출 대상데이터에서 도면부호가 기입된 어휘들을 추출한다. 이때, 에러검출 요청은 에러검출 컴포넌트(320)가 먼저 실행된 후 사용자 단말기에 설치된 응용 프로그램의 클립보드에 에러검출 대상데이터가 복사(Ctrl+c)되는 것을 의미할 수 있다. 이러한 경우, 클립보드에 복사된 에러검출 대상데이터에서 도면부호가 기입된 어휘들을 추출한다.
이렇게 추출된 어휘 리스트를 도 8과 같이 도면부호 및 어휘 추출 빈도수와 함께 출력한다. 여기서 어휘 추출 빈도수는 각 어휘가 추출된 횟수를 의미하는 것이다. 예를 들어, 도 8에서와 같이 번역 수행데이터(20b)에서 어휘 리스트를 추출하는 경우, 추출된 어휘 리스트 중에서 선택된 "second frames 210"은 어휘 추출 빈도수가 8인 것으로 나타난다. 이러한 결과는 "second frames 210"라는 어휘가 번역 수행데이터(20b)에서 총 8회 검색되어 추출되었음 나타낸다.
에러검출 확장용 모듈(322)은 에러검출용 모듈(321)에서 추출된 어휘를 중심으로 전/후 인접 단어를 더 포함하는 유사단어확인용 문자열을 추출하는데, 여기서 전/후 인접 단어의 개수는 심도(Depth) 설정에 따라 결정된다.
예를 들어, 번역 대상데이터(20a)가 "과산화수소가 분해기(200)를 지나온 지점에 pH 측정기를 설치하여 안전 수치를 벗어날 경우 기기 작동이 정지하도록 할 수 있다."라는 문장을 포함한다고 할 때, 이 문장에서 추출된 어휘는 도면부호가 기입된 "분해기(200)"가 될 수 있다. 여기서 추출되는 유사단어확인용 문자열은, 심도가 1인 경우 "과산화수소가 분해기(200)를 지나온"가, 심도가 3인 경우 "과산화수소가 분해기(200)를 지나온 지점에 pH"가 될 수 있다. 즉 유사단어확인용 문자열에는 추출된 어휘 전/후에 위치되는 일련의 단어들이 포함되되, 심도 값이 클수록 더 많은 개수의 단어들이 포함된다.
다음으로 에러검출 확장용 모듈(322)은 번역 대상데이터(20a) 및 번역 수행데이터(20b) 중에서 이렇게 추출된 유사단어확인용 문자열과의 매칭율이 기준매칭율보다 높은 문자열들을 추출하여 유사단어확인용 문자열 리스트를 생성하고 출력한다.
이러한 구성을 통해, 도면부호를 기재해야하는 기술구성에 대하여 도면부호를 미처 붙이지 못한 경우와 같이, 에러검출용 모듈(321)만으로는 잡아내지 못하는 휴먼에러를 효과적으로 검출해낼 수 있다.
용어통일 컴포넌트(330)는 번역문 전체에서 동일한 용어나 어구에 대한 번역 용어나 어구를 일치시키기 위한 보조 수단으로서, 도 9에서와 같이, 용어색인용 모듈(331) 및 상용구색인용 모듈(332)를 포함할 수 있다.
용어색인용 모듈(331)은 도 5와 같이 색인요청 용어 세트(30)를 입력받아 저장하는데, 이때 색인요청 용어 세트(30)는 제1 언어의 제1 색인요청 용어(30a)와 이와 대응하는 제2 언어의 제2 색인요청 용어(30b)로 이루어진다. 용어색인용 모듈(331)은 이렇게 저장된 색인요청 용어 세트(30)의 제1 색인요청 용어(30a)가 현재 번역자가 번역 중에 있는 번역 대상데이터(20a)에 포함되어 있는지를 확인한 후, 포함되어 있는 해당 색인요청 용어 세트(30)를 출력하여 번역자가 인지할 수 있도록 한다.
여기서 용어색인용 모듈(331)은 현재 커서(cursor)가 위치하고 있는 번역 수행데이터(20b)와 대응되는 번역 대상데이터(20a)가 현재 번역 중에 있는 번역 대상데이터(20a)인 것으로 판단할 수 있다.
상용구색인용 모듈(332)은 용어색인용 모듈(331)와 마찬가지로, 색인요청 상용구 세트(40)를 입력받아 저장하되, 이때 색인요청 상용구 세트(40)는 제1 언어의 제1 색인요청 상용구(40a)와 이와 대응하는 제2 언어의 제2 색인요청 상용구(40b)로 이루어진다. 상용구색인용 모듈(332)은 이렇게 저장된 색인요청 상용구 세트(40)의 제1 색인요청 상용구(40a)가 현재 번역자가 번역 중에 있는 번역 대상데이터(20a)에 포함되어 있는지를 확인한 후, 포함되어 있는 해당 색인요청 상용구 세트(40)를 출력하여 번역자가 인지할 수 있도록 한다.
아래에서는 본 발명의 실시예에 따른 기술문서 번역 지원 시스템의 작동 방법에 대해 설명하기로 한다.
도 10을 참조하여, 본 발명에 따른 번역 지원 시스템의 실행된 이후 사용자에 의해 번역 대상데이터(20a)의 기술분야가 입력되면, 사용자 단말기(200)에서는 입력된 기술분야에 해당되는 번역 참조데이터 세트(10)를 번역 지원용 DB(100)로부터 로드한다. 한편 기술분야를 입력받은 후 번역하고자 하는 번역 대상데이터(20a)를 로드한다.
다음으로 번역 과정 중 사용자에 의해 검색어가 입력되면, 번역지원 컴포넌트(310)가 실행되어 입력된 검색어에 적절한 참조데이터 세트(10)를 추출하게 된다. 이때 로드된 번역 지원용 DB(100)에 원하는 참조데이터 세트(10)가 없는 경우에는 오픈 사전을 통한 검색어 검색결과가 도시되며, 원하는 참조데이터 세트(10)가 하나 이상 추출되는 경우에는 각 참조데이터 세트(10)가 번역 대상데이터(20a)와의 유사도를 기준으로 내림차순 정렬되어 출력된다.
다음으로 사용자에 의해 에러검출 요청이 입력되면, 에러검출 컴포넌트(320)는 도면부호가 기입된 어휘를 추출하여 어휘 리스트를 출력한다. 여기서 에러검출 확장이 선택되면 설정되는 심도에 따라 어휘 리스트에 포함되는 추출된 어휘를 중심으로 전/후 인접 단어를 포함한 유사단어확인용 문자열을 추출한다. 이후 번역 대상데이터(20a) 및 번역 수행데이터(20b) 중에서 이렇게 추출된 유사단어확인용 문자열과의 매칭율이 기준매칭율보다 높은 문자열을 다시 추출하여 유사단어확인용 문자열 리스트를 출력하게 된다.
마지막으로, 검색어 또는 에러검출 요청에 대한 시스템 작동이 완료되고 번역자의 번역이 완료되면, 번역 대상데이터(20a) 및 번역 수행데이터(20b)는 새로운 참조데이터 세트(10)로서 번역 지원용 DB(100)에 저장되고, 다른 원문을 이용한 추가번역을 진행하고자 하는 경우에는 최초의 단계로 돌아가 진행된다.
이러한 본 발명의 실시예에 따른 기술문서 번역 지원 시스템은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능하며, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다.
10 : 참조데이터 세트 10a : 제1 참조데이터
10b : 제2 참조데이터 20a : 번역 대상데이터
20b : 번역 수행데이터 30 : 색인요청 용어 세트
30a : 제1 색인요청 용어 30b : 제2 색인요청 용어
40 : 색인요청 상용구 세트 40a : 제1 색인요청 상용구
40b : 제2 색인요청 상용구
100 : 번역 지원용 DB 200 : 사용자 단말기
300 : 번역 지원용 어플리케이션 310 : 번역지원 컴포넌트
311 : 번역작업용 모듈 312 : 검색용 모듈
313 : 참조용 모듈 313a : 참조데이터 수집유닛
313b : 데이터 분할유닛 313c : 유사도 측정유닛
313d : 참조데이터 출력유닛 314 : 기술분류용 모듈
315 : 저장용 모듈 320 : 에러검출 컴포넌트
321 : 에러검출용 모듈 322 : 에러검출 확장용 모듈
330 : 용어통일 컴포넌트 331 : 용어색인용 모듈
332 : 상용구색인용 모듈

Claims (6)

  1. 최소단위 문장으로 형성된 제1 언어의 제1 참조데이터(10a)와 상기 제1 참조데이터(10a)에 대응하는 제2 언어의 제2 참조데이터(10b)로 이루어진 참조데이터 세트(10)가 기술분류별로 구분되어 저장된 번역 지원용 DB(100);
    상기 번역 지원용 DB(100)와 연동되어 참조데이터 세트(10)를 로드하는 사용자 단말기(200); 및
    상기 사용자 단말기(200)에 설치되며, 제1 언어의 원문을 최소단위 문장으로 구분한 번역 대상데이터(20a)를 출력하고 상기 번역 대상데이터(20a)에 대응하는 제2 언어의 번역 수행데이터(20b)를 입력받는 번역작업용 모듈(311)과, 검색어를 입력받아 검색어정보를 생성하는 검색용 모듈(312)과, 상기 번역 대상데이터(20a)의 기술분류와 매칭되고 상기 검색어정보가 하나 이상 포함된 참조데이터 세트(10)를 상기 번역 지원용 DB(100)에서 서치하여 출력하는 참조용 모듈(313)이 포함되는 번역 지원용 어플리케이션(300);을 포함하는 것을 특징으로 하는 기술문서 번역 지원 시스템.
  2. 제1 항에 있어서,
    상기 검색용 모듈(312)은,
    상기 번역작업용 모듈(311)을 통해 출력된 번역 대상데이터(20a) 중에서 드래그된 문자열(dragged string)을 수집하여 검색어정보를 생성하는 것을 특징으로 하는 기술문서 번역 지원 시스템.
  3. 제2 항에 있어서,
    상기 참조용 모듈(313)은,
    상기 검색용 모듈(312)로부터 검색어정보가 전달되면, 상기 번역 지원용 DB(100)로부터 참조데이터 세트(10)를 수집하는 참조데이터 수집유닛(313a);
    상기 수집된 참조데이터 세트(10)의 제1 참조데이터(10a)와 상기 드래그된 문자열이 포함된 번역 대상데이터(20a)를 각각 단어 단위로 분할하는 데이터 분할유닛(313b);
    상기 분할된 제1 참조데이터(10a) 및 번역 대상데이터(20a)의 단어가 서로 일치하는 개수에 따라 유사도를 판단하는 유사도 측정유닛(313c); 및
    상기 측정된 유사도가 높은 순서대로 수집된 참조데이터 세트(10)를 출력하는 참조데이터 출력유닛(313d);을 포함하는 것을 특징으로 하는 기술문서 번역 지원 시스템.
  4. 최소단위 문장으로 형성된 제1 언어의 제1 참조데이터(10a)와 상기 제1 참조데이터(10a)에 대응하는 제2 언어의 제2 참조데이터(10b)로 이루어진 참조데이터 세트(10)가 기술분류별로 구분되어 저장된 번역 지원용 DB(100);
    상기 번역 지원용 DB(100)와 연동되어 참조데이터 세트(10)를 로드하는 사용자 단말기(200); 및
    상기 사용자 단말기(200)에 설치되는 번역 지원용 어플리케이션(300);을 포함하며,
    상기 번역 지원용 어플리케이션(300)은,
    제1 언어의 원문을 최소단위 문장으로 구분한 번역 대상데이터(20a)에 대응하는 제2 언어의 번역 수행데이터(20b)를 입력받고, 상기 번역 대상데이터(20a)의 기술분류와 매칭되는 참조데이터 세트(10) 중 입력된 검색어를 하나 이상 포함하는 참조데이터 세트(10)를 출력하는 번역지원 컴포넌트(310)와,
    상기 번역 대상데이터(20a)와 번역 수행데이터(20b) 중 어느 하나 이상에서 도면부호가 기입된 어휘들을 추출하고, 상기 추출된 어휘 리스트를 도면부호와 함께 출력하는 에러검출 컴포넌트(320)를 포함하는 것을 특징으로 하는 기술문서 번역 지원 시스템.
  5. 제4 항에 있어서,
    상기 번역지원 컴포넌트(310)는,
    상기 제1 언어의 원문을 최소단위 문장으로 구분한 번역 대상데이터(20a)를 출력하고, 상기 번역 대상데이터(20a)에 대응하는 제2 언어의 번역 수행데이터(20b)를 입력받는 번역작업용 모듈(311);
    상기 검색어를 입력받아 검색어정보를 생성하는 검색용 모듈(312); 및
    상기 번역 대상데이터(20a)의 기술분류와 매칭되고 상기 검색어정보가 하나 이상 포함된 참조데이터 세트(10)를 상기 번역 지원용 DB(100)에서 서치하여 출력하는 참조용 모듈(313);을 포함하는 것을 특징으로 하는 기술문서 번역 지원 시스템.
  6. 제4 항에 있어서,
    상기 에러검출 컴포넌트(320)는,
    심도(Depth) 설정에 따라 상기 추출된 어휘를 중심으로 전/후 인접 단어를 더 포함하는 유사단어확인용 문자열을 추출하고, 상기 번역 대상데이터(20a)와 번역 수행데이터(20b) 중에서 상기 유사단어확인용 문자열과 매칭율이 기준매칭율보다 높은 유사단어확인용 문자열 리스트를 출력하는 에러검출 확장용 모듈(321)을 포함하는 것을 특징으로 하는 기술문서 번역 지원 시스템.
KR1020200020320A 2020-02-19 2020-02-19 기술문서 번역 지원 시스템 KR102338949B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200020320A KR102338949B1 (ko) 2020-02-19 2020-02-19 기술문서 번역 지원 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200020320A KR102338949B1 (ko) 2020-02-19 2020-02-19 기술문서 번역 지원 시스템

Publications (2)

Publication Number Publication Date
KR20210105626A true KR20210105626A (ko) 2021-08-27
KR102338949B1 KR102338949B1 (ko) 2021-12-10

Family

ID=77504535

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200020320A KR102338949B1 (ko) 2020-02-19 2020-02-19 기술문서 번역 지원 시스템

Country Status (1)

Country Link
KR (1) KR102338949B1 (ko)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0749075A2 (en) * 1995-06-14 1996-12-18 Sharp Kabushiki Kaisha Machine translation system
KR20030068502A (ko) * 2003-07-02 2003-08-21 주식회사 크로스랭귀지 (영업소) 번역 메모리를 이용한 번역 처리방법 및 이 번역소프트웨어를 기록한 판독 가능한 기록매체
US20080195375A1 (en) * 2007-02-09 2008-08-14 Gideon Farre Clifton Echo translator
KR101052004B1 (ko) 2008-12-24 2011-07-27 주식회사 씽크풀 번역서비스 제공방법 및 그 시스템
US20120284015A1 (en) * 2008-01-28 2012-11-08 William Drewes Method for Increasing the Accuracy of Subject-Specific Statistical Machine Translation (SMT)
KR20130042839A (ko) 2011-10-19 2013-04-29 한국전자통신연구원 유사문장 검색 장치 및 방법, 유사문장 검색 방법을 실행시키기 위한 프로그램이 기록된 기록매체
KR101485940B1 (ko) * 2013-08-23 2015-01-27 네이버 주식회사 시멘틱 뎁스 구조 기반의 검색어 제시 시스템 및 방법
KR20180107707A (ko) * 2017-03-22 2018-10-02 (주)광개토연구소 인공 지능 기술 기반의 머신 러닝을 사용하는 특허 도면 이미지에 도면 부호의 설명이 표시되도록 맵핑 처리하는 방법 및 장치

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0749075A2 (en) * 1995-06-14 1996-12-18 Sharp Kabushiki Kaisha Machine translation system
KR20030068502A (ko) * 2003-07-02 2003-08-21 주식회사 크로스랭귀지 (영업소) 번역 메모리를 이용한 번역 처리방법 및 이 번역소프트웨어를 기록한 판독 가능한 기록매체
US20080195375A1 (en) * 2007-02-09 2008-08-14 Gideon Farre Clifton Echo translator
US20120284015A1 (en) * 2008-01-28 2012-11-08 William Drewes Method for Increasing the Accuracy of Subject-Specific Statistical Machine Translation (SMT)
KR101052004B1 (ko) 2008-12-24 2011-07-27 주식회사 씽크풀 번역서비스 제공방법 및 그 시스템
KR20130042839A (ko) 2011-10-19 2013-04-29 한국전자통신연구원 유사문장 검색 장치 및 방법, 유사문장 검색 방법을 실행시키기 위한 프로그램이 기록된 기록매체
KR101485940B1 (ko) * 2013-08-23 2015-01-27 네이버 주식회사 시멘틱 뎁스 구조 기반의 검색어 제시 시스템 및 방법
KR20180107707A (ko) * 2017-03-22 2018-10-02 (주)광개토연구소 인공 지능 기술 기반의 머신 러닝을 사용하는 특허 도면 이미지에 도면 부호의 설명이 표시되도록 맵핑 처리하는 방법 및 장치

Also Published As

Publication number Publication date
KR102338949B1 (ko) 2021-12-10

Similar Documents

Publication Publication Date Title
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
CN100511215C (zh) 多语种翻译存储器和翻译方法
Chen et al. Learning a dual-language vector space for domain-specific cross-lingual question retrieval
US9558234B1 (en) Automatic metadata identification
JP2013502643A (ja) 構造化データ翻訳装置、システム及び方法
JPWO2006090732A1 (ja) 単語翻訳装置、翻訳方法および翻訳プログラム
CN105045852A (zh) 一种教学资源的全文搜索引擎系统
US20070179932A1 (en) Method for finding data, research engine and microprocessor therefor
JP2010519655A (ja) 名前照合システムの名前インデックス付け
CN112380848B (zh) 文本生成方法、装置、设备及存储介质
US11537795B2 (en) Document processing device, document processing method, and document processing program
US7359896B2 (en) Information retrieving system, information retrieving method, and information retrieving program
Kettunen et al. Analyzing and improving the quality of a historical news collection using language technology and statistical machine learning methods
KR101023209B1 (ko) 문서 번역 장치 및 그 방법
US8041556B2 (en) Chinese to english translation tool
EA037156B1 (ru) Способ поиска в тексте совпадений с шаблонами
Yeshambel et al. Evaluation of corpora, resources and tools for Amharic information retrieval
KR102338949B1 (ko) 기술문서 번역 지원 시스템
Nghiem et al. Using MathML parallel markup corpora for semantic enrichment of mathematical expressions
Salam et al. Developing the bangladeshi national corpus-a balanced and representative bangla corpus
JPH06195371A (ja) 未登録語獲得方式
CN110457435A (zh) 一种专利新颖性分析系统及其分析方法
Vázquez-González et al. Creating a corpus of historical documents for emotions identification
Colton Text classification using Python
Henrich et al. LISGrammarChecker: Language Independent Statistical Grammar Checking

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant