KR20230158876A

KR20230158876A - 한영 코퍼스 단위 자동 조절 방식 단어장 생성방법 및 그 생성시스템

Info

Publication number: KR20230158876A
Application number: KR1020220058530A
Authority: KR
Inventors: 김윤회
Original assignee: 주식회사월시스
Priority date: 2022-05-12
Filing date: 2022-05-12
Publication date: 2023-11-21

Abstract

본 발명의 목적은, 한국어와 영어를 상호 번역하는 경우 상황까지 고려하여 정확한 번역을 하는 것을 목적으로 한다.
본 발명의 목적을 달성하기 위하여, 번역하고자 하는 타겟 단어를 사용자단말(100)로부터 선택하는 단계(S10); 서버(200)가 타겟 단어에 속하는 문장에서 타겟 단어에 근접한 근접 단어를 추출하는 단계(S20); 서버(200)가 상기 타겟 단어를 포함하는 코퍼스를 데이터베이스(300)로부터 로딩하는 단계(S30); 서버(200)가 상기 코퍼스에서 상기 근접 단어와 동일하거나 유사한 유사 단어를 추출하는 단계(S40); 서버(200)가 상기 유사 단어가 타겟 단어와 떨어져 있는 거리를 기반으로 유사도를 측정하는 단계(S50); 서버(200)가 유사도가 가장 높은 코퍼스의 번역을 예문과 함께 단어장으로 생성하는 단계(S60); 및, 서버(200)가 상기 단어장을 사용자단말(100)에 제공하는 단계(S70);를 진행하는 것을 특징으로 하는 한영 코퍼스 단위 자동 조절 방식 단어장 생성방법을 제공한다.
본 발명에 따르면, 한국어와 영어를 상호 번역함에 있어서 단어 그 자체뿐만 아니라 상황에 따른 쓰임새를 고려한 코퍼스를 활용함으로써 번역을 더욱 정확하게 할 수 있는 유리한 효과가 있다.

Description

한영 코퍼스 단위 자동 조절 방식 단어장 생성방법 및 그 생성시스템{GENERATING METHOD OF AUTOMATIC CONTROLLING WORDBOOK WITH KOREAN ENGLISH CORPUS UNIT AND THE SYSTEM}

본 발명은 단어장 생성방법에 관한 것으로서, 특히 한영 번역이나 통역, 외국어 학습에 있어서 코퍼스, 즉 말뭉치 단위로 문장 또는 어절을 자동으로 조절하는 방식의 단어장을 생성하는 방법에 관한 것이다.

인공지능 변호사 로스(Ross), 챗봇 엘리자(ELIZA), 구글 번역기 등의 인공지능(AI)은 모두 ‘코퍼스(CORPUS) 언어학’을 활용한다는 공통점이 있다. 코퍼스란 말뭉치라고도 하는데, 말뭉치란 사람들이 실제로 사용하는 언어 사례를 모아 놓은 자료를 말한다. 말뭉치를 분석하여 언어가 실제로 어떤 양상으로 사용되는지, 사람들의 인식 속에 언어가 어떻게 저장되어 있는지 탐구할 수 있다. 말뭉치 언어학이 AI 개발에도 활용되면서 말뭉치 언어학에 대한 관심이 높아지고 있다.

대표적으로 말뭉치 언어학을 활용하여 만드는 AI 챗봇은 사람들과 대화를 하면 할수록 그 대화 속의 패턴을 찾아내어 해당 패턴에는 어떤 대답을 내놓을지 결정한다. 대화를 많이 하면 할수록 대화 패턴에 대한 정보가 많아지고, 챗봇은 더 다양한 대답을 내놓을 수 있게 된다.

특히, 말뭉치 언어학은 일반 언어 데이터와는 달리 사람이 실제로 사용하는 언어를 분석한다는 점에서 일상에서 사람들과 대화하는 AI 연구에 적합하다.

예를 들어, ‘몇 시?’라는 한국어 문장은 주어와 목적어 등 문장을 이루는 구조가 다 생략되어 있고 대화 상황에 따라 단순 물음/불쾌감 표시 등 의미가 달라질 수 있다. 단순히 문법적인 언어만 모아둔 데이터에는 없지만, 말뭉치 데이터는 문법적 언어와 상황 분석 데이터를 지니고 있다. 따라서 AI는 말이 사용되는 상황도 함께 학습할 수 있게 도와준다. 특히, 말뭉치 언어학은 사투리가 심하거나 어순이 자유로운 언어일수록 빛을 발한다.

한편, 대한민국 특허등록번호 제10-1794547호의 "단어장 자동생성 및 학습훈련 시스템 및 방법'에서는, 전자책을 통해 입력 또는 검색하지 않고 단어장에 등록하는 기능을 제공하여 고객의 단어장 등록 불편을 제거하며, 전자책에서 단어를 등록할 때 단어가 포함된 예문을 참조하는 체계를 구축하여 전자책 문장과의 연계하여 학습할 수 있는 기술을 개시하고 있다.

그러나, 상기 대한민국 특허등록번호 제10-1794547호는, 영문을 한국어로 또는 그 역의 경우에는 적합하지 않다. 특히 영문과 한국어는 어순이 다르기 때문에 영어 단어장이나 외국인을 위한 한국어 단어장에는 적용하기 힘들다는 단점이 있다.

대한민국 특허등록번호 제10-1794547호의 "단어장 자동생성 및 학습훈련 시스템 및 방법'

본 발명의 목적은, 한국어와 영어를 상호 번역하는 경우 상황까지 고려하여 정확한 번역을 하는 것을 목적으로 한다.

또한 본 발명의 목적은 향후 학습에 유리하도록 단어장을 제공하는 것이다.

본 발명의 목적을 달성하기 위하여, 번역하고자 하는 타겟 단어를 사용자단말로부터 선택하는 단계(S10); 서버가 타겟 단어에 속하는 문장에서 타겟 단어에 근접한 근접 단어를 추출하는 단계(S20); 서버가 상기 타겟 단어를 포함하는 코퍼스를 데이터베이스로부터 로딩하는 단계(S30); 서버가 상기 코퍼스에서 상기 근접 단어와 동일하거나 유사한 유사 단어를 추출하는 단계(S40); 서버가 상기 유사 단어가 타겟 단어와 떨어져 있는 거리를 기반으로 유사도를 측정하는 단계(S50); 서버가 유사도가 가장 높은 코퍼스의 번역을 예문과 함께 단어장으로 생성하는 단계(S60); 및, 서버가 상기 단어장을 사용자단말에 제공하는 단계(S70);를 진행하는 것을 특징으로 하는 한영 코퍼스 단위 자동 조절 방식 단어장 생성방법을 제공한다.

또한 상기와 같은 목적을 달성하기 위하여 본 발명에서는, 화면을 통해 번역하고자 하는 타겟 단어를 선택하도록 하고, 서버로부터 상기 단어장을 제공받는 서버와 무선통신 가능한 사용자단말(100); 타겟 단어에 속하는 문장에서 타겟 단어에 근접한 근접 단어를 추출하고, 상기 타겟 단어를 포함하는 코퍼스를 데이터베이스로부터 로딩하며, 상기 코퍼스에서 상기 근접 단어와 동일하거나 유사한 유사 단어를 추출하고, 상기 유사 단어가 타겟 단어와 떨어져 있는 거리를 기반으로 유사도를 측정하며, 유사도가 가장 높은 코퍼스의 번역을 예문과 함께 단어장으로 생성하고, 상기 단어장을 사용자단말에 제공하는 서버(200); 및, 코퍼스가 수록되어 있는 데이터베이스(300);를 포함하는 것을 특징으로 하는 한영 코퍼스 단위 자동 조절 방식 단어장 생성시스템을 제공한다.

본 발명에 따르면, 한국어와 영어를 상호 번역함에 있어서 단어 그 자체뿐만 아니라 상황에 따른 쓰임새를 고려한 코퍼스를 활용함으로써 번역을 더욱 정확하게 할 수 있는 유리한 효과가 있다.

본 발명에 따르면, 번역과 예문을 단어장 형태로 제공하여 향후 학습에도 일조할 수 있는 유리한 효과가 있다.

도면을 사용하여 본 발명의 실시예를 더 상세하게 설명하기 전에, 도면 및 상세한 설명에서 동일한 요소, 그리고 동일한 기능 및/또는 동일한 기술적 또는 물리적 효과를 갖는 요소는, 동일한 참조 번호를 부여하거나 동일한 명칭으로 식별하며, 다른 실시예에서 도시 또는 설명된 요소 및 그 기능의 설명은 서로 교환가능하거나 다른 실시예에서 서로 적용될 수 있다.
도 1은 본 발명의 한영 코퍼스 단위 자동 조절 방식 단어장 생성방법을 수행하기 위한 전체 순서도이다.
도 2는 본 발명의 한영 코퍼스 단위 자동 조절 방식 단어장 생성방법 중 코퍼스를 데이터베이스로부터 로딩하는 실시예이다.
도 3은 본 발명의 한영 코퍼스 단위 자동 조절 방식 단어장 생성시스템을 나타내는 전체구성도이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 본 발명을 설명함에 있어 전체적인 이해를 용이하게 하기 위하여 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.

도 1은 본 발명의 한영 코퍼스 단위 자동 조절 방식 단어장 생성방법을 수행하기 위한 전체 순서도이다.

먼저, 번역하고자 하는 타겟 단어를 사용자단말(100)로부터 선택하는 단계(S10)를 진행한다. 타겟 단어란 직접적으로 번역하고자 하는 단어를 말한다. 예를 들어, '세작'이란 단어의 뜻과 쓰임새를 알고 싶다고 가정할 때, '세작'이 타겟 단어이다.

여기서 사용자단말(100)은 본 발명에 따른 서버(200)에서 발송하는 정보 또는 메시지를 데이터 형태로 수신할 수 있는 모든 형태의 단말기를 칭하고, 컴퓨터나 휴대용 단말기, 텔레비전, 웨어러블 디바이스(Wearable Device)로 구현될 수 있으며, 컴퓨터는 예를 들어, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(desktop), 랩톱(laptop) 등을 포함하고, 휴대용 단말기는 예를 들어, 휴대성과 이동성이 보장되는 무선 통신 장치로서, PCS(Personal Communication System), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), GSM(Global System for Mobile communications), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), Wibro(Wireless Broadband Internet), 스마트폰(Smart Phone), 모바일 WiMAX(Mobile Worldwide Interoperability for Microwave Access), 블루투스(Bluetooth), 와이파이(WiFi) 등과 같은 모든 종류의 무선 통신을 사용 가능한 핸드헬드(Handheld) 기반의 무선 통신 장치를 포함할 수 있다. 또한, 텔레비전은 IPTV(Internet Protocol Television), 인터넷 TV(Internet Television), 지상파 TV, 케이블 TV 등을 포함할 수 있다. 나아가 웨어러블 디바이스는 예를 들어, 시계, 안경, 액세서리, 의복, 신발 등 인체에 직접 착용 가능한 타입의 정보 처리 장치로서, 직접 또는 다른 정보 처리 장치를 통해 유무선네트워크를 경유하여 서버(200)와 각종 메시지를 데이터 형태로 송수신할 수 있다.

다음으로, 서버(200)가 타겟 단어에 속하는 문장에서 타겟 단어에 근접한 근접 단어를 추출하는 단계(S20)를 진행한다. 타겟 단어와 가까이에 있는 근접 단어를 추출한다.

예를 들어, ' 세작 '이 타겟 단어일 때, 그 '세작'이 포함된 전체 문장이 '전하를 배신한 세작 은 허상궁이었다'라고 가정하면, 근접 단어는 '전하', '배신', '허상궁'이 될 것이다.

다음으로, 서버(200)가 상기 타겟 단어를 포함하는 코퍼스를 데이터베이스(300)로부터 로딩하는 단계(S30)를 진행한다.

도 2는 본 발명의 한영 코퍼스 단위 자동 조절 방식 단어장 생성방법 중 코퍼스를 데이터베이스(300)로부터 로딩하는 실시예이다.

상기 예와 관련하여, 데이터베이스(300)로부터 로딩된 코퍼스가 "~쳐다보며 고개를 흔들었다. 민비의 해오라기처럼 창백한 얼굴이 새벽빛에 더욱 도드라져 보였다. '전하, 전하는 이 나라의 지존이시옵니다.' 민비가 고종을 재촉했다. 그때 세작 척이 김 상궁과 함께 허겁지겁 달려왔다. '어마마마.' '세자야.' 민비가 세자의 손을 꼬옥 잡았다. 민비의 눈에 눈물이 글썽해졌다. '중전, 어서 피하도록'~"이었다.

다음으로, 서버(200)가 상기 코퍼스에서 상기 근접 단어와 동일하거나 유사한 유사 단어를 추출하는 단계(S40)를 진행한다.

상기 예에서, 유사 단어는 '세작'과 가까이에 있는 '척', '김상궁', '고종', '민비', '지존', '나라', '전하' 등이 된다.

다음으로, 서버(200)가 상기 유사 단어가 타겟 단어와 떨어져 있는 거리를 기반으로 유사도를 측정하는 단계(S50)를 진행한다.

상기 예에서, 동일하거나 유사한 근접 단어들은 '전하', '상궁'이 될 것이다.

이와 달리, 수많은 검색된 코퍼스 중에는 '전하'나 '상궁'을 전혀 포함하지 않는 코퍼스들도 있지만, 이는 위 예에서는 제외시키는 것이 바람직하다.

다음으로, 서버(200)가 유사도가 가장 높은 코퍼스의 번역을 예문과 함께 단어장으로 생성하는 단계(S60)를 진행한다. 즉 '전하'나 '상궁'을 포함한 여러 코퍼스들 중에 '세작'과 거리가 가장 가까운 코퍼스를 추출하여 그 코퍼스들의 번역을 예문과 함께 단어장으로 생성한다. 여기서 예문은 코퍼스 자체가 될 수 있다.

다음으로, 서버(200)가 상기 단어장을 사용자단말(100)에 제공하는 단계(S70)를 진행한다. 사용자단말(100)은 단어장 플랫폼이 미리 구비되어 있는 것이 좋다.

도 3은 본 발명의 한영 코퍼스 단위 자동 조절 방식 단어장 생성시스템을 나타내는 전체구성도이다.

도 3에 도시된 바와 같이, 서버(200)는 유무선 네트워크에 의하여 사용자단말(100)과 연결됨이 바람직하다. 유무선 네트워크는 서버(200)와 사용자 단말(100) 사이에서 데이터 송수신을 행하는 통상적인 유무선 통신망을 말한다. 유무선 네트워크는, 예를 들어, 근거리 통신망(Local Area Network; LAN), 광역 통신망(Wide Area Network; WAN), 부가가치 통신망(Value Added Network; VAN), 개인 근거리 무선통신(Personal Area Network; PAN), 이동 통신망(mobile radio communication network), Wibro(Wireless Broadband Internet), Mobile WiMAX, HSDPA(High Speed Downlink Packet Access), 블루투스(Bluetooth), 와이파이(WiFi) 또는 위성 통신망 등과 같은 모든 종류의 유/무선 네트워크로 구현될 수 있다.

데이터베이스(300)에는 가능한 한 많은 코퍼스들이 저장되어 있다.또한, 데이터베이스(300)에는 코퍼스에 관한 출처나 저작년도, 제목, 저작자 등의 정보가 저장된다.

상술한 본 발명에 따른, 한영 코퍼스 단위 자동 조절 방식 단어장 생성방법은, 다양한 예시적인 로직들, 논리 블록들, 모듈들, 및 회로들이 범용 프로세서, 디지털 신호 처리기(DSP), 주문형 집적회로(ASIC), 필드 프로그래밍 가능한 게이트 어레이(FPGA), 또는 다른 프로그래밍 가능한 로직 장치, 이산 게이트 또는 트랜지스터 로직, 이산 하드웨어 컴포넌트들, 또는 이러한 기능들을 수행하도록 설계된 것들의 조합을 통해 구현 또는 수행될 수 있다.

범용 프로세서는 마이크로프로세서일 수 있지만, 대안적 실시예에서, 이러한 프로세서는 종래의 프로세서, 제어기, 마이크로제어기일 수 있다. 프로세서는 또한 예를 들어, DSP 및 마이크로프로세서, 복수의 마이크로프로세서들, DSP 코어와 결합된 하나 이상의 마이크로프로세서, 또는 이러한 구성들의 조합과 같이 계산 장치들의 조합으로서 구현될 수 있다.

여기서, 개시된 실시 형태와 관련하여 상술한 방법 또는 알고리즘의 단계들은 하드웨어, 프로세서에 의해 실행되는 소프트웨어 모듈, 또는 이들의 조합에 의해 직접 구현될 수 있다. 소프트웨어 모듈은 RAM 메모리, 플래시 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터들, 하드디스크, 휴대용 디스크, CD-ROM, 또는 당해 기술 분야에 공지된 저장 매체의 임의의 형태 내에 존재한다. 예시적인 저장 매체는 프로세서와 결합되어, 프로세서는 저장 매체로부터 정보를 판독하여 저장 매체에 정보를 기록한다. 대안적으로, 저장 매체는 프로세서에 집적화될 수 있다. 이러한 프로세서 및 저장매체는 ASIC에 위치한다. ASIC은 사용자 단말에 위치할 수 있다. 대안적으로, 프로세서 및 저장 매체는 사용자 단말에서이산 컴포넌트들로서 존재할 수 있다.

제시된 실시 형태에 대한 설명은 임의의 본 발명의 기술 분야에서 통상의 지식을 가진 자가 본 발명을 이용하거나 또는 실시할 수 있도록 제공된다.

이러한 실시예들에 대한 다양한 변형들은 본 발명의 기술 분야에서 통상의 지식을 가진 자에게 명백할 것이다.

그리하여, 본 발명은 여기에 제시된 실시 형태로 한정되는 것이 아니라, 여기에 제시된 원리들 및 신규한 특징들과 일관되는 최광의의 범위에서 해석되어야 할 것이다. 또한, 단어 "예시적인"은 예, 일례, 또는 설명으로서 제공되는 것을 의미하기 위해 여기서 사용된다.

따라서, 본 명세서에서 도시 및 설명한 바람직한 실시 형태는, 본 발명의 사상 및 범주, 특히 필수적인 특성들을 벗어남이 없이 다양하게 변경, 변형 및 수정 실시될 수 있다. 즉, 본 명세서에서 개시 및 설명한 사항들은 첨부된 청구범위의 예시적인 것이고, 이에 본 발명의 범위가 제한되는 것은 아니므로, 본 발명은 첨부된 청구범위에 의해서만 그 범위를 특정할 수 있다.

100: 사용자단말
200: 서버
300: 데이터베이스

Claims

번역하고자 하는 타겟 단어를 사용자단말(100)로부터 선택하는 단계(S10);
서버(200)가 타겟 단어에 속하는 문장에서 타겟 단어에 근접한 근접 단어를 추출하는 단계(S20);
서버(200)가 상기 타겟 단어를 포함하는 코퍼스를 데이터베이스(300)로부터 로딩하는 단계(S30);
서버(200)가 상기 코퍼스에서 상기 근접 단어와 동일하거나 유사한 유사 단어를 추출하는 단계(S40);
서버(200)가 상기 유사 단어가 타겟 단어와 떨어져 있는 거리를 기반으로 유사도를 측정하는 단계(S50);
서버(200)가 유사도가 가장 높은 코퍼스의 번역을 예문과 함께 단어장으로 생성하는 단계(S60); 및,
서버(200)가 상기 단어장을 사용자단말(100)에 제공하는 단계(S70);를 진행하는 것을 특징으로 하는 한영 코퍼스 단위 자동 조절 방식 단어장 생성방법.
화면을 통해 번역하고자 하는 타겟 단어를 선택하도록 하고, 서버(200)로부터 상기 단어장을 제공받는 서버(200)와 무선통신 가능한 사용자단말(100);
타겟 단어에 속하는 문장에서 타겟 단어에 근접한 근접 단어를 추출하고, 상기 타겟 단어를 포함하는 코퍼스를 데이터베이스(300)로부터 로딩하며, 상기 코퍼스에서 상기 근접 단어와 동일하거나 유사한 유사 단어를 추출하고, 상기 유사 단어가 타겟 단어와 떨어져 있는 거리를 기반으로 유사도를 측정하며, 유사도가 가장 높은 코퍼스의 번역을 예문과 함께 단어장으로 생성하고, 상기 단어장을 사용자단말(100)에 제공하는 서버(200); 및,
코퍼스가 수록되어 있는 데이터베이스(300);를 포함하는 것을 특징으로 하는 한영 코퍼스 단위 자동 조절 방식 단어장 생성시스템.