KR20240040825A - 한국어-한국 수어 번역 데이터 증강 및 평가 방법과 이를 수행하기 위한 장치 - Google Patents

한국어-한국 수어 번역 데이터 증강 및 평가 방법과 이를 수행하기 위한 장치 Download PDF

Info

Publication number
KR20240040825A
KR20240040825A KR1020220119007A KR20220119007A KR20240040825A KR 20240040825 A KR20240040825 A KR 20240040825A KR 1020220119007 A KR1020220119007 A KR 1020220119007A KR 20220119007 A KR20220119007 A KR 20220119007A KR 20240040825 A KR20240040825 A KR 20240040825A
Authority
KR
South Korea
Prior art keywords
korean
sign language
sentence
token
sentences
Prior art date
Application number
KR1020220119007A
Other languages
English (en)
Inventor
김진영
유광현
당탄부
이주환
이칠우
Original Assignee
전남대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 전남대학교산학협력단 filed Critical 전남대학교산학협력단
Priority to KR1020220119007A priority Critical patent/KR20240040825A/ko
Publication of KR20240040825A publication Critical patent/KR20240040825A/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/51Translation evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B21/00Teaching, or communicating with, the blind, deaf or mute
    • G09B21/009Teaching or communicating with deaf persons

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Machine Translation (AREA)

Abstract

자체적으로 데이터베이스화한 질 높은 데이터셋을 증강하게 되어 양질의 한국어-한국 수어 데이터셋을 갖출 수 있는 한국어-한국 수어 번역 데이터 증강 및 평가 방법과 이를 수행하기 위한 장치가 개시된다. 한국어-한국 수어 번역 데이터 증강 및 평가 장치는, 한국어 문장과 한국 수어 문장이 일대일 대응을 이루는 말뭉치 데이터셋에 대해서, 한국어 문장과 한국 수어 문장을 매칭하여 똑같은 단어를 찾는 중심어 탐지부; 상기 중심어 탐지부를 통해 구별된 단어를 기반으로 한국 수어 문장을 데이터 증강시키는 데이터 증강부; 및 상기 데이터 증강부를 통해서 증강된 한국어 문장-한국 수어 문장 말뭉치 데이터셋을 활용해서 딥러닝 기반 기계 번역 모델을 학습 및 검증하는 한국어-한국 수어 번역 모델부를 포함한다. 이에 따라, 딥러닝 기반 한국어-한국 수어 번역 모델을 학습하기 위해 데이터를 구성할 때, 한정된 도메인인 한국어-한국 수어 번역 내에서 한정된 한국어-한국 수어 말뭉치 데이터셋을 증강하여 양질의 말뭉치 데이터셋을 만들 수 있고, 이를 기반으로 학습된 딥러닝 기반 한국어-한국 수어 모델의 성능을 평가할 수 있다.

Description

한국어-한국 수어 번역 데이터 증강 및 평가 방법과 이를 수행하기 위한 장치{METHOD FOR AUGUMENTING AND EVALUATION KOREA-TO-KOREAN SIGN LANGUAGE TRANSLATION DATA AND APPARATUS FOR PERFORMING THE SAME}
본 발명은 한국어-한국 수어 번역 데이터 증강 및 평가 방법과 이를 수행하기 위한 장치에 관한 것으로서, 보다 상세하게는, 자체적으로 데이터베이스화한 질 높은 데이터셋을 증강하게 되어 양질의 한국어-한국 수어 데이터셋을 갖출 수 있는 한국어-한국 수어 번역 데이터 증강 및 평가 방법과 이를 수행하기 위한 장치에 관한 것이다.
기계 번역은 1949년 미국의 수학자 워렌 위버가 제안하였고, 이를 기점으로 1950년대 들어 본격적인 연구가 시작된다. 그 당시 수준은 단어를 찾아 목적 언어의 것으로 바꾸고, 문법에 따라 재구성해주는 정도였다.
1980년대에 이르기까지 기계 번역은 대부분 규칙 기반 기술을 이용했는데, 실제 언어의 구조와 문법을 바탕으로 규칙을 만들어 번역하는 방법이다.
1990년에 접어들며 IBM이 통계적 방법을 기계 번역에 도입하며 혁신적인 변화가 일어난다. 통계 기반 기계 번역은 원문과 번역문의 병렬 말뭉치를 이용해 단어나 구문의 빈도수 등 통계 모델을 학습하는 방법이다.
2000년대 이후 기계 번역은 딥러닝과 결합하며 또 다른 차원의 거대한 혁신이 일어난다. 신경망 기반 기계 번역은 기존의 접근 방법들과 달리 실제 인간의 사고 방식을 모방하여 기계가 문장의 의미를 이해한 정보를 기반으로 번역 결과를 만든다. 그 결과 문장의 의미와 미묘한 뉘앙스 차이까지 인식해 훨씬 더 자연스러운 번역 결과를 보여줄 수 있다.
그럼에도 불구하고 딥러닝 기반 기계 번역은 번역 오류가 존재한다. 언어의 표현은 시대나 지역, 심지어 사람이나 상황에 따라서, 변하기 때문에, 적합한 표현이라고 판단된 기준이 사람에 따라 다르게 해석되고, 평가될 수 있다. 무엇보다도 바둑의 기보와 같이 기계를 학습시킬 데이터가 충분하지 않다. 그나마 용어가 한정된 전문 분야와 상대적으로 데이터가 많은 영어의 번역은 좀 더 나은 상황이다. 반면 영어 이외의 언어나 일상에서 쓰는 구어체에 대한 데이터는 아직도 부족한 상황이다. 그런 이유로 현재 딥러닝 기반 기계 번역기의 성능을 높이는 가장 확실한 방법은 데이터를 잘 만드는 것이다. 번역기를 학습시키는 교과서 역할을 한 양질의 데이터가 있으면 자연스레 번역기의 성능이 좋아지게 된다.
일반적으로 딥러닝 기반 기계 번역 모델의 성능 평가 척도로는 주로 BLEU(Bilingual Evaluation Understudy)를 활용한다. IBM에서 개발한 BLEU는 기계가 번역한 문장(source)과 인간이 실제로 번역한 정답 문장(reference)간의 정확도를 측정한다. 숫자가 클수록 번역된 문장과 정답 문장과의 유사성이 높다. 물론 BLEU가 높더라도 사람의 번역 품질보다 훨씬 떨어질 수는 있지만 언어에 구애받지 않고 계산 속도가 빠르며 객관적인 평가법이라는 점에서 그 공신력을 인정받고 있다.
한국공개특허 제10-2021-0138311호(2021. 11. 19., 공개)(발명의 명칭: 언어 및 수어의 병렬 말뭉치 데이터의 생성 장치 및 방법) 한국공개특허 제10-2020-0001902호(2020. 01. 07., 공개)(발명의 명칭: 수어 인식 인공신경망 학습데이터 생성방법과 시스템 및 변형 애니메이션 데이터 생성시스템) 한국등록특허 제10-2167760호(2020. 10. 19., 공고)(발명의 명칭: 수어동작 인식 처리절차 및 움직임 추적 Pre-trained 모델을 이용한 수어동작 분석 알고리즘 시스템)
이에 본 발명은 이러한 점에 착안한 것으로서, 발명의 목적은 딥러닝 기반 한국어-한국 수어 번역 모델을 학습하기 위해 데이터를 구성할 때, 한정된 도메인인 한국어-한국 수어 번역 내에서 한정된 한국어-한국 수어 말뭉치 데이터셋을 증강할 수 있는 한국어-한국 수어 번역 데이터 증강 및 평가 방법을 제공하는 것이다.
본 발명의 다른 목적은 상기한 한국어-한국 수어 번역 데이터 증강 및 평가 방법을 수행하기 위한 한국어-한국 수어 번역 데이터 증강 및 평가 장치를 제공하는 것이다.
상기한 본 발명의 목적을 실현하기 위하여 일실시예에 따른 한국어-한국 수어 번역 데이터 증강 및 평가 방법은, 한국어 문장과 한국 수어 문장이 일대일 대응을 이루는 말뭉치 데이터셋에 대해서, 한국어 문장과 한국 수어 문장을 매칭하여 똑같은 단어를 찾는 중심어 탐지 단계; 상기 구별된 단어를 기반으로 한국어 문장-한국 수어 문장 말뭉치 데이터셋을 데이터 증강시키는 데이터 증강 단계; 및 상기 증강된 한국어 문장-한국 수어 문장 말뭉치 데이터셋을 활용해서 딥러닝 기반 기계 번역 모델을 학습 및 검증하는 단계를 포함한다.
본 발명의 일실시예에서, 상기 딥러닝 기반 기계 번역 모델을 통해서 나온 번역 결과를 실제 한국 수어를 사용하는 농아인들이 이해하는 방식키워드 중심으로 한국어 문장을 이해하는 경향을 반영하여 한국어-한국 수어 번역 결과 성능지표를 설정하는 단계를 더 포함할 수 있다.
상기한 본 발명의 목적을 실현하기 위하여 일실시예에 따른 한국어-한국 수어 번역 데이터 증강 및 평가 장치는, 한국어 문장과 한국 수어 문장이 일대일 대응을 이루는 말뭉치 데이터셋에 대해서, 한국어 문장과 한국 수어 문장을 매칭하여 똑같은 단어를 찾는 중심어 탐지부; 상기 중심어 탐지부를 통해 구별된 단어를 기반으로 한국어 문장-한국 수어 문장 말뭉치 데이터셋을 데이터 증강시키는 데이터 증강부; 및 상기 데이터 증강부를 통해서 증강된 한국어 문장-한국 수어 문장 말뭉치 데이터셋을 활용해서 딥러닝 기반 기계 번역 모델을 학습 및 검증하는 한국어-한국 수어 번역 모델부를 포함한다.
본 발명의 일실시예에서, 한국어-한국 수어 번역 데이터 증강 및 평가 장치는, 상기 한국어-한국 수어 번역 모델부를 통해서 나온 번역 결과를 실제 한국 수어를 사용하는 농아인들이 이해하는 방식키워드 중심으로 한국어 문장을 이해하는 경향을 반영하여 한국어-한국 수어 번역 결과 성능지표를 설정하는 번역 결과 성능지표 설정부를 더 포함할 수 있다.
본 발명의 일실시예에서, 상기 한국어-한국 수어 번역 결과 성능지표는, (A는 기계번역으로 번역된 문장의 토큰들, B는 번역 정답 문장의 토큰들)로 정의될 수 있다.
본 발명의 일실시예에서, 상기 중심어 탐지부는, 한국어 문장과 한국 수어 문장이 일대일 대응을 이루는 말뭉치 데이터셋에 대해서, 입력된 한국어 문장을 품사 기반으로 토큰화시켜 한국어 문장 토큰으로 변경하고, 입력된 한국 수어 문장은 띄어쓰기 기반으로 토큰화를 시켜 한국 수어 문장 토큰으로 변경할 수 있다.
본 발명의 일실시예에서, 상기 중심어 탐지부는, 상기 한국어 문장 토큰과 한국 수어 문장 토큰을 각각 순서대로 윈도우를 기반으로 검색하여, 완전 동일한 토큰일 경우에는 정답을 1로 매핑하고, 비슷한 형태의 토큰일 경우에는 정답을 2로 매핑하고, 나머지 다른 형태의 토큰일 경우에는 정답을 0으로 맵핑할 수 있다.
본 발명의 일실시예에서, 상기 윈도우 기반으로 검색하는 공식은,
,
에 의해 정의되고, 상기 검색 마진은 한국 수어 문장 토큰 길이를 한국어 문장 토큰 길이로 나눈 값에 해당 토큰 번호를 곱한 값으로 실제 한국어 문장 토큰 길이와 한국 수어 문장 토큰 길이가 다를 경우에 검색 마진을 윈도우 크기에 더하고 빼주면서 검색 범위를 설정하고 검색을 시작할 수 있다.
본 발명의 일실시예에서, 상기 중심어 탐지부는, 상기 비슷한 형태의 토큰일 경우에 정답을 2로 매핑하되, 공개된 한국어 문장 토큰 데이터셋과 한국어 문장 토큰-한국 수어 문장 토큰 말뭉치를 포함해서 Word2vec 모델로 유사도를 계산하여 특정 임계값 이상의 유사도에 대해서는 그대로 비슷한 형태의 토큰일 경우로 판단하여 정답을 2로 매핑하고, 임계값 미만의 유사도에 대해서는 다른 형태의 토큰이라고 판단하고 정답을 0으로 매핑할 수 있다.
본 발명의 일실시예에서, 상기 중심어 탐지부는, 한국어 문장 토큰이 숫자 또는 외래어일 경우에는 숫자 또는 외래어라는 특정 태그로 변환 후 정답을 2로 매핑할 수 있다.
본 발명의 일실시예에서, 상기 중심어 탐지부는, 중심어가 매핑된 새로운 데이터셋을 기반으로, 한국어 문장 토큰-중심어가 매핑된 한국어 문장 토큰-한국 수어 문장 토큰의 3가지 타입이 엮인 말뭉치 데이터셋을 만들고, 상기 말뭉치 데이터셋를 입력과 정답의 말뭉치로 변환하여 딥러닝 기반 중심어 탐지 모델로 학습하여 결과를 도출할 수 있다.
본 발명의 일실시예에서, 상기 데이터 증강부는, 상기 중심어 탐지부 또는 딥러닝 기반 중심어 탐지 모델 결과를 통해서 중심어가 매핑된 새로운 데이터셋을 얻고, 상기 완전 동일한 토큰일 경우에는 정답이 1로 매핑된 토큰을 기준으로 문장을 쪼개서 데이터를 증강할 수 있다.
본 발명의 일실시예에서, 상기 한국어-한국 수어 번역 모델부는, 상기 데이터 증강부를 통해서 양질의 증강된 쪼개진 한국어 문장 토큰-한국 수어 문장 토큰의 말뭉치를 기반으로, 학습시에는 쪼개진 한국어 문장 토큰-한국 수어 문장 토큰 말뭉치를 입력 데이터로 딥러닝 기반 기계 번역 모델을 통해 학습하여 번역 모델의 성능을 높일 수 있다.
본 발명의 일실시예에서, 상기 한국어-한국 수어 번역 모델부는, 상기 데이터 증강부를 통해서 양질의 증강된 쪼개진 한국어 문장 토큰-한국 수어 문장 토큰의 말뭉치를 기반으로, 테스트시에는 쪼개진 한국어 문장 토큰-한국 수어 문장 토큰 말뭉치를 쪼개진 갯수만큼 사전 학습된 딥러닝 기반 기계 번역 모델을 매칭하여 번역할 수 있다.
이러한 한국어-한국 수어 번역 데이터 증강 및 평가 방법과 이를 수행하기 위한 장치에 의하면, 딥러닝 기반 한국어-한국 수어 번역 모델을 학습하기 위해 데이터를 구성할 때, 한정된 도메인인 한국어-한국 수어 번역 내에서 한정된 한국어-한국 수어 말뭉치 데이터셋을 증강하여 양질의 말뭉치 데이터셋을 만들 수 있고, 이를 기반으로 학습된 딥러닝 기반 한국어-한국 수어 모델의 성능을 평가할 수 있다.
도 1은 본 발명의 일실시예에 따른 한국어-한국 수어 번역 데이터 증강 및 평가 장치를 설명하기 위한 블록도이다.
도 2는 도 1에 도시된 중심어 탐지부에 한국어 문장을 적용한 결과를 설명하기 위한 상세도이다.
도 3은 본 발명의 일실시예에 따른 한국어-한국 수어 번역 데이터 증강 및 평가 방법을 설명하기 위한 흐름도이다.
도 4는 도 3에 도시된 단계 S100를 설명하기 위한 흐름도이다.
도 5는 입력된 한국어 문장에 대해 토큰화 및 불필요한 품사 제거를 설명하기 위한 도면이다.
도 6은 도 4에서 설명된 단계 S106, 단계 S108, 단계 S110 및 단계 S112에 대한 알고리즘을 나타낸 도면이다.
도 7은 도 4에서 설명된 단계 S116 및 단계 S118에 대한 알고리즘을 나타낸 도면이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 형태를 가질 수 있는 바, 특정 실시예들을 본문에 상세하게 설명하고자 한다. 그러나 이는 본 발명을 특정한 개시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
본 출원에서 사용 한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 구성요소 등을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 구성요소 등을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
여기서, 반복되는 설명, 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능, 및 구성에 대한 상세한 설명은 생략한다. 본 발명의 실시형태는 당 업계에서 평균적인 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위해서 제공되는 것이다.
이하, 본 발명의 실시예를 설명하기 위한 도면들을 참조하여 상세히 설명하기로 한다.
도 1은 본 발명의 일실시예에 따른 한국어-한국 수어 번역 데이터 증강 및 평가 장치를 설명하기 위한 블록도이다.
도 1을 참조하면, 본 발명의 일실시예에 따른 한국어-한국 수어 번역 데이터 증강 및 평가 장치는 중심어 탐지부(110), 데이터 증강부(120), 한국어-한국 수어 번역 모델부(130) 및 번역 결과 성능지표 설정부(140)를 포함한다. 도 1에서, 한국어-한국 수어 번역 데이터 증강 및 평가 장치는 중심어 탐지부(110), 데이터 증강부(120), 한국어-한국 수어 번역 모델부(130) 및 번역 결과 성능지표 설정부(140)로 구성된 것을 설명하였지만, 이는 설명의 편의를 위해 논리적으로 구분하였을 뿐 하드웨어적으로 구분한 것은 아니다.
중심어 탐지부(Keyword detection)(110)는 한국어 문장과 한국 수어 문장이 일대일 대응을 이루는 말뭉치 데이터셋에 대해서, 한국어 문장과 한국 수어 문장을 매칭하여 똑같은 단어를 찾는다. 여기서, 한국 수어는 손의 모양, 몸의 움직임, 얼굴 표정을 포함해서 단어를 표현하지만 철자로 표현되는 한국어에 비해 그 수는 적다. 또한 말뭉치(Corpus, 코퍼스)는 자연언어 연구를 위해 특정한 목적을 가지고 언어의 표본을 추출한 집합이다.
구체적으로, 중심어 탐지부(110)는 한국어 문장과 한국 수어 문장이 일대일 대응을 이루는 말뭉치 데이터셋에 대해서, 입력된 한국어 문장을 품사 기반으로 토큰화(Tokenization)를 시켜 한국어 문장 토큰으로 변경하고, 입력된 한국 수어 문장을 띄어쓰기 기반으로 토큰화를 시켜 한국 수어 문장 토큰으로 변경한다. 여기서, 토큰이란 문법적으로 더 이상 나눌 수 없는 언어요소를 뜻한다. 텍스트의 토큰화의 유형은 문장 토큰화와 단어 토큰화로 나눌 수 있는데, 상기 텍스트 토큰화는 말뭉치로부터 토큰을 분리하는 작업을 뜻하고, 상기 단어 토큰화는 띄어쓰기를 기준으로 한다.
중심어 탐지부(110)는 상기 한국어 문장 토큰과 상기 한국 수어 문장 토큰을 각각 순서대로 윈도우를 기반으로 검색하여, 완전 동일한 토큰일 경우에는 정답을 1로 매핑하고, 비슷한 형태의 토큰일 경우에는 정답을 2로 매핑하고, 나머지 다른 형태의 토큰일 경우에는 정답을 0으로 맵핑한다. 여기서, 상기 윈도우 기반으로 검색하는 검색 마진은 아래의 수식 1에 의해 정의될 수 있다.
[수식 1]
또한 검색 범위는 아래의 수식 2에 의해 정의될 수 있다.
[수식 2]
즉, 상기 검색 마진은 한국 수어 문장 토큰 길이를 한국어 문장 토큰 길이로 나눈 값에 해당 토큰 번호를 곱한 값으로 실제 한국어 문장 토큰 길이와 한국 수어 문장 토큰 길이가 다를 경우에 검색 마진을 윈도우 크기에 더하고 빼주면서 검색 범위를 설정하고 검색을 시작한다.
중심어 탐지부(110)는, 상기 비슷한 형태의 토큰일 경우에 정답을 2로 매핑하되, 공개된 한국어 문장 토큰 데이터셋과 한국어 문장 토큰-한국 수어 문장 토큰 말뭉치를 포함해서 단어 임베딩(embedding) 방법론인 Word2vec 모델로 유사도를 계산하여 특정 임계값 이상의 유사도에 대해서는 그대로 비슷한 형태의 토큰일 경우로 판단하여 정답을 2로 매핑하고, 임계값 미만의 유사도에 대해서는 다른 형태의 토큰이라고 판단하고 정답을 0으로 매핑한다. 여기서, Word2vec은 단어를 벡터로 바꿔주는 알고리즘이다.
중심어 탐지부(110)는 한국어 문장 토큰이 숫자 또는 외래어일 경우에는 숫자 또는 외래어라는 특정 태그로 변환 후 정답을 2로 매핑한다.
중심어 탐지부(110)는 중심어가 매핑된 새로운 데이터셋을 기반으로, 한국어 문장 토큰-중심어가 매핑된 한국어 문장 토큰-한국 수어 문장 토큰의 3가지 타입이 엮인 말뭉치 데이터셋을 만들고, 상기 말뭉치 데이터셋를 입력과 정답의 말뭉치로 변환하여 딥러닝 기반 중심어 탐지 모델로 학습하여 결과를 도출한다.
데이터 증강부(120)는 중심어 탐지부(110)를 통해 구별된 단어를 기반으로 한국어 문장-한국 수어 문장 말뭉치 데이터셋을 데이터 증강시킨다. 즉, 데이터 증강부(120)는 중심어 탐지부(110) 또는 딥러닝 기반 중심어 탐지 모델 결과를 통해서 중심어가 매핑된 새로운 데이터셋을 얻고, 상기 완전 동일한 토큰일 경우에는 정답이 1로 매핑된 토큰을 기준으로 문장을 쪼개서 데이터 증강 동작을 수행한다.
한국어-한국 수어 번역 모델부(130)는 데이터 증강부(120)를 통해서 증강된 한국어 문장-한국 수어 문장 말뭉치 데이터셋을 활용해서 딥러닝 기반 기계 번역 모델을 학습 및 검증한다.
한국어-한국 수어 번역 모델부(130)는 데이터 증강부(120)를 통해서 양질의 증강된 쪼개진 한국어 문장 토큰-한국 수어 문장 토큰의 말뭉치를 기반으로, 학습시에는 쪼개진 한국어 문장 토큰-한국 수어 문장 토큰 말뭉치를 입력 데이터로 딥러닝 기반 기계 번역 모델을 통해 학습하여 번역 모델의 성능을 높인다.
또한 한국어-한국 수어 번역 모델부(130)는 데이터 증강부(120)를 통해서 양질의 증강된 쪼개진 한국어 문장 토큰-한국 수어 문장 토큰의 말뭉치를 기반으로, 테스트시에는 쪼개진 한국어 문장 토큰-한국 수어 문장 토큰 말뭉치를 쪼개진 갯수만큼 사전 학습된 딥러닝 기반 기계 번역 모델을 매칭하여 번역을 한다.
번역 결과 성능지표 설정부(140)는 한국어-한국 수어 번역 모델부(130)를 통해서 나온 번역 결과를 실제 한국 수어를 사용하는 농아인들이 이해하는 방식키워드 중심으로 한국어 문장을 이해하는 경향을 반영하여 한국어-한국 수어 번역 결과 성능지표를 설정한다.
상기 한국어-한국 수어 번역 결과 성능지표는 아래의 수식 3에 의해 정의될 수 있다.
[수식 3]
여기서, A는 기계번역으로 번역된 문장의 토큰들이고, B는 번역 정답 문장의 토큰들이다.
도 1에 도시된 한국어-한국 수어 번역 데이터 증강 및 평가 장치의 각 구성요소는 물리적으로 구분되는 구성요소라기 보다는 논리적으로 구분되는 구성요소로 이해되어야 한다. 즉, 각각의 구성은 본 발명의 기술 사상을 실현하기 위한 논리적인 구성요소에 해당하므로 각각의 구성요소가 통합 또는 분리되어 구성되더라도 본 발명의 논리 구성이 수행하는 기능이 실현될 수 있다면 본 발명의 범위 내에 있다고 해석되어야 하며, 동일 또는 유사한 기능을 수행하는 구성요소라면 그 명칭 상의 일치성 여부와는 무관하게 본 발명의 범위 내에 있다고 해석되어야 함은 물론이다.
본원에 기재된 기능들, 즉 한국어-한국 수어 번역 데이터 증강 및 평가 장치에 의한 기능은 하드웨어에 의해 실행되는 소프트웨어 또는 펌웨어로 구현될 수 있다. 상기 기능들은 하나 이상의 명령들로서 컴퓨터-판독 가능 매체 상에 저장될 수 있다. 용어들 "컴퓨터-판독 가능 매체" 또는 "컴퓨터-프로그램 물건"은 컴퓨터 또는 프로세서에 의해 액세스될 수 있는 임의의 유형적인(tangible) 저장 매체를 지칭한다. 비제한적인 예로서, 컴퓨터-판독 가능 매체는 RAM, ROM, EEPROM, CD-ROM 또는 다른 광학 디스크 스토리지, 자기 디스크 스토리지 또는 다른 자기 스토리지 디바이스들, 또는 원하는 프로그램 코드를 명령들 또는 데이터 구조들의 형태로 전달 또는 저장하는데 사용될 수 있고 컴퓨터에 의해 액세스될 수 있는 임의의 다른 매체를 포함할 수 있다. 본원에서 사용되는 바와 같은 디스크(disk)는 컴팩트 디스크(CD), 레이저 디스크, 광학 디스크, 디지털 다목적 디스크(DVD), 플로피 디스크, 및 블루-레이 디스크를 포함하며, 여기서 디스크들은 일반적으로 데이터를 자기적으로 재생하지만, 디스크들은 레이저들을 통해 광학적으로 데이터를 재생한다.
그러면, 이하에서 본 발명에 따른 한국어-한국 수어 번역 데이터 증강 및 평가 장치에 의한 한국어-한국 수어 번역 데이터 증강 동작의 일례를 자세히 설명한다.
도 2는 도 1에 도시된 중심어 탐지부(110)에 한국어 문장을 적용한 결과를 설명하기 위한 상세도이다.
도 2를 참조하면, 원본 한국어 문장은 "이후 1429년에 이르면서 조선통보의 가치가 더욱 하락하여 불신을 받게 되었습니다."이다.
원본 한국어 문장 토큰은 [이후], [1429년], [이르다], [조선통보], [가치], [더욱], [하락], [하다], [불신], [받다], [되어다] 이다. 한편, 한국 수어 문장 토큰은 [이후], [1429], [때], [도전], [조선통보], [가치], [더욱], [하락], [자연], [믿다], [못하다], [되다] 이다.
중심어 탐지부(110)를 사용하게 되면, 중심어가 매핑된 한국어 문장 토큰은 [이후, 1], [1429년, 2], [이르다, 0], [조선통보, 1], [가치, 1], [더욱, 1], [하락, 1], [하다, 0], [불신, 0], [받다, 0], [되어다, 2]이다. 여기서, 정답 1은 동일한 단어(identical word)이고, 정답 2는 키워드(keyword)이고, 정답 0은 비키워드(not keyword)를 의미할 수 있다.
중심어 탐지부(110)는 토큰 형태가 완전히 같으면 정답을 1로 매핑하고, 토큰 형태가 비슷하면 정답을 2로 매핑하며, 그 외에는 0으로 매핑한다.
중심어가 매핑된 한국어 문장 토큰이 치환된 한국 수어 문장 토큰은 [이후], [1429], [때], [조선통보], [가치], [더욱], [하락], [자연], [믿다], [못하다], [되다]이다.
도 3은 본 발명의 일실시예에 따른 한국어-한국 수어 번역 데이터 증강 및 평가 방법을 설명하기 위한 흐름도이다.
도 3을 참조하면, 한국어 문장과 한국 수어 문장이 일대일 대응을 이루는 말뭉치 데이터셋에 대해서, 한국어 문장과 한국 수어 문장을 매칭하여 똑같은 단어를 찾는 중심어 탐지 동작을 수행한다(단계 S100). 상기한 중심어 탐지 동작은 도 1에 도시된 중심어 탐지부(110)에 의해 수행될 수 있다.
이어, 상기 구별된 단어를 기반으로 한국 수어 문장을 데이터 증강시키는 데이터 증강 동작을 수행한다(단계 S200). 상기한 데이터 증강 동작은 도 1에 도시된 데이터 증강부(120)에 의해 수행될 수 있다.
이어, 상기 증강된 한국어 문장-한국 수어 문장 말뭉치 데이터셋을 활용해서 딥러닝 기반 기계 번역 모델을 학습 및 검증하는 동작을 수행한다(단계 S300). 상기한 학습 및 검증 동작은 도 1에 도시된 한국어-한국 수어 번역 모델부(130)에 의해 수행될 수 있다.
이어, 상기 딥러닝 기반 기계 번역 모델을 통해서 나온 번역 결과를 실제 한국 수어를 사용하는 농아인들이 이해하는 방식키워드 중심으로 한국어 문장을 이해하는 경향을 반영하여 한국어-한국 수어 번역 결과 성능지표를 설정하는 동작을 수행한다(단계 S400). 상기한 한국어-한국 수어 번역 결과 성능지표를 설정하는 동작은 도 1에 도시된 번역 결과 성능지표 설정부(140)에 의해 수행될 수 있다.
도 4는 도 3에 도시된 단계 S100를 설명하기 위한 흐름도이다. 도 5는 입력된 한국어 문장에 대해 토큰화 및 불필요한 품사 제거를 설명하기 위한 도면이다.
도 1, 도 3, 도 4 및 도 5를 참조하면, 중심어 탐지부(110)는 입력된 한국어 문장을 먼저 품사 기반으로 토큰화를 시키고, 전처리 과정을 통해 불필요한 품사를 제거하여 한국어 문장 토큰으로 변경한다(단계 S102).
또한, 중심어 탐지부(110)는 입력된 한국 수어 문장에 대해 띄어쓰기 기반으로 토큰화를 시켜 한국 수어 문장 토큰으로 변경한다(단계 S104).
이어, 중심어 탐지부(110)는 검색 마진 및 검색 범위를 계산한다(단계 S106). 상기한 검색 마진은 상술된 수식 1에 의해 정의될 수 있고, 상기한 검색 범위는 상술된 수식 2에 의해 정의될 수 있다.
단계 S106에 이어, 중심어 탐지부(110)는 검색을 시작한다(단계 S108).
단계 S108에 이어, 중심어 탐지부(110)는 동일한 토큰인지의 여부를 체크한다(단계 S110).
단계 S110에서 동일한 토큰인 것으로 체크되면, 중심어 탐지부(110)는 정답을 1로 매핑한다(단계 S112).
도 6은 도 4에서 설명된 단계 S106, 단계 S108, 단계 S110 및 단계 S112에 대한 알고리즘을 나타낸 도면이다.
도 6을 참조하면, 검색 마진(pivot) 및 검색 범위(search range)를 계산한다. 상기한 검색 마진은 상술된 수식 1인 에 의해 정의될 수 있고(도 6에서는 ), 상기한 검색 범위는 상술된 수식 2인에 의해 정의될 수 있다(도 6에서는 ). 이어, 검색을 시작한 후, 동일한 토큰이 검색되면 정답(도 6에서 label)을 1로 매핑한다.
도 4를 다시 참조하면, 단계 S110에서 동일하지 않은 토큰으로 체크되면, 중심어 탐지부(110)는 비슷한 토큰인지의 여부를 체크한다(단계 S114).
단계 S114에서 비슷한 토큰인 것으로 체크되면, 중심어 탐지부(110)는 정답을 2로 매핑하고(단계 S116), 단계 S114에서 비슷한 토큰이 아닌 것으로 체크되면, 정답을 0으로 매핑한다(단계 S118).
도 7은 도 4에서 설명된 단계 S116 및 단계 S118에 대한 알고리즘을 나타낸 도면이다.
도 7을 참조하면, 한국어 문장 토큰 데이터셋과 한국어 문장 토큰-한국 수어 문장 토큰 말뭉치를 포함해서 Word2vec 모델로 유사도(simility)를 계산하여 특정 임계값(도 7에서 alpha로 정의함) 이상의 유사도에 대해서는 비슷한 형태의 토큰으로 판단하여 정답(label)을 2로 매핑하고, 임계값 미만의 유사도에 대해서는 다른 형태의 토큰이라고 판단하고 정답을 0으로 매핑한다.
도 4를 다시 참조하면, 단계 S116에 이어, 중심어 탐지부(110)는 토큰이 숫자 또는 외래어인지의 여부를 체크한다(단계 S120).
단계 S120에서 토큰이 숫자로 체크되면, 중심어 탐지부(110)는 정답이 2로 매핑된 토큰에 대해 숫자라는 태그로 변환한다(단계 S122).
한편, 단계 S120에서 토큰이 알파벳이나 일본어, 중국어 등의 외래어로 체크되면, 중심어 탐지부(110)는 정답이 2로 매핑된 토큰에 대해 외래어라는 태그로 변환한다(단계 S124).
도 4를 다시 참조하면, 중심어 탐지부(110) 또는 딥러닝 기반 중심어 탐지 모델의 결과를 통해서 중심어가 매핑된 새로운 데이터셋을 얻게 되고, 완전 동일한 토큰일 경우에는 정답이 1로 매핑된 토큰을 기준으로 문장을 쪼개서 데이터를 증강한다.
예를 들어, [이다], [서양], [여러], [나라], [아니다], [중국], [일본], [등], [다른], [한자], [문화], [국가], [다른], [조선], [인쇄], [문화], [특징], [이다]라는 한국어 문장 토큰이 있을 경우, 중심어가 매핑된 한국어 문장 토큰은 [이다, 2], [서양, 1], [여러, 2], [나라, 1], [아니다, 1], [중국, 1], [일본, 1], [등, 2], [다른, 2], [한자, 1], [문화, 1], [국가, 1], [다른, 2], [조선, 1], [인쇄, 1], [문화, 1], [특징, 1], [이다, 1]이고,
정답이 1로 매핑된 토큰을 기준으로 데이터를 증강하기 때문에,
1) [이다, 2], [서양, 1]
2) [서양, 1], [여러, 2], [나라, 1]
3) [나라, 1], [아니다, 1]
4) [아니다, 1], [중국, 1]
5) [중국, 1], [일본, 1]
6) [일본, 1], [등, 2], [다른, 2], [한자, 1]
7) [한자, 1], [문화, 1]
8) [문화, 1], [국가, 1]
9) [국가, 1], [다른, 2], [조선, 1]
10) [조선, 1], [인쇄, 1]
11) [인쇄, 1], [문화, 1]
12) [문화, 1], [특징, 1]
13) [특징, 1], [이다, 1]
로 13배 증강된다.
최종적으로 중심어가 매핑된 한국어 문장 토큰에 해당되는 한국 수어 문장 토큰이 똑같은 방식으로 쪼개져서 말뭉치를 이루고, 증강된 데이터셋은 중심어 정답 1을 기준으로 쪼개진 한국어 문장 토큰-한국 수어 문장 토큰의 말뭉치이다.
한국어-한국 수어 번역 모델부(130)는 데이터 증강부(120)를 통해서 양질의 증강된 쪼개진 한국어 문장 토큰-한국 수어 문장 토큰의 말뭉치를 기반으로, 학습시에는 쪼개진 한국어 문장 토큰-한국 수어 문장 토큰 말뭉치를 입력 데이터로 딥러닝 기반 기계 번역 모델을 통해 학습하여 번역 모델의 성능을 높인다. 또한 한국어-한국 수어 번역 모델부(130)는 데이터 증강부(120)를 통해서 양질의 증강된 쪼개진 한국어 문장 토큰-한국 수어 문장 토큰의 말뭉치를 기반으로, 테스트시에는 쪼개진 한국어 문장 토큰-한국 수어 문장 토큰 말뭉치를 쪼개진 갯수만큼 사전 학습된 딥러닝 기반 기계 번역 모델을 매칭하여 번역을 한다.
예를 들어, [이다], [서양], [여러], [나라], [아니다], [중국], [일본], [등], [다른], [한자], [문화], [국가], [다른], [조선], [인쇄], [문화], [특징], [이다]라는 한국어 문장 토큰이 있을 경우, 쪼개진 한국어 문장 토큰은 13개 문장 토큰이 나오므로, 13개의 사전 학습된 딥러닝 기반 기계 번역 모델을 매칭한다.
개별의 딥러닝 기반 기계 번역 모델 결과를 합치고, 합칠 때 정답 1이 2번 이상 겹칠 경우 뒤에 오는 번역 결과에서 제거하는 방식으로 후처리를 수행하여 최종적으로 원본의 한국어 문장을 한국 수어 문장으로 번역한다.
실제 한국 수어를 사용하는 농아인들과 한국어를 번역하는 한국어-한국 수어 번역가들의 노하우를 기반으로 한국어-한국 수어 번역은 한국어 문장 전체에서 키워드를 얼마나 많이 이해하는가에 따라 한국어 문장을 잘 이해하는 경향이 있으므로, 이를 기반으로 한국어-한국 수어 번역 성능지표를 구현할 수 있다. 상기한 한국어-한국 수어 번역 성능지표는 상술된 수식 3으로 정의될 수 있다.
즉, 상기한 한국어-한국 수어 번역 성능지표는 기계번역으로 번역된 문장의 토큰들과 번역 정답 문장의 토큰들의 전체 수 중에서 기계번역으로 번역된 문장의 토큰들과 번역 정답 문장의 토큰들 사이에서 동일한 토큰들 수를 나눈 값이다.
실제로 한국어 문장-한국 수어 번역 문장 말뭉치를 가지고 있을 때, 한국어-한국 수어 번역 데이터 증강 방법을 적용하여 데이터셋을 증강하고, 증강된 데이터셋을 딥러닝 기반 기계학습 모델로 학습 후 테스트를 검증하였을 때, 실험 결과는 다음의 표 1와 같다.
일반 딥러닝 기반 기계 번역 모델은 데이터셋 전체를 한 번에 사용하는 방법이고, 본 발명에서 사용된 방법은 데이터 증강만큼 딥러닝 기반 기계 번역 모델을 두어 결과를 도출한 후 후처리를 통해서 통합하는 방법이다. 성능 측정에 사용된 성능지표는 본 발명에서 제시한 한국어-한국 수어 번역 성능지표이다.
딥러닝 기반 기계 번역 분야에서 대용량 데이터를 사전 학습해 성능을 크게 끌어올린 사전 학습된 딥러닝 기반 기계 번역 모델(Pretrained Deep-learning NLP model)을 미세조정(Fine-Tuning)하거나 직접 딥러닝 기반 기계 번역 모델을 설계하고 학습할 때 양질의 말뭉치가 필요하다. 특히 한국어-한국 수어 번역 분야에 사용되는 말뭉치 데이터셋은 현재 공식적으로 공개된 국립국어원 한국수어사전에 있지만 단어 위주로 되어있고, 충분하지 않다.
따라서, 본 발명에 따라 한국어-한국 수어 데이터 증강 방법을 사용하게 되면 자체적으로 데이터베이스화한 질 높은 데이터셋을 증강하게 되어 양질의 한국어-한국 수어 데이터셋을 갖출 수 있다.
또한 한국어-한국 수어 번역 분야에서는 기존에 일반적으로 사용되는 딥러닝 기계 번역 성능지표인 BLEU(Bilingual Evaluation Understudy) 스코어가 실제 한국 수어를 사용하는 농아인들에게는 적절하지 않다. 그러므로 한국어를 한국 수어로 번역할 때 필수적으로 고려해야할 사항을 전문 한국어-한국 수어 번역가 분들의 의견을 참고하여 성능지표를 구성하였다. 이를 통해서 한국어-한국 수어 번역 분야에서 딥러닝 기반 기계 번역 모델을 만들 경우 이 성능지표를 통해서 성능을 검증할 수 있을 것으로 예상된다.
본원에 개시된 방법들은 기재된 방법을 성취하기 위한 하나 이상의 단계들 또는 작동들을 포함한다. 방법 단계들 및/또는 작동들은 청구항들의 범위에서 벗어나지 않고 서로 교환될 수 있다. 다시 말해서, 기재된 방법의 적절한 동작을 위해 특정 순서의 단계들 또는 작동들이 요구되지 않는다면, 특정 단계들 및/또는 작동들의 순서 및/또는 사용이 청구항들의 범위에서 벗어나지 않고 수정될 수 있다.
또한, 도 3 및 도 4에 예시된 것들과 같은, 본 명세서에 설명된 방법들 및 기술들을 수행하기 위한 모듈 및/또는 다른 적절한 수단들이 디바이스에 의해 다운로드되거나 및/또는 다른 방식으로 획득될 수 있다는 것이 인지되어야 한다. 예를 들면, 디바이스는 본 명세서에 설명된 방법들을 수행하기 위한 수단의 전송을 용이하게 하기 위하여 서버에 연결될 수 있다. 대안적으로, 여기에 설명된 다양한 방법들이 저장 수단(예컨대, 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 콤팩트 디스크(CD) 또는 플로피 디스크와 같은 물리적 저장 매체 등)을 통하여 제공될 수 있어서, 디바이스에 저장 수단을 연결 또는 제공할 때 디바이스가 다양한 방법들을 획득할 수 있다.
청구항들이 위에 예시된 바로 그 구성 및 컴포넌트들로 제한되지 않는다는 것이 이해되어야 한다. 청구항들의 범위에서 벗어나지 않고, 본원에 기재된 시스템들, 방법들, 및 장치의 어레인지먼트, 동작 및 세부 사항들에서 다양한 수정들, 변화들 및 변동들이 이루어질 수 있다.
이상에서 설명된 바와 같이, 본 발명에 따르면, 딥러닝 기반 한국어-한국 수어 번역 모델을 학습하기 위해 데이터를 구성할 때, 한정된 도메인인 한국어-한국 수어 번역 내에서 한정된 한국어-한국 수어 말뭉치 데이터셋을 증강하여 양질의 말뭉치 데이터셋을 만들 수 있고, 이를 기반으로 학습된 딥러닝 기반 한국어-한국 수어 모델의 성능을 평가할 수 있다.
이상에서는 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
110 : 중심어 탐지부 120 : 데이터 증강부
130 : 한국어-한국 수어 번역 모델부 140 : 번역 결과 성능지표 설정부

Claims (14)

  1. 한국어 문장과 한국 수어 문장이 일대일 대응을 이루는 말뭉치 데이터셋에 대해서, 한국어 문장과 한국 수어 문장을 매칭하여 똑같은 단어를 찾는 중심어 탐지 단계;
    상기 구별된 단어를 기반으로 한국어 문장-한국 수어 문장 말뭉치 데이터셋을 데이터 증강시키는 데이터 증강 단계; 및
    상기 증강된 한국어 문장-한국 수어 문장 말뭉치 데이터셋을 활용해서 딥러닝 기반 기계 번역 모델을 학습 및 검증하는 단계를 포함하는 것을 특징으로 하는 한국어-한국 수어 번역 데이터 증강 및 평가 방법.
  2. 제1항에 있어서,
    상기 딥러닝 기반 기계 번역 모델을 통해서 나온 번역 결과를 실제 한국 수어를 사용하는 농아인들이 이해하는 방식키워드 중심으로 한국어 문장을 이해하는 경향을 반영하여 한국어-한국 수어 번역 결과 성능지표를 설정하는 단계를 더 포함하는 것을 특징으로 하는 한국어-한국 수어 번역 데이터 증강 및 평가 방법.
  3. 한국어 문장과 한국 수어 문장이 일대일 대응을 이루는 말뭉치 데이터셋에 대해서, 한국어 문장과 한국 수어 문장을 매칭하여 똑같은 단어를 찾는 중심어 탐지부;
    상기 중심어 탐지부를 통해 구별된 단어를 기반으로 한국어 문장-한국 수어 문장 말뭉치 데이터셋을 데이터 증강시키는 데이터 증강부; 및
    상기 데이터 증강부를 통해서 증강된 한국어 문장-한국 수어 문장 말뭉치 데이터셋을 활용해서 딥러닝 기반 기계 번역 모델을 학습 및 검증하는 한국어-한국 수어 번역 모델부를 포함하는 것을 특징으로 하는 한국어-한국 수어 번역 데이터 증강 및 평가 장치.
  4. 제3항에 있어서,
    상기 한국어-한국 수어 번역 모델부를 통해서 나온 번역 결과를 실제 한국 수어를 사용하는 농아인들이 이해하는 방식키워드 중심으로 한국어 문장을 이해하는 경향을 반영하여 한국어-한국 수어 번역 결과 성능지표를 설정하는 번역 결과 성능지표 설정부를 더 포함하는 것을 특징으로 하는 한국어-한국 수어 번역 데이터 증강 및 평가 장치.
  5. 제4항에 있어서,
    상기 한국어-한국 수어 번역 결과 성능지표는,
    (A는 기계번역으로 번역된 문장의 토큰들, B는 번역 정답 문장의 토큰들)로 정의되는 것을 특징으로 하는 한국어-한국 수어 번역 데이터 증강 및 평가 장치.
  6. 제3항에 있어서,
    상기 중심어 탐지부는,
    한국어 문장과 한국 수어 문장이 일대일 대응을 이루는 말뭉치 데이터셋에 대해서, 입력된 한국어 문장을 품사 기반으로 토큰화시켜 한국어 문장 토큰으로 변경하고, 입력된 한국 수어 문장은 띄어쓰기 기반으로 토큰화를 시켜 한국 수어 문장 토큰으로 변경하는 것을 특징으로 하는 한국어-한국 수어 번역 데이터 증강 및 평가 장치.
  7. 제6항에 있어서,
    상기 중심어 탐지부는,
    상기 한국어 문장 토큰과 한국 수어 문장 토큰을 각각 순서대로 윈도우를 기반으로 검색하여, 완전 동일한 토큰일 경우에는 정답을 1로 매핑하고, 비슷한 형태의 토큰일 경우에는 정답을 2로 매핑하고, 나머지 다른 형태의 토큰일 경우에는 정답을 0으로 맵핑하는 것을 특징으로 하는 한국어-한국 수어 번역 데이터 증강 및 평가 장치.
  8. 제7항에 있어서,
    상기 윈도우 기반으로 검색하는 공식은,
    ,
    에 의해 정의되고,
    상기 검색 마진은 한국 수어 문장 토큰 길이를 한국어 문장 토큰 길이로 나눈 값에 해당 토큰 번호를 곱한 값으로 실제 한국어 문장 토큰 길이와 한국 수어 문장 토큰 길이가 다를 경우에 검색 마진을 윈도우 크기에 더하고 빼주면서 검색 범위를 설정하고 검색을 시작하는 것을 특징으로 하는 한국어-한국 수어 번역 데이터 증강 및 평가 장치.
  9. 제7항에 있어서,
    상기 중심어 탐지부는,
    상기 비슷한 형태의 토큰일 경우에 정답을 2로 매핑하되,
    공개된 한국어 문장 토큰 데이터셋과 한국어 문장 토큰-한국 수어 문장 토큰 말뭉치를 포함해서 Word2vec 모델로 유사도를 계산하여 특정 임계값 이상의 유사도에 대해서는 그대로 비슷한 형태의 토큰일 경우로 판단하여 정답을 2로 매핑하고, 임계값 미만의 유사도에 대해서는 다른 형태의 토큰이라고 판단하고 정답을 0으로 매핑하는 것을 특징으로 하는 한국어-한국 수어 번역 데이터 증강 및 평가 장치.
  10. 제7항에 있어서,
    상기 중심어 탐지부는,
    한국어 문장 토큰이 숫자 또는 외래어일 경우에는 숫자 또는 외래어라는 특정 태그로 변환 후 정답을 2로 매핑하는 것을 특징으로 하는 한국어-한국 수어 번역 데이터 증강 및 평가 장치.
  11. 제7항 또는 제9항에 있어서,
    상기 중심어 탐지부는,
    중심어가 매핑된 새로운 데이터셋을 기반으로, 한국어 문장 토큰-중심어가 매핑된 한국어 문장 토큰-한국 수어 문장 토큰의 3가지 타입이 엮인 말뭉치 데이터셋을 만들고, 상기 말뭉치 데이터셋를 입력과 정답의 말뭉치로 변환하여 딥러닝 기반 중심어 탐지 모델로 학습하여 결과를 도출하는 것을 특징으로 하는 한국어-한국 수어 번역 데이터 증강 및 평가 장치.
  12. 제9항에 있어서,
    상기 데이터 증강부는,
    상기 중심어 탐지부 또는 딥러닝 기반 중심어 탐지 모델 결과를 통해서 중심어가 매핑된 새로운 데이터셋을 얻고,
    상기 완전 동일한 토큰일 경우에는 정답이 1로 매핑된 토큰을 기준으로 문장을 쪼개서 데이터 증강을 하는 것을 특징으로 하는 한국어-한국 수어 번역 데이터 증강 및 평가 장치.
  13. 제12항에 있어서,
    상기 한국어-한국 수어 번역 모델부는,
    상기 데이터 증강부를 통해서 양질의 증강된 쪼개진 한국어 문장 토큰-한국 수어 문장 토큰의 말뭉치를 기반으로,
    학습시에는 쪼개진 한국어 문장 토큰-한국 수어 문장 토큰 말뭉치를 입력 데이터로 딥러닝 기반 기계 번역 모델을 통해 학습하여 번역 모델의 성능을 높이는 것을 특징으로 하는 한국어-한국 수어 번역 데이터 증강 및 평가 장치.
  14. 제12항에 있어서,
    상기 한국어-한국 수어 번역 모델부는,
    상기 데이터 증강부를 통해서 양질의 증강된 쪼개진 한국어 문장 토큰-한국 수어 문장 토큰의 말뭉치를 기반으로,
    테스트시에는 쪼개진 한국어 문장 토큰-한국 수어 문장 토큰 말뭉치를 쪼개진 갯수만큼 사전 학습된 딥러닝 기반 기계 번역 모델을 매칭하여 번역을 하는 것을 특징으로 하는 한국어-한국 수어 번역 데이터 증강 및 평가 장치.
KR1020220119007A 2022-09-21 2022-09-21 한국어-한국 수어 번역 데이터 증강 및 평가 방법과 이를 수행하기 위한 장치 KR20240040825A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220119007A KR20240040825A (ko) 2022-09-21 2022-09-21 한국어-한국 수어 번역 데이터 증강 및 평가 방법과 이를 수행하기 위한 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220119007A KR20240040825A (ko) 2022-09-21 2022-09-21 한국어-한국 수어 번역 데이터 증강 및 평가 방법과 이를 수행하기 위한 장치

Publications (1)

Publication Number Publication Date
KR20240040825A true KR20240040825A (ko) 2024-03-29

Family

ID=90483674

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220119007A KR20240040825A (ko) 2022-09-21 2022-09-21 한국어-한국 수어 번역 데이터 증강 및 평가 방법과 이를 수행하기 위한 장치

Country Status (1)

Country Link
KR (1) KR20240040825A (ko)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200001902A (ko) 2018-06-28 2020-01-07 주식회사 이큐포올 수어 인식 인공신경망 학습데이터 생성방법과 시스템 및 변형 애니메이션 데이터 생성시스템
KR20210138311A (ko) 2020-05-12 2021-11-19 한국전자통신연구원 언어 및 수어의 병렬 말뭉치 데이터의 생성 장치 및 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200001902A (ko) 2018-06-28 2020-01-07 주식회사 이큐포올 수어 인식 인공신경망 학습데이터 생성방법과 시스템 및 변형 애니메이션 데이터 생성시스템
KR20210138311A (ko) 2020-05-12 2021-11-19 한국전자통신연구원 언어 및 수어의 병렬 말뭉치 데이터의 생성 장치 및 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
한국등록특허 제10-2167760호(2020. 10. 19., 공고)(발명의 명칭: 수어동작 인식 처리절차 및 움직임 추적 Pre-trained 모델을 이용한 수어동작 분석 알고리즘 시스템)

Similar Documents

Publication Publication Date Title
CN109344236B (zh) 一种基于多种特征的问题相似度计算方法
JP4961755B2 (ja) 単語アライメント装置、単語アライメント方法、単語アライメントプログラム
US5895446A (en) Pattern-based translation method and system
Tang et al. Neural machine translation with external phrase memory
US20100088085A1 (en) Statistical machine translation apparatus and method
JP2005532605A (ja) 内容変換の方法および装置
JP2005520251A (ja) 名前付きエンティティの翻訳
Toselli et al. Making two vast historical manuscript collections searchable and extracting meaningful textual features through large-scale probabilistic indexing
Woodsend et al. Text rewriting improves semantic role labeling
Scherrer et al. Modernising historical Slovene words
KR100911834B1 (ko) 번역 시스템에서 오류 보정 패턴을 이용한 번역 오류 수정 방법 및 장치
JP2005539280A (ja) 多言語データベース作成のシステムおよび方法
Xiong et al. HANSpeller: a unified framework for Chinese spelling correction
Langlais et al. Improvements in analogical learning: application to translating multi-terms of the medical domain
KR20080052282A (ko) 통계적 기계번역 시스템에서 단어 및 구문들간의 번역관계를 자율적으로 학습하기 위한 장치 및 그 방법
KR20230009564A (ko) 앙상블 스코어를 이용한 학습 데이터 교정 방법 및 그 장치
Liu et al. Latent attribute based hierarchical decoder for neural machine translation
Karimi Machine transliteration of proper names between English and Persian
KR20240040825A (ko) 한국어-한국 수어 번역 데이터 증강 및 평가 방법과 이를 수행하기 위한 장치
JP5298834B2 (ja) 例文マッチング翻訳装置、およびプログラム、並びに翻訳装置を含んで構成された句翻訳装置
CN113705223A (zh) 以读者为中心的个性化英文文本简化方法
Raza et al. Saraiki Language Word Prediction And Spell Correction Framework
Lin et al. Bilingual dictionary-based language model pretraining for neural machine translation
JP3326646B2 (ja) 機械翻訳システム用辞書・ルール学習装置
Shquier et al. Fully automated Arabic to English machine translation system: transfer-based approach of AE-TBMT