KR101288900B1 - 단어의 중의성 해소 방법, 중의성 해소 시스템, 및 이를 이용한 수화 시스템 - Google Patents

단어의 중의성 해소 방법, 중의성 해소 시스템, 및 이를 이용한 수화 시스템 Download PDF

Info

Publication number
KR101288900B1
KR101288900B1 KR1020110121480A KR20110121480A KR101288900B1 KR 101288900 B1 KR101288900 B1 KR 101288900B1 KR 1020110121480 A KR1020110121480 A KR 1020110121480A KR 20110121480 A KR20110121480 A KR 20110121480A KR 101288900 B1 KR101288900 B1 KR 101288900B1
Authority
KR
South Korea
Prior art keywords
chinese
meaning
probability distribution
word
probability
Prior art date
Application number
KR1020110121480A
Other languages
English (en)
Other versions
KR20130055845A (ko
Inventor
김상철
박광현
변증남
유형근
Original Assignee
(주)펀노마드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)펀노마드 filed Critical (주)펀노마드
Priority to KR1020110121480A priority Critical patent/KR101288900B1/ko
Publication of KR20130055845A publication Critical patent/KR20130055845A/ko
Application granted granted Critical
Publication of KR101288900B1 publication Critical patent/KR101288900B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Operations Research (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Algebra (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

단어의 중의성 해소 시스템, 중의성 해소 방법 및 이를 이용한 수화 번역 시스템이 제공된다. 본 발명의 수화 번역 시스템은 입력 문장 내에서 중의어들을 추출하는 중의어 추출부, 상기 중의어들의 의미에 따른 확률분포를 산출하는 확률분포 산출부, 상기 중의어들의 의미를 가정하지 않은 상태에서의 중의어들의 의미별 확률분포(이하 '제1 확률분포'라 함)와, 상기 중의성 해소 가능성이 높은 중의어(이하 '제1 중의어'라 함)의 의미를 가정한 상태에서의 나머지 중의어들의 의미별 확률분포(이하 '제2 확률분포'라 함)와, 상기 제1 중의어 및 상기 제1 중의어와 연관성이 가장 높은 중의어(이하 '제2 중의어'라 함)의 의미를 가정한 상태에서의 나머지 중의어들의 의미별 확률분포(이하 '제3 확률분포'라 함)로부터 상기 제1 중의어 또는 상기 제2 중의어의 의미를 결정하는 의미 결정부, 상기 결정된 의미에 따라 상기 입력 문장 내에 포함된 단어들과 매칭되는 수화 동작을 수화 데이터베이스에서 추출하는 수화 번역부 및 상기 수화 번역부에서 추출된 수화 동작들을 조합하여 디스플레이하는 표시부를 포함한다.

Description

단어의 중의성 해소 방법, 중의성 해소 시스템, 및 이를 이용한 수화 시스템{METHOD AND SYSTEM FOR WORD SENSE DISAMBIGUATION, AND SYSTEM FOR SIGN LANGUAGE TRANSLATION USING THE SAME}
본 발명은 단어의 중의성 해소 방법, 중의성 해소 시스템 및 이를 이용한 수화 시스템에 관한 것이다.
수화는 손의 모양과 움직임 및 몸동작으로 표현하는 의사전달 방법이다. 그러나 대부분의 건청인들은 수화를 이해하지 못하기 때문에 청각 장애인과 의사 소통을 하기 위해서는 수화 통역사가 필요하다. 그러나, 수화 통역사는 그 수가 적을 뿐만 아니라, 일상 생활에서 수화 통역사의 도움을 받는다는 것은 현실적으로 어렵기 때문에, 건청인과 청각 장애인이 의사소통을 하는 데에 어려움이 많다.
또한, 수화는 손의 모양과 움직임을 이용하는 의사 표시 방법일 뿐 아니라 청각 장애인들이 이해하는 고유의 언어이다. 청각 장애인에게 국어, 영어 등 건청인이 사용하는 언어는 외국어와 마찬가지이기 때문에, 신문, 웹페이지 등 시각적인 문자로 내용을 전달하는 매체일지라도 청각 장애인들이 읽고 이해하기 어려운 점이 있다. 따라서, 청각 장애인들은 건청인에 비하여 접할 수 있는 컨텐츠의 양이 제한되어, 질적 및 양적으로 정보의 격차가 심화되고 있다.
이러한 문제들을 해결하기 위해 음성 또는 문장을 수화로 번역하여 주는 자동 번역 시스템이 연구되었다.
이러한 자동 번역 시스템에서 문장의 의미를 정확하게 수화로 번역하기 위하여는 중의어의 중의성 해소가 선결되어야 한다. 중의어는 철자나 발음이 동일하지만 여러 뜻을 내포하는 단어를 의미하는 것으로, 단어 자체만으로는 그 뜻을 정하기 어렵고 문장 내의 문맥을 통해서 해석되어야 한다.
이러한 중의성을 해소하고 중의어의 정확한 의미를 확정하기 위한 기존의 방법들로 크게 지식 기반 방법(Knowledge-based method), 비교사 말뭉치 가반 방법(Unsupervised corpus-based method), 교사 말뭉치 기반 방법(Supervised corpus-based method) 등이 제안되었다.
지식 기반 방법에는 규칙 기반 방법, 기계 가독형 사전 기반 방법 등이 있다. 규칙 기반 방법은 언어 전문가에 의해 구축된 중의성 해소 규칙 집합을 사용하는 방식으로 자연어의 사용자인 인간이 직접 개입하기 때문에 중의성 해소의 정확도가 높아진다는 장점이 있다. 하지만 수작업으로 규칙을 생성하기 위해서는 많은 인력과 시간이 요구되며 방대한 언어의 특성을 모두 반영하는 일반적인 규칙을 얻기가 힘들다는 단점이 있다. 기계 가독형 사전 기반 방법은 기존에 구축된 사전의 정의 또는 예문 정보를 이용하는 방법으로 각 단어와 관련된 대표 단어들을 비교적 용이하게 파악할 수 있고, 또한 정제된 정보를 이용하기 때문에 자료의 부정확함에 기인하는 오류는 발생하지 않는다는 장점이 있다. 하지만 각 단어의 정의 또는 예문의 양은 매우 제한적이므로 해당 단어의 중의성을 적절하게 해소할 수 없는 경우가 많고, 구어체 자료 보다는 문어체 자료의 비중이 매우 높기 때문에 입력 문장의 형태에 따라 정확도의 차이가 있을 수 있다.
비교사 말뭉치 기반 방법은 중의어의 의미가 태깅되지 않은 말뭉치를 사용하여 입력 문장 내 중의어의 의미를 구별하는 방법이다. 이 방법을 사용하면 말뭉치를 획득하기는 용이하나 이로부터 신뢰성 있는 유의미한 정보를 추출하는 것에 어려움이 있다.
교사 말뭉치 기반 방법은 중의어의 의미가 태깅된 말뭉치를 사용하여 시스템을 학습 시킨 후 이를 기반으로 입력 문장 내 중의어의 의미를 구별하는 방법이다. 이 방법의 경우 말뭉치를 통해 시스템이 자동으로 학습되므로 의미 구분을 위한 특정 규칙을 수작업으로 입력하지 않아도 된다는 장점이 있으나, 제한된 크기의 말뭉치를 사용하므로 학습된 정보에 쏠림 현상(bias)이 있을 수 있으며 말뭉치의 양을 증가시키기 위해서는 많은 인력과 시간이 필요하다는 단점이 있다.
본 발명이 해결하고자 하는 과제는 중의성 해소 가능성의 높은 중의어 및 이와 연관성이 높은 중의어에 대해 의미를 가정하고, 가정에 대한 검증을 통하여 중의어의 의미를 결정함으로써 중의성 해소 가능성이 높고 신뢰도가 높은 중의성 해소 방법 및 중의성 해소 시스템을 제공하는 데에 있다.
또한, 본 발명이 해결하고자 하는 다른 과제는 중의어의 각 의미에 대한 확률을 다양한 데이터베이스를 이용하여 산출함으로써 신뢰도가 높은 중의성 해소 방법 및 중의성 해소 시스템을 제공하는 데에 있다.
본 발명이 해결하고자 하는 다른 과제는 단어의 중의성을 해소하여 입력 문장의 정확한 의미를 수화로 번역할 수 있는 수화 번역 시스템을 제공하는 데에 있다.
상기 과제를 해결하기 위한 본 발명의 단어의 중의성 해소 방법은 (a) 입력 문장 내에서 중의어들을 추출하는 단계, (b) 상기 중의어들의 의미에 따른 확률분포(이하 '제1 확률분포'라 함)를 산출하고 중의성 해소 가능성이 높은 중의어(이하 '제1 중의어'라 함)를 선정하는 단계, (c) 상기 제1 중의어의 의미를 가정한 상태에서 상기 제1 중의어를 제외한 나머지 중의어들의 의미에 따른 확률분포(이하 '제2 확률분포'라 함)를 산출하여 상기 제1 중의어와 연관성이 가장 높은 중의어(이하 '제2 중의어'라 함)를 선정하는 단계 및 (d) 상기 제1 중의어 및 상기 제2 중의어의 의미를 가정한 상태에서 상기 제1 중의어 및 제2 중의어를 제외한 나머지 중의어들의 의미에 따른 확률분포(이하 '제3 확률분포'라 함)를 산출하여 상기 제1 확률분포, 제2 확률분포 및 제3 확률분포에서의 의미에 따른 확률의 편차값들을 비교하여 제1 중의어의 의미 또는 제1 중의어 및 제2 중의어의 의미를 결정하는 단계를 포함한다.
상기 과제를 해결하기 위한 본 발명의 단어의 중의성 해소 시스템은 입력 문장 내에서 중의어들을 추출하는 중의어 추출부, 상기 중의어들의 의미에 따른 확률분포를 산출하는 확률분포 산출부, 및 상기 중의어들의 의미를 가정하지 않은 상태에서의 중의어들의 의미별 확률분포(이하 '제1 확률분포'라 함)와, 상기 중의성 해소 가능성이 높은 중의어(이하 '제1 중의어'라 함)의 의미를 가정한 상태에서의 나머지 중의어들의 의미별 확률분포(이하 '제2 확률분포'라 함)와, 상기 제1 중의어 및 상기 제1 중의어와 연관성이 가장 높은 중의어(이하 '제2 중의어'라 함)의 의미를 가정한 상태에서의 나머지 중의어들의 의미별 확률분포(이하 '제3 확률분포'라 함)로부터 상기 제1 중의어 또는 상기 제2 중의어의 의미를 결정하는 의미 결정부를 포함할 수 있다.
상기 과제를 해결하기 위한 본 발명의 수화 번역 시스템은 입력 문장 내에서 중의어들을 추출하는 중의어 추출부, 상기 중의어들의 의미에 따른 확률분포를 산출하는 확률분포 산출부, 상기 중의어들의 의미를 가정하지 않은 상태에서의 중의어들의 의미별 확률분포(이하 '제1 확률분포'라 함)와, 상기 중의성 해소 가능성이 높은 중의어(이하 '제1 중의어'라 함)의 의미를 가정한 상태에서의 나머지 중의어들의 의미별 확률분포(이하 '제2 확률분포'라 함)와, 상기 제1 중의어 및 상기 제1 중의어와 연관성이 가장 높은 중의어(이하 '제2 중의어'라 함)의 의미를 가정한 상태에서의 나머지 중의어들의 의미별 확률분포(이하 '제3 확률분포'라 함)로부터 상기 제1 중의어 또는 상기 제2 중의어의 의미를 결정하는 의미 결정부, 상기 결정된 의미에 따라 상기 입력 문장 내에 포함된 단어들과 매칭되는 수화 동작을 수화 데이터베이스에서 추출하는 수화 번역부 및 상기 수화 번역부에서 추출된 수화 동작들을 조합하여 디스플레이하는 표시부를 포함할 수 있다.
상기의 구성과 같은 본 발명의 중의성 해소 방법 및 중의성 해소 시스템은 중의성 해소 가능성의 높은 중의어 및 이와 연관성이 높은 중의어에 대해 의미를 가정하고, 가정에 대한 검증을 통하여 중의어의 의미를 결정함으로써 높은 신뢰도로 단어의 중의성을 해소할 수 있다.
또한, 본 발명의 중의성 해소 방법 및 중의성 해소 시스템은 각 의미에 대한 확률을 다양한 데이터베이스를 이용하여 산출함으로써 중의성 해소의 신뢰도를 높일 수 있다.
또한, 본 발명의 수화 번역 시스템은 입력 문장에 포함된 단어의 중의성을 해소하고 수화로 번역을 함으로써 입력 문장의 정확한 의미를 수화로 번역할 수 있는 효과가 있다.
도 1은 본 발명의 실시예에 따른 중의성 해소 시스템을 나타내는 기능 블록도이다.
도 2는 본 발명의 실시예에 따른 단어의 중의성을 해소하는 방법을 설명하기 위한 순서도이다.
도 3은 본 발명의 실시예에 따른 확률분포 산출부의 세부 구성을 나타내는 기능 블록도이다.
도 4는 본 발명의 실시예에 따른 온톨로지 정보 기반 데이터베이스에 저장되는 예시적 데이터를 나타내는 도면이다.
도 5는 본 발명의 실시예에 따른 수화 번역 시스템의 구성을 나타내는 기능 블록도이다.
도 6은 본 발명의 실시예에 따른 수화 번역 시스템에서 수화 번역이 이루어지는 방법을 나타내는 순서도이다.
도 7은 본 발명의 실시예에 따른 수화 번역부에서 입력 문장에 포함되어 있는 단어들에 대한 수화 동작을 추출하는 방법을 나타내는 순서도이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
도 1은 본 발명의 실시예에 따른 중의성 해소 시스템을 나타내는 기능 블록도이다.
도 1을 참조하면, 본 발명의 실시예에 따른 중의성 해소 시스템(1000)은 형태소 분석부(100), 중의어 추출부(200), 확률분포 산출부(300), 단서 추출부(400) 및 의미 결정부(500)을 포함하여 이루어진다.
형태소 분석부(100)는 중의성 해소 시스템(1000)에 입력된 문장의 형태소를 분석하여 입력 문장에 포함된 단어들을 구분한다.
중의어 추출부(200)는 형태소가 분석된 입력 문장에 중의어에 포함되어 있는 중의어들을 추출하는 기능을 한다. 입력 문장에 포함된 단어가 중의어인지 여부는 중의어 데이터베이스(250)에서 단어를 검색하여 알아낼 수 있다.
확률분포 산출부(300)는 단서 추출부(400)와 연동하여 중의어 검색부에서 검색된 중의어가 가질 수 있는 의미별 확률 및 표준편차 등 확률분포를 구하는 기능을 수행한다. 확률분포 산출부(300)가 중의어의 확률을 산출하는 구체적인 방법에 관하여는 후술하기로 한다.
단서 추출부(400)는 입력 문장의 형태소 분석 결과에 기초하여 입력 문장으로부터 단서 단어를 추출하고, 각 단서 단어들의 단서 정보를 추출한다. 단서 단어는 입력 문장에 포함된 중의어의 의미별 확률분포를 산출하기 위한 단어들로, 상기 중의어와 의미상 또는 활용 상태상 서로 연관될 수 있는 명사, 형용사, 부사, 동사 등이 될 수 있다. 단서 정보는 단서 단어의 활용 상태에 관한 정보로서, 크게 단서 단어 정보와 단서 규칙 정보 등을 포함한다.
단서 단어 정보는 단서 단어들의 품사 정보 및 사용빈도에 관한 정보로서 단서 정보 데이터베이스(450)로부터 추출될 수 있다. 상기 사용빈도는 글의 종류에 따른 사용빈도를 포함할 수 있다. 예를 들어, 단서 단어가 신문에서 사용되는 빈도, 문학에서 사용되는 빈도, 잡지에서 사용되는 빈도, 구어에서 사용되는 빈도 등을 포함할 수 있다.
단서 규칙 정보는 입력 문장 내에서 각 단서 단어들의 사용 형태(주어, 목적어, 서술어 등)에 관한 정보로서, 입력 문장 내에서의 조사의 종류, 조사의 위치 및 단서 단어의 품사에 관한 정보로부터 얻을 수 있다.
의미 결정부(500)는 중의어 추출부(200)에서 추출된 중의어들의 의미를 결정하는 기능을 수행한다.
이하, 본 발명의 실시예에 따른 단어의 중의미 결정부(500)에서 중의어의 중의성을 해소하는 과정을 상세하게 설명하기로 한다.
도 2는 본 발명의 실시예에 따른 단어의 중의성을 해소하는 방법을 설명하기 위한 순서도이다.
다음은 이하에서 사용되는 수식에 관한 정의이다.
Figure 112011091817956-pat00001
: 입력문장 내의 중의어의 총 개수
Figure 112011091817956-pat00002
: i 번째 중의어
Figure 112011091817956-pat00003
: i 번째 중의어
Figure 112011091817956-pat00004
가 가지는 의미의 개수
Figure 112011091817956-pat00005
: i 번째 중의어
Figure 112011091817956-pat00006
의 j번째 의미
Figure 112011091817956-pat00007
: i 번째 중의어
Figure 112011091817956-pat00008
의 의미가 j번째 의미
Figure 112011091817956-pat00009
일 확률
Figure 112011091817956-pat00010
: i 번째 중의어
Figure 112011091817956-pat00011
의 의미별 확률의 표준편차
Figure 112011091817956-pat00012
: 가장 큰 표준편차를 가지는
Figure 112011091817956-pat00013
의 인덱스, 즉,
Figure 112011091817956-pat00014
Figure 112011091817956-pat00015
: 중의어
Figure 112011091817956-pat00016
에 대하여 확률이 가장 큰 의미의 인덱스, 즉,
Figure 112011091817956-pat00017
Figure 112011091817956-pat00018
:
Figure 112011091817956-pat00019
의 의미를
Figure 112011091817956-pat00020
로 가정하였을 때 나머지 중의어
Figure 112011091817956-pat00021
에 대해 구한 조건부 표준편차
도 2에 도시된 바와 같이, 문장이 입력되면 형태소 분석부(100)는 입력된 문장의 형태소를 분석하여 입력 문장에 포함된 단어들을 구분한다(S110).
중의어 추출부(200)는 형태소가 분석된 입력 문장으로부터 중의어를 추출한다(S120). 중의어 추출부(200)는 입력 문장 내에 포함된 각 단어들을 중의어 데이터베이스(250)에서 검색하여 2 이상의 의미를 가지는 중의어인지 여부를 판단할 수 있다.
확률분포 산출부(300)는 우선 입력 문장에 포함된 중의어들에 대해서 각각 의미별 확률분포(이하 '제1 확률분포'라 함)를 산출한다(S130). 구체적으로, 확률분포 산출부(300)는 입력 문장에 각 중의어가 가질 수 있는 각각의 의미의 확률
Figure 112011091817956-pat00022
및 그 확률의 표준편차
Figure 112011091817956-pat00023
를 구한다. 의미별 확률분포를 산출하는 구체적인 방법에 관하여는 후술하기로 한다.
의미 결정부(500)는 제1 확률분포로부터 중의성 해소 가능성이 가장 높은 중의어(이하 '제1 중의어'라 함)를 선정하고, 제1 중의어의 의미 중 확률이 가장 높은 의미를 제1 중의어의 의미로 가정한다(S140). 중의성 해소 가능성이 가장 높은 중의어는 각 중의어의 의미별 확률의 표준편차
Figure 112011091817956-pat00024
로부터 알 수 있다. 어떤 중의어가 가질 수 있는 의미에 따라 확률의 편차가 크다는 것은 중의어의 각 의미들이 가지는 확률이 고르지 못하다는 뜻이고, 이것은 곧 그 중의어가 특정 의미를 가질 확률이 높다는 뜻이다. 즉, 의미에 따른 표준편차가 가장 큰 중의어
Figure 112011091817956-pat00025
는 중의성을 해소할 가능성이 높다. 따라서, 의미 결정부(500)는 제1 확률분포에서 의미에 따른 표준편차가 가장 큰 중의어
Figure 112011091817956-pat00026
를 제1 중의어로 선정하고, 제1 중의어의 의미 중 확률이 가장 높은 의미
Figure 112011091817956-pat00027
를 제1 중의어의 의미로 가정한다.
이후, 확률분포 산출부(300)는 제1 중의어의 의미를 가장 확률이 높은 의미로 가정한 상태에서, 제1 중의어를 제외한 나머지 중의어들의 의미별 확률분포(이하 '제2 확률분포'라 함)를 산출한다(S150). 특히, 확률분포 산출부(300)는 제1 중의어의 의미를 가정한 상태에서, 제1 중의어를 제외한 나머지 중의어들에 대해 의미별 확률
Figure 112011091817956-pat00028
및 의미별 확률의 표준편차
Figure 112011091817956-pat00029
를 산출한다.
이때, 제2 확률분포에서의 각 중의어의 의미별 확률
Figure 112011091817956-pat00030
및 표준편차
Figure 112011091817956-pat00031
는 제1 확률분포에서의 각 중의어의 의미별 확률
Figure 112011091817956-pat00032
및 표준편차
Figure 112011091817956-pat00033
와 다를 수 있다. 이는 조건부 확률에 기인한 것으로, 제1 확률분포에서의 특정 중의어
Figure 112011091817956-pat00034
의 의미별 확률과 제2 확률분포에서의 상기 특정 중의어
Figure 112011091817956-pat00035
의 의미별 확률의 차이가 클수록 그 특정 중의어는 제1 중의어와 연관성이 높다는 것을 의미한다. 특히, 제2 확률분포에서의 특정 중의어
Figure 112011091817956-pat00036
에 대한 표준편차
Figure 112011091817956-pat00037
가 제1 확률분포에서의 상기 특정 중의어에 대한 표준편차
Figure 112011091817956-pat00039
에 비하여 크다는 것은 제1 중의어
Figure 112011091817956-pat00040
의 의미를
Figure 112011091817956-pat00041
로 가정하였을 때, 그 특정 중의어
Figure 112011091817956-pat00042
의 의미가 결정될 가능성이 높다는 것을 의미한다.
따라서, 의미 결정부(500)는 제1 확률분포에서의 표준편차에 비하여 제2 확률분포에서의 표준편차가 가장 크게 증가하는 중의어
Figure 112011091817956-pat00043
(이하 '제2 중의어'라 함)를 제1 중의어와 연관성이 높은 중의어로 선정하고, 상기 제2 중의어
Figure 112011091817956-pat00044
의 의미 중 확률이 가장 높은 의미
Figure 112011091817956-pat00045
를 제2 중의어의 의미로 가정할 수 있다.
본 실시예에서는 중의성 해소 가능성과 연관성이라는 두 개의 인자를 이용하여 두 개의 중의어를 선택하는 것으로 설명하였으나, 이에 한정되는 것은 아니며, 상기의 방법을 반복하여 세 개 이상의 중의어를 선정하는 것도 가능할 것이다.
이하, 제1 중의어 및 제2 중의어의 가정된 의미가 그 중의어의 의미인지를 결정하는 단계를 설명한다.
의미 결정부(500)는 중의어가 가정되지 않은 상태에서의 확률분포(제1 확률분포)에서 각 중의어들의 표준편차의 평균
Figure 112011091817956-pat00046
, 제1 중의어의 의미를 가정한 상태에서의 확률분포(제2 확률분포)에서 각 중의어들의 표준 편차의 평균
Figure 112011091817956-pat00047
, 제1 중의어의 의미 및 제2 중의어의 의미를 가정한 상태에서의 확률분포(이하 '제3 확률분포'라 함)에서 나머지 중의어들의 표준 편차의 평균
Figure 112011091817956-pat00048
을 서로 비교하여 제1 중의어
Figure 112011091817956-pat00049
및 제2 중의어
Figure 112011091817956-pat00050
의 의미가 가정했던 의미인지를 판단하게 된다.
위 표준편차의 평균은 중의어들의 대체적인 편차 정도를 나타내는 것이므로, 만일 표준편차의 평균이 높다는 것은 중의어들이 대체적으로 특정한 의미를 가질 가능성이 높다는 것이다. 따라서, 제1 확률분포에서의 표준편차의 평균
Figure 112011091817956-pat00051
, 제2 확률분포에서의 표준편차의 평균
Figure 112011091817956-pat00052
, 제3 확률분포에서의 표준편차의 평균
Figure 112011091817956-pat00053
중 어느 하나의 값이 높다면, 그 표준 편차를 구한 가정이 옳을 가능성이 높다는 것이다. 만일
Figure 112011091817956-pat00054
이 가장 높은 값을 가진다면 제1 중의어 및 제2 중의어의 선정이 잘못되었을 가능성이 높다. 따라서, 이 경우 제1 중의어 및 제2 중의어의 의미를 가정한 의미로 결정하지 않는다.
만일,
Figure 112011091817956-pat00055
이 가장 높은 값을 가진다면, 제1 중의어의 선정이 옳을 가능성이 높다. 따라서, 이 경우 제1 중의어의 의미를 가정한 의미로 결정한다.
만일,
Figure 112011091817956-pat00056
이 가장 높은 값을 가진다면, 제1 중의어 및 제2 중의어의 선정이 옳을 가능성이 높다. 따라서, 이 경우 제1 중의어 및 제2 중의어의 의미를 가정한 의미로 결정한다.
위의 실시예에서는
Figure 112011091817956-pat00057
,
Figure 112011091817956-pat00058
,
Figure 112011091817956-pat00059
의 값을 비교하였으나,
Figure 112011091817956-pat00060
는 제1 중의어의 의미를 가정한 상태에서 구한 것이고,
Figure 112011091817956-pat00061
는 제1 중의어 및 제2 중의어의 의미를 가정한 상태에서 구한 것이므로, 가정으로 인한 불확실성을 반영하는 것이 좋다. 따라서, 다른 실시예에서는 제1 확률분포에서의 표준편차의 평균
Figure 112011091817956-pat00062
와 제2 확률분포에서의 표준편차의 평균에 제1 중의어가 가정한 의미를 가질 확률을 곱한 값
Figure 112011091817956-pat00063
및 제3 확률분포에서의 표준편차의 평균에 제1 중의어 및 제2 중의어가 가정한 의미를 가질 확률을 곱한 값
Figure 112011091817956-pat00064
를 서로 비교하여 중의어의 의미를 결정할 수 있다.
즉,
Figure 112011091817956-pat00065
의 값이 가장 크면, 제1 중의어 및 제2 중의어의 의미를 가정한 의미로 결정하지 않고,
Figure 112011091817956-pat00066
의 값이 가장 크면, 제1 중의어의 의미를 가정한 의미로 결정한다.
Figure 112011091817956-pat00067
의 값이 가장 크면, 제1 중의어 및 제2 중의어의 의미를 가정한 의미로 결정하게 된다.
한편, 또 다른 실시예에서는
Figure 112011091817956-pat00068
,
Figure 112011091817956-pat00069
,
Figure 112011091817956-pat00070
값의 차이가 임계값 이상인 경우에만 제1 중의어 및 제2 중의어의 의미를 결정하는 것으로 할 수도 있을 것이다. 왜냐하면, 크기의 변화가 있다고 하더라도 그 차이가 미미하다면 우연적인 변화로 인한 것일 수도 있기 때문이다. 예를 들어,
Figure 112011091817956-pat00071
의 값이 가장 크다고 할 때,
Figure 112011091817956-pat00072
Figure 112011091817956-pat00073
의 차이 및
Figure 112011091817956-pat00074
Figure 112011091817956-pat00075
의 차이가 일정 임계값 이상일 때만 제1 중의어 및 제2 중의어의 의미를 결정할 수 있다.
이와 같이 중의어의 의미를 결정하는 단계를 반복하여 의미 미결정의 중의어의 의미를 결정할 수 있다.
이하, 확률분포 산출부(300)가 중의어의 의미별 확률을 산출하는 방법에 대하여 살펴보기로 한다.
도 3은 확률분포 산출부(300)의 세부 구성을 나타내는 기능 블록도이다.
도 3을 참조하면, 확률분포 산출부(300)는 사전정보 기반 확률 산출부(310), 말뭉치정보 기반 확률 산출부(320), 온톨로지 기반 확률 산출부(330) 및 경험규칙 기반 확률 산출부(340) 중 적어도 하나 이상을 포함할 수 있으며, 가중치 부가부(350)를 포함할 수 있다.
사전 정보 기반 확률 산출부(310)는 사전 정보 기반 데이터베이스(315)에서 입력된 중의어에 관한 사전 기반 정보를 추출하고, 추출된 사전 기반 정보와 단서 추출부(400)에서 추출된 입력 문장 내의 단서 단어들을 서로 비교하여 중의어의 의미에 따른 확률 분포를 산출할 수 있다.
말뭉치 기반 확률 산출부(320)는 말뭉치 기반 데이터베이스(325)에서 입력된 중의어에 관한 말뭉치 정보를 추출하고, 추출된 말뭉치 정보와 단서 추출부(400)에서 추출된 입력 문장 내의 단서 단어들을 비교하여 문장의 유사도를 측정함으로써 중의어의 의미에 따른 확률 분포를 산출할 수 있다.
온톨로지 정보 기반 확률 산출부(330)는 온톨로지 정보 기반 데이터베이스(335)에서 입력된 중의어에 관한 온톨로지 개념들을 추출하고, 추출된 개념과 단서 추출부(400)에서 추출된 입력 문장 내의 단서 단어들을 비교하여 중의어의 의미에 따른 확률분포를 산출할 수 있다.
경험 규칙 기반 확률 산출부(340)는 경험 규칙 기반 데이터베이스(345)에서 입력된 중의어에 관한 경험 정보들을 추출하고, 추출된 경험 정보와 단서 추출부(400)에서 추출된 입력 문장 내의 단서 단어들을 비교하여 중의어의 의미에 따른 확률분포를 산출할 수 있다.
가중치 부가부(350)는 사전 정보 기반 확률 산출부(310), 말뭉치 기반 확률 산출부(320), 온톨로지 정보 기반 확률 산출부(330) 및 경험 규칙 기반 확률 산출부(340) 중 적어도 2개 이상에서 얻어진 중의어의 의미별 확률에 가중치를 부여하여 최종 의미별 확률을 산출할 수 있다.
확률분포 산출부(300)는 상기 4가지 종류의 확률 산출부(310, 320, 330, 340)를 이용하여 중의어의 의미별 확률을 산출하는데, 중의어의 특성에 따라 각각의 확률 산출부별로 중의성 해소의 성능에 차이를 보일 수 있다.
예컨대, 사전 정보 기반 확률 산출부(310)에서 산출한 의미별 확률에 의해 중의성이 해소될 가능성이 높은 중의어가 있을 수도 있으며, 또한, 온톨로지 정보 기반 확률 산출부(330)에서 산출한 의미별 확률에 의해 중의성이 해소될 가능성이 높은 중의어가 있을 수도 있다. 전자의 경우에는 사전 정보 기반 확률 산출부(310)에서 산출한 의미별 확률값에 비중을 두어 최종 확률을 산출하는 것이 바람직하고, 후자의 경우에는 온톨로지 정보 기반 확률 산출부(330)에서 산출한 의미별 확률값에 비중을 두어 최종 확률을 산출하는 것이 바람직할 것이다.
따라서, 가중치 부가부(350)는 중의어의 특성에 따라 각각의 확률 산출부(310, 320, 330, 340)에서 산출한 의미별 확률값에 가중치를 다르게 부여할 수 있다. 이때, 가중치 데이터베이스(355)에는 중의어마다 각각의 확률 산출부(310, 320, 330, 340)의 결과에 부가할 가중치 값을 저장하고 있을 수 있다.
가중치 부가부(350)는 중의어의 특성에 따라 각각의 확률 산출부에서 산출한 확률값에 가중치를 부여하고 합산한 뒤 이를 정규화하여 중의어의 의미에 따른 최종 확률분포를 산출할 수 있다.
이하, 각각의 확률 산출부(310, 320, 330, 340)가 중의어의 의미별 확률을 산출하는 방법에 관하여 상세히 살펴보기로 한다.
사전 정보 기반 데이터베이스(315)는 사전에 기반한 정보, 예를 들어 단어의 품사, 정의, 예문, 사용빈도 등의 정보가 저장되어 있을 수 있고, 사전 정보 기반 확률 산출부(310)는 단서 추출부(400)에서 추출된 단서 단어와 사전 정보 기반 데이터베이스(315)의 정의, 예문 정보에 포함된 단어를 비교하여 중의어의 의미별 확률을 산출할 수 있다.
예를 들어, '사과'라는 중의어는 apple의 의미를 가질 수도 있고, apology의 의미를 가질 수도 있다. apple의 의미에 대해 사전 정보 기반 데이터베이스(315)는 "사과나무의 열매"라는 정의를 저장하고 있을 수 있고, apology의 의미에 대해 사전 정보 기반 데이터베이스(315)는 "자신의 잘못을 인정하고 용서를 빎"이라는 정의를 저장하고 있을 수 있다. 이때, 입력 문장에 포함된 단서 단어 중 '나무'라는 단어가 존재하는 경우, '사과'는 apple의 의미를 가질 확률이 높다. 반대로, 단서 단어 중 '용서'라는 단어가 존재하는 경우 '사과'는 apology의 의미를 가질 확률이 높다.
또한, 사전 정보 기반 데이터베이스(315)는 apple의 의미에 대해 "그는 빨갛게 익은 사과를 한 입 베어 먹었다"라는 예문을 저장하고 있을 수 있고, apology의 의미에 대해 "나에게 실수한 일에 대하여 그는 한마디 사과도 없다"라는 예문을 저장하고 있을 수 있다. 이때, 입력 문장에 포함된 단서 단어 중 '빨갛게'라는 단어가 존재하는 경우 '사과'는 apple의 의미를 가질 확률이 높고, 단서 단어 중 '실수'라는 단어가 존재하는 경우 '사과'는 apology의 의미를 가질 확률이 높다.
따라서, 사전 정보 기반 확률 산출부(310)는 입력 문장 내에서의 단서 단어와 중의어의 어느 한 의미에 대하여 정보 기반 데이터베이스(315)에 저장되어 있는 사전 기반 정보(정의 또는 예문 정보)의 단어가 일치하는 경우 일치하는 그 의미에 가산점을 부여할 수 있다.
이때, 입력 문장 내에서 그 일치하는 단서 단어와 중의어의 거리에 따라 가산점을 달리 부여할 수 있다. 단서 단어와 중의어의 거리가 멀수록 중의어의 의미는 단서 단어와 관련된 의미와 일치할 가능성이 낮아지고, 단서 단어와 중의어의 거리가 가까울수록 중의어의 의미는 단서 단어와 관련된 의미와 일치할 가능성이 높아지기 때문에, 입력 문장 내에서 단서 단어와 중의어의 거리가 가까울수록 가산점을 높게 부여할 수 있다.
또한, 단서 단어들의 사용빈도에 따라 가산점을 다르게 부여할 수도 있다. 단서 단어가 일반적으로 사용빈도가 낮은 단어인 경우 그 단서 단어는 우연히 사용되었을 가능성이 적고, 그 단서 단어와 일치하는 정의 또는 예문과 관련된 의미에 관하여 사용되었을 가능성이 높다. 따라서, 단서 단어의 사용빈도가 낮을수록 단서 단어와 관련되는 의미에 부여되는 가산점을 높게 산정할 수 있다.
이와 같이, 사전 정보 기반 확률 산출부(310)는 입력 문장 내의 단서 단어가 사전 정보 기반 데이터베이스(315)에 저장되어 있는 정의 또는 예문에 포함된 단어와 일치하는 경우, 단서 단어와 중의어의 거리 및 단서 단어의 사용빈도에 따라 각 의미별 가산점을 부가하고, 산출된 가산점의 합이 1이 되도록 정규화하여 의미별 확률분포를 산출할 수 있다.
말뭉치 기반 확률 산출부(320)는 말뭉치 기반 데이터베이스(325)와 연동하여 중의어의 의미별 확률을 산출한다.
말뭉치 기반 데이터베이스(325)는 중의어와 관련된 말뭉치 정보를 저장하는데, 사람에 의해 수동으로 태깅된 말뭉치들의 정보, 및 웹 문서 또는 기타의 다른 문서 등으로부터 추출하여 자동으로 생성되는 말뭉치들의 정보를 저장하고 있을 수 있다.
말뭉치 기반 확률 산출부(320)는 말뭉치 정보 데이터베이스(325)로부터 중의어의 각각의 의미에 대한 말뭉치 정보를 추출하고, 상기 말뭉치 정보 및 상기 입력 문장을 비교하여 문장 유사도를 측정함으로써 상기 중의어의 의미에 따른 확률분포를 산출할 수 있다.
말뭉치 기반 확률 산출부(320)는 입력 문장 내에 포함된 단서 단어들의 일치 여부를 넘어, 입력 문장 및 말뭉치 정보에 포함된 문장 자체의 유사도를 판단할 수 있다. 여기에서, 문장의 유사도는 조사 구조의 일치정도 및 조사 주체의 일치정도를 고려하여 그에 따른 가산점을 부가함으로써 측정될 수 있다.
이와 같이 말뭉치 기반 확률 산출부(320)는 입력 문장과 중어어와 관련된 말뭉치 정보를 비교하여 조사 구조의 일치정도 및 조사 주체의 일치정도를 계산하여 문장의 유사도를 측정함으로써 중의어의 의미별 확률분포를 산출할 수 있다.
온톨로지 정보 기반 확률 산출부(330)는 온톨로지 정보 기반 데이터베이스(335)와 연동하여 중의어의 의미별 확률을 산출한다. 온톨로지 정보 기반 데이터베이스(335)는 도 4에 도시된 바와 같이, 단어에 대한 실제 세계의 범주를 상·하위 개념에 따라 트리 구조로 저장하고 있을 수 있다.
온톨로지 정보 기반 확률 산출부(330)는 단서 추출부(400)에서 추출된 단서 단어와 온톨로지 정보 기반 데이터베이스(335)에서의 중의어의 의미와 관련된 개념들을 비교하여, 추출된 단서 단어와 중의어의 의미와 관련된 개념이 일치하는 경우에 그 의미에 가산점을 부여한다.
예를 들어, '식물'이라는 단어는 '사과'의 의미 중 apple의 의미와 관련된 상위 개념이므로, 입력 문장 내의 단서 단어 중 '식물'이라는 단어가 존재하는 경우 apple의 의미에 가산점을 부여하게 된다.
이때, 온톨로지 정보 기반 확률 산출부(330)는 단서 단어와 일치하는 온톨로지 개념에 따라 가산점을 다르게 부여할 수 있다. 예를 들어, 단서 단어와 일치하는 온톨로지 개념이 하위 개념일수록 가산점을 높게 부여하고, 단서 단어와 일치하는 온톨로지 개념이 상위 개념일수록 가산점을 낮게 부여할 수 있다.
또한, 온톨로지 정보 기반 확률 산출부(330)는 입력 문장 내에서 단서 단어와 중의어의 거리에 따라 가산점을 다르게 부여할 수 있다. 입력 문장 내에서 단서 단어와 중의어의 거리가 가까운 경우에는 가산점을 높게 부여하고, 단서 단어와 중의어의 거리가 먼 경우에는 가산점을 낮게 부여할 수 있다.
경험 규칙 기반 확률 산출부(340)는 경험 규칙 기반 데이터베이스(345)와 연동하여 중의어의 의미별 확률을 산출한다. 경험 규칙 기반 데이터베이스(345)에는 중의어의 사용예로부터 경험적으로 취득된 의미별 확률이 저장되어 있다. 예를 들어, "사과가 맛있다"와 같이 '사과'와 '맛'이 한 문장에 사용되면 '사과'는 apple의 의미를 가질 확률이 95%일 것이라는 경험적으로 취득된 의미별 확률이 저장되어 있을 수 있다. 따라서, 경험 규칙 기반 확률 산출부(340)는 단서 단어에 '맛'이라는 단어가 존재하는 경우, '사과'가 apple의 의미를 가질 확률을 95%로 산출하고, apology의 의미를 가질 확률을 5%로 산출할 수 있다.
이와 같이, 경험 규칙 기반 확률 산출부(340)는 단서 추출부(400)에서 추출된 단서 단어를 경험 규칙 기반 데이터베이스(345)에 포함된 경험 정보와 비교하여 중의어의 의미별 확률을 산출할 수 있다.
이하, 본 발명의 실시예에 따른 수화 번역 시스템을 상세히 설명하기로 한다.
도 5는 본 발명의 실시예에 따른 수화 번역 시스템의 구성을 나타내는 기능 블록도이고, 도 6은 본 발명의 실시예에 따른 수화 번역 시스템에서 수화 번역이 이루어지는 방법을 나타내는 순서도이다.
도 5를 참조하면, 본 발명의 실시예에 따른 수화 번역 시스템(2000)는 중의성 해소 시스템(1000), 문장 분절부(1100), 수화 번역부(1200), 비수지정보 추가부(1300) 및 표시부(1400)를 포함할 수 있다.
도 6을 참조하면, 수화로 번역할 문장이 입력되면 중의성 해소 시스템(1000)은 입력 문장 내에 존재하는 중의어의 의미를 결정한다(S100). 중의성 해소 시스템(1000)의 구체적 구성 및 중의성 해소 방법은 앞서 상세히 설명하였으므로 자세한 설명은 생략하기로 한다.
중의성 해소 시스템(1000)에 의해 중의어의 의미가 결정된 문장은 문장 분절부(1100)로 전달된다. 입력 문장이 중문으로 되어 있거나 지나치게 긴 경우, 수화로 번역하기에 적절하지 않을 수 있기 때문에 적절한 길이로 문장을 분절할 필요가 있다. 문장 분절부(1100)는 분절 규칙 데이터베이스(1150)에 저장된 분절 규칙에 따라 입력 문장을 수화로 번역하기에 적절한 길이로 분절한다(S200). 구체적으로, 분절 규칙 데이터베이스(1150)에는 문장들이 서로 연결될 때 사용되는 연결 어미 또는 연결부호에 관한 정보가 저장되어 있고, 문장 분절부(1100)는 입력 문장에 분절 규칙 데이터베이스(1150)에 저장되어 있는 연결 어미 또는 문장 부호가 있는지를 판단하여 상기 연결 어미 또는 문장 부호를 기준으로 문장을 분절할 수 있다. 문장 분절부(1100)에 의해 수화로 번역하기 적절한 길이로 분절된 문장은 수화 번역부(1200)로 전달된다.
도 7은 본 발명의 실시예에 따른 수화 번역부에서 입력 문장에 포함되어 있는 단어들에 대한 수화 동작을 추출하는 방법을 나타내는 순서도이다.
수화 번역부(1200)는 입력 문장의 단어에 매칭되는 수화 동작을 추출하는 기능을 수행한다. 수화 번역부(1200)는 수화 데이터베이스(1210), 유의어 데이터베이스(1220), 사전 데이터베이스, 지화 데이터베이스와 연동하여 수화 동작을 추출할 수 있다(S300).
수화 번역부(1200)가 입력 문장에 포함된 단어들에 매칭되는 수화 동작을 추출하는 과정을 구체적으로 살펴보면, 먼저 수화 번역부(1200)는 입력 문장에 포함된 단어에 매칭되는 수화 동작을 수화 데이터베이스(1210)에서 추출하여 각 단어를 수화 동작으로 번역할 수 있다(S320). 수화 데이터베이스(1210)에는 각 단어별로 매칭되는 수화 동작이 저장되어 있을 수 있다.
그러나, 수화 동작으로 매칭되는 수화 단어는 그 수가 제한적이어서, 일상적으로 사용되는 모든 단어가 수화 동작으로 매칭되지 않을 수 있다. 따라서, 입력 문장 내의 단어들 중에는 수화 데이터베이스(1210)를 이용하여 수화 동작으로 치환할 수 없는 단어들이 존재할 수 있다.
수화 데이터베이스(1210)에서 단어가 검색되지 않는 경우, 수화 번역부(1200)는 유의어 데이터베이스(1220)와 연동하여 그 단어에 대응되는 수화 동작을 추출할 수 있다. 유의어 데이터베이스(1220)는 단어들과 의미가 유사한 유의어들을 저장하고 있기 때문에, 수화 번역부(1200)는 어떤 단어가 수화 데이터베이스(1210)에 존재하지 않는 경우에 그 단어의 유의어를 유의어 데이터베이스(1220)에서 추출할 수 있다(S340). 수화 번역부(1200)는 추출된 유의어에 대응하는 수화 동작을 수화 데이터베이스(1210)에서 추출함으로써 수화 데이터베이스(1210)에서 검색되지 않는 단어에 대응하는 수화 동작을 추출할 수 있게 된다.
유의어 데이터베이스(1220)를 통하여도 수화 동작으로 변환할 수 없는 경우, 수화 번역부(1200)는 사전 데이터베이스(1230)와 연동하여 수화 동작을 추출할 수 있다. 구체적으로, 수화 번역부(1200)는 수화 데이터베이스(1210) 및 유의어 데이터베이스(1220)를 통해서도 수화 동작을 추출할 수 없는 단어에 대한 사전 정의를 사전 데이터베이스(1230)에서 추출할 수 있다(S360). 사전의 정의는 일반적으로 원래의 단어보다 쉬운 말로 작성되므로, 원래의 단어가 수화 데이터베이스(1210)에 존재하지 않더라도 그 단어의 사전 정의에 포함된 단어는 수화 데이터베이스(1210)에 존재할 가능성이 높다. 수화 번역부(1200)는 추출된 사전 정의에 포함된 단어들을 다시 수화 데이터베이스(1210)에서 검색함으로써 수화 동작들을 추출할 수 있게 된다.
수화 번역부(1200)는 사전 데이터베이스(1230)에서 사전 정의를 검색할 수 없는 경우, 또는 사전 데이터베이스(1230)에서 추출한 단어의 사전 정의가 일정 단어 수(예를 들어, 6 단어) 이상인 경우, 그 단어를 지화로 번역할 수 있다. 사전의 정의가 너무 긴 경우, 사전 정의를 수화로 번역하는 것이 수화 문장의 흐름에 방해가 될 수 있기 때문이다.
또한, 수화 번역부(1200)는 수화 동작으로 번역할 단어가 중의어이고, 그 중의어의 의미가 결정된 의미를 가질 확률이 일정값(예를 들어, 50%) 이하인 경우, 그 단어를 지화로 번역할 수 있다. 중의어가 특정 의미를 가질 확률이 높지 않은 경우 중의어의 의미를 잘못 전달할 위험성이 있기 때문이다.
여기에서, 지화란 단어의 의미가 아니라 단어의 발음을 수화로 나타내는 것으로, 지화는 대체로 고유 명사 등 의미가 없는 단어를 나타내기 위하여 사용되는 것이 일반적이나 위의 경우와 같이 명확한 의미 전달이 어려운 경우에도 사용될 수 있다.
단어를 지화로 표시하기 위하여, 지화 데이터베이스(12340)는 자음과 모음들에 대한 수화 동작(지화 동작)을 저장하고 있고, 수화 번역부(1200)는 지화로 번역할 단어를 자음과 모음의 음소 단위로 분리하여 분리된 음소들에 대한 수화 동작을 지화 데이터베이스(1240)에서 추출할 수 있다(S380).
한편, 본 발명의 수화 번역 시스템은 비수지 정보 추가부(1300)를 더 포함할 수 있다.
비수지 정보란 손동작으로 표시되는 수지정보 이외에 손 이외의 다른 신체 부위를 조합하여 표현할 수 있는 수화 표현을 말한다. 비수지 정보는 얼굴 표정, 머리의 움직임, 눈동자의 움직임 등으로 나타난다. 예를 들어, "만나서 반갑습니다"를 수화로 표시할 때 웃는 얼굴 표정이 나타나지 않으면 어색한 수화 표현이 된다. 따라서, 수지 정보와 함께 웃는 얼굴 표정의 비수지 정보가 함께 표시되어야 수화의 의미를 보다 정확하게 전달할 수 있게 된다.
비수지 정보 추가부(1300)는 입력 문장의 내용과 매칭되는 비수지 정보가 비수지 정보 데이터베이스(1350)에 저장되어 있는 경우 이를 추출하고, 수화 번역부(1200)에서 추출한 수화 동작에 추출된 비수지 정보를 추가한다(S400).
표시부(1400)는 수화 번역부(1200)에서 전달된 수화 동작 및 비수지 정보 추가부(1300)에서 전달된 비수지 정보를 아바타의 애니메이션으로 화면 상에 디스플레이할 수 있다(S500). 상기 아바타는 방송, 웹, 영상물 등 시각적으로 전달 가능한 모든 정보 전달 매체를 통하여 디스플레이될 수 있다.
본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구의 범위에 의하여 나타내어지며, 특허청구의 범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims (18)

  1. (a) 중의어 추출부가 입력 문장 내에서 중의어들을 추출하는 단계;
    (b) 확률분포 산출부가 상기 중의어들의 의미에 따른 확률분포(이하 '제1 확률분포'라 함)를 산출하고 의미 결정부가 상기 제1확률분포에 기초하여 중의성 해소 가능성이 가장 높은 중의어(이하 '제1 중의어'라 함)를 선정하는 단계;
    (c) 상기 확률분포 산출부가 상기 제1 중의어의 의미를 가정한 상태에서 상기 제1 중의어를 제외한 나머지 중의어들의 의미에 따른 확률분포(이하 '제2 확률분포'라 함)를 산출하여 상기 의미결정부가 상기 제1확률분포 및 제2확률분포에 기초하여 상기 제1 중의어와 연관성이 가장 높은 중의어(이하 '제2 중의어'라 함)를 선정하는 단계; 및
    (d) 상기 확률분포 산출부가 상기 제1 중의어 및 상기 제2 중의어의 의미를 가정한 상태에서 상기 제1 중의어 및 제2 중의어를 제외한 나머지 중의어들의 의미에 따른 확률분포(이하 '제3 확률분포'라 함)를 산출하여 상기 의미결정부가 상기 제1 확률분포, 제2 확률분포 및 제3 확률분포에서의 의미에 따른 확률의 편차값들을 비교하여 제1 중의어의 의미 또는 제1 중의어 및 제2 중의어의 의미를 결정하는 단계;를 포함하는, 단어의 중의성 해소 방법.
  2. 제1항에 있어서,
    상기 (b) 단계는
    상기 확률분포 산출부가 상기 중의어들의 의미에 따른 확률분포를 산출하고 상기 의미결정부가 의미에 따른 확률의 편차가 가장 큰 단어를 중의성 해소 가능성이 높은 중의어(제1 중의어)로 선정하는 단계;를 포함하는 것을 특징으로 하는, 단어의 중의성 해소 방법.
  3. 제1항에 있어서,
    상기 (c) 단계는
    상기 확률분포 산출부가 상기 제1 중의어의 의미를 가정한 상태에서 상기 제1 중의어를 제외한 나머지 중의어들의 의미에 따른 확률분포(제2 확률분포)를 산출하여 상기 의미결정부가 상기 제1 확률분포에서의 편차값과 상기 제2 확률분포에서의 편차값의 차이가 가장 큰 중의어를 상기 제1 중의어와 연관성이 가장 높은 중의어(제2 중의어)로 선정하는 단계;를 포함하는 것을 특징으로 하는, 단어의 중의성 해소 방법.
  4. 제1항에 있어서,
    상기 (d) 단계는
    상기 의미결정부가 상기 제1 확률분포에서의 중의어들의 편차값의 평균(이하 '제1 기준값'이라 함)과 제2 확률분포에서의 중의어들의 편차값의 평균(이하 '제2 기준값'이라 함)과 상기 제3 확률분포에서의 중의어들의 편차값의 평균(이하 '제3 기준값'이라 함)을 비교하여, 상기 제1 기준값이 가장 크면 상기 제1 중의어 및 상기 제2 중의어의 의미를 결정하지 않고, 상기 제2 기준값이 가장 크면 상기 제1 중의어의 의미를 가정한 의미로 결정하며, 상기 제3 기준값이 가장 크면 상기 제1 중의어의 의미 및 상기 제2 중의어의 의미를 가정한 의미로 결정하는 단계;를 포함하는 것을 특징으로 하는, 단어의 중의성 해소 방법.
  5. 제1항에 있어서,
    상기 (d) 단계는
    상기 의미결정부가 상기 제1 확률분포에서의 중의어들의 편차값의 평균(이하 '제1 기준값'이라 함)과 제2 확률분포에서의 중의어들의 편차값의 평균에 상기 제1 중의어가 가정한 의미일 확률을 곱한 값(이하 '제2 기준값'이라 함)과 상기 제3 확률분포에서의 중의어들의 편차값의 평균에 상기 제1 중의어 및 상기 제2 중의어가 가정한 의미일 확률을 곱한 값(이하 '제3 기준값'이라 함)을 비교하여, 상기 제1 기준값이 가장 크면 상기 제1 중의어 및 상기 제2 중의어의 의미를 결정하지 않고, 상기 제2 기준값이 가장 크면 상기 제1 중의어의 의미를 가정한 의미로 결정하며, 상기 제3 기준값이 가장 크면 상기 제1 중의어의 의미 및 상기 제2 중의어의 의미를 가정한 의미로 결정하는 단계;를 포함하는 것을 특징으로 하는, 단어의 중의성 해소 방법.
  6. 제1항에 있어서,
    상기 확률분포 산출부가 상기 중의어의 의미에 따른 확률분포를 산출하는 것은
    사전 정보 기반 데이터베이스로부터 상기 중의어의 각각의 의미에 대한 사전 기반 정보들을 추출하고, 상기 각 의미에 대한 사전 기반 정보와 상기 입력 문장에서 추출한 단서 단어 정보를 비교하여 상기 중의어의 의미에 따른 확률분포를 산출하는 사전 정보 기반 확률 산출 단계;
    말뭉치 정보 데이터베이스로부터 상기 중의어의 각각의 의미에 대한 말뭉치 정보를 추출하고, 상기 말뭉치 정보 및 상기 입력 문장을 비교하여 문장 유사도를 측정함으로써 상기 중의어의 의미에 따른 확률분포를 산출하는 말뭉치 기반 확률 산출 단계;
    온톨로지 정보 기반 데이터베이스로부터 상기 중의어의 각각의 의미에 대한 온톨로지 개념을 추출하고, 상기 각 의미에 대한 온톨로지 개념과 상기 입력 문장에서 추출한 단서 단어 정보를 비교하여 상기 중의어의 의미에 따른 확률분포를 산출하는 온톨로지 정보 기반 확률 산출 단계; 및
    경험 규칙 정보 데이터베이스로부터 상기 중의어에 관련된 경험 규칙 정보들을 추출하고 상기 입력 문장에서 추출한 단서 단어 정보와 상기 추출된 경험 규칙 정보를 비교하여 상기 중의어의 의미에 따른 확률분포를 산출하는 경험 규칙 기반 확률 산출 단계; 중 적어도 어느 하나를 포함하는 것을 특징으로 하는, 단어의 중의성 해소 방법.
  7. 제6항에 있어서,
    상기 확률분포 산출부가 상기 사전 정보 기반 확률 산출 단계, 말뭉치 기반 확률 산출 단계, 온톨로지 정보 기반 확률 산출 단계, 및 경험 규칙 기반 확률 산출 단계 중 적어도 둘 이상의 단계에서 산출된 의미별 확률분포에 가중치 데이터베이스에서 추출된 가중치를 부여하여 최종 확률 분포를 산출하는 것을 특징으로 하는, 단어의 중의성 해소 방법.
  8. 입력 문장 내에서 중의어들을 추출하는 중의어 추출부;
    상기 중의어들의 의미에 따른 확률분포를 산출하는 확률분포 산출부; 및
    상기 중의어들의 의미를 가정하지 않은 상태에서의 중의어들의 의미별 확률분포(이하 '제1 확률분포'라 함)와, 상기 제1확률분포에 기초하여 중의성 해소 가능성이 가장 높은 중의어(이하 '제1 중의어'라 함)의 의미를 가정한 상태에서의 나머지 중의어들의 의미별 확률분포(이하 '제2 확률분포'라 함)와, 상기 제1확률분포 및 제2확률분포에 기초하여 상기 제1 중의어와 연관성이 가장 높은 중의어(이하 '제2 중의어'라 함) 및 상기 제1 중의어의 의미를 가정한 상태에서의 나머지 중의어들의 의미별 확률분포(이하 '제3 확률분포'라 함)로부터 상기 제1 중의어 또는 상기 제2 중의어의 의미를 결정하는 의미 결정부;를 포함하는 단어의 중의성 해소 시스템.
  9. 제8항에 있어서,
    상기 의미 결정부는 상기 제1 확률분포로부터 의미에 따른 확률의 편차가 가장 큰 단어를 중의성 해소 가능성이 높은 중의어(제1 중의어)로 선정하는 것을 특징으로 하는, 단어의 중의성 해소 시스템.
  10. 제8항에 있어서,
    상기 의미 결정부는 상기 제1 확률분포에서의 편차값과 상기 제2 확률분포에서의 편차값의 차이가 가장 큰 중의어를 상기 제1 중의어와 연관성이 가장 높은 중의어(제2 중의어)로 선정하는 것을 특징으로 하는, 단어의 중의성 해소 시스템.
  11. 제8항에 있어서,
    상기 의미 결정부는 상기 제1 확률분포에서의 중의어들의 편차값의 평균(이하 '제1 기준값'이라 함)과 제2 확률분포에서의 중의어들의 편차값의 평균(이하 '제2 기준값'이라 함)과 상기 제3 확률분포에서의 중의어들의 편차값의 평균(이하 '제3 기준값'이라 함)을 비교하여, 상기 제1 기준값이 가장 크면 상기 제1 중의어 및 상기 제2 중의어의 의미를 결정하지 않고, 상기 제2 기준값이 가장 크면 상기 제1 중의어의 의미를 가정한 의미로 결정하며, 상기 제3 기준값이 가장 크면 상기 제1 중의어의 의미 및 상기 제2 중의어의 의미를 가정한 의미로 결정하는 것을 특징으로 하는, 단어의 중의성 해소 시스템.
  12. 제8항에 있어서,
    상기 의미 결정부는 상기 제1 확률분포에서의 중의어들의 편차값의 평균(이하 '제1 기준값'이라 함)과 제2 확률분포에서의 중의어들의 편차값의 평균에 상기 제1 중의어가 가정한 의미일 확률을 곱한 값(이하 '제2 기준값'이라 함)과 상기 제3 확률분포에서의 중의어들의 편차값의 평균에 상기 제1 중의어 및 상기 제2 중의어가 가정한 의미일 확률을 곱한 값(이하 '제3 기준값'이라 함)을 비교하여, 상기 제1 기준값이 가장 크면 상기 제1 중의어 및 상기 제2 중의어의 의미를 결정하지 않고, 상기 제2 기준값이 가장 크면 상기 제1 중의어의 의미를 가정한 의미로 결정하며, 상기 제3 기준값이 가장 크면 상기 제1 중의어의 의미 및 상기 제2 중의어의 의미를 가정한 의미로 결정하는 것을 특징으로 하는, 단어의 중의성 해소 시스템.
  13. 제8항에 있어서,
    상기 확률분포 산출부는,
    사전 정보 기반 데이터베이스로부터 상기 중의어의 각각의 의미에 대한 사전 기반 정보들을 추출하고, 상기 각 의미에 대한 사전 기반 정보와 상기 입력 문장에서 추출한 단서 단어 정보를 비교하여 상기 중의어의 의미에 따른 확률분포를 찬술하는 사전 정보 기반 확률 산출부;
    말뭉치 정보 데이터베이스로부터 상기 중의어의 각각의 의미에 대한 말뭉치 정보를 추출하고, 상기 말뭉치 정보 및 상기 입력 문장을 비교하여 문장 유사도를 측정함으로써 상기 중의어의 의미에 따른 확률붙포를 산출하는 말뭉치 기반 확률 산출부;
    온톨로지 정보 기반 데이터베이스로부터 상기 중의어의 각각의 의미에 대한 온톨로지 개념을 추출하고, 상기 각 의미에 대한 온톨로지 개념과 상기 입력 문장에서 추출한 단서 단어 정보를 비교하여 상기 중의어의 의미에 따른 확률분포를 산출하는 온톨로지 정보 기반 확률 산출부; 및
    경험 규칙 정보 데이터베이스로부터 상기 중의어에 관련된 경험 규칙 정보들을 추출하고 상기 입력 문장에서 추출한 단서 단어 정보와 상기 추출된 경험 규칙 정보를 비교하여 상기 중의어의 의미에 따른 확률분포를 산출하는 경험 규칙 기반 확률 산출부; 중 적어도 어느 하나를 포함하는 것을 특징으로 하는, 단어의 중의성 해소 시스템.
  14. 제13항에 있어서,
    상기 확률분포 산출부는 상기 사전 정보 기반 확률 산출부, 말뭉치 기반 확률 산출부, 온톨로지 정보 기반 확률 산출부, 및 경험 규칙 기반 확률 산출부 중 적어도 둘 이상에서 산출된 의미별 확률분포에 가중치 데이터베이스에서 추출된 가중치를 부여하여 최종 확률 분포를 산출하는 것을 특징으로 하는, 단어의 중의성 해소 시스템.
  15. 입력 문장 내에서 중의어들을 추출하는 중의어 추출부;
    상기 중의어들의 의미에 따른 확률분포를 산출하는 확률분포 산출부;
    상기 중의어들의 의미를 가정하지 않은 상태에서의 중의어들의 의미별 확률분포(이하 '제1 확률분포'라 함)와, 상기 제1확률분포에 기초하여 중의성 해소 가능성이 가장 높은 중의어(이하 '제1 중의어'라 함)의 의미를 가정한 상태에서의 나머지 중의어들의 의미별 확률분포(이하 '제2 확률분포'라 함)와, 상기 제1확률분포 및 제2확률분포에 기초하여 상기 제1 중의어와 연관성이 가장 높은 중의어(이하 '제2 중의어'라 함) 및 상기 제1 중의어의 의미를 가정한 상태에서의 나머지 중의어들의 의미별 확률분포(이하 '제3 확률분포'라 함)로부터 상기 제1 중의어 또는 상기 제2 중의어의 의미를 결정하는 의미 결정부;
    상기 결정된 의미에 따라 상기 입력 문장 내에 포함된 단어들과 매칭되는 수화 동작을 수화 데이터베이스에서 추출하는 수화 번역부; 및
    상기 수화 번역부에서 추출된 수화 동작들을 조합하여 디스플레이하는 표시부;를 포함하는 수화 번역 시스템.
  16. 제15항에 있어서,
    비수지 정보를 저장하는 비수지 정보 데이터베이스; 및
    상기 비수지 정보 데이터베이스를 검색하여 상기 입력 문장의 내용과 매칭되는 비수지 정보를 추출하고, 추출된 비수지 정보를 상기 수화 동작과 결합시키는 비수지 정보 추가부;를 더 포함하는 것을 특징으로 하는, 수화 번역 시스템.
  17. 제15항에 있어서,
    상기 의미 결정부는
    상기 제1 확률분포로부터 의미에 따른 확률의 편차가 가장 큰 단어를 중의성 해소 가능성이 높은 중의어(제1 중의어)로 선정하고,
    상기 제1 확률분포에서의 편차값과 상기 제2 확률분포에서의 편차값의 차이가 가장 큰 중의어를 상기 제1 중의어와 연관성이 가장 높은 중의어(제2 중의어)로 선정하는 것을 특징으로 하는, 수화 번역 시스템.
  18. 제15항에 있어서,
    상기 의미 결정부는 상기 제1 확률분포에서의 중의어들의 편차값의 평균과 제2 확률분포에서의 중의어들의 편차값의 평균과 상기 제3 확률분포에서의 중의어들의 편차값의 평균을 비교하여 상기 제1 중의어의 의미 및 상기 제2 중의어의 의미를 가정한 의미로 결정하는 것을 특징으로 하는, 수화 번역 시스템.
KR1020110121480A 2011-11-21 2011-11-21 단어의 중의성 해소 방법, 중의성 해소 시스템, 및 이를 이용한 수화 시스템 KR101288900B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020110121480A KR101288900B1 (ko) 2011-11-21 2011-11-21 단어의 중의성 해소 방법, 중의성 해소 시스템, 및 이를 이용한 수화 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020110121480A KR101288900B1 (ko) 2011-11-21 2011-11-21 단어의 중의성 해소 방법, 중의성 해소 시스템, 및 이를 이용한 수화 시스템

Publications (2)

Publication Number Publication Date
KR20130055845A KR20130055845A (ko) 2013-05-29
KR101288900B1 true KR101288900B1 (ko) 2013-07-24

Family

ID=48664124

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020110121480A KR101288900B1 (ko) 2011-11-21 2011-11-21 단어의 중의성 해소 방법, 중의성 해소 시스템, 및 이를 이용한 수화 시스템

Country Status (1)

Country Link
KR (1) KR101288900B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102251832B1 (ko) 2016-06-16 2021-05-13 삼성전자주식회사 번역 서비스를 제공하는 전자 장치 및 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020036059A (ko) * 2000-11-07 2002-05-16 옥철영 사전 뜻풀이말에서 추출된 의미정보를 기반으로하는 의미중의성 해결 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020036059A (ko) * 2000-11-07 2002-05-16 옥철영 사전 뜻풀이말에서 추출된 의미정보를 기반으로하는 의미중의성 해결 방법

Also Published As

Publication number Publication date
KR20130055845A (ko) 2013-05-29

Similar Documents

Publication Publication Date Title
CN110427618B (zh) 对抗样本生成方法、介质、装置和计算设备
US20170185581A1 (en) Systems and methods for suggesting emoji
CN107038158B (zh) 对译语料库制作方法、装置、记录介质以及机器翻译系统
CN110727796B (zh) 面向分级读物的多尺度难度向量分类方法
US20080221863A1 (en) Search-based word segmentation method and device for language without word boundary tag
US9600469B2 (en) Method for detecting grammatical errors, error detection device for same and computer-readable recording medium having method recorded thereon
CN109977203B (zh) 语句相似度确定方法、装置、电子设备及可读存储介质
Nameh et al. A new approach to word sense disambiguation based on context similarity
CN110991180A (zh) 一种基于关键词和Word2Vec的命令识别方法
CN111832278B (zh) 文档流畅度的检测方法、装置、电子设备及介质
Sen et al. Bangla natural language processing: A comprehensive analysis of classical, machine learning, and deep learning-based methods
US20220012437A1 (en) Translating method using visually represented elements, and device therefor
KR20230061001A (ko) 문서 교정 장치 및 방법
CN107870900B (zh) 提供翻译文的方法、装置以及记录介质
RU2665261C1 (ru) Восстановление текстовых аннотаций, связанных с информационными объектами
JP6145059B2 (ja) モデル学習装置、形態素解析装置、及び方法
Khader et al. Textual entailment for Arabic language based on lexical and semantic matching
Jui et al. A machine learning-based segmentation approach for measuring similarity between sign languages
KR102251554B1 (ko) 지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 방법
Hao et al. SCESS: a WFSA-based automated simplified chinese essay scoring system with incremental latent semantic analysis
Tapaswi et al. Treebank based deep grammar acquisition and Part-Of-Speech Tagging for Sanskrit sentences
Alqrainy A morphological-syntactical analysis approach for Arabic textual tagging
CN113822052A (zh) 一种文本错误检测方法、装置、电子设备及存储介质
KR101288900B1 (ko) 단어의 중의성 해소 방법, 중의성 해소 시스템, 및 이를 이용한 수화 시스템
Sen et al. Bangla natural language processing: A comprehensive review of classical machine learning and deep learning based methods

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20160704

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20180702

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20190703

Year of fee payment: 7