KR101987592B1 - 문법 모델의 정확도 향상 방법 및 이를 수행하는 장치들 - Google Patents

문법 모델의 정확도 향상 방법 및 이를 수행하는 장치들 Download PDF

Info

Publication number
KR101987592B1
KR101987592B1 KR1020180103702A KR20180103702A KR101987592B1 KR 101987592 B1 KR101987592 B1 KR 101987592B1 KR 1020180103702 A KR1020180103702 A KR 1020180103702A KR 20180103702 A KR20180103702 A KR 20180103702A KR 101987592 B1 KR101987592 B1 KR 101987592B1
Authority
KR
South Korea
Prior art keywords
probability
solutions
length
solution
grammar model
Prior art date
Application number
KR1020180103702A
Other languages
English (en)
Inventor
김강일
Original Assignee
건국대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 건국대학교 산학협력단 filed Critical 건국대학교 산학협력단
Priority to KR1020180103702A priority Critical patent/KR101987592B1/ko
Application granted granted Critical
Publication of KR101987592B1 publication Critical patent/KR101987592B1/ko

Links

Images

Classifications

    • G06F17/274
    • G06N7/005
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Pure & Applied Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

문법 모델의 정확도 향상 방법 및 이를 수행하는 장치들이 개시된다. 일 실시예에 따른 문법 모델의 정확도 향상 방법은 제1 길이의 해의 확률값을 문법 모델에 반영하기 위해, 제2 길이의 해의 확률합을 추정하는 단계와, 상기 제2 길이의 해의 확률합에 기초하여 상기 문법 모델의 비용 함수를 설정하는 단계와, 상기 비용 함수에 기초하여 상기 문법 모델을 정규화하는 단계를 포함한다.

Description

문법 모델의 정확도 향상 방법 및 이를 수행하는 장치들{METHOD OF IMPROVING THE ACCURACY OF A GRAMMAR MODEL AND APPARATUSES PERFORMING THE SAME}
아래 실시예들은 문법 모델의 정확도 향상 방법 및 이를 수행하는 장치들에 관한 것이다.
확률 그래프에 기반한 모델은 인공 지능에서 큰 축을 이루는 모델 표현 방식 중 하나이다. 예를 들어, 확률 그래프에 기반한 모델은 확률 그래프 모델(probabilistic graphic model) 및 확률 문법 모델(probabilistic context free grammar)일 수 있다.
확률적 문법 모델은 확률적인 모델 학습 방법을 문법 표현 방식에 적용한 모델일 수 있다. 예를 들어, 문법 표현 방식은 chomsky가 제안한 형식 언어(formal language)를 표현하기 위한 방식일 수 있다.
확률적 문법 모델은 이산적인 문제들에 적용될 수 있는 범용성이 매우 높은 모델일 수 있다. 예를 들어, 확률적 문법 모델은 심볼 기반 데이터들이 나타내는 구조적 및 의미적인 특성들을 추정하기 위한 모델일 수 있다.
확률적 문법 모델은 자연 언어의 구조 및 의미를 분석하여 자연 언어 이해 번역, 질의 응답 및 요약 등 실용적인 자연 언어의 대부분의 문제를 해결할 수 있다.
실시예들은 입력 데이터에 대한 유한한 길이의 해의 확률합에 기반한 문법 모델의 비용 함수로 문법 모델을 정규화할 수 있는 기술을 제공할 수 있다.
이에, 실시예들은 입력 데이터에 대한 무한한 길이의 해를 문법 모델에 반영하여 문법 모델의 확률 분포의 제약을 제거하고, 입력 데이터에 대한 해를 더욱 정확하게 추정하여 문법 모델의 정확도 및 성능(예를 들어, 입력 데이터의 의미 추정, 예측 정확도 및 최대화 과정)을 향상시킬 수 있습니다.
또한, 실시예들은 확률적 우선 순위를 결정하는 확률적 예측 방법(예를 들어, CKY parser)에 사용 가능한 기술을 제공할 수 있다.
일 실시예에 따른 문법 모델의 정확도 향상 방법은 제1 길이의 해를 문법 모델에 반영하기 위해, 제2 길이의 해의 확률합을 추정하는 단계와, 상기 제2 길이의 해의 확률합에 기초하여 상기 문법 모델의 비용 함수를 설정하는 단계와, 상기 비용 함수에 기초하여 상기 문법 모델을 정규화하는 단계를 포함한다.
상기 제1 길이의 해는 상기 문법 모델에 입력되는 데이터에 대한 해일 수 있다.
상기 제2 길이의 해는 상기 문법 모델이 생성한 상기 데이터에 대한 해일 수 있다.
상기 제1 길이의 해는 상기 데이터에 대한 무한한 길이의 해일 수 있다.
상기 제2 길이의 해는 상기 데이터에 대한 유한한 길이의 해일 수 있다.
상기 추정하는 단계는 복수의 제2 길이의 해들 중에서 서브 트리를 생성하는 복수의 해들의 확률값을 계산하는 단계와, 상기 복수의 해들의 확률값을 합하여 상기 복수의 해들의 확률합을 계산하는 단계와, 상기 제2 길이의 해의 확률합을 상기 복수의 해들의 확률합으로 결정하는 단계를 포함할 수 있다.
상기 복수의 해들의 확률값을 계산하는 단계는 상기 복수의 해들 각각이 생성한 복수의 서브 트리들 중에서 미리 설정된 해의 길이에 대응하는 서브 트리의 생성 확률에 기초하여 상기 복수의 해들의 확률값을 계산하는 단계를 포함할 수 있다.
상기 복수의 해들의 확률합을 계산하는 단계는 상기 문법 모델의 세부 규칙들의 선택 확률을 상기 복수의 해들의 확률값에 곱하는 단계와, 상기 선택 확률을 곱한 복수의 해들의 확률값을 합하는 단계를 포함할 수 있다.
상기 추정하는 단계는 상기 복수의 해들의 확률합의 수렴치를 추정하는 단계를 더 포함할 수 있다.
상기 설정하는 단계는 상기 복수의 해의 확률합의 수렴치로 상기 제2 길이의 해의 확률값을 나누어 상기 비용 함수를 설정하는 단계를 포함할 수 있다.
일 실시예에 따른 문법 모델의 정확도 향상 장치는 제1 길이의 해를 문법 모델에 반영하기 위해, 제2 길이의 해의 확률합을 추정하는 추정부와, 상기 제2 길이의 해의 확률합에 기초하여 상기 문법 모델의 비용 함수를 설정하고, 상기 비용 함수에 기초하여 상기 문법 모델을 정규화하는 설정부를 포함한다.
상기 제1 길이의 해는 상기 문법 모델에 입력되는 데이터에 대한 해일 수 있다.
상기 제2 길이의 해는 상기 문법 모델이 생성한 상기 데이터에 대한 해일 수 있다.
상기 제1 길이의 해는 상기 데이터에 대한 무한한 길이의 해일 수 있다.
상기 제2 길이의 해는 상기 데이터에 대한 유한한 길이의 해일 수 있다.
상기 추정부는 복수의 제2 길이의 해들 중에서 서브 트리를 생성하는 복수의 해들의 확률값을 계산하고, 상기 복수의 해들의 확률값을 합하여 상기 복수의 해들의 확률합을 계산하고, 상기 제2 길이의 해의 확률합을 상기 복수의 해들의 확률합으로 결정할 수 있다.
상기 추정부는 상기 복수의 해들 각각이 생성한 복수의 서브 트리들 중에서 미리 설정된 해의 길이에 대응하는 서브 트리의 생성 확률에 기초하여 상기 복수의 해들의 확률값을 계산할 수 있다.
상기 추정부는 상기 문법 모델의 세부 규칙들의 선택 확률을 상기 복수의 해들의 확률값에 곱하고, 상기 선택 확률을 곱한 복수의 해들의 확률값을 합할 수 있다.
상기 추정부는 상기 복수의 해들의 확률합의 수렴치를 추정할 수 있다.
상기 설정부는 상기 복수의 해의 확률합의 수렴치로 상기 제2 길이의 해의 확률값을 나누어 상기 비용 함수를 설정할 수 있다.
도 1은 일 실시예에 따른 문법 모델의 정확도 향상 시스템의 개략적인 블록도를 나타낸다.
도 2는 도 1에 도시된 정확도 향상 장치의 개략적인 블록도를 나타낸다.
도 3은 일 실시예에 따른 확률합을 추정하는 제1 알고리즘을 설명하기 위한 일 예를 나타낸다.
도 4는 일 실시예에 따른 확률합의 그래디언트를 추정하는 제2 알고리즘을 설명하기 위한 일 예를 나타낸다.
도 5는 도 1에 도시된 정확도 향상 장치의 동작을 설명하기 위한 순서도를 나타낸다.
이하에서, 첨부된 도면을 참조하여 실시예들을 상세하게 설명한다. 그러나, 실시예들에는 다양한 변경이 가해질 수 있어서 특허출원의 권리 범위가 이러한 실시예들에 의해 제한되거나 한정되는 것은 아니다. 실시예들에 대한 모든 변경, 균등물 내지 대체물이 권리 범위에 포함되는 것으로 이해되어야 한다.
실시예에서 사용한 용어는 단지 설명을 목적으로 사용된 것으로, 한정하려는 의도로 해석되어서는 안된다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
제1 또는 제2등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 구성요소들은 용어들에 의해서 한정되어서는 안 된다. 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만, 예를 들어 실시예의 개념에 따른 권리 범위로부터 이탈되지 않은 채, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
또한, 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 실시예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 실시예의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
도 1은 일 실시예에 따른 문법 모델의 정확도 향상 시스템의 개략적인 블록도를 나타낸다.
도 1을 참조하면, 문법 모델의 정확도 향상 시스템(a grammar model accuracy improvement system; 10)은 정확도 향상 장치(an accuracy improving apparatus; 100)를 포함한다.
문법 모델은 입력 데이터(또는 학습 데이터)의 의미를 추정하기 위해 입력 데이터를 학습할 수 있다. 예를 들어, 문법 모델은 기 저장된 해(또는 트리)에 기초하여 입력 데이터의 의미를 나타내는 해가 생성될 확률(또는 관측될 확률)을 최대화하는 방향으로 입력 데이터를 학습할 수 있다. 이때, 입력 데이터는 단어 및 문장 등 자연 언어를 포함할 수 있다. 입력 데이터는 문법 모델의 노드들의 시퀀스에 대한 구문 분석 트리(a parse tree)를 찾는 어플리케이션들의 샘플일 수 있다. 입력 데이터는 CKY(cocke younger kasami parsing algorithm; CYK) 파싱(parsing)으로 상향식 동적 프로그래밍(bottom-up style dynamic programming)에 의해 생성될 수 있다.
문법 모델을 통해 추정되는 입력 데이터에 대한 해(또는 입력 데이터의 의미를 나타내는 해)는 유한한 길이의 해(또는 유한한 길이의 트리; 유한 트리) 뿐만 아니라 무한한 길이의 해(또는 무한한 길이의 트리; 무한 트리)일 수 있다. 예를 들어, 유한한 길이의 해는 해의 길이(또는 서브 트리의 깊이)가 무한대의 길이로 계속 길어지지 않는 해일 수 있다. 해의 길이는 다양할 수 있다
입력 데이터에 대한 해는 표 1로 나타낼 수 있다.
Figure 112018086812693-pat00001
표 1의 P는 샘플들(예를 들어, 입력 데이터에 대한 해)의 확률이고,
Figure 112018086812693-pat00002
는 무한한 샘플들(예를 들어, 입력 데이터에 대한 무한한 길이의 해)의 확률 분포(또는 생성 확률)이고,
Figure 112018086812693-pat00003
는 유한한 샘플들(예를 들어, 입력 데이터에 대한 유한한 길이의 해)의 확률 분포(또는 생성 확률)이고,
Figure 112018086812693-pat00004
는 문법 모델로써 확률적 문맥 자유 문법 모델(probabilistic context free grammar)을 나타내고,
Figure 112018086812693-pat00005
Figure 112018086812693-pat00006
에 의한 무한한 샘플들의 확률 분포이고,
Figure 112018086812693-pat00007
Figure 112018086812693-pat00008
에 의한 유한한 샘플들의 확률 분포를 나타낸다. 이때,
Figure 112018086812693-pat00009
는 유한한 길이의 해가 생성한 복수의 서브 트리들의 집합을 의미하고,
Figure 112018086812693-pat00010
는 무한한 길이의 해가 생성한 복수의 서브 트리들의 집합을 의미할 수 있다.
문법 모델은
Figure 112018086812693-pat00011
로부터
Figure 112018086812693-pat00012
를 학습할 수 있다. 하지만,
Figure 112018086812693-pat00013
의 일부
Figure 112018086812693-pat00014
Figure 112018086812693-pat00015
로 표현되지 않을 수 있다. 예를 들어, 문법 모델은 실질적으로 입력 데이터를 나타내는 해 중에서 유한한 길이의 해만을 생성(또는 관측)하여 유한한 길이의 해의 확률 분포만을 표현할 수 있다. 즉, 문법 모델은 유한한 길이의 해의 환률 분포만을 표현하고, 무한한 길이의 해의 확률 분포를 표현할 수 없다. 무한한 길이의 해의 확률값(또는 생성 확률)은 0일 수 있다.
문법 모델에 의해 표현되지 않는 제한된 표현은 표 2로 나타낼 수 있다.
Figure 112018086812693-pat00016
표 2의 S는 문법 모델의 루트 노드를 나타낸다.
표 2는 유도 규칙일 수 있다.
S라는 심볼이 주어졌을 경우, 표 2는 S가 SS 또는 X의 시퀀스(sequence)로 대체될 수 있음을 보여준다. 이때, p는 S가 SS로 대체될 확률이고, 1-p는 S가 X로 대체될 확률이다.
S를 확장하는 경우, SS 또는 X의 시퀀스는 p 및 1-p의 거듭제곱으로 나타낼 수 있다.
p가 0.5 이상인 경우, 문법 모델의 비말단(nonterminating) 노드(또는 비말단 트리)가 0 이상의 확률 질량을 할당받는 것은 부적절할 수 있다. 이때,
Figure 112018086812693-pat00017
Figure 112018086812693-pat00018
의 확률이고,
Figure 112018086812693-pat00019
Figure 112018086812693-pat00020
의 확률일 수 있다.
Figure 112018086812693-pat00021
Figure 112018086812693-pat00022
간의 비율은
Figure 112018086812693-pat00023
일 수 있다.
즉, 표 2에 따라 문법 모델은 입력 데이터에 대한 해를 특정 확률(p)에 따라 표현하여 p가 0.5 이상인 노드에 대한 분포를 표현할 수 없다.
상술한 바와 같이 문법 모델이 입력 데이터에 대한 해의 확률 분포(또는 트리)를 모두 표현하는데 제약이 있기에, 문법 모델의 추정 정확도는 감소될 수 있다
문법 모델의 세부 규칙이 PCFG-LA(probabilistic context free grammar with latent annotation)와 같은 확률로 학습되는 경우, 문법 모델의 추정 정화도의 감소는 완화될 수 있다. 무한한 길이의 해의 확률을 표현하기 위한 문법 모델의 세부 규칙은 무한한 길이의 해에 대한 확률 질량을 가져야한다. 하지만, 문법 모델의 세부 규칙에 대한 학습은 문법 모델의 노드에 무한한 길이의 해에 대한 확률 질량을 보장하지 않는다. 이에, 문법 모델의 세부 규칙에 대한 학습은 입력 데이터에 대한 해의 추정 정확도에 대한 위험을 초래할 수 있다.
문법 모델이 표현하지 못하는 무한한 길이의 해를 문법 모델에 반영하여 입력 데이터에 대한 해의 확률(또는 생성 확률)을 최대화하기 위해서, 정확도 향상 장치(100)는 유한한 길이의 해의 확률합에 기반한 문법 모델의 비용 함수로 문법 모델을 정규화할 수 있다.
문법 모델을 통한 입력 데이터에 대한 해의 확률(또는 생성 확률)을 최대화하는 최대 우도 함수는 수학식 1로 나타낼 수 있다.
Figure 112018086812693-pat00024
수학식 1의
Figure 112018086812693-pat00025
는 문법 모델의 파라미터 셋이고,
Figure 112018086812693-pat00026
는 입력 데이터이고,
Figure 112018086812693-pat00027
는 문법 모델이 입력 데이터의 해를 생성할 확률값이고,
Figure 112018086812693-pat00028
Figure 112018086812693-pat00029
에 대한 최대 우도 함수이고,
Figure 112018086812693-pat00030
는 문법 모델을 통해
Figure 112018086812693-pat00031
가 생성될 확률값이고,
Figure 112018086812693-pat00032
는 문법 모델을 통해
Figure 112018086812693-pat00033
가 생성될 확률값이고,
Figure 112018086812693-pat00034
은 문법 모델을 통해
Figure 112018086812693-pat00035
Figure 112018086812693-pat00036
가 생성될 확률값을 나타낸다.
상술한 바와 같이 문법 모델이 무한한 길이의 해를 생성할 수 없기에,
Figure 112018086812693-pat00037
는 0일 수 있다.
Figure 112018086812693-pat00038
의 생성 확률값(또는 확률 질량)이 1 보다 작은 경우, 문법 모델의
Figure 112018086812693-pat00039
에 대한 최대화 목표는
Figure 112018086812693-pat00040
의 일부를 증가시키고,
Figure 112018086812693-pat00041
를 표현하기 위해
Figure 112018086812693-pat00042
의 정확도를 높이는 것일 수 있다.
Figure 112018086812693-pat00043
을 학습하고, 문법 모델의 잘못된 로컬 최적해를 최적화하기 위해,
Figure 112018086812693-pat00044
Figure 112018086812693-pat00045
에 의해 재 스케일링되어야 한다.
수학식 1은 재 스케일링되어 수학식 2로 나타낼 수 있다.
Figure 112018086812693-pat00046
수학식 2는 기대 최대화 알고리즘(expectation-maximization algorithm) 및 PCFG-LA에 적용되고, 크로스 엔트로피 최소화(crossentropy minization)에서 유사하게 적용될 수 있다.
수학식 2는 수학식 3으로 나타낼 수 있다.
Figure 112018086812693-pat00047
수학식 3의
Figure 112018086812693-pat00048
는 latent annotation set으로 관측된 tree의 비말단 트리에 대한 annotation의 지정값들의 set이고,
Figure 112018086812693-pat00049
은 S가 O내에서 여러 번 나타나서 S가 S1, S2, S3 등의 annotation이 지정되는 경우의 O에 대한 관측 확률이고, KL은 kullback leibler divergence로 PllQ와 같은 방식으로 표기하여 모든 element들에 대해 p log p/q를 더 한값을 나타낸다.
예를 들어,
Figure 112018086812693-pat00050
Figure 112018086812693-pat00051
일 수 있다.
즉, 정확도 향상 장치(100)는 유한한 길이의 해의 확률합에 기반한 문법 모델의 비용 함수로 문법 모델을 정규화함으로써, 입력 데이터에 대한 무한한 길이의 해를 문법 모델에 반영하여 문법 모델의 확률 분포의 제약을 제거하고, 입력 데이터에 대한 해를 더욱 정확하게 추정하여 문법 모델의 정확도 및 성능(예를 들어, 입력 데이터의 의미 추정, 예측 정확도 및 최대화 과정)을 향상시키고, 확률적 우선 순위를 결정하는 확률적 예측 방법(예를 들어, CKY parser)에 사용 가능할 수 있다.
도 2는 도 1에 도시된 정확도 향상 장치의 개략적인 블록도를 나타내고, 도 3은 일 실시예에 따른 확률합을 추정하는 제1 알고리즘을 설명하기 위한 일 예를 나타내고, 도 4는 일 실시예에 따른 확률합의 그래디언트를 추정하는 제2 알고리즘을 설명하기 위한 일 예를 나타낸다.
도 2 내지 도 4를 참조하면, 정확도 향상 장치(100)는 추정부(an estimator; 110) 및 설정부(a setter; 130)를 포함할 수 있다.
추정부(110)는 입력 데이터에 대한 무한한 길이의 해를 문법 모델에 반영하기 위해, 문법 모델이 생성한 입력 데이터에 대한 유한한 길이의 해의 확률합을 추정할 수 있다. 이때, 유한한 길이의 해의 확률합은 문법 모델이 생성한 입력 데이터에 대한 복수의 유한한 길이의 해들의 확률값(또는 생성 확률, 관측 확률)의 합일 수 있다. 문법 모델은 확률적 문법 모델로 확률적 문맥 자유 문법 모델일 수 있다. 확률적 문맥 자유 문법 모델은 자연 언어를 처리하기 위한 파싱 모델로 genetic programming 등의 확률 모델로 사용될 수 있다.
예를 들어, 추정부(110)는 복수의 유한한 길이의 해들 중에서 서브 트리를 생성하는 복수의 해들의 확률값(또는 생성 확률, 관측 확률)을 계산할 수 있다. 이때, 복수의 해들은 유한한 길이의 해들 중 서브 트리 구조를 완성할 수 있는 해일 수 있다. 서브 트리 구조는 노드를 포함할 수 있다.
먼저, 추정부(110)는 복수의 유한한 길이의 해들 중에서 서브 트리를 생성하는 복수의 해들을 획득할 수 있다.
이후에, 추정부(110)는 복수의 해들 각각이 생성한 복수의 서브 트리들 중에서 미리 설정된 해의 길이(또는 미리 설정된 서브 트리의 깊이)에 대응하는 서브 트리의 생성 확률에 기초하여 복수의 해들의 확률값을 계산할 수 있다. 이때, 해의 길이는 노드간의 길이(또는 깊이)로 루트 노드(root node)부터 말단 노드(terminal node)까지의 길이(또는 깊이)일 수 있다. 노드는 서브 트리를 구성하는 기본 원소일 수 있다. 루트 노드는 시작 노드이고, 말단 노드는 종료 노드일 수 있다.
t 타임 스텝에서의 복수의 해들의 확률값을 계산하는 경우, 미리 설정된 해의 길이는 복수의 해들 각각의 루트 노드부터 t-1 타임 스텝에서 생성된 말단 노드까지의 길이일 수 있다. 미리 설정된 해의 길이에 대응하는 서브 트리는 복수의 서브 트리들 중에서 t-1 타임 스텝에서 생성된 트리일 수 있다. 이때, t-1 타임 스텝에서 생성된 트리는 말단 노드로 t-1 타임 스텝에서 종료되는 노드일 수 있다.
문법 모델의 정확도가 향상되어 t+1 타임 스텝에서 복수의 해들의 확률값을 계산하는 경우, 미리 설정된 해의 길이는 t 타임 스텝에서 반영된 길이보다 증가할 수 있다. 예를 들어, t+1 타임 스텝에서 미리 설정된 해의 길이는 복수의 해들 각각의 루트 노드부터 t 타임 스텝에서 생성된 말단 노드까지의 길이일 수 있다.
추정부(110)는 복수의 해들의 확률값을 합하여 복수의 해들의 확률합을 계산할 수 있다. 예를 들어, 추정부(110)는 문법 모델의 세부 규칙들의 선택 확률을 복수의 해들의 확률값에 곱할 수 있다. 추정부(110)는 문법 모델의 세부 규칙들의 선택 확률을 곱한 복수의 해들의 확률값을 합하여 복수의 해들의 확률합을 계산할 수 있다. 이때, 문법 모델의 세부 규칙들은 문법 모델을 구성하는 규칙들일 수 있다.
복수의 해들의 확률합은 수학식 4로 나타낼 수 있다.
Figure 112018086812693-pat00052
수학식 4의 r은 문법 모델의 세부 규칙이고,
Figure 112018086812693-pat00053
는 문법 모델의 세부 규칙의 선택 확률이고, t는 타임 스텝이고,
Figure 112018086812693-pat00054
는 복수의 해들의 확률합으로 t 타임 스텝에서 루트 노드 S의 확률값이고,
Figure 112018086812693-pat00055
은 t-1 타임 스텝에서 복수의 해들 중에서 루트 노드가
Figure 112018086812693-pat00056
인 해의 확률값이고,
Figure 112018086812693-pat00057
은 t-1 타임 스텝에서 복수의 해들 중에서 루트 노드가
Figure 112018086812693-pat00058
인 해의 확률값을 나타낸다.
수학식 4는 수학식 5로 나타낼 수 있다.
Figure 112018086812693-pat00059
수학식 5의 Z는 복수의 해들의 확률합이고, d는
Figure 112018086812693-pat00060
에 포함된 하나의 서브 트리이고,
Figure 112018086812693-pat00061
는 문법 모델을 통해 d가 생성될 확률값을 나타낸다.
추정부(110)는 복수의 해들의 확률합의 수렴을 보장하는 상수에 기초하여 복수의 해들의 확률합의 수렴치를 추정할 수 있다. 이때, 상수는 실험을 통해 근사 에러가 충분히 작아지도록 미리 설정될 수 있다.
근사화된 복수의 해들의 확률합은 수학식 6으로 나타낼 수 있다.
Figure 112018086812693-pat00062
수학식 6의 k는 복수의 해들의 확률합의 수렴을 보장하는 상수를 나타낸다.
상술한 복수의 해들의 확률합은 도 3과 같은 제1 알고리즘을 통해 추정될 수 있다. 이때, 제1 알고리즘은 dynamic programing으로 구현되어 미리 설정된 해의 길이를 늘려가면 복수의 해들의 확률합이 근사화된 수렴치를 추정할 수 있다.
추정부(130)는 유한한 길이의 해의 확률합을 복수의 해들의 확률합의 수렴치로 결정할 수 있다.
설정부(130)는 유한한 길이의 해의 확률합에 기초하여 문법 모델의 비용 함수를 설정할 수 있다. 예를 들어, 설정부(130)는 복수의 해들의 확률합의 수렴치로 유한한 길이의 해의 확률값을 나누어 문법 모델의 비용 함수를 설정할 수 있다. 이때, 유한한 길이의 해의 확률값은 충분히 크개 증가된 타임 스텝의 최대값 보다 작은 깊이의 모든 복수의 tree들의 생성확률을 더한 값의 수렴치일 수 있다. 문법 모델의 비용 함수는 문법 모델이 입력 데이터에 대한 해를 생성할 확률값을 최대화하는 과정에서 설정될 수 있다. 최대화하는 과정은 그래디언드 디센트(gradient descent)와 같은 최적화 방법(또는 비용 함수를 최적화하는 방법)을 통해 수행될 수 있다.
설정부(330)는 비용 함수에 기초하여 문법 모델을 정규화할 수 있다. 예를 들어, 설정부(330)는 최적화 방법을 통해 비용 함수가 최적화되는 방향으로 업데이트를 수행하여 문법 모델을 정규화할 수 있다. 이에, 정규화된 문법 모델은 정규화 전 문법 모델보다 향상된 정확도를 가질 수 있다.
문법 모델의 비용 함수는 수학식 7로 나타낼 수 있다.
Figure 112018086812693-pat00063
수학식 7의 E는 비용 함수를 나타낸다.
수학식 7의 비용 함수는 그래디언트 디센트와 같은 최적화 방법을 통해 수학식 8로 나타낼 수 있다.
Figure 112018086812693-pat00064
수학식 8의
Figure 112018086812693-pat00065
는 비용 함수 E의 그래디언트(gradient)를 나타낸다.
수학식 8의
Figure 112018086812693-pat00066
는 인접한 깊이의 서브 트리들간의 관계를 통해 수학식 9로 나타낼 수 있다.
Figure 112018086812693-pat00067
복수의 해들의 확률합의 수렴치가 복잡한 함수 형태이고, 매 학습시 마다 변경되기에,
Figure 112018086812693-pat00068
는 도 4와 같은 제2 알고리즘을 통해 획득될 수 있다. 이때, 제2 알고리즘은 최대화 알고리즘 및 gradient-descent 알고리즘과 유사할 수 있다. 제2 알고리즘은 dynamic programing으로 구현되어 제1 알고리즘과 유사한 방식으로 근사화된 복수의 해들의 확률합에 따른 문법 모델의 파라미터에 대한 그래디언트를 추정할 수 있다.
도 5는 도 1에 도시된 정확도 향상 장치의 동작을 설명하기 위한 순서도를 나타낸다.
도 5를 참조하면, 추정부(110)는 복수의 유한한 길이의 해들 중에서 서브 트리를 생성하는 복수의 해들의 확률합의 수렴치를 추정할 수 있다(S110).
설정부(130)는 복수의 해들의 확률합의 수렴치로 유한한 길이의 해의 확률값을 나누어 문법 모델의 비용 함수를 설정할 수 있다(S130).
설정부(130)는 비용 함수에 기초하여 문법 모델을 정규화할 수 있다(S150).
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 청구범위의 범위에 속한다.

Claims (14)

  1. 문법 모델의 정확도 향상 장치의 문법 모델의 정확도 향상 방법에 있어서,
    상기 장치가 제1 길이의 해를 문법 모델에 반영하기 위해, 제2 길이의 해의 확률합을 추정하는 단계;
    상기 장치가 상기 제2 길이의 해의 확률합에 기초하여 상기 문법 모델의 비용 함수를 설정하는 단계; 및
    상기 장치가 상기 비용 함수에 기초하여 상기 문법 모델을 정규화하는 단계
    를 포함하고,
    상기 제1 길이의 해는 상기 문법 모델에 입력되는 데이터에 대한 해이고,
    상기 제2 길이의 해는 상기 문법 모델이 생성한 상기 데이터에 대한 해이고,
    상기 제2 길이의 해의 확률합은 복수의 제2 길이의 해들 중에서 서브 트리를 생성하는 복수의 해들의 확률값을 합한 확률합인 문법 모델의 정확도 향상 방법.
  2. 제1항에 있어서,
    상기 제1 길이의 해는 상기 데이터에 대한 무한한 길이의 해이고,
    상기 제2 길이의 해는 상기 데이터에 대한 유한한 길이의 해인 문법 모델의 정확도 향상 방법.
  3. 제1항에 있어서,
    상기 추정하는 단계는,
    상기 복수의 해들의 확률값을 계산하는 단계;
    상기 복수의 해들의 확률값을 합하여 상기 복수의 해들의 확률합을 계산하는 단계; 및
    상기 제2 길이의 해의 확률합을 상기 복수의 해들의 확률합으로 결정하는 단계
    를 포함하는 문법 모델의 정확도 향상 방법.
  4. 제3항에 있어서,
    상기 복수의 해들의 확률값을 계산하는 단계는,
    상기 복수의 해들 각각이 생성한 복수의 서브 트리들 중에서 미리 설정된 해의 길이에 대응하는 서브 트리의 생성 확률에 기초하여 상기 복수의 해들의 확률값을 계산하는 단계
    를 포함하는 문법 모델의 정확도 향상 방법.
  5. 제3항에 있어서,
    상기 복수의 해들의 확률합을 계산하는 단계는,
    상기 문법 모델의 세부 규칙들의 선택 확률을 상기 복수의 해들의 확률값에 곱하는 단계; 및
    상기 선택 확률을 곱한 복수의 해들의 확률값을 합하는 단계
    를 포함하는 문법 모델의 정확도 향상 방법.
  6. 제3항에 있어서,
    상기 추정하는 단계는,
    상기 복수의 해들의 확률합의 수렴치를 추정하는 단계
    를 더 포함하는 문법 모델의 정확도 향상 방법.
  7. 제6항에 있어서,
    상기 설정하는 단계는,
    상기 복수의 해의 확률합의 수렴치로 상기 제2 길이의 해의 확률값을 나누어 상기 비용 함수를 설정하는 단계
    를 포함하는 문법 모델의 정확도 향상 방법.
  8. 제1 길이의 해를 문법 모델에 반영하기 위해, 제2 길이의 해의 확률합을 추정하는 추정부; 및
    상기 제2 길이의 해의 확률합에 기초하여 상기 문법 모델의 비용 함수를 설정하고, 상기 비용 함수에 기초하여 상기 문법 모델을 정규화하는 설정부
    를 포함하고,
    상기 제1 길이의 해는 상기 문법 모델에 입력되는 데이터에 대한 해이고,
    상기 제2 길이의 해는 상기 문법 모델이 생성한 상기 데이터에 대한 해이고,
    상기 제2 길이의 해의 확률합은 복수의 제2 길이의 해들 중에서 서브 트리를 생성하는 복수의 해들의 확률값을 합한 확률합인 문법 모델의 정확도 향상 장치.
  9. 제8항에 있어서,
    상기 제1 길이의 해는 상기 데이터에 대한 무한한 길이의 해이고,
    상기 제2 길이의 해는 상기 데이터에 대한 유한한 길이의 해인 문법 모델의 정확도 향상 장치.
  10. 제8항에 있어서,
    상기 추정부는,
    상기 복수의 해들의 확률값을 계산하고, 상기 복수의 해들의 확률값을 합하여 상기 복수의 해들의 확률합을 계산하고, 상기 제2 길이의 해의 확률합을 상기 복수의 해들의 확률합으로 결정하는 문법 모델의 정확도 향상 장치.
  11. 제10항에 있어서,
    상기 추정부는,
    상기 복수의 해들 각각이 생성한 복수의 서브 트리들 중에서 미리 설정된 해의 길이에 대응하는 서브 트리의 생성 확률에 기초하여 상기 복수의 해들의 확률값을 계산하는 문법 모델의 정확도 향상 장치.
  12. 제10항에 있어서,
    상기 추정부는,
    상기 문법 모델의 세부 규칙들의 선택 확률을 상기 복수의 해들의 확률값에 곱하고, 상기 선택 확률을 곱한 복수의 해들의 확률값을 합하는 문법 모델의 정확도 향상 장치.
  13. 제10항에 있어서,
    상기 추정부는,
    상기 복수의 해들의 확률합의 수렴치를 추정하는 문법 모델의 정확도 향상 장치.
  14. 제13항에 있어서,
    상기 설정부는,
    상기 복수의 해의 확률합의 수렴치로 상기 제2 길이의 해의 확률값을 나누어 상기 비용 함수를 설정하는 문법 모델의 정확도 향상 장치.
KR1020180103702A 2018-08-31 2018-08-31 문법 모델의 정확도 향상 방법 및 이를 수행하는 장치들 KR101987592B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180103702A KR101987592B1 (ko) 2018-08-31 2018-08-31 문법 모델의 정확도 향상 방법 및 이를 수행하는 장치들

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180103702A KR101987592B1 (ko) 2018-08-31 2018-08-31 문법 모델의 정확도 향상 방법 및 이를 수행하는 장치들

Publications (1)

Publication Number Publication Date
KR101987592B1 true KR101987592B1 (ko) 2019-06-10

Family

ID=66848255

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180103702A KR101987592B1 (ko) 2018-08-31 2018-08-31 문법 모델의 정확도 향상 방법 및 이를 수행하는 장치들

Country Status (1)

Country Link
KR (1) KR101987592B1 (ko)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160008480A (ko) * 2014-07-14 2016-01-22 삼성전자주식회사 명칭을 강인하게 태깅하는 방법 및 시스템
KR20160019942A (ko) * 2013-07-05 2016-02-22 리소프트데브, 인코포레이티드 인공지능형 에이전트 또는 시스템을 작성 및 구현하는 시스템 및 방법
US20170011029A1 (en) * 2013-05-09 2017-01-12 Moodwire, Inc. Hybrid human machine learning system and method
US9934777B1 (en) * 2016-07-01 2018-04-03 Amazon Technologies, Inc. Customized speech processing language models

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170011029A1 (en) * 2013-05-09 2017-01-12 Moodwire, Inc. Hybrid human machine learning system and method
KR20160019942A (ko) * 2013-07-05 2016-02-22 리소프트데브, 인코포레이티드 인공지능형 에이전트 또는 시스템을 작성 및 구현하는 시스템 및 방법
KR20160008480A (ko) * 2014-07-14 2016-01-22 삼성전자주식회사 명칭을 강인하게 태깅하는 방법 및 시스템
US9934777B1 (en) * 2016-07-01 2018-04-03 Amazon Technologies, Inc. Customized speech processing language models

Similar Documents

Publication Publication Date Title
US11816442B2 (en) Multi-turn dialogue response generation with autoregressive transformer models
JP4532863B2 (ja) 2言語コーパスを整列させるための方法および装置
US20220083868A1 (en) Neural network training method and apparatus, and electronic device
US11276394B2 (en) Method for re-aligning corpus and improving the consistency
KR101120773B1 (ko) 삭제된 보간 n-그램 언어 모델의 arpa 표준 형식 표현
US11893060B2 (en) Latent question reformulation and information accumulation for multi-hop machine reading
CN111859991B (zh) 语言翻译处理模型训练方法和语言翻译处理方法
CN109241286B (zh) 用于生成文本的方法和装置
CN110210032A (zh) 文本处理方法及装置
JP7138467B2 (ja) 訳出完了判定装置、翻訳装置、訳出完了判定モデル学習装置、およびプログラム
CN111462751A (zh) 解码语音数据的方法、装置、计算机设备和存储介质
JP2022526876A (ja) モデルをトレーニングするためのトレーニング・データ修正
US11842290B2 (en) Using functions to annotate a syntax tree with real data used to generate an answer to a question
JP7175474B2 (ja) 文生成学習方法、文生成学習装置及びプログラム
KR101987592B1 (ko) 문법 모델의 정확도 향상 방법 및 이를 수행하는 장치들
CN111400484B (zh) 一种关键词提取方法和系统
CN113361574A (zh) 数据处理模型的训练方法、装置、电子设备及存储介质
US20230206084A1 (en) Method, device, and program product for managing knowledge graphs
CN115879480A (zh) 语义约束机器翻译方法、装置、电子设备及存储介质
CN115859999A (zh) 意图识别方法、装置、电子设备及存储介质
US20220215185A1 (en) Method and system for facilitating sequence-to-sequence translation
CN113378561A (zh) 词语预测模板生成方法及装置
KR102635503B1 (ko) 마르코프 체인 몬테 카를로 샘플링의 초기값 결정 방법
JP7557438B2 (ja) 自然言語処理モデル取得装置、自然言語処理装置、自然言語処理モデル取得方法、自然言語処理方法及びプログラム
CN115563933B (zh) 词编码方法、装置、存储介质与电子设备

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant