KR101417757B1 - 하이퍼그래프 언어모델 학습 및 적용 장치 및 그 학습 및 적용 방법, 및 하이퍼그래프 언어모델 갱신장치 및 그 갱신방법 - Google Patents

하이퍼그래프 언어모델 학습 및 적용 장치 및 그 학습 및 적용 방법, 및 하이퍼그래프 언어모델 갱신장치 및 그 갱신방법 Download PDF

Info

Publication number
KR101417757B1
KR101417757B1 KR1020090104592A KR20090104592A KR101417757B1 KR 101417757 B1 KR101417757 B1 KR 101417757B1 KR 1020090104592 A KR1020090104592 A KR 1020090104592A KR 20090104592 A KR20090104592 A KR 20090104592A KR 101417757 B1 KR101417757 B1 KR 101417757B1
Authority
KR
South Korea
Prior art keywords
hypergraph
weight
language model
hyper edge
unit
Prior art date
Application number
KR1020090104592A
Other languages
English (en)
Other versions
KR20110047818A (ko
Inventor
황영숙
정예원
장병탁
장하영
박찬훈
김선
고영길
Original Assignee
에스케이플래닛 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에스케이플래닛 주식회사 filed Critical 에스케이플래닛 주식회사
Priority to KR1020090104592A priority Critical patent/KR101417757B1/ko
Publication of KR20110047818A publication Critical patent/KR20110047818A/ko
Application granted granted Critical
Publication of KR101417757B1 publication Critical patent/KR101417757B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Pure & Applied Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Algebra (AREA)
  • Operations Research (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 하이퍼그래프 언어모델 학습 및 적용 장치 및 그 학습 및 적용 방법, 및 하이퍼그래프 언어모델 갱신장치 및 그 갱신방법에 관한 것으로서, 본 발명의 일 실시예에 다른 하이퍼그래프 언어모델 학습 및 적용 장치는, 코퍼스 데이터를 저장하는 데이터베이스부; 데이터베이스부에 저장된 코퍼스 데이터에 기초하여 하이퍼에지를 생성하는 하이퍼에지 생성부; 하이퍼에지 생성부에 의해 생성된 하이퍼에지에 대응하는 가중치를 계산하는 가중치 계산부; 및 하이퍼에지 생성부에 의해 생성된 하이퍼에지 및 가중치 계산부에 의해 계산된 가중치에 기초하여 하이퍼그래프를 생성하는 하이퍼그래프 생성부를 포함하는 것을 특징으로 한다. 본 발명에 의하면, 사용자의 관심영역의 변화에 따라서 해당 관심영역의 데이터를 이용한 언어모델이 업데이트된 환경에서 시간에 따른 언어의 변화를 즉시 반영하여 언어모델을 학습 및 적용할 수 있게 되며, 또한 사용자의 관심영역의 변화에 따라서 해당 관심영역의 데이터를 이용한 언어모델을 업데이트 하며 급격하게 변화하는 인터넷 언어 환경에서 시간에 따른 언어의 변화를 즉시 반영할 수 있게 된다.
하이퍼그래프, 하이퍼에지, 코퍼스, 언어모델, 가중치

Description

하이퍼그래프 언어모델 학습 및 적용 장치 및 그 학습 및 적용 방법, 및 하이퍼그래프 언어모델 갱신장치 및 그 갱신방법{Apparatus and method for learning and applying hypergraph language model, and apparatus and method for updating hypergraph language model}
본 발명의 실시예는 하이퍼그래프 언어모델 학습 및 적용 장치 및 그 학습 및 적용 방법, 및 하이퍼그래프 언어모델 갱신장치 및 그 갱신방법에 관한 것이다. 더욱 상세하게는, 사용자의 관심영역의 변화에 따라서 해당 관심영역의 데이터를 이용한 언어모델이 업데이트된 환경에서 시간에 따른 언어의 변화를 즉시 반영하여 언어모델을 학습 및 적용할 수 있게 되며, 또한 사용자의 관심영역의 변화에 따라서 해당 관심영역의 데이터를 이용한 언어모델을 업데이트하며 급격하게 변화하는 인터넷 언어 환경에서 시간에 따른 언어의 변화를 즉시 반영할 수 있는 하이퍼그래프 언어모델 학습 및 적용 장치 및 그 학습 및 적용 방법, 및 하이퍼그래프 언어모델 갱신장치 및 그 갱신방법에 관한 것이다.
언어모델(LM: Language Model)은 자연어 안에서 문법, 구문, 단어 등에 대한 어떤 규칙성을 찾아내고 그 규칙성을 이용하기 위한 것이다. 이런 방법을 통해 얻 어진 언어모델은 오랫동안 음성 인식이나 기계 번역, 문자 인식, 철자 교정 등 다양한 응용분야에서 시스템의 정확도를 높이고 수행 시간을 줄이는 데 유용한 방법으로 각광을 받아왔다.
언어모델은 크게 지식 기반 모델(Knowledge-based Model)과 통계적 모델(Statistical Model)로 나눌 수 있다. 지식 기반 모델은 정규 문법(RG: Regular Grammar)이나 문맥 자유 문법(CFG: Context-Free Grammar)을 만들고, 이러한 문법 구조에 어긋난 구조를 탐색 공간에서 제거함으로써 탐색 범위를 줄이고 인식률을 높이는 방식이다. 그러나 지식 기반 모델은 문법 구조를 만들기가 까다롭고 대용량의 어휘를 수용하기 어려울 뿐만 아니라 언어의 비문법성에 의해 규칙정의가 어렵기 때문에 범용 언어모델이나 새로운 영역에 대한 언어모델을 구성할 때 많은 시간과 노력을 요구하게 된다. 따라서 이 모델링 방법은 주로 특정적이고 협소한 분야의 자연언어처리 분야에서 일부 사용되고 있을 뿐 대규모의 데이터를 처리해야 하는 분야에서는 적용하기 어려운 접근법이다.
이에 반해 통계적 모델은 대량의 코퍼스(Corpus)에서 언어 규칙을 확률로 나타내고 확률값을 통해서 탐색 영역을 제한하는 방법이다. 그래서 통계적 언어모델은 음성인식에서 정확성뿐만 아니라 탐색 공간을 급격히 줄이는 효과를 보여준다. 통계적 언어모델의 목적은 주어진 인식영역에 맞는 단어열 W의 확률을 예측하는 것으로, 단어열 s는 w1, w2, …, wi으로 이루어진 단어열이라고 가정하면 단어열 s의 확률 P(s)는 수학식 1과 같다.
Figure 112009067022370-pat00001
그러나, 일반적인 통계적 언어모델은 어떤 단어열에서 i번째 단어 wi가 나타날 확률을 구하기 위해 w1에서 wi -1까지 (i-1)개의 단어열이 나타날 확률을 구해야 하는 번거로움이 있다. 그래서 단어의 확률은 이전 단어에 의존적이라는 Markov 가정에 의해 i번째 단어가 나타날 확률을 구하기 위해 이전의 N-1개의 단어의 확률만을 적용하는 N-gram 모델을 통상적으로 사용한다. 특정한 문장 s에 대한 N-gram 모델은 수학식 2와 같이 정의된다.
Figure 112009067022370-pat00002
wi는 문장에서 i번째 단어이고 m은 연관되어 사용된 단어 수를 정의한다. bigram 모델(m = 2)은 앞의 단어에 이어 뒤의 단어가 나타날 확률을 사용해서 측정한다. 반면, unigram 모델(m = 1)은 오직 개별 단어의 확률로 측정한다. 음성인식이나 기계번역과 같은 응용분야에서는 단어 순서가 중요하기 때문에, 일반적으로 대용량의 학습데이터가 가능하다면 trigram 모델(m = 3)이 사용되고, 소량의 학습데이터가 가능하다면 bigram 모델이 사용되어 왔다.
N-gram 모델의 장점은 대규모의 코퍼스에 대해서 학습이 쉽고 효율적일 뿐 아니라, 실제 적용에 있어서도 trigram 모델 정도의 사용만으로도 좋은 성능을 보 인다는 것이다. 그러나, 이러한 N-gram 모델은 서로 멀리 떨어져 있는 단어간의 의존성을 나타낼 수 없다는 단점을 가지고 있다. 이러한 단점은 n의 크기를 증가시킴으로써 어느 정도 극복이 가능하지만, n의 크기가 증가함에 따라서 계산에 필요한 자원이 증가하는 문제 이외에도 학습에 필요한 코퍼스의 크기가 급격하게 증가해야 한다는 문제점이 있다.
이외에도 통계적 언어모델에서는 어떤 도메인의 코퍼스가 사용되었는가에 따라서 언어모델의 성능에 큰 차이가 나타나게 되는데, 이를 해결하기 위해서 다양한 도메인의 코퍼스에 대해서 모델을 만들어서 선형결합을 하여 사용하는 방법이 제시되기도 하였다.
선행연구 "N-gram 네트워크를 이용하는 한국어 연속음성인식의 언어모델 적응장치 및 그 방법(한국특허 10-704508호)"에서는 음성인식의 성능을 향상시키기 위해 일반 도메인으로부터 학습한 기본 언어모델을 기본적으로 사용하고, 대규모 텍스트 코퍼스 데이터베이스에 저장된 문서간 유사도를 이용하여 N-gram 네트워크를 생성한 뒤, 기본 언어모델을 사용한 음성인식의 중간결과를 추출하여 음향학적 안정단어를 검출한 후, 현재 인식중인 음성의 영역 정보를 추출하고, 이 안정 단어가 포함한 N-gram을 추출하여 N-gram 네트워크 데이터베이스에서 검색한 후, 검색된 N-gram을 이용하여 실시간으로 언어모델을 갱신하여 이 갱신된 언어모델을 음성인식에 적용하는 기법을 제시하였다. 그러나 이 기법의 경우, 실시간 적으로 변화하는 언어 현상을 언어모델에 적시에 반영하기가 어려우며, 또한 결합에 사용되는 파라미터를 결정하기가 어렵다는 문제점이 있다.
또한, 선행연구 "Language model adaptation using semantic supervision(미국특허 7478038호)"에서는 도메인 관련 의미정보를 이용하여 관리되는 클래스 기반 언어모델 적응을 통해서 테스트 데이터의 어휘 범주를 벗어난 단어들 및 언어 스타일의 상이함에서 비롯되는 학습 또는 테스트 데이터와 실제 영역 또는 도메인 내 데이터 간의 미스매치를 개선할 수 있는 방법을 다루고 있다. 이 방법은 한번 설정된 관심영역이 변화하지 않는다는 가정하에서 전체 데이터 중에서 지정된 관심영역의 언어모델의 구축을 위해서 관심영역과 관련된 데이터만을 선정하고 이를 기반으로 언어모델을 구축하는 방법으로, 동일한 도메인이라 할지라도 빠르게 변화하는 인터넷 언어현상에 대해 언어모델에서 적절하게 다룰 수 있는 방법을 제시하지 못하고 있다.
즉, 선행연구들의 경우, 일반적인 통계적 언어모델에서는 고정된 코퍼스를 가정하고 모델을 만들기 때문에, 코퍼스의 크기가 증가하는 경우에는 모델을 완전히 새로 만들어야 한다는 문제점이 있다. 이와 같은 문제점은 사용자의 관심영역의 변화에 따라서 코퍼스와 언어모델이 동적으로 변화할 필요가 있는 대부분의 응용분야에서 언어모델의 적응적 적용에 큰 어려움을 가져오게 된다.
전술한 문제점을 해결하기 위해 본 발명의 일 실시예는, 사용자의 관심영역의 변화에 따라서 해당 관심영역의 데이터를 이용한 언어모델이 업데이트된 환경에서, 시간에 따른 언어의 변화를 즉시 반영하여 언어모델을 학습 및 적용할 수 있는 하이퍼그래프 언어모델 학습 및 적용 장치 및 그 학습 및 적용 방법을 제공하는 데 목적이 있다.
또한, 전술한 문제점을 해결하기 위해 본 발명의 다른 실시예는, 사용자의 관심영역의 변화에 따라서 해당 관심영역의 데이터를 이용한 언어모델을 업데이트 하며, 급격하게 변화하는 인터넷 언어 환경에서 시간에 따른 언어의 변화를 즉시 반영할 수 있는 하이퍼그래프 언어모델 갱신장치 및 그 갱신방법을 제공하는 데 목적이 있다.
전술한 목적을 달성하기 위해 본 발명의 일 실시예에 따른 하이퍼그래프 언어모델 학습 및 적용 장치는, 코퍼스(Corpus) 데이터를 저장하는 데이터베이스부; 데이터베이스부에 저장된 코퍼스 데이터에 기초하여 하이퍼에지를 생성하는 하이퍼에지 생성부; 하이퍼에지 생성부에 의해 생성된 하이퍼에지에 대응하는 가중치를 계산하는 가중치 계산부; 및 하이퍼에지 생성부에 의해 생성된 하이퍼에지 및 가중치 계산부에 의해 계산된 가중치에 기초하여 하이퍼그래프를 생성하는 하이퍼그래프 생성부를 포함하는 것을 특징으로 한다.
바람직하게는, 하이퍼그래프 언어모델 학습 및 적용 장치는, 하이퍼에지 생성부에 의해 생성되는 하이퍼에지 및 가중치 계산부에 의해 계산되는 가중치를 각각 누적하는 누적부를 더 포함할 수 있다.
또한, 하이퍼그래프 언어모델 학습 및 적용 장치는, 하이퍼그래프 생성부에 의해 생성된 하이퍼그래프를 초기화하는 초기화부를 더 포함할 수도 있다.
또한, 하이퍼그래프 언어모델 학습 및 적용 장치는, 질의 데이터에 기초하여 질의 하이퍼그래프를 구성하는 질의 하이퍼그래프 구성부; 질의 하이퍼그래프에 의해 구성된 질의 하이퍼그래프와 하이퍼그래프 생성부에 의해 생성된 하이퍼그래프에서 일치하는 하이퍼에지를 이용하여 결과 하이퍼그래프를 구성하는 결과 하이퍼그래프 구성부; 및 결과 하이퍼그래프 내부의 하이퍼에지의 가중치를 이용하여 질의 데이터가 데이터베이스부로부터 인출되는 코퍼스 데이터와 일치할 확률을 계산하는 확률 계산부를 더 포함할 수도 있다.
전술한 목적을 달성하기 위해 본 발명의 다른 실시예에 따른 하이퍼그래프 언어모델 갱신장치는, 코퍼스 데이터를 저장하는 데이터베이스부; 코퍼스 데이터에 기초하여 하이퍼에지, 가중치 및 업데이트를 위한 업데이트 가중치가 포함된 하이퍼그래프를 생성하는 하이퍼그래프 생성부; 하이퍼그래프 생성부가 데이터베이스부에 저장된 새로운 코퍼스 데이터에 기초하여 새로운 하이퍼에지를 만드는 경우, 새로운 하이퍼에지가 기 생성된 하이퍼그래프에 존재하는지를 판단하는 판단부; 및 새로운 하이퍼에지가 기 생성된 하이퍼그래프에 존재하면 기 생성된 하이퍼그래프의 하이퍼에지의 업데이트 가중치를 증가시키며, 새로운 하이퍼에지가 기 생성된 하이퍼그래프에 존재하지 않으면 새로운 하이퍼에지 및 그에 대응하는 가중치가 포함된 새로운 하이퍼그래프를 추가하는 갱신부를 포함하는 것을 특징으로 한다.
여기서, 하이퍼그래프 생성부는 업데이트 가중치의 초기값을 0으로 설정할 수 있다.
바람직하게는, 하이퍼그래프 언어모델 갱신장치는, 추가된 하이퍼그래프 내 부의 하이퍼에지와 기 생성된 하이퍼그래프 내부의 임의의 하이퍼에지를 비교하는 비교부; 및 추가된 하이퍼그래프 내부의 하이퍼에지의 가중치가 임의의 하이퍼에지의 가중치보다 크고 전체 가중치의 평균값보다 큰 경우, 기 생성된 하이퍼그래프의 하이퍼에지를 추가된 하이퍼그래프의 하이퍼에지로 대체하는 대체부를 더 포함할 수 있다.
전술한 목적을 달성하기 위해 본 발명의 또 다른 실시예에 따른 하이퍼그래프 언어모델 학습방법은, 데이터베이스로 저장된 코퍼스 데이터에 기초하여 하이퍼에지를 생성하고, 생성된 하이퍼에지에 대응하는 가중치를 계산하는 단계; 및 생성되는 하이퍼에지 및 계산되는 가중치를 각각 누적하여 하이퍼그래프를 생성하는 단계를 포함한다.
여기서, 하이퍼그래프 언어모델 학습방법은, 하이퍼그래프 생성단계에 의해 생성된 하이퍼그래프를 초기화하는 단계를 더 포함할 수 있다.
전술한 목적을 달성하기 위해 본 발명의 또 다른 실시예에 따른 하이퍼그래프 언어모델 적용방법은, 데이터베이스로부터 인출되는 코퍼스 데이터에 기초하여 하이퍼그래프를 학습하는 단계; 질의 데이터에 기초하여 질의 하이퍼그래프를 구성하는 단계; 및 하이퍼그래프와 질의 하이퍼그래프에서 일치하는 하이퍼에지를 이용하여 결과 하이퍼그래프를 구성하는 단계를 포함한다.
여기서, 하이퍼그래프 언어모델 적용방법은, 결과 하이퍼그래프 내부의 하이퍼에지의 가중치를 이용하여 질의 데이터가 코퍼스 데이터와 일치할 확률을 계산하는 단계를 더 포함할 수 있다.
전술한 목적을 달성하기 위해 본 발명의 또 다른 실시예에 따른 하이퍼그래프 언어모델 갱신방법은, 데이터베이스에 저장된 코퍼스 데이터에 기초하여 하이퍼에지, 가중치 및 업데이트를 위한 업데이트 가중치가 포함된 하이퍼그래프를 생성하는 단계; 데이터베이스에 저장된 새로운 코퍼스 데이터에 기초하여 새로운 하이퍼에지를 만드는 경우, 새로운 하이퍼에지가 기 생성된 하이퍼그래프에 존재하는지를 판단하는 단계; 및 새로운 하이퍼에지가 기 생성된 하이퍼그래프에 존재하면 기 생성된 하이퍼그래프의 하이퍼에지의 업데이트 가중치를 증가시키는 단계를 포함한다.
여기서, 하이퍼그래프 언어모델 갱신방법은, 새로운 하이퍼에지가 기 생성된 하이퍼그래프에 존재하지 않으면 새로운 하이퍼에지 및 그에 대응하는 가중치가 포함된 새로운 하이퍼그래프를 추가하는 단계를 더 포함할 수 있다.
또한, 하이퍼그래프 언어모델 갱신방법은, 추가된 하이퍼그래프 내부의 하이퍼에지와 기 생성된 하이퍼그래프 내부의 임의의 하이퍼에지를 비교하는 단계; 및 추가된 하이퍼그래프 내부의 하이퍼에지의 가중치가 기 생성된 하이퍼그래프 내부의 임의의 하이퍼에지의 가중치보다 크고 전체 가중치의 평균값보다 큰 경우, 추가된 하이퍼그래프의 하이퍼에지를 새로운 하이퍼그래프의 하이퍼에지로 대체하는 단계를 더 포함할 수도 있다.
이상에서 설명한 바와 같이 본 발명의 일 실시예에 의하면, 사용자의 관심영역의 변화에 따라서 해당 관심영역의 데이터를 이용한 언어모델이 업데이트된 환경 에서, 시간에 따른 언어의 변화를 즉시 반영하여 언어모델을 학습 및 적용할 수 있게 된다.
또한, 본 발명의 다른 실시예에 의하면 사용자의 관심영역의 변화에 따라서 해당 관심영역의 데이터를 이용한 언어모델을 업데이트 하며, 급격하게 변화하는 인터넷 언어 환경에서 시간에 따른 언어의 변화를 즉시 반영할 수 있게 된다.
이하, 본 발명의 일부 실시예들을 예시적인 도면을 통해 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.
또한, 본 발명의 구성 요소를 설명하는 데 있어서, 제 1, 제 2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 어떤 구성 요소가 다른 구성요소에 "연결", "결합" 또는 "접속"된다고 기재된 경우, 그 구성 요소는 그 다른 구성요소에 직접적으로 연결되거나 접속될 수 있지만, 각 구성 요소 사이에 또 다른 구성 요소가 "연결", "결합" 또는 "접속"될 수도 있다고 이해되어야 할 것이다.
도 1은 본 발명의 일 실시예에 따른 하이퍼그래프 언어모델 학습 및 적용 장 치를 개략적으로 도시한 도면이다. 도면을 참조하면, 하이퍼그래프 언어모델 학습 및 적용 장치(100)는 데이터베이스부(110), 하이퍼에지 생성부(120), 가중치 계산부(130), 하이퍼그래프 생성부(140), 누적부(150), 초기화부(160), 질의 하이퍼그래프 구성부(170), 결과 하이퍼그래프 구성부(180) 및 확률 계산부(190)를 포함할 수 있다.
데이터베이스부(110)는 코퍼스 데이터를 저장한다. 이때, 데이터베이스부(110)는 신문 기사, 소설, 기타 인터넷 상에서 얻을 수 있는 자료들을 활용하여 데이터베이스를 구축하고 저장할 수 있다. 또한, 코퍼스 데이터는 학습용 텍스트 데이터베이스에 구축된 단어와 단어간의 발생빈도 데이터 및 그것을 이용하여 연산된 바이그램(Bi-gram), 트라이그램(Tri-gram) 또는 N-gram의 확률인 발생확률 데이터를 포함할 수 있다. 바이그램은 두 개의 단어 쌍으로 이루어지는 단어열을 나타내고, 트라이그램은 3 개의 단어들로 이루어지는 단어열을 나타내며, N-gram은 N 개의 단어들로 이루어지는 단어열을 나타낸다.
하이퍼에지 생성부(120)는 데이터베이스부(110)에 저장된 코퍼스 데이터에 기초하여 하이퍼에지를 생성한다. 유한 집합 X = {x1, x2, …, xn}에 대해서 E= {Ei|i ∈ I}를 X의 부분집합 Ei들의 패밀리(family)라고 정의한다. 패밀리 E가 수학식 3의 조건을 만족할 때 E는 X 상에 정의된 하이퍼그래프(Hypergraphs)라고 한다.
Figure 112009067022370-pat00003
여기서, 각각의 요소 x1, x2,…, xn을 정점(vertices)이라 하고, 집합 E1, E2, …, Em을 하이퍼에지(hyperedge)라고 한다.
일반적인 그래프 구조는 정점과 한 쌍의 정점들이 서로 연결되는 에지의 조합으로 표현되는 데 반해, 하이퍼그래프는 두 개 이상의 정점들이 에지에 의해 연결되는 하이퍼에지의 형태를 가지고 있다. 따라서, 연관관계가 두 개 이상의 정점 사이에 존재하는 데이터에서 이를 명시적으로 그래프로 표현할 수 있는 특징을 갖는다.
도 2는 하이퍼그래프 구조의 예를 나타낸다. 도시한 바와 같이 하이퍼그래프 G는 정점의 집합 V 및 하이퍼에지의 집합 E로 표현할 수 있으며, 각각의 하이퍼에지 E1, E2, E3, E4 및 E5는 2개 이상의 정점들을 연결하는 집합으로 표현할 수 있다. 여기서, 하이퍼그래프는 점과 점을 연결하는 선으로 구성된 그래프에서 나아가 점의 집합으로 표현되는 하이퍼에지들의 집합으로 구성된 그래프이다. 도 2에 나타낸 하이퍼에지 E1은 3개의 정점 v1, v3 및 v4로 구성되어 있으므로 v1, v3, v4로 구성된 하이퍼에지라고 하며, 하이퍼에지의 차수(cardinality)는 3이 된다. 주어진 데이터를 이용하여 학습을 통해 만들어지는 하이퍼그래프에서는 데이터의 분포 및 특성이 하이퍼에지의 가중치로 표현된다.
가중치 계산부(130)는 하이퍼에지 생성부(120)에 의해 생성된 하이퍼에지에 대응하는 가중치를 계산한다. 하이퍼그래프 기반의 언어모델을 학습하고 그 학습 결과를 적용하기 위해서는 하이퍼그래프를 이용하여 주어진 데이터의 확률분포를 표현할 수 있어야 한다. 확률분포는 하이퍼그래프 에너지에 기초하여 구할 수 있으며, 학습 데이터
Figure 112009067022370-pat00004
에 대해서 하이퍼그래프의 에너지는 수학식 4와 같이 정의된다.
Figure 112009067022370-pat00005
여기서, W 는 하이퍼그래프 모델 내에 존재하는 하이퍼에지의 가중치를 의미한다. 따라서, 하이퍼그래프 상에서 표현하는 데이터의 확률은 수학식 5와 같이 표현될 수 있으며, 하이퍼그래프 모델에서는 하이퍼에지와 그에 대응하는 가중치들의 집합으로써 데이터의 확률 분포를 표현하는 것이 가능해진다.
Figure 112009067022370-pat00006
여기서, 분할함수(Partition function) Z(W)는 수학식 6과 같이 정의된다.
Figure 112009067022370-pat00007
하이퍼그래프 모델은 학습 과정을 통해서 저장된 데이터의 확률분포를 이용하여 새로운 데이터를 분류하는 데에 사용할 수 있다. 이러한 분류 과정은 새로운 데이터와 유사한 하이퍼에지들의 특성을 조합함으로써 이루어지게 되는데, 이 과정에서 더욱 높은 가중치를 가진 하이퍼에지들이 새로운 데이터의 클래스를 결정하는데 중요한 역할을 하게 된다.
하이퍼그래프 모델이 가지고 있는 이러한 특성은 단순히 주어진 문장의 분류만이 아니라 문장과 문장간의 관계, 그리고 문장 내 단어와 단어간의 관계에 기반한 분석을 가능하게 한다. 이러한 특징은 단순히 문장 또는 문서의 분류만이 아니라 축적된 대용량 데이터에 기반하여 동작하는 통계적 기계번역(Statistical Machine Translation) 분야에의 활용 가능성을 보여 주고 있다. 통계적 기계번역을 위해 사용되는 언어모델에서는 확률분포를 이용해서 문자열에 확률을 부여하고 이를 이용해서 조건부 확률을 계산하게 된다.
하이퍼그래프 모델은 학습 과정을 통해서 데이터의 결합 가능성(joint probability)을 학습하게 되는데, 학습된 결합 가능성은 수학식 7과 같이 계산이 가능하다. 이때,
Figure 112009067022370-pat00008
는 차수 n의 i번째 하이퍼에지를 의미한다.
Figure 112009067022370-pat00009
여기서, 학습을 마친 하이퍼그래프 모델은 주어진 데이터의 결합 가능성을 근사하고 있으므로 이를 통해서 수학식 8과 같이 조건부 확률을 추정하는 것이 가 능하다.
Figure 112009067022370-pat00010
이러한 과정을 통해서 학습된 하이퍼그래프 모델은 학습 과정 중에 데이터의 분포만을 학습하는 것이 아니라 데이터를 구성하고 있는 문장들 간의 확률까지도 같이 학습하게 된다.
하이퍼그래프 생성부(140)는 하이퍼에지 생성부(120)에 의해 생성된 하이퍼에지 및 가중치 계산부(130)에 의해 계산된 가중치에 기초하여 하이퍼그래프를 생성한다. 텍스트에 가중치가 적용되어 생성되는 하이퍼그래프의 예를 도 3에 나타내었다. 여기서, 각각의 정점은 Computer, Network, Price, display 등의 단어들이며, 하이퍼에지는 각각 {Computer, Network}, {Computer, Price}, {Computer, Network, Price} 등이 있다. 이때, 하이퍼그래프 생성부(140)는 증가하는 코퍼스에 대해서 동적으로 반복적인 학습을 수행하여 하이퍼그래프를 생성하는 것이 바람직하다.
이러한 하이퍼그래프 모델의 특성을 이용하여 증가하는 코퍼스에 대해서 동적으로 학습이 이루어지는 과정이 도 4에 나타나 있다. 학습 단계에서는 매번 새로이 선정된 코퍼스를 기반으로 구축한 하이퍼그래프를 이용하여 기존의 하이퍼그래프의 일부를 업데이트 하는 과정을 반복 수행함으로써, 기존의 코퍼스를 이용한 모델의 학습 결과만이 아니라 증가하는 코퍼스에서 나타나는 새로운 경향을 반영하여 모델을 업데이트 시킬 수 있게 된다. 따라서, 본 발명의 일 실시예에 따른 하이퍼그래프 언어모델 학습 및 적용 장치는 일정한 학습 속도를 보장하면서 원하는 도메인에 적합하게 언어모델을 제공할 수 있으며, 또한 환경변화에 따른 언어적 변환현상을 적절히 반영하며 진화시켜갈 수 있다는 측면에서 큰 장점을 갖는다.
누적부(150)는 하이퍼에지 생성부(120)에 의해 생성되는 하이퍼에지 및 가중치 계산부(130)에 의해 계산되는 가중치를 각각 누적한다. 누적된 하이퍼에지 및 가중치에 기초하여 반복적으로 학습되는 과정에서 새로운 하이퍼그래프를 생성할 수 있게 된다.
초기화부(160)는 하이퍼그래프 생성부(140)에 의해 생성된 하이퍼그래프를 초기화할 수 있다. 이것은 샘플링을 통한 언어모델 학습의 초기에 수행되는 것으로서, 이를 통해 하이퍼에지 생성부(120)에 의해 생성된 하이퍼에지, 가중치 계산부(130)에 의해 계산된 가중치 및 하이퍼그래프 생성부(140)에 의해 생성된 하이퍼그래프가 모두 초기화된다.
질의 하이퍼그래프 구성부(170)는 입력되는 텍스트로부터 질의 데이터를 독출하며, 독출된 질의 데이터를 이용하여 질의 하이퍼그래프를 구성한다.
결과 하이퍼그래프 구성부(180)는 하이퍼그래프 생성부(140)에 의해 생성된 하이퍼그래프와 질의 하이퍼그래프 구성부(170)에 의해 구성되는 질의 하이퍼그래프를 비교하며, 그 중 서로 일치하는 하이퍼그래프들을 이용하여 결과 하이퍼그래프를 구성한다.
확률 계산부(190)는 결과 하이퍼그래프 구성부(180)에 의해 구성된 결과 하 이퍼그래프 내부의 하이퍼에지의 가중치를 이용하여 질의 데이터가 데이터베이스부(110)에 저장된 코퍼스 데이터로부터 독출되는 코퍼스 데이터와 일치할 확률을 계산한다.
도 5는 도 1의 하이퍼그래프 언어모델 학습 및 적용 장치에 의한 하이퍼그래프 언어모델 학습방법을 나타낸 흐름도이다.
도면을 참조하면, 초기화부(160)는 샘플링을 통한 언어모델 학습의 초기에 하이퍼그래프 생성부(140)에 의해 생성된 하이퍼그래프를 초기화한다(S501). 이를 통해 하이퍼에지 생성부(120)에 의해 생성된 하이퍼에지, 가중치 계산부(130)에 의해 계산된 가중치 및 하이퍼그래프 생성부(140)에 의해 생성된 하이퍼그래프가 모두 초기화된다.
하이퍼에지 생성부(120)는 훈련 데이터 X가 데이터베이스부(110)에 저장된 코퍼스 데이터에 포함되어 있는지를 판단하고, 훈련 데이터 X가 코퍼스 데이터에 포함된 경우에 데이터베이스부(110)에 저장된 코퍼스 데이터로부터 학습을 위한 훈련 데이터 X를 인출한다(S503).
하이퍼에지 생성부(120)는 인출된 훈련 데이터 X에 기초하여 하이퍼에지를 생성하며, 가중치 계산부(130)는 수학식 4 내지 수학식 7에 기초하여 하이퍼에지 생성부(120)에 의해 생성된 하이퍼에지에 대응하는 가중치를 계산한다(S505).
하이퍼그래프 생성부(140)는 하이퍼에지 생성부(120)에 의해 생성된 하이퍼에지 및 가중치 계산부(130)에 의해 계산된 가중치에 기초하여 하이퍼그래프를 생성한다(S507).
이와 같은 하이퍼그래프를 이용한 언어모델 데이터 학습과정은 하이퍼그래프 생성시마다 카운트되며, 카운트된 값이 기 설정된 설정치 이상이 될 때까지 반복적으로 수행될 수 있다(S509). 그러나, 반복 학습을 위한 방법은 하이퍼그래프의 생성 횟수를 카운트 하는 방식에 한정되는 것이 아니며, 다양한 방법을 통해 반복 학습이 수행될 수 있다.
이때, 누적부(150)는 반복 학습을 통해 하이퍼에지 생성부(120)에 의해 생성되는 하이퍼에지 및 가중치 계산부(130)에 의해 계산되는 가중치를 각각 누적한다. 누적된 하이퍼에지 및 가중치는 다음 학습과정에서의 새로운 하이퍼그래프를 구성한다.
도 6은 도 1의 하이퍼그래프 언어모델 학습 및 적용 장치에 의한 하이퍼그래프 언어모델 적용방법을 나타낸 흐름도이다.
도면을 참조하면, 도 5의 단계 S501 내지 단계 S509를 통해 주어진 코퍼스 데이터로부터 하이퍼그래프 G를 학습하는 과정(S601)에서, 질의 하이퍼그래프 구성부(170)는 입력되는 텍스트로부터 질의 데이터 X'를 독출하며(S603), 독출된 질의 데이터 X'를 이용하여 질의 하이퍼그래프 G'를 구성한다(S605).
질의 하이퍼그래프 구성부(170)에 의해 질의 하이퍼그래프 G'가 구성되면, 결과 하이퍼그래프 구성부(180)는 하이퍼그래프 생성부(140)에 의해 생성된 하이퍼그래프 G와 질의 하이퍼그래프 구성부(170)에 의해 구성된 질의 하이퍼그래프 G'를 비교하며, 그 중 서로 일치하는 하이퍼그래프들을 이용하여 결과 하이퍼그래프 G*를 구성한다(S607).
확률 계산부(190)는 결과 하이퍼그래프 구성부(180)에 의해 구성된 결과 하이퍼그래프 G* 내부의 하이퍼에지의 가중치를 이용하여 질의 데이터가 데이터베이스부(110)에 저장된 코퍼스 데이터로부터 독출되는 코퍼스 데이터와 일치할 확률을 계산한다(S609).
도 7은 본 발명의 다른 실시예에 따른 하이퍼그래프 언어모델 갱신장치를 개략적으로 도시한 도면이다. 도면을 참조하면, 하이퍼그래프 언어모델 갱신장치(700)는 데이터베이스부(710), 하이퍼그래프 생성부(720), 판단부(730), 갱신부(740), 비교부(750) 및 대체부(760)를 포함할 수 있다. 여기서, 데이터베이스부(710)는 도 1의 데이터베이스부(110)와 기능 및 동작이 동일하므로, 그 상세한 설명은 생략한다.
하이퍼그래프 생성부(720)는 데이터베이스부(710)에 저장된 코퍼스 데이터에 기초하여 하이퍼에지, 가중치 및 업데이트를 위한 업데이트 가중치를 생성한다. 본 발명의 실시예에 따른 하이퍼그래프 언어모델 갱신장치(700)의 가장 큰 특징중의 하나는 각각의 하이퍼에지가 하나의 가중치 W 만을 가지고 있는 것이 아니라, 업데이트를 위한 업데이트 가중치 W'를 추가로 가지고 있다는 점이다. 서브샘플링을 통해서 하이퍼그래프 모델의 초기화를 하는 시점에서, 하이퍼그래프는 업데이트를 위한 업데이트 가중치 W'의 초기값으로 0을 가지고 있지만, 하이퍼에지의 업데이트가 이루어지는 과정에서 업데이트 가중치 W'의 값을 같이 업데이트 해나가면서 하이퍼에지를 업데이트하는 기준으로 사용하게 된다.
이 과정에서 학습을 위해서 사용되는 하이퍼그래프와는 별도로 업데이트를 위한 별도의 하이퍼그래프가 새로운 코퍼스를 통해서 만들어지게 되는데, 새로 만들어지는 하이퍼그래프에서도 기존의 방식과 동일하게 하이퍼에지를 추가해 나간다.
판단부(730)는 하이퍼그래프 생성부(720)에 의해 새로운 하이퍼그래프가 생성되는 경우, 하이퍼생성부(720)에 의해 생성된 새로운 하이퍼에지가 기존에 생성된 하이퍼그래프에 존재하는지를 판단한다.
갱신부(740)는 하이퍼그래프 생성부(720)에 의해 새롭게 생성된 하이퍼에지가 기존에 생성된 하이퍼그래프에 존재하면 기 생성된 하이퍼그래프의 하이퍼에지의 업데이트 가중치를 증가시킨다. 즉, 새롭게 생성된 하이퍼에지가 이미 기존의 하이퍼그래프에 존재하는 하이퍼에지라면 하이퍼에지가 추가되지 않고 기존의 하이퍼그래프에 존재하는 하이퍼에지에 대응하는 업데이트 가중치 W' i 만을 업데이트 하는 것이 바람직하다. 또한, 갱신부(740)는 하이퍼그래프 생성부(720)에 의해 새롭게 생성된 하이퍼에지가 기 생성된 하이퍼그래프에 존재하지 않으면 하이퍼그래프 생성부(720)에 의해 새롭게 생성된 하이퍼그래프에 새롭게 생성된 하이퍼에지 및 그에 대응하는 가중치를 포함시켜 추가한다. 이와 같이 증가 또는 추가되는 가중치가 업데이트 가중치가 된다.
비교부(750)는 추가된 하이퍼그래프 내부의 하이퍼에지와 기 생성된 하이퍼 그래프 내부의 임의의 하이퍼에지를 비교하며, 대체부(760)는 추가된 하이퍼그래프 내부의 하이퍼에지의 가중치가 임의의 하이퍼에지의 가중치보다 크고 전체 가중치의 평균값보다 큰 경우에 기 생성된 하이퍼그래프의 하이퍼에지를 추가된 하이퍼그래프의 하이퍼에지로 대체한다. 즉, 하이퍼그래프 생성부(720)에 의해 새롭게 만들어진 별도의 하이퍼그래프는 그 내부에 존재하는 모든 하이퍼에지에 대하여 기존의 하이퍼그래프에 있는 임의의 하이퍼에지들과 비교가 되는데, 이 때 새로 만들어진 하이퍼그래프의 하이퍼에지의 가중치가 기존의 하이퍼그래프에 존재하는 하이퍼에지의 가중치 W 보다 크고, 동시에 하이퍼그래프 전체 가중치 W'의 평균값보다 클 경우에는 기존의 하이퍼에지가 새로 만들어진 하이퍼그래프 내의 하이퍼에지로 교체된다.
도 8은 도 7의 하이퍼그래프 언어모델 갱신장치에 의한 하이퍼그래프 언어모델 갱신방법을 나타낸 흐름도이다.
도면을 참조하면, 도 5의 단계 S501 내지 단계 S509를 통하여 하이퍼그래프 언어모델을 학습하는 과정(S801)에서 데이터베이스부(710)에 새로운 코퍼스 데이터가 추가되는 경우, 하이퍼그래프 생성부(720)는 데이터베이스부(710)에 추가된 코퍼스 데이터 C'에 기초하여 새로운 데이터 X'를 독출하고(S803), 그에 따라 하이퍼에지, 가중치 및 업데이트를 위한 업데이트 가중치를 생성한다(S805). 서브샘플링을 통해서 하이퍼그래프 모델의 초기화를 하는 시점에서, 하이퍼그래프는 업데이트를 위한 업데이트 가중치 W'초기값으로 0을 가지고 있지만, 하이퍼에지의 업데이트가 이루어지는 과정에서 업데이트 가중치 W'의 값을 같이 업데이트 해나가면서 하이퍼에지를 업데이트하는 기준으로 사용하게 된다.
판단부(730)는 하이퍼그래프 생성부(720)에 의해 새로운 하이퍼그래프 G가 생성되는 경우, 하이퍼생성부(720)에 의해 생성된 새로운 하이퍼에지가 기존에 생성된 하이퍼그래프 G에 존재하는지를 판단한다(S807).
이때, 하이퍼그래프 생성부(720)에 의해 새롭게 생성된 하이퍼에지가 기존에 생성된 하이퍼그래프에 존재하면, 갱신부(740)는 기 생성된 하이퍼그래프의 하이퍼에지의 업데이트 가중치를 증가시킨다(S809). 즉, 새롭게 생성된 하이퍼에지가 이미 기존의 하이퍼그래프에 존재하는 하이퍼에지라면 하이퍼에지가 추가되지 않고 기존의 하이퍼그래프에 존재하는 하이퍼에지에 대응하는 업데이트 가중치 W' i 만을 업데이트 한다.
또한, 하이퍼그래프 생성부(720)에 의해 새롭게 생성된 하이퍼에지가 기 생성된 하이퍼그래프에 존재하지 않으면, 하이퍼그래프 생성부(720)는 새롭게 생성된 하이퍼에지 및 그에 대응하는 가중치가 포함된 새로운 하이퍼그래프 G"를 생성하며, 갱신부(740)는 기존의 하이퍼그래프에 새롭게 생성된 하이퍼그래프 G"를 추가한다(S811).
단계 S805 내지 단계 S811의 과정은 데이터베이스부(710)에 새로 추가된 코퍼스로부터 독출된 코퍼스 데이터 X'를 이용하여 만들어진 모든 하이퍼에지에 대하여 순차적으로 수행된다(S813).
이와 같이 기존에 존재하는 하이퍼그래프 언어모델 및 추가된 하이퍼그래프 언어모델에 대하여 도 5에 도시된 바와 같은 하이퍼그래프를 이용한 언어모델 데이터 학습과정이 수행된다. 이때, 하이퍼그래프를 이용한 언어모델 데이터 학습과정은 전술한 바와 같이 하이퍼그래프 생성시마다 숫자를 카운트하고, 카운트된 값이 기 설정된 설정치 이상이 될 때까지 반복적으로 수행될 수 있다(S815). 그러나, 반복 학습을 위한 방법은 하이퍼그래프의 생성 횟수를 카운트 하는 방식에 한정되는 것이 아니며, 다양한 방법을 통해 반복 학습이 수행될 수 있다.
비교부(750)는 추가된 하이퍼그래프 내부의 하이퍼에지와 기 생성된 하이퍼그래프 내부의 임의의 하이퍼에지를 비교한다(S817). 이때, 추가된 하이퍼그래프 내부의 하이퍼에지의 가중치가 임의의 하이퍼에지의 가중치보다 크고 전체 가중치의 평균값보다 큰 경우, 대체부(760)는 기 생성된 하이퍼그래프의 하이퍼에지를 추가된 하이퍼그래프의 하이퍼에지로 대체한다.
이상에서, 본 발명의 실시예를 구성하는 모든 구성 요소들이 하나로 결합하거나 결합하여 동작하는 것으로 설명되었다고 해서, 본 발명이 반드시 이러한 실시예에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위 안에서라면, 그 모든 구성 요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다. 또한, 그 모든 구성 요소들이 각각 하나의 독립적인 하드웨어로 구현될 수 있지만, 각 구성 요소들의 그 일부 또는 전부가 선택적으로 조합되어 하나 또는 복수 개의 하드웨어에서 조합된 일부 또는 전부의 기능을 수행하는 프로그램 모듈을 갖는 컴퓨터 프로그램으로서 구현될 수도 있다. 그 컴퓨터 프로그램을 구성하는 코드들 및 코드 세그먼트들은 본 발명의 기술 분야의 당업자에 의해 용이하게 추론될 수 있을 것이다. 이 러한 컴퓨터 프로그램은 컴퓨터가 읽을 수 있는 저장매체(Computer Readable Media)에 저장되어 컴퓨터에 의하여 읽혀지고 실행됨으로써, 본 발명의 실시예를 구현할 수 있다. 컴퓨터 프로그램의 저장매체로서는 자기 기록매체, 광 기록매체, 캐리어 웨이브 매체 등이 포함될 수 있다.
또한, 이상에서 기재된 "포함하다", "구성하다" 또는 "가지다" 등의 용어는, 특별히 반대되는 기재가 없는 한, 해당 구성 요소가 내재할 수 있음을 의미하는 것이므로, 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것으로 해석되어야 한다. 기술적이거나 과학적인 용어를 포함한 모든 용어들은, 다르게 정의되지 않는 한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미가 있다. 사전에 정의된 용어와 같이 일반적으로 사용되는 용어들은 관련 기술의 문맥상의 의미와 일치하는 것으로 해석되어야 하며, 본 발명에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
이상에서 설명한 바와 같이 본 발명의 실시예는 언어모델 학습분야 및 갱신분야에 적용되어, 사용자의 관심영역의 변화에 따라서 해당 관심영역의 데이터를 이용한 언어모델이 업데이트된 환경에서, 시간에 따른 언어의 변화를 즉시 반영하여 언어모델을 학습 및 적용할 수 있도록 하며, 또한 사용자의 관심영역의 변화에 따라서 해당 관심영역의 데이터를 이용한 언어모델을 업데이트 하며 급격하게 변화하는 인터넷 언어 환경에서 시간에 따른 언어의 변화를 즉시 반영할 수 있도록 하는 효과를 발생하는 매우 유용한 발명이다.
도 1은 본 발명의 일 실시예에 따른 하이퍼그래프 언어모델 학습 및 적용 장치를 개략적으로 도시한 도면이다.
도 2는 하이퍼그래프 구조의 예를 나타낸 도면이다.
도 3은 텍스트에 가중치가 적용되어 생성되는 하이퍼그래프의 예를 나타낸 도면이다.
도 4는 동적 언어모델 학습과정을 설명하기 위해 도시한 도면이다.
도 5는 도 1의 하이퍼그래프 언어모델 학습 및 적용 장치에 의한 하이퍼그래프 언어모델 학습방법을 나타낸 흐름도이다.
도 6은 도 1의 하이퍼그래프 언어모델 학습 및 적용 장치에 의한 하이퍼그래프 언어모델 적용방법을 나타낸 흐름도이다.
도 7은 본 발명의 다른 실시예에 따른 하이퍼그래프 언어모델 갱신장치를 개략적으로 도시한 도면이다.
도 8은 도 7의 하이퍼그래프 언어모델 갱신장치에 의한 하이퍼그래프 언어모델 갱신방법을 나타낸 흐름도이다.
< 도면의 주요 부분에 대한 부호의 설명 >
100: 하이퍼그래프 언어모델 학습 및 적용 장치
110: 데이터베이스 부 120: 하이퍼에지 생성부
130: 가중치 계산부 140: 하이퍼그래프 생성부
150: 누적부 160: 초기화부
170: 질의 하이퍼그래프 구성부 180: 결과 하이퍼그래프 구성부
190: 확률 계산부
700: 하이퍼그래프 언어모델 갱신장치
710: 데이터베이스부 720: 하이퍼그래프 생성부
730: 판단부 740: 갱신부
750: 비교부 760: 대체부

Claims (14)

  1. 코퍼스(Corpus) 데이터를 저장하는 데이터베이스부;
    상기 데이터베이스부에 저장된 코퍼스 데이터에 기초하여 하이퍼에지를 생성하는 하이퍼에지 생성부;
    상기 하이퍼에지 생성부에 의해 생성된 하이퍼에지에 대응하는 가중치를 계산하는 가중치 계산부;
    상기 하이퍼에지 생성부에 의해 생성된 하이퍼에지 및 상기 가중치 계산부에 의해 계산된 가중치에 기초하여 하이퍼그래프를 생성하는 하이퍼그래프 생성부;
    질의 데이터에 기초하여 질의 하이퍼그래프를 구성하는 질의 하이퍼그래프 구성부;
    상기 질의 하이퍼그래프에 의해 구성된 질의 하이퍼그래프와 상기 하이퍼그래프 생성부에 의해 생성된 하이퍼그래프에서 일치하는 하이퍼에지를 이용하여 결과 하이퍼그래프를 구성하는 결과 하이퍼그래프 구성부; 및
    상기 결과 하이퍼그래프 내부의 하이퍼에지의 가중치를 이용하여 상기 질의 데이터가 상기 데이터베이스부로부터 인출되는 코퍼스 데이터와 일치할 확률을 계산하는 확률 계산부;
    를 포함하는 것을 특징으로 하는 하이퍼그래프 언어모델 학습 및 적용 장치.
  2. 제 1항에 있어서,
    상기 하이퍼에지 생성부에 의해 생성되는 하이퍼에지 및 상기 가중치 계산부에 의해 계산되는 가중치를 각각 누적하는 누적부
    를 더 포함하는 것을 특징으로 하는 하이퍼그래프 언어모델 학습 및 적용 장치.
  3. 제 1항에 있어서,
    상기 하이퍼그래프 생성부에 의해 생성된 하이퍼그래프를 초기화하는 초기화부
    를 더 포함하는 것을 특징으로 하는 하이퍼그래프 언어모델 학습 및 적용 장치.
  4. 삭제
  5. 코퍼스 데이터를 저장하는 데이터베이스부;
    상기 코퍼스 데이터에 기초하여 하이퍼에지, 가중치 및 업데이트를 위한 업데이트 가중치가 포함된 하이퍼그래프를 생성하는 하이퍼그래프 생성부;
    상기 하이퍼그래프 생성부가 상기 데이터베이스부에 저장된 새로운 코퍼스 데이터에 기초하여 새로운 하이퍼에지를 만드는 경우, 상기 새로운 하이퍼에지가 기 생성된 하이퍼그래프에 존재하는지를 판단하는 판단부; 및
    상기 새로운 하이퍼에지가 상기 기 생성된 하이퍼그래프에 존재하면 상기 기 생성된 하이퍼그래프의 하이퍼에지의 업데이트 가중치를 증가시키며, 상기 새로운 하이퍼에지가 상기 기 생성된 하이퍼그래프에 존재하지 않으면 상기 새로운 하이퍼에지 및 그에 대응하는 가중치가 포함된 새로운 하이퍼그래프를 추가하는 갱신부
    를 포함하는 것을 특징으로 하는 하이퍼그래프 언어모델 갱신장치.
  6. 제 5항에 있어서,
    상기 하이퍼그래프 생성부는 상기 업데이트 가중치의 초기값을 0으로 설정하는 것을 특징으로 하는 하이퍼그래프 언어모델 갱신장치.
  7. 제 5항에 있어서,
    상기 추가된 하이퍼그래프 내부의 하이퍼에지와 상기 기 생성된 하이퍼그래프 내부의 임의의 하이퍼에지를 비교하는 비교부; 및
    상기 추가된 하이퍼그래프 내부의 하이퍼에지의 가중치가 상기 임의의 하이퍼에지의 가중치보다 크고 전체 가중치의 평균값보다 큰 경우, 상기 기 생성된 하이퍼그래프의 하이퍼에지를 상기 추가된 하이퍼그래프의 하이퍼에지로 대체하는 대체부
    를 더 포함하는 것을 특징으로 하는 하이퍼그래프 언어모델 갱신 장치.
  8. 데이터베이스로 저장된 코퍼스 데이터에 기초하여 하이퍼에지를 생성하고, 생성된 상기 하이퍼에지에 대응하는 가중치를 계산하는 단계; 및
    상기 생성되는 하이퍼에지 및 상기 계산되는 가중치를 각각 누적하여 하이퍼그래프를 생성하고, 입력되는 텍스트로부터 독출한 질의 데이터와 상기 코퍼스 데이터로부터 독출되는 코퍼스 데이터가 일치할 확률을 계산하는 단계;
    를 포함하는 것을 특징으로 하는 하이퍼그래프 언어모델 학습방법.
  9. 제 8항에 있어서,
    상기 하이퍼그래프 생성단계에 의해 생성된 하이퍼그래프를 초기화하는 단계
    를 더 포함하는 것을 특징으로 하는 하이퍼그래프 언어모델 학습방법
  10. 데이터베이스로부터 인출되는 코퍼스 데이터에 기초하여 하이퍼그래프를 학습하는 단계;
    질의 데이터에 기초하여 질의 하이퍼그래프를 구성하는 단계;
    상기 하이퍼그래프와 상기 질의 하이퍼그래프에서 일치하는 하이퍼에지를 이용하여 결과 하이퍼그래프를 구성하는 단계; 및
    상기 결과 하이퍼그래프 내부의 하이퍼에지의 가중치를 이용하여 상기 질의 데이터가 상기 코퍼스 데이터와 일치할 확률을 계산하는 단계;
    를 포함하는 것을 특징으로 하는 하이퍼그래프 언어모델 적용방법.
  11. 삭제
  12. 데이터베이스에 저장된 코퍼스 데이터에 기초하여 하이퍼에지, 가중치 및 업데이트를 위한 업데이트 가중치가 포함된 하이퍼그래프를 생성하는 단계;
    상기 데이터베이스에 저장된 새로운 코퍼스 데이터에 기초하여 새로운 하이퍼에지를 만드는 경우, 상기 새로운 하이퍼에지가 기 생성된 하이퍼그래프에 존재하는지를 판단하는 단계;
    상기 새로운 하이퍼에지가 상기 기 생성된 하이퍼그래프에 존재하면 상기 기 생성된 하이퍼그래프의 하이퍼에지의 업데이트 가중치를 증가시키는 단계; 및
    상기 새로운 하이퍼에지가 상기 기 생성된 하이퍼그래프에 존재하지 않으면 상기 새로운 하이퍼에지 및 그에 대응하는 가중치가 포함된 새로운 하이퍼그래프를 추가하는 단계;
    를 포함하는 것을 특징으로 하는 하이퍼그래프 언어모델 갱신방법.
  13. 삭제
  14. 제 12항에 있어서,
    상기 추가된 하이퍼그래프 내부의 하이퍼에지와 상기 기 생성된 하이퍼그래프 내부의 임의의 하이퍼에지를 비교하는 단계; 및
    상기 추가된 하이퍼그래프 내부의 하이퍼에지의 가중치가 상기 기 생성된 하이퍼그래프 내부의 임의의 하이퍼에지의 가중치보다 크고 전체 가중치의 평균값보다 큰 경우, 상기 추가된 하이퍼그래프의 하이퍼에지를 상기 새로운 하이퍼그래프의 하이퍼에지로 대체하는 단계
    를 더 포함하는 것을 특징으로 하는 하이퍼그래프 언어모델 갱신방법.
KR1020090104592A 2009-10-30 2009-10-30 하이퍼그래프 언어모델 학습 및 적용 장치 및 그 학습 및 적용 방법, 및 하이퍼그래프 언어모델 갱신장치 및 그 갱신방법 KR101417757B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020090104592A KR101417757B1 (ko) 2009-10-30 2009-10-30 하이퍼그래프 언어모델 학습 및 적용 장치 및 그 학습 및 적용 방법, 및 하이퍼그래프 언어모델 갱신장치 및 그 갱신방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090104592A KR101417757B1 (ko) 2009-10-30 2009-10-30 하이퍼그래프 언어모델 학습 및 적용 장치 및 그 학습 및 적용 방법, 및 하이퍼그래프 언어모델 갱신장치 및 그 갱신방법

Publications (2)

Publication Number Publication Date
KR20110047818A KR20110047818A (ko) 2011-05-09
KR101417757B1 true KR101417757B1 (ko) 2014-07-14

Family

ID=44239050

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090104592A KR101417757B1 (ko) 2009-10-30 2009-10-30 하이퍼그래프 언어모델 학습 및 적용 장치 및 그 학습 및 적용 방법, 및 하이퍼그래프 언어모델 갱신장치 및 그 갱신방법

Country Status (1)

Country Link
KR (1) KR101417757B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107273207A (zh) * 2017-05-25 2017-10-20 天津大学 一种基于超图划分算法的相关数据存储方法
WO2020036725A1 (en) * 2018-08-14 2020-02-20 Hrl Laboratories, Llc A hypergraph-based method for segmenting and clustering customer observables for vehicles

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102466449B1 (ko) * 2020-04-10 2022-11-11 주식회사 코어닷투데이 스토리텔링 데이터 제공 방법 및 장치
CN113971733A (zh) * 2021-10-29 2022-01-25 京东科技信息技术有限公司 一种基于超图结构的模型训练方法、分类方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
박찬훈. 랜덤 하이퍼그래프 학습 기반 문장 생성 및 복원. 서울대학교 대학원 컴퓨터공학부. 2008. 8. *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107273207A (zh) * 2017-05-25 2017-10-20 天津大学 一种基于超图划分算法的相关数据存储方法
WO2020036725A1 (en) * 2018-08-14 2020-02-20 Hrl Laboratories, Llc A hypergraph-based method for segmenting and clustering customer observables for vehicles
US11244115B2 (en) 2018-08-14 2022-02-08 Hrl Laboratories, Llc Hypergraph-based method for segmenting and clustering customer observables for vehicles

Also Published As

Publication number Publication date
KR20110047818A (ko) 2011-05-09

Similar Documents

Publication Publication Date Title
Bisani et al. Joint-sequence models for grapheme-to-phoneme conversion
JP6222821B2 (ja) 誤り修正モデル学習装置、及びプログラム
US8229731B2 (en) Systems and methods for fast and memory efficient machine translation using statistical integrated phase lattice
JP3768205B2 (ja) 形態素解析装置、形態素解析方法及び形態素解析プログラム
CN108124477B (zh) 基于伪数据改进分词器以处理自然语言
JP6955963B2 (ja) 検索装置、類似度算出方法、およびプログラム
WO2001037128A2 (en) A system and iterative method for lexicon, segmentation and language model joint optimization
Babii et al. Modeling vocabulary for big code machine learning
Yuret Fastsubs: An efficient and exact procedure for finding the most likely lexical substitutes based on an n-gram language model
KR101417757B1 (ko) 하이퍼그래프 언어모델 학습 및 적용 장치 및 그 학습 및 적용 방법, 및 하이퍼그래프 언어모델 갱신장치 및 그 갱신방법
CN115080718A (zh) 一种文本关键短语的抽取方法、系统、设备及存储介质
Gao et al. A unified approach to statistical language modeling for Chinese
JP5914054B2 (ja) 言語モデル作成装置、音声認識装置、およびそのプログラム
JP6969431B2 (ja) 形態素解析学習装置、形態素解析装置、方法、及びプログラム
JP4499003B2 (ja) 情報処理方法及び装置及びプログラム
JP6558856B2 (ja) 形態素解析装置、モデル学習装置、及びプログラム
JP5124012B2 (ja) 音声認識装置及び音声認識プログラム
Lei et al. Data-driven lexicon expansion for Mandarin broadcast news and conversation speech recognition
JP6078435B2 (ja) 記号列変換方法、音声認識方法、それらの装置及びプログラム
Donaj et al. Context-dependent factored language models
Zeng et al. Lexicon expansion for latent variable grammars
van Noord et al. Wide coverage parsing with stochastic attribute value grammars
Asnani et al. Sentence completion using text prediction systems
JP6482084B2 (ja) 文法規則フィルターモデル学習装置、文法規則フィルター装置、構文解析装置、及びプログラム
Aziz et al. Exact decoding for phrase-based statistical machine translation

Legal Events

Date Code Title Description
N231 Notification of change of applicant
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20170703

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20180703

Year of fee payment: 5