KR101559376B1 - 엔트로피를 최대화하는 실시간 조합 자질 구축 방법 및 이를 수행하는 조합 자질 구축 장치 - Google Patents
엔트로피를 최대화하는 실시간 조합 자질 구축 방법 및 이를 수행하는 조합 자질 구축 장치 Download PDFInfo
- Publication number
- KR101559376B1 KR101559376B1 KR1020140021580A KR20140021580A KR101559376B1 KR 101559376 B1 KR101559376 B1 KR 101559376B1 KR 1020140021580 A KR1020140021580 A KR 1020140021580A KR 20140021580 A KR20140021580 A KR 20140021580A KR 101559376 B1 KR101559376 B1 KR 101559376B1
- Authority
- KR
- South Korea
- Prior art keywords
- combination
- data
- input data
- feature
- candidate
- Prior art date
Links
Images
Landscapes
- Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
Abstract
실시간 조합 자질 구축 방법은 실시간 조합 자질 구축 장치에서 수행된다. 범주화된 데이터를 기초로 분류기에서 사용되는 조합 자질을 실시간으로 구축하는 실시간 조합 자질 구축 방법은 (a) 상기 데이터의 적어도 일부에 해당하는 입력 데이터를 수신하여, 기 설정된 조합 자질을 기초로 상기 입력 데이터의 클래스를예측하는 단계; (b) 상기 예측한 클래스와 상기 입력 데이터의 실제 클래스가 일치하지 않으면, 상기 입력 데이터를 기초로 조합 자질을 구성하는 후보 조합 자질을 추출하는 단계; 및 (c) 상기 추출된 후보 조합 자질을 기초로 상기 기 설정된 조합 자질을 갱신하는 단계를 포함한다. 따라서, 범주화된 데이터를 기초로 분류 예측 및 학습을 수행하여 범주화된 데이터에 대하여 자질들을 구축할 수 있다.
Description
본 발명은 조합 자질 구축 기술에 관한 것으로, 보다 상세하게는, 범주화된 데이터에 대해 분류기(classifier)의 분류 성능을 향상시킬 수 있도록 실시간(online)으로 조합 자질을 구축하는 실시간 조합 자질 구축 방법 및 이를 수행하는 조합 자질 구축 장치에 관한 것이다.
기계 학습(machine learning)은 인공지능의 한 분야로, 컴퓨터가 학습할 수 있도록 하는 알고리즘과 기술을 개발하는 분야에 해당한다. 예를 들어, 컴퓨터는 기계 학습을 통해 수신한 이메일이스팸인지 여부를 구분할 수 있도록 훈련할 수 있다.
이러한 기계 학습(또는 기계 학습 알고리즘)을 사용하는 분류기의 성능을 최적하기 하기 위해서는, 전처리 과정으로서 데이터를 잘 표현하는 좋은 자질(feature)들을 찾아내는 것이중요하다.
예를 들어, 컴퓨터는 시각 처리에 특화된 자질들의 일종인 SIFT(scale-invariant feature transform : 특징 불변 자질 변환)나 HOG(histogram of oriented gradients : 기울기 히스토그램)등을 사용하여, 단순히 가공되지 않은 픽셀을 사용하는 것에 비해 시각 처리의 성능을 크게 개선시킬 수 있다. 이와 마찬가지로, 컴퓨터는 음성 전처리 방법의 일종인 FFT(fast Fourier transform : 고속 퓨리에 변환)나 MFCC(Mel-frequency Cepstral coefficient : 멜 주파수 캡스트럼)을 통하여 음성 인식 성능을 높일 수 있다. 즉, 일반적인 기계학습에서, 좋은 자질들을 추출하는 것은 좋은 분류기(classifier)를 선택하는 문제보다 훨씬 중요하다.
좋은 자질을 찾기 위하여 가장 전통적으로 사용되는 방법은 자질 선택 (feature selection)이다. 자질 선택은 많은 자질들 중에서 좋은 자질들을 골라내는 것에 해당하고, 예를 들어, wrapper, filter, embedded method 등으로 분류될 수 있다.
한편, 자질 구축(feature construction)은 자질 선택과 달리 단순히 주어진 자질들을 사용하는 것이 아니라, 자질들을 혼합하여 새로운 자질들을 만들어 내는 기술에 해당하고, 예를 들어, 커널 기법에 해당할 수 있다.
"Y. Bengio, "Learning Deep Architectures for AI", Foundations and Trends in Machine Learning, 2009."은 자질 구축을 개시하고 있으나, "deep learning"에서 자질 구축은"restricted Boltzmann machine(볼쯔만 머신)"과 "autoencoder(오토인코더 :코딩을 학습하도록 설계된 신경 네트워크의 일 형태)" 등의 모델에서 입력 변수와 은닉 변수 사이의 가중치를 학습시키는 것에 불과하다.
"G. Zhou, K. Sohn, H. Lee, "Online Incremental Feature Learning with DenoisingAutoencoder" AISTATS, 2012."는 "denoisingautoencoder(디노이징 오토인코더)"에 대한 은닉 변수의 수를 데이터의 분포에 맞게 실시간으로 조절하는 방법을 개시하고 있으나, 이러한 방법은 이산화된 데이터를 다루는 데에 적합할 뿐, 범주화된 데이터를 다루는 데에는 적합하지 않는 문제점을 가진다.
한편, "B. -T. Zhang, "Hypernetworks: A molecular evolutionary architecture for cognitive learning and memory", IEEE Computational Intelligence Magazine, 2008."는 범주화된 데이터를 다루는 자질 구축 방법에 대한 모델로 하이퍼네트워크를 개시하고, "E. -S. Kim, J. -W. Ha, B. -T. Zhang, "Mutual information-based evolution of hypernetworks for brain data analysis", CEC, 2011."는 하이퍼네트워크를 데이터 분류와 확률 분포 학습에 사용하고 있다.
또한, "K. Toutanova, D. Klein, C. D. Manning, Y. Singer, "Feature-Rich Part-of-Speech Tagging with a Cyclic Dependency Network", NAACL, 2003."과 "S. -B. Park, B. -T. Zhang, "A boosted maximum entropy model for learning text chunking", ICML, 2002."는 최대 엔트로피 분류기에서결합(conjunction) 형태를 가지는 조합 자질을 사용하는 방법을 개시하고 있으나, 이러한 선행기술들의 자질 구축 방법은휴리스틱(heuristic)한 방법으로 정해지거나 또는 실시간으로 이루어지지 않는 문제점을 가지고 있다. 특히, 실시간으로 데이터를 다루는 일은 빅데이터 문제나 평생 학습과 같은 상황의 학습 문제에서 중요하다.
I. Guyon, A. Elisseeff, "An Introduction to Variables and Feature Selection", JMLR, 2003.
Y. Bengio, "Learning Deep Architectures for AI", Foundations and Trends in Machine Learning, 2009.
G. Zhou, K. Sohn, H. Lee, "Online Incremental Feature Learning with DenoisingAutoencoder" AISTATS, 2012.
B. -T. Zhang, "Hypernetworks: A molecular evolutionary architecture for cognitive learning and memory", IEEE Computational Intelligence Magazine, 2008.
E. -S. Kim, J. -W. Ha, B. -T. Zhang, "Mutual information-based evolution of hypernetworks for brain data analysis", CEC, 2011.
J. -W. Ha, B. -J. Lee, B. -T. Zhang, "Text-to-image retrieval based on incremental association via multimodal hypernetworks", IEEE SMC, 2012.
B. -T. Zhang, "Sparse population code models of word learning in concept drift", Cogsci, 2012.
K. Toutanova, D. Klein, C. D. Manning, Y. Singer, "Feature-Rich Part-of-Speech Tagging with a Cyclic Dependency Network", NAACL, 2003.
S. -B. Park, B. -T. Zhang, "A boosted maximum entropy model for learning text chunking", ICML, 2002.
M. Zinkevich, "Online convex programming and generalized infinitesimal gradient ascent", ICML, 2003.
D. Koller, N. Friedman, "Probabilistic graphical models: principles and techniques", 2009.
W. M. Soon, H. T. Ng, D. C. Y. Lim, "A Machine Learning Approach to Coreference Resolution of Noun Phrases", Computational Linguistics, 2001.
S. P. Ponzetto, M. Strube, "Exploiting semantic role labeling, WordNet and Wikipedia for coreference resolution", HLT-NAACL, 2006.
M. Hall, E. Frank, G. Holmes, B. Pfahringer, P. Reutemann, I. H. Witten, "The WEKA Data Mining Software: An Update", SIGKDD Explorations, 2009.
N. Boulanger-Lewandowski, Y. Bengio, P. Vincent, "Modeling Temporal Dependencies in High-Dimensional Sequences: Application to Polyphonic Music Generation and Transcription", ICML, 2012.
본 발명은 범주화된 데이터에 대하여 자질들을 구축할 수 있는 실시간 조합 자질 구축 기술을 제공하고자 한다.
본발명은빅 데이터 문제 또는 실시간 서비스 문제에 적용 가능한 실시간 조합 자질 구축 기술을 제공하고자 한다.
실시예들 중에서,범주화된 데이터를 기초로 분류기에서 사용되는 조합 자질을 실시간으로 구축하는 실시간 조합 자질 구축 방법은 실시간 조합 자질 구축 장치에서 수행된다. 실시간 조합 자질 구축 방법은 (a) 상기 데이터의 적어도 일부에 해당하는 입력 데이터를 수신하여, 기 설정된 조합 자질을 기초로 상기 입력 데이터의 클래스를 예측하는 단계;(b) 상기 예측한 클래스와 상기 입력 데이터의 실제 클래스가 일치하지 않으면, 상기 입력 데이터를 기초로 조합 자질을 구성하는 후보 조합 자질을 추출하는 단계; 및(c) 상기 추출된 후보 조합 자질을 기초로 상기 기 설정된 조합 자질을 갱신하는 단계를 포함한다.
여기에서, 상기 입력 데이터는입력 변수와 상기 실제 클래스를 포함할 수 있다.
일 실시예에서, 상기 (a) 단계는상기 범주화된 데이터 내 입력 데이터를 최초로 수신하는 경우, 상기 기 설정된 조합 자질을 초기화하는 단계를 더 포함할 수 있다.
일 실시예에서, 상기 (b) 단계는상기 입력 데이터의 형태를 조합하여 상기 후보 조합 자질의 형태를 결정하는 단계를 더 포함할 수 있다.
일 실시예에서, 상기 (b) 단계는복수의 후보 조합 자질들을 추출할 수 있다.
일 실시예에서, 상기 (b) 단계는상기 후보 조합 자질과 해당 클래스간의 상관 관계를 나타내는 상호 관련성이 가장 높은 후보 조합 자질을 추출할 수 있다.
일 실시예에서, 상기 (c) 단계는상기 추출된 후보 조합 자질이 결합된 조합 자질의 전체 가중치를 입력 데이터의 클래스 예측 확률이 높아지도록 "stochastic gradient descent"를 이용하여 수정하는 단계를 포함할 수 있다. 여기에서, 상기 후보 조합 자질은 상기 입력 데이터를 표현하는 정도를 나타내는 가중치에 해당할 수 있다.
일 실시예에서, 상기 (c) 단계는해당 가중치가 일정 수치 이하인 후보 조합 자질을 상기 조합 자질로부터 제거하는 단계를 더 포함할 수 있다.
실시예들 중에서, 범주화된 데이터를 기초로 분류기에서 사용되는 조합 자질을 실시간으로 구축하는 실시간 조합 자질 구축 방법을 수행하는 실시간 조합 자질 구축 장치는 상기 데이터의 적어도 일부에 해당하는 입력 데이터를 수신하여, 기 설정된 조합 자질을 기초로 상기 입력 데이터의 클래스를 예측하는 예측부; 및 상기 예측한 클래스와 상기 입력 데이터의 실제 클래스가 일치하지 않으면, 상기 입력 데이터를 기초로 조합 자질을 구성하는 후보 조합 자질을 추출하여 상기 기설정된 조합 자질을 갱신하는 학습부를 포함한다.
일 실시예에서, 상기 학습부는상기 입력 데이터를 기초로 조합 자질을 구성하는 후보 조합 자질을 추출하는 조합 자질 구축부;상기 추출된 후보 조합 조합 자질이 결합된 조합 자질의 전체 가중치를 입력 데이터의 클래스 예측 확률이 높아지도록 수정하는 가중치 학습부; 및해당 가중치가 일정 수치 이하인 후보 조합 자질을 상기 조합 자질로부터 제거하는 조합 자질 가지치기부를 포함할 수 있다.
일 실시예에서, 조합 자질 구축 장치는 상기 기 설정된 조합 자질과 상기 갱신된 조합 자질을 저장하는 조합 자질 데이터베이스를 더 포함할 수 있다.
개시된 기술은 다음의 효과를 가질 수 있다. 다만, 특정 실시예가 다음의 효과를 전부 포함하여야 한다거나 다음의 효과만을 포함하여야 한다는 의미는 아니므로, 개시된 기술의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.
본 발명의 일 실시예에 따른 실시간 조합 자질 구축 방법 및 조합 자질 구축 장치는 범주화된 데이터를 기초로 분류 예측 및 학습을 수행하여 범주화된 데이터에 대하여 자질들을 구축할 수 있다.
본 발명의 일 실시예에 따른 실시간 조합 자질 구축 방법 및 조합 자질 구축 장치는 입력 데이터에 맞게 실시간으로 자질들을 구축하여 빅 데이터 문제 또는 실시간 서비스 문제에 적용 가능할 수 있다.
개시된 기술은 다음의 효과를 가질 수 있다. 다만, 특정 실시예가 다음의 효과를 전부 포함하여야 한다거나 다음의 효과만을 포함하여야 한다는 의미는 아니므로, 개시된 기술의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.
본 발명의 일 실시예에 따른 실시간 조합 자질 구축 방법 및 조합 자질 구축 장치는 범주화된 데이터를 기초로 분류 예측 및 학습을 수행하여 범주화된 데이터에 대하여 자질들을 구축할 수 있다.
본 발명의 일 실시예에 따른 실시간 조합 자질 구축 방법 및 조합 자질 구축 장치는 입력 데이터에 맞게 실시간으로 자질들을 구축하여 빅 데이터 문제 또는 실시간 서비스 문제에 적용 가능할 수 있다.
본 발명의 일 실시예에 따른 실시간 조합 자질 구축 방법 및 조합 자질 구축 장치는 범주화된 데이터를 기초로 분류 예측 및 학습을 수행하여 범주화된 데이터에 대하여 자질들을 구축할 수 있다.
본 발명의 일 실시예에 따른 실시간 조합 자질 구축 방법 및 조합 자질 구축 장치는 입력 데이터에 맞게 실시간으로 자질들을 구축하여 빅 데이터 문제 또는 실시간 서비스 문제에 적용 가능할 수 있다.
본 발명에 관한 설명은 구조적 내지 기능적 설명을 위한 실시예에 불과하므로, 개시된 기술의 권리범위는 본문에 설명된 실시예에 의하여 제한되는 것으로 해석되어서는 아니 된다. 즉, 실시예는 다양한 변경이 가능하고 여러 가지 형태를 가질 수 있으므로 개시된 기술의 권리범위는 기술적 사상을 실현할 수 있는 균등물들을 포함하는 것으로 이해되어야 한다.
한편, 본 출원에서 서술되는 용어의 의미는 다음과 같이 이해되어야 할 것이다.
"제1", "제2" 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하기 위한 것으로 이들 용어들에 의해 권리범위가 한정되어서는 아니 된다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결될 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 한편, 구성요소들 간의 관계를 설명하는 다른 표현들, 즉 "~사이에"와 "바로 ~사이에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "포함하다" 또는 "가지다" 등의 용어는 설시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
각 단계들에 있어 식별부호(예를 들어, a, b, c, ...)는 설명의 편의를 위하여 사용되는 것으로 식별부호는 각 단계들의 순서를 설명하는 것이 아니며, 각 단계들은 문맥상 명백하게 특정 순서를 기재하지 않은 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 단계들은 명기된 순서와 동일하게 일어날 수도 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.
본 발명은 컴퓨터가 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현될 수 있고, 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있으며, 또한, 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
여기서 사용되는 모든 용어들은 다르게 정의되지 않는 한, 개시된 기술이 속하는 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한 이상적이거나 과도하게 형식적인 의미를 지니는 것으로 해석될 수 없다.
본 발명의 일 실시예에 따른 실시간 조합 구축 방법을 설명하기에 앞서, 조합 자질과 최대 엔트로피 분류기에 대하여 설명한다.
조합 자질이란 일부 입력 자질들의 결합(conjunction)으로 이루어진 함수에 해당한다. 본 발명에서 사용된 조합 자질의 정의는 아래의 [수학식 1]과 같이 정의한다.
여기에서, 는 조합 자질에 해당하고, 는 기본 자질(단위 벡터또는 단위 변수)를 추출하는 함수에 해당한다. 또한, x는 입력 벡터(또는 입력 변수)에 해당하고, y는 클래스(또는 출력 변수)에 해당하며, x와 y는 데이터(범주화된 데이터)에 포함된다. 는 n차원의 입력 벡터 x에 대한 i번째 조합 자질의 부분 집합에 해당한다.
도 1은 조합 자질을 설명하는 그래프이다.
도 1(a)을 참조하면, 최대 엔트로피 분류기에서 사용하는 종래의 자질들(feature)에 대한 팩터 그래프(factor graph)가 도시되어 있다. 아래의 동그라미는 입력 벡터(또는 입력 변수, x)를 나타내고, 위의 동그라미는 클래스(y)를 나타낸다. 즉, 종래의 엔트로피 분류기는 단일 입력 변수(x)와 클래스(y)간의 관계만을 표현한다.
도 1(c)를 참조하면, 종래의 자질들은 도 1(a)의 그래프에 따라, 하나의 입력 자질과 클래스를 포함한다. 도시된 바와 같이, 자질들은 {x1=1, y=true}, {x2=3, y=false}, {x3=2, y=true} 등을 포함한다.
도 1(b)를 참조하면, 최대 엔트로피 분류기에서 사용하는 조합 자질들이 도시되어 있다. 조합 자질은 입력 변수들 간의 관계를 클래스에 대한 조건부 독립으로 가정하지 않는다. 즉, 조합 자질은 자질들간의 관계를 표현하여 모델의 표현력을 높일 수 있다.
도 1(d)를 참조하면, 조합 자질들 각각은 도 1(c)의 그래프에 따라, 2개 이상의 입력 자질과 클래스를 포함한다. 도시된 바와 같이, 조합 자질이 2개의 입력 자질과 클래스를 포함하는 경우, {x1=1, x3=2, y=true}, {x2=3, x3=2, y=true} 등을 포함할 수 있고, 또한, 3개의 입력 자질을 포함하는 {x1=1, x2=3, x3=2, y=true}에 해당할 수 있다.
일 실시예에서, 조합 자질(및 조합 자질을 구성하는 후보 조합 자질, 또는 커널 자질)은 가중치를 포함할 수 있다. 여기에서, 가중치는 해당 조합 자질이데이터를 얼마나 잘 나타내는지를 수치적으로 표현한 값에 해당한다.
먼저, 앞서 설명한 조합 자질들을 최대 엔트로피 분류기에 적용하면 아래의 [수학식 3]을 얻을 수 있다.
이후, 수학식 3을 기초로 아래의 [수학식 4]와 같이 조합 자질의 가중치(또는 가중치에 대한 학습식)를 획득할 수 있다.
일 실시예에서, 상기 가중치에 대한 실시간 학습을 위하여, 아래의 수학식 5와 같은 SGD(stochastic gradient descent : 확률 기울기 감소) 학습 방법이 사용될 수 있다.
여기에서, λ는 상수, t는 시간(epoch)에 해당한다.
한편, 실시간 학습을 필요로 하는 기계학습 문제에서는 온라인(online) 학습 방법이 필수적이다.SGD 학습 방법은 온라인(online) 학습 상황에서 조건부 우도 값의 하한을 가진다. 구체적으로 집단(batch) 방식의 학습과 비교하여 전체 학습 데이터에 대한 오차가 을 상한으로 가짐이 보증되며, 이는 "M. Zinkevich, "Online convex programming and generalized infinitesimal gradient ascent", ICML, 2003."에 상세하게 개시되어 있다.
즉, 상기 온라인 변수(online parameter) 학습 방법은 집단 변수(batch parameter) 방법과 비교하여 새로운 학습 데이터 하나에 대해 누적되는 오차가 평균적으로 을 넘지 않도록 한다.
한편, 최대 엔트로피 분류기를 포함한 로그 선형(log linear) 모델의 가중치 학습은 컨벡스 최적화(convex optimization) 문제에 해당한다.이는 "D. Koller, N. Friedman, "Probabilistic graphical models: principles and techniques", 2009."에 개시되어 있으며, 가중치 학습의 결과가 항상 최적해(optimal solution)를 보장함을 의미하고, 이러한 성질은 각 온라인 학습 단계마다 예상치 않게 오류가 증폭되는 것을 막아주어 실시간 학습에서 큰 도움을 주는 효과가 있다.
도 2는 본 발명의 일 실시예에 따른 실시간 조합 자질 구축 방법을 설명하는 개략적인 흐름도이고, 도 3은 본 발명의 일 실시예에 따른 실시간 조합 자질 구축 알고리즘을 나타내는 예시도이다.
도 2를 참조하면, 실시간 조합 자질 구축 방법은 새로운 데이터(new data)를 수신하고, 데이터를 잘 표현하는 모델을 결정하며, 데이터의 기본 자질(raw feature)들로부터 상위 자질(high-level feature)들을 제공한다. 실시간 조합 자질 구축 방법은 제공된 상위 자질들을 기초로 조합 자질 모델(model of associative feature)을 생성하고, 조합 자질 모델의 가중치를 학습하며, 특정 자질들을 가지치기(pruning, 또는 제거)한다. 실시간 조합 자질 구축 방법은 이러한 과정을 반복적으로 수행하여 데이터를 잘 표현하는 조합 자질을 구축할 수 있다.
도 3을 참조하면, 본 발명의 일 실시예에 따른 실시간 조합 자질 구축 방법은조합 자질과 이에 상응하는 가중치 w=(w1, w2, ..., wk)를 실시간으로 들어오는 N개의 학습 데이터(X,Y) = {(x1, y1), .., (xn, yn)})에 맞추어 학습한다. 여기에서, 조합 자질의 수 K는 학습 데이터에 맞게 조절될 수 있다.
실시간 조합 자질 구축 방법은 후보 조합 자질(조합 자질에 포함되는 자질)을 실시간(incremental online)으로 생성하거나 또는 제거하고,또한 그 가중치를 실시간(online)으로 변경한다. 이는 도 3의 7행 내지 10행에 도시되어 있다.
보다 구체적으로, 도 3에 도시된 알고리즘은 실시간으로 들어오는 데이터(xn, yn) 각각에 대하여 학습을 수행한다.한편, 실시간 조합 자질 구축 방법은 새로운 데이터를 학습하기 위해서, 기존 데이터{(x1, y1), .., (xn-1, yn-1)}를 저장하는 과정은 필요로 하지 않는다.이하에서는, 기존 데이터에 대한 정보가 조합 자질 Φ와 가중치 w에 어느 정도 보존되어 있다고 가정하고, 5 단계(초기화, 예측, 조합 자질 추출, 가중치 수정 및 가지치기)로 구분하여 상세히 설명한다.
- 초기화 :조합 자질 Φ와 가중치 w는 초기값으로 빈 집합을 가질 수 있다(도 3의 2행과 3행).한편, 조합 자질의 수 K의 초기값은 O에 해당한다.학습이 진행되면서 K는 데이터의 정보에 따라 증가하거나 또는 감소할 수 있다.
- 예측 :조합 자질 구축 방법은 실시간으로 들어오는 데이터 (x(n), y(n))에 대해 주어진 파라미터Φ와 w를 바탕으로, x(n)에 대해 y(n)을 예측할 수 있다(도 3의 5행).조합 자질 구축 방법은 앞서 설명한 수학식 3을 이용하여 y(n)을 예측할 수 있다.
- 조합 자질 추출 :조합 자질 구축 방법은 y(n)에 대한 예측이 틀렸을 경우에 한하여, 새로운 조합 자질을 뽑아 알고리즘에 부족한 정보를 추가한다(도 3의 6행). 이 때 조합 자질의 형태는 앞서 설명한 수학식 1로 정의된다.
한편, 조합 자질들의 후보를 효율적으로 추출하는 데에 다양한 방법이 사용될 수 있으나, 본 발명의 일 실시예에 따른 실시간 조합 자질 구축 방법은 자질들이 데이터의 분포를 온전히 반영하게 하기 위하여, 자질들의 형태를 실제 데이터(x(n), y(n))의 값에서 도출할 수 있다.
도 4는 도 2에 있는 후보 조합 자질을 추출하는 방법을 설명하는 도면이다.
도 4를 참조하면, 입력 데이터가 (x1=1, x2=3, x3=2, x4=1, y=true)에 해당하는 경우, 실시간 조합 자질 구축 방법은 후보 조합 자질들의 형태를 입력 데이터로부터 도출하여, 각각 (x1=1, x3=2, y=true), (x2=3, x3=2, y=true)에 해당하는 후보 조합 자질들 Φ1과 Φ2를 추출할 수 있다.
일 실시예에서, 실시간 조합 자질 구축 방법은 y(n)에 대한 예측이 실패한 경우, 평균 2개의 후보 조합 자질들을 추출할 수 있다. 예를 들어, 후술할 가지치기(pruning)을 고려하지 않는다면, 실시간 조합 자질 구축 방법은 전체 데이터 수 N과 yn을 맞춘 횟수 L에 대해 평균 2(N-L) 개의 조합 자질을 만들거나 또는 추출할 수 있다. 여기에서, 최초로 추출된 후보 조합 자질의 초기 가중치는 1에 해당할 수 있다.
한편, 후보 조합 자질들을 구성하는 자질들과 클래스간의 관계가 높은 것을 선호하기 위하여, 후보 조합 자질을 추출할 때 상호 정보량(mutual information)을 이용할 수 있다. 여기에서, 상호 정보량은 아래의 수학식 6과 같이 나타날 수 있다.
여기에서, I(X;Y)는 X와 Y간의 상호 정보량에 해당하고, p()는 확률 함수에 해당한다. 후보 조합 자질과 클래스간 상호 정보량의 값이 크다는 것은 후보 조합 자질과 클래스간의 관계가 높다는 것을 의미한다.
- 가중치 수정 :후보 조합 자질을 추출한 후에는 조합 자질에 대한 전체 가중치를 새로운 데이터에 맞게 수정한다(도 3의 8행 및 9행).
실시간 조합 자질 구축 방법은 앞서 설명한 수학식 4와 5를 이용하여 가중치를 수정할 수 있다. 즉, 도 3의 "learn" 함수는 조합 자질(또는 후보 조합 자질들 각각)에 대하여 수학식 4를 수행하는 함수에 해당한다. 한편, 9행의 수식은 수학식 5를 이용하여 실제 가중치에 각각 더해주는 수식에 해당한다. 여기에서, 9행의 η(n) 함수는 임의의 상수 λ에 대해 에 해당한다.
- 가지치기(pruning) : 가중치 학습 후에 후보 조합 자질들 중에서 좋은 후보만을 선택하기 위하여 가지치기가 사용될 수 있다(도 3의 10행).
일반적으로, 다양한 가지치기가 존재할 수 있으나, 도 3의 알고리즘에서는 상응하는 가중치 wi가 0이하인 조합 자질 Φi를 제거하는 것을 예시적으로 도시하고 있다. 여기에서, 가중치 wi가 0이하에 해당하는 것은, 상응하는 조합 자질에 표현된 값들이 실제 데이터로 들어오지 않을 가능성이 높음을 의미한다.
한편, 도 3의 7행과 10행의 덧셈 뺄셈과 9행의 덧셈은 다른 의미를 가진다. 9행의 덧셈은 벡터에 대한 단순 덧셈에 해당하고, 7행과 10행의 덧셈과 뺄셈은 집합의 원소를 추가하고 제거하는 연산자에 해당한다.
도 5는 본 발명의 일 실시예에 따른 조합 자질 구축 장치를 설명하는 블록도이다.
조합 자질 구축 장치는 앞서 설명한 실시간 조합 자질 구축 방법을 수행하여 범주화된 데이터를 기초로 분류기에서 사용되는 조합 자질을 실시간으로 구축한다.
도 3을 참조하면, 조합 자질 구축 장치는 데이터 수신부, 예측부, 학습부, 조합 자질 데이터베이스(DB) 및 제어부를 포함한다.
데이터 수신부는입력 데이터를 수신한다. 여기에서, 입력 데이터는 범주화된 데이터의 적어도 일부에 해당한다. 예를 들어, 범주화된 데이터를 (X,Y) = (x1, y1), .. (xn, yn)}로 표현 가능한 경우, 입력 데이터는 (x1, y1)에 해당할 수 있다.
일 실시예에서, 입력 데이터는 입력 변수와 클래스를 포함할 수 있다. 입력 변수는 자질에 대응되는 데이터에 해당하고, 실제 클래스는 입력 변수에 따라 분류되어야 할 집합에 해당한다.
일 실시예에서, 데이터 수신부는 구축된 조합 자질을 분류기에 제공할 수 있다. 여기에서, 분류기는 최대 엔트로피 분류기에 해당할 수 있다.
예측부는 기 설정된 조합 자질을 기초로 수신한 입력 데이터의 클래스를 예측한다. 여기에서, 기 설정된 조합 자질은 실시간으로 수행되는 조합 자질 구축에 따라 구축된 조합 자질에 해당하고, 예를 들어, 후술할 학습부에 의해 구축되어 조합 자질 데이터베이스에 저장된 조합 자질에 해당할 수 있다.
예를 들어, 입력 데이터가 (xn, yn)에 해당하는 경우, 예측부는기 설정된 조합 자질(과 가중치)를 기초로 입력 변수 xn에 대한 클래스 yn을 예측할 수 있고,예측하는 과정에서 앞서 설명한 수학식 3을 이용할 수 있다.
일 실시예에서, 예측부는 범주화된 데이터 내 입력 데이터를 최초로 수신하는 경우, 기 설정된 조합 자질을 초기화할 수 있다. 즉, 데이터가 최초로 입력되기 이전에 기 설정된 조합 자질은 빈 상태(empty)에 해당할 수 있다.
학습부는 예측부의 예측 결과를 기초로 조합 자질을 구축하고, 구축된 조합 자질의 가중치를 학습하며, 특정 조건을 만족하는 조합 자질을 제거한다.
일 실시예에서, 학습부는 조합 자질 구축부, 가중치 학습부 및 조합 자질 가지치기부를 포함할 수 있다.
조합 자질 구축부는예측부의 결과를 기초로 조합 자질을 구축한다. 보다 구체적으로, 조합 자질 구축부는예측부의 예측이 틀렸을 경우에 한하여, 새로운 조합 자질을 추출하여 조합 자질 구축 알고리즘에 부족한 정보를 추가한다. 즉, 조합 자질 구축부는 새로운 조합 자질을 추출하여 기 설정된 조합 자질에 결합(또는 포함)시키는 방식으로 기 설정된 조합 자질을 보완한다. 여기에서, 결합은 후보 조합 들의 집합으로 이루어진 조합 자질에 새롭게 추출된 후보 조합 자질을 포함시키는 것에 해당한다.
일 실시예에서, 조합 자질 구축부는클래스 예측부에서 예측한 클래스와 입력 데이터의 실제 클래스가 일치하지 않으면, 입력 데이터를 기초로 조합 자질을 구성하는 후보 조합 자질을 추출할 수 있다.
조합 자질 구축부는클래스 예측부에서 예측한 클래스와 입력 데이터의 실제 클래스가 일치하는지 여부를 판단할 수 있고, 이를 수행하는 별도의클래스 비교부(미도시)를 더 포함할 수 있다.
기 설정된 조합 자질을 기초로 예측한 클래스가 입력 데이터의 실제 클래스와 일치하는 경우는 기 설정된 조합 자질이 데이터를 잘 나타내는 좋은 자질에 해당함을 증명하는 것이므로, 조합 자질 구축부는 후보 조합 자질을 추출하지 않을 수 있다.
이와 달리, 기 설정된 조합 자질을 기초로 예측한 클래스가 입력 데이터의 실제 클래스와 일치하지 않는 경우는 기 설정된 조합 자질이 데이터를 잘 나타내는 좋은 자질에 해당하지 않음을 의미하므로, 조합 자질 구축부는 보다 좋은 조합 자질을 구축하기 위하여 후보 조합 자질을 추출할 수 있다.
일 실시예에서, 조합 자질 구축부는 입력 데이터의 형태를 조합하여 후보 조합 자질의 형태를 결정할 수 있다.앞서 정의한 조합 자질의 형태와 같이,조합 자질은 입력 데이터의 형태를 그대로 유지할 수 있고, 이를 통해, 입력 데이터의 분포를 온전히 반영할 수 있다.
일 실시예에서, 조합 자질 구축부는 복수의 후보 조합 자질들을 추출할 수 있다.예를 들어, 조합 자질 구축부는 2개의 후보 조합 자질들을 추출할 수 있고, 후술할 가지치기(pruning)을 고려하지 않는다면, 조합 자질은 전체 데이터 수 N과 yn을 맞춘 횟수 L에 대해 평균 2(N-L) 개 만들어질 수 있다.
일 실시예에서, 조합 자질 구축부는 후보 조합 자질과 클래스간의 상관 관계를 나타내는 상호 관련성이 가장 높은 후보 조합 자질을 추출할 수 있다. 여기에서, 상호 관련성은 앞서 설명한 상호 정보량에 해당한다.
상호 정보량이 높다는 것은 해당 자질과 클래스간의 관련성이 높다는 것을 의미하고, 이는 자질이 클래스와 연관하여 데이터를 나타내는 데 적합함을 의미한다.
본 발명의 일 실시예에 따른 실시간 조합 자질 구축 방법은 실제 데이터(입력 데이터)에서 조합 자질을 추출하는 방법과 상호 정보량을 이용하는 방법을 모두 이용하여 분류기의 분류 성능을 향상시키는 효과를 가진다.
일 실시예에서, 후보 조합 자질은 입력 데이터를 표현하는 정도를 나타내는 가중치를 포함하고, 가중치는 앞서 설명한 수학식에 의해 결정될 수 있다. 조합 자질은 후보 조합 자질로 구성됨에 따라, 조합 자질 내 후보 조합 자질들 각각은 가중치를 포함할 수 있다.조합 자질 구축부에 의해 추출된 후보 조합 자질에 대한 가중치는 특정 값(예를 들어, 1)으로 설정될 수 있다.
가중치 학습부는결합된 조합 자질의 전체 가중치를 수정하는 방식으로 조합 자질을 갱신한다. 보다 구체적으로, 가중치 학습부는앞서 설명한 수학식 4 및 5에 따라 결합된 조합 자질의 전체 가중치를 수정할 수 있다.
한편, 도 4에 도시된 learn 함수는 수학식 4를 각 조합 자질에 대해 수행하는 함수에 해당하고, 9행의 수식은 수학식 5를 계산하여 실제 가중치를 더해주는 수식에 해당한다. 여기에서, 9행의η(n)함수는 임의의 상수 λ에 대해 에 해당한다.
조합 자질 가지치기부는 특정 조건을 만족하는 조합 자질을 가지치기(pruning, 제거)할 수 있다. 보다 구체적으로, 조합 자질 가지치기부는가중치가 일정 수치 이하인 후보 조합 자질을 조합 자질로부터 제거할 수 있다.
즉, 조합 자질 가지치기부는 후보 조합 자질이 결합되고, 후보 조합 자질들 각각의 가중치가 수정됨에 따라, 데이터를 표현하기에 적합하지 않은 것으로 판단되는 후보 조합 자질을 제거(pruning)하는 방식으로 좋은 조합 자질을 구축할 수 있다.
예를 들어, 조합 자질 가지치기부는후보 조합 자질의 가중치가 감소함에 따라 특정 수치(예를 들어, 0) 이하에 해당하는 경우, 해당 후보 조합 자질에 대응하는 데이터가 입력될 가능성이 낮은 것을 의미하므로, 해당 후보 조합 자질은데이터를 표현하기에 적합하지 못한 자질로 판단하여 이를 조합 자질로부터 제거할 수 있다.
본 발명의 일 실시예에 따른 실시간 조합 자질 구축 장치는 조합 자질 구축부를 통해 추출된 후보 조합 자질을 조합 자질에 결합시켜 모델의 표현력을 증대시키고, 조합 자질 가지치기부를 통해 조합 자질 구축부에 의해 발생할 수 있는 과적합(overfitting)을 방지할 수 있다.
조합 자질 데이터베이스는 학습부에서 생성 또는 갱신된 조합 자질을 저장하고, 예측부 또는 분류기의 요청에 따라 저장된 조합 자질을 제공할 수 있다.
제어부는 데이터 수신부, 예측부, 학습부 및 조합 자질 데이터베이스간의 데이터 흐름을 제어한다.
본 발명의 일 실시예에 따른 실시간 조합 자질 구축 장치는후보 조합 자질을 데이터의 특성에 맞게 추출할 수 있고, 데이터 표현에 적합하지 않은 자질들을 제거하여기계 학습의 성능을 향상시킬 수 있다.
이하에서는, 자연어 처리 문제와 음악 생성 문제에 대한 조합 자질 구축 방법의 실험 결과를 설명한다.
NB | SVM* | SVM** | DT | MaxEnt | Proposed Model | |
F-Score | 0.524 | 0.428 | 0.554 | 0.529 | 0.537 | 0.562 |
표 1은 자연어 처리 문제에 해당하는 동일 지시어 문제(coreference resolution problem)에 대한 실험 결과를 나타낸다. 여기에서, 동일 지시어 문제란 문서 내에서 등장하는 두 단어가 같은 단어인지 여부를 판단하는 문제에 해당한다. 이 문제를 해결하기 위하여 동일 지시어 문제를 분류 문제로 보는 "W. M. Soon, H. T. Ng, D. C. Y. Lim, "A Machine Learning Approach to Coreference Resolution of Noun Phrases", Computational Linguistics, 2001."의 패러다임을 이용하였다.
표 1의 실험 데이터로는 CONLL 2011의 "contest"에서 사용된 데이터가 이용되었고, 문서 10개를 학습하고 다른 문서 10개로 검증하였으며, 그 성능을 "F-Score"로 비교하고 있다.
표 1을 참조하면, NB는 naive Bayes, SVM은 support vector machine, DT는 decision tree에 해당한다.3 개의 알고리즘은 weka를 통해서 실험하였다(M. Hall, E. Frank, G. Holmes, B. Pfahringer, P. Reutemann, I. H. Witten, "The WEKA Data Mining Software: An Update", SIGKDD Explorations, 2009. 참조).
SVM*와 SVM**는 각각 SVM, poly kernel과 SVM, RBF kernel, gamma -0.04에 해당하고, 단지 사용된 kernel의 종류에만 차이가 있으며, 후자는 SVM의 parameter를 tuning한 결과에 해당한다.
한편, 표에서 MaxEnt는 고전적인 최대 엔트로피 분류기를 의미하며, Proposed model은 본 발명의 일 실시예에 따른 실시간 조합 자질 구축 방법을 최대 엔트로피 분류기에 적용한 모델에 해당한다. 두 알고리즘은 같은 분류기를 사용하지만, 알고리즘이 사용하는 자질은 서로 다르다.
표 1을 참조하면, 실시간 조합 자질 구축 방법은 F-Score 0.562를 나타내며, 0.428 내지 0.554를 나타내는 기존의 최대 엔트로피 분류기뿐 아니라 다른 전통적인 분류기들보다 좋은 성능을 나타낸다.
NB | SVM | DT | Proposed Model | |
Accuracy (%) | 25.89 | 27.92 | 23.69 | 29.34 |
표 2는 노래에서 다음 음을 맞추는 문제에 대한 실험 결과를 나타낸다.
노래의 다음 음이 무엇인지를 맞추는 음 예측 문제는 실제 노래에서 현재 음까지의 음(pitch)을 듣고 다음 음이 무엇인지 맞추는 문제에 해당한다. 실험에 사용된 데이터는 비틀즈의 노래 40곡의 midi 이며, 곡 단위로 잘라 10-cross validation을 수행하고 그 성능을 accuracy로 비교하였다. 참고로, 본 발명의 일 실시예에 따른 실시간 조합 자질 구축 방법은 n-gram 방식의 변형을 통하여 음악의 통계적인 경향성을 따라가려는 시도를 하였다.
표 2를 참조하면, 실시간 조합 자질 구축 방법이 적용된 분류기는 정확도 29.34%를 가지고,23.69% 내지 27.92%를 나타내는 다른 분류기들에 비해 좋은 성능을 나타낸다.
상기에서는 본 출원의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
500 : 조합 자질 구축 장치
510 : 데이터 수신부
520 : 예측부
530 : 학습부
531 : 조합 자질 구축부
532 : 가중치 학습부
533 : 조합 자질 가지치기부
540 : 조합 자질 데이터베이스
550 : 제어부
510 : 데이터 수신부
520 : 예측부
530 : 학습부
531 : 조합 자질 구축부
532 : 가중치 학습부
533 : 조합 자질 가지치기부
540 : 조합 자질 데이터베이스
550 : 제어부
Claims (13)
- 실시간 조합 자질 구축 장치에서 수행되고, 범주화된 데이터를 기초로 분류기에서 사용되는 조합 자질을 실시간으로 구축하는 실시간 조합 자질 구축 방법에 있어서,
(a) 상기 데이터의 적어도 일부에 해당하는 입력 데이터를 수신하여, 기 설정된 조합 자질을 기초로 상기 입력 데이터의 클래스를예측하는 단계;
(b) 상기 예측한 클래스와 상기 입력 데이터의 실제 클래스가 일치하지 않으면, 상기 입력 데이터를 기초로 조합 자질을 구성하는 후보 조합 자질을 추출하는 단계; 및
(c) 상기 추출된 후보 조합 자질을 기초로 상기 기 설정된 조합 자질을 갱신하는 단계를 포함하는실시간 조합 자질 구축 방법.
- 제1항에 있어서, 상기 입력 데이터는
입력 변수와 상기 실제 클래스를 포함하는 것을 특징으로 하는 실시간 조합 자질 구축 방법.
- 제1항에 있어서, 상기 (a) 단계는
상기 범주화된 데이터 내 입력 데이터를 최초로 수신하는 경우, 상기 기 설정된 조합 자질을 초기화하는 단계를 더 포함하는 것을 특징으로 하는 실시간 조합 자질 구축 방법.
- 제1항에 있어서, 상기 (b) 단계는
상기 입력 데이터의 형태를 조합하여 상기 후보 조합 자질의 형태를 결정하는 단계를 더 포함하는 실시간 조합 자질 구축 방법.
- 제1항에 있어서, 상기 (b) 단계는
복수의 후보 조합 자질들을 추출하는 것을 특징으로 하는 실시간 조합 자질 구축 방법.
- 제1항에 있어서, 상기 (b) 단계는
상기 후보 조합 자질과 해당 클래스간의 상관 관계를 나타내는 상호 관련성이 가장 높은 후보 조합 자질을 추출하는 것을 특징으로 하는 실시간 조합 자질 구축 방법.
- 제1항에 있어서, 상기 후보 조합 자질은
상기 입력 데이터를 표현하는 정도를 나타내는 가중치를 포함하는 것을 특징으로 하는 실시간 조합 자질 구축 방법.
- 삭제
- 제7항에 있어서, 상기 (c) 단계는
해당 가중치가 일정 수치 이하인 후보 조합 자질을 상기 조합 자질로부터 제거하는 단계를 더 포함하는 실시간 조합 자질 구축 방법.
- 범주화된 데이터를 기초로 분류기에서 사용되는 조합 자질을 실시간으로 구축하는 실시간 조합 자질 구축 방법을 수행하는 실시간 조합 자질 구축 장치에 있어서,
상기 데이터의 적어도 일부에 해당하는 입력 데이터를 수신하여, 기 설정된 조합 자질을 기초로 상기 입력 데이터의 클래스를 예측하는 예측부;
상기 예측한 클래스와 상기 입력 데이터의 실제 클래스가 일치하지 않으면, 상기 입력 데이터를 기초로 조합 자질을 구성하는 후보 조합 자질을 추출하여 상기 기설정된 조합 자질을 갱신하는 학습부를 포함하는 실시간 조합 자질 구축 장치.
- 제10항에 있어서, 상기 학습부는
상기 입력 데이터를 기초로 조합 자질을 구성하는 후보 조합 자질을 추출하는 조합 자질 구축부;
상기 추출된 후보 조합 조합 자질이 결합된 조합 자질의 전체 가중치를 입력 데이터의 클래스 예측 확률이 높아지도록 수정하는 가중치 학습부; 및
해당 가중치가 일정 수치 이하인 후보 조합 자질을 상기 조합 자질로부터 제거하는 조합 자질 가지치기부를 포함하는 실시간 조합 자질 구축 장치.
- 제10항에 있어서,
상기 기 설정된 조합 자질과 상기 갱신된 조합 자질을 저장하는 조합 자질 데이터베이스를 더 포함하는 조합 자질 구축 장치.
- 제1항의 방법을 구현하기 위한 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록매체.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020140021580A KR101559376B1 (ko) | 2014-02-24 | 2014-02-24 | 엔트로피를 최대화하는 실시간 조합 자질 구축 방법 및 이를 수행하는 조합 자질 구축 장치 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020140021580A KR101559376B1 (ko) | 2014-02-24 | 2014-02-24 | 엔트로피를 최대화하는 실시간 조합 자질 구축 방법 및 이를 수행하는 조합 자질 구축 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20150100155A KR20150100155A (ko) | 2015-09-02 |
KR101559376B1 true KR101559376B1 (ko) | 2015-10-12 |
Family
ID=54241911
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020140021580A KR101559376B1 (ko) | 2014-02-24 | 2014-02-24 | 엔트로피를 최대화하는 실시간 조합 자질 구축 방법 및 이를 수행하는 조합 자질 구축 장치 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101559376B1 (ko) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009116662A (ja) | 2007-11-07 | 2009-05-28 | National Institute Of Information & Communication Technology | 質問応答装置、質問応答方法、及びプログラム |
WO2013125286A1 (ja) | 2012-02-23 | 2013-08-29 | 独立行政法人情報通信研究機構 | ノン・ファクトイド型質問応答システム及びコンピュータプログラム |
-
2014
- 2014-02-24 KR KR1020140021580A patent/KR101559376B1/ko active IP Right Grant
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009116662A (ja) | 2007-11-07 | 2009-05-28 | National Institute Of Information & Communication Technology | 質問応答装置、質問応答方法、及びプログラム |
WO2013125286A1 (ja) | 2012-02-23 | 2013-08-29 | 独立行政法人情報通信研究機構 | ノン・ファクトイド型質問応答システム及びコンピュータプログラム |
Non-Patent Citations (1)
Title |
---|
마이크로어레이 기반 miRNA 모듈 분석을 위한 하이퍼망 분류 기법, 장병탁외2인, (2008.06.30), http://bi.snu.ac.kr/~scai/Publications/Journals/Domestic/KIISE35_6_SKim_SJKim.pdf* |
Also Published As
Publication number | Publication date |
---|---|
KR20150100155A (ko) | 2015-09-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10380236B1 (en) | Machine learning system for annotating unstructured text | |
CN110379409B (zh) | 语音合成方法、系统、终端设备和可读存储介质 | |
CN109933656B (zh) | 舆情极性预测方法、装置、计算机设备及存储介质 | |
US10262272B2 (en) | Active machine learning | |
KR102189688B1 (ko) | 동의어 추출 방법 | |
JP6962532B1 (ja) | 事象予測装置および事象予測用プログラム | |
US20150095017A1 (en) | System and method for learning word embeddings using neural language models | |
CN111081230B (zh) | 语音识别方法和设备 | |
US11954202B2 (en) | Deep learning based detection of malicious shell scripts | |
CN112507699A (zh) | 一种基于图卷积网络的远程监督关系抽取方法 | |
CN110390017A (zh) | 基于注意力门控卷积网络的目标情感分析方法及系统 | |
CN111563161B (zh) | 一种语句识别方法、语句识别装置及智能设备 | |
Swietojanski et al. | Structured output layer with auxiliary targets for context-dependent acoustic modelling | |
KR102465571B1 (ko) | 문서 데이터의 주제어 분류를 수행하는 기법 | |
US20190228297A1 (en) | Artificial Intelligence Modelling Engine | |
Gnanasekaran et al. | Using Recurrent Neural Networks for Classification of Natural Language-based Non-functional Requirements. | |
CN112634992A (zh) | 分子性质预测方法及其模型的训练方法及相关装置、设备 | |
CN111241820A (zh) | 不良用语识别方法、装置、电子装置及存储介质 | |
CN116361788A (zh) | 一种基于机器学习的二进制软件漏洞预测方法 | |
CN116450839A (zh) | 知识增强预训练语言模型知识注入和训练方法及系统 | |
US20220138425A1 (en) | Acronym definition network | |
CN112131363A (zh) | 自动问答方法、装置、设备及存储介质 | |
CN116257601A (zh) | 一种基于深度学习的违法词库构建方法及系统 | |
CN116662991A (zh) | 基于人工智能的智能合约意图检测方法 | |
KR101559376B1 (ko) | 엔트로피를 최대화하는 실시간 조합 자질 구축 방법 및 이를 수행하는 조합 자질 구축 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20181001 Year of fee payment: 4 |