KR101837262B1 - 단어 자질 가중치를 적용한 딥 러닝 기반 개체 유형 분류 방법 - Google Patents

단어 자질 가중치를 적용한 딥 러닝 기반 개체 유형 분류 방법 Download PDF

Info

Publication number
KR101837262B1
KR101837262B1 KR1020160017364A KR20160017364A KR101837262B1 KR 101837262 B1 KR101837262 B1 KR 101837262B1 KR 1020160017364 A KR1020160017364 A KR 1020160017364A KR 20160017364 A KR20160017364 A KR 20160017364A KR 101837262 B1 KR101837262 B1 KR 101837262B1
Authority
KR
South Korea
Prior art keywords
word
weight
context word
context
qualities
Prior art date
Application number
KR1020160017364A
Other languages
English (en)
Other versions
KR20170096282A (ko
Inventor
맹성현
김부근
강준영
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to KR1020160017364A priority Critical patent/KR101837262B1/ko
Publication of KR20170096282A publication Critical patent/KR20170096282A/ko
Application granted granted Critical
Publication of KR101837262B1 publication Critical patent/KR101837262B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06F17/271
    • G06F17/277
    • G06F17/278

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

일 실시예에 따른 개체의 유형을 분류하는 방법은, 문맥 단어로부터 단어의 자질을 기반으로 가중치를 계산하는 단계; 상기 단어의 자질을 기반으로 상기 문맥 단어의 가중치를 계산함에 따라 상기 문맥 단어를 가중치 값으로 변환하는 단계; 상기 문맥 단어의 가중치 값을 각 단어의 벡터와 결합하여 가중치 반영 벡터를 계산하는 단계; 및 상기 문맥 단어로부터 계산된 가중치 반영 벡터를 기학습된 인공신경망에 기반한 개체 유형으로 분류하는 단계를 포함할 수 있다.

Description

단어 자질 가중치를 적용한 딥 러닝 기반 개체 유형 분류 방법{DEEP LEARNING TYPE CLASSIFICATION METHOD WITH FEATURE-BASED WEIGHTING}
아래의 설명은 개체 유형 분류 시스템의 성능 향상을 위한 단어 자질 가중치 적용 기술에 관한 것이다.
질의응답 기술은 인간이 제기한 자연어 질문에 가장 근접한 정답을 제공한다. 특히, 열린 분야의 질의응답을 위해서는 광범위한 지식이 필요하다. 이러한 지식의 기초자료로 웹이 가장 적합하지만 웹 텍스트의 의미를 해석하기 위해서는 언어 처리 과정이 필요하다. 개체 언급의 유형을 분류하는 기술은 주어진 개체의 의미 유형을 결정하는 기술로 언어 처리 과정을 지원한다.
한국공개특허 제10-2013-0005967호는 개체 식별 결과 검색 시스템 및 방법에 관한 것으로, 개체들에 대한 속성정보가 온톨로지로 저장된 다중 온톨로지 데이터베이스와 트리플 저장모듈로부터 각각 개체 식별결과를 획득하고, 해당 결과들을 비교하여 개체식별 필요 여부를 판단한 뒤, 개체식별이 필요한 경우 상기 다중 온톨로지 데이터베이스로부터 식별대상 개체의 속성정보를 획득 및 비교하여 개체들을 식별한다. 하지만 상기 특허는 온톨로지 속성정보에 의존하고 있기 때문에 해당 온톨로지 데이터베이스의 규모에 따른 한계를 보이고 있다.
또한, 기존의 개체 분류 시스템은 수동 생성된 자질을 사용하여 학습하거나 단어표현을 이용하여 인공신경망을 학습시킴으로써 작동하였다. 인공신경망을 사용하기 위해서는 다량의 학습데이터가 필요하고, 단어 자질만으로는 충분한 성능이 확보되지 않기 때문에, 소량의 데이터 위에서 유의미한 성능의 분류기를 구축하기 위해선 두 방식의 적절한 융합이 필요하다.
본 발명이 해결하고자 하는 과제는 개체와 문맥의 단어표현(Word Embedding)을 학습한 인공신경망(Neural Network)에 기반한 개체 유형 분류 시스템의 성능 향상을 위한 단어 자질 가중치 적용 방법을 제안한다.
일 실시예에 따르면, 개체의 유형을 분류하는 방법은, 문맥 단어로부터 단어의 자질을 기반으로 가중치를 계산하는 단계; 상기 단어의 자질을 기반으로 상기 문맥 단어의 가중치를 계산함에 따라 상기 문맥 단어를 가중치 값으로 변환하는 단계; 상기 문맥 단어의 가중치 값을 각 단어의 벡터와 결합하여 가중치 반영 벡터를 계산하는 단계; 및 상기 문맥 단어로부터 계산된 가중치 반영 벡터를 기학습된 인공신경망에 기반한 개체 유형으로 분류하는 단계를 포함할 수 있다.
일측에 따르면, 상기 단어의 자질은, 상기 문맥 단어가 가질 수 있는 문장 내의 구문 구조적 특성 또는 말뭉치 내의 통계적 속성으로 상기 문맥 단어와 개체명 사이의 의존구문 구조, 상기 문맥 단어의 품사, 말뭉치 내의 공기 빈도수나 출현 빈도수 또는 통계적 변형 중 적어도 하나를 포함할 수 있다.
또 다른 일측에 따르면, 상기 개체 유형 분류 방법은, 상기 문맥 단어의 속성을 입력 문장과 말뭉치 기반의 자질 데이터를 통하여 훈련 집합의 통계적 특성을 사용하여 상기 문맥 단어로부터 상기 단어의 자질을 계산하는 단계를 더 포함할 수 있다.
또 다른 일측에 따르면, 상기 문맥 단어로부터 단어의 자질을 기반으로 가중치를 계산하는 단계는, 기학습된 가중치 함수를 사용하여 상기 문맥 단어의 단어 자질을 단일한 가중치 값으로 변환하는 단계를 포함할 수 있다.
또 다른 일측에 따르면, 상기 기학습된 가중치 함수는, 훈련집합의 문맥 단어의 단어 자질과 상기 훈련집합의 문맥 단어의 단어 자질을 이용한 분류 결과로부터 자동 학습될 수 있다.
또 다른 일측에 따르면, 상기 문맥 단어로부터 계산된 가중치 반영 벡터를 기학습된 인공신경망에 기반한 개체 유형으로 분류하는 단계는, 상기 문맥 단어의 가중치 반영 벡터를 기학습된 인공신경망에 입력하여 각 문맥 단어의 개체 유형의 확률값을 획득하는 단계를 포함할 수 있다.
또 다른 일측에 따르면, 상기 문맥 단어로부터 계산된 가중치 반영 벡터를 기학습된 인공신경망에 기반한 개체 유형으로 분류하는 단계는, 상기 문맥 단어의 개체 유형으로부터 획득된 확률값 중 최대 확률값에 해당하는 개체 유형으로 반환되는 단계를 포함할 수 있다.
또 다른 일측에 따르면, 상기 문맥 단어로부터 계산된 가중치 반영 벡터를 기학습된 인공신경망에 기반한 개체 유형으로 분류하는 단계는, 상기 문맥 속의 개체명을 미리 설정된 유형 중 하나로 기계 학습을 통하여 분류할 수 있다.
일 실시예에 따르면, 개체의 유형을 분류하는 방법을 실행시키기 위해 기록매체에 저장된 컴퓨터 프로그램에 있어서, 상기 개체의 유형을 분류하는 방법은, 문맥 단어로부터 단어의 자질을 기반으로 가중치를 계산하는 단계; 상기 단어의 자질을 기반으로 상기 문맥 단어의 가중치를 계산함에 따라 상기 문맥 단어를 가중치 값으로 변환하는 단계; 상기 문맥 단어의 가중치 값을 각 단어의 벡터와 결합하여 가중치 반영 벡터를 계산하는 단계; 및 상기 문맥 단어로부터 계산된 가중치 반영 벡터를 기학습된 인공신경망에 기반한 개체 유형으로 분류하는 단계를 포함할 수 있다.
일 실시예에 따르면, 개체의 유형을 분류하는 시스템은, 문맥 단어로부터 상기 단어의 자질을 계산하는 문맥 단어 자질 부착 모듈; 상기 단어의 자질을 기반으로 상기 문맥 단어의 가중치를 계산함에 따라 상기 문맥 단어를 가중치 값으로 변환하고, 상기 문맥 단어의 가중치 값을 각 단어의 벡터와 결합하여 가중치 반영 벡터를 계산하는 가중치 및 벡터 계산 모듈; 및 상기 문맥 단어로부터 계산된 가중치 반영 벡터를 기학습된 인공신경망에 기반한 개체 유형으로 분류하는 개체 유형 분류 모듈을 포함할 수 있다.
일측에 따르면, 상기 단어의 자질은, 상기 문맥 단어가 가질 수 있는 문장 내의 구문 구조적 특성 또는 말뭉치 내의 통계적 속성으로 상기 문맥 단어와 개체명 사이의 의존구문 구조, 상기 문맥 단어의 품사, 말뭉치 내의 공기 빈도수나 출현 빈도수 또는 통계적 변형 중 적어도 하나를 포함할 수 있다.
또 다른 일측에 따르면, 상기 문맥 단어 자질 부착 모듈은, 상기 문맥 단어의 속성을 입력 문장과 말뭉치 기반의 자질 데이터를 통하여 훈련 집합의 통계적 특성을 사용하여 상기 문맥 단어로부터 상기 단어의 자질을 계산할 수 있다.
또 다른 일측에 따르면, 상기 가중치 및 벡터 계산 모듈은, 기학습된 가중치 함수를 사용하여 상기 문맥 단어의 단어 자질을 단일한 가중치 값으로 변환할 수 있다.
또 다른 일측에 따르면, 상기 기학습된 가중치 함수는, 훈련집합의 문맥 단어의 단어 자질과 상기 훈련집합의 문맥 단어의 단어 자질을 이용한 분류 결과로부터 자동 학습될 수 있다.
또 다른 일측에 따르면, 상기 개체 유형 분류 모듈은, 상기 문맥 단어의 가중치 반영 벡터를 기학습된 인공신경망에 입력하여 각 문맥 단어의 개체 유형의 확률값을 획득할 수 있다.
또 다른 일측에 따르면, 상기 개체 유형 분류 모듈은, 상기 문맥 단어의 개체 유형으로부터 획득된 확률값 중 최대 확률값에 해당하는 개체 유형으로 반환될 수 있다.
일 실시예에 따른 개체 유형 분류 시스템은 문맥 단어로부터 단어의 자질을 기반으로 가중치를 계산함에 다라 문맥 단어를 가중치 값으로 변환하고, 문맥 단어의 가중치 값을 각 단어의 벡터와 결합하여 가중치 반영 벡터를 계산함으로써 기학습된 인공신경망에 기반한 개체 유형으로 분류할 수 있다.
도 1은 일 실시예에 따른 개체 유형 분류 시스템의 동작을 설명하기 위한 도면이다.
도 2는 일 실시예에 따른 개체 유형 분류 시스템의 구성을 설명하기 위한 블록도이다.
도 3은 일 실시예에 따른 개체 유형 분류 시스템의 개체 유형 분류 방법을 설명하기 위한 흐름도이다.
도 4는 일 실시예에 따른 개체 유형 분류 시스템의 성능을 설명하기 위한 표이다.
이하, 실시예를 첨부한 도면을 참조하여 상세히 설명한다.
도 1은 일 실시예에 따른 개체 유형 분류 시스템의 동작을 설명하기 위한 도면이다.
개체 유형 분류 기술에는 크게 2가지의 종류로 구분할 수 있다. 하나는 전통적인 방식의 단어 자질 기반 분류기로 문맥과 개체 언급에서 각 자질을 추출하여 학습한다. 다른 하나는 단어 표현(Word Embedding)을 활용한 기술로 명시적인 자질 없이도 전통적 방식의 단어 자질 기반 분류기와 대등한 성능을 보인다.
하지만 최적의 성능을 위해서는 다량의 훈련 데이터를 사용하여 매개 변수들을 조정해야 한다. 상기 언급한 자질 기반 분류기는 작은 훈련 집합에서도 어떤 자질이 단어의 중요성을 반영하는지 학습할 수 있지만, 깊은 수준의 의미를 반영하지 못한다.
실시예에서는 단층 신경망(Perceptron)을 사용하여 단어 표현을 각 단어의 중요도만큼 확대 또는 축소하고 이를 사용하여 개체 유형을 분류하는 방안을 제안한다. 상기 방법은 단어 표현이 내포하는 의미가 손상되지 않으면서 단어의 가중치를 반영하는 효과가 발생한다. 문맥 단어의 가중치를 계산하기 위하여 전통적 분류기에 기반한 11개의 자질을 사용할 수 있다.
개체 유형 분류 시스템은 딥 러닝 기반 개체 유형 분류를 위한 단어 자질 및 가중치 적용 방법을 설명하기로 한다.
개체 유형 분류 시스템은 말뭉치의 특성에 따라 각 문맥 단어에 가중치를 부여하고 이를 이용한 인공신경망 기반의 개체 유형을 분류할 수 있다. 개체 유형 분류는 주어진 문장 속의 개체명을 미리 설정된 유형 중 하나로 기계 학습 등을 통해 분류하는 과정이다. 예를 들면, 개체 유형 분류는 주어진 문장 속의 개체명을 관리자로부터 미리 설정될 수 있다. 개체 유형에는 '사람', '단체', '장소' 등이 있을 수 있으며, 이에 따른 하위의 집단이 존재할 수 있다.
개체 유형 분류 시스템은 문맥 단어를 각 단어의 자질을 기반으로 가중치를 부여한 후 인공신경망을 통해 적합한 개체 유형으로 분류할 수 있다. 이때, 단어의 자질은 문맥 단어가 가질 수 있는 문장 내의 구문 구조적 특성 또는 말뭉치 내의 통계적 속성으로 문맥 단어와 개체명 사이의 의존구문 구조, 문맥 단어의 품사, 말뭉치 내의 공기 빈도수나 출현 빈도수 또는 이들의 통계적 변형을 포함할 수 있다.
더욱 상세하게는, 개체 유형 분류 시스템은 문맥 단어의 속성을 입력 문장과 말뭉치 속에서 계산하여 반환할 수 있다. 이때, 통계적 자질을 계산하기 위하여 훈련 집합의 통계적 특성을 사용할 수 있다.
개체 유형 분류 시스템은 기학습된 함수를 사용하여 각 문맥 단어의 자질을 단일한 가중치 값으로 변환할 수 있다. 가중치를 부여하는 함수는 훈련집합의 문맥 단어 자질과 이를 이용한 분류 결과로부터 자동 학습될 수 있다.
개체 유형 분류 시스템은 이전의 문맥 단어 가중치를 각 단어의 벡터 표현과 결합하여 새로운 벡터를 도출할 수 있다.
개체 유형 분류 시스템은 도출된 새 벡터 표현을 기학습된 인공신경망에 입력하여 각 유형의 확률값을 획득할 수 있다. 이때, 지정된 개수의 최대 확률 유형이 입력된 개체명의 유형으로서 반활될 수 있다.
도 2는 일 실시예에 따른 개체 유형 분류 시스템의 구성을 설명하기 위한 블록도이다.
개체 유형 분류 시스템(200)은 개체의 유형을 분류하기 위한 것으로, 단어 자질 부착 모듈(210), 가중치 및 벡터 계산 모듈(220) 및 개체 유형 분류 모듈(230)을 포함할 수 있다.
단어 자질 부착 모듈(210)은 문맥 단어로부터 단어의 자질을 계산할 수 있다. 단어 자질 부착 모듈(210)은 문맥 단어의 속성을 입력 문장과 말뭉치 기반의 자질 데이터를 통하여 훈련 집합의 통계적 특성을 사용하여 문맥 단어로부터 단어의 자질을 계산할 수 있다.
가중치 및 벡터 계산 모듈(220)은 단어의 자질을 기반으로 문맥 단어의 가중치를 계산함에 따라 문맥 단어를 가중치 값으로 변환하고, 문맥 단어의 가중치 값을 각 단어의 벡터와 결합하여 가중치 반영 벡터를 계산할 수 있다. 가중치 및 벡터 계산 모듈(220)은 기학습된 가중치 함수를 사용하여 문맥 단어의 단어 자질을 단일한 가중치 값으로 변환할 수 있다.
개체 유형 분류 모듈(230)은 문맥 단어로부터 계산된 가중치 반영 벡터를 기학습된 인공신경망에 기반한 개체 유형으로 분류할 수 있다. 개체 유형 분류 모듈(230)은 문맥 단어의 가중치 반영 벡터를 기학습된 인공신경망에 입력하여 각 문맥 단어의 개체 유형의 확률값을 획득할 수 있다. 개체 유형 분류 모듈(230)은 문맥 단어의 개체 유형으로부터 획득된 확률값 중 최대 확률값에 해당하는 개체 유형으로 변환할 수 있다.
도 3은 일 실시예에 따른 개체 유형 분류 시스템의 개체 유형 분류 방법을 설명하기 위한 흐름도이다.
단계(310)에서 개체 유형 분류 시스템은 문맥 단어로부터 단어의 자질을 계산할 수 있다. 개체 유형 분류 시스템은 문맥 단어의 속성을 입력 문장과 말뭉치 기반의 자질 데이터를 통하여 훈련 집합의 통계적 특성을 사용하여 문맥 단어로부터 단어의 자질을 계산할 수 있다. 이때, 말뭉치 기반의 자질 데이터는 말뭉치 기반 자질 데이터베이스에 저장되어 있을 수 있다.
단어의 자질은 문맥 단어가 가질 수 있는 문장 내의 구문 구조적 특성 또는 말뭉치 내의 통계적 속성으로 문맥 단어와 개체명 사이의 의존구문 구조, 문맥 단어의 품사, 말뭉치 내의 공기 빈도수나 출현 빈도수 또는 통계적 변형 중 적어도 하나를 포함할 수 있다.
단계(320)에서 개체 유형 분류 시스템은 문맥 단어로부터 단어의 자질을 기반으로 가중치를 계산할 수 있다. 개체 유형 분류 시스템은 단어의 자질을 기반으로 문맥 단어의 가중치를 계산함에 따라 문맥 단어를 가중치 값을 변환할 수 있다. 개체 유형 분류 시스템은 기학습된 가중치 함수를 이용하여 문맥 단어의 가중치를 계산할 수 있다. 기학습된 가중치 함수는 훈련집합의 문맥 단어의 단어 자질과 훈련집합의 문맥 단어의 단어 자질을 이용한 분류 결과로부터 자동학습될 수 있다.
단계(330)에서 개체 유형 분류 시스템은 문맥 단어의 가중치 값을 각 단어의 벡터와 결합하여 가중치 반영 벡터를 계산할 수 있다. 개체 유형 분류 시스템은 이전의 문맥 단어의 가중치를 각 단어의 벡터 표현과 결합하여 새로운 벡터를 도출할 수 있다.
단계(340)에서 개체 유형 분류 시스템은 문맥 단어로부터 계산된 가중치 반영 벡터를 기학습된 인공신경망에 기반한 개체 유형으로 분류할 수 있다. 개체 유형 분류 시스템은 학습된 예측 모형이 저장된 데이터베이스를 기반으로 신경망 기반의 최적 유형을 예측할 수 있다. 예를 들면, 개체 유형 분류 시스템은 데이터베이스에 저장된 학습된 예측 모형들로부터 가중치 반영 벡터와 비교함으로써 일치하는 최적의 개체 유형을 추출할 수 있다.
개체 유형 분류 시스템은 도출된 새 벡터 표현을 기학습된 인공신경망에 입력하여 각 유형의 확률값을 얻는 과정을 수행할 수 있다. 이때, 지정된 개수의 최대 확률 유형이 입력된 개체명의 유형으로서 반환될 수 있다.
개체 유형 분류 시스템은 문맥 단어의 가중치 반영 벡터를 기학습된 인공신경망에 입력하여 각 문맥 단어의 개체 유형의 확률값을 획득할 수 있다. 개체 유형 분류 시스템은 문맥 단어의 개체 유형으로부터 획득된 확률값 중 최대 확률값에 해당하는 개체 유형으로 반환할 수 있다.
실시예들에 따르면 단어의 자질뿐만 아니라 단어 표현을 학습하는 인공신경망 또한 활용하여 보다 높은 성능을 확보할 수 있다.
실시예들에 따르면, 온톨로지에 존재하지 않는 개체에 대해서도 단어 표현 학습을 통해 분류가 가능하다.
도 4는 일 실시예에 따른 개체 유형 분류 시스템의 성능을 설명하기 위한 표이다.
개체 유형 분류 시스템은 각 자질의 성능을 loose micro R-precision으로 비교할 수 있다. 개체 유형 분류 시스템은 자질의 성능 차이를 확인하기 위하여 자질을 그 예상 작용을 토대로 8개의 집단으로 묶을 수 있다. 이 모형들은 다양한 크기를 가진 집합으로 훈련될 수 있다. 개체 유형 분류 시스템은 구문 구조에 기반한 자질이 작은 훈련 집합이 야기한 성능 하락이 감소함을 확인할 수 있다.
개체 유형 분류 시스템은 자질 적용의 성능 향상의 효과를 보인다. 개체 유형 분류 시스템은 자질을 통하여 중요한 문맥 단어가 더 높은 기여를 하도록 조정하여 중요한 단어를 기반으로 개체 유형을 분류하게 되어 소규모 훈련 집합에서 성능의 향상 폭이 높아진다.
개체 유형 분류 시스템은 IBM 왓슨과 같은 인공지능 질의응답 시스템에 정보를 제공하기 위하여 입력된 문장의 각 개념마다 유형을 유추하는데 사용할 수 있으며, 질의 응답 시스템이 더 강건하고 풍부한 정보로 질의 응답을 처리하는데 도움을 제공할 수 있다.
개체 유형 분류 시스템은 텍스트의 의미를 더 잘 파악한 상태로 각 개념의 유형을 추론하기 때문에 더 정확하고 강건한 지식 베이스를 구축하는데 기여할 수 있다.
개체 유형 분류 시스템은 인공지능 시스템에서 텍스트를 처리하고자 하는 기술 분야 또는 기업, 지식 베이스 구축 과정에서 텍스트를 처리하고자 하는 기술 분야 또는 기억 및 텍스트 추론 응용프로그램 개발사 등에 적용될 수 있다.
개체 유형 분류 시스템은 질의 응답, 정보 추출 등의 필수 모듈로 동작하며 인공지능 시스템이 자연어를 처리하기 위해 필수적으로 이용될 수 있다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (15)

  1. 문맥 단어 자질 부착 모듈, 가중치 및 벡터 계산 모듈, 개체 유형 분류 모듈을 포함하는 개체 유형 분류 시스템에서 수행되는 개체의 유형을 분류하는 방법에 있어서,
    상기 문맥 단어 자질 부착 모듈에서, 문맥 단어로부터 단어의 자질을 기반으로 가중치를 계산하는 단계-상기 문맥 단어는 문장에 존재하는 단어의 의미가 복수 개인 것-;
    상기 가중치 및 벡터 계산 모듈에서, 상기 단어의 자질을 기반으로 상기 문맥 단어의 가중치를 계산함에 따라 상기 문맥 단어를 가중치 값으로 변환하는 단계;
    상기 가중치 및 벡터 계산 모듈에서, 상기 문맥 단어의 가중치 값을 상기 문맥 단어의 벡터와 결합하여 가중치 반영 벡터를 계산하는 단계; 및
    상기 개체 유형 분류 모듈에서, 상기 문맥 단어로부터 계산된 가중치 반영 벡터를 기학습된 인공신경망에 기반한 개체 유형으로 분류하는 단계
    를 포함하고,
    상기 단어의 자질은,
    상기 문맥 단어가 가질 수 있는 문장 내의 구문 구조적 특성 또는 말뭉치 내의 통계적 속성을 포함하며,
    상기 문맥 단어 자질 부착 모듈에서, 상기 문맥 단어로부터 단어의 자질을 기반으로 가중치를 계산하는 단계는,
    기학습된 가중치 함수를 사용하여 상기 문맥 단어의 단어 자질을 가중치 값으로 변환하는 단계
    를 포함하고,
    상기 개체 유형 분류 모듈에서, 상기 문맥 단어로부터 계산된 가중치 반영 벡터를 기학습된 인공신경망에 기반한 개체 유형으로 분류하는 단계는,
    상기 문맥 단어의 가중치 반영 벡터를 기학습된 인공신경망에 입력하여 각 문맥 단어의 개체 유형의 확률값을 획득하고, 상기 획득된 확률값 중 최대 확률값에 해당하는 개체명이 개체 유형으로 반환되는 단계
    를 포함하는 개체 유형 분류 방법.
  2. 제1항에 있어서,
    상기 단어의 자질은,
    상기 문맥 단어가 가질 수 있는 문장 내의 구문 구조적 특성 또는 말뭉치 내의 통계적 속성으로 상기 문맥 단어와 개체명 사이의 의존구문 구조, 상기 문맥 단어의 품사, 말뭉치 내의 공기 빈도수 또는 출현 빈도수 중 적어도 하나를 포함하는 개체 유형 분류 방법.
  3. 제1항에 있어서,
    상기 문맥 단어 자질 부착 모듈에서, 문맥 단어로부터 단어의 자질을 기반으로 가중치를 계산하는 단계는,
    상기 문맥 단어로부터 상기 단어의 자질을 계산하는 단계
    를 포함하는 개체 유형 분류 방법.
  4. 삭제
  5. 제1항에 있어서,
    상기 기학습된 가중치 함수는,
    훈련집합의 문맥 단어의 단어 자질과 상기 훈련집합의 문맥 단어의 단어 자질을 이용한 분류 결과로부터 자동 학습되는
    것을 특징으로 하는 개체 유형 분류 방법.
  6. 삭제
  7. 삭제
  8. 제1항에 있어서,
    상기 개체 유형 분류 모듈에서, 상기 문맥 단어로부터 계산된 가중치 반영 벡터를 기학습된 인공신경망에 기반한 개체 유형으로 분류하는 단계는,
    상기 문장에 포함된 개체명을 미리 설정된 유형 중 하나로 기계 학습을 통하여 분류하는 단계
    를 포함하는 개체 유형 분류 방법.
  9. 개체의 유형을 분류하는 방법을 실행시키기 위해 컴퓨터 판독가능한 기록매체에 저장된 컴퓨터 프로그램에 있어서,
    상기 개체의 유형을 분류하는 방법은,
    문맥 단어로부터 단어의 자질을 기반으로 가중치를 계산하는 단계-상기 문맥 단어는 문장에 존재하는 단어의 의미가 복수 개인 것-;
    상기 단어의 자질을 기반으로 상기 문맥 단어의 가중치를 계산함에 따라 상기 문맥 단어를 가중치 값으로 변환하는 단계;
    상기 문맥 단어의 가중치 값을 상기 문맥 단어의 벡터와 결합하여 가중치 반영 벡터를 계산하는 단계; 및
    상기 문맥 단어로부터 계산된 가중치 반영 벡터를 기학습된 인공신경망에 기반한 개체 유형으로 분류하는 단계
    를 포함하고,
    상기 단어의 자질은,
    상기 문맥 단어가 가질 수 있는 문장 내의 구문 구조적 특성 또는 말뭉치 내의 통계적 속성을 포함하며,
    상기 문맥 단어로부터 단어의 자질을 기반으로 가중치를 계산하는 단계는,
    기학습된 가중치 함수를 사용하여 상기 문맥 단어의 단어 자질을 가중치 값으로 변환하는 단계
    를 포함하고,
    상기 문맥 단어로부터 계산된 가중치 반영 벡터를 기학습된 인공신경망에 기반한 개체 유형으로 분류하는 단계는,
    상기 문맥 단어의 가중치 반영 벡터를 기학습된 인공신경망에 입력하여 각 문맥 단어의 개체 유형의 확률값을 획득하고, 상기 획득된 확률값 중 최대 확률값에 해당하는 개체명이 개체 유형으로 반환되는 단계
    를 포함하는 것을 특징으로 하는 컴퓨터 판독가능한 기록매체에 저장된 컴퓨터 프로그램.
  10. 개체의 유형을 분류하는 시스템에 있어서,
    문맥 단어로부터 단어의 자질을 계산하는 문맥 단어 자질 부착 모듈-상기 문맥 단어는 문장에 존재하는 단어의 의미가 복수 개인 것-;
    상기 단어의 자질을 기반으로 상기 문맥 단어의 가중치를 계산함에 따라 상기 문맥 단어를 가중치 값으로 변환하고, 상기 문맥 단어의 가중치 값을 상기 문맥 단어의 벡터와 결합하여 가중치 반영 벡터를 계산하는 가중치 및 벡터 계산 모듈; 및
    상기 문맥 단어로부터 계산된 가중치 반영 벡터를 기학습된 인공신경망에 기반한 개체 유형으로 분류하는 개체 유형 분류 모듈
    을 포함하고,
    상기 단어의 자질은,
    상기 문맥 단어가 가질 수 있는 문장 내의 구문 구조적 특성 또는 말뭉치 내의 통계적 속성을 포함하며,
    상기 가중치 및 벡터 계산 모듈은,
    기학습된 가중치 함수를 사용하여 상기 문맥 단어의 단어 자질을 가중치 값으로 변환하는 것
    을 포함하고,
    상기 개체 유형 분류 모듈은,
    상기 문맥 단어의 가중치 반영 벡터를 기학습된 인공신경망에 입력하여 각 문맥 단어의 개체 유형의 확률값을 획득하고, 상기 획득된 확률값 중 최대 확률값에 해당하는 개체명이 개체 유형으로 반환되는
    개체 유형 분류 시스템.
  11. 제10항에 있어서,
    상기 단어의 자질은,
    상기 문맥 단어가 가질 수 있는 문장 내의 구문 구조적 특성 또는 말뭉치 내의 통계적 속성으로 상기 문맥 단어와 개체명 사이의 의존구문 구조, 상기 문맥 단어의 품사, 말뭉치 내의 공기 빈도수 또는 출현 빈도수 중 적어도 하나를 포함하는 개체 유형 분류 시스템.
  12. 삭제
  13. 제10항에 있어서,
    상기 기학습된 가중치 함수는,
    훈련집합의 문맥 단어의 단어 자질과 상기 훈련집합의 문맥 단어의 단어 자질을 이용한 분류 결과로부터 자동 학습되는
    것을 특징으로 하는 개체 유형 분류 시스템.
  14. 삭제
  15. 삭제
KR1020160017364A 2016-02-15 2016-02-15 단어 자질 가중치를 적용한 딥 러닝 기반 개체 유형 분류 방법 KR101837262B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160017364A KR101837262B1 (ko) 2016-02-15 2016-02-15 단어 자질 가중치를 적용한 딥 러닝 기반 개체 유형 분류 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160017364A KR101837262B1 (ko) 2016-02-15 2016-02-15 단어 자질 가중치를 적용한 딥 러닝 기반 개체 유형 분류 방법

Publications (2)

Publication Number Publication Date
KR20170096282A KR20170096282A (ko) 2017-08-24
KR101837262B1 true KR101837262B1 (ko) 2018-04-20

Family

ID=59758190

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160017364A KR101837262B1 (ko) 2016-02-15 2016-02-15 단어 자질 가중치를 적용한 딥 러닝 기반 개체 유형 분류 방법

Country Status (1)

Country Link
KR (1) KR101837262B1 (ko)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107607942B (zh) * 2017-08-31 2019-09-13 北京大学 基于深度学习模型的大尺度电磁散射与逆散射的预测方法
KR102033458B1 (ko) * 2017-10-24 2019-11-19 강원대학교산학협력단 계층적 포인터 네트워크를 이용한 상호참조해결 시스템 및 방법
CN107944559B (zh) * 2017-11-24 2021-04-27 国家计算机网络与信息安全管理中心 一种实体关系自动识别方法及系统
CN108052625B (zh) * 2017-12-18 2020-05-19 清华大学 一种实体精细分类方法
CN110209805B (zh) * 2018-04-26 2023-11-28 腾讯科技(深圳)有限公司 文本分类方法、装置、存储介质和计算机设备
KR102133825B1 (ko) 2018-06-22 2020-07-16 서강대학교 산학협력단 단어자질을 강화한 음성 대화 방법 및 시스템
KR102138130B1 (ko) * 2018-11-27 2020-07-27 한국과학기술원 개념 그래프 기반 질의응답 장치 및 방법
KR102203065B1 (ko) * 2019-09-03 2021-01-14 숭실대학교산학협력단 트리플 검증 장치 및 방법
KR102535852B1 (ko) * 2020-06-04 2023-05-24 동국대학교 산학협력단 Bert의 문장 임베딩 벡터를 이용한 텍스트랭크 기반 핵심 문장 추출 방법 및 장치

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100829401B1 (ko) 2006-12-06 2008-05-15 한국전자통신연구원 세부분류 개체명 인식 장치 및 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100829401B1 (ko) 2006-12-06 2008-05-15 한국전자통신연구원 세부분류 개체명 인식 장치 및 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
박용민, 이재성, 한국어 제목 개체명 인식 및 사전 구축 : 도서, 영화, 음악, TV프로그램, 정보처리학회지 제3권 제7호 통권22호, 2014년 7월.

Also Published As

Publication number Publication date
KR20170096282A (ko) 2017-08-24

Similar Documents

Publication Publication Date Title
KR101837262B1 (ko) 단어 자질 가중치를 적용한 딥 러닝 기반 개체 유형 분류 방법
CN111368996B (zh) 可传递自然语言表示的重新训练投影网络
US11081105B2 (en) Model learning device, method and recording medium for learning neural network model
US11461537B2 (en) Systems and methods of data augmentation for pre-trained embeddings
US11816441B2 (en) Device and method for machine reading comprehension question and answer
US11144581B2 (en) Verifying and correcting training data for text classification
US8620837B2 (en) Determination of a basis for a new domain model based on a plurality of learned models
WO2020244065A1 (zh) 基于人工智能的字向量定义方法、装置、设备及存储介质
US11847423B2 (en) Dynamic intent classification based on environment variables
JP6291443B2 (ja) 接続関係推定装置、方法、及びプログラム
KR20190136578A (ko) 음성 인식 방법 및 장치
KR20200071877A (ko) 자율 증강형 반복 학습을 이용한 정보 추출 방법 및 시스템
CN114995903B (zh) 一种基于预训练语言模型的类别标签识别方法及装置
JP6230987B2 (ja) 言語モデル作成装置、言語モデル作成方法、プログラム、および記録媒体
CN111539612A (zh) 一种风险分类模型的训练方法和系统
CN113297387B (zh) 一种基于nkd-gnn的图文不匹配新闻检测方法
US20220222442A1 (en) Parameter learning apparatus, parameter learning method, and computer readable recording medium
US11875128B2 (en) Method and system for generating an intent classifier
US11900070B2 (en) Producing explainable rules via deep learning
US20230315999A1 (en) Systems and methods for intent discovery
Tian et al. Chinese short text multi-classification based on word and part-of-speech tagging embedding
JP6705506B2 (ja) 学習プログラム、情報処理装置および学習方法
KR102405799B1 (ko) 사이버 공간에서 실시간 공격 탐지를 위한 시간에 따른 지속적인 적응형 학습을 제공하는 방법 및 시스템
KR20220138960A (ko) 지식 임베딩 모델 기반의 개체명 인식 모델 생성 장치 및 방법
US11042520B2 (en) Computer system

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant