KR102347505B1 - 한국어 워드넷 기반 지식 주도 심층학습을 이용한 워드 임베딩 장치 및 방법 - Google Patents

한국어 워드넷 기반 지식 주도 심층학습을 이용한 워드 임베딩 장치 및 방법 Download PDF

Info

Publication number
KR102347505B1
KR102347505B1 KR1020190080209A KR20190080209A KR102347505B1 KR 102347505 B1 KR102347505 B1 KR 102347505B1 KR 1020190080209 A KR1020190080209 A KR 1020190080209A KR 20190080209 A KR20190080209 A KR 20190080209A KR 102347505 B1 KR102347505 B1 KR 102347505B1
Authority
KR
South Korea
Prior art keywords
word
concept
embedding
korean
morphemes
Prior art date
Application number
KR1020190080209A
Other languages
English (en)
Other versions
KR20200064880A (ko
Inventor
권혁철
김민호
Original Assignee
부산대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 부산대학교 산학협력단 filed Critical 부산대학교 산학협력단
Publication of KR20200064880A publication Critical patent/KR20200064880A/ko
Application granted granted Critical
Publication of KR102347505B1 publication Critical patent/KR102347505B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 단어를 부분단어 모형으로 분해하여 분석함으로써 유사도를 산출하여 워드 임베딩의 효율성을 높일 수 있도록 한 한국어 워드넷 기반 지식 주도 심층학습을 이용한 워드 임베딩 장치 및 방법에 관한 것으로, 둘 이상의 형태소로 이루어진 복합어를 실질 형태소의 집합으로 정의하는 집합 정의부;skip-gram의 방법을 활용하여 각 n-gram에 대한 단어 벡터를 계산하는 벡터 계산부;실질 형태소 집합을 이용해서 워드 임베딩 과정에서 단어와 문맥의 유사도 산출을 하는 유사도 산출부;를 포함하고, 둘 이상의 형태소로 이루어진 복합어를 실질 형태소의 집합으로 정의하여 형태론적 특성이 오류없이 반영되도록 하는 것이다.

Description

한국어 워드넷 기반 지식 주도 심층학습을 이용한 워드 임베딩 장치 및 방법{System and Method for Word Embedding using Knowledge Powered Deep Learning based on Korean WordNet}
본 발명은 워드 임베딩에 관한 것으로, 구체적으로 단어를 부분단어 모형으로 분해하여 분석함으로써 유사도를 산출하여 워드 임베딩의 효율성을 높일 수 있도록 한 한국어 워드넷 기반 지식 주도 심층학습을 이용한 워드 임베딩 장치 및 방법에 관한 것이다.
심층학습에 기반을 둔 통계적 언어모형에서 가장 중요한 작업은 단어의 분산표현(Distributed representation)이다. 단어의 분산 표현은 단어 자체가 가지는 의미를 다차원 공간에서 벡터로 표현하는 것으로서, 워드 임베딩(Word embedding)이라고도 한다. 워드 임베딩 방법은 비슷한 문맥을 가진 단어가 비슷한 의미들을 가진다는 분포가설(Distributional hypothesis)에 기반을 둔다.
분포가설에 기반을 둔 워드 임베딩 방법은 크게 잠재 의미분석(Latent Semantic Analysis: LSA)과 같은 빈도 기반 방법(Count-based method)과 인공신경망 언어모형(Neural Probabilistic Language Model: NPLM)과 같은 예측 방법(Predictive method)으로 구분할 수 있다.
이와 관련하여 예측 방법에 기반을 둔 다양한 방법이 제안되었으며, 아래 4개의 아키텍처(Architecture)가 가장 널리 사용되고 있다.
(1) CBOW(Continuous Bag-of-Words): 분포가설에 기반을 둔 예측 방법의 하나로서, 전방향 인공신경망 언어모형(feedforward Neural Network Language Model; NNLM)과 유사하나 은닉층(hidden layer)이 없다. 문맥 단어로부터 단어를 예측하는 방법이며, 소규모 데이터에 대하여 성능이 좋다.
(2) Skip-gram: 분포가설에 기반을 둔 예측 방법의 하나로서, CBOW와 함께 word2vec에서 제공되는 방법이다. CBOW와 달리 단어로부터 문맥 단어를 예측하는 방법이며, 학습 속도가 빨라 대규모 데이터에 기반을 둔 워드 임베딩에 주로 이용된다.
(3) GloVe(Global Vectors for Word Representation): 분포가설에 기반을 둔 빈도 기반 방법의 하나로서, 전역단어 문맥 행렬(global co-occurrences matrix)의 각행을 단어 벡터로 사용한다.
(4) fastText: skip-gram을 변형한 방법으로서, 단어의 형태론적 특성을 반영하고자 n-gram에 의한 부분단어를 생성하여 사용한다.
최근에는 문자 n-gram에 기반을 둔 부분단어 정보를 활용한 방법이 영어권에서 좋은 성능을 보인다. 한국어 워드 임베딩에서도 음절 n-gram에 기반을 둔 부분단어 정보를 활용한 워드 임베딩이 제안되었다.
부분단어 정보를 활용한 워드 임베딩 방법들은 단어의 형태론적 특성을 학습할 수 있고, 학습데이터에 나타나지 않은 단어(Out-of-vocabulary: OOV)도 처리할 수 있다는 장점이 있다. 다만 문자나 음절 n-gram에 의해 잘못된 부분단어 정보가 반영되어 의도치 않은 결과가 나올 수도 있다.
도 1은 단어 '달력'과 의미상으로 유사한 단어의 예를 나타낸 구성도이다.
예를 들어, fastText에 의한 한국어 워드 임베딩에서 '달력'와 '전달력'의 유사도를 계산하면 0.6472라는 큰 값이 나타난다. 이는 '달력'이 '전달력'의 부분단어이기 때문이다.
따라서, 워드 임베딩(word embedding)시에 정보 불균형에 따른 단어 벡터의 품질 저하를 막을 수 있도록 하는 새로운 기술의 개발이 요구되고 있다.
대한민국 공개특허 제10-2018-0008199호 대한민국 등록특허 제10-1797365호 대한민국 등록특허 제10-1799681호
본 발명은 종래 기술의 워드 임베딩 기술의 문제점을 해결하기 위한 것으로, 단어를 부분단어 모형으로 분해하여 분석함으로써 유사도를 산출하여 워드 임베딩의 효율성을 높일 수 있도록 한 한국어 워드넷 기반 지식 주도 심층학습을 이용한 워드 임베딩 장치 및 방법을 제공하는데 그 목적이 있다.
본 발명은 단어의 의미적 특성을 유지한 상태로 고차원의 데이터인 단어를 저차원의 데이터인 개념으로 변환하여 단어 벡터의 품질을 높일 수 있도록 한 한국어 워드넷 기반 지식 주도 심층학습을 이용한 워드 임베딩 장치 및 방법을 제공하는데 그 목적이 있다.
본 발명은 단어를 개념으로 자동으로 변환하여 임베딩하는 방법으로 정보 불균형에 따른 이러한 단어 벡터의 품질 저하를 막을 수 있도록 한 한국어 워드넷 기반 지식 주도 심층학습을 이용한 워드 임베딩 장치 및 방법을 제공하는데 그 목적이 있다.
본 발명은 임베딩 시 단어를 개념으로 치환하여 수행하는 것으로서 데이터의 특성을 유지하면서 데이터의 양을 줄이는 차원 축소(Dimensionality Reduction)에 기반한 한국어 워드넷 기반 지식 주도 심층학습을 이용한 워드 임베딩 장치 및 방법을 제공하는데 그 목적이 있다.
본 발명은 워드 임베딩 과정에서 학습데이터의 단어를 개념으로 변환하여 학습데이터에서 자주 나타나지 않거나 혹은 아예 나타나지 않는 단어의 의미정보를 반영할 수 있는 단어의 벡터 표현이 가능하도록 한 한국어 워드넷 기반 지식 주도 심층학습을 이용한 워드 임베딩 장치 및 방법을 제공하는데 그 목적이 있다.
본 발명의 다른 목적들은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
상기와 같은 목적을 달성하기 위한 본 발명에 따른 한국어 워드넷 기반 지식 주도 심층학습을 이용한 워드 임베딩 장치는 둘 이상의 형태소로 이루어진 복합어를 실질 형태소의 집합으로 정의하는 집합 정의부;skip-gram의 방법을 활용하여 각 n-gram에 대한 단어 벡터를 계산하는 벡터 계산부;실질 형태소 집합을 이용해서 워드 임베딩 과정에서 단어와 문맥의 유사도 산출을 하는 유사도 산출부;를 포함하고, 둘 이상의 형태소로 이루어진 복합어를 실질 형태소의 집합으로 정의하여 형태론적 특성이 오류없이 반영되도록 하는 것을 특징으로 한다.
여기서, 실질 형태소 집합을 이용한 워드 임베딩 과정에서 단어
Figure 112019068342209-pat00001
와 문맥
Figure 112019068342209-pat00002
의 유사도 함수(scoring function)
Figure 112019068342209-pat00003
는,
Figure 112019068342209-pat00004
으로 정의되고, 이때,
Figure 112019068342209-pat00005
는 단어
Figure 112019068342209-pat00006
에 나타나는 실질 형태소의 집합
Figure 112019068342209-pat00007
에 속한 실질 형태소
Figure 112019068342209-pat00008
의 벡터이고,
Figure 112019068342209-pat00009
는 문맥 단어의 벡터인 것을 특징으로 한다.
그리고 워드 임베딩 과정에서 단어의 의미적 특성을 유지한 상태로 고차원의 데이터인 단어를 저차원의 데이터인 개념으로 변환하기 위하여, 문장이 입력되면 형태 분석을 수행하는 형태 분석부와,형태 분석이 이루어진 각 단어에 대한 단어 판단 및 의미 판단이 이루어지 않는 경우에 의미 분석을 수행하는 의미 분석부와,한국어 어휘의미망을 활용하여 각 단어에 대한 개념 변환을 수행하는 개념 변환부를 더 포함하는 것을 특징으로 한다.
그리고 한국어 어휘의미망에서 해당 단어를 검색하였을 때 하나의 개념만 존재한다면 해당 개념으로 바로 변환하고, 해당 단어가 여러 개의 의미로 사용될 수 있는 동형이의어 혹은 다의어일 경우에는 의미 분석을 통해 해당 단어의 의미를 먼저 분석한 다음 분석된 개념으로 변환하는 것을 특징으로 한다.
그리고 개념 변환부는, 워드임베딩의 학습을 위해 원시말뭉치가 입력이 되었을 때 개별 문장에 대한 개념 변환 작업을 수행하는 동적 변환 또는, 워드임베딩을 위한 학습과정에서 원시말뭉치에 포함된 모든 단어를 한국어 어휘의미망에 등록된 개념으로 일괄적으로 변환하는 정적 변환을 하는 것을 특징으로 한다.
다른 목적을 달성하기 위한 본 발명에 따른 한국어 워드넷 기반 지식 주도 심층학습을 이용한 워드 임베딩 방법은 둘 이상의 형태소로 이루어진 복합어를 실질 형태소의 집합으로 정의하는 집합 정의 단계;skip-gram의 방법을 활용하여 각 n-gram에 대한 단어 벡터를 계산하는 벡터 계산 단계;실질 형태소 집합을 이용해서 워드 임베딩 과정에서 단어와 문맥의 유사도 산출을 하는 유사도 산출 단계;를 포함하고, 둘 이상의 형태소로 이루어진 복합어를 실질 형태소의 집합으로 정의하여 형태론적 특성이 오류없이 반영되도록 하는 것을 특징으로 한다.
여기서, 워드 임베딩 과정에서 단어의 의미적 특성을 유지한 상태로 고차원의 데이터인 단어를 저차원의 데이터인 개념으로 변환하기 위하여, 문장이 입력되면 형태 분석을 수행하는 형태 분석 단계와,형태 분석이 이루어진 각 단어에 대한 단어 판단 및 의미 판단이 이루어지 않는 경우에 의미 분석을 수행하는 의미 분석 단계와,한국어 어휘의미망을 활용하여 각 단어에 대한 개념 변환을 수행하는 개념 변환 단계를 더 포함하는 것을 특징으로 한다.
그리고 한국어 어휘의미망에서 해당 단어를 검색하였을 때 하나의 개념만 존재한다면 해당 개념으로 바로 변환하고, 해당 단어가 여러 개의 의미로 사용될 수 있는 동형이의어 혹은 다의어일 경우에는 의미 분석을 통해 해당 단어의 의미를 먼저 분석한 다음 분석된 개념으로 변환하는 것을 특징으로 한다.
그리고 개념 변환 단계는, 워드임베딩의 학습을 위해 원시말뭉치가 입력이 되었을 때 개별 문장에 대한 개념 변환 작업을 수행하는 동적 변환 또는, 워드임베딩을 위한 학습과정에서 원시말뭉치에 포함된 모든 단어를 한국어 어휘의미망에 등록된 개념으로 일괄적으로 변환하는 정적 변환을 하는 것을 특징으로 한다.
그리고 워드임베딩 결과를 활용하는 단계를 더 포함하고, 워드임베딩 결과를 활용하는 단계는, 단어가 입력되었을 때 해당 단어에 대한 단어 벡터를 획득하기 위하여 학습 단계와 마찬가지로 개별 단어를 해당하는 개념으로 변환한 다음, 워드임베딩 결과에서 해당 개념으로 변환하는 것을 특징으로 한다.
그리고 워드임베딩 결과를 활용할 때 입력된 단어가 미등록어이면, 미등록어와 관계된 상위어, 하위어, 동의어를 한국어 어휘의미망에서 찾은 다음 해당 단어에 대한 임베딩 결과를 차용하는 것을 특징으로 한다.
이상에서 설명한 바와 같은 본 발명에 따른 한국어 워드넷 기반 지식 주도 심층학습을 이용한 워드 임베딩 장치 및 방법은 다음과 같은 효과가 있다.
첫째, fasttext에서 단어를 n-gram에 의해 부분단어의 집합으로 정의하는 부분을 실질 형태소의 집합으로 정의하도록 하여 워드 임베딩의 효율성을 높인다.
둘째, 워드 임베딩시에 단어의 의미적 특성을 유지한 상태로 고차원의 데이터인 단어를 저차원의 데이터인 개념으로 변환하여 단어 벡터의 품질을 높일 수 있다.
셋째, 단어를 개념으로 자동으로 변환하여 임베딩하는 방법으로 정보 불균형에 따른 이러한 단어 벡터의 품질 저하를 막을 수 있다.
넷째, 워드 임베딩 시 단어를 개념으로 치환하여 수행하는 차원 축소(Dimensionality Reduction)에 기반한 단어의 벡터 표현으로 데이터의 특성을 유지하면서 데이터의 양을 줄일 수 있다.
다섯째, 워드 임베딩 과정에서 학습데이터의 단어를 개념으로 변환하여 학습데이터에서 자주 나타나지 않거나 혹은 아예 나타나지 않는 단어의 의미정보를 반영할 수 있다.
도 1은 단어 '달력'과 의미상으로 유사한 단어의 예를 나타낸 구성도
도 2는 본 발명의 제 1 실시 예에 따른 한국어 워드넷 기반 지식 주도 심층학습을 이용한 워드 임베딩 장치의 구성도
도 3은 본 발명의 제 1 실시 예에 따른 한국어 워드넷 기반 지식 주도 심층학습을 이용한 워드 임베딩 방법을 나타낸 플로우 차트
도 4는 본 발명에 따른 한국어 워드넷 기반 지식 주도 심층학습을 이용한 단어의 벡터 표현을 위한 과정을 나타낸 구성도
도 5는 본 발명의 제 2 실시 예에 따른 한국어 워드넷 기반 지식 주도 심층학습을 이용한 워드 임베딩 장치의 구성도
도 6은 본 발명의 제 2 실시 예에 따른 한국어 워드넷 기반 지식 주도 심층학습을 이용한 워드 임베딩 방법을 나타낸 플로우 차트
도 7은 도 6의 워드 임베딩하는 방법의 일 예를 나타낸 구성도
도 8은 개념 변환에서 정적 변환을 나타낸 구성도
도 9는 본 발명에 따른 학습된 워드 임베딩을 활용하는 방법을 나타낸 플로우 차트
도 10은 워드 임베딩 결과를 활용할 때 미등록어에 대한 처리 예를 나타낸 구성도
이하, 본 발명에 따른 한국어 워드넷 기반 지식 주도 심층학습을 이용한 워드 임베딩 장치 및 방법의 바람직한 실시 예에 관하여 상세히 설명하면 다음과 같다.
본 발명에 따른 한국어 워드넷 기반 지식 주도 심층학습을 이용한 워드 임베딩 장치 및 방법의 특징 및 이점들은 이하에서의 각 실시 예에 대한 상세한 설명을 통해 명백해질 것이다.
도 2는 본 발명의 제 1 실시 예에 따른 한국어 워드넷 기반 지식 주도 심층학습을 이용한 워드 임베딩 장치의 구성도이다.
본 발명에 따른 한국어 워드넷 기반 지식 주도 심층학습을 이용한 워드 임베딩 장치 및 방법은 워드 임베딩의 효율성 및 정확성을 높이기 위하여, 단어를 부분단어 모형으로 분해하여 분석함으로써 유사도를 산출하여 워드 임베딩의 효율성을 높이는 구성 및 단어의 의미적 특성을 유지한 상태로 고차원의 데이터인 단어를 저차원의 데이터인 개념으로 변환하여 단어 벡터의 품질을 높이는 구성을 포함할 수 있다.
먼저, 단어를 부분단어 모형으로 분해하여 분석함으로써 유사도를 산출하여 워드 임베딩의 효율성을 높이는 구성에 관하여 설명하면 다음과 같다.
fastText와 같이 부분단어 정보를 반영하는 워드 임베딩 방법에서 단어의 분해를 위해 가장 많이 사용하는 방법은 n-gram을 이용하는 것이다.
fastText에서는 단어를 단어 내 n-gram과 해당 단어의 집합으로 정의한다.
이때, 단어의 시작과 끝에 각각 '<' , '>'를 넣어 시작과 끝을 구분한다.
예를 들어, n = 2일 때 '전달력'이라는 단어는 <전, 전달, 달력, 력>, <전달력>으로 정의되고, skip-gram의 방법을 활용하여 각 n-gram에 대한 단어 벡터를 계산하게 된다.
즉, 특정 단어의 벡터는 해당 단어를 이루는 n-gram의 벡터 조합으로 결정되는 것이다.
부분단어 정보를 반영하는 이러한 방식은 학습말뭉치에 나타나지 않는 단어에 대해서도 알려진 n-gram으로 분해하여 분석함으로써 단어 벡터를 유추할 수 있다는 장점이 있다.
반면에 n-gram이 해당 단어의 형태론적 특성을 반영하지는 못하기 때문에 간혹 잘못된 학습이 이루어지기도 한다.
도 1은 fastText에 의한 워드 임베딩 결과의 예로서 단어 '달력'과 의미상으로 유사한 단어를 출력한 것이다.
'달력'과 유사한 단어에 '전달력'이 있다. 이는 두 단어가 '달력'이라는 공통된 부분단어(n-gram)를 가지기 때문에 생긴 결과이다.
본 발명의 제 1 실시 예에서는 이러한 한계를 극복하기 위하여 fastText에서 단어를 n-gram에 의한 부분단어의 집합으로 정의하는 부분을 실질 형태소의 집합으로 정의하도록 수정한 워드 임베딩 방법을 제안한다.
본 발명의 제 1 실시 예에 따른 한국어 워드넷 기반 지식 주도 심층학습을 이용한 워드 임베딩 장치는 도 2에서와 같이, 둘 이상의 형태소로 이루어진 복합어를 실질 형태소의 집합으로 정의하는 집합 정의부(21)와, skip-gram의 방법을 활용하여 각 n-gram에 대한 단어 벡터를 계산하는 벡터 계산부(22)와, 실질 형태소 집합을 이용해서 워드 임베딩 과정에서 단어와 문맥의 유사도 산출을 하는 유사도 산출부(23)를 포함한다.
한국어에서 단일어는 하나의 형태소로만 이루어진 단어이며, 복합어는 둘 이상의 형태소로 이루어진 단어이다. 따라서 단일어를 음절 n-gram의 집합으로 정의하게 되면 형태론적 특성이 잘못 반영될 위험이 있다. 반면에 복합어를 실질 형태소의 집합으로 정의하게 되면 유의미한 형태론적 특성을 반영할 수 있다.
예를 들어, '달력'은 단일어이기 때문에 <달력>으로 표현하고, '전달력'은 명사 '전달'과 접미사 '-력'의 합성어이므로 <전달, -력>, <전달력>으로 표현한다.
마찬가지로 '붙잡다'는 어간 '붙잡-'이 두 개의 형태소로 결합하여 있으므로 복합어에 해당하는데, 실질 형태소 '붙-'에 실질 형태소 '잡-'이 결합하여 있으므로 <붙-, 잡다, <붙잡다>로 표현한다.
이와 같은 실질 형태소 집합을 이용하는 워드 임베딩 과정에서 단어
Figure 112019068342209-pat00010
와 문맥
Figure 112019068342209-pat00011
의 유사도 함수(scoring function)
Figure 112019068342209-pat00012
는 수학식 1에서와 같이 정의된다.
Figure 112019068342209-pat00013
이때,
Figure 112021086944705-pat00014
는 단어
Figure 112021086944705-pat00015
에 나타나는 실질 형태소의 집합
Figure 112021086944705-pat00016
에 속한 실질 형태소
Figure 112021086944705-pat00017
의 벡터이고,
Figure 112021086944705-pat00038
는 문맥 단어의 벡터이다.
도 3은 본 발명의 제 1 실시 예에 따른 한국어 워드넷 기반 지식 주도 심층학습을 이용한 워드 임베딩 방법을 나타낸 플로우 차트이다.
본 발명의 제 1 실시 예에 따른 한국어 워드넷 기반 지식 주도 심층학습을 이용한 워드 임베딩 방법은 둘 이상의 형태소로 이루어진 복합어를 실질 형태소의 집합으로 정의하는 단계(S301)와, skip-gram의 방법을 활용하여 각 n-gram에 대한 단어 벡터를 계산하는 단계(S302)와, 실질 형태소 집합을 이용해서 워드 임베딩 과정에서 단어와 문맥의 유사도 산출을 하는 단계(S303)를 포함한다.
본 발명은 단어를 부분단어 모형으로 분해하여 분석함으로써 유사도를 산출하여 워드 임베딩의 효율성을 높이는 구성에 더하여, 단어의 의미적 특성을 유지한 상태로 고차원의 데이터인 단어를 저차원의 데이터인 개념으로 변환하여 단어 벡터의 품질을 높이는 구성을 수행할 수 있다.
이와 같은 구성은 워드 임베딩 시 단어를 개념으로 치환하여 수행하는 것으로서 데이터의 특성을 유지하면서 데이터의 양을 줄이는 차원 축소(Dimensionality Reduction)에 기반한 것이다.
즉, 단어의 의미적 특성을 유지한 상태로 고차원의 데이터인 단어를 저차원의 데이터인 개념으로 변환하는 것으로 단순히 단어 임베딩 과정에서 관계어를 이용하는 것과는 다른 것이다.
도 4는 본 발명에 따른 한국어 워드넷 기반 지식 주도 심층학습을 이용한 단어의 벡터 표현을 위한 과정을 나타낸 구성도이고, 도 5는 본 발명의 제 2 실시 예에 따른 한국어 워드넷 기반 지식 주도 심층학습을 이용한 워드 임베딩 장치의 구성도이다.
본 발명은 도 4에서와 같이, 워드임베딩에서 각각의 단어에 대해 워드임베딩을 수행한 것과 달리 단어를 개념으로 변환한 다음 워드임베딩을 수행한다.
단어 '주택'과 '집'은 같은 개념이므로 둘다 개념 'SYN001(예를 위한 임의의 개념 번호)'로 변환할 수 있다.
본 발명의 제 2 실시 예에 따른 한국어 워드넷 기반 지식 주도 심층학습을 이용한 워드 임베딩 장치는 도 5에서와 같이, 문장이 입력되면 형태 분석을 수행하는 형태 분석부(51)와, 형태 분석이 이루어진 각 단어에 대한 단어 판단 및 의미 판단이 이루어지 않는 경우에 의미 분석을 수행하는 의미 분석부(52)와, 한국어 어휘의미망을 활용하여 각 단어에 대한 개념 변환을 수행하는 개념 변환부(53)를 포함한다.
도 6은 본 발명의 제 2 실시 예에 따른 한국어 워드넷 기반 지식 주도 심층학습을 이용한 워드 임베딩 방법을 나타낸 플로우 차트이고, 도 7은 도 6의 워드 임베딩하는 방법의 일 예를 나타낸 구성도이다.
먼저, 문장이 입력되면 형태 분석을 수행한다.(S601)
예를 들어, '나는 집을 산다'라는 문장은 '나/명사+는/조사 집/명사+을/조사 사다/동사+ㄴ다/어미'로 분석된다.
형태 분석이 끝나면 각 단어에 대한 개념 변환이 이루어진다.
개념 변환은 한국어 어휘의미망을 활용한다.
한국어 어휘의미망에서 해당 단어를 검색하였을 때 하나의 개념만 존재한다면 해당 개념으로 바로 변환된다.
그러나 해당 단어가 여러 개의 의미로 사용될 수 있는 동형이의어 혹은 다의어일 경우에는 단어 판단(S602) 및 의미 판단(S603)이 이루지지 않으므로 의미 분석을 통해 해당 단어의 의미를 먼저 분석한다.(S604)
그런 다음 분석된 개념으로 변환한다.(S605)
도 7은 도 6의 의미 판단이 필요한 경우와 그렇지 않았을 때 대한 상세 예이다.
단어 '컴퓨터'는 한국어 워드넷에 하나의 의미로만 등록되어 있다.
따라서 별도의 의미 분석 과정 없이 '컴퓨터'를 'SYN02971359'로 변환할 수 있다.
반면에 '배'는 한국어 워드넷에 여러 개의 의미로 등록된 다의어이다.
이 경우 '배'가 포함된 문장을 통해 의미 분석 과정을 수행한다.
예를 들어, '배가 아프다'라는 문장에서 '배'는 '배04'의 의미로 사용되었기 때문에 '배'를 'SYN02971359'로 변환한다.
도 8은 개념 변환에서 정적 변환을 나타낸 구성도이다.
도 7은 워드 임베딩의 학습을 위해 원시말뭉치가 입력이 되었을 때 개별 문장에 대한 개념 변환 작업을 수행하는 동적 변환이다.
반면에 정적 변환은 워드임베딩을 위한 학습과정에서 원시말뭉치에 포함된 모든 단어를 한국어 어휘의미망에 등록된 개념으로 보아 형태 분석(S801), 의미 판단(802), 의미 분석(S803)을 하여 일괄적으로 변환한다.
도 9는 본 발명에 따른 학습된 워드 임베딩을 활용하는 방법을 나타낸 플로우 차트이다.
본 발명에 의한 워드임베딩 결과는 단어를 개념으로 변환한 다음 학습한 일종의 개념 벡터이다.
따라서 단어가 입력되었을 때 해당 단어에 대한 단어 벡터를 획득하려면, 활용 단계에서도 개념 변환과정이 필요하다.
먼저 학습 단계와 마찬가지로 개별 단어를 해당하는 개념으로 변환한 다음, 워드임베딩 결과에서 해당 개념으로 변환한다.
도 10은 워드 임베딩 결과를 활용할 때 미등록어에 대한 처리 예를 나타낸 구성도이다.
만약 워드임베딩 결과를 활용할 때 입력된 단어가 미등록어라면 해당 단어에 대한 워드임베딩을 다시 수행할 수 밖에 없다.
그러나 본 발명에서는 미등록어와 관계된 단어(상위어, 하위어, 동의어)를 한국어 어휘의미망에서 찾은 다음 해당 단어에 대한 임베딩 결과를 차용하면 된다.
예를 들어, '가랑비'에 대한 워드임베딩 결과가 필요할 때, '가랑비'는 미등록어로서 기존 워드임베딩 결과에 없다.
그러나 '가랑비'는 '비4'의 하위어이기 때문에 임의의 벡터로 변환하는 것보다는 '비4'의 벡터를 차용해서 사용하는게 더 효과적이다.
이상에서 설명한 본 발명에 따른 한국어 워드넷 기반 지식 주도 심층학습을 이용한 워드 임베딩 장치 및 방법은 워드 임베딩의 효율성 및 정확성을 높이기 위하여, 단어를 부분단어 모형으로 분해하여 분석함으로써 유사도를 산출하여 워드 임베딩의 효율성을 높이는 구성 및 단어의 의미적 특성을 유지한 상태로 고차원의 데이터인 단어를 저차원의 데이터인 개념으로 변환하여 단어 벡터의 품질을 높이는 구성을 포함하는 것이다.
이상에서의 설명에서와 같이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 본 발명이 구현되어 있음을 이해할 수 있을 것이다.
그러므로 명시된 실시 예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 하고, 본 발명의 범위는 전술한 설명이 아니라 특허청구 범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
21. 집합 정의부
22. 벡터 계산부
23. 유사도 산출부

Claims (11)

  1. 둘 이상의 형태소로 이루어진 복합어를 실질 형태소의 집합으로 정의하는 집합 정의부;
    skip-gram의 방법을 활용하여 각 n-gram에 대한 단어 벡터를 계산하는 벡터 계산부;
    실질 형태소 집합을 이용해서 워드 임베딩 과정에서 단어와 문맥의 유사도 산출을 하는 유사도 산출부;를 포함하고, 둘 이상의 형태소로 이루어진 복합어를 실질 형태소의 집합으로 정의하여 형태론적 특성이 오류없이 반영되도록 하고,
    워드 임베딩 과정에서 단어의 의미적 특성을 유지한 상태로 고차원의 데이터인 단어를 저차원의 데이터인 개념으로 변환하기 위하여,
    문장이 입력되면 형태 분석을 수행하는 형태 분석부와, 형태 분석이 이루어진 각 단어에 대한 단어 판단 및 의미 판단이 이루어지 않는 경우에 의미 분석을 수행하는 의미 분석부와,한국어 어휘의미망을 활용하여 각 단어에 대한 개념 변환을 수행하는 개념 변환부를 더 포함하고,
    한국어 어휘의미망에서 해당 단어를 검색하였을 때 하나의 개념만 존재한다면 해당 개념으로 바로 변환하고, 해당 단어가 여러 개의 의미로 사용될 수 있는 동형이의어 혹은 다의어일 경우에는 의미 분석을 통해 해당 단어의 의미를 먼저 분석한 다음 분석된 개념으로 변환하고,
    워드임베딩 결과를 활용할 때 입력된 단어가 미등록어이면, 미등록어와 관계된 상위어, 하위어, 동의어를 한국어 어휘의미망에서 찾은 다음 해당 단어에 대한 임베딩 결과를 차용하는 것을 특징으로 하는 한국어 워드넷 기반 지식 주도 심층학습을 이용한 워드 임베딩 장치.
  2. 제 1 항에 있어서, 실질 형태소 집합을 이용한 워드 임베딩 과정에서 단어
    Figure 112021086944705-pat00019
    와 문맥
    Figure 112021086944705-pat00020
    의 유사도 함수(scoring function)
    Figure 112021086944705-pat00021
    는,
    Figure 112021086944705-pat00022
    으로 정의되고,
    이때,
    Figure 112021086944705-pat00023
    는 단어
    Figure 112021086944705-pat00024
    에 나타나는 실질 형태소의 집합
    Figure 112021086944705-pat00025
    에 속한 실질 형태소
    Figure 112021086944705-pat00026
    의 벡터이고,
    Figure 112021086944705-pat00039
    는 문맥 단어의 벡터인 것을 특징으로 하는 한국어 워드넷 기반 지식 주도 심층학습을 이용한 워드 임베딩 장치.
  3. 삭제
  4. 삭제
  5. 제 1 항에 있어서, 개념 변환부는,
    워드임베딩의 학습을 위해 원시말뭉치가 입력이 되었을 때 개별 문장에 대한 개념 변환 작업을 수행하는 동적 변환 또는,
    워드임베딩을 위한 학습과정에서 원시말뭉치에 포함된 모든 단어를 한국어 어휘의미망에 등록된 개념으로 일괄적으로 변환하는 정적 변환을 하는 것을 특징으로 하는 한국어 워드넷 기반 지식 주도 심층학습을 이용한 워드 임베딩 장치.
  6. 둘 이상의 형태소로 이루어진 복합어를 실질 형태소의 집합으로 정의하는 집합 정의 단계;
    skip-gram의 방법을 활용하여 각 n-gram에 대한 단어 벡터를 계산하는 벡터 계산 단계;
    실질 형태소 집합을 이용해서 워드 임베딩 과정에서 단어와 문맥의 유사도 산출을 하는 유사도 산출 단계;를 포함하여, 둘 이상의 형태소로 이루어진 복합어를 실질 형태소의 집합으로 정의하여 형태론적 특성이 오류없이 반영되도록 하고,
    워드 임베딩 과정에서 단어의 의미적 특성을 유지한 상태로 고차원의 데이터인 단어를 저차원의 데이터인 개념으로 변환하기 위하여,
    문장이 입력되면 형태 분석을 수행하는 형태 분석 단계와, 형태 분석이 이루어진 각 단어에 대한 단어 판단 및 의미 판단이 이루어지 않는 경우에 의미 분석을 수행하는 의미 분석 단계와, 한국어 어휘의미망을 활용하여 각 단어에 대한 개념 변환을 수행하는 개념 변환 단계를 더 포함하고,
    한국어 어휘의미망에서 해당 단어를 검색하였을 때 하나의 개념만 존재한다면 해당 개념으로 바로 변환하고, 해당 단어가 여러 개의 의미로 사용될 수 있는 동형이의어 혹은 다의어일 경우에는 의미 분석을 통해 해당 단어의 의미를 먼저 분석한 다음 분석된 개념으로 변환하고,
    워드임베딩 결과를 활용할 때 입력된 단어가 미등록어이면, 미등록어와 관계된 상위어, 하위어, 동의어를 한국어 어휘의미망에서 찾은 다음 해당 단어에 대한 임베딩 결과를 차용하는 것을 특징으로 하는 한국어 워드넷 기반 지식 주도 심층학습을 이용한 워드 임베딩 방법.
  7. 삭제
  8. 삭제
  9. 제 6 항에 있어서, 개념 변환 단계는,
    워드임베딩의 학습을 위해 원시말뭉치가 입력이 되었을 때 개별 문장에 대한 개념 변환 작업을 수행하는 동적 변환 또는,
    워드임베딩을 위한 학습과정에서 원시말뭉치에 포함된 모든 단어를 한국어 어휘의미망에 등록된 개념으로 일괄적으로 변환하는 정적 변환을 하는 것을 특징으로 하는 한국어 워드넷 기반 지식 주도 심층학습을 이용한 워드 임베딩 방법.
  10. 제 6 항에 있어서, 워드임베딩 결과를 활용하는 단계를 더 포함하고,
    워드임베딩 결과를 활용하는 단계는,
    단어가 입력되었을 때 해당 단어에 대한 단어 벡터를 획득하기 위하여 학습 단계와 마찬가지로 개별 단어를 해당하는 개념으로 변환한 다음, 워드임베딩 결과에서 해당 개념으로 변환하는 것을 특징으로 하는 한국어 워드넷 기반 지식 주도 심층학습을 이용한 워드 임베딩 방법.
  11. 삭제
KR1020190080209A 2018-11-29 2019-07-03 한국어 워드넷 기반 지식 주도 심층학습을 이용한 워드 임베딩 장치 및 방법 KR102347505B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020180151393 2018-11-29
KR20180151393 2018-11-29

Publications (2)

Publication Number Publication Date
KR20200064880A KR20200064880A (ko) 2020-06-08
KR102347505B1 true KR102347505B1 (ko) 2022-01-10

Family

ID=71089774

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190080209A KR102347505B1 (ko) 2018-11-29 2019-07-03 한국어 워드넷 기반 지식 주도 심층학습을 이용한 워드 임베딩 장치 및 방법

Country Status (1)

Country Link
KR (1) KR102347505B1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220160756A (ko) 2021-05-28 2022-12-06 삼성에스디에스 주식회사 문서 임베딩 생성 방법 및 장치
CN113987197B (zh) * 2021-10-01 2024-04-23 杭州量知数据科技有限公司 一种全领域产品节点体系动态融合与生长方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101740330B1 (ko) * 2013-10-14 2017-05-29 한국전자통신연구원 단어 공기 정보에 기반한 다국어 형태소 분석 오류 정정 장치 및 방법
KR101799681B1 (ko) * 2016-06-15 2017-11-20 울산대학교 산학협력단 어휘 의미망 및 단어 임베딩을 이용한 동형이의어 분별 장치 및 방법

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101757222B1 (ko) * 2015-08-28 2017-07-13 한국과학기술원 한글 문장에 대한 의역 문장 생성 방법
KR101797365B1 (ko) 2016-06-15 2017-11-15 울산대학교 산학협력단 어휘 의미망을 이용한 단어 의미 임베딩 장치 및 방법
KR102604552B1 (ko) 2016-07-15 2023-11-22 삼성전자주식회사 단어 임베딩 방법, 단어 임베딩 장치, 음성 인식 방법 및 음성 인식 장치

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101740330B1 (ko) * 2013-10-14 2017-05-29 한국전자통신연구원 단어 공기 정보에 기반한 다국어 형태소 분석 오류 정정 장치 및 방법
KR101799681B1 (ko) * 2016-06-15 2017-11-20 울산대학교 산학협력단 어휘 의미망 및 단어 임베딩을 이용한 동형이의어 분별 장치 및 방법

Also Published As

Publication number Publication date
KR20200064880A (ko) 2020-06-08

Similar Documents

Publication Publication Date Title
US10614106B2 (en) Automated tool for question generation
US11106873B2 (en) Context-based translation retrieval via multilingual space
Kim et al. Two-stage multi-intent detection for spoken language understanding
TW201717070A (zh) 基於統計的機器翻譯方法、裝置及電子設備
CN115485696A (zh) 机器学习模型的对抗预训练
KR101573854B1 (ko) 관계어 기반 확률추정 방법을 이용한 통계적 문맥의존 철자오류 교정 장치 및 방법
SG188531A1 (en) Methods and systems for automated text correction
US11068653B2 (en) System and method for context-based abbreviation disambiguation using machine learning on synonyms of abbreviation expansions
KR20220114495A (ko) 탐색, 검색 및 순위화를 위한 상호작용 계층 신경망
US10592542B2 (en) Document ranking by contextual vectors from natural language query
KR101627428B1 (ko) 딥 러닝을 이용하는 구문 분석 모델 구축 방법 및 이를 수행하는 장치
US20150161109A1 (en) Reordering words for machine translation
KR102347505B1 (ko) 한국어 워드넷 기반 지식 주도 심층학습을 이용한 워드 임베딩 장치 및 방법
Toral et al. Linguistically-augmented perplexity-based data selection for language models
JP2005208782A (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
Zhu et al. Improve word embedding using both writing and pronunciation
Abzianidze Towards a wide-coverage tableau method for natural logic
Gong Study on machine translation teaching model based on translation parallel corpus and exploitation for multimedia Asian information processing
WO2022227166A1 (zh) 词语替换方法、装置、电子设备和存储介质
Andrabi et al. A Comprehensive Study of Machine Translation Tools and Evaluation Metrics
Kaur Development of an approach for disambiguating ambiguous Hindi postposition
Almansor et al. Transferring informal text in arabic as low resource languages: State-of-the-art and future research directions
JP2011243166A (ja) テキスト要約装置、テキスト要約方法及びテキスト要約プログラム
Dehdari A neurophysiologically-inspired statistical language model
Nou et al. Khmer POS tagger: a transformation-based approach with hybrid unknown word handling

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right