KR101702055B1 - 딥-러닝 기반 형태소 분석 장치와 형태소 분석 애플리케이션의 작동 방법 - Google Patents

딥-러닝 기반 형태소 분석 장치와 형태소 분석 애플리케이션의 작동 방법 Download PDF

Info

Publication number
KR101702055B1
KR101702055B1 KR1020150089121A KR20150089121A KR101702055B1 KR 101702055 B1 KR101702055 B1 KR 101702055B1 KR 1020150089121 A KR1020150089121 A KR 1020150089121A KR 20150089121 A KR20150089121 A KR 20150089121A KR 101702055 B1 KR101702055 B1 KR 101702055B1
Authority
KR
South Korea
Prior art keywords
morpheme
candidates
sequential
module
candidate
Prior art date
Application number
KR1020150089121A
Other languages
English (en)
Other versions
KR20170000201A (ko
Inventor
박외진
오성식
고의열
이슬기
Original Assignee
(주)아크릴
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)아크릴 filed Critical (주)아크릴
Priority to KR1020150089121A priority Critical patent/KR101702055B1/ko
Publication of KR20170000201A publication Critical patent/KR20170000201A/ko
Application granted granted Critical
Publication of KR101702055B1 publication Critical patent/KR101702055B1/ko

Links

Images

Classifications

    • G06F17/2755
    • G06F17/2735
    • G06F17/2765
    • G06N3/0472

Landscapes

  • Machine Translation (AREA)

Abstract

본 발명의 실시 예에 따른 딥-러닝(deep-learning) 기반 형태소 분석 장치는, 입력 어절로부터 복수의 형태소 후보열들을 생성하는 형태소 후보열 생성 모듈과, 형태소 사전을 이용하여 상기 복수의 형태소 후보열들 각각에 포함된 복수의 순차적인 형태소 후보들 각각을 인식하는 형태소 분석 모듈과, 인식된 상기 복수의 순차적인 형태소 후보들의 연결 확률을 DNN(deep neural network)을 이용하여 계산하는 연결 확률 계산 모듈과, 계산된 연결 확률에 기초하여, 상기 복수의 형태소 후보열들 각각의 생성 확률을 계산하고, 계산된 생성 확률이 가장 높은 형태소 후보열을 상기 입력 어절에 대한 형태소 열로 결정하는 형태소 열 결정 모듈을 포함한다.

Description

딥-러닝 기반 형태소 분석 장치와 형태소 분석 애플리케이션의 작동 방법 {DEEP-LEARNING BASED MORPHEME ANALYSIS DEVICE AND METHOD OF OPERATING MORPHEME ANALYSIS APPLICATION}
본 발명의 개념에 따른 실시 예는 형태소 분석 장치에 관한 것으로, 특히 심층 신경망(deep neural network(DNN))을 이용하여 한국어 형태소를 인식하고 분석할 수 있는 딥-러닝(deep-learning) 기반 형태소 분석 장치와 형태소 분석 애플리케이션의 작동 방법에 관한 것이다.
형태소란 한 언어 내에서 의미를 내포하고 있는 가장 작은 단위를 말한다. 형태소 분석기는 어절 또는 문장에 포함된 형태소들을 분리하고, 분리된 형태소들 각각을 분석하는 작동을 수행하는 장치 또는 프로그램으로서, 음성 인식, 감성 분석, 자연어 처리, 데이터 마이닝, 또는 키워드 추출 등 폭넓은 분야에 이용되고 있다.
형태소 분석기가 형태소를 분석하기 위해서는 복수의 형태소들을 포함하는 형태소 사전과 같은 데이터베이스가 필요하다. 따라서, 형태소 사전에 포함되지 않은 신조어, 정규화되지 않은 표현들 등에 대해서는 원활한 형태소 분석이 어려울 수 있다. 또한, 인식이 제대로 되지 않은 형태소에 대해서는 형태소 분석을 실시할 수가 없다.
1. 등록특허공보 제10-0882766호 (2009.02.03. 등록) 2. 등록특허공보 제10-1509727호 (2015.04.01. 등록)
본 발명이 이루고자 하는 기술적인 과제는 DNN을 이용하여 형태소 사전에 존재하지 않는 형태소를 분석하고, 인식되지 않는 형태소를 추론하여 분석할 수 있는 딥-러닝 기반 형태소 분석 장치와 형태소 분석 애플리케이션의 작동 방법을 제공하는 것이다.
본 발명의 실시 예에 따른 딥-러닝(deep-learning) 기반 형태소 분석 장치는, 입력 어절로부터 복수의 형태소 후보열들을 생성하는 형태소 후보열 생성 모듈과, 형태소 사전을 이용하여 상기 복수의 형태소 후보열들 각각에 포함된 복수의 순차적인 형태소 후보들 각각을 인식하는 형태소 분석 모듈과, 인식된 상기 복수의 순차적인 형태소 후보들의 연결 확률을 DNN(deep neural network)을 이용하여 계산하는 연결 확률 계산 모듈과, 계산된 연결 확률에 기초하여, 상기 복수의 형태소 후보열들 각각의 생성 확률을 계산하고, 계산된 생성 확률이 가장 높은 형태소 후보열을 상기 입력 어절에 대한 형태소 열로 결정하는 형태소 열 결정 모듈을 포함한다.
상기 형태소 분석 모듈은, 코드 할당 규칙을 이용하여 상기 복수의 순차적인 형태소 후보들 각각에 상응하는 각 제1코드를 할당하는 코드 할당 모듈과, 할당된 상기 각 제1코드를 이용하여, 상기 형태소 사전에 등록된 복수의 형태소들 중에서 상기 복수의 순차적인 형태소 후보들 각각에 매칭되는 각 형태소를 검색하는 사전 검색 모듈과, 검색 결과에 기초하여, 상기 복수의 순차적인 형태소 후보들 각각을 인식하는 형태소 인식 모듈과, 인식된 복수의 순차적인 형태소 후보들 중 첫번째 형태소 후보의 품사를 지시하는 제2코드를 상기 첫번째 형태소 후보에 할당하는 품사 할당 모듈을 포함할 수 있다.
상기 형태소 인식 모듈은, 상기 복수의 순차적인 형태소 후보들 중에서 어느 하나의 형태소 후보에 매칭되는 형태소가 상기 형태소 사전에 등록되어 있지 않은 경우, 상기 DNN을 이용하여 상기 어느 하나의 형태소 후보와 매칭 확률이 가장 높은 제1형태소를 판단하고, 판단 결과에 따라 상기 어느 하나의 형태소 후보를 상기 제1형태소로 인식할 수 있다.
상기 연결 확률 계산 모듈은, 상기 첫번째 형태소 후보에 할당된 상기 제1코드와 상기 제2코드를 상기 DNN에 입력하고, 상기 DNN을 통해 상기 복수의 순차적인 형태소 후보들 중에서 상기 첫번째 형태소 후보와 순차적인 나머지 형태소 후보들 각각에 할당될 수 있는 각 품사의 확률을 의미하는 상기 연결 확률을 계산할 수 있다.
상기 딥-러닝 기반 형태소 분석 장치는, 상기 복수의 순차적인 형태소 후보들 중에서 어느 하나의 형태소 후보가 인식되지 않을 때, 상기 형태소 사전에 등록된 복수의 형태소들 각각에 대하여, 상기 복수의 순차적인 형태소 후보들 중에서 나머지 형태소 후보들과 연결될 수 있는 확률을 상기 DNN을 이용하여 계산하고, 계산 결과 상기 나머지 형태소 후보들과 연결될 수 있는 확률이 가장 큰 형태소를 상기 어느 하나의 형태소 후보로 추론하는 형태소 추론 모듈을 더 포함할 수 있다.
본 발명의 실시 예에 따른 컴퓨팅 장치에 설치되어 실행되는 딥-러닝(deep-learning) 기반 형태소 분석 애플리케이션의 작동 방법은, 상기 애플리케이션이, 입력 어절로부터 복수의 형태소 후보열들을 생성하는 단계와, 상기 애플리케이션이, 형태소 사전을 이용하여 상기 복수의 형태소 후보열들 각각에 포함된 복수의 순차적인 형태소 후보들 각각을 인식하는 단계와, 상기 애플리케이션이, 인식된 상기 복수의 순차적인 형태소 후보들의 연결 확률을 DNN을 이용하여 계산하는 단계와, 상기 애플리케이션이, 상기 연결 확률에 기초하여 상기 복수의 형태소 후보열들 각각의 생성 확률을 계산하는 단계와, 상기 애플리케이션이, 계산된 생성 확률이 가장 높은 형태소 후보열을 상기 입력 어절에 대한 형태소 열로 결정하는 단계를 포함할 수 있다.
상기 인식하는 단계는, 상기 애플리케이션이, 코드 할당 규칙을 이용하여 상기 복수의 순차적인 형태소 후보들 각각에 상응하는 각 제1코드를 할당하는 단계와, 상기 애플리케이션이, 할당된 각 제1코드를 이용하여 상기 형태소 사전에 등록된 복수의 형태소들 중에서 상기 복수의 순차적인 형태소 후보들 각각에 매칭되는 각 형태소를 검색하는 단계와, 상기 애플리케이션이, 검색 결과에 기초하여 상기 복수의 순차적인 형태소 후보들 각각을 인식하는 단계와, 상기 애플리케이션이, 상기 복수의 순차적인 형태소 중에서 첫번째 형태소 후보의 품사를 지시하는 제2코드를 상기 첫번째 형태소 후보에 할당하는 단계를 포함할 수 있다.
상기 검색 결과에 기초하여 상기 복수의 순차적인 형태소 후보들 각각을 인식하는 단계는, 상기 애플리케이션이, 상기 복수의 순차적인 형태소 후보들 중에서 어느 하나의 형태소 후보에 매칭되는 형태소가 상기 형태소 사전에 등록되어 있지 않은 경우, 상기 DNN을 이용하여 상기 형태소 사전에 등록된 상기 복수의 형태소들 중에서 상기 어느 하나의 형태소 후보와 매칭 확률이 가장 높은 제1형태소를 판단하는 단계와, 상기 애플리케이션이, 판단 결과에 따라 상기 어느 하나의 형태소 후보를 상기 제1형태소로 인식하는 단계를 포함할 수 있다.
상기 연결 확률을 상기 DNN을 이용하여 계산하는 단계는, 상기 애플리케이션이, 상기 첫번째 형태소 후보에 할당된 상기 제1코드와 상기 제2코드를 상기 DNN에 입력하는 단계와, 상기 애플리케이션이, 상기 DNN을 이용하여 상기 복수의 순차적인 형태소 후보들 중에서 상기 첫번째 형태소 후보와 순차적인 나머지 형태소 후보들 각각에 할당될 수 있는 각 품사의 확률을 의미하는 상기 연결 확률을 계산하는 단계를 포함할 수 있다.
본 발명의 실시 예에 따른 컴퓨터로 판독가능한 저장 매체는 상기 딥-러닝 기반 형태소 분석 애플리케이션을 저장할 수 있다.
본 발명의 실시 예에 따른 딥-러닝 기반 형태소 분석 장치는 DNN을 이용하여 형태소 사전에 존재하지 않는 형태소를 분석할 수 있고, 인식되지 않는 형태소에 대해서도 추론하여 분석할 수 있으므로, 형태소 분석의 정확도 및 형태소 분석 장치의 성능을 향상시킬 수 있는 효과가 있다.
본 발명의 상세한 설명에서 인용되는 도면을 보다 충분히 이해하기 위하여 각 도면의 상세한 설명이 제공된다.
도 1은 본 발명의 실시 예에 따른 딥-러닝 기반 형태소 분석기의 개략적인 블록도이다.
도 2는 도 1에 도시된 형태소 분석 모듈의 일 실시 예를 나타내는 개략적인 블록도이다.
도 3은 도 1과 도 2에 도시된 형태소 분석 모듈의 작동을 설명하기 위한 일 실시 예를 나타낸다.
도 4는 도 2에 도시된 형태소 인식 모듈이 형태소 사전에 존재하지 않는 형태소 후보를 인식하는 작동에 대한 일 실시 예를 나타낸다.
도 5는 도 2에 도시된 연결 확률 계산 모듈과 형태소 열 결정 모듈의 작동을 설명하기 위한 일 실시 예를 나타낸다.
도 6은 도 1에 도시된 형태소 추론 모듈의 작동을 설명하기 위한 일 실시 예를 나타낸다.
도 7은 본 발명의 실시 예에 따른 딥-러닝 기반 형태소 분석기의 작동을 나타내는 플로우차트이다.
도 8은 본 발명의 실시 예에 따른 딥-러닝 기반 형태소 분석기가 복수의 순차적인 형태소 후보들 각각을 인식하는 과정의 일 실시 예를 나타내는 플로우차트이다.
본 명세서에 개시되어 있는 본 발명의 개념에 따른 실시 예들에 대해서 특정한 구조적 또는 기능적 설명은 단지 본 발명의 개념에 따른 실시 예들을 설명하기 위한 목적으로 예시된 것으로서, 본 발명의 개념에 따른 실시 예들은 다양한 형태들로 실시될 수 있으며 본 명세서에 설명된 실시 예들에 한정되지 않는다.
본 발명의 개념에 따른 실시 예들은 다양한 변경들을 가할 수 있고 여러 가지 형태들을 가질 수 있으므로 실시 예들을 도면에 예시하고 본 명세서에서 상세하게 설명하고자 한다. 그러나, 이는 본 발명의 개념에 따른 실시 예들을 특정한 개시 형태들에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물, 또는 대체물을 포함한다.
제1 또는 제2 등의 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로만, 예컨대 본 발명의 개념에 따른 권리 범위로부터 벗어나지 않은 채, 제1구성 요소는 제2구성 요소로 명명될 수 있고 유사하게 제2구성 요소는 제1구성 요소로도 명명될 수 있다.
어떤 구성 요소가 다른 구성 요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성 요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성 요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성 요소가 다른 구성 요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는 중간에 다른 구성 요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성 요소들 간의 관계를 설명하는 다른 표현들, 즉 "~사이에"와 "바로 ~사이에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.
본 명세서에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로서, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 본 명세서에 기재된 특징, 숫자, 단계, 동작, 구성 요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성 요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 나타낸다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
본 명세서에서의 모듈(module)이라 함은 본 명세서에서 설명되는 각각의 명칭에 따른 기능과 동작을 수행할 수 있는 하드웨어를 의미할 수도 있고, 또는 특정한 기능과 동작을 수행할 수 있는 컴퓨터 프로그램 코드를 의미할 수도 있고, 또는 특정한 기능과 동작을 수행시킬 수 있는 컴퓨터 프로그램 코드가 탑재된 전자적 기록 매체, 예컨대 프로세서를 의미할 수 있다.
다시 말해, 모듈이란 본 발명의 기술적 사상을 수행하기 위한 하드웨어 및/또는 상기 하드웨어를 구동하기 위한 소프트웨어의 기능적 및/또는 구조적 결합을 의미할 수 있다.
이하, 본 명세서에 첨부된 도면들을 참조하여 본 발명의 실시 예들을 상세히 설명한다.
도 1은 본 발명의 실시 예에 따른 딥-러닝 기반 형태소 분석기의 개략적인 블록도이다.
도 1을 참조하면, 딥-러닝(deep-learning) 기반 형태소 분석기(100)는 컴퓨팅 장치로 구현될 수 있다. 상기 컴퓨팅 장치는 PC(personal computer) 또는 서버 컴퓨터로 구현되거나, 스마트폰이나 태블릿 PC와 같은 모바일 컴퓨팅 장치로 구현될 수 있다.
형태소 분석기(100)는 형태소 후보열 생성 모듈(110), 형태소 분석 모듈(120), 연결 확률 계산 모듈(130), 형태소 열 결정 모듈(140), 형태소 사전 데이터베이스(150), 및 형태소 추론 모듈(160)을 포함할 수 있다.
형태소 후보열 생성 모듈(110)은, 외부로부터 입력되는 입력 어절(또는 문장; IS)을 수신하고, 수신된 입력 어절(IS)로부터 복수의 형태소 후보열들을 생성할 수 있다. 입력 어절(IS)은 형태소 분석기(100)에 포함되는 입력 인터페이스를 통해 수신되거나, 형태소 분석기(100)와 통신가능한 컴퓨팅 장치로부터 수신될 수도 있다. 상기 복수의 형태소 후보열들 각각은 복수의 순차적인 형태소 후보들을 포함할 수 있다.
형태소 후보열 생성 모듈(110)은, 생성된 복수의 형태소 후보열들을 순차적으로 또는 병렬적으로 형태소 분석 모듈(120)로 출력할 수 있다. 본 명세서에서는 형태소 후보열 생성 모듈(110)이 복수의 형태소 후보열들 각각을 형태소 분석 모듈(120)로 순차적으로 전송하는 것으로 가정한다. 이 때, 형태소 후보열 생성 모듈(110)은 상기 복수의 형태소 후보열들을 저장하기 위한 메모리(미도시)를 포함할 수 있다.
형태소 분석 모듈(120)은, 형태소 후보열 생성 모듈(110)로부터 상기 복수의 형태소 후보열들 중에서 어느 하나의 형태소 후보열(MC)을 수신하고, 수신된 형태소 후보열(MC)에 포함된 복수의 순차적인 형태소 후보들 각각을 인식할 수 있다.
형태소 분석 모듈(120)은 형태소 사전 데이터베이스(150)를 이용하여 상기 복수의 순차적인 형태소 후보들 각각을 인식하고, 인식 결과 상기 복수의 순차적인 형태소 후보들이 인식되는 경우 인식된 형태소 후보열(RMC)을 연결 확률 계산 모듈(130)로 출력할 수 있다. 상기 복수의 순차적인 형태소 후보들 중에서 적어도 하나가 인식되지 않는 경우, 형태소 분석 모듈(120)은 미인식된 형태소 후보열(NRMC)을 형태소 추론 모듈(160)로 출력할 수 있다.
형태소 분석 모듈(120)의 구조와 작동은 도 2를 참조하여 보다 상세히 설명될 것이다.
연결 확률 계산 모듈(130)은, 형태소 분석 모듈(120)로부터 전송되는 인식된 형태소 후보열(RMC)에 포함된 상기 복수의 순차적인 형태소 후보들의 연결 확률(CP1)을 계산할 수 있다.
실시 예에 따라, 연결 확률 계산 모듈(130)은 심층 신경망(deep neural network(DNN))을 이용하여 연결 확률(CP1)을 계산할 수 있다. 상기 DNN은 음성 인식, 자연어 처리, 신호 처리 등의 분야에 사용되는 기계 학습 또는 딥-러닝 기법을 의미한다.
연결 확률 계산 모듈(130)은, 상기 복수의 순차적인 형태소 후보들 중에서 첫번째 형태소 후보에 할당되는 품사를 이용하여, 상기 첫번째 형태소 후보와 순차적인 나머지 형태소 후보들 각각에 할당될 수 있는 품사의 확률을 상기 DNN을 이용하여 계산함으로써 연결 확률(CP1)을 계산할 수 있다.
연결 확률 계산 모듈(130)은, 계산된 연결 확률(CP1)을 형태소 열 결정 모듈(140)로 출력할 수 있다.
형태소 열 결정 모듈(140)은, 연결 확률 계산 모듈(130)로부터 출력된 연결 확률(CP1) 또는 형태소 추론 모듈(160)로부터 출력된 연결 확률(CP2)을 수신할 수 있다. 형태소 열 결정 모듈(140)은, 연결 확률(CP1 또는 CP2)을 이용하여 형태소 후보열(RMC)의 생성 확률을 계산할 수 있다.
형태소 열 결정 모듈(140)은, 형태소 후보열 생성 모듈(110)에 의해 생성된 상기 복수의 형태소 후보열들 각각에 대한 생성 확률을 계산하고, 계산 결과 상기 생성 확률이 가장 높은 형태소 후보열을 입력 어절(IS)에 대한 형태소 열(MS)로 결정할 수 있다.
형태소 사전 데이터베이스(150)는, 복수의 형태소들에 대한 정보가 등록된 형태소 사전에 대한 데이터베이스(database(DB))를 의미한다. 상기 정보는 상기 복수의 형태소들 각각에 대응되는 복수의 코드들과, 상기 복수의 형태소들 각각에 대한 품사를 지시하는 코드들을 포함할 수 있다.
도 1에서는 형태소 분석기(100)에 형태소 사전 데이터베이스(150)가 포함된 것으로 도시되어 있으나, 실시 예에 따라 형태소 사전 데이터베이스(150)는 형태소 분석기(100)와 분리된 데이터베이스 서버 형태로 구현될 수도 있다. 이 때, 형태소 분석기(100)는 상기 데이터베이스 서버에 유선 및/또는 무선 통신을 통해 접속할 수 있다.
형태소 추론 모듈(160)은, 형태소 후보열(MC)에 포함된 복수의 순차적인 형태소 후보들 중에서 인식되지 않은 형태소 후보가 존재하는 경우, 형태소 분석 모듈(120)로부터 미인식된 형태소 후보열(NRMC)을 수신할 수 있다.
형태소 추론 모듈(160)은, 형태소 사전 데이터베이스(150)에 등록된 복수의 형태소들 각각에 대하여, 상기 복수의 순차적인 형태소 후보들 중에서 인식된 형태소 후보들과 연결될 수 있는 각 확률을 상기 DNN을 이용하여 계산할 수 있다. 형태소 추론 모듈(160)은 계산 결과 상기 연결될 수 있는 확률이 가장 높은 형태소를 상기 인식되지 않은 형태소 후보로 추론하고, 상기 형태소에 대한 연결 확률(CP2)을 형태소 열 결정 모듈(140)로 출력할 수 있다.
즉, 형태소 추론 모듈(160)은 인식되지 않은 형태소 후보에 대해서도 상기 DNN을 이용하여 연결 확률이 가장 높은 형태소를 판단하여 상기 형태소 후보를 인식할 수 있으므로, 형태소 인식의 정확도를 높일 수 있다.
도 1에서는 형태소 분석기(100)가 모듈들(110~160)을 포함하는 것으로 도시되어 있으나, 실시 예에 따라, 형태소 분석기(100)는 본 발명의 실시 예에 따른 딥-러닝 기반 형태소 분석 애플리케이션을 저장하는 저장 매체를 포함할 수 있고, 형태소 분석기(100)의 프로세서가 상기 저장 매체에 저장된 상기 딥-러닝 기반 형태소 분석 애플리케이션을 실행하여 형태소 분석을 수행할 수도 있다. 이 경우, 상기 딥-러닝 기반 형태소 분석 애플리케이션은 도 1에 도시된 각 모듈들(110~160)을 포함할 수 있다.
도 2는 도 1에 도시된 형태소 분석 모듈의 일 실시 예를 나타내는 개략적인 블록도이다.
도 1과 도 2를 참조하면, 형태소 분석 모듈(120)은 코드 할당 모듈(122), 사전 검색 모듈(124), 형태소 인식 모듈(126), 및 품사 할당 모듈(128)을 포함할 수 있다.
코드 할당 모듈(122)은, 형태소 후보열 생성 모듈(110)로부터 전송된 형태소 후보열(MC)에 포함된 복수의 순차적인 형태소 후보들 각각에 대하여, 미리 정의된 코드 할당 규칙을 이용하여 상기 복수의 순차적인 형태소 후보들 각각에 상응하는 각 제1코드를 할당할 수 있다.
상기 코드 할당 규칙은, 어느 하나의 형태소 후보의 초성, 중성, 및 종성을 분리하고, 각각에 가중치를 부여함으로써 상기 제1코드를 할당하는 방식일 수 있으나, 이에 한정되는 것은 아니다. 예컨대, '사랑'이라는 형태소 후보에 대해 상기 제1코드를 할당할 때, 상기 형태소 후보를 'ㅅ,ㅏ, 0, ㄹ, ㅏ, ㅇ'의 활자들로 분리하고, 분리된 활자들 각각에 서로 다른 가중치를 부여함으로써 상기 제1코드를 할당할 수 있다. 상기 활자들은 형태소 분석기(100)에서는 수치화되어 있으므로, 상기 활자들 각각에 상기 부여된 가중치들 각각을 곱하는 방식을 통하면 상기 제1코드가 생성될 수 있다.
코드 할당 모듈(122)은 상기 각 제1코드가 할당된 형태소 후보열(CMC)을 사전 검색 모듈(124)과 형태소 인식 모듈(126)로 출력할 수 있다.
사전 검색 모듈(124)은, 상기 각 제1코드를 이용하여, 형태소 사전 데이터베이스(150)에 등록된 복수의 형태소들 중에서 상기 복수의 순차적인 형태소 후보들 각각에 매칭되는 각 형태소를 검색할 수 있다.
예컨대, 사전 검색 모듈(124)은 형태소 사전 데이터베이스(150)에 등록된 상기 복수의 형태소들 각각에 할당된 코드들 각각과, 상기 각 제1코드를 비교하고, 비교 결과 상기 각 제1코드와 매칭되는 코드를 갖는 형태소들 각각을 검색할 수 있다.
사전 검색 모듈(124)은, 검색 결과(SR)를 형태소 인식 모듈(126)로 출력할 수 있다. 예컨대, 검색 결과(SR)는 검색 성공 또는 검색 실패를 지시하는 신호 및/또는 데이터일 수 있다.
형태소 인식 모듈(126)은, 사전 검색 모듈(124)로부터 전송된 검색 결과(SR)에 기초하여, 상기 복수의 형태소 후보들 각각을 인식할 수 있다. 검색 결과(SR)가 상기 검색 성공을 지시하는 경우, 형태소 인식 모듈(126)은 해당하는 형태소 후보를 형태소 사전 데이터베이스(150)에 매칭되는 형태소로 인식할 수 있다.
검색 결과(SR)가 상기 검색 실패를 지시하는 경우, 즉 어느 하나의 형태소 후보에 매칭되는 형태소가 형태소 사전 데이터베이스(150)에 등록되어 있지 않은 경우, 형태소 인식 모듈(126)은 상기 DNN을 이용하여 상기 복수의 형태소들 중에서 상기 어느 하나의 형태소 후보와 매칭 확률이 가장 높은 제1형태소를 판단하고, 상기 어느 하나의 형태소 후보를 상기 제1형태소로 인식할 수 있다.
즉, 형태소 인식 모듈(126)은 형태소 사전 데이터베이스(150)에 존재하지 않는 형태소 후보의 경우에도 상기 DNN을 이용하여 매칭 확률이 가장 높은 형태소로 인식할 수 있으므로, 줄임말과 같은 신조어나 잘못 입력된 형태소에 대해서도 형태소 인식이 가능하다.
형태소 인식 모듈(126)은, 상기 복수의 순차적인 형태소 후보들 각각에 대해 인식 작동을 수행함에 따라, 인식된 형태소 후보열(RCMC)을 품사 할당 모듈(128)로 전송할 수 있다. 실시 예에 따라, 상기 복수의 순차적인 형태소 후보들 중에서 적어도 하나의 형태소 후보가 인식되지 못하는 경우, 형태소 인식 모듈(126)은 미인식된 형태소 후보열(NRMC)을 형태소 추론 모듈(160)로 전송할 수 있다.
품사 할당 모듈(128)은, 형태소 인식 모듈(126)로부터 인식된 형태소 후보열(RCMC)을 수신하고, 인식된 형태소 후보열(RCMC)에 포함된 상기 복수의 순차적인 형태소 후보들 중에서 첫번째 형태소 후보의 품사를 지시하는 제2코드를 상기 첫번째 형태소 후보에 할당할 수 있다.
예컨대, 품사 할당 모듈(128)은 형태소 사전 데이터베이스(150)로부터 상기 첫번째 형태소 후보에 대한 품사를 지시하는 코드를 수신하고, 수신된 코드를 상기 제2코드로서 상기 첫번째 형태소 후보에 할당할 수 있다.
품사 할당 모듈(128)은 품사 할당 작동이 수행된 인식된 형태소 후보열(RMC)을 연결 확률 계산 모듈(130)로 출력할 수 있다.
도 3은 도 1과 도 2에 도시된 형태소 분석 모듈의 작동을 설명하기 위한 일 실시 예를 나타낸다.
도 1부터 도 3을 참조하면, 형태소 후보열 생성 모듈(110)로 입력되는 입력 어절(IS)이 "사랑한다"인 것으로 가정할 때, 형태소 후보열 생성 모듈(110)은 "사랑한다"로부터 복수의 형태소 후보열들을 생성할 수 있다. 예컨대, 상기 복수의 형태소 후보열들 각각은 "사/랑/한/다", "사랑/한다", "사랑/한/다", 및 "사/랑/한다" 등으로 생성될 수 있고, 상기 복수의 형태소 후보열들 각각은 복수의 순차적인 형태소 후보들을 포함할 수 있다. 본 명세서에서는 설명의 편의를 위해 상기 복수의 순차적인 형태소 후보들 각각을 '/'에 의해 구분하여 도시한 것으로서, '/'가 상기 복수의 형태소 후보열들 각각에 포함되는 것은 아니다.
형태소 후보열 생성 모듈(110)은 생성된 상기 복수의 형태소 후보열들을 형태소 분석 모듈(120)에 포함된 코드 할당 모듈(122)로 순차적 또는 병렬적으로 출력할 수 있다. 도 3에서는 설명의 편의를 위해 상기 복수의 형태소 후보열들 중에서 "사랑/한다"에 해당하는 형태소 후보열에 대한 형태소 분석 과정만을 도시하였으나, 나머지 형태소 후보열들에 대해서도 상기 형태소 분석 과정과 유사하거나 실질적으로 동일한 과정이 수행될 수 있다.
코드 할당 모듈(122)은 코드 할당 규칙을 이용하여 형태소 후보열 생성 모듈(110)로부터 전송된 "사랑/한다"에 포함된 형태소 후보들인 '사랑'과 '한다' 각각에 각 제1코드(C1-1과 C1-2)를 할당할 수 있다. 예컨대, 코드 할당 모듈(122)은 '사랑'을 'ㅅ,ㅏ,0,ㄹ,ㅏ,ㅇ'으로 분리하고, '한다'를 'ㅎ,ㅏ,ㄴ,ㄷ,ㅏ,0'로 분리한 후, 초성, 중성, 및 종성 각각에 서로 다른 가중치를 부여함으로써 '사랑'과 '한다' 각각에 각 제1코드(C1-1과 C1-2)를 할당할 수 있다. 실시 예에 따라 각 제1코드(C1-1과 C1-2)는 수열로써 표현될 수도 있다.
코드 할당 모듈(122)은 각 제1코드(C1-1과 C1-2)가 할당된 '사랑'과 '한다'의 형태소 후보 각각을 사전 검색 모듈(124)과 형태소 인식 모듈(126)로 전송할 수 있다.
사전 검색 모듈(124)은 각 제1코드(C1-1과 C1-2)를 이용하여, 형태소 사전 데이터베이스(150)에 각 제1코드(C1-1과 C1-2)에 상응하는 코드의 존재 여부를 검색할 수 있다. 즉, 사전 검색 모듈(124)은 '사랑'과 '한다' 각각이 형태소 사전에 존재하는지 여부를 검색한다. 형태소 사전 데이터베이스(150)에 '사랑'에 해당하는 제1코드(C1-1)가 존재하면, 사전 검색 모듈(124)은 검색 성공을 지시하는 검색 결과(SR)를 형태소 인식 모듈(126)로 전송할 수 있다. '한다'의 경우도 이와 마찬가지로 수행될 수 있다.
형태소 인식 모듈(126)은 사전 검색 모듈(124)로부터 전송된 검색 결과(SR)에 기초하여 '사랑'과 '한다'의 형태소 후보들 각각을 인식할 수 있다. 검색 결과(SR)가 상기 검색 성공을 지시하므로, 형태소 인식 모듈(126)은 코드 할당 모듈(122)로부터 전송된 각 제1코드(C1-1과 C1-2)를 갖는 '사랑'과 '한다'를 정확히 입력된 것으로 인식하고, 각 제1코드(C1-1과 C1-2)가 할당된 '사랑'과 '한다'의 형태소 후보 각각을 품사 할당 모듈(128)로 전송할 수 있다.
품사 할당 모듈(128)은 형태소 인식 모듈(126)로부터 수신된 형태소 후보들 중에서 첫번째 형태소 후보인 '사랑'에 대한 품사를 지시하는 제2코드(C2-1)를 할당할 수 있다. 품사 할당 모듈(128)은 형태소 사전 데이터베이스(150)로부터 '사랑'에 대한 품사(예컨대, 명사)를 지시하는 제2코드(C2-1)를 '사랑'에 해당하는 첫번째 형태소 후보에 할당할 수 있다. 따라서, '사랑'이라는 형태소 후보는 제1코드(C1-1)와 제2코드(C2-1)를 포함할 수 있고, '한다'라는 형태소 후보는 제1코드(C1-2)만을 포함할 수 있다.
도 4는 도 2에 도시된 형태소 인식 모듈이 형태소 사전에 존재하지 않는 형태소 후보를 인식하는 작동에 대한 실시 예를 나타낸다. 도 1부터 도 4를 참조하면, 입력 어절(IS)이 "스릉한다"이고, '스릉'과 '한다'에 해당하는 형태소 후보들을 갖는 형태소 후보열이 코드 할당 모듈(122)로 입력되어 '스릉'과 '한다'에 각 제1코드(C1-3과 C1-2)가 할당될 수 있다. 각 제1코드(C1-3과 C1-2)가 할당된 '스릉'과 '한다'의 형태소 후보들 각각은 사전 검색 모듈(124)과 형태소 인식 모듈(126)로 전송될 수 있다.
사전 검색 모듈(124)은 각 제1코드(C1-3과 C1-2)를 이용하여, 형태소 사전 데이터베이스(150)에 각 제1코드(C1-3과 C1-2)에 상응하는 코드의 존재 여부를 검색할 수 있다. 즉, 사전 검색 모듈(124)은 '스릉'과 '한다' 각각이 형태소 사전에 존재하는지 여부를 검색한다. 형태소 사전 데이터베이스(150)에 '스릉'에 해당하는 제1코드(C1-3)가 존재하지 않는 경우, 사전 검색 모듈(124)은 '스릉'의 경우 검색 실패를 지시하는 검색 결과(SR)를 형태소 인식 모듈(126)로 전송할 수 있다. '한다'는 형태소 사전 데이터베이스(150)에 상응하는 코드가 존재하므로, 사전 검색 모듈(124)은 '한다'의 경우 검색 성공을 지시하는 검색 결과(SR)를 형태소 인식 모듈(126)로 전송할 수 있다.
형태소 인식 모듈(126)은 사전 검색 모듈(124)로부터 전송된 검색 결과(SR)에 기초하여 '스릉'과 '한다'의 형태소 후보들 각각을 인식할 수 있다. '한다'의 경우 검색 결과(SR)가 상기 검색 성공을 지시하므로, 형태소 인식 모듈(126)은 코드 할당 모듈(122)로부터 전송된 제1코드(C1-2)를 갖는 '한다'를 정확히 입력된 것으로 인식할 수 있다.
'스릉'의 경우 검색 결과(SR)가 상기 검색 실패를 지시하므로, 형태소 인식 모듈(126)은 DNN을 이용하여 '스릉'과 매칭 확률이 가장 높은 형태소를 판단할 수 있다. 실시 예에 따라, 형태소 인식 모듈(126)은 '스릉'에 할당된 제1코드(C1-3)를 상기 DNN에 입력하여 제1코드(C1-3)와 가장 유사한 코드를 갖는 형태소를 판단할 수 있다. 판단 결과 '스릉'과의 상기 매칭 확률이 가장 높은 형태소가 '사랑'인 경우, 형태소 인식 모듈(126)은 '스릉'을 '사랑'으로 인식하고, 인식된 '사랑'에 해당하는 형태소 후보에 '사랑'의 제1코드(C1-1)를 할당할 수 있다.
형태소 인식 모듈(126)은 각 제1코드(C1-1과 C1-2)가 할당된 '사랑'과 '한다'의 형태소 후보 각각을 품사 할당 모듈(128)로 전송할 수 있다. 품사 할당 모듈(128)의 작동은 도 3의 품사 할당 모듈(128)의 작동과 실질적으로 동일하다.
도 5는 도 2에 도시된 연결 확률 계산 모듈과 형태소 열 결정 모듈의 작동을 설명하기 위한 실시 예를 나타낸다.
도 1부터 도 5를 참조하면, 연결 확률 계산 모듈(130)은 형태소 분석 모듈(120)에 포함된 품사 할당 모듈(128)로부터 전송된 인식된 형태소 후보열(RMC; 예컨대, "사랑/한다"에 대한 형태소 후보열)을 수신할 수 있다.
연결 확률 계산 모듈(130)은 '사랑'에 대해 할당된 제1코드(C1-1)와 제2코드(C2-1)를 상기 DNN에 입력하여 '한다'에 할당될 수 있는 품사에 대한 확률을 계산할 수 있다. 예컨대, '한다'의 품사가 '동사'일 경우, 연결 확률 계산 모듈(130)은 '사랑'의 품사가 '명사'일 때 '한다'의 품사가 '동사'일 확률(P(한다-동사|사랑-명사)), 즉 연결 확률을 상기 DNN을 이용하여 계산할 수 있다. 연결 확률 계산 모듈(130)은 계산된 연결 확률(P(한다-동사|사랑-명사))과 인식된 형태소 후보열(RMC)을 형태소 열 결정 모듈(140)로 전송할 수 있다. 실시 예에 따라, 연결 확률 계산 모듈(130)은 형태소 사전 데이터베이스(150)로부터 '한다'가 가질 수 있는 품사(예컨대, '동사')에 대한 정보를 수신할 수 있다.
실시 예에 따라, '한다'가 복수 개의 품사들 중에서 어느 하나를 가질 수 있는 경우, 연결 확률 계산 모듈(130)은 상기 복수 개의 품사들 각각에 대한 연결 확률들 각각을 상기 DNN을 이용하여 계산하고, 가장 높은 연결 확률을 형태소 열 결정 모듈(140)로 전송할 수 있다.
형태소 열 결정 모듈(140)은, 연결 확률 계산 모듈(130)로부터 전송되는 인식된 형태소 후보열(RMC)들 각각과 각 연결 확률을 수신할 수 있다. 형태소 열 결정 모듈(140)은 수신된 각 연결 확률에 기초하여, 형태소 후보열 생성 모듈(110)에 의해 생성된 복수의 형태소 후보열들 각각에 대한 생성 확률을 각각 계산하고, 계산된 생성 확률이 가장 높은 형태소 후보열을 입력 어절(IS)인 "사랑한다"에 대한 형태소 열로서 결정할 수 있다. 형태소 열 결정 모듈(140)은 상기 각 연결 확률과, 각각의 형태소 후보가 가질 수 있는 품사 확률(예컨대, '사랑'이 '명사'일 확률)을 이용하여 상기 생성 확률을 각각 계산할 수 있다.
이해를 돕기 위해 간단한 예를 들어 설명하면, "사랑/한다"에 해당하는 형태소 후보열의 생성 확률(P(사랑/한다))을 계산할 때, '사랑'이 '명사'일 확률이 1, '한다'가 '동사'일 확률이 0.8, '사랑-명사'와 '한다-동사'의 연결 확률이 0.3이라 가정하면, 생성 확률(P(사랑/한다)=1*0.8*0.3=0.24)이 계산될 수 있다. 상술한 예는 하나의 실시 예에 불과하므로, 상기 생성 확률의 계산 방법은 실시 예에 따라 변형될 수 있다.
예컨대, "사랑/한다"에 해당하는 형태소 후보열의 생성 확률(P(사랑/한다))이 가장 높은 경우, 형태소 열 결정 모듈(140)은 "사랑/한다"를 "사랑한다"에 대한 형태소 열로서 결정할 수 있고, '사랑'의 품사는 '명사'로 결정되고, '한다'의 품사는 '동사'로 결정될 수 있다.
도 6은 도 1에 도시된 형태소 추론 모듈의 작동을 설명하기 위한 일 실시 예를 나타낸다.
도 1, 도 2, 및 도 6을 참조하면, 형태소 분석 모듈(120)에 포함된 형태소 인식 모듈(126)이 복수의 순차적인 형태소 후보들 중에서 어느 하나의 형태소 후보에 대한 인식에 실패하는 경우, 형태소 인식 모듈(126)은 미인식된 형태소 후보열(NRMC)을 형태소 추론 모듈(160)로 전송할 수 있다.
예컨대, "사랑/A/사람"이라는 형태소 후보열(여기서, 'A'는 미인식된 형태소 후보를 의미함)이 형태소 추론 모듈(160)로 전송되었을 때, 형태소 추론 모듈(160)은 형태소 사전 데이터베이스(150)에 등록된 복수의 형태소들 각각에 대하여, '사랑' 및 '사람'과의 연결 확률들 각각(예컨대, P(사랑/하는/사람), P(사랑/하고/사람), P(사랑/주는/사람) 등)을 상기 DNN을 이용하여 계산할 수 있다.
형태소 추론 모듈(160)은 계산 결과 연결 확률이 가장 큰 형태소(예컨대, '하는')를 미인식된 형태소 후보(A)로서 추론하고, 추론된 형태소 후보열 "사랑/하는/사람"과 연결 확률(P(사랑/하는/사람))을 형태소 열 결정 모듈(140)로 전송할 수 있다.
도 7은 본 발명의 실시 예에 따른 딥-러닝 기반 형태소 분석기의 작동을 나타내는 플로우차트이다.
도 1부터 도 7을 참조하면, 딥-러닝 기반 형태소 분석기(100)에 포함된 형태소 후보열 생성 모듈(110)은, 외부로부터 입력되는 입력 어절(또는 입력 문장)로부터 복수의 형태소 후보열들을 생성할 수 있다(S100).
딥-러닝 기반 형태소 분석기(100)에 포함된 형태소 분석 모듈(120)은, 형태소 후보열 생성 모듈(110)로부터 생성된 상기 복수의 형태소 후보열들 각각에 포함된 복수의 순차적인 형태소 후보들 각각을 인식할 수 있다(S120). 형태소 분석 모듈(120)은, 형태소 사전 데이터베이스(150)를 이용하여 상기 복수의 순차적인 형태소 후보들 각각을 인식할 수 있다.
딥-러닝 기반 형태소 분석기(100)에 포함된 연결 확률 계산 모듈(140)은, 인식된 상기 복수의 순차적인 형태소 후보들의 연결 확률을 DNN을 이용하여 계산할 수 있다(S140). 상기 연결 확률은 상기 복수의 순차적인 형태소 후보들 중에서 첫번째 형태소 후보에 할당된 품사를 이용하여, 상기 첫번째 형태소 후보와 순차적인 나머지 형태소 후보들 각각에 할당될 수 있는 각 품사의 확률을 의미할 수 있다.
딥-러닝 기반 형태소 분석기(100)에 포함된 형태소 열 결정 모듈(140)은, 연결 확률 계산 모듈(140)에 의해 계산된 각 연결 확률에 기초하여 상기 복수의 형태소 후보열들 각각의 생성 확률을 계산할 수 있다(S160). 형태소 열 결정 모듈(140)은, 계산 결과 생성 확률이 가장 높은 형태소 후보열을 상기 입력 어절에 대한 형태소 열로서 결정할 수 있다(S180).
도 8은 본 발명의 실시 예에 따른 딥-러닝 기반 형태소 분석기가 복수의 순차적인 형태소 후보들 각각을 인식하는 과정의 일 실시 예를 나타내는 플로우차트이다.
도 1부터 도 8을 참조하면, 형태소 분석 모듈(120)에 포함된 코드 할당 모듈(122)은, 형태소 후보열 생성 모듈(110)로부터 전송되는 형태소 후보열에 포함된 복수의 순차적인 형태소 후보들 각각에, 코드 할당 규칙을 이용하여 각 제1코드를 할당할 수 있다(S121).
형태소 분석 모듈(120)에 포함된 사전 검색 모듈(124)은, 형태소 사전 데이터베이스(또는 형태소 사전; 150)에 등록된 복수의 형태소들 중에서, 각 제1코드가 할당된 상기 복수의 순차적인 형태소 후보들 각각에 매칭되는 각 형태소를 검색할 수 있다(S122).
검색 결과 상기 복수의 순차적인 형태소 후보들 중에서 어느 하나의 형태소 후보가 매칭되는 형태소를 갖는 경우(S123의 YES), 형태소 인식 모듈(126)은 상기 어느 하나의 형태소 후보를 상기 매칭되는 형태소로 인식할 수 있다(S124). 검색 결과 상기 어느 하나의 형태소 후보가 매칭되는 형태소를 갖지 못하는 경우(S123의 NO), 형태소 인식 모듈(126)은 DNN을 이용하여 형태소 사전 데이터베이스(150)에 등록된 상기 복수의 형태소들 중에서 상기 어느 하나의 형태소 후보와 매칭 확률이 가장 높은 제1형태소를 판단할 수 있고(S125), 상기 어느 하나의 형태소 후보를 상기 제1형태소로 인식할 수 있다(S126).
형태소 분석 모듈(120)에 포함된 품사 할당 모듈(128)은, 인식된 형태소 후보열에 포함된 상기 복수의 순차적인 형태소 후보들 중에서 첫번째 형태소 후보의 품사를 지시하는 제2코드를 상기 첫번째 형태소 후보에 할당할 수 있다(S127).
본 발명은 도면에 도시된 실시 예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시 예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 등록청구범위의 기술적 사상에 의해 정해져야 할 것이다.
100: 딥-러닝(deep-learning) 기반 형태소 분석기
110: 형태소 후보열 생성 모듈
120: 형태소 분석 모듈
130: 연결 확률 계산 모듈
140: 형태소 열 결정 모듈
150: 형태소 사전 데이터베이스
160: 형태소 추론 모듈

Claims (10)

  1. 입력 어절로부터 복수의 형태소 후보열들을 생성하는 형태소 후보열 생성 모듈;
    형태소 사전을 이용하여 상기 복수의 형태소 후보열들 각각에 포함된 복수의 순차적인 형태소 후보들 각각을 인식하는 형태소 분석 모듈;
    인식된 상기 복수의 순차적인 형태소 후보들의 연결 확률을 DNN(deep neural network)을 이용하여 계산하는 연결 확률 계산 모듈; 및
    계산된 연결 확률에 기초하여, 상기 복수의 형태소 후보열들 각각의 생성 확률을 계산하고, 계산된 생성 확률이 가장 높은 형태소 후보열을 상기 입력 어절에 대한 형태소 열로 결정하는 형태소 열 결정 모듈을 포함하고,
    상기 형태소 분석 모듈은,
    코드 할당 규칙을 이용하여 상기 복수의 순차적인 형태소 후보들 각각에 상응하는 각 제1코드를 할당하는 코드 할당 모듈;
    할당된 상기 각 제1코드를 이용하여, 상기 형태소 사전에 등록된 복수의 형태소들 중에서 상기 복수의 순차적인 형태소 후보들 각각에 매칭되는 각 형태소를 검색하는 사전 검색 모듈;
    검색 결과에 기초하여, 상기 복수의 순차적인 형태소 후보들 각각을 인식하는 형태소 인식 모듈; 및
    인식된 복수의 순차적인 형태소 후보들 중 첫 번째 형태소 후보의 품사를 지시하는 제2코드를 상기 첫 번째 형태소 후보에 할당하는 품사 할당 모듈을 포함하는 딥-러닝(deep-learning) 기반 형태소 분석 장치.
  2. 삭제
  3. 제1항에 있어서, 상기 형태소 인식 모듈은,
    상기 복수의 순차적인 형태소 후보들 중에서 어느 하나의 형태소 후보에 매칭되는 형태소가 상기 형태소 사전에 등록되어 있지 않은 경우, 상기 DNN을 이용하여 상기 어느 하나의 형태소 후보와 매칭 확률이 가장 높은 제1형태소를 판단하고,
    판단 결과에 따라 상기 어느 하나의 형태소 후보를 상기 제1형태소로 인식하는 딥-러닝 기반 형태소 분석 장치.
  4. 제1항에 있어서, 상기 연결 확률 계산 모듈은,
    상기 첫 번째 형태소 후보에 할당된 상기 제1코드와 상기 제2코드를 상기 DNN에 입력하고, 상기 DNN을 통해 상기 복수의 순차적인 형태소 후보들 중에서 상기 첫번째 형태소 후보와 순차적인 나머지 형태소 후보들 각각에 할당될 수 있는 각 품사의 확률을 의미하는 상기 연결 확률을 계산하는 딥-러닝 기반 형태소 분석 장치.
  5. 입력 어절로부터 복수의 형태소 후보열들을 생성하는 형태소 후보열 생성 모듈;
    형태소 사전을 이용하여 상기 복수의 형태소 후보열들 각각에 포함된 복수의 순차적인 형태소 후보들 각각을 인식하는 형태소 분석 모듈;
    인식된 상기 복수의 순차적인 형태소 후보들의 연결 확률을 DNN(deep neural network)을 이용하여 계산하는 연결 확률 계산 모듈; 및
    계산된 연결 확률에 기초하여, 상기 복수의 형태소 후보열들 각각의 생성 확률을 계산하고, 계산된 생성 확률이 가장 높은 형태소 후보열을 상기 입력 어절에 대한 형태소 열로 결정하는 형태소 열 결정 모듈을 포함하고,
    상기 복수의 순차적인 형태소 후보들 중에서 어느 하나의 형태소 후보가 인식되지 않을 때,
    상기 형태소 사전에 등록된 복수의 형태소들 각각에 대하여, 상기 복수의 순차적인 형태소 후보들 중에서 나머지 형태소 후보들과 연결될 수 있는 확률을 상기 DNN을 이용하여 계산하고, 계산 결과 상기 나머지 형태소 후보들과 연결될 수 있는 확률이 가장 큰 형태소를 상기 어느 하나의 형태소 후보로 추론하는 형태소 추론 모듈을 더 포함하는 딥-러닝(deep-learning) 기반 형태소 분석 장치.
  6. 컴퓨팅 장치에 설치되어 실행되는 딥-러닝(deep-learning) 기반 형태소 분석 애플리케이션의 작동 방법에 있어서,
    상기 애플리케이션이, 입력 어절로부터 복수의 형태소 후보열들을 생성하는 단계;
    상기 애플리케이션이, 형태소 사전을 이용하여 상기 복수의 형태소 후보열들 각각에 포함된 복수의 순차적인 형태소 후보들 각각을 인식하는 단계;
    상기 애플리케이션이, 인식된 상기 복수의 순차적인 형태소 후보들의 연결 확률을 DNN을 이용하여 계산하는 단계;
    상기 애플리케이션이, 상기 연결 확률에 기초하여 상기 복수의 형태소 후보열들 각각의 생성 확률을 계산하는 단계; 및
    상기 애플리케이션이, 계산된 생성 확률이 가장 높은 형태소 후보열을 상기 입력 어절에 대한 형태소 열로 결정하는 단계를 포함하고,
    상기 인식하는 단계는,
    상기 애플리케이션이, 코드 할당 규칙을 이용하여 상기 복수의 순차적인 형태소 후보들 각각에 상응하는 각 제1코드를 할당하는 단계;
    상기 애플리케이션이, 할당된 각 제1코드를 이용하여 상기 형태소 사전에 등록된 복수의 형태소들 중에서 상기 복수의 순차적인 형태소 후보들 각각에 매칭되는 각 형태소를 검색하는 단계;
    상기 애플리케이션이, 검색 결과에 기초하여 상기 복수의 순차적인 형태소 후보들 각각을 인식하는 단계; 및
    상기 애플리케이션이, 상기 복수의 순차적인 형태소 중에서 첫번째 형태소 후보의 품사를 지시하는 제2코드를 상기 첫번째 형태소 후보에 할당하는 단계를 포함하는 딥-러닝 기반 형태소 분석 애플리케이션의 작동 방법.
  7. 삭제
  8. 제6항에 있어서, 상기 검색 결과에 기초하여 상기 복수의 순차적인 형태소 후보들 각각을 인식하는 단계는,
    상기 애플리케이션이, 상기 복수의 순차적인 형태소 후보들 중에서 어느 하나의 형태소 후보에 매칭되는 형태소가 상기 형태소 사전에 등록되어 있지 않은 경우, 상기 DNN을 이용하여 상기 형태소 사전에 등록된 상기 복수의 형태소들 중에서 상기 어느 하나의 형태소 후보와 매칭 확률이 가장 높은 제1형태소를 판단하는 단계; 및
    상기 애플리케이션이, 판단 결과에 따라 상기 어느 하나의 형태소 후보를 상기 제1형태소로 인식하는 단계를 포함하는 딥-러닝 기반 형태소 분석 애플리케이션의 작동 방법.
  9. 제6항에 있어서, 상기 연결 확률을 상기 DNN을 이용하여 계산하는 단계는,
    상기 애플리케이션이, 상기 첫 번째 형태소 후보에 할당된 상기 제1코드와 상기 제2코드를 상기 DNN에 입력하는 단계; 및
    상기 애플리케이션이, 상기 DNN을 이용하여 상기 복수의 순차적인 형태소 후보들 중에서 상기 첫번째 형태소 후보와 순차적인 나머지 형태소 후보들 각각에 할당될 수 있는 각 품사의 확률을 의미하는 상기 연결 확률을 계산하는 단계를 포함하는 딥-러닝 기반 형태소 분석 애플리케이션의 작동 방법.
  10. 제6항, 제8항 또는 제9항에 기재된 딥-러닝 기반 형태소 분석 애플리케이션이 저장된 컴퓨터로 판독가능한 저장 매체.
KR1020150089121A 2015-06-23 2015-06-23 딥-러닝 기반 형태소 분석 장치와 형태소 분석 애플리케이션의 작동 방법 KR101702055B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020150089121A KR101702055B1 (ko) 2015-06-23 2015-06-23 딥-러닝 기반 형태소 분석 장치와 형태소 분석 애플리케이션의 작동 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150089121A KR101702055B1 (ko) 2015-06-23 2015-06-23 딥-러닝 기반 형태소 분석 장치와 형태소 분석 애플리케이션의 작동 방법

Publications (2)

Publication Number Publication Date
KR20170000201A KR20170000201A (ko) 2017-01-02
KR101702055B1 true KR101702055B1 (ko) 2017-02-13

Family

ID=57810561

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150089121A KR101702055B1 (ko) 2015-06-23 2015-06-23 딥-러닝 기반 형태소 분석 장치와 형태소 분석 애플리케이션의 작동 방법

Country Status (1)

Country Link
KR (1) KR101702055B1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102109858B1 (ko) 2018-10-05 2020-05-12 동아대학교 산학협력단 자모 및 음절 임베딩 결합을 이용하는 한국어 형태소 분석을 위한 장치 및 방법
CN110738048B (zh) * 2019-09-30 2023-08-04 平安直通咨询有限公司上海分公司 一种关键词提取方法、装置及终端设备
KR102313721B1 (ko) * 2019-12-05 2021-10-15 울산대학교 산학협력단 자연어 표상 방법 및 이를 수행하기 위해 매체에 저장된 컴퓨터 프로그램

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110066650A1 (en) 2009-09-16 2011-03-17 Microsoft Corporation Query classification using implicit labels
KR101072460B1 (ko) * 2010-08-11 2011-10-11 충북대학교 산학협력단 한국어 형태소 분석 방법

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3986531B2 (ja) 2005-09-21 2007-10-03 沖電気工業株式会社 形態素解析装置及び形態素解析プログラム
KR101509727B1 (ko) 2013-10-02 2015-04-07 주식회사 시스트란인터내셔널 자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110066650A1 (en) 2009-09-16 2011-03-17 Microsoft Corporation Query classification using implicit labels
KR101072460B1 (ko) * 2010-08-11 2011-10-11 충북대학교 산학협력단 한국어 형태소 분석 방법

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DENG et al., Use of kernel Deep Convex Networks and End-to-End Learning for Spoken Language Understanding, IEEE Workshop on Spoken Language Technologies, 20121202.
이창기 외, 딥 러닝을 이용한 한국어 의존 구문 분석, 제26회 한글 및 한국어 정보처리 학술대회 논문집, 2014.10.21.*

Also Published As

Publication number Publication date
KR20170000201A (ko) 2017-01-02

Similar Documents

Publication Publication Date Title
CN109635273B (zh) 文本关键词提取方法、装置、设备及存储介质
CN110148416B (zh) 语音识别方法、装置、设备和存储介质
CN108959246B (zh) 基于改进的注意力机制的答案选择方法、装置和电子设备
KR102417045B1 (ko) 명칭을 강인하게 태깅하는 방법 및 시스템
JP3768205B2 (ja) 形態素解析装置、形態素解析方法及び形態素解析プログラム
Brants TnT-a statistical part-of-speech tagger
KR101590724B1 (ko) 음성 인식 오류 수정 방법 및 이를 수행하는 장치
KR102109219B1 (ko) 사용자 데이터 입력 예측
EP2585962B1 (en) Password checking
CN107729313B (zh) 基于深度神经网络的多音字读音的判别方法和装置
KR100630886B1 (ko) 문자 스트링 식별
EP3819785A1 (en) Feature word determining method, apparatus, and server
US20090192991A1 (en) Network information searching method by speech recognition and system for the same
CN110096599B (zh) 知识图谱的生成方法及装置
KR101702055B1 (ko) 딥-러닝 기반 형태소 분석 장치와 형태소 분석 애플리케이션의 작동 방법
Sang et al. Applying system combination to base noun phrase identification
CN105814556A (zh) 语境敏感的输入工具
EP3598321A1 (en) Method for parsing natural language text with constituent construction links
CN110837730B (zh) 一种未知实体词汇的确定方法及装置
Rathod et al. Survey of various POS tagging techniques for Indian regional languages
KR20170048008A (ko) 질의의도를 분석하기 위한 장치 및 방법
CN112560489A (zh) 一种基于Bert的实体链接方法
KR102204395B1 (ko) 개체명 인식을 이용한 음성인식 띄어쓰기 보정 방법 및 시스템
Forsberg et al. Learning transducer models for morphological analysis from example inflections
CN115309994A (zh) 地点检索方法、电子设备以及存储介质

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
FPAY Annual fee payment

Payment date: 20200109

Year of fee payment: 4