KR101663673B1 - 2스텝 분석 절차를 사용한srl 기반의 문장 분석 방법 및 장치 - Google Patents

2스텝 분석 절차를 사용한srl 기반의 문장 분석 방법 및 장치 Download PDF

Info

Publication number
KR101663673B1
KR101663673B1 KR1020150085469A KR20150085469A KR101663673B1 KR 101663673 B1 KR101663673 B1 KR 101663673B1 KR 1020150085469 A KR1020150085469 A KR 1020150085469A KR 20150085469 A KR20150085469 A KR 20150085469A KR 101663673 B1 KR101663673 B1 KR 101663673B1
Authority
KR
South Korea
Prior art keywords
argument
srl
semantic
sentence
arguments
Prior art date
Application number
KR1020150085469A
Other languages
English (en)
Inventor
김유섭
남경민
Original Assignee
한림대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한림대학교 산학협력단 filed Critical 한림대학교 산학협력단
Priority to KR1020150085469A priority Critical patent/KR101663673B1/ko
Application granted granted Critical
Publication of KR101663673B1 publication Critical patent/KR101663673B1/ko

Links

Images

Classifications

    • G06F17/271
    • G06F17/2785

Landscapes

  • Machine Translation (AREA)

Abstract

2스텝 분석 절차를 사용한SRL 기반의 문장 분석 방법 및 장치가 개시된다. 2스텝 분석 절차를 사용한SRL(semantic role labeling) 기반의 문장 분석 방법은 분석 대상 문장에 포함되는 복수의 논항 중 제1 논항 그룹에 포함되는 제1 논항에 대해 기본 매핑 기반 SRL을 기반으로 시멘틱 롤을 결정하는 단계와 복수의 논항 중 제2 논항 그룹에 포함되는 제2 논항에 대해 자율 학습 기반 SRL을 기반으로 시멘틱 롤을 결정하는 단계를 포함할 수 있되, 제1 논항 그룹은 복수의 논항 중 기본 매핑 기반 SRL을 사용하여 시멘틱 롤에 대한 결정이 가능한 제1 논항을 포함하고, 제2 논항 그룹은 복수의 논항 중 기본 매핑 기반 SRL을 사용하여 시멘틱 롤에 대한 결정이 불가한 나머지 논항인 제2 논항을 포함할 수 있다.

Description

2스텝 분석 절차를 사용한SRL 기반의 문장 분석 방법 및 장치{The method and apparatus for analyzing sentence based on semantic role labeling using 2 step analyzing procedure}
본 발명은 문장 분석 방법 및 장치에 관한 것으로서, 보다 상세하게는, 2스텝 분석 절차를 사용한SRL 기반의 문장 분석 방법 및 장치에 관한 것이다.
일반적으로 자연 언어 처리에서는 형태소 분석(morphological analysis), 구문 분석(syntatic analysis), 의미 분석(semantic analysis), 담화 분석(discourse analysis)및 대화 분석(dialogue analysis) 등이 사용될 수 있다.
현재 진행되고 있는 의미 분석 관련 연구는 크게 어의 중의성 해소(word sense disambiguation)과 의미 역할 결정(또는 의미 역 결정)(semantic role labeling, SRL)로 분류될 수 있다.
SRL은 자동적으로 문장 내에 논항(argument)와 술부(또는 동사)(predicate)를 분석하여 문장 내 성분에 시멘틱 롤 (semantic role)(또는 의미 역할, 의미역)을 부여하는 방법이다. SRL은 문장의 각 요소들의 의미 관계를 파악하는 연구 분야로써 어의 중의성 해소와 더불어 자연 언어 처리에서의 의미 분석에서 매우 중요한 위치를 차지하고 있다. 그러나 한국어의 경우에는 SRL에 필요한 언어 자원이 구축되지 못하여 연구의 진행이 매우 미진한 상황이다.
KR 10-2002-0083163
본 발명은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 본 발명은 기본 매핑 기반의 SRL 및 자율 학습 기반의 SRL을 기반으로 한 2 스텝 기반의 SRL 방법을 사용함으로써, 보다 정확한 문장 분석을 가능하도록 하는 방법 및 장치를 제공하고자 한다.
본 발명은 한국어의 조사를 기반으로 생성된 클러스터를 기반으로 SRL을 수행함으로써, 한국어에 대한 문장 분석의 정확도를 비약적으로 향상시킬 수 있는 방법 및 장치를 제공하고자 한다.
다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
상기한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 일 측면에 따른 2스텝 분석 절차를 사용한SRL(semantic role labeling) 기반의 문장 분석 방법은 분석 대상 문장에 포함되는 복수의 논항 중 제1 논항 그룹에 포함되는 제1 논항에 대해 기본 매핑 기반 SRL을 기반으로 시멘틱 롤을 결정하는 단계와 상기 복수의 논항 중 제2 논항 그룹에 포함되는 제2 논항에 대해 자율 학습 기반 SRL을 기반으로 시멘틱 롤을 결정하는 단계를 포함할 수 있되, 상기 제1 논항 그룹은 상기 복수의 논항 중 기본 매핑 기반 SRL을 사용하여 시멘틱 롤에 대한 결정이 가능한 상기 제1 논항을 포함하고, 상기 제2 논항 그룹은 상기 복수의 논항 중 상기 기본 매핑 기반 SRL을 사용하여 시멘틱 롤에 대한 결정이 불가한 나머지 논항인 제2 논항을 포함할 수 있다.
한편, 상기 기본 매핑 기반 SRL은 조사 클러스터에 포함되는 상기 제1 논항과 관련된 조사가 관련 논항을 도미넌트 시멘틱 롤로 임계 비율 이상으로 매핑시키는 경우, 상기 제1 논항의 시멘틱 롤을 상기 도미넌트 시멘틱 롤로 결정할 수 있다.
또한, 상기 자율 학습 기반 SRL은 조사 클러스터에 포함되는 상기 제2 논항과 상기 제2 논항과 관련된 술어 각각에 대해 언어적 특징을 기반으로 CCA(canonical correlation analysis) 알고리즘을 적용하여 임베딩한 튜플 표현을 생성하고, 상기 튜플 표현에 대해 k-means 클러스터링을 수행하여 상기 제2 논항의 시멘틱 롤을 결정할 수 있다.
또한, 상기 튜플 표현은 상기 k-means 클러스터링의 훈련 데이터로 입력되어 재클러스터링될 수 있다.
또한, 상기 언어적 특징은 일반 특징, 한국어 특징 및 공통 특징 중 적어도 하나를 포함하고, 상기 일반 특징은 언어의 변화에 종속되지 않고 독립적인 특징을 포함하고, 상기 한국어 특징은 한국어 특정(Korean-specific)의 특징을 포함하고, 상기 공통 특징은 상기 일반 특징과 상기 한국어 특징의 공통된 특징을 포함할 수 있다.
본 발명의 다른 측면에 따른 2스텝 분석 절차를 사용한SRL(semantic role labeling) 기반의 문장 분석 장치는 분석 대상 문장에 포함되는 복수의 논항 중 제1 논항 그룹에 포함되는 제1 논항에 대해 기본 매핑 기반 SRL을 기반으로 시멘틱 롤을 결정하도록 구현되는 기본 매핑 SRL 부와 상기 복수의 논항 중 제2 논항 그룹에 포함되는 제2 논항에 대해 자율 학습 기반 SRL을 기반으로 시멘틱 롤을 결정하도록 구현되는 자율 학습 SRL 부를 포함할 수 있되, 상기 제1 논항 그룹은 상기 복수의 논항 중 기본 매핑 기반 SRL을 사용하여 시멘틱 롤에 대한 결정이 가능한 상기 제1 논항을 포함하고, 상기 제2 논항 그룹은 상기 복수의 논항 중 상기 기본 매핑 기반 SRL을 사용하여 시멘틱 롤에 대한 결정이 불가한 나머지 논항인 제2 논항을 포함할 수 있다.
한편, 상기 기본 매핑 기반 SRL은 조사 클러스터에 포함되는 상기 제1 논항과 관련된 조사가 관련 논항을 도미넌트 시멘틱 롤로 임계 비율 이상으로 매핑시키는 경우, 상기 제1 논항의 시멘틱 롤을 상기 도미넌트 시멘틱 롤로 결정할 수 있다.
또한, 상기 자율 학습 기반 SRL은 조사 클러스터에 포함되는 상기 제2 논항과 상기 제2 논항과 관련된 술어 각각에 대해 언어적 특징을 기반으로 CCA(canonical correlation analysis) 알고리즘을 적용하여 임베딩한 튜플 표현을 생성하고, 상기 튜플 표현에 대해 k-means 클러스터링을 수행하여 상기 제2 논항의 시멘틱 롤을 결정할 수 있다.
또한, 상기 튜플 표현은 상기 k-means 클러스터링의 훈련 데이터로 입력되어 재클러스터링될 수 있다.
또한, 상기 언어적 특징은 일반 특징, 한국어 특징 및 공통 특징 중 적어도 하나를 포함하고, 상기 일반 특징은 언어의 변화에 종속되지 않고 독립적인 특징을 포함하고, 상기 한국어 특징은 한국어 특정(Korean-specific)의 특징을 포함하고, 상기 공통 특징은 상기 일반 특징과 상기 한국어 특징의 공통된 특징을 포함할 수 있다.
전술한 본원의 과제 해결 수단에 의하면, 본 발명은 기본 매핑 기반의 SRL 및 자율 학습 기반의 SRL을 기반으로 한 2 스텝 기반의 SRL 방법을 사용함으로써 보다 정확한 분장 분석을 가능하도록 하는 방법 및 장치를 제공할 수 있다.
본 발명은 조사를 기반으로 생성된 클러스터를 기반으로 SRL을 수행함으로써, 한국어에 대한 문장 분석의 정확도를 비약적으로 향상시킬 수 있는 방법 및 장치를 제공할 수 있다.
도 1은 영어 문장에 적용된SRL을 나타낸 개념도이다.
도 2는 한국어에 대한 SRL 분석 방법을 나타낸 개념도이다.
도 3은 본 발명의 실시예에 따른 기본 매핑 기반의 SRL를 나타낸 개념도이다.
도 4는 본 발명의 실시예에 따른 기본 매핑 기반의 SRL을 위한 알고리즘을 나타낸 개념도이다.
도 5는 본 발명의 실시예에 따른 자율 학습 기반의 SRL 방법을 나타낸 개념도이다.
도 6은 본 발명의 실시예에 따른 2스텝 분석 절차 기반의 시멘틱 롤 분석 장치를 나타낸 개념도이다.
도 7은 본 발명의 실시예에 따른 2스텝 분석 절차 기반의 SRL의 문장 분석의 성능을 나타낸 표이다.
아래에서는 첨부한 도면을 참조하여 본원이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본원의 실시예를 상세히 설명한다. 그러나 본원은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본원을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
본원 명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다.
본원 명세서 전체에서, 어떤 부재가 다른 부재 “상에” 위치하고 있다고 할 때, 이는 어떤 부재가 다른 부재에 접해 있는 경우뿐 아니라 두 부재 사이에 또 다른 부재가 존재하는 경우도 포함한다.
본원 명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함" 한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다.
본원 명세서 전체에서 사용되는 정도의 용어 "약", "실질적으로" 등은 언급된 의미에 고유한 제조 및 물질 허용오차가 제시될 때 그 수치에서 또는 그 수치에 근접한 의미로 사용되고, 본원의 이해를 돕기 위해 정확하거나 절대적인 수치가 언급된 개시 내용을 비양심적인 침해자가 부당하게 이용하는 것을 방지하기 위해 사용된다. 본원 명세서 전체에서 사용되는 정도의 용어 "~(하는) 단계" 또는 "~의 단계"는 "~ 를 위한 단계"를 의미하지 않는다.
본 명세서에 있어서 '부(部)'란, 하드웨어에 의해 실현되는 유닛(unit), 소프트웨어에 의해 실현되는 유닛, 양방을 이용하여 실현되는 유닛을 포함한다. 또한, 1개의 유닛이 2개 이상의 하드웨어를 이용하여 실현되어도 되고, 2개 이상의 유닛이 1개의 하드웨어에 의해 실현되어도 된다.
본 명세서 있어서 단말, 장치 또는 디바이스가 수행하는 것으로 기술된 동작이나 기능 중 일부는 해당 단말, 장치 또는 디바이스와 연결된 서버에서 대신 수행될 수도 있다. 이와 마찬가지로, 서버가 수행하는 것으로 기술된 동작이나 기능 중 일부도 해당 서버와 연결된 단말, 장치 또는 디바이스에서 수행될 수도 있다. 이하 첨부된 도면을 참고하여 본원의 일 실시예를 상세히 설명하기로 한다.
SRL(semantic role labeling)은 자동적으로 문장 내에 논항(argument)와 술어(또는 동사(verb))(predicate)를 분석하여 문장 내 성분에 시멘틱 롤 (semantic role)(또는 의미 역할, 의미역)을 부여하는 방법이다. 다른 표현으로 SRL은 동사와 논항의 의미 관계를 밝히기 위해 사용될 수 있다.
한국어는 풍부한 형태론적 구조(morphological structure)를 가지고 있는 교착어이다. 이러한 교착어는 형태소(morpheme)의 결합에 의해 하나의 의미를 나타내고, 어근(stem)에 형태소가 어떠한 조합으로 결합되어있느냐에 따라 다른 의미를 가질 수 있다.
SRL(semantic role labeling)은 자동적으로 문장 내에 논항(argument)와 술어(또는 동사(verb))(predicate)를 분석하여 문장 내 성분에 시멘틱 롤 (semantic role)(또는 의미 역할, 의미역)을 부여하는 방법이다. 다른 표현으로 SRL은 동사와 논항의 의미 관계를 밝히기 위해 사용될 수 있다.
한국어는 풍부한 형태론적 구조(morphological structure)를 가지고 있는 교착어이다. 이러한 교착어는 형태소(morpheme)의 결합에 의해 하나의 의미를 나타내고, 어근(stem)에 형태소가 어떠한 조합으로 결합되어있느냐에 따라 다른 의미를 가질 수 있다.
SRL은 문장에서 주어진 술어(또는 동사)의 논항을 식별하고, 논항에 시멘틱 롤(의미 역할, 의미 역)을 부여하는 것이다. 논항은 어떠한 술어가 절이나 문장을 만들기 위해 필요로 하는 필수적인 의미 성분들을 말한다.
아래의 표 1은 PropBank에 의해 정의된 17가지의 시멘틱 롤을 나타낸 표이다.
<표 1>
Figure 112015058267985-pat00001
표 1을 참조하면, ARG 번호(ARG0~ARG3)은 문장에서 중심적인 역할을 하는 논항에 대응된다. ARGM은 동사가 선택적으로 취할 수 있는 논항으로 동사를 수식해주는 논항에 대응될 수 있다.
구체적으로 ARG0은 행위자의 역할을 하는 논항(또는 동사를 수행하는 주체의 역할을 하는 논항)에 부여될 수 있다. ARG1은 피동자(patient)의 역할을 하는 논항에 부여될 수 있다. ARG2는 시작점(~로부터), 동사의 수혜자의 역할을 하는 논항에 부여된다. ARG3은 종료점(~까지)의 역할을 하는 논항에 부여될 수 있다.
ARGM-ADV는 부사적 어구(advervial), ARGM-CAU는 원인(cause), ARGM-CND는 조건(condition), ARGM-DIR은 방향(direction), ARGM-는 담화(discourse) 표지(well, on the other hand 처럼 구어에서 대화 내용의 이동을 나타내는 어구), ARGM-LOC은 장소(location), ARGM-MNR은 태도(manner), ARGM-MOD는 법조 동자(modal verb)(또는 조동사), AM-NEG은 부정 표지(negation marker), ARGM-PRD는 술어(predication) 또는 자격(~로서), ARGM-PRP는 목적(purpose), ARGM-TMP는 시간(temporal) 역할을 하는 논항에 부여될 수 있다.
도 1은 영어 문장에 적용된SRL을 나타낸 개념도이다.
도 1을 참조하면, The luxury auto maker last year sold 1,214 cars in the U.S. 라는 문장에 대한 SRL이 개시된다.
문장 내에서 ‘The luxury auto maker(100)’는 동사 ‘sold(120)’의 주체로서 ARG0으로 분류될 수 있다. 또한, 문장 내에서 ‘1,214 cars(130)’는 ‘sold(120)’의 대상으로서 ARG1으로 분류될 수 있다. 또한, 문장 내에서 ‘last year(110)’는 시점을 나타내는 논항으로서 ARGM-TMP로 분류되고, 문장 내에서 ‘in the U.S(140)’는 장소를 나타내는 논항으로서 ARGM-LOC로 분류될 수 있다.
도 2는 한국어에 대한 SRL 분석 방법을 나타낸 개념도이다.
일본어, 한국어 터키어와 같은 교착 언어(Agglutinative language)는 단어가 많은 수의 접미사(suffix)(조사, 어미)/형태소(morpheme)를 가질 수 있고, 단어 형태의 희박함(sparsity)과 다양한 단어 순서 때문에 일반적인 SRL 방법을 사용하여 시멘틱 롤을 결정하기는 어려울 수 있다.
도 2를 참조하면, 한국어 예문에 대한 PropBank를 기반으로 한 시멘틱 롤 라벨링이 개시된다.
예문 (a)는 철수는 도서관에서 공부를 한다([Chul-su] neum [doseogwan] eseo [gongbu] rull handa)이다.
예문 (b)는 도서관에서 철수는 공부를 한다([Doseogwan] eseo [Chul-su] neum [gongbu] rull handa)이다.
예문 (a)와 예문 (b) 각각을 참조하면, 한국어 문장에서 단어 순서(또는 논항의 위치)는 큰 의미를 가지지 못한다. 따라서, 영어 기반의 SRL 분석 방법은 한국어에 대한 SRL 분석에는 유용하지 못하다. 논항과 관련된 접미사(예를 들어, 는(neum), 에서(eseo), 를(rull))가 논항의 위치보다 논항의 시멘틱 롤을 결정하기 위해 중요한 단서가 될 수 있다.
본 발명의 실시예에서는 접미사(조사 및 어미)의 특징을 기반으로 한 한국어 문장에서 논항의 시멘틱 롤 결정 방법이 개시된다.
통계적으로 논항과 관련된 특정 조사, 특정 어미는 논항을 특정 시멘틱 롤로 매핑시킬 수 있다. 예를 들어, 통계적으로 논항과 관련된 특정 조사, 특정 어미가 일정 비율 이상으로 논항을 특정 시멘틱 롤로 매핑시키는 경우, 특정 시멘틱 롤을 도미넌트 시멘틱 롤(dominant semantic role)이라는 용어로 표현할 수 있다.
본 발명의 실시예에 따르면, 논항과 관련된 특정 조사, 특정 어미의 도미넌트 시멘틱 롤을 고려하여 논항과 시멘틱 롤을 매핑할 수 있고, 이러한 논항의 시멘틱 롤 결정 방법은 기본 매핑(standard mapping) 기반의 SRL이라는 용어로 표현될 수 있다. 본 발명의 실시예에서는 기본 매핑 기반의 SRL을 사용하여 논항의 시멘틱 롤이 결정될 수 있다.
만약, 기본 매핑 기반의 SRL을 기반으로 논항의 시멘틱 롤이 결정되지 않은 경우, 자율 학습(unsupervised learning) 기반의 SRL(또는 튜플 표현(tuple representation) 기반의 SRL)을 기반으로 논항의 시멘틱 롤이 결정될 수 있다. 자율 학습 기반의 SRL에서는 논항이 관련 조사의 클러스터를 기준으로 구문 구조를 반영하는 튜플(tuple)로 표현될 수 있다. 튜플 표현은 CCA(canonical correlation analysis) 기반의 단어 임베딩을 기반으로 생성될 수 있다.
이하, 구체적인 기본 매핑 기반의 SRL및 자율 학습(unsupervised learning) 기반의 SRL이 개시된다.
도 3은 본 발명의 실시예에 따른 기본 매핑 기반의 SRL를 나타낸 개념도이다.
전술한 바와 같이 한국어는 교착 언어의 특징을 가지고, 높은 비율로 단어에 접미사/형태소가 포함될 수 있다. 한국어 접미사는 조사와 어미로 분류될 수 있고, 조사와 어미 각각은 많은 종류의 구문 정보를 전달할 수 있다. 따라서, 논항과 관련된 조사와 어미의 카테고리화가 논항의 시멘틱 롤을 결정함에 있어서 중요한 역할을 할 수 있다.
도 3을 참조하면, 특정 조사 그룹에 포함되는 복수의 조사 각각은 도미넌트 시멘틱 롤과 매핑될 수 있다. 즉, 특정 조사 그룹에 포함되는 조사와 관련된 논항의 시멘틱 롤은 조사의 도미넌트 시멘틱 롤로 결정될 수 있다.
조사 ‘을(Eull)’이 사용되는 경우, ‘을’과 관련된 논항의 시멘틱 롤은 96.2%의 비율로 ARG-A1으로 결정될 수 있다. ‘을’에 대한 조사 개수(count)는 4072개일 수 있다.
조사 ‘를(Rull)’이 사용되는 경우, ‘를’과 관련된 논항의 시멘틱 롤은 97.1%의 비율로 ARG-A1으로 결정될 수 있다. ‘를’에 대한 조사 개수(count)는 2532개일 수 있다.
조사 ‘에서(Eseo)’가 사용되는 경우, ‘에서’와 관련된 논항의 시멘틱 롤은 80.0%의 비율로 ARG-LOC로 결정될 수 있다. ‘에서’에 대한 조사 개수(count)는 864개일 수 있다.
조사 ‘는(Neun)’이 사용되는 경우, ‘는’과 관련된 논항의 시멘틱 롤은 70.0%의 비율로 ARG-A0으로 결정될 수 있다. ‘는’에 대한 조사 개수(count)는 840개일 수 있다.
조사 ‘에서는(Eseoneun)’이 사용되는 경우, ‘에서는’과 관련된 논항의 시멘틱 롤은 90.9%의 비율로 ARG-LOC로 결정될 수 있다. ‘에서는’에 대한 조사 개수(count)는 115개일 수 있다.
조사 ‘만(Man)’이 사용되는 경우, ‘만’과 관련된 논항의 시멘틱 롤은 89.1%의 비율로 ARG-A1으로 결정될 수 있다. ‘만’에 대한 조사 개수(count)는 93개일 수 있다.
조사 ‘처럼(Churum)’이 사용되는 경우, ‘처럼’과 관련된 논항의 시멘틱 롤은 84.2%의 비율로 ARG-EXT로 결정될 수 있다. ‘처럼’에 대한 조사 개수(count)는 83개일 수 있다.
조사 ‘부터(Buteo)’이 사용되는 경우, ‘부터’와 관련된 논항의 시멘틱 롤은 88.9%의 비율로 ARG-TMP로 결정될 수 있다. ‘부터’에 대한 조사 개수(count)는 82개일 수 있다.
조사 ‘에 대하여(E_daeha_u)’가 사용되는 경우, ‘에 대하여’와 관련된 논항의 시멘틱 롤은 95.5%의 비율로 ARG-ADV로 결정될 수 있다. ‘에 대하여’에 대한 조사 개수(count)는 70개일 수 있다.
조사 ‘로서(roseo)’가 사용되는 경우, ‘로서’와 관련된 논항의 시멘틱 롤은 86.8%의 비율로 ARG-PRD로 결정될 수 있다. ‘로서’에 대한 조사 개수(count)는 51개일 수 있다.
특정 조사는 관련된 논항을 높은 비율로 특정 시멘틱 롤로 매핑시킬 수 있다. 예를 들어, ‘을(eull)’은 ‘을(eull)’과 관련된 논항을 96.2%의 비율로 ARG-A1의 시멘틱 롤로 매핑시킬 수 있다. ‘를(rull)’은 ‘를(rull)’과 관련된 논항을 97.1%의 비율로 ARG-A1의 시멘틱 롤로 매핑시킬 수 있다.‘는(neun)’은 ‘는(neun)’과 관련된 논항을 상대적으로 낮은 70%의 비율로 ARG-A0의 시멘틱 롤로 매핑시킬 수 있다.
도 4는 본 발명의 실시예에 따른 기본 매핑 기반의 SRL을 위한 알고리즘을 나타낸 개념도이다.
도 4를 참조하면, 분석 대상 문장은 논항, 조사 및 술부를 포함하는 복수의 트리플 구조 각각으로 표현될 수 있다. 트리플 구조는 (ai, ji, pi)로 표현될 수 있다. a는 논항이고, j는 논항과 관련된 조사이고, p는 논항과 관련된 술어일 수 있다. i는 자연수일 수 있다.
J=[j1, …, jm]는 기본 매핑 기반의 SRL을 수행할 대상 조사의 집합이다. 집합 J에 포함되는 조사의 개수는 m개일 수 있다.
C=[c1, …, cm]는 기본 매핑 기반의 SRL을 수행할 조사를 포함하는 클러스터의 집합이다. 집합 C에 포함되는 조사의 개수는 m개일 수 있다. 분석 대상 문장에서 동일한 조사를 가지는 트리플 구조는 하나의 조사 클러스터(또는 클러스터)로 수집될 수 있다.
R=[r1, …, rm]은 조사 클러스터에 포함되는 조사 각각과 매핑되는 도미넌트 시멘틱 롤의 집합이다. 집합 R에 포함되는 조사의 개수는 m개일 수 있다.
동일한 조사를 기반으로 분류된 각각의 조사 클러스터는 동일한 조사를 포함하는 튜플(tuple)(ai, pi)을 포함할 수 있다. 본 발명의 실시예에 따르면, 하나의 조사 클러스터는 클러스터에 포함되는 조사를 기준으로 하나의 도미넌트 시멘틱 롤과 매핑될 수 있다. 구체적으로 조사 클러스터에 포함되는 조사가 도미넌트 시멘틱 롤로 90% 이상으로 매핑된다면, 해당 조사 클러스터에 포함되는 논항의 시멘틱 롤은 도미넌트 시멘틱 롤로 결정될 수 있다.
만약, 조사 클러스터에 포함되는 조사가 도미넌트 시멘틱 롤로 90% 미만으로 매핑된다면, 해당 조사 클러스터에 포함되는 논항의 시멘틱 롤은 도미넌트 시멘틱 롤로 결정되지 않고 자율 학습 기반의 SRL을 기반으로 결정될 수 있다.
예를 들어, m개의 조사 중 n개의 조사 각각이 도미넌트 시멘틱 롤로 90% 미만으로 매핑된다면, n개의 조사와 관련된 논항의 시멘틱 롤은 위와 같은 기본 매핑 기반의 SRL을 기반으로 도미넌트 시멘틱 롤로 결정될 수 있다. 나머지 m-n개의 조사와 관련된 논항은 후술할 자율 학습 기반의 SRL을 사용하여 결정될 수 있다.
도 5는 본 발명의 실시예에 따른 자율 학습 기반의 SRL 방법을 나타낸 개념도이다.
도 5에서는 m개의 조사 중 n개의 조사와 관련된 논항에 대해 위와 같은 기본 매핑 기반의 SRL을 기반으로 시멘틱 롤이 결정된 이후 나머지 m-n개의 조사와 관련된 논항을 결정하기 위한 자율 학습 기반의 SRL이 개시된다. 자율 학습 기반의 SRL은 다른 표현으로 튜플 표현(tuple representation) 기반의 SRL이라는 용어로 표현될 수 있다.
도 5를 참조하면, 기본 매핑 기반의 SRL을 통해 시멘틱 롤을 결정하지 못한 나머지 조사 클러스터에 대한 트리플 구조(Ai, Ji, Pi)에 포함되는 논항(500)과 술어(510) 각각은 언어적 특징(linguistic feature)(일반 특징(general feature), 한국어 특징(Korean feature), 공통 특징(common feature))을 기반으로 CCA(canonical correlation analysis) 알고리즘(520)을 사용하여 임베딩(embedding)되어 실수값으로 표현될 수 있다.
CCA 알고리즘(520)은 말뭉치(corpus)로부터 정규화된 코베리언스 행렬(normalized covariance matrix)를 예측하고 SVD(singular value decomposition)를 이용하여 단어 타입(word-type)에 대한 낮은 차원의 벡터 표현(low-dimensional vector representation)을 유도할 수 있다. 본 발명의 실시예에 따르면, 두 개의 행렬 중 하나의 행렬은 트리플 구조에 포함되는 논항 또는 술어에 대한 행렬(W)이고, 나머지 하나의 행렬은 전술한 언어 특징에 대한 행렬(F)일 수 있다. 행렬 W의 방향(
Figure 112015058267985-pat00002
)로의 프로젝션(projection) 및 행렬 F의 방향(
Figure 112015058267985-pat00003
)로의 프로젝션의 코릴레이션(correlation)을 최대화하는 방향(
Figure 112015058267985-pat00004
)와 방향(
Figure 112015058267985-pat00005
)은 아래의 수식을 기반으로 결정될 수 있다.
<수학식>
Figure 112015058267985-pat00006
근사(approximate) CCA는 길이
Figure 112015058267985-pat00007
의 카운트 벡터(count vector)
Figure 112015058267985-pat00008
와 길이
Figure 112015058267985-pat00009
의 카운트 벡터
Figure 112015058267985-pat00010
를 가지는 사이즈
Figure 112015058267985-pat00011
의 코-오커런스 행렬(co-occurrence matrix)
Figure 112015058267985-pat00012
를 찾을 수 있다. 근사 CCA는 CCA보다 낮은 복잡도의 연산을 기반으로 수행될 수 있다. 본 발명의 실시예에 따르면, 근사 CCA(520)를 기반으로 논항(500) 및 술어(510)에 대한 임베딩이 수행될 수 있다.
전술한 바와 같이 언어 특징은 공통 특징(common feature), 일반 특징(general feature), 한국어 특징(Korean feature)으로 분류될 수 있다.
일반 특징은 언어의 변화에 종속되지 않고 독립적인 특징일 수 있다. 일반 특징은 논항의 좌우측 형제격(left/right sibling), 형제격의 POS 태그(POS tags of the sibling) 및 논항의 최좌측 자식격 어간(leftmost child stem of argument) 등을 포함할 수 있다.
한국어 특징은 한국어 특정(Korean-specific)의 특징일 수 있다. 한국어 특징은 예를 들어, 술어에 대해 어미가 존재하는지 여부(Eomi exist), 어미의 길이(Eomi Length), 어미 형태소(Eomi Morphemes), 어미 식별자(Eomi identity), 어미 클래스(Eomi Class, 예를 들어, 종료 또는 연결) 등에 대한 정보를 포함할 수 있다.
공통 특징은 일반 특징과 한국어 특징과의 공통된 특징일 수 있다. 공통 특징은 논항과 술어의 POS(part of speech) 태그, 격 정보(case information)(SBJ, OBJ 또는 COMP) 및 클래스 수(class number) 등을 포함할 수 있다. 이러한 특징은 특정 언어에 제한되지 않는다.
표 2는 일반 특징, 표 3은 한국어 특징을 예시적으로 개시한다.
<표 2>
Figure 112015058267985-pat00013
<표 3>
Figure 112015058267985-pat00014
우선, 일반 특징에 포함되는 특징에 대해 개시한다.
일반 특징에서 Stem은 어간을 의미할 수 있다. 한국어의 과 같이 굴절하는 단어는 한 단어의 개념적 의미를 갖는 어간과 문법적 기능을 표시하는 어미로 구성되는데, 어미는 문법적 기능에 따라 변화하지만 어간은 한 단어의 개념적 의미를 나타내는 것이기 때문에 변화하지 않는 고정된 요소일 수 있다.
POS_Lv1은 제1 레벨의 개략적인 분류로 논항 또는 술어의 1차적으로 분류된 품사(명사, 동사, 형용사, 부사 등)를 의미할 수 있다.
POS_Lv2는 제2 레벨의 정교한 분류로 논항 또는 술어의 2차적으로 분류된 품사(용언불가능 보통명사, 지시시간 부사, 성상 형용사 등)을 의미할 수 있다.
Case는 격으로서 주격, 목적격, 부사격 등과 같은 논항 또는 술어의 문장 내의 격을 의미할 수 있다.
이하에서는 예시적으로 “ 이 책은 성종 때 한글로 번역 출판된 이래 영조 5년 때까지 여러 번 중간됐으며 정조 20년에는 이륜 행실도와 합쳐져 오륜행실도란 책이 이루어졌다”라는 문장을 기반으로 각 특징 그룹에 포함된 복수의 특징이 개시된다.
위의 예시적인 문장은 아래의 표 4와 같이 분류될 수 있다.
<표 4>
Figure 112015058267985-pat00015
A-Stem은 동사에 붙어 있는 논항을 지시할 수 있다. 예시 문장에서 책, 성종_때, 한글, 번역, 여러_번, 이륜행실도가 A-Stem일 수 있다.
P-Stem은 문장에 있는 일반 동사(또는 술어)를 지시할 수 있다. 예시 문장에서 출판되, 중간되, 합쳐지, 이루어지가 P-Stem일 수 있다.
A-POS_Lv1은 논항의 첫 번째 level 품사(명사, 부사, 형용사 등)를 지시할 수 있다. 예시 문장에서 ‘책’의 A-POS_Lv1은 명사이고 ‘성종_때’의 A-POS_Lv1은 부사일 수 있다.
A-POS_Lv2은 논항의 두 번째 level 품사(예를 들어, 용언불가능보통명사, 지시시간부사, 성상형용사 등)를 지시할 수 있다. 예시 문장에서 ‘책’의 A-POS_Lv2는 용언불가능보통명사이고 ‘성종_때’의 A-POS_Lv2 는 지시시간부사일 수 있다.
P-POS_Lv1은 술어의 첫 번째 level 품사(동사 등)를 지시할 수 있다. 예시 문장에서 ’출판되’의 P-POS_Lv1 은 동사일 수 있다.
P-POS_Lv2는 술어의 두 번째 level 품사(예를 들어, 일반 동사 등)를 지시할 수 있다. 예시 문장에서 ‘출판되’의 P-POS_Lv2은 일반 동사일 수 있다.
A-Case는 논항의 격(예를 들어, 주격, 목적격, 부사격 등)을 지시할 수 있다. 예시 문장에서 ‘책’의 A-Case는 주격일 수 있다.
P-Case 는 술어의 격을 지시할 수 있다.
A-LeftSiblingStem 은 현재 논항 이전에 나타난 모든 논항들 각각을 지시할 수 있다. 예시 문장에서 ‘책’의 이전 논항은 ‘이’일 수 있다.
A-LeftmostChildStem은 현재 논항 이전의 논항 중 의존 번호가 현재 논항 의 번호인 어간(stem) 중 현재 논항 의 번호와 가장 가까운 어간(stem)을 지시할 수 있다. 예시 문장에서 현재 논항이 ‘책’일 때 ‘책’의 이전 논항인 ‘이’의 의존 번호는 2로서 현재 ‘책’의 번호일 수 있다. ‘이’는 현재 논항인 책과 가장 가까운 어간이므로 ‘책’의 A-LeftmostChildStem은 ‘이’일 수 있다.
A-LeftSiblingPOS_Lv1은 A-LeftSibling의 첫 번째 level 품사를 지시할 수 있다. 예시 문장에서 ‘책’의 LeftSibling인 ‘이’ 의 POS_Lv1은 관형사일 수 있다. 즉, ‘책’의 A-LeftSiblingPOS_Lv1은 관형사일 수 있다.
A-LeftSiblingPOS_Lv2은 A-LeftSibling의 두 번째 level 품사를 지시할 수 있다. 예시 문장에서 ‘책’의 LeftSibling인 ‘이’ 의 POS_Lv2는 지시관형사일 수 있다. 즉, ‘책’의 A-LeftSiblingPOS_Lv2는 지시관형사일 수 있다.
A-RightSiblingPOS_Lv1은 A-RightSibling의 첫 번째 level 품사를 지시할 수 있다. 예시 문장에서 ‘책’의 RightSibling은 ‘출판되’, ‘영조_5_년_때’, ‘여러_번’일 수 있고, ‘출판되’, ‘영조_5_년_때’, ‘여러_번’의 POS_Lv1은 동사, 명사일 수 있다. 따라서, ‘책’의 A-RightSiblingPOS_Lv1은 동사, 명사일 수 있다.
A-RightSiblingPOS_Lv2은 A-RightSibling의 두 번째 level 품사를 지시할 수 있다. 따라서, ‘책’의 RightSibling은 ‘출판되’, ‘영조_5_년_때’, ‘여러_번’일 수 있고, ‘출판되’, ‘영조_5_년_때’, ‘여러_번’의 POS_Lv2은 일반동사, 용언불가능보통명사일 수 있다. 따라서, ‘책’의 A-RightSiblingPOS_Lv1은 일반동사, 용언불가능보통명사일 수 있다.
P-ParentStem은 현재 술어의 의존 번호가 자신의 번호인 술어를 지시할 수 있다. 예시문장에서 ‘중간되’의 의존번호 15로 ‘중간되’의 P-ParentStem은 ‘이루어지’일 수 있다.
P-ChildPOSSet_Lv1은 P-Child의 POS_Lv1의 집합 POS_Lv11, POS_Lv12, POS_Lv13을 지시할 수 있다. 예시문장에서 ‘중간되’의 P-child는 ‘책’, ‘출판되’, ‘영조_5년_때’, ‘여러_번’ 일 수 있고, ‘중간되’의 POS_Lv1 set은 동사, 명사일 수 있다.
P-ChildCaseSet은 P-ChildCase의 집합(예를 들어, 부사격, 주격)을 지시할 수 있다. 예시 문장에서 ‘중간되’의 P-child는 ‘책’, ‘출판되’, ‘영조_5년_때’, ‘여러_번’일 수 있고, P-child case는case는 주격일 수 있다.
다음으로 한국어 특징의 하위 항목(또는 한국어 특징에 포함되는 특징)이 개시된다.
A-JosaExist은 논항에 조사가 붙어있는지 여부를 지시할 수 있다. 예를 들어, 논항에 조사가 붙어 있으면 A-JosaExist는 1이고 아니면 0일 수 있다. 예시 문장에서 ‘책’의 ‘은’이라는 조사가 붙어 있으므로 ‘책’의 A-JosaExist는 1일 수 있다.
A-JosaClass는 조사의 8개의 class중 하나를 지시할 수 있다. 예시 문장에서 조사가 ‘은’일 경우, ‘은’의 A-JosaClass는 일반보조사일 수 있다.
A-JosaLength는 조사의 형태소의 수를 지시할 수 있다. 예시 문장에서 조사가 ‘은’일 경우, ‘은’의 A-JosaLength 는 1이고, 조사가, ‘뿐_아니_라’일 경우, ‘뿐_아니_라’의 A-JosaLength 는 3일 수 있다.
A-JosaMorphemes는 조사의 형태소 각각을 지시할 수 있다. 조사가 ‘은’일 경우 ’은’의 A-JosaMorphemes는 형태소인 ‘은’이고, 조사가 ‘뿐 아니라’인 경우, ’ 뿐 아니라’의 A-JosaMorphemes는 형태소인 ‘뿐’, ‘아니’, ‘라’일 수 있다.
A-JosaIdentity 는 논항의 조사를 지시할 수 있다. 논항 ‘책’의 A-JosaIdentity는 ‘은’일 수 있다.
A-EomiExist는 논항에 어미의 존재 여부를 지시할 수 있다. 논항에 어미가 존재하는 경우, A-EomiExist는 1이고, 논항에 어미가 존재하지 않는 경우, A-EomiExist는 0일 수 있다
A-EomiClass_Lv1은 어미의 14개의 클래스 중 하나를 지시할 수 있다.
A-EomiClass_Lv2는 어미의 4개의 클래스 중 하나를 지시할 수 있다.
A-EomiLength는 어미의 형태소의 수를 지시할 수 있다.
A-EomiMorphemes는 어미의 형태소 각각을 지시할 수 있다.
A?EomiIdentity 는 논항의 어미를 지시할 수 있다.
본 발명의 실시예에 따르면, 기본 매핑 기반의 SRL을 사용하여 시멘틱 롤을 결정하지 못한 나머지 클러스터에 대한 트리플 구조(Ai, Ji, Pi)에 포함되는 논항(500)과 술어(510) 각각은 전술한 언어적 특징(일반 특징, 한국어 특징, 공통 특징)을 기반으로 전술한 CCA 알고리즘(또는 근사 CCA)(520)을 사용하여 임베딩되어 실수값으로 표현될 수 있다.
본 발명의 실시예에 따르면, CCA(520)를 수행시 특징 표현의 차원을 감소시키고 숨겨진 모든 정보를 반영하기 위해 근사 CCA(520)를 사용하여 하나의 논항(500)은 9개의 차원(dimension)으로 임베딩되고, 하나의 술어(510)는 9개의 차원으로 임베딩될 수 있다.
논항(500)에 대한 임베딩 결과 및 술어(510)에 대한 임베딩 결과는 연쇄되어(concatenate)(530) 표현될 수 있다. 이러한 연쇄되어 표현된 논항에 대한 임베딩 결과 및 술어에 대한 임베딩 결과는 튜플 표현(540)이라는 용어로 표현될 수도 있다.
기본 매핑 기반의 SRL을 통해 시멘틱 롤을 결정하지 못한 나머지 조사 클러스터 각각은 위와 같은 근사 CCA(520)를 기반으로 튜플 표현(540)으로 표현될 수 있다.
튜플 표현(540)된 나머지 조사 클러스터 각각에 대해 추가적으로 k-means 클러스터링이 수행될 수 있다. 다른 표현으로 나머지 조사 클러스터에 대한 튜플 표현이 훈련 데이터(training data)로서 활용되어 k-mean 클러스터링을 통해 재클러스터링될 수 있다. k-mean 알고리즘은 주어진 데이터를 k개의 클러스터로 묶는 알고리즘으로, 각 클러스터와 거리 차이의 분산을 최소화하는 방식으로 동작할 수 있다.
예를 들어, k-means 알고리즘을 기반으로 1회의 재클러스터링이 수행될 수 있다. 재클러스터링된 결과를 기반으로 그룹핑된 하나의 그룹에 대해서 하나의 시멘틱 롤이 할당될 수 있다. 하나의 그룹에 x 개의 조사 클러스터가 포함되는 경우, x개의 조사 클러스터 각각에 포함되는 논항의 시멘틱 롤 중 가장 다수를 차지하는 시멘틱 롤이 하나의 그룹에 포함되는 x 개의 조사 클러스터에 대한 시멘틱 롤로 결정될 수 있다.
지도 학습(supervised learning) 방법이 사용되는 경우, 훈련 데이터가 존재하고 훈련 데이터로 기계 학습을 수행하여 예측 모델을 만든 후 예측 모델을 기반으로 입력 데이터에 대한 시멘틱 롤이 결정될 수 있다.
반면에, 본 발명의 실시예에 따른 자율 학습(unsupervised learning) 기반의 SRL 방법은 사전에 훈련을 기반으로 한 예측 모델을 가지고 있지 않고 사전 정보 없이 x개의 클러스터 각각에 포함되는 논항에 대한 시멘틱 롤을 결정할 수 있다.
도 6은 본 발명의 실시예에 따른 2스텝 분석 절차 기반의 시멘틱 롤 분석 장치를 나타낸 개념도이다.
도 6을 참조하면, 2스텝 분석 절차 기반의 시멘틱 롤 분석 장치는 입력부(600), 기본 매핑 SRL 부(610), 자율 학습 SRL 부(620), 출력부(630) 및 프로세서(640)를 포함한다. 하이브리드 방법을 사용한 시멘틱 롤 결정 장치는 전술한 하이브리드 방법을 사용한 시멘틱 롤 결정 방법을 수행하기 위해 구현될 수 있다. 예를 들어, 각 구성부는 아래의 동작을 수행하기 위해 구현될 수 있다.
입력부(600)는 분석 대상 문장의 입력을 위해 구현될 수 있다.
기본 매핑 SRL 부(610)는 조사 클러스터에 포함되는 조사가 도미넌트 시멘틱 롤로 일정 비율 이상으로 매핑된다면, 해당 조사 클러스터에 포함되는 논항의 시멘틱 롤을 도미넌트 시멘틱 롤로 결정하기 위해 구현될 수 있다.
자율 학습 SRL 부(620)는 CCA 기반의 임베딩 및 k-mean 클러스터링을 통해 기본 매핑 SRL부(610)에 의해 결정되지 않은 논항에 대한 시멘틱 롤을 결정하기 위해 구현도될 수 있다.
출력부(630)는 기본 매핑 SRL 부(610) 및 자율 학습 SRL 부(620)를 기반으로 시멘틱 롤을 결정한 문장 분석 결과에 대한 정보를 출력하기 위해 구현될 수 있다.
프로세서(640)는 입력부(600), 기본 매핑 SRL 부(610), 자율 학습 SRL 부(620), 출력부(630)의 동작을 제어하기 위해 구현될 수 있다.
도 7은 본 발명의 실시예에 따른 2스텝 분석 절차 기반의 SRL의 문장 분석의 성능을 나타낸 표이다.
도 7에서는 본 발명의 실시예에 따라 기본 매핑 기반의 SRL 및 자율 학습 기반의 SRL(또는 튜플 표현 기반의 SRL)을 기반으로 시멘틱 롤에 대한 결정을 수행하는 2 스텝 분석 절차 기반의 SRL의 문장 분석의 성능이 개시된다.
도 7의 (a)에서는 특정 조사와 관련된 논항의 시멘틱 롤이 90%의 비율로 특정 시멘틱롤로 결정되는 경우에만 기본 매핑 기반의 SRL이 적용되고, 나머지 조사 클러스터에 대해서는 자율 학습 기반의 SRL(또는 튜플 표현 기반의 SRL)이 적용되는 경우의 분석 평가 성능이 개시된다.
도 7의 (b)에서는 특정 조사와 관련된 논항의 시멘틱 롤이 80%의 비율로 특정 시멘틱롤로 결정되는 경우에만 기본 매핑 기반의 SRL이 적용되고, 나머지 조사 클러스터에 대해서는 자율 학습 기반의 SRL(또는 튜플 표현 기반의 SRL)이 적용되는 경우의 분석 평가 성능이 개시된다.
도 7의 (c)에서는 특정 조사와 관련된 논항의 시멘틱 롤이 70%의 비율로 특정 시멘틱롤로 결정되는 경우에만 기본 매핑 기반의 SRL이 적용되고, 나머지 조사 클러스터에 대해서는 자율 학습 기반의 SRL(또는 튜플 표현 기반의 SRL)이 적용되는 경우의 분석 평가 성능이 개시된다.
도 7의 (a), (b), (c)를 참조하면, 일반 특징이 자율 학습 기반의 SRL을 위해 적용된 경우(general), 한국어 특징이 자율 학습 기반의 SRL을 위해 적용된 경우(Korean), 공통 특징이 자율 학습 기반의 SRL을 위해 적용된 경우(common(general+Korean)) 각각의 SRL 성능이 개시된다. 또한, Baseline1 는 한국어 말뭉치에서 최대 비율을 가지는 골드 롤(gold role)을 모든 논항의 시멘틱 롤로 결정한 경우의 SRL 성능이고, Baseline2는 모든 조사 클러스터에 대해 기본 매핑 기반의 SRL만이 수행된 경우의 SRL 성능이다. Baseline1 및 Baseline2는 본 발명의 실시예에 따른 2스텝 분석 절차 기반의 SRL의 문장 분석 성능과의 성능 비교를 위한 지표일 수 있다.
PU(purity)는 유도된 클러스터(induced cluster)가 얼마나 잘 단일 골드 롤(single gold role)과 대응되는지를 나타내는 지표이다. CO(collocation)은 골드 롤이 단일 유도된 클러스터(single induced cluster)와 얼마나 잘 대응되는지를 나타내는 지표이다. F1은 PU와 CO의 조화 평균값이다. 정확도(accuracy)는 골드 롤을 가진 모든 개별 요소(instance)의 개수를 2스텝 분석 절차를 수행한 클러스터에 포함된 개별 요소의 개수로 나눈 값을 기반으로 산출될 수 있다.
도 7의 (a)를 참조하면, Korean의 정확도가 Baseline2의 정확도와 비교될 수 있고, 정확도가 5.23%의 증가를 가짐을 확인할 수 있다. 또한, Korean+general이 언어 특징으로 사용된 경우 65.70%의 F1 스코어를 가짐을 확인할 수 있다.
도 7의 (b)를 참조하면, Korean의 정확도가 73.81%의 최대값을 가짐을 확인할 수 있다.
도 7의 (c)를 참조하면, 정확도는 도 7의 (a)와 도 7의 (b)와 비교하여 유사한 값을 가지나 F1 스코어의 값은 도 7의 (a)와 도 7의 (b)와 비교하여 낮은 것을 확인할 수 있다.
이와 같은 2스텝 분석 절차를 사용한SRL 기반의 문장 분석 방법은 애플리케이션으로 구현되거나 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.
상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거니와 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다.
컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD 와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.
프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상에서는 실시예들을 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
전술한 본원의 설명은 예시를 위한 것이며, 본원이 속하는 기술분야의 통상의 지식을 가진 자는 본원의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며, 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 겹합된 형태로 실시될 수 있다.
본원의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본원의 범위에 포함되는 것으로 해석되어야 한다.

Claims (11)

  1. 문장 분석 장치에서 수행되는 2스텝 분석 절차를 사용한SRL(semantic role labeling) 기반의 문장 분석 방법은,
    분석 대상 문장에 포함되는 복수의 논항 중 제1 논항 그룹에 포함되는 제1 논항에 대해 기본 매핑 기반 SRL을 기반으로 시멘틱 롤을 결정하는 단계; 및
    상기 복수의 논항 중 제2 논항 그룹에 포함되는 제2 논항에 대해 자율 학습 기반 SRL을 기반으로 시멘틱 롤을 결정하는 단계를 포함하되,
    상기 제1 논항 그룹은 상기 복수의 논항 중 기본 매핑 기반 SRL을 사용하여 시멘틱 롤에 대한 결정이 가능한 상기 제1 논항을 포함하고,
    상기 제2 논항 그룹은 상기 복수의 논항 중 상기 기본 매핑 기반 SRL을 사용하여 시멘틱 롤에 대한 결정이 불가한 나머지 논항인 제2 논항을 포함하는 것을 특징으로 하되,
    상기 기본 매핑 기반 SRL은 조사 클러스터에 포함되는 상기 제1 논항과 관련된 조사가 관련 논항을 도미넌트 시멘틱 롤로 임계 비율 이상으로 매핑시키는 경우, 상기 제1 논항의 시멘틱 롤을 상기 도미넌트 시멘틱 롤로 결정하는 것을 특징으로 하는 2스텝 분석 절차를 사용한 SRL 기반의 문장 분석 방법.
  2. 삭제
  3. 제1항에 있어서,
    상기 자율 학습 기반 SRL은 조사 클러스터에 포함되는 상기 제2 논항과 상기 제2 논항과 관련된 술어 각각에 대해 언어적 특징을 기반으로 CCA(canonical correlation analysis) 알고리즘을 적용하여 임베딩한 튜플 표현을 생성하고, 상기 튜플 표현에 대해 k-means 클러스터링을 수행하여 상기 제2 논항의 시멘틱 롤을 결정하는 것을 특징으로 하는 2스텝 분석 절차를 사용한 SRL 기반의 문장 분석 방법.
  4. 제3항에 있어서,
    상기 튜플 표현은 상기 k-means 클러스터링의 훈련 데이터로 입력되어 재클러스터링되는 것을 특징으로 하는 2스텝 분석 절차를 사용한 SRL 기반의 문장 분석 방법.
  5. 제4항에 있어서,
    상기 언어적 특징은 일반 특징, 한국어 특징 및 공통 특징 중 적어도 하나를 포함하고,
    상기 일반 특징은 언어의 변화에 종속되지 않고 독립적인 특징을 포함하고,
    상기 한국어 특징은 한국어 특정(Korean-specific)의 특징을 포함하고,
    상기 공통 특징은 상기 일반 특징과 상기 한국어 특징의 공통된 특징을 포함하는 것을 특징으로 하는 2스텝 분석 절차를 사용한 SRL 기반의 문장 분석 방법.
  6. 제1항 또는 제3항 내지 제5항 중 어느 한 항에 따른 방법을 컴퓨터로 하여금 수행하는 컴퓨터 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록매체.
  7. 2스텝 분석 절차를 사용한SRL(semantic role labeling) 기반의 문장 분석 장치는,
    분석 대상 문장에 포함되는 복수의 논항 중 제1 논항 그룹에 포함되는 제1 논항에 대해 기본 매핑 기반 SRL을 기반으로 시멘틱 롤을 결정하도록 구현되는 기본 매핑 SRL 부; 및
    상기 복수의 논항 중 제2 논항 그룹에 포함되는 제2 논항에 대해 자율 학습 기반 SRL을 기반으로 시멘틱 롤을 결정하도록 구현되는 자율 학습 SRL 부를 포함하되,
    상기 제1 논항 그룹은 상기 복수의 논항 중 기본 매핑 기반 SRL을 사용하여 시멘틱 롤에 대한 결정이 가능한 상기 제1 논항을 포함하고,
    상기 제2 논항 그룹은 상기 복수의 논항 중 상기 기본 매핑 기반 SRL을 사용하여 시멘틱 롤에 대한 결정이 불가한 나머지 논항인 제2 논항을 포함하는 것을 특징으로 하되,
    상기 기본 매핑 기반 SRL은 조사 클러스터에 포함되는 상기 제1 논항과 관련된 조사가 관련 논항을 도미넌트 시멘틱 롤로 임계 비율 이상으로 매핑시키는 경우, 상기 제1 논항의 시멘틱 롤을 상기 도미넌트 시멘틱 롤로 결정하는 것을 특징으로 하는 2스텝 분석 절차를 사용한 SRL 기반의 문장 분석 장치.
  8. 삭제
  9. 제7항에 있어서,
    상기 자율 학습 기반 SRL은 조사 클러스터에 포함되는 상기 제2 논항과 상기 제2 논항과 관련된 술어 각각에 대해 언어적 특징을 기반으로 CCA(canonical correlation analysis) 알고리즘을 적용하여 임베딩한 튜플 표현을 생성하고, 상기 튜플 표현에 대해 k-means 클러스터링을 수행하여 상기 제2 논항의 시멘틱 롤을 결정하는 것을 특징으로 하는 2스텝 분석 절차를 사용한 SRL 기반의 문장 분석 장치.
  10. 제9항에 있어서,
    상기 튜플 표현은 상기 k-means 클러스터링의 훈련 데이터로 입력되어 재클러스터링되는 것을 특징으로 하는 2스텝 분석 절차를 사용한 SRL 기반의 문장 분석 장치.
  11. 제10항에 있어서,
    상기 언어적 특징은 일반 특징, 한국어 특징 및 공통 특징 중 적어도 하나를 포함하고,
    상기 일반 특징은 언어의 변화에 종속되지 않고 독립적인 특징을 포함하고,
    상기 한국어 특징은 한국어 특정(Korean-specific)의 특징을 포함하고,
    상기 공통 특징은 상기 일반 특징과 상기 한국어 특징의 공통된 특징을 포함하는 것을 특징으로 하는 2스텝 분석 절차를 사용한 SRL 기반의 문장 분석 장치.
KR1020150085469A 2015-06-16 2015-06-16 2스텝 분석 절차를 사용한srl 기반의 문장 분석 방법 및 장치 KR101663673B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020150085469A KR101663673B1 (ko) 2015-06-16 2015-06-16 2스텝 분석 절차를 사용한srl 기반의 문장 분석 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150085469A KR101663673B1 (ko) 2015-06-16 2015-06-16 2스텝 분석 절차를 사용한srl 기반의 문장 분석 방법 및 장치

Publications (1)

Publication Number Publication Date
KR101663673B1 true KR101663673B1 (ko) 2016-10-14

Family

ID=57157071

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150085469A KR101663673B1 (ko) 2015-06-16 2015-06-16 2스텝 분석 절차를 사용한srl 기반의 문장 분석 방법 및 장치

Country Status (1)

Country Link
KR (1) KR101663673B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107818082A (zh) * 2017-09-25 2018-03-20 沈阳航空航天大学 结合短语结构树的语义角色识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040056642A (ko) 2002-12-24 2004-07-01 한국전자통신연구원 절단위 파싱을 통한 문장구조 분석 방법
KR20110092691A (ko) * 2010-02-10 2011-08-18 경성대학교 산학협력단 코더 친화적 기계이해형 자연어 텍스트 표현 방법
KR20120053207A (ko) * 2010-11-17 2012-05-25 한국과학기술정보연구원 술어-논항구조 기반의 관계 식별 방법 및 장치
KR101414171B1 (ko) * 2013-12-30 2014-07-04 주식회사 메쉬코리아 전자 문서 모델링 방법 및 그 전자 장치

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040056642A (ko) 2002-12-24 2004-07-01 한국전자통신연구원 절단위 파싱을 통한 문장구조 분석 방법
KR20110092691A (ko) * 2010-02-10 2011-08-18 경성대학교 산학협력단 코더 친화적 기계이해형 자연어 텍스트 표현 방법
KR20120053207A (ko) * 2010-11-17 2012-05-25 한국과학기술정보연구원 술어-논항구조 기반의 관계 식별 방법 및 장치
KR101414171B1 (ko) * 2013-12-30 2014-07-04 주식회사 메쉬코리아 전자 문서 모델링 방법 및 그 전자 장치

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Y.B. Kim et al., Training a Korean SRL System with Rich Morphological Features, Computational Linguistics Association Annual Meeting 논문집, pp.637-642, (2014.06.23.)* *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107818082A (zh) * 2017-09-25 2018-03-20 沈阳航空航天大学 结合短语结构树的语义角色识别方法
CN107818082B (zh) * 2017-09-25 2020-12-04 沈阳航空航天大学 结合短语结构树的语义角色识别方法

Similar Documents

Publication Publication Date Title
Yadav et al. Deep affix features improve neural named entity recognizers
Elfardy et al. Sentence level dialect identification in Arabic
JP5936698B2 (ja) 単語意味関係抽出装置
Munoz et al. A learning approach to shallow parsing
US11030416B2 (en) Latent ambiguity handling in natural language processing
Orosz et al. PurePos 2.0: a hybrid tool for morphological disambiguation
Xu et al. Open information extraction with tree kernels
Kann et al. Neural morphological analysis: Encoding-decoding canonical segments
Zouaghi et al. Combination of information retrieval methods with LESK algorithm for Arabic word sense disambiguation
Salehi et al. Using distributional similarity of multi-way translations to predict multiword expression compositionality
Li et al. Joint syntactic and semantic parsing of Chinese
Rei et al. Auxiliary objectives for neural error detection models
Rozovskaya et al. Correcting grammatical verb errors
Elkahky et al. A challenge set and methods for noun-verb ambiguity
Hlaing et al. Improving neural machine translation with POS-tag features for low-resource language pairs
KR101646159B1 (ko) Srl 기반의 문장 분석 방법 및 장치
KR102108129B1 (ko) 텍스트 이모티콘 의미 해석 장치, 이를 위한 기록매체
KR101663673B1 (ko) 2스텝 분석 절차를 사용한srl 기반의 문장 분석 방법 및 장치
Kennington et al. Incrementally tracking reference in human/human dialogue using linguistic and extra-linguistic information
Han et al. Text summarization using sentence-level semantic graph model
Agrawal et al. Role of Expectation and Working Memory Constraints in Hindi Comprehension: An Eye-tracking Corpus Analysis
Stodden et al. A multi-lingual and cross-domain analysis of features for text simplification
Behera Odia parts of speech tagging corpora: suitability of statistical models
Saeed et al. Medical terminology-based computing system: a lightweight post-processing solution for out-of-vocabulary multi-word terms
Beekhuizen et al. Representing lexical ambiguity in prototype models of lexical semantics.

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20190703

Year of fee payment: 4