KR20150029304A - 분류 모델에 기반한 한국어 형태소 분석 및 품사 태깅 장치 및 방법 - Google Patents

분류 모델에 기반한 한국어 형태소 분석 및 품사 태깅 장치 및 방법 Download PDF

Info

Publication number
KR20150029304A
KR20150029304A KR20130108300A KR20130108300A KR20150029304A KR 20150029304 A KR20150029304 A KR 20150029304A KR 20130108300 A KR20130108300 A KR 20130108300A KR 20130108300 A KR20130108300 A KR 20130108300A KR 20150029304 A KR20150029304 A KR 20150029304A
Authority
KR
South Korea
Prior art keywords
morpheme
classification model
tagging
morphological
korean
Prior art date
Application number
KR20130108300A
Other languages
English (en)
Inventor
나승훈
김창현
김운
노윤형
서영애
신종훈
이기영
황금하
권오욱
최승권
정상근
박은진
김영길
박상규
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR20130108300A priority Critical patent/KR20150029304A/ko
Publication of KR20150029304A publication Critical patent/KR20150029304A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

분류 모델에 기반한 한국어 형태소 분석 및 품사 태깅 장치 및 방법이 개시된다. 본 발명에 따른 분류 모델에 기반한 한국어 형태소 분석 및 품사 태깅 방법은, 문장을 입력 받는 단계, 입력 받은 문장을, 분류 모델을 기반으로 형태소 단위로 분할하는 단계 및 상기 분류 모델 또는 상기 분류 모델과 상이한 분류 모델을 기반으로, 분할된 형태소에 품사를 태깅하는 단계를 포함하되, 상기 형태소 단위는, 음절열이 한 개의 독립된 형태소를 이루는 단위 형태소 또는 다수의 형태소가 결합된 연속된 음절로 구성되는 복합 형태소인 것을 특징으로 한다.

Description

분류 모델에 기반한 한국어 형태소 분석 및 품사 태깅 장치 및 방법{APPARATUS AND METHOD FOR ANALYZING KOREAN MORPHOLOGICAL AND TAGGING WORD CLASS BASED ON CLASSIFICATION MODEL}
본 발명은 분류 모델에 기반한 한국어 형태소 분석 및 품사 태깅 장치 및 방법에 관한 것이다. 특히, 복합 형태소라는 중간 개념을 새롭게 정의함으로써, 한국어의 형태소 분석 및 품사 태깅에 적용할 수 있는 기반 프레임 워크를 제공하는 분류 모델에 기반한 한국어 형태소 분석 및 품사 태깅 장치 및 방법에 관한 것이다.
한국어 형태소 분석을 위한 종래의 규칙기반 방법은, 분석에 필요한 규칙을 수작업으로 구축하기 때문에, 개발 비용이 높고, 새로운 도메인에 대해 적응력이 떨어지는 단점을 지닌다.
통계기반 방법은 대규모 품사 부착 말뭉치로부터 형태소 분할 및 품사 태깅에 필요한 규칙 및 확률 모델을 자동 또는 반자동으로 학습하는 방식으로, 수작업이 거의 필요 없고, 성능이 우수하며, 타 도메인으로의 적용성이 높고, 기존의 어휘 사전과의 하이브리드가 가능하다는 점 등의 장점으로 인해, 현대의 대부분의 품사 태깅 연구가 이에 기반을 두고 있다.
통계 기반 방법은 다시 입력과 출력의 joint 생성 과정을 함께 모델링하는 생성모델 (generative model)과, 주어진 입력에 대해 출력 과정만을 모델링하는 분류모델 (discriminative model)로 나뉜다.
이 중, 분류 모델은 다양한 자질 (feature)을 임의로 도입하여 쉽게 조합할 수 있다는 점, 출력 과정을 직접 모델링하기 때문에 상대적으로 높은 성능을 낼 수 있는 점 등의 강점으로, 최근의 통계기반 연구의 주된 축을 이루고 있다.
중국어의 경우, 한국어와 유사하게 분할과 태깅의 두가지 문제가 조합되어 발생한다. 종래의 중국어 연구는 분할과 태깅을 위해 CRF를 두 단계로 적용하거나, 한 단계로 통합하여 적용하는 joint 모델에 기반을 두고 있다. 그러나, 한국어의 경우 표층형이 다양한 축약 변이를 통해 사전형과 달라지기 때문에 중국어의 방법을 적용하기에는 한계가 있다.
한편, 한국 공개 특허 2011-0067276호 에서는 한국어 명사구 분석을 위한 한국어 분석 장치가 개시되어 있으나, 본 발명에서 도입한 복합 형태소의 개념이 개시되어 있지 않으므로 보다 정확한 분석이 이루어지고 있지 않는 실정이다.
한국어 형태소 분석을 위한 종래의 규칙기반 방법은, 분석에 필요한 규칙을 수작업으로 구축하기 때문에, 개발 비용이 높고, 새로운 도메인에 대해 적응력이 떨어지는 단점을 지닌다.
통계기반 방법은 대규모 품사 부착 말뭉치로부터 형태소 분할 및 품사 태깅에 필요한 규칙 및 확률 모델을 자동 또는 반자동으로 학습하는 방식으로, 수작업이 거의 필요 없고, 성능이 우수하며, 타 도메인으로의 적용성이 높고, 기존의 어휘 사전과의 하이브리드가 가능하다는 점 등의 장점으로 인해, 현대의 대부분의 품사 태깅 연구가 이에 기반을 두고 있다.
통계 기반 방법은 다시 입력과 출력의 joint 생성 과정을 함께 모델링하는 생성모델 (generative model)과, 주어진 입력에 대해 출력 과정만을 모델링하는 분류모델 (discriminative model)로 나뉜다.
이 중, 분류 모델은 다양한 자질 (feature)을 임의로 도입하여 쉽게 조합할 수 있다는 점, 출력 과정을 직접 모델링하기 때문에 상대적으로 높은 성능을 낼 수 있는 점 등의 강점으로, 최근의 통계기반 연구의 주된 축을 이루고 있다.
중국어의 경우, 한국어와 유사하게 분할과 태깅의 두가지 문제가 조합되어 발생한다. 종래의 중국어 연구는 분할과 태깅을 위해 CRF를 두 단계로 적용하거나, 한 단계로 통합하여 적용하는 joint 모델에 기반을 두고 있다. 그러나, 한국어의 경우 표층형이 다양한 축약 변이를 통해 사전형과 달라지기 때문에 중국어의 방법을 적용하기에는 한계가 있다.
한편, 한국 공개 특허 2011-0067276호 에서는 한국어 명사구 분석을 위한 한국어 분석 장치가 개시되어 있으나, 본 발명에서 도입한 복합 형태소의 개념이 개시되어 있지 않으므로 보다 정확한 분석이 이루어지고 있지 않는 실정이다.
상기한 목적을 달성하기 위한 본 발명에 따른 분류 모델에 기반한 한국어 형태소 분석 및 품사 태깅 방법은, 입력되는 문장을, 분류 모델을 기반으로 형태소 단위로 분할하는 단계 및 상기 분류 모델 또는 상기 분류 모델과 상이한 분류 모델을 기반으로, 분할된 형태소에 품사를 태깅하는 단계를 포함하되, 상기 형태소 단위는, 음절열이 한 개의 독립된 형태소를 이루는 단위 형태소 또는 다수의 형태소가 결합된 연속된 음절로 구성되는 복합 형태소인 것을 특징으로 한다.
이 때, 상기 형태소 단위로 분할하는 단계 및 상기 분할된 형태소에 품사를 태깅하는 단계는 동시에 이루어 질 수 있다.
본 발명에 따르면, 종래 규칙 기반 방식의 형태소 분석에 따른 고비용 및 새로운 도메인에 대한 적응력을 개선할 수 있다.
또한, 본 발명에 따르면, 구조적 분류 모델에 기반한 한국어 형태소 분석 및품사 태깅 장치를 제공할 수 있다.
또한, 본 발명에 따르면, 한국어 형태소 분석에 있어서, 형태소 단위로 복합 형태소라는 중간 개념을 도입함으로써 다국어 확장성을 가능하게 한다.
본 발명에 따르면, 종래 규칙 기반 방식의 형태소 분석에 따른 고비용 및 새로운 도메인에 대한 적응력을 개선할 수 있다.
또한, 본 발명에 따르면, 구조적 분류 모델에 기반한 한국어 형태소 분석 및품사 태깅 장치를 제공할 수 있다.
또한, 본 발명에 따르면, 한국어 형태소 분석에 있어서, 형태소 단위로 복합 형태소라는 중간 개념을 도입함으로써 다국어 확장성을 가능하게 한다.
본 발명을 첨부된 도면을 참조하여 상세히 설명하면 다음과 같다. 여기서, 반복되는 설명, 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능, 및 구성에 대한 상세한 설명은 생략한다.
본 발명의 실시형태는 당 업계에서 평균적인 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위해서 제공되는 것이다.
따라서, 도면에서의 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다.
본 발명은 종래 중국어에 제한되었던 분류 기반 방법을 확장하여, 한국어 형태소 분할 및 품사 태깅 전반에 대표적 구조적 분류 모델을 활용하는 일반적 장치 및 방법에 관한 것이다.
본 발명은 중국어 처리와 동일하게 한국어 분석의 문제를 1) 형태소 분할 2) 품사 태깅의 두 단계로 구성하여, 이들 각각에 분류 모델을 적용하는 두 단계 처리 방안과, 이들을 통합하여 처리하는 단일 처리 방안 (all at once)의 장치를 제시한다.
구체적으로, 본 발명은 전술한 종래 규칙 기반 방식의 형태소 분석의 문제점을 해결하기 위해, 구조적 분류 모델에 기반한 한국어 형태소 분석 및 품사 태깅 장치 및 방법을 제공하는데 그 목적이 있다.
본 발명은 한국어 형태소 분석에서 형태소 단위로 "복합 형태소"라는 중간 개념을 도입하여, 다국어 확장성을 꾀한 것이다.
이로부터 한국어 형태소 분석의 문제를 1) 형태소 분할 2) 품사 태깅 의 핵심 두 단계로 구성하는 일반적인 장치 및 방법에 관한 것이다.
본 발명에서의 분류 모델(방법)은 특정 방법에 한정하지 않고 CRF와 같이 입력문을 한번에 태깅하는 구조적 분류 외에, SVM과 같이 입력문의 각 음절에 대해 태깅을 별도로 수행하는 pointwise 방법을 모두 포함한다.
다음은 분류 모델의 예이다.
1. Hidden Markov model
2. Conditional random field
3. Structured SVM
4. Perceptron
5. Average perceptron
6. Pointwise SVM
또한, 본 발명에 따른 분류 모델에 기반한 한국어 형태소 분석 및 품사 태깅방법은, 형태소 분할 및 품사 태깅을 위해 분류 방법을 적용할 때, 다음의 변이를 모두 포함한다.
1. 형태소 분할 및 품사 태깅 각각에 대해 별도의 동일한 분류 모델 사용(예, 형태소 분할을 위한 CRF, 품사 태깅을 위한 CRF)
2. 형태소 분할 및 품사 태깅 각각에 대해 별도의 이질적인 분류 모델 사용(예, 형태소 분할을 위한 CRF, 품사 태깅을 위한 struct SVM)
3. 형태소 분할 및 품사 태깅을 동시에 처리하는 단일 분류 모델 사용(예, 형태소 분할/품사 태깅을 위한 단일 CRF)
또한, 본 발명에 따른 분류 모델에 기반한 한국어 형태소 분석 및 품사 태깅 방법에서의 분류 모델은 다음의 변이를 모두 포함한다.
1. 학습말뭉치를 통해 학습된 모델
2. 학습말뭉치 없이 사전 지식 (prior knowledge)에 기초하여 얻어진 분류 모델
3. 상기 1 및 2의 두 가지의 조합으로 학습말뭉치와 사전 지식을 혼합하여 만든 분류 모델
도 1은 본 발명에 따른 분류 모델에 기반한 한국어 형태소 분석 및 품사 태깅 방법의 흐름도이다. 도 2는 본 발명에 따른 분류 모델에 기반한 한국어 형태소 분석 및 품사 태깅 장치의 블록도이다.
도 1을 참조하면, 본 발명에 따른 분류 모델에 기반한 한국어 형태소 분석 및 품사 태깅 방법은, 문장을 입력 받는 단계(S10), 입력 받은 문장을 분류 모델을 기반으로 형태소 단위로 분할하는 단계(S20) 및 분류 모델을 기반으로 분할된 형태소에 품사를 태깅하는 단계(S30)를 포함한다.
이 때, 입력 받은 문장을 분류 모델을 기반으로 형태소 단위로 분할하는 단계(S20)와 분류 모델을 기반으로 분할된 형태소에 품사를 태깅하는 단계(S30)는 한 단계로 통합되어 구성될 수도 있다.
도 2를 참조하면, 본 발명에 따른 분류 모델에 기반한 한국어 형태소 분석 및 품사 태깅 장치(100)는, 문장 입력부(110), 형태소 분할부(120) 및 품사 태깅부(130)로 구성된다.
본 발명에 따른 분류 모델에 기반한 한국어 형태소 분석 및 품사 태깅 장치(100)는 상기 문장 입력부(100)를 통하여 대상이 되는 문장을 입력 받는다.
그리고, 상기 형태소 분할부(120)를 통하여, 분류 모델을 기반으로 하여 형태소 단위로 상기 입력된 문장을 분할하는 기능을 수행한다.
이 때, 분할된 형태소는 단위 형태소 또는 복합 형태소이다.
여기서 복합 형태소(compound morpheme)는 다수의 형태소가 결합된 연속된 N음절로 정의된다.
그리고, 단위 형태소는 음절 열이 한 개의 독립된 형태소를 의미한다.
상기 형태소 분할부(120)를 통하여 형태소 단위로 분할되면, 상기 품사 태깅부(130)를 통하여 분할된 형태소에 품사를 태깅한다.
구체적인 실시예는 본 발명에 따른아래를 통하여 살펴보도록 한다.
S10 단계에서는, 문장을 입력 받는다.
즉, 본 발명에 따른 분류 모델에 기반한 한국어 형태소 분석 및 품사 태깅 방법을 실시하기 위한 문장을 입력 받는 단계이다.
S20 단계에서는 입력된 문장을 분류 모델을 기반으로 형태소 단위로 분할한다. 아래의 표 1 내지 표7을 참조하여 구체적으로 설명하도록 한다.
표 1은 세종 분석 표지로서, 본 발명의 실시에서 품사를 태깅하는 예를 설명하기 위한 표이다.
대분류 소분류 세분류
체언 명사NN 일반명사NNG
고유명사NNP
의존명사NNB
대명사NP
수사NR
용언 동사VV
형용사VA
보조용언VX
지정사VC 긍정지정사VCP
부정지정사MAJ 
수식언 관형사MM   
부사MA  일반부사MAG 
접속부사MAJ 
 독립언 감탄사IC   
 관계언 격조사JK 주격조사JKS 
 보격조사JKC
 관형격조사JKG
 목적격조사JKO
부사격조사JKB 
호격조사JKV 
 인용격조사JKQ
 보조사JX  
접속조사JC  
 의존형태 어미E  선어말어미EP 
종결어미EF 
연결어미EC
명사형전성어미ETN 
관형형전성어미ETM 
접두사XP  체언접두사XPN 
접미사XS  명사파생접미사XSN 
동사파생접미사XSV 
형용사파생접미사XSA
(부사파생접미사XSB) 
어근XR   
 기호 마침표, 물음표, 느낌표  SF 
쉼표, 가운뎃점, 콜론, 빗금  SP 
따옴표, 괄호표, 줄표  SS 
줄임표  SE 
붙임표(물결, 숨김, 빠짐)  SO 
외국어  SL 
한자  SH 
기타 기호(논리 수학기호,
화폐 기호) 등) 
SW 
명사추정범주  NF 
용언추정범주  NV 
숫자  SN 
분석불능범주 NA 
보다 상세히 설명하면, S20 단계는 입력 된 문장을 형태소로 분리해 내는 과정으로, 분할된 형태소는 단위 형태소 또는 복합 형태소이다.
여기서 복합 형태소(compound morpheme)는 다수의 형태소가 결합된 연속된 N음절로 정의된다.
예를 들어, "켜줄래"는 "키/VV+어/EC+주/VX+ㄹ래/EF"로 4개의 형태소로 구성되므로 복합 형태소이다.
마찬가지로, "난"은 "나/NP+는/JX"의 두 개의 형태소로 구성되므로 복합형태소이다.
음절 열이 한 개의 독립된 형태소를 이룰 경우는 단위 형태소라 칭한다. 예를 들어,"학교/NNG", "에어콘/NNG"와 같이 단위 명사류, 그리고 "에/JKB", "다/EF" 등과 같이 단위 조사/어미 류 등은 각각 하나의 형태소로 구성되는 단위 형태소이다.
복합형태소는 여러 형태소로 구성되므로, 이에 대응되는 태그 또한 다양한 방법으로 결정될 수 있다.
구체적으로, 해당 복합형태소
Figure pat00001
Figure pat00002
가 k개의 단위 형태소의 조합
Figure pat00003
Figure pat00004
으로 구성된다고 하자 (여기서
Figure pat00005
Figure pat00006
는 i-th 단위 형태소의 음절열,
Figure pat00007
Figure pat00008
는 i번째 단위 형태소의 품사 태그).
Figure pat00009
Figure pat00010
의 복합 태그의 예로 다음의 세가지 전략을 고려할 수 있다.
1. 시작 태그만 사용:
Figure pat00011
Figure pat00012
예) 행해진/VV (행하/VV+아/EC+지/VX+ㄴ/ETM)
2. 시작 및 마지막 태그만 사용:
Figure pat00013
Figure pat00014
행해진/VV~ETM
3. 시작부터 마지막 태그 전체 사용:
Figure pat00015
Figure pat00016
: 예) 행해진/VV~EC~VX~ETM
도 3은 본 발명에 따른 분류 모델에 기반한 한국어 형태소 분석 및 품사 태깅 방법의 형태소를 분할하는 실시예를 나타낸 도면이다.
도 3을 참조하면, 형태소 분할의 예로 음절 기반 구조적 분류 방법을 적용할 수 있다.
이 때, 중국어의 단어 분할에서 많이 상용되는 BI분류 표기를 이용하면, 음절의 분류 결과로 {B, I}의 두 class를 취하게 되는데, 이 때 B는, 해당 음절이 형태소의 시작 음절이라는 것을, I는 형태소의 중간 음절이라는 것을 의미한다.
구체적으로, "나는 학교에 갔다"의 입력에 대해서 BI분류 표기에 따라 음절기반 분류 모델을 적용하여 형태소 분할을 시도한 예를 보여준다.
분류 모델로 CRF와 같은 순차 태깅을 사용하는 경우, 형태소 분할을 위해 자질의 예가 아래 표 8에 제시되어 있다.
자질 기호 의미
Figure pat00017
1음절 (uni-char) 정보
Figure pat00018
2음절 (bi-char) 정보
Figure pat00019
3음절 (tri-char) 정보
Figure pat00020
1음절 띄어쓰기 정보
Figure pat00021
2음절 띄어쓰기 정보
Figure pat00022
3음절 띄어쓰기 정보
S30 단계는, 분류 모델을 기반으로 형태소 단위를 분할한다.
도 4는 본 발명에 따른 분류 모델에 기반한 한국어 형태소 분석 및 품사 태깅 방법의 품사를 태깅하는 실시예를 나타낸 도면이다.
도 4를 참조하면, S30 단계에서는 분할된 단위 형태소 및 복합 형태소의 품사를 결정한다.
분류 모델의 예로 CRF를 사용할 수 있으며, 이때 자질은 이전 형태소, 현재 형태소, 다음 형태소의 세 가지 등이 고려될 수 있다.
구체적으로, 도 4에서는 "나는 학교에 갔다" 입력문의 형태소 분할 결과의 예에 대해 품사 태깅을 적용한 사례가 제시되어 있다.
여기서 "갔/VV~EP"는 복합 태그가 시작 형태소의 태그와 마지막 형태소의 태그의 결합으로 정의된 복합 형태소로, 정답 단위 형태소는 "가/VV+았/EP"이 된다.
도 5 및 도 6은 본 발명에 따른 분류 모델에 기반한 한국어 형태소 분석 및 품사 태깅 방법의 다른 실시예를 나타낸 도면이다.
도 5 및 도 6을 참조하면, 본 발명이 적용되는 분류 모델에 기반한 한국어 형태소 분석 및 품사 태깅의 또 다른 사례로, 형태소로 분할하는 단계와 품사를 태깅하는 단계를 통합한 분류 모델을 사용한 것이다.
즉, 도 5를 참조하면, 본 발명에 따른 분류 모델에 기반한 한국어 형태소 분석 및 품사 태깅 방법은 문장을 입력 받는 단계(S110) 및 입력 받은 문장을, 분류 모델을 기반으로 형태소 분할 및 품사 태깅하는 단계(S120)로 진행된다.
도 6을 참조하면, 형태소 분할 및 품사 태깅의 동시 수행의 예로써, 음절 기반 태깅 방법을 둘 수 있다.
음절 기반 태깅 방법에서는 형태소분할의 BI표기와 품사 태그를 결합하여 만든 BI표기 부착된 품사 태그를 음절 태그의 출력으로 하는 것이다.
보다 상세히, 음절의 출력 태그는 B-t, I-t가 되며 이 때, t는 임의의 품사 태그가 된다.
구체적으로, 다음은"나는 학교에 갔다"의 입력에 대해서 음절기반 분류 모델을 적용하여 형태소 분할 및 품사 태깅의 동시 수행 예를 보여준다.
이상에서와 같이 본 발명에 따른 분류 모델에 기반한 한국어 형태소 분석 및 품사 태깅 장치 및 방법은 상기한 바와 같이 설명된 실시예들의 구성과 방법이 한정되게 적용될 수 있는 것이 아니라, 상기 실시예들은 다양한 변형이 이루어질 수 있도록 각 실시예들의 전부 또는 일부가 선택적으로 조합되어 구성될 수도 있다.
100: 분류 모델에 기반한 한국어 형태소 분석 및 품사 태깅 장치
110: 문장 입력부
120: 형태소 분할부
130: 품사 태깅부

Claims (1)

  1. 문장을 입력 받는 단계;
    입력 받은 문장을, 분류 모델을 기반으로 형태소 단위로 분할하는 단계; 및
    상기 분류 모델 또는 상기 분류 모델과 상이한 분류 모델을 기반으로, 분할된 형태소에 품사를 태깅하는 단계를 포함하되,
    상기 형태소 단위는,
    음절열이 한 개의 독립된 형태소를 이루는 단위 형태소 또는 다수의 형태소가 결합된 연속된 음절로 구성되는 복합 형태소인 것을 특징으로 하는 분류 모델에 기반한 한국어 형태소 분석 및 품사 태깅 방법.
KR20130108300A 2013-09-10 2013-09-10 분류 모델에 기반한 한국어 형태소 분석 및 품사 태깅 장치 및 방법 KR20150029304A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR20130108300A KR20150029304A (ko) 2013-09-10 2013-09-10 분류 모델에 기반한 한국어 형태소 분석 및 품사 태깅 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR20130108300A KR20150029304A (ko) 2013-09-10 2013-09-10 분류 모델에 기반한 한국어 형태소 분석 및 품사 태깅 장치 및 방법

Publications (1)

Publication Number Publication Date
KR20150029304A true KR20150029304A (ko) 2015-03-18

Family

ID=53023823

Family Applications (1)

Application Number Title Priority Date Filing Date
KR20130108300A KR20150029304A (ko) 2013-09-10 2013-09-10 분류 모델에 기반한 한국어 형태소 분석 및 품사 태깅 장치 및 방법

Country Status (1)

Country Link
KR (1) KR20150029304A (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107291722A (zh) * 2016-03-30 2017-10-24 阿里巴巴集团控股有限公司 一种描述词的分类方法及设备
KR20190019683A (ko) * 2017-08-18 2019-02-27 동아대학교 산학협력단 품사 분포와 양방향 LSTM CRFs를 이용한 음절 단위 형태소 분석기 및 분석 방법
KR20190125677A (ko) 2018-04-30 2019-11-07 강원대학교산학협력단 제한된 신경망을 이용한 선형 시간 복잡도를 갖는 한국어 형태소 분석 방법 및 이를 기록한 기록매체

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107291722A (zh) * 2016-03-30 2017-10-24 阿里巴巴集团控股有限公司 一种描述词的分类方法及设备
CN107291722B (zh) * 2016-03-30 2020-12-04 阿里巴巴集团控股有限公司 一种描述词的分类方法及设备
KR20190019683A (ko) * 2017-08-18 2019-02-27 동아대학교 산학협력단 품사 분포와 양방향 LSTM CRFs를 이용한 음절 단위 형태소 분석기 및 분석 방법
KR20190125677A (ko) 2018-04-30 2019-11-07 강원대학교산학협력단 제한된 신경망을 이용한 선형 시간 복잡도를 갖는 한국어 형태소 분석 방법 및 이를 기록한 기록매체

Similar Documents

Publication Publication Date Title
Hu et al. Parabank: Monolingual bitext generation and sentential paraphrasing via lexically-constrained neural machine translation
Wongranu Errors in translation made by English major students: A study on types and causes
US9460080B2 (en) Modifying a tokenizer based on pseudo data for natural language processing
Davydov et al. Information system for translation into Ukrainian sign language on mobile devices
US20030154066A1 (en) System and method for accurate grammar analysis using a part-of-speech tagged (POST) parser and learners' model
Said et al. A hybrid approach for Arabic diacritization
KR101633556B1 (ko) 문법 오류 수정 장치 및 이를 이용한 문법 오류 수정 방법
Nadejde et al. Syntax-aware neural machine translation using CCG
Kübler et al. Part of speech tagging for Arabic
Warjri et al. Identification of pos tag for khasi language based on hidden markov model pos tagger
Tlili-Guiassa Hybrid method for tagging Arabic text
KR20150029304A (ko) 분류 모델에 기반한 한국어 형태소 분석 및 품사 태깅 장치 및 방법
Xian et al. Benchmarking mi-pos: Malay part-of-speech tagger
CN101930430A (zh) 一种语言文本的处理装置及语言学习装置
Bardovi-Harlig Concept-oriented analysis
Hulstijn Linking L2 proficiency to L2 acquisition: Opportunities and challenges of profiling research
CN109446537B (zh) 一种针对机器翻译的译文评估方法及装置
Neubarth et al. A hybrid approach to statistical machine translation between standard and dialectal varieties
Chen et al. A POST parser-based learner model for template-based ICALL for Japanese-English writing skills
Xuan et al. A semi-supervised learning method for Vietnamese part-of-speech tagging
Rose Improving the production efficiency and well-formedness of automatically-generated multiple-choice cloze vocabulary questions
Aggarwal et al. A survey on parts of speech tagging for Indian languages
Alfaidi et al. Exploring the performance of farasa and CAMeL taggers for arabic dialect tweets.
CN106294310A (zh) 一种藏语声调预测方法及系统
Sabtan Morphological Analysis of the Glorious Qur'an: A Comparative Survey of Three Corpora

Legal Events

Date Code Title Description
WITN Withdrawal due to no request for examination