KR20100082980A - 품사 및 동형이의어 태깅 방법 및 이를 이용한 단말 장치 - Google Patents

품사 및 동형이의어 태깅 방법 및 이를 이용한 단말 장치 Download PDF

Info

Publication number
KR20100082980A
KR20100082980A KR1020090002310A KR20090002310A KR20100082980A KR 20100082980 A KR20100082980 A KR 20100082980A KR 1020090002310 A KR1020090002310 A KR 1020090002310A KR 20090002310 A KR20090002310 A KR 20090002310A KR 20100082980 A KR20100082980 A KR 20100082980A
Authority
KR
South Korea
Prior art keywords
word
probability
morpheme
tagging
sequence
Prior art date
Application number
KR1020090002310A
Other languages
English (en)
Other versions
KR101079869B1 (ko
Inventor
옥철영
김동명
Original Assignee
울산대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 울산대학교 산학협력단 filed Critical 울산대학교 산학협력단
Priority to KR1020090002310A priority Critical patent/KR101079869B1/ko
Publication of KR20100082980A publication Critical patent/KR20100082980A/ko
Application granted granted Critical
Publication of KR101079869B1 publication Critical patent/KR101079869B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

품사 및 동형이의어 태깅 방법 및 이를 이용한 단말 장치가 개시된다. 본 발명의 일 실시예에 따른 품사 및 동형이의어 태깅 방법은, 텍스트의 어절을 구분하는 단계, 구분된 어절별로 적어도 하나의 형태소 분석열을 추출하는 단계, 추출된 형태소 분석열별 생성 확률을 결정하는 단계, 추출된 형태소 분석열간의 전이 확률을 결정하는 단계, 및 결정된 생성 확률 및 전이 확률을 이용하여 구분된 어절에 대해 각각의 형태소 분석열을 태깅하는 단계를 포함한다. 이에 의해, 하나의 모델을 이용하여 품사 태깅 및 동형이의어 태깅이 가능하다.
품사, 동형이의어, 은닉마르코프모델, 문맥 정보, 생성 확률, 전이 확률

Description

품사 및 동형이의어 태깅 방법 및 이를 이용한 단말 장치{Method for tagging part of speech and homograph, terminal device using the same}
본 발명은 품사 및 동형이의어 태깅 방법 및 이를 이용한 단말 장치에 관한 것으로, 보다 상세하게는 자연 언어 처리에서 하나의 모델을 이용하여 품사 및 동형이의어를 태깅하는 품사 및 동형이의어 태깅 방법 및 이를 이용한 단말 장치에 관한 것이다.
한국어는 교착어적 특성으로 인하여 자연언어처리 과정에서 다른 언어에 비해 다양한 형태의 중의성(Ambiguity)이 발견된다. 여기서, 중의성은 단어 혹은 문장의 의미가 여러 가지로 해석될 수 있음을 일컫는다.
한국어의 중의성은 형태적인 중의성과 의미적인 중의성으로 구분할 수 있다. 첫번째로, 형태적인 중의성은 "나는"과 같은 어절에서 찾아볼 수 있다. 이 어절에 대한 형태소 분석 결과는 "나/대명사+는/보조사", "나/동사+는/관형형어미", 및 "날/동사+는/관형형어미" 등으로 나타난다.
이와 같이 하나의 어절이 여러 가지 형태로 분석될 수 있음에 따라, 품사 태깅 시스템을 사용한다. 품사 태깅 시스템은 여러 가지 형태의 분석 결과에서 문맥 에 맞는 결과를 선택하는 시스템이다. 품사 태깅 시스템은 구문 분석 단계의 전처리에서 사용될 뿐 아니라 정보 검색이나 기계 번역, 문서 요약, 문서 분류 등 언어처리의 다양한 응용 분야에 사용된다.
현재까지 개발된 품사 태깅 시스템의 정확률은 95% 이상이다. 하지만, 그 정확률은 극히 일상적인 문서나 말뭉치에서의 정확률이다. 종래의 품사 태깅 시스템들이 다양한 종류의 문서나 말뭉치에서 정확률 테스트를 시도하였으나, 고유 명사가 많이 포함된 신문 기사나 생략이 많은 소설과 같은 문서에서는 그리 높은 정확률을 나타내지 못하고 있는 실정이다.
두번째로, 의미적인 중의성은 "배를"과 같은 어절에서 찾아볼 수 있다. 이 어절에 대한 형태소 분석 결과는 "배/명사+를/목적격조사"로 나타난다. 하지만, 동형이의어 "배"가 가지는 여러 가지 의미로 인해 중의성을 띄게 된다.
여기서, 다양한 의미 중 적절한 의미를 찾는 시스템이 동형이의어 태깅 시스템이다. 동형이의어 태깅 시스템은 기계번역에서 대상 언어의 적절한 대역어 선택에 직접적으로 연관되어 있으므로, 번역의 질을 좌우하는 중요한 부분이 된다. 또한, 정보 검색에서도 질의문에 동형이의어가 사용될 경우 그를 분별할 수 있어야 보다 정확한 결과를 내보낼 수 있다. 더욱이, 동형이의어의 의미 분별은 정보 검색이나 기계 번역 분야에 이용될 수 있으며, 언어 이해 단계로 넘어가기 위해서는 필수적인 단계이다.
이에 따라, 자연언어 처리 과정에서의 품사 태깅 및 동형이의어 태깅에 대한 다양한 연구가 진행되고 있다. 종래의 자연언어처리의 일 예를 살펴보면, "창공을 나는 새들의 모습을 관찰했다"는 문장에서 "나는"이라는 어절에 대한 품사 태깅 결과는 주변 문맥 정보에 의존한다. 또한, "바닷가에서 배를 타고 떠났다"는 문장에서, "배를"과 "타고"의 품사 태깅 결과는 서로 동일하지만, "배"와 "타"는 각각 명사와 동사인 동형이의어로 의미적인 중의성을 갖는다. 이 경우, 전 문장의 "나는"에서와 마찬가지로 주변 문맥 정보에 의해 각 단어의 동형이의어가 결정된다.
이와 같이, 품사 태깅 및 동형이의어 태깅은 모두 주변 문맥 정보에 의해 영향을 받는다. 그런데, 기존의 자연언어처리에서는 품사 태깅과 동형이의어 태깅이 별개의 문제로 취급되었다. 결과적으로, 품사 태깅 및 동형이의어 태깅시 주변 문맥 정보에 영향을 받음에도 불구하고, 서로 다른 모델을 사용하고 있는 실정이다.
본 발명의 목적은 자연 언어 처리에서 품사 태깅 및 동형이의어 태깅 모두에 문맥 정보의 반영이 가능한 은닉마르코프모델을 이용하는 품사 및 동형이의어 태깅 방법 및 이를 이용한 단말 장치를 제공하고자 하는데 있다.
상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 품사 및 동형이의어 태깅 방법은, 텍스트의 어절을 구분하는 단계, 구분된 어절별로 적어도 하나의 형태소 분석열을 추출하는 단계, 추출된 형태소 분석열별 생성 확률을 결정하는 단계, 추출된 형태소 분석열간의 전이 확률을 결정하는 단계, 및 결정된 생성 확률 및 전이 확률을 이용하여 구분된 어절에 대해 각각의 형태소 분석열을 태깅하는 단계를 포함한다.
형태소 분석열을 추출하는 단계는, 기생성된 유니그램(Unigram) 데이터베이 스로부터 어절에 해당하는 형태소 분석열을 추출할 수 있다.
유니그램 데이터베이스는, 어절, 상기 어절의 형태소별 품사, 및 형태소별 품사의 빈도 정보를 포함할 수 있다.
유니그램 데이터베이스로부터 어절에 해당하는 형태소 분석열이 존재하지 않으면, 어절의 형태소를 분석하여 형태소 분석열을 생성하는 단계를 더 포함할 수 있다.
생성 확률을 결정하는 단계는, 유니그램 데이터베이스로부터 추출되는 형태소 분석열별 빈도 정보를 이용하여 생성 확률을 결정할 수 있다.
전이 확률을 결정하는 단계는, 기생성된 바이그램(Bigram) 사전 데이터베이스로부터 추출되는 형태소별 품사의 빈도 정보를 이용하여 전이 확률을 결정할 수 있다.
바이그램 데이터베이스는, 인접하는 두 어절의 조합에 의한 어절 군(群), 어절 군의 형태소별 품사, 및 형태소별 품사의 빈도 정보를 포함할 수 있다.
결정된 전이 확률 중, 어절 군의 전체 빈도 정보 대비 어절 군의 형태소 분석열의 빈도 정보가 기설정된 임계값 이하이면, 어절 군의 형태소 분석열의 전이 확률을 제거하는 단계를 더 포함할 수 있다.
형태소 분석열을 태깅하는 단계는, 비터비(Viterbi) 알고리즘을 이용하여 어절에 대해 각각의 형태소 분석열을 태깅할 수 있다.
형태소 분석열을 태깅하는 단계는, 구분된 어절 X={X1, X2, X3, …, XT}에 대 하여 하기의 수학식을 이용하여 어절에 대해 태깅되는 형태소 분석열 q={q1, q2, q3, …, qT}를 태깅할 수 있다:
Figure 112009001733782-PAT00001
Figure 112009001733782-PAT00002
Figure 112009001733782-PAT00003
Figure 112009001733782-PAT00004
Figure 112009001733782-PAT00005
Figure 112009001733782-PAT00006
Figure 112009001733782-PAT00007
이때, δ1(i)는 첫번째 어절의 형태소 분석열의 최대 생성 확률, πi는 현재 어절에 대하여 기설정된 값, bi(X1)은 첫번째 어절의 형태소 분석열의 생성 확률, ψ1(i)는 첫번째 어절의 형태소 분석열의 생성 확률 및 전이 확률의 곱, δt+1(j)는 생성 확률 및 전이 확률이 최대인 값, δt(i)는 t 어절에서 i 형태소 분석열과 j 형태소 분석열간의 최대의 전이 확률, aij는 t 어절에서 i 형태소 분석열로부터 j 형 태소 분석열로의 전이 확률, bj(Xt+1)은 t+1 어절에서 j 형태소 분석열의 생성 확률, ψt+1(j)는 δt+1(j)의 최대 값, P는 마지막 어절의 생성 확률과 전이 확률이 최대인 값, qT는 P가 최대인 값이다.
한편, 본 발명의 일 실시예에 따른 품사 및 동형이의어 태깅을 위한 단말 장치는, 텍스트의 어절을 구분하는 어절 구분부, 구분된 어절별로 적어도 하나의 형태소 분석열을 추출하는 형태소 분석열 추출부, 추출된 형태소 분석열별 생성 확률을 결정하고, 형태소 분석열간의 전이 확률을 결정하는 확률 결정부, 및 결정된 생성 확률 및 전이 확률을 이용하여 구분된 어절에 대해 각각의 형태소 분석열을 태깅하는 태깅부를 포함한다.
형태소 분석열 추출부는, 기생성된 유니그램 데이터베이스로부터 어절에 해당하는 형태소 분석열을 추출할 수 있다.
유니그램 데이터베이스는, 어절, 어절의 형태소별 품사, 및 형태소별 품사의 빈도 정보를 포함할 수 있다.
유니그램 데이터베이스로부터 어절에 해당하는 형태소 분석열이 존재하지 않으면, 어절의 형태소를 분석하여 형태소 분석열을 생성하는 형태소 분석부를 더 포함할 수 있다.
확률 결정부는, 유니그램(Unigram) 데이터베이스로부터 추출되는 형태소 분석열별 빈도 정보를 이용하여 생성 확률을 결정할 수 있다.
확률 결정부는, 기생성된 바이그램(Bigram) 사전 데이터베이스로부터 추출되 는 형태소별 품사의 빈도 정보를 이용하여 전이 확률을 결정할 수 있다.
바이그램 데이터베이스는, 인접하는 두 어절의 조합에 의한 어절 군(群), 어절 군의 형태소별 품사, 및 형태소별 품사의 빈도 정보를 포함할 수 있다.
확률 결정부는, 결정된 전이 확률 중, 어절 군의 전체 빈도 정보 대비 어절 군의 형태소 분석열의 빈도 정보가 기설정된 임계값 이하이면, 어절 군의 형태소 분석열의 전이 확률을 제거할 수 있다.
태깅부는, 비터비(Viterbi) 알고리즘을 이용하여 어절에 대해 각각의 형태소 분석열을 태깅할 수 있다.
태깅부는, 구분된 어절 X={X1, X2, X3, …, XT}에 대하여 하기의 수학식을 이용하여 어절에 대해 태깅되는 형태소 분석열 q={q1, q2, q3, …, qT}를 태깅할 수 있다:
Figure 112009001733782-PAT00008
Figure 112009001733782-PAT00009
Figure 112009001733782-PAT00010
Figure 112009001733782-PAT00011
Figure 112009001733782-PAT00012
Figure 112009001733782-PAT00013
Figure 112009001733782-PAT00014
이때, δ1(i)는 첫번째 어절의 형태소 분석열의 최대 생성 확률, πi는 현재 어절에 대하여 기설정된 값, bi(X1)은 첫번째 어절의 형태소 분석열의 생성 확률, ψ1(i)는 첫번째 어절의 형태소 분석열의 생성 확률 및 전이 확률의 곱, δt+1(j)는 생성 확률 및 전이 확률이 최대인 값, δt(i)는 t 어절에서 i 형태소 분석열과 j 형태소 분석열간의 최대의 전이 확률, aij는 t 어절에서 i 형태소 분석열로부터 j 형태소 분석열로의 전이 확률, bj(Xt+1)은 t+1 어절에서 j 형태소 분석열의 생성 확률, ψt+1(j)는 δt+1(j)의 최대 값, P는 마지막 어절의 생성 확률과 전이 확률이 최대인 값, qT는 P가 최대인 값이다.
이하에서는 도면을 참조하여 본 발명을 보다 상세하게 설명한다.
먼저, 품사 및 동형이의어 태깅에 적용되는 은닉 마르코프 모델(Hidden Markov Model : HMM)에 관하여 간략하게 살펴본다. 은닉 마르코프 모델은 관측 불가능한 프로세스를 관측 가능한 다른 프로세스를 통해 추정하는 이중 통계적 모델로, 생성 확률과 전이 확률을 이용하여 최적의 상태열을 찾는다. 은닉 마르코프 모델에서 사용하는 생성 확률 및 전이 확률의 개념은 일반적으로 공지되어 있는 HMM 의 전이 확률 모형 예시를 통해 알 수 있으므로, 이에 대한 구체적인 설명은 생략한다.
도 1은 본 발명의 일 실시예에 따른 품사 및 동형이의어 태깅을 위한 단말 장치의 블럭도이다.
도 1을 참조하면, 본 발명의 일 실시예에 따른 단말 장치(100)는 어절 구분부(110), 형태소 분석열 추출부(120), 형태소 분석부(130), 확률 결정부(160), 및 태깅부(170)를 포함한다.
어절 구분부(110)는 입력된 텍스트의 어절(語節)을 구분한다. 어절은 문장을 구성하고 있는 각각의 마디를 의미한다. 예를 들면, 어절 구분부(110)에 "창공을 나는 새들의 모습을 관찰했다"라는 문장이 입력되었다면, 어절 구분부(110)에서는 이 문장을 5개의 어절 즉, "창공을", "나는", "새들의", "모습을", "관찰했다"로 구분한다.
어절 구분부(110)에 입력되는 텍스트는 문장일 수 있다. 일반적으로, 문장은 어떤 사상이나 감정의 표현이 완결된 것을 의미하나, 표현이 완결되지 않은 단어(單語) 문장, 및 주어를 갖추지 않은 명령문과 같은 예외의 경우도 문장에 해당한다.
예를 들면, 어절 구분부(110)에는 "창공을 나는 새들의 모습을 관찰했다", 및 "바닷가에서 배를 타고 떠났다"와 같이 주어와 서술어를 모두 갖춘 문장이 입력될 수 있고, 혹은 "물을 가지러 간 사이", 및 "가격은 국산의 경우"와 같이 그 표현이 완결되지 않은 단어 문장이 입력될 수도 있다.
형태소 분석열 추출부(120)는 어절 구분부(110)에 의해 구분된 어절별로 적어도 하나의 형태소 분석열을 추출한다. 형태소 분석열 추출부(120)는 형태소 분석열 추출을 위해 기생성된 유니그램(Unigram) 데이터베이스(140) 및 바이그램(Bigram) 데이터베이스(150)로부터 해당 형태소 분석열을 추출할 수 있다.
유니그램 데이터베이스(140)는 어절, 그 어절의 형태소 분석열, 및 그 형태소 분석열의 빈도 정보를 포함한다. 또한, 바이그램 데이터베이스(150)는 인접하는 두 어절의 조합에 의한 어절 군, 그 어절 군의 형태소별 분석열, 및 그 형태소별 분석열의 빈도 정보를 포함한다.
형태소 분석열 추출부(120)에 의해 유니그램 데이터베이스(140) 및 바이그램 데이터베이스(150)로부터 추출되는 형태소 분석열에 대하여는 후술하는 도 2 및 도 3에서 보다 상세히 설명한다.
형태소 분석부(130)는 형태소 분석열 추출부(120)에서 유니그램 데이터베이스(140)로부터 어절에 해당하는 형태소 분석열을 추출할 때, 해당 형태소 분석열이 존재하지 않을 경우에만 동작하는 것으로, 해당 어절의 형태소를 분석하고, 그 분석 결과에 따라 형태소 분석열을 생성한다.
형태소 분석부(130)는 UTagger 프로그램을 이용할 수 있다. UTagger 프로그램은 어절 사전을 기반으로 하여 빠른 형태소 분석이 가능하고, 어절에 대한 빈도 정보를 갖고 있으므로, 한국어의 후처리 단계에서 효과적으로 이용될 수 있는 형태소 분석기이다.
확률 결정부(160)는 형태소 분석열 추출부(120)에서 추출된 형태소 분석열 혹은 형태소 분석부(130)에서 생성된 형태소 분석열별 생성 확률을 결정한다. 이때, 확률 결정부(160)는 유니그램 데이터베이스(140)로부터 추출되는 어절의 형태소 분석열별 빈도 정보를 이용하여 생성 확률을 산출할 수 있다.
확률 결정부(160)는 형태소 분석열 추출부(120)에서 추출된 형태소 분석열간 혹은 형태소 분석부(130)에서 생성된 형태소 분석열간의 전이 확률을 결정한다. 이때, 확률 결정부(160)는 바이그램 데이터베이스(150)로부터 추출되는 어절 군의 형태소 분석열 별 빈도 정보를 이용하여 전이 확률을 산출할 수 있다.
확률 결정부(160)는 기결정된 전이 확률 중, 어절 군의 전체 빈도 정보 대비 해당 어절 군의 형태소 분석열의 빈도 정보가 기설정된 임계값 이하이면, 해당 어절 군의 형태소 분석열의 전이 확률을 제거한다. 결과적으로, 확률 결정부(160)는 해당 어절 군의 출현 빈도가 극히 적을 경우에는 이를 말뭉치의 오류로 판단하고, 그 어절 군의 형태소 분석열은 태깅부(170)에서 최종 형태소 분석열로 태깅되지 않도록 하는 것이다.
이를 보다 구체적으로 살펴보면, 한국어의 특성상 어절 간의 조합(어절 군)에서 태깅 결과의 경우의 수가 너무 많기 때문에, 바이그램 데이터베이스(150)의 정보만으로는 신뢰성 있는 전이확률을 얻을 수 없다. 이를 보완하기 위하여, 추가적으로 의미없는 정보를 제거하여 학습 말뭉치의 신뢰성을 높이기 위하여 확률 결정부(160)에서 해당 어절 군의 출현 빈도가 극히 적은 형태소 분석열의 전이 확률을 제거한다.
이때, 확률 결정부(160)에서는 정보검색 분야의 TF/IDF(Term Frequency/Inverse Document Frequency) 원리를 응용할 수 있다. 하기의 표 1 및 표 2를 참조하여 설명한다.
A 어절 + B 어절
A1 + B1 태깅 : 1000회 출현
A1 + B2 태깅 : 500회 출현
A1 + B3 태깅 : 300회 출현
A2 + B1 태깅 : 1회 출현
C 어절 + D 어절
C1 + D1 태깅 : 10회 출현
C1 + D2 태깅 : 5회 출현
C1 + D3 태깅 : 3회 출현
C2 + D1 태깅 : 1회 출현
표 1을 참조하면, 어절 군이 "A 어절 + B 어절"일 경우, "A2 + B1"의 형태는 다른 형태에 비해 현저히 낮은 출현율을 보인다. 이런 경우의 대부분은 말뭉치의 오류에 해당한다.
반면, 표 2를 참조하면, 어절 군이 "C 어절 + D 어절"일 경우, 표 1에서의 "A2 + B1"와 같이 "C2 + D1"이 1회 출현하였다. 하지만, "C 어절 + D 어절"의 경우는 전체적으로 그 출현 빈도가 낮으므로, 1회 출현한 "C2 + D1"도 유용한 정보가 될 수 있다.
확률 결정부(160)는 상기와 같은 원리를 이용하여 말뭉치의 오류로 판단되는 어절 군의 형태소 분석열의 전이 확률을 제거한다. 기설정된 임계값이 1%라고 가정하면, 확률 결정부(160)는 어절 군의 빈도 정보에 따라 전체 조합의 빈도의 합에서 1% 이하의 형태소 분석열의 전이 확률을 제거한다.
태깅부(170)는 확률 결정부(160)에 의해 결정된 생성 확률 및 전이 확률을 이용하여 각 어절에 대해 최적의 형태소 분석열을 태깅한다. 본 실시예에서, 태깅부(170)는 최적의 형태소 분석열을 태깅하기 위하여 비터비(Viterbi) 알고리즘을 사용하였다.
태깅부(170)는 어절 X={X1, X2, X3, …, XT}에 대하여 수학식 1 내지 4를 이용하여 어절에 대해 태깅되는 형태소 분석열 q={q1, q2, q3, …, qT}를 태깅할 수 있다.
수학식 1은 초기화 과정을 위한 수식으로, 문장의 첫번째 어절의 생성 확률을 적용한 것이다. 문장의 첫번째 어절은 이전 어절이 존재하지 않기 때문에, 전이 확률을 반영할 필요가 없다.
Figure 112009001733782-PAT00015
Figure 112009001733782-PAT00016
여기서, δ1(i)는 첫번째 어절의 형태소 분석열의 최대 생성 확률, πi는 현재 어절에 대하여 기설정된 값, bi(X1)은 첫번째 어절의 형태소 분석열의 생성 확률, ψ1(i)는 첫번째 어절의 형태소 분석열의 생성 확률 및 전이 확률의 곱이다.
수학식 2는 반복 과정을 위한 수식으로, t+1번째 어절의 생성 확률과 t번째 어절에서 t+1번째 어절로의 전이 확률을 적용한 것이다. 어절 군에서, 앞의 어절에 해당하는 형태소 분석열은 i가 되고, 뒤의 어절에 해당하는 형태소 분석열은 j가 된다. 여기서, i는 1 이상 N 이하의 수이다.
Figure 112009001733782-PAT00017
Figure 112009001733782-PAT00018
여기서, δt+1(j)는 생성 확률 및 전이 확률이 최대인 값, δt(i)는 t 어절에서 i 형태소 분석열과 j 형태소 분석열간의 최대의 전이 확률, aij는 t 어절에서 i 형태소 분석열로부터 j 형태소 분석열로의 전이 확률, bj(Xt+1)은 t+1 어절에서 j 형태소 분석열의 생성 확률, ψt+1(j)는 δt+1(j)의 최대 값이다.
수학식 3은 종료 과정을 위한 수식으로, 문장의 마지막 어절의 생성 확률을 적용한 것이다. 마지막 어절은 뒤에 오는 어절이 없기 때문에, 뒤에 오는 어절과의 전이 확률을 반영할 필요가 없다.
Figure 112009001733782-PAT00019
Figure 112009001733782-PAT00020
여기서, P는 마지막 어절의 생성 확률과 전이 확률이 최대인 값, qT는 P가 최대인 값이다.
수학식 4는 최적의 형태소 분석열의 역추적(Back Tracking) 과정을 위한 수식으로, 문장의 마지막 어절에서 첫번째 어절까지 계산된 값을 역추적하여 최적의 형태소 분석열을 태깅하는 것이다.
Figure 112009001733782-PAT00021
도 2는 본 발명의 일 실시예에 따른 유니그램 데이터베이스 내의 정보를 예시한 도면이다.
도 2를 참조하면, 유니그램 데이터베이스(140)는 어절, 그 어절의 형태소 분석열, 및 그 형태소 분석열의 빈도 정보가 테이블 형태로 저장된 정보를 포함한다. 본 실시예에서는 학습 말뭉치에 포함되어 있는 어절을 이용하여 형태소 분석열 추출부(120)에서 해당 정보를 추출하기 용이한 형태로 정제하여 유니그램 데이터베이스(140)를 구성한다. 바람직하게, "21세기 세종계획 형태 의미 분석 말뭉치"를 이용하여 유니그램 데이터베이스(140)를 구성할 수 있다.
도 2에 예시된 바와 같이, "한"이란 어절에 대하여 14개 혹은 그 이상의 형태소 분석열이 존재한다. 형태소 분석열은 "형태소/품사기호"의 형태로 구성될 수 있으며, 경우에 따라서는 "형태소__의미번호/품사기호"의 형태로 구성될 수 있다. 품사기호는 품사 태깅에 사용되는 것이고, 의미번호는 동형이의어 태깅에 사용된다. 여기서, 의미번호는 표준국어대사전의 어깨번호와 동일한 값을 갖도록 구성하 였다. 또한, 하나의 어절에 대한 복수의 형태소 분석열은 그 각각의 출현 빈도가 다르며, 그 출현 빈도를 반영한 것이 빈도 정보이다.
본 실시예에서 사용한 품사기호는 일반적으로 사용되는 품사 기호로, 표 3과 같다.
대분류 소분류 세분류
체언



명사 NN

일반명사 NNG
고유명사 NNP
의존명사 NNB
대명사 NP 대명사 NP
수사 NR 수사 NR
용언 동사 VV 동사 VV
형용사 VA 형용사 VA
보조용언 VX 보조용언 VX
지정사 VC 긍정지정사 VCP
부정지정사 VCN
수식언

관형사 MM
부사 MA
일반부사 MAG
접속부사 MAJ
독립언 감탄사 IC 감탄사 IC
관계언 격조사 JK


주격조사 JKS
보격조사 JKC
관형격조사 JKG
목적격조사 JKO
부사격조사 JKB
호격조사 JKV
인용격조사 JKQ
보조사 JX 보조사 JX
접속조사 JC 접속조사 JC
의존형태








어미 E



선어말어미 EP
종결어미 EF
연결어미 EC
명사형전성어미 ETN
관형형전성어미 ETM
접두사 XP 체언접두사 XPN
접미사 XS

명사파생접미사 XSN
동사파생접미사 XSV
형용사파생접미사 XSA
어근 XR 어근 XR
기호









마침표, 물음표, 느낌표 SF
쉼표, 가운뎃점, 콜론, 빗금 SP
따옴표, 괄호표, 줄표 SS
줄임표 SE
붙임표(물결, 숨김, 빠짐) SO
외국어 SL
한자 SH
기타 기호(논리수학기호, 화폐기호 등) SW
명사추정범주 NF
용언추정범주 NV
숫자 SN
분석불능범주 NA
표 3에 예시한 바와 같이, 품사 기호를 "세종 말뭉치"에서 사용하는 품사 기호와 일치시킴으로써, 학습의 효율을 향상시킬 수 있다.
도 3은 본 발명의 일 실시예에 따른 바이그램 데이터베이스 내의 정보를 예시한 도면이다.
도 3을 참조하면, 바이그램 데이터베이스(150)는 어절 군, 그 어절 군의 형태소 분석열, 및 그 형태소 분석열의 빈도 정보가 테이블 형태로 저장된 정보를 포함한다. 본 실시예에서는 학습 말뭉치에 포함되어 있는 어절 군을 이용하여 형태소 분석열 추출부(120)에서 해당 정보를 추출하기 용이한 형태로 정제하여 바이그램 데이터베이스(150)를 구성한다. 바람직하게, "21세기 세종계획 형태 의미 분석 말뭉치"를 이용하여 바이그램 데이터베이스(150)를 구성할 수 있다.
도 3에 예시한 바와 같이, 바이그램 데이터베이스(150)에는 두 어절의 조합에 의한 어절 군의 다양한 형태에 따른 어절 군의 형태소 분석열 및 그 형태소 분석열의 빈도 정보가 저장되어 있다. 도시한 바와 같이, 어절 군의 형태소 분석열은 "형태소__의미번호/품사기호"와 같은 형태로 구성된다.
도2에서 설명한 유니그램 데이터베이스(140)와 마찬가지로, 바이그램 데이터베이스(150)에 저장된 어절 군의 형태소 분석열에 사용된 의미번호는 표준국어대사전의 어깨번호와 동일한 값을 갖으며, 품사 기호는 표 3에 예시한 바와 같다.
도 4는 본 발명의 일 실시예에 다른 품사 및 동형이의어 태깅의 모델링을 나타낸 도면이다.
도 4를 참조하면, "물을 가지러 간 사이"라는 문장이 입력되고, 어절 구분부(110)는 입력된 문장의 어절을 구분한다. 이에 의해, 입력된 문장은 4개의 어절로 구분되었다.
이후, 형태소 분석열 추출부(120)는 어절 구분부(110)에 의해 구분된 각 어절에 대하여 유니그램 데이터베이스(140)로부터 해당 형태소 분석열을 추출한다. 이 결과에 따라, "물을" 어절에는 "묻_03/VV+을/ETM", "물_01/NNG+을/JKO", 및 "물_02/NNG+을/JKO"로 3개의 형태소 분석열이 추출된다. 도시한 바와 같이, 형태소 분석열은 "형태소_의미번호/품사"의 형태로 구성되어 있다.
또한, 형태소 분석열 추출부(120)는 유니그램 데이터베이스(140)로부터 해당 형태소 분석열과 그 빈도 정보를 함께 추출한다. 도시한 바와 같이, "묻_03/VV+을/ETM"의 형태소 분석열은 0.14, "물_01/NNG+을/JKO"의 형태소 분석열은 0.85, 및 "물_02/NNG+을/JKO"의 형태소 분석열은 0.01의 출현 빈도를 나타낸다.
확률 결정부(160)는 각 어절별 형태소 분석열이 갖는 빈도 정보를 이용하여 생성 확률을 결정하고, 어절 군의 형태소 분석열이 갖는 빈도 정보를 이용하여 전이 확률을 결정한다.
또한, 확률 결정부(160)는 비터비 알고리즘을 이용하여 각 어절별로 최적의 하나의 형태소 분석열을 태깅한다. "물을"의 어절에서 각 형태소 분석열의 빈도 정보는 0.14, 0.85, 및 0.01로 "물_01/NNG+을/JKO" 형태소 분석열의 생성 확률이 최고값을 가진다. "가지러"의 어절에서는 가능한 형태소 분석열이 하나뿐이므로, 비터비 알고리즘이 "물을" 어절에서 "가지러" 어절까지 진행되었을 때, "가지/VV+러/EC"가 얻는 ψt+1(j) 값은 0.85가 된다.
동일한 방법으로, "사이" 어절까지 진행되었을 때, "사이" 어절에서 가장 높은 ψt+1(j) 값을 가지는 형태는 0.52 값을 가지는 "사이_01/NNG"가 된다. 이후, 확률 결정부(160)는 역추적을 통해 문장의 마지막부터 처음까지 최고의 ψt+1(j) 값을 가지는 각 어절별 형태소 분석열을 태깅하게 된다.
도 5는 본 발명의 일 실시예에 따른 품사 및 동형이의어 태깅 방법을 설명하기 위한 흐름도이다.
본 단말 장치(100)에 텍스트가 입력된다(S200). 텍스트가 입력되면, 어절 구분부(110)는 입력된 텍스트의 어절을 구분한다(S210). 이때, 본 단말 장치(100)에 입력된 텍스트는 하나의 문장일 수 있다.
유니그램 데이터베이스(140)에 어절 구분부(110)에 의해 구분된 각 어절별로 해당 형태소 분석열이 존재하는 경우(S220-Y), 형태소 분석열 추출부(120)는 유니그램 데이터베이스(140)로부터 어절 구분부(110)에 의해 구분된 각 어절별로 해당 형태소 분석열을 추출한다(S230). 이때, 형태소 분석열 추출부(120)는 각 형태소 분석열의 생성 확률, 및 어절 군의 형태소 분석열의 전이 확률을 함께 추출할 수 있다.
만약, 유니그램 데이터베이스(140)에 각 어절별 해당 형태소 분석열이 존재하지 않는 경우(S220-N), 형태소 분석부(130)에서 어절을 분석하여 형태소 분석열을 생성한다(S240).
확률 결정부(160)는 형태소 분석열 추출부(120) 혹은 형태소 분석부(130)로부터 제공받은 각 어절의 형태소 분석열의 빈도 정보를 이용하여 생성 확률을 결정하고(S250), 어절 군의 형태소 분석열의 빈도 정보를 이용하여 전이 확률을 결정한다(S260).
또한, 확률 결정부(160)는 어절 군의 형태소 분석열의 빈도 정보의 비율 즉, 어절 군의 전체 빈도 정보 대비 해당 어절 군의 형태소 분석열의 빈도 정보와 기설정된 임계값을 비교한다(S270).
S270 단계에서, 어절 군의 형태소 분석열 빈도 정보의 비율이 기설정된 임계값 이하이면(S270-Y), 확률 결정부(160)는 기결정된 전이 확률에서 해당 어절 군의 형태소 분석열의 전이 확률을 제거한다(S280).
이후, 태깅부(170)는 앞에서 언급한 비터비 알고리즘을 이용하여 각 어절에 대하여 최선의 형태소 분석열을 태깅한다(S290). 만약, S270 단계에서, 어절 군의 형태소 분석열 빈도 정보의 비율이 기설정된 임계값을 초과하는 경우(S270-N), S280 단계는 생략하고, 태깅부(170)는 각 어절에 대하여 최선의 형태소 분석열을 태깅한다(S290).
상술한 절차에 의해, 본 발명에서는 생성 확률 및 전이 확률을 사용하는 은닉 마르코프 모델을 사용하여 품사 태깅 및 동형이의어 태깅이 수행된다. 또한, 본 발명에서는 전이 확률의 신뢰성을 향상시키기 위하여 TF/IDF 원리를 응용하여, 말뭉치의 오류로 판단되는 형태소 분석열이 태깅되지 않도록 하였다.
이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형 실시예들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안될 것이다.
도 1은 본 발명의 일 실시예에 따른 품사 및 동형이의어 태깅을 위한 단말 장치의 블럭도,
도 2는 본 발명의 일 실시예에 따른 유니그램 데이터베이스 내의 정보를 예시한 도면,
도 3은 본 발명의 일 실시예에 따른 바이그램 데이터베이스 내의 정보를 예시한 도면,
도 4는 본 발명의 일 실시예에 다른 품사 및 동형이의어 태깅의 모델링을 나타낸 도면, 그리고,
도 5는 본 발명의 일 실시예에 따른 품사 및 동형이의어 태깅 방법을 설명하기 위한 흐름도이다.
* 도면의 주요부분에 대한 부호의 설명 *
100 : 단말 장치 110 : 어절 구분부
120 : 형태소 분석열 추출부 130 : 형태소 분석부
140 : 유니그램 데이터베이스 150 : 바이그램 데이터베이스
160 : 확률 결정부 170 : 태깅부

Claims (20)

  1. 텍스트의 어절을 구분하는 단계;
    상기 구분된 어절별로 적어도 하나의 형태소 분석열을 추출하는 단계;
    상기 추출된 형태소 분석열별 생성 확률을 결정하는 단계;
    상기 추출된 형태소 분석열간의 전이 확률을 결정하는 단계; 및
    상기 결정된 생성 확률 및 전이 확률을 이용하여 상기 구분된 어절에 대해 각각의 형태소 분석열을 태깅하는 단계;를 포함하는 것을 특징으로 하는 품사 및 동형이의어 태깅 방법.
  2. 제 1 항에 있어서,
    상기 형태소 분석열을 추출하는 단계는, 기생성된 유니그램(Unigram) 데이터베이스로부터 상기 어절에 해당하는 상기 형태소 분석열을 추출하는 것을 특징으로 하는 품사 및 동형이의어 태깅 방법.
  3. 제 2 항에 있어서,
    상기 유니그램 데이터베이스는, 어절, 상기 어절의 형태소별 품사, 및 상기 형태소별 품사의 빈도 정보를 포함하는 것을 특징으로 하는 품사 및 동형이의어 태깅 방법.
  4. 제 2 항에 있어서,
    상기 유니그램 데이터베이스로부터 상기 어절에 해당하는 형태소 분석열이 존재하지 않으면, 상기 어절의 형태소를 분석하여 형태소 분석열을 생성하는 단계;를 더 포함하는 것을 특징으로 하는 품사 및 동형이의어 태깅 방법.
  5. 제 3 항에 있어서,
    상기 생성 확률을 결정하는 단계는, 상기 유니그램 데이터베이스로부터 추출되는 상기 형태소 분석열별 빈도 정보를 이용하여 상기 생성 확률을 결정하는 것을 특징으로 하는 품사 및 동형이의어 태깅 방법.
  6. 제 1 항에 있어서,
    상기 전이 확률을 결정하는 단계는, 기생성된 바이그램(Bigram) 사전 데이터베이스로부터 추출되는 상기 형태소별 품사의 빈도 정보를 이용하여 상기 전이 확률을 결정하는 것을 특징으로 하는 품사 및 동형이의어 태깅 방법.
  7. 제 6 항에 있어서,
    상기 바이그램 데이터베이스는, 인접하는 두 어절의 조합에 의한 어절 군(群), 상기 어절 군의 형태소별 품사, 및 상기 형태소별 품사의 빈도 정보를 포함하는 것을 특징으로 하는 품사 및 동형이의어 태깅 방법.
  8. 제 7 항에 있어서,
    상기 결정된 전이 확률 중, 상기 어절 군의 전체 빈도 정보 대비 상기 어절 군의 형태소 분석열의 빈도 정보가 기설정된 임계값 이하이면, 상기 어절 군의 형태소 분석열의 전이 확률을 제거하는 단계;를 더 포함하는 것을 특징으로 하는 품사 및 동형이의어 태깅 방법.
  9. 제 1 항에 있어서,
    상기 형태소 분석열을 태깅하는 단계는, 비터비(Viterbi) 알고리즘을 이용하여 상기 어절에 대해 각각의 형태소 분석열을 태깅하는 것을 특징으로 하는 품사 및 동형이의어 태깅 방법.
  10. 제 1 항에 있어서,
    상기 형태소 분석열을 태깅하는 단계는, 상기 구분된 어절 X={X1, X2, X3, …, XT}에 대하여 하기의 수학식을 이용하여 상기 어절에 대해 태깅되는 형태소 분석열 q={q1, q2, q3, …, qT}를 태깅하는 것을 특징으로 하는 품사 및 동형이의어 태깅 방법:
    Figure 112009001733782-PAT00022
    Figure 112009001733782-PAT00023
    Figure 112009001733782-PAT00024
    Figure 112009001733782-PAT00025
    Figure 112009001733782-PAT00026
    Figure 112009001733782-PAT00027
    Figure 112009001733782-PAT00028
    이때, δ1(i)는 첫번째 어절의 형태소 분석열의 최대 생성 확률, πi는 현재 어절에 대하여 기설정된 값, bi(X1)은 첫번째 어절의 형태소 분석열의 생성 확률, ψ1(i)는 첫번째 어절의 형태소 분석열의 생성 확률 및 전이 확률의 곱, δt+1(j)는 생성 확률 및 전이 확률이 최대인 값, δt(i)는 t 어절에서 i 형태소 분석열과 j 형태소 분석열간의 최대의 전이 확률, aij는 t 어절에서 i 형태소 분석열로부터 j 형태소 분석열로의 전이 확률, bj(Xt+1)은 t+1 어절에서 j 형태소 분석열의 생성 확률, ψt+1(j)는 δt+1(j)의 최대 값, P는 마지막 어절의 생성 확률과 전이 확률이 최대인 값, qT는 P가 최대인 값이다.
  11. 텍스트의 어절을 구분하는 어절 구분부;
    상기 구분된 어절별로 적어도 하나의 형태소 분석열을 추출하는 형태소 분석열 추출부;
    상기 추출된 형태소 분석열별 생성 확률을 결정하고, 상기 형태소 분석열간의 전이 확률을 결정하는 확률 결정부; 및
    상기 결정된 생성 확률 및 전이 확률을 이용하여 상기 구분된 어절에 대해 각각의 형태소 분석열을 태깅하는 태깅부;를 포함하는 것을 특징으로 하는 품사 및 동형이의어 태깅을 위한 단말 장치.
  12. 제 11 항에 있어서,
    상기 형태소 분석열 추출부는, 기생성된 유니그램 데이터베이스로부터 상기 어절에 해당하는 상기 형태소 분석열을 추출하는 것을 특징으로 하는 품사 및 동형이의어 태깅을 위한 단말 장치.
  13. 제 12 항에 있어서,
    상기 유니그램 데이터베이스는, 어절, 상기 어절의 형태소별 품사, 및 상기 형태소별 품사의 빈도 정보를 포함하는 것을 특징으로 하는 품사 및 동형이의어 태깅을 위한 단말 장치.
  14. 제 12 항에 있어서,
    상기 유니그램 데이터베이스로부터 상기 어절에 해당하는 형태소 분석열이 존재하지 않으면, 상기 어절의 형태소를 분석하여 형태소 분석열을 생성하는 형태소 분석부;를 더 포함하는 것을 특징으로 하는 품사 및 동형이의어 태깅을 위한 단말 장치.
  15. 제 13 항에 있어서,
    상기 확률 결정부는, 상기 유니그램(Unigram) 데이터베이스로부터 추출되는 상기 형태소 분석열별 빈도 정보를 이용하여 상기 생성 확률을 결정하는 것을 특징으로 하는 품사 및 동형이의어 태깅을 위한 단말 장치.
  16. 제 11 항에 있어서,
    상기 확률 결정부는, 기생성된 바이그램(Bigram) 사전 데이터베이스로부터 추출되는 상기 형태소별 품사의 빈도 정보를 이용하여 상기 전이 확률을 결정하는 것을 특징으로 하는 품사 및 동형이의어 태깅을 위한 단말 장치.
  17. 제 16 항에 있어서,
    상기 바이그램 데이터베이스는, 인접하는 두 어절의 조합에 의한 어절 군(群), 상기 어절 군의 형태소별 품사, 및 상기 형태소별 품사의 빈도 정보를 포함하는 것을 특징으로 하는 품사 및 동형이의어 태깅을 위한 단말 장치.
  18. 제 17 항에 있어서,
    상기 확률 결정부는, 상기 결정된 전이 확률 중, 상기 어절 군의 전체 빈도 정보 대비 상기 어절 군의 형태소 분석열의 빈도 정보가 기설정된 임계값 이하이면, 상기 어절 군의 형태소 분석열의 전이 확률을 제거하는 것을 특징으로 하는 품사 및 동형이의어 태깅을 위한 단말 장치.
  19. 제 11 항에 있어서,
    상기 태깅부는, 비터비(Viterbi) 알고리즘을 이용하여 상기 어절에 대해 각각의 형태소 분석열을 태깅하는 것을 특징으로 하는 품사 및 동형이의어 태깅을 위한 단말 장치.
  20. 제 11 항에 있어서,
    상기 태깅부는, 상기 구분된 어절 X={X1, X2, X3, …, XT}에 대하여 하기의 수학식을 이용하여 상기 어절에 대해 태깅되는 형태소 분석열 q={q1, q2, q3, …, qT}를 태깅하는 것을 특징으로 하는 품사 및 동형이의어 태깅을 위한 단말 장치:
    Figure 112009001733782-PAT00029
    Figure 112009001733782-PAT00030
    Figure 112009001733782-PAT00031
    Figure 112009001733782-PAT00032
    Figure 112009001733782-PAT00033
    Figure 112009001733782-PAT00034
    Figure 112009001733782-PAT00035
    이때, δ1(i)는 첫번째 어절의 형태소 분석열의 최대 생성 확률, πi는 현재 어절에 대하여 기설정된 값, bi(X1)은 첫번째 어절의 형태소 분석열의 생성 확률, ψ1(i)는 첫번째 어절의 형태소 분석열의 생성 확률 및 전이 확률의 곱, δt+1(j)는 생성 확률 및 전이 확률이 최대인 값, δt(i)는 t 어절에서 i 형태소 분석열과 j 형태소 분석열간의 최대의 전이 확률, aij는 t 어절에서 i 형태소 분석열로부터 j 형태소 분석열로의 전이 확률, bj(Xt+1)은 t+1 어절에서 j 형태소 분석열의 생성 확률, ψt+1(j)는 δt+1(j)의 최대 값, P는 마지막 어절의 생성 확률과 전이 확률이 최대인 값, qT는 P가 최대인 값이다.
KR1020090002310A 2009-01-12 2009-01-12 품사 및 동형이의어 태깅 방법 및 이를 이용한 단말 장치 KR101079869B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020090002310A KR101079869B1 (ko) 2009-01-12 2009-01-12 품사 및 동형이의어 태깅 방법 및 이를 이용한 단말 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090002310A KR101079869B1 (ko) 2009-01-12 2009-01-12 품사 및 동형이의어 태깅 방법 및 이를 이용한 단말 장치

Publications (2)

Publication Number Publication Date
KR20100082980A true KR20100082980A (ko) 2010-07-21
KR101079869B1 KR101079869B1 (ko) 2011-11-04

Family

ID=42642873

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090002310A KR101079869B1 (ko) 2009-01-12 2009-01-12 품사 및 동형이의어 태깅 방법 및 이를 이용한 단말 장치

Country Status (1)

Country Link
KR (1) KR101079869B1 (ko)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101371649B1 (ko) * 2011-07-29 2014-03-07 울산대학교 산학협력단 한글-한자 변환 방법 및 이를 적용한 단말 장치
CN105573980A (zh) * 2015-12-10 2016-05-11 百度在线网络技术(北京)有限公司 信息片段生成方法和装置
KR101626711B1 (ko) * 2015-02-16 2016-06-01 울산대학교 산학협력단 사용자 말뭉치의 문맥정보 학습을 통한 형태소 분석 장치 및 방법
CN108170674A (zh) * 2017-12-27 2018-06-15 东软集团股份有限公司 词性标注方法和装置、程序产品及存储介质
CN109255127A (zh) * 2018-09-27 2019-01-22 华东师范大学 一种需求功能点智能识别系统
KR20200082559A (ko) * 2018-12-31 2020-07-08 경희대학교 산학협력단 한글 형태소 분석 장치 및 방법
KR102595682B1 (ko) * 2023-04-04 2023-10-30 주식회사 에프앤가이드 기업에 대한 뉴스 기사를 이용하여 주식 종목에 대한 감성 분석을 제공하기 위한 방법 및 이를 이용한 장치와 시스템

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101371649B1 (ko) * 2011-07-29 2014-03-07 울산대학교 산학협력단 한글-한자 변환 방법 및 이를 적용한 단말 장치
KR101626711B1 (ko) * 2015-02-16 2016-06-01 울산대학교 산학협력단 사용자 말뭉치의 문맥정보 학습을 통한 형태소 분석 장치 및 방법
CN105573980A (zh) * 2015-12-10 2016-05-11 百度在线网络技术(北京)有限公司 信息片段生成方法和装置
CN108170674A (zh) * 2017-12-27 2018-06-15 东软集团股份有限公司 词性标注方法和装置、程序产品及存储介质
CN109255127A (zh) * 2018-09-27 2019-01-22 华东师范大学 一种需求功能点智能识别系统
KR20200082559A (ko) * 2018-12-31 2020-07-08 경희대학교 산학협력단 한글 형태소 분석 장치 및 방법
KR102595682B1 (ko) * 2023-04-04 2023-10-30 주식회사 에프앤가이드 기업에 대한 뉴스 기사를 이용하여 주식 종목에 대한 감성 분석을 제공하기 위한 방법 및 이를 이용한 장치와 시스템

Also Published As

Publication number Publication date
KR101079869B1 (ko) 2011-11-04

Similar Documents

Publication Publication Date Title
KR101079869B1 (ko) 품사 및 동형이의어 태깅 방법 및 이를 이용한 단말 장치
WO2008107305A2 (en) Search-based word segmentation method and device for language without word boundary tag
Chanlekha et al. Thai named entity extraction by incorporating maximum entropy model with simple heuristic information
Jansen Word and phrase translation with word2vec
Urmi et al. A corpus based unsupervised Bangla word stemming using N-gram language model
Taslimipoor et al. Shoma at parseme shared task on automatic identification of vmwes: Neural multiword expression tagging with high generalisation
KR20090061158A (ko) 번역 시스템에서 오류 보정 패턴을 이용한 번역 오류 수정방법 및 장치
Kübler et al. Part of speech tagging for Arabic
Amrullah et al. A comparison of different part-of-speech tagging technique for text in Bahasa Indonesia
Tennage et al. Transliteration and byte pair encoding to improve tamil to sinhala neural machine translation
Tapaswi et al. Treebank based deep grammar acquisition and Part-Of-Speech Tagging for Sanskrit sentences
Lin et al. A study on Chinese spelling check using confusion sets and? n-gram statistics
Conrado et al. Exploration of a rich feature set for automatic term extraction
Kapočiūtė-Dzikienė et al. Character-based machine learning vs. language modeling for diacritics restoration
Besacier et al. Word confidence estimation for speech translation
Alfaidi et al. Exploring the performance of farasa and CAMeL taggers for arabic dialect tweets.
Raza et al. Saraiki Language Word Prediction And Spell Correction Framework
Ellouze et al. Word Alignment Applied on English-Arabic Parallel Corpus.
Tukur et al. Parts-of-speech tagging of Hausa-based texts using hidden Markov model
CN107480142B (zh) 一种基于依存关系抽取评价对象的方法
Sharma et al. Improving existing punjabi grammar checker
Navoda et al. Automated spelling and grammar checker tool for sinhala
Tohma et al. Challenges Encountered in Turkish Natural Language Processing Studies
Abdukerim et al. Uyghur morphological analysis using joint conditional random fields: Based on small scaled corpus
Liu et al. Tree-guided transformation-based homograph disambiguation in Mandarin TTS system

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20140918

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20150916

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20160923

Year of fee payment: 6