KR20050065193A - 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 시스템및 그 방법 - Google Patents
어휘 및 의미 공기패턴에 기반한 한국어 구조분석 시스템및 그 방법 Download PDFInfo
- Publication number
- KR20050065193A KR20050065193A KR1020030096963A KR20030096963A KR20050065193A KR 20050065193 A KR20050065193 A KR 20050065193A KR 1020030096963 A KR1020030096963 A KR 1020030096963A KR 20030096963 A KR20030096963 A KR 20030096963A KR 20050065193 A KR20050065193 A KR 20050065193A
- Authority
- KR
- South Korea
- Prior art keywords
- noun
- air
- lexical
- pattern
- air pattern
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
Description
Claims (19)
- 대량의 말뭉치로부터 어휘 및 의미 공기패턴을 추출하는 공기패턴 추출 시스템;입력문에 대한 형태소 분석을 수행하는 형태소 분석기; 및상기 형태소 분석 결과를 입력으로 하고 상기 어휘 및 의미 공기패턴을 이용하여 입력문의 구조를 분석하는 구조 분석기;로 구성되는 것을 특징으로 하는 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 시스템.
- 제 1항에 있어서, 상기 공기패턴 추출 시스템은,대량의 원시말뭉치에 대해 형태소 분석을 수행하는 형태소 분석기와,상기 형태소 분석 결과로부터 어휘 공기패턴 후보들을 추출하는 어휘 공기패턴 생성기와,어휘 공기패턴 후보들로부터 오류가 있는 패턴을 제거하여 어휘 공기패턴을 구성하는 오류 공기패턴 제거기와,어휘 공기패턴의 자료부족문제를 완화시키기 위해 명사의 의미를 이용하여 의미 공기패턴을 생성하는 의미 공기패턴 생성기를 포함하는 것을 특징으로 하는 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 시스템.
- 제 2항에 있어서, 상기 어휘 공기패턴 생성기는,대량의 원시말뭉치에 대한 형태소 분석 결과로부터 의존관계가 가능한 모든 명사-조사-용언, 명사-명사, 용언-명사, 관형형 용언-명사 후보들을 추출하는 것을 특징으로 하는 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 시스템.
- 제 2항 또는 제 3항에 있어서, 상기 어휘 공기패턴 생성기는,문장의 가장 마지막 용언인 p(n)과 바로 이전 용언인 p(n-1) 사이의 어절 'N(1) ... N(k)'에 대해 <N(1),조사,p(n)>,...,<N(k),조사, p(n)>를 추출하는 단계와,용언 p가 타동사일 때 관형절이 아닌 경우, 부사를 제외하고 바로 인접한 어절이 '명사-격조사'이면 <명사,격조사,p>를 추출하는 단계와,용언 p가 자동사이고 관형절이 아닌 경우, 부사를 제외하고 바로 인접한 어절이 명사-격조사이면, <명사,격조사,p>를 추출하는 단계와,용언 p가 형용사이고, 바로 인접한 어절이 '명사-{주격조사,부사격조사}'이면 <명사,격조사,p>를 추출하는 단계와,용언 p가 관형형이고, p 와 바로 인접하여 명사 N이 있는 경우 <p,N>을 추출하는 단계와,하나의 어절이 'N(1)... N(k-1)N(k)'로 구성되어 있을 때, 해당 어절을 구성하는 명사들 중 가장 마지막 두 개의 명사에 대해 <N(k-1), N(k)>를 추출하는 단계와,연속된 두 어절이 'N(1) N(2)_{조사}'형태로 공기할 때, <N(1), N(2)>를 추출하는 단계와,연속된 두 어절이 'N(1)_의 N(2)_{조사}'형태로 공기할 때, <N(1),N(2)>를 추출하는 단계를 수행하여,어휘 공기패턴 후보들을 추출하는 것을 특징으로 하는 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 시스템.
- 제 2항에 있어서, 상기 오류 공기패턴 제거기는, 명사-조사-용언의 어휘 공기패턴 후보에 대한 오류 패턴을 제거함에 있어, 명사-조사-용언 오류 유형 지식 DB를 참조하여,하나의 문장에 대해 추출된 공기패턴 <N(1),조사,p(n)>,...,<N(k),조사, p(n)>에 대해 <N(i),가,p(n)>와 <N(j),가,p(n)>(i<j)가 존재하면 <N(i),가, p(n)>을 제거하는 단계와,용언 p가 자동사이고 관형절이 아닌 경우, 부사를 제외하고 바로 인접한 어절이 명사-격조사인 경우, p가 대등적 연결어미를 취하고 바로 다음 용언이 관형형을 취하는 동사이면 <명사,격조사,p>를 제거하는 단계와,용언 p가 형용사이고 부사형 전성어미와 관형형 전성어미를 취하는 경우 <명사,격조사,p>를 제거하는 단계와,용언 p가 형용사이고 대등적 연결어미를 취할 때, 바로 다음 용언이 관형사형 전성어미를 취하는 형용사이면 <명사,격조사,p>를 제거하는 단계를 수행하는 것을 특징으로 하는 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 시스템.
- 제 2항에 있어서, 상기 오류 공기패턴 제거기는, 명사-명사의 어휘 공기패턴 후보에 대한 오류 패턴을 제거함에 있어, 명사-명사 오류유형 지식 DB를 참조하여,연속된 두 어절이 'N(1) N(2)_{조사}'형태로 공기할 때, N(1) 바로 앞 어절이 관형어 상당어구일 경우 해당 공기패턴을 제거하는 단계와,연속된 두 어절이 'N(1)_의 N(2)_{조사}' 형태로 공기할 때, N(2)가 관형격 조사 '의'를 취하는 경우 및 N(1) 바로 앞 어절이 관형어 상당어구일 경우, 해당 공기패턴을 제거하는 단계를 수행하는 것을 특징으로 하는 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 시스템.
- 제 2항에 있어서, 상기 오류 공기패턴 제거기는, 용언-명사의 어휘 공기패턴 후보에 대한 오류 패턴을 제거함에 있어, 용언-명사 오류유형 지식 DB를 참조하여,연속된 두 어절 "용언-관형형 명사"에 대해, 명사가 조사를 취하지 않는 경우 해당 공기패턴을 제거하는 단계와,명사가 취하는 조사가 관형격 조사인 '의'인 경우 해당 공기패턴을 제거하는 단계와,용언 바로 앞의 명사가 조사를 취하지 않고 명사 단독으로 쓰였을 때 해당 공기패턴을 제거하는 단계를 수행하는 것을 특징으로 하는 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 시스템.
- 제 2항에 있어서, 상기 의미 공기패턴 생성기는, 명사 의미코드 사전을 참조하여, <명사,조사,용언>에 대해 의미공기패턴을 생성하는 단계와, <명사-명사>에 대해 의미공기패턴을 생성하는 단계와, <용언-명사>에 대해 의미공기패턴을 생성하는 단계를 수행하는 것을 특징으로 하는 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 시스템.
- 제 1항에 있어서, 상기 구조 분석기는,일문일격의 원칙이 적용되는 경우, 명사-조사-용언 공기패턴과 명사의미-조사-용언 공기패턴을 이용하여 구문관계를 분석하는 것을 특징으로 하는 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 시스템.
- 제 1항에 있어서, 상기 구조 분석기는,일문일격의 원칙이 적용되지 않는 경우, 명사/명사의미-명사/명사의미 공기정보 및 용언-명사/명사의미 공기정보를 이용하여 구문관계를 분석하는 것을 특징으로 하는 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 시스템.
- 제 10항에 있어서, 상기 구조 분석기는,일문일격의 원칙이 적용되지 않는 경우, 상기 공기정보를 이용한 구조분석에 의해서도 구문관계 결정이 이뤄지지 않을 경우, 격조사 치환을 통하여 다시 구문관계를 분석하는 것을 특징으로 하는 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 시스템.
- (a) 대량의 말뭉치로부터 어휘 및 의미 공기패턴을 추출하는 단계;(b) 입력문에 대한 형태소 분석을 수행하는 단계; 및(c) 상기 형태소 분석 결과를 입력으로 하고 상기 어휘 및 의미 공기패턴을 이용하여 입력문의 구조를 분석하는 단계;로 이루어지는 것을 특징으로 하는 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 방법.
- 제 12항에 있어서, 상기 (a)단계는,대량의 원시말뭉치에 대해 형태소 분석을 수행하는 형태소 분석단계와,상기 형태소 분석 결과로부터 어휘 공기패턴 후보들을 추출하는 어휘 공기패턴 생성단계와,어휘 공기패턴 후보들로부터 오류가 있는 패턴을 제거하여 어휘 공기패턴을 구성하는 오류 공기패턴 제거단계와,어휘 공기패턴의 자료부족문제를 완화시키기 위해 어휘 공기패턴에 명사의 의미를 적용하여 의미 공기패턴을 생성하는 의미 공기패턴 생성단계를 포함하는 것을 특징으로 하는 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 방법.
- 제 13항에 있어서, 상기 어휘 공기패턴 생성단계는,문장의 가장 마지막 용언인 p(n)과 바로 이전 용언인 p(n-1) 사이의 어절 'N(1) ... N(k)'에 대해 <N(1),조사,p(n)>,...,<N(k),조사, p(n)>를 추출하는 단계와,용언 p가 타동사일 때 관형절이 아닌 경우, 부사를 제외하고 바로 인접한 어절이 '명사-격조사'이면 <명사,격조사,p>를 추출하는 단계와,용언 p가 자동사이고 관형절이 아닌 경우, 부사를 제외하고 바로 인접한 어절이 명사-격조사이면, <명사,격조사,p>를 추출하는 단계와,용언 p가 형용사이고, 바로 인접한 어절이 '명사-{주격조사,부사격조사}'이면 <명사,격조사,p>를 추출하는 단계와,용언 p가 관형형이고, p 와 바로 인접하여 명사 N이 있는 경우 <p,N>을 추출하는 단계와,하나의 어절이 'N(1)... N(k-1)N(k)'로 구성되어 있을 때, 해당 어절을 구성하는 명사들 중 가장 마지막 두 개의 명사에 대해 <N(k-1), N(k)>를 추출하는 단계와,연속된 두 어절이 'N(1) N(2)_{조사}'형태로 공기할 때, <N(1), N(2)>를 추출하는 단계와,연속된 두 어절이 'N(1)_의 N(2)_{조사}'형태로 공기할 때, <N(1),N(2)>를 추출하는 단계를 포함하는 것을 특징으로 하는 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 방법.
- 제 13항에 있어서, 상기 오류 공기패턴 제거단계는, 명사-조사-용언의 어휘 공기패턴 후보에 대한 오류 패턴을 제거함에 있어,하나의 문장에 대해 추출된 공기패턴 <N(1),조사,p(n)>,...,<N(k),조사, p(n)>에 대해 <N(i),가,p(n)>와 <N(j),가,p(n)>(i<j)가 존재하면 <N(i),가, p(n)>을 제거하는 단계와,용언 p가 자동사이고 관형절이 아닌 경우, 부사를 제외하고 바로 인접한 어절이 명사-격조사인 경우, p가 대등적 연결어미를 취하고 바로 다음 용언이 관형형을 취하는 동사이면 <명사,격조사,p>를 제거하는 단계와,용언 p가 형용사이고 부사형 전성어미와 관형형 전성어미를 취하는 경우 <명사,격조사,p>를 제거하는 단계와,용언 p가 형용사이고 대등적 연결어미를 취할 때, 바로 다음 용언이 관형사형 전성어미를 취하는 형용사이면 <명사,격조사,p>를 제거하는 단계를 포함하는 것을 특징으로 하는 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 방법.
- 제 13항에 있어서, 상기 오류 공기패턴 제거단계는, 명사-명사의 어휘 공기패턴 후보에 대한 오류 패턴을 제거함에 있어,연속된 두 어절이 'N(1) N(2)_{조사}'형태로 공기할 때, N(1) 바로 앞 어절이 관형어 상당어구일 경우 해당 공기패턴을 제거하는 단계와,연속된 두 어절이 'N(1)_의 N(2)_{조사}' 형태로 공기할 때, N(2)가 관형격 조사 '의'를 취하는 경우 및 N(1) 바로 앞 어절이 관형어 상당어구일 경우, 해당 공기패턴을 제거하는 단계를 포함하는 것을 특징으로 하는 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 방법.
- 제 13항에 있어서, 상기 오류 공기패턴 제거단계는, 용언-명사의 어휘 공기패턴 후보에 대한 오류 패턴을 제거함에 있어,연속된 두 어절 "용언-관형형 명사"에 대해, 명사가 조사를 취하지 않는 경우 해당 공기패턴을 제거하는 단계와,명사가 취하는 조사가 관형격 조사인 '의'인 경우 해당 공기패턴을 제거하는 단계와,용언 바로 앞의 명사가 조사를 취하지 않고 명사 단독으로 쓰였을 때 해당 공기패턴을 제거하는 단계를 포함하는 것을 특징으로 하는 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 방법.
- 제 13항에 있어서, 상기 의미 공기패턴 생성단계는, 명사 의미코드 사전을 참조하여, <명사,조사,용언>, <명사-명사>, <용언-명사>에 대해 의미공기패턴을 생성하는 것을 특징으로 하는 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 방법.
- 제 12항에 있어서, 상기 (c)단계는,분석하고자 하는 대상이 일문일격의 원칙이 적용되는 구문관계인지를 판단하는 제 1단계;일문일격의 원칙이 적용되는 경우, 명사-조사-용언 공기패턴과 명사의미-조사-용언 공기패턴을 이용하여 구문관계를 분석하는 제 2단계;일문일격의 원칙이 적용되지 않는 경우, 명사/명사의미-명사/명사의미 공기정보 및 용언-명사/명사의미 공기정보를 이용하여 구문관계를 분석하는 제 3단계; 및상기 제 3단계에 의해서도 구문관계 결정이 이뤄지지 않을 경우, 격조사 치환을 통하여 다시 구문관계를 분석하는 제 4단계를 포함하는 것을 특징으로 하는 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020030096963A KR100560168B1 (ko) | 2003-12-24 | 2003-12-24 | 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 시스템및 그 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020030096963A KR100560168B1 (ko) | 2003-12-24 | 2003-12-24 | 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 시스템및 그 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20050065193A true KR20050065193A (ko) | 2005-06-29 |
KR100560168B1 KR100560168B1 (ko) | 2006-03-13 |
Family
ID=37256722
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020030096963A KR100560168B1 (ko) | 2003-12-24 | 2003-12-24 | 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 시스템및 그 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100560168B1 (ko) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100617320B1 (ko) * | 2004-12-08 | 2006-08-30 | 한국전자통신연구원 | 한국어 특성을 이용한 용언간 구조 분석 방법 및 그 장치 |
KR100784441B1 (ko) * | 2005-12-06 | 2007-12-11 | 한국전자통신연구원 | 의미공기정보 지식베이스 구축 방법 및 장치 |
KR101879311B1 (ko) * | 2017-01-05 | 2018-07-17 | 단국대학교 산학협력단 | 접속조사를 이용한 유정명사 추출 방법 및 장치 |
KR101879309B1 (ko) * | 2017-01-05 | 2018-07-17 | 단국대학교 산학협력단 | 관형격조사를 이용한 유정명사 추출 방법 및 장치 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR19990042430A (ko) * | 1997-11-26 | 1999-06-15 | 정선종 | 문장의 구조정보를 이용한 명사구 추출장치 및 그 방법 |
KR20000039406A (ko) * | 1998-12-12 | 2000-07-05 | 이계철 | 부분 구문 분석을 통한 보어-술어 관계의 복합명사 색인 방법 |
JP2001067354A (ja) * | 1999-08-27 | 2001-03-16 | Matsushita Electric Ind Co Ltd | 新語性判定装置及び新語性判定方法 |
KR100574887B1 (ko) * | 1999-12-31 | 2006-04-27 | 주식회사 케이티 | 기계번역 시스템에서의 어휘 중의성 해소 장치 및 그 방법 |
KR100397639B1 (ko) * | 2000-08-29 | 2003-09-13 | 우요섭 | 어휘의 중의성 해소를 위한 의미 태깅 장치 및 그 방법 |
-
2003
- 2003-12-24 KR KR1020030096963A patent/KR100560168B1/ko active IP Right Grant
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100617320B1 (ko) * | 2004-12-08 | 2006-08-30 | 한국전자통신연구원 | 한국어 특성을 이용한 용언간 구조 분석 방법 및 그 장치 |
KR100784441B1 (ko) * | 2005-12-06 | 2007-12-11 | 한국전자통신연구원 | 의미공기정보 지식베이스 구축 방법 및 장치 |
KR101879311B1 (ko) * | 2017-01-05 | 2018-07-17 | 단국대학교 산학협력단 | 접속조사를 이용한 유정명사 추출 방법 및 장치 |
KR101879309B1 (ko) * | 2017-01-05 | 2018-07-17 | 단국대학교 산학협력단 | 관형격조사를 이용한 유정명사 추출 방법 및 장치 |
Also Published As
Publication number | Publication date |
---|---|
KR100560168B1 (ko) | 2006-03-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9575955B2 (en) | Method of detecting grammatical error, error detecting apparatus for the method, and computer-readable recording medium storing the method | |
US7379870B1 (en) | Contextual filtering | |
KR101498331B1 (ko) | 텍스트 세그먼트를 가진 문서로부터 용어를 추출하기 위한 시스템 | |
KR102013230B1 (ko) | 구문 전처리 기반의 구문 분석 장치 및 그 방법 | |
US9600469B2 (en) | Method for detecting grammatical errors, error detection device for same and computer-readable recording medium having method recorded thereon | |
Kirchhoff et al. | Novel speech recognition models for Arabic | |
Neubig et al. | A monotonic statistical machine translation approach to speaking style transformation | |
KR100496873B1 (ko) | 대표 형태소 어휘 문맥에 기반한 통계적 태깅 오류 정정장치 및 그 방법 | |
Chen et al. | Automated extraction of tree-adjoining grammars from treebanks | |
US20210133394A1 (en) | Experiential parser | |
Issam et al. | Goud. ma: a news article dataset for summarization in Moroccan Darija | |
Liyanage et al. | A computational grammar of Sinhala | |
KR100725723B1 (ko) | 연결어미 제약을 이용한 한국어 주어의 생략 성분 복원방법 및 장치 | |
KR100560168B1 (ko) | 어휘 및 의미 공기패턴에 기반한 한국어 구조분석 시스템및 그 방법 | |
Kuo et al. | Morphological and syntactic features for Arabic speech recognition | |
Palmer et al. | Robust information extraction from automatically generated speech transcriptions | |
KR100420474B1 (ko) | 부분문틀을 이용한 장문 번역 장치 및 그 방법 | |
KR20040018008A (ko) | 품사 태깅 장치 및 태깅 방법 | |
Gavhal et al. | Sentence Compression Using Natural Language Processing | |
Antoine et al. | Automatic Rich Annotation of Large Corpus of Conversational transcribed speech: the Chunking Task of the EPAC Project. | |
Ouersighni | Robust rule-based approach in Arabic processing | |
JP4059501B2 (ja) | 自然語辞書更新装置 | |
Rozovskaya et al. | Challenges in processing colloquial Arabic | |
Poel et al. | A support vector machine approach to dutch part-of-speech tagging | |
Hockey et al. | Comparison of grammar-based and statistical language models trained on the same data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20130304 Year of fee payment: 8 |
|
FPAY | Annual fee payment |
Payment date: 20140303 Year of fee payment: 9 |
|
FPAY | Annual fee payment |
Payment date: 20150226 Year of fee payment: 10 |
|
FPAY | Annual fee payment |
Payment date: 20160226 Year of fee payment: 11 |
|
FPAY | Annual fee payment |
Payment date: 20170224 Year of fee payment: 12 |
|
FPAY | Annual fee payment |
Payment date: 20180226 Year of fee payment: 13 |
|
FPAY | Annual fee payment |
Payment date: 20200224 Year of fee payment: 15 |