KR101092354B1 - 복합 명사 인식 장치 및 그 방법 - Google Patents

복합 명사 인식 장치 및 그 방법 Download PDF

Info

Publication number
KR101092354B1
KR101092354B1 KR1020080131757A KR20080131757A KR101092354B1 KR 101092354 B1 KR101092354 B1 KR 101092354B1 KR 1020080131757 A KR1020080131757 A KR 1020080131757A KR 20080131757 A KR20080131757 A KR 20080131757A KR 101092354 B1 KR101092354 B1 KR 101092354B1
Authority
KR
South Korea
Prior art keywords
noun
unit
semantic
nouns
compound
Prior art date
Application number
KR1020080131757A
Other languages
English (en)
Other versions
KR20100073163A (ko
Inventor
양성일
김창현
윤창호
권오욱
서영애
이기영
김운
오영순
노윤형
박은진
최승권
김영길
박상규
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020080131757A priority Critical patent/KR101092354B1/ko
Publication of KR20100073163A publication Critical patent/KR20100073163A/ko
Application granted granted Critical
Publication of KR101092354B1 publication Critical patent/KR101092354B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 한국어 복합 명사를 단위 명사로 구분하여 인식하는 기법에 관한 것으로, 이를 위하여 본 발명은, 지역성을 고려하여 인접한 명사들과의 공기 정보를 통해 복합 명사를 인식하거나 형태소 분석을 통해 복합 명사를 인식하는 종래 방법과는 달리, 복합 명사 인식 장치에서 입력되는 복합 명사에서 단위 명사 후보군을 생성하고, 이에 대한 접사 처리, 서술성 명사 구분, 명사와 동사간의 의미격 관계 분석 등을 통해 가중치를 부여함으로써, 복합 명사를 구성하는 단위 명사를 효과적으로 결정할 수 있는 것이다.
복합 명사, 단위 명사

Description

복합 명사 인식 장치 및 그 방법{COMPOUND NOUN RECOGNITION APPARATUS AND ITS METHOD}
본 발명은 복합 명사를 인식 기법에 관한 것으로, 더욱 상세하게는 기계 번역 장치, 정보 검색 장치 등에 입력된 복합 명사를 단위 명사로 구분하여 인식하는데 적합한 복합 명사 인식 장치 및 그 방법에 관한 것이다.
본 발명은 지식경제부 및 정보통신연구진흥원의 IT 성장동력 핵심기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2006-S-037-03, 과제명: 응용 특화 한중영 자동번역 기술개발].
잘 알려진 바와 같이, 기계 번역 장치에서의 복합 명사 대역어 선정의 경우 해당 복합 명사를 대역어 사전에 등록하여 입력 문장에서 해당 복합 명사에 대해 미리 지정한 대역어를 선정하는 방식을 사용한다.
특히, 일반 명사나 복합 명사의 대역어를 선정하기 위해서 해당 단어를 키워드로 하는 대역어 사전의 엔트리가 있어야 하며 없는 경우에는 사람의 이름과 같은 고유명사로 간주하여 대역어를 선정하고 있다.
하지만, 사실상 복합 명사의 조합수는 무한하기 때문에, 복합 명사의 대역어는 사전에만 의존할 수 없으며, 복합 명사를 구성하는 단위 명사의 대역어를 조합하여 대역어를 선정하게 되며, 이 경우 단위 명사 선정의 모호성이 발생할 때, 지역성(locality)을 고려하여 인접한 명사들과의 공기 정보를 통해 후보자를 선택함으로써, 후보자 선택의 모호성을 해결하고 있다.
한편, 정보 검색 장치에서는 입력된 문장에 대해 일반적으로 형태소 분석을 통해 추출된 명사를 색인어로 선정하게 되는데, 복합 명사를 구성하는 단위 명사는 띄어쓰기가 자유로워 ‘명사1+” “+명사2’, ‘명사1+명사2‘ 등과 같이 변형된 형태를 갖기도 하는데, 같은 의미를 갖는 복합 명사이지만 띄어쓰기가 되어 있지 않은 경우, 형태상의 불일치를 보이는 어구에 대해 그 불일치를 해소하여 모두 같은 표면적 형태의 복합 명사 색인어로 선정하는 것이 중요하다.
하지만, 종래에 기계 번역 장치에서 지역성을 고려하여 인접한 명사들과의 공기 정보를 통해 복합 명사 분해 문제를 해결하기 위해서는 그 공기 정보를 획득하기 위해 대량의 정답 정보를 갖는 데이터베이스 구축이 필수적으로 요구되는 문제점이 있고, 정보 검색 장치에서 형태상의 불일치를 보이는 어구에 대해 그 불일치를 해소하고는 있지만, 서술성 명사(예를 들면, ‘명사+하다’, ‘명사+되다’ 등)가 포함되어 있는 경우 용언구 의미를 내포하는 해당 복합 명사를 분석하여 의 미적인 기준으로 분해하기에는 어려운 문제점이 있기 때문에 이로 인해 원래의 복합 명사 의미와는 벗어난 다른 분해 결과가 출력되는 문제점이 있다.
이에 따라, 본 발명은 복합 명사를 구성하는 단위 명사를 의미적으로 분석하고, 이에 대응하는 의미적 연관 관계에 따라 단위 명사의 경계 범위(segmentation)를 선정하여 단위 명사를 결정함으로써, 복합 명사를 정확하게 분석하여 단위 명사로 분해할 수 있는 복합 명사 분해 장치 및 그 방법을 제공하고자 한다.
또한, 본 발명은 단위 명사의 의미적 연관 관계에 따른 가중치를 부여하여 복합 명사를 구성하는 단위 명사를 결정함으로써, 복합 명사를 더욱 정확하게 분석하여 단위 명사로 분해할 수 있는 복합 명사 분해 장치 및 그 방법을 제공하고자 한다.
일 관점에서 본 발명은, 입력되는 복합 명사에 대해 형태소 사전을 참조하여 단위 명사 후보군을 추출하는 단위 명사 추출부와, 상기 단위 명사 후보군의 단위 명사에 대해 접사 처리를 수행하는 접사 적용부와, 상기 단위 명사 중에서 서술성 명사가 있는 경우 의미격 정보를 결정하는 의미격 분석부와, 상기 접사 처리 및 의미격 정보와 의미 제약 조건에 따라 가중치를 부여하여 단위 명사 범위를 결정하는 단위 명사 결정부와, 상기 형태소 사전 및 의미 제약 조건을 저장하는 형태소 사전 데이터베이스를 포함하는 복합 명사 분해 장치를 제공한다.
다른 관점에서 본 발명은, 입력되는 복합 명사에 대해 형태소 사전을 참조하 여 단위 명사 후보군을 추출하는 단계와, 상기 단위 명사 후보군의 단위 명사에 대해 접사 처리를 수행하는 단계와, 상기 단위 명사 중에서 서술성 명사가 있는 경우 의미격 정보를 결정하는 단계와, 상기 접사 처리 및 의미격 정보에 따라 가중치를 부여하여 단위 명사 범위를 결정하는 단계를 포함하는 복합 명사 분해 방법을 제공한다.
본 발명은, 지역성을 고려하여 인접한 명사들과의 공기 정보를 통해 복합 명사를 인식하거나 형태소 분석을 통해 복합 명사를 인식하는 종래 방법과는 달리, 복합 명사 인식 장치에서 입력되는 복합 명사에서 단위 명사 후보군을 생성하고, 이에 대한 접사 처리, 서술성 명사 구분, 명사와 동사간의 의미격 관계 분석 등을 통해 가중치를 부여하여 복합 명사를 구성하는 단위 명사를 결정함으로써, 기계 번역, 정보 검색, 지식 추출 등의 시스템에 적용되어 복합 명사에 대한 인식성을 향상시킬 수 있다.
본 발명은, 복합 명사 인식 장치에서 입력되는 복합 명사에서 단위 명사 후보군을 생성하고, 이에 대한 서술성 명사 구분, 명사와 동사간의 의미격 관계 분석 등을 통해 가중치를 부여하여 단위 명사를 결정한다는 것이며, 이러한 기술적 수단을 통해 종래 기술에서의 문제점을 해결할 수 있다.
이하 첨부된 도면을 참조하여 본 발명의 실시 예에 대하여 상세하게 설명한다.
먼저, 본 발명에서 사용되는 용어를 설명하면, 한국어 언어 처리 응용시스템이라 함은 한국어 문장을 대상으로 문장 내부의 품사, 구문 단위, 구문 구조 등 언어적 내부 표현 정보를 분석하여 이를 정보 검색이나 기계 번역 등에 사용하기 위한, 텍스트 형태의 한국어 문장을 입력으로 하는 데이터 처리 시스템을 말한다.
이러한 한국어 언어 처리 응용시스템에서 한국어 형태소 분석이라 함은 한국어 문장을 구성하는 각 어절을 구성하는 어휘 사전 표제어 단위의 어휘소(lexeme)와 품사 정보를 나타내는 형태소(morpheme)를 결정하는 분석을 의미한다.
여기에서, 복합 명사라 함은 ‘한국+기업+투자+설명회’등과 같은 형태로 단위가 되는 단위 명사들의 모음으로 전체가 하나의 명사의 역할을 해내는 독립 품사를 의미하며, 서술성 명사라 함은 ‘하다‘, ‘되다‘, ‘시키다‘ 등과 함께 붙어 용언의 역할을 수행할 수 있는 명사를 의미한다.
또한, 복합 명사 분해 모호성은 ‘대학생선교회‘ 등과 같은 복합 명사와 같이 이를 구성하는 단위명사의 구분이 여러 가지로 가능한 복합명사에서 정확한 단위명사를 선택하는 문제를 의미하며, 동사구 패턴은 하나의 동사와 함께 공기할 수 있는 명사의 의미를 격 성분에 따라 구분하여 표기하고, 모든 의미격 정보를 채우는 명사와 동사로 이루어진 단문 단위의 의미 제약 조건을 기술한 패턴을 의미한 다.
한편, 의미 제약 조건은 ‘사과를 먹는다’등과 같은 문장에서 ‘사과’와 ‘먹는다’의 상호 관계를 의미적으로 음식과 먹는 행위의 관계로 보고, 서로간의 관계가 성립되기 위해서는 이러한 의미를 충족시켜야 함을 기술한 제약의 형태를 의미하는데, 이러한 경우 사과의 의미는 과일과 말/행동 중에서 과일을 선택하게 되는 경우이다.
도 1은 본 발명의 실시 예에 따라 복합 명사를 구분하여 그 의미적 관계에 따라 구성된 단위 명사를 결정하는데 적합한 복합 명사 분해 장치의 블록 구성도로서, 단위 명사 추출부(102), 접사 적용부(104), 의미격 분석부(106), 단위 명사 결정부(108) 및 형태소 사전 데이터베이스(110)를 포함한다.
도 1을 참조하면, 단위 명사 추출부(102)는 자연어 형태의 한국어 복합 명사가 텍스트 스트링 형태로 예를 들면, 2 바이트 특수 문자 변환 등을 통해 정련되어 텍스트 데이터로 입력되면, 이러한 텍스트 데이터의 복합 명사에 대해 형태소 사전 데이터베이스(110)의 형태소 사전을 참조하여 복합 명사를 구성할 수 있는 단위 명사 후보군을 생성한다.
여기에서, 단위 명사 추출부(102)는 형태소 사전 데이터베이스(110)에 등록된명사 표제어를 참조하여 생성된 단위 명사 후보군을 복합 명사에 대응하는 위치 정보와 함께 내부 데이터 구조로 저장할 수 있으며, 이를 이용하여 복합 명사를 구성하는 단위 명사 후보군을 선택할 수 있고, 단위 명사 후보군을 생성하기 위해 참조되는 형태소 사전 데이터베이스(110)의 명사 범주 정보와 의미 정보에 따라 서술 성 명사와 비서술성 명사의 구분과, 해당 명사의 지정 가능한 의미 정보를 부여할 수 있다.
그리고, 접사 적용부(104)는 단위 명사 추출부(102)를 통해 생성된 단위 명사 후보군에 대해 예를 들면, ‘컴퓨터용’에서 ‘용’, ‘한국관’에서 ‘관’ 등과 같은 접사를 처리하여 순수한 단위 명사들을 획득하며, 이와 함께 획득된 단위 명사들과 접사간의 관계 정보를 접사 분류에 의해 획득한다. 여기에서, 접사 적용부(104)는 접사 분류에 의해 획득된 관계 정보에 따라 단위 명사 추출부(102)를 통해 결정된 의미 정보를 보정할 수 있다.
다음에, 의미격 분석부(106)는 접사 적용부(104)로부터의 단위 명사들 중에서 서술성 명사인 경우 예를 들면, ‘하다’, ‘되다’, ‘시키다’ 등을 적용하여 동사로 취급하고, 이러한 동사로 등록된 동사구 패턴을 형태소 사전 데이터베이스(110)의 의미 제약 조건에 따라 단위 명사와 서술성 명사에서 변환된 동사간의 의미격 관계가 성립되는지를 분석한다.
여기에서, 의미격 분석부(106)는 명사와 동사간의 의미격 관계를 결정하기 위한 단위 명사의 의미를 형태소 사전 데이터베이스(110)를 참조하여 획득하며, 동사구 패턴과의 의미격 정보를 비교하면서 결정되지 않는 의미격의 경우 삭제될 수 있다.
한편, 단위 명사 결정부(108)에서는 단위 명사에 대응하는 접사 분류에 따른 가중치를 부여하고, 명사와 동사간의 의미격 관계에 따른 가중치를 부여하며, 이러한 가중치들을 합산하여 가장 큰 값의 단위 명사 후보를 선택한다.
여기에서, 단위 명사 결정부(108)는 명사와 동사간 의미격 관계에 따른 가중치의 경우 형태소 사전 데이터베이스(110)의 의미 제약 조건에 따라 명사와 동사간 이항 관계를 단위로 하여 어느 하나의 의미 제약 조건 전체를 만족할 때, 상대적으로 더 큰 가중치를 부여할 수 있다.
예를 들면, ‘사람!가 종교!를 선교!하다’의 경우 그 의미 제약 조건에 따른 가중치는 ‘사람!가 선교!하다’와 ‘종교!를 선교!하다’의 각 이항 관계를 제약 조건으로 검사하고, 각각에 대해 만족하는 정도를 합산하여 의미 제약 조건 전체의 가중치를 산출할 수 있다.
한편, 형태소 사전 데이터베이스(110)는 각각의 단위 명사가 그 의미 정보와 함께 저장 관리되는 것으로, 단위 명사 후보군의 생성을 위해 등록된 단위 명사와 그에 대응하여 저장된 의미 정보가 추출되어 단위 명사 추출부(102)로 제공되며, 이와 함께 형태소 사전의 명사 범주 정보가 단위 명사 추출부(102)로 제공되고, 명사와 동사간 의미격 관계를 결정하기 위해 등록된 동사구 패턴에 대한 의미 제약 조건, 등록된 단위 명사와 그에 대응하여 저장된 의미 정보 등이 추출되어 의미격 적용부(106)로 제공된다.
예를 들어, 아래의 표 1은 형태소 사전 데이터베이스(110)에 등록된 ‘밤’이라는 단위 명사를 예시한 것으로, 형태소 사전에 명기된 의미 표지는 명사와 동사간 의미격 관계를 파악하기 위해서, 의미 제약 조건과 비교할 수 있도록 의미격 적용부(106)에 제공될 수 있다.
등록 내용 120022 538 밤 1
{
[(EROOT night)(SEM 시간)]
[(EROOT chestnut)(SEM 식품)]
}
다음에, 상술한 바와 같은 구성을 갖는 복합 명사 분해 장치에서 입력되는 복합 명사에서 단위 명사 후보군을 생성하고, 이에 대한 서술성 명사 구분, 명사와 동사간의 의미격 관계 분석 등을 통해 가중치를 부여하여 단위 명사를 결정함으로써, 입력된 복합 명사를 인식하는 과정에 대해 설명한다.
도 2는 본 발명의 일 실시 예에 따라 입력된 복합 명사를 구성하는 단위 명사를 결정하여 복합 명사를 인식하는 과정을 도시한 플로우차트이다.
도 2를 참조하면, 복합 명사 분해 장치에 자연어 형태의 한국어 복합 명사가 텍스트 스트링 형태로 입력되면(단계202), 단위 명사 추출부(102)에서는 입력된 텍스트 데이터의 복합 명사를 형태소 사전 데이터베이스(110)를 참조하여 복합 명사를 분석한다(단계204).
그리고, 단위 명사 추출부(102)에서는 복합 명사 분석에 따라 복합 명사를 구성할 수 있는 단위 명사 후보군을 생성한다(단계206). 여기에서, 단위 명사 추출부(102)에서는 생성된 단위 명사 후보군을 복합 명사에 대응하는 위치 정보와 함께 내부 구조 데이터로 저장할 수 있다.
이와 함께, 단위 명사 추출부(102)에서는 단위 명사 후보군을 생성하기 위해 참조되는 형태소 사전 데이터베이스(110)의 명사 범주 정보에 따라 복합 명사에 대응하는 단위 명사 후보군에 대해 서술성 명사를 구분하고, 서술성 명사가 아닌 경우에 형태소 사전 데이터베이스(110)를 이용하여 의미 정보를 부여한다(단계208).
또한, 접사 적용부(104)에서는 단위 명사 추출부(102)를 통해 생성된 단위 명사 후보군에 대해 접사를 처리하여 순수한 단위 명사를 획득한다(단계210). 예를 들면, 접사 적용부(104)에서는 ‘컴퓨터용’에서 ‘용’, ‘한국관’에서 ‘관’ 등과 같은 접사를 처리할 수 있다.
이 때, 접사 적용부(104)에서는 획득된 순수한 단위 명사들과 접사간의 관계 정보를 접사 분류에 따라 획득한다(단계212). 이러한 관계 정보를 통해 접사 적용부(104)에서는 순수 단위 명사들의 의미 정보를 보정할 수 있다.
다음에, 의미격 분석부(106)에서는 접사 적용부(104)로부터의 순수 단위 명사들 과 서술성 명사간의 의미격 관계를 분석한다(단계214). 여기에서, 서술성 명사의 경우 예를 들면, ‘하다’, ‘되다’, ‘시키다’ 등을 적용하여 동사로 취급하고, 이러한 동사로 등록된 동사구 패턴을 형태소 사전 데이터베이스(110)의 제약 조건에 따라 단위 명사와 서술성 명사에서 변환된 동사간의 의미격 관계가 성립되는지를 분석할 수 있다.
이 때, 의미격 분석부(106)에서는 명사와 동사간의 의미격 관계를 결정하기 위한 단위 명사의 의미를 형태소 사전 데이터베이스(110)를 참조하여 획득할 수 있으며, 동사구 패턴과의 의미격 정보를 비교하면서 결정되지 않는 의미격의 경우 삭제할 수 있다.
한편, 단위 명사 결정부(108)에서는 단위 명사에 대응하는 접사 분류에 따른 가중치를 부여하고, 명사와 동사간의 의미격 관계에 따른 가중치를 부여한다(단계(216). 여기에서, 명사와 동사간 의미격 관계에 따른 가중치의 경우 형태소 사전 데이터베이스(110)의 의미 제약 조건에 따라 명사와 동사간 이항 관계를 단위로 하여 어느 하나의 의미 제약 조건 전체를 만족할 때, 더 큰 가중치를 부여할 수 있다.
이어서, 단위 명사 결정부(108)에서는 부여된 가중치들을 합산하여 상대적으로 가장 큰 값의 단위 명사 후보를 선택하여 복합 명사를 구성하는 단위 명사들을 결정한다(단계218).
따라서, 복합 명사 분해 장치에서 입력되는 복합 명사에서 단위 명사 후보군을 생성하고, 이에 대한 서술성 명사 구분, 명사와 동사간의 의미격 관계 분석 등을 통해 가중치를 부여함으로써, 복합 명사를 구성하는 단위 명사를 효과적으로 결정할 수 있다.
예를 들면, 도 3은 본 발명의 실시 예에 따라 복합 명사에 대한 단위 명사 분석을 예시한 도면으로, 한국어 복합명사 텍스트 스트링은 공백에 의한 단위 명사의 구분이 없어 내부 구성 단위명사를 구분하는 분석이 필요하게 되는데, 복합 명사 ‘대학생선교회’가 입력되면, 단위 명사 추출부(102)에서 한국어 형태소 분석에 의해 단위 명사 후보인 '대학/n+생선/n+교회/n', '대학/n+생/j+선교/v+회/j'가 추출되며, 이때 추출된 두 후보는 각각 형태소 분석으로 인해 나올 수 있는 가능한 복합명사의 분석 결과를 의미한다. 여기에서, ‘n'은 형태소의 명사를 의미하며, ’j'는 형태소의 접사를 의미한다.
그러나, 음절 길이에 의한 단위 명사 인식의 결과는 한국어에서 가장 빈번하게 발생하는 2음절 길이에 의한 명사 인식이지만, 의미적인 관계가 성립되지 않아 올바른 복합명사 분해 결과로 보기 힘들며, 이는 의미 제약 조건에서 부합되는 조건을 찾을 수 없음을 쉽게 알 수 있다.
이에 반해, 서술성 명사와 의미 제약을 만족시키는 단위 명사 인식의 결과는 형태소 분석에 의한 단위 명사 후보 중의 하나이지만, 기관의 의미인 ‘대학’에 사람의 의미를 부여하는 접사 ‘생’을 취하여 ‘사람’이라는 의미 표지를 얻을 수 있으며, 모임을 뜻하는 접사 ‘회’를 제거하고 용언 가능 명사 ‘선교’를 분석할 수 있다.
이렇게 분석된 결과는 의미격 분석부(106)에 의해 의미격 관계를 의미 제약 조건과 비교하여 파악할 수 있으며, 이 경우 "대학생기독교선교회"와 같이 모든 제약 조건을 동시에 만족시키는 것보다는 가중치가 상대적으로 낮지만, 음절 길이에 의한 단위 명사 인식보다는 상대적으로 높은 가중치를 얻게 된다.
이상의 설명에서는 본 발명의 다양한 실시 예들을 제시하여 설명하였으나 본 발명이 반드시 이에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능함을 쉽게 알 수 있을 것이다.
도 1은 본 발명의 실시 예에 따라 복합 명사를 구분하여 그 의미적 관계에 따라 구성된 단위 명사를 결정하는데 적합한 복합 명사 인식 장치의 블록 구성도,
도 2는 본 발명의 일 실시 예에 따라 입력된 복합 명사를 구성하는 단위 명사를 결정하여 복합 명사를 인식하는 과정을 도시한 플로우차트,
도 3은 본 발명의 실시 예에 따라 복합 명사에 대한 단위 명사 분석을 예시한 도면.
<도면의 주요부분에 대한 부호의 설명>
102 : 단위 명사 추출부 104 : 접사 적용부
106 : 의미격 분석부 108 : 단위 명사 결정부
110 : 형태소 사전 데이터베이스

Claims (10)

  1. 삭제
  2. 입력되는 복합 명사에 대해 형태소 사전을 참조하여 단위 명사 후보군을 추출하는 단위 명사 추출부와,
    상기 단위 명사 후보군의 단위 명사에 대해 접사 처리를 수행하는 접사 적용부와,
    상기 단위 명사 중에서 서술성 명사가 있는 경우 의미격 정보를 결정하는 의미격 분석부와,
    상기 접사 처리 및 의미격 정보와 의미 제약 조건에 따라 가중치를 부여하여 단위 명사 범위를 결정하는 단위 명사 결정부와,
    상기 형태소 사전 및 의미 제약 조건을 저장하는 형태소 사전 데이터베이스를 포함하며,
    상기 단위 명사 추출부는, 상기 단위 명사 후보군을 상기 복합 명사에 대응하는 위치 정보와 함께 내부 구조 데이터로 저장하고, 상기 단위 명사 후보군을 생성하기 위해 참조되는 상기 형태소 사전 데이터베이스의 명사 범주 정보에 따라 서술성 명사를 구분하며, 상기 서술성 명사와 의미적 연관 관계를 갖는 그 외 명사들에 대해 형태소 사전 데이터베이스의 의미 정보를 부여하는 것을 특징으로 하는 복합 명사 분해 장치.
  3. 입력되는 복합 명사에 대해 형태소 사전을 참조하여 단위 명사 후보군을 추출하는 단위 명사 추출부와,
    상기 단위 명사 후보군의 단위 명사에 대해 접사 처리를 수행하는 접사 적용부와,
    상기 단위 명사 중에서 서술성 명사가 있는 경우 의미격 정보를 결정하는 의미격 분석부와,
    상기 접사 처리 및 의미격 정보와 의미 제약 조건에 따라 가중치를 부여하여 단위 명사 범위를 결정하는 단위 명사 결정부와,
    상기 형태소 사전 및 의미 제약 조건을 저장하는 형태소 사전 데이터베이스를 포함하며,
    상기 접사 적용부는, 상기 접사 처리를 통한 접사 분류에 의해 획득된 관계 정보에 따라 상기 단위 명사 추출부를 통해 결정된 의미 정보를 보정하는 것을 특징으로 하는 복합 명사 분해 장치.
  4. 입력되는 복합 명사에 대해 형태소 사전을 참조하여 단위 명사 후보군을 추출하는 단위 명사 추출부와,
    상기 단위 명사 후보군의 단위 명사에 대해 접사 처리를 수행하는 접사 적용부와,
    상기 단위 명사 중에서 서술성 명사가 있는 경우 의미격 정보를 결정하는 의미격 분석부와,
    상기 접사 처리 및 의미격 정보와 의미 제약 조건에 따라 가중치를 부여하여 단위 명사 범위를 결정하는 단위 명사 결정부와,
    상기 형태소 사전 및 의미 제약 조건을 저장하는 형태소 사전 데이터베이스를 포함하며,
    상기 의미격 분석부는, 명사와 동사간의 의미격 관계를 결정하기 위한 상기 단위 명사의 의미를 상기 형태소 사전 데이터베이스를 참조하여 획득하며, 동사구 패턴과의 상기 의미격 정보를 비교하면서 결정되지 않는 의미격을 갖는 후보자의 경우 삭제하는 것을 특징으로 하는 복합 명사 분해 장치.
  5. 입력되는 복합 명사에 대해 형태소 사전을 참조하여 단위 명사 후보군을 추출하는 단위 명사 추출부와,
    상기 단위 명사 후보군의 단위 명사에 대해 접사 처리를 수행하는 접사 적용부와,
    상기 단위 명사 중에서 서술성 명사가 있는 경우 의미격 정보를 결정하는 의미격 분석부와,
    상기 접사 처리 및 의미격 정보와 의미 제약 조건에 따라 가중치를 부여하여 단위 명사 범위를 결정하는 단위 명사 결정부와,
    상기 형태소 사전 및 의미 제약 조건을 저장하는 형태소 사전 데이터베이스를 포함하며,
    상기 단위 명사 결정부는, 상기 단위 명사에 대응하는 접사 분류에 따라 상기 가중치를 부여하고, 명사와 동사간의 상기 의미격 관계에 따른 상기 가중치를 부여하며, 이러한 가중치들을 합산하여 가장 큰 값의 단위 명사 후보를 선택하는 것을 특징으로 하는 복합 명사 분해 장치.
  6. 제 5 항에 있어서,
    상기 단위 명사 결정부는, 상기 의미격 관계에 따른 가중치의 경우 상기 의미 제약 조건에 따라 상기 명사와 동사간의 이항 관계를 단위로 하여 어느 하나의 의미 제약 조건 전체를 만족할 때, 상대적으로 더 큰 상기 가중치를 부여하는 복합 명사 분해 장치.
  7. 삭제
  8. 입력되는 복합 명사에 대해 형태소 사전을 참조하여 단위 명사 후보군을 추출하는 단계와,
    상기 단위 명사 후보군의 단위 명사에 대해 접사 처리를 수행하는 단계와,
    상기 단위 명사 중에서 서술성 명사가 있는 경우 의미격 정보를 결정하는 단계와,
    상기 접사 처리 및 의미격 정보에 따라 가중치를 부여하여 단위 명사 범위를 결정하는 단계를 포함하며,
    상기 접사 처리를 수행하는 단계는, 상기 접사 처리를 통한 접사 분류에 의해 획득된 관계 정보에 따라 상기 단위 명사 추출부를 통해 결정된 의미 정보를 보정하는 것을 특징으로 하는 복합 명사 분해 방법.
  9. 입력되는 복합 명사에 대해 형태소 사전을 참조하여 단위 명사 후보군을 추출하는 단계와,
    상기 단위 명사 후보군의 단위 명사에 대해 접사 처리를 수행하는 단계와,
    상기 단위 명사 중에서 서술성 명사가 있는 경우 의미격 정보를 결정하는 단계와,
    상기 접사 처리 및 의미격 정보에 따라 가중치를 부여하여 단위 명사 범위를 결정하는 단계를 포함하며,
    상기 의미격 정보를 결정하는 단계는, 명사와 동사간의 의미격 관계를 결정하기 위한 상기 단위 명사의 의미를 상기 형태소 사전 데이터베이스를 참조하여 획득하며, 동사구 패턴과의 상기 의미격 정보를 비교하면서 결정되지 않는 의미격의 경우 삭제하는 것을 특징으로 하는 복합 명사 분해 방법.
  10. 입력되는 복합 명사에 대해 형태소 사전을 참조하여 단위 명사 후보군을 추출하는 단계와,
    상기 단위 명사 후보군의 단위 명사에 대해 접사 처리를 수행하는 단계와,
    상기 단위 명사 중에서 서술성 명사가 있는 경우 의미격 정보를 결정하는 단계와,
    상기 접사 처리 및 의미격 정보에 따라 가중치를 부여하여 단위 명사 범위를 결정하는 단계를 포함하며,
    상기 단위 명사 범위를 결정하는 단계는, 명사와 동사간의 상기 의미격 관계를 결정하기 위한 상기 단위 명사의 의미를 상기 형태소 사전 데이터베이스를 참조하여 획득하며, 동사구 패턴과의 상기 의미격 정보를 비교하면서 결정되지 않는 의미격의 경우 삭제하고, 상기 의미격 관계에 따른 가중치의 경우 의미 제약 조건에 따라 상기 명사와 동사간의 이항 관계를 단위로 하여 어느 하나의 의미 제약 조건 전체를 만족할 때, 상대적으로 더 큰 상기 가중치를 부여하는 복합 명사 분해 방법.
KR1020080131757A 2008-12-22 2008-12-22 복합 명사 인식 장치 및 그 방법 KR101092354B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020080131757A KR101092354B1 (ko) 2008-12-22 2008-12-22 복합 명사 인식 장치 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080131757A KR101092354B1 (ko) 2008-12-22 2008-12-22 복합 명사 인식 장치 및 그 방법

Publications (2)

Publication Number Publication Date
KR20100073163A KR20100073163A (ko) 2010-07-01
KR101092354B1 true KR101092354B1 (ko) 2011-12-09

Family

ID=42636166

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080131757A KR101092354B1 (ko) 2008-12-22 2008-12-22 복합 명사 인식 장치 및 그 방법

Country Status (1)

Country Link
KR (1) KR101092354B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230059401A (ko) 2021-10-26 2023-05-03 삼성에스디에스 주식회사 복합 명사 사전 구성 방법 및 그에 기반한 복합 명사 추출 방법

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101359039B1 (ko) * 2011-09-15 2014-02-21 울산대학교 산학협력단 복합명사 분석장치 및 복합명사 분석 방법
KR101672127B1 (ko) 2015-04-07 2016-11-03 한국기술교육대학교 산학협력단 매립형 앵커 캡 세트를 갖는 가속도계 행거
KR102097545B1 (ko) * 2017-02-08 2020-04-06 한국과학기술원 문자 경계 인식 시스템 및 방법
CN114548115B (zh) * 2022-02-23 2023-01-06 北京三快在线科技有限公司 复合名词的解释方法、装置及电子设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100513161B1 (ko) * 2003-12-26 2005-09-08 한국전자통신연구원 기계번역 대역어 선정을 위한 한국어 복합명사 의미결정장치 및 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100513161B1 (ko) * 2003-12-26 2005-09-08 한국전자통신연구원 기계번역 대역어 선정을 위한 한국어 복합명사 의미결정장치 및 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"상호정보량과 복합명사 의미사전에 기반한 동음이의어 중의성 해소", 허정 외 2인, 정보과학회 논문지: 소프트웨어 및 응용 제3권 제12호, pp.1073~1089 (2006.12.31.) 1부.*

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230059401A (ko) 2021-10-26 2023-05-03 삼성에스디에스 주식회사 복합 명사 사전 구성 방법 및 그에 기반한 복합 명사 추출 방법

Also Published As

Publication number Publication date
KR20100073163A (ko) 2010-07-01

Similar Documents

Publication Publication Date Title
Ptaszynski et al. Language combinatorics: A sentence pattern extraction architecture based on combinatorial explosion
KR20160060253A (ko) 자연어 질의 응답 시스템 및 방법
Imam et al. An ontology-based summarization system for arabic documents (ossad)
JP2011118689A (ja) 検索方法及びシステム
CN110188174B (zh) 一种基于专业词汇挖掘的专业领域faq智能问答方法
KR100481598B1 (ko) 복합 형태소 분석 장치 및 방법
KR101092354B1 (ko) 복합 명사 인식 장치 및 그 방법
Alhasan et al. POS tagging for arabic text using bee colony algorithm
CN112380848B (zh) 文本生成方法、装置、设备及存储介质
Celikyilmaz et al. An empirical investigation of word class-based features for natural language understanding
Alias et al. A Malay text corpus analysis for sentence compression using pattern-growth method
KR20200073524A (ko) 특허 문서의 키프레이즈 추출 장치 및 방법
Boujelben et al. Relane: discovering relations between Arabic named entities
JP2007164635A (ja) 同義語彙獲得方法及び装置及びプログラム
KR100745367B1 (ko) 템플릿에 기반한 기록정보 색인 및 검색 방법과 이를이용한 질의응답 시스템
Labidi New combined method to improve Arabic POS tagging
Inui et al. Fully corpus-based natural language dialogue system
Nyandag et al. Keyword extraction based on statistical information for Cyrillic Mongolian script
KR20110057631A (ko) 복합 명사 범위 결정 장치 및 그 방법
JP5633844B2 (ja) 言い換え関係集合取得装置、言い換え関係集合取得方法、及びプログラム
Al-Abweeny et al. Arabic stemmer system based on rules of roots
Jian et al. PolyUCOMP in TAC 2011 Entity Linking and Slot-Filling.
Al-Mashhsdany et al. Textual Analysis Applications: Subject Review.
Hoxha et al. Albanian language identification in text documents
Jose et al. Lexico-syntactic normalization model for noisy SMS text

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20141203

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20151204

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20161205

Year of fee payment: 6

LAPS Lapse due to unpaid annual fee