KR101451108B1 - 대체어 추출 방법 및 장치 - Google Patents

대체어 추출 방법 및 장치 Download PDF

Info

Publication number
KR101451108B1
KR101451108B1 KR1020130130952A KR20130130952A KR101451108B1 KR 101451108 B1 KR101451108 B1 KR 101451108B1 KR 1020130130952 A KR1020130130952 A KR 1020130130952A KR 20130130952 A KR20130130952 A KR 20130130952A KR 101451108 B1 KR101451108 B1 KR 101451108B1
Authority
KR
South Korea
Prior art keywords
noun
extracting
predicate
nouns
calculating
Prior art date
Application number
KR1020130130952A
Other languages
English (en)
Inventor
이수원
안미희
Original Assignee
숭실대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 숭실대학교산학협력단 filed Critical 숭실대학교산학협력단
Priority to KR1020130130952A priority Critical patent/KR101451108B1/ko
Application granted granted Critical
Publication of KR101451108B1 publication Critical patent/KR101451108B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

대체어 추출 방법 및 장치가 제공된다. 본 발명에 따른 특정 객체와 관련된 문장으로부터 상기 특정 객체의 특징을 나타내는 특징 명사에 대한 대체어를 추출하는 방법은 (a) 형태소 분석을 통해 상기 문장으로부터 추출된 명사와 서술어 쌍의 거리별 출현 빈도 및 상기 명사 중 복합 명사를 구성하는 결합 명사의 출현 빈도를 산출하는 단계, (b) 상기 산출된 출현 빈도를 이용하여 카테고리 내 상기 명사에 대한 상기 서술어 및 결합 명사의 연관성 값을 각각 산출하고, 상기 명사와 연관된 서술어 및 결합 명사를 추출하는 단계 및 (c) 상기 명사에 대한 상기 추출된 서술어의 거리별 특징 벡터와 상기 추출된 결합 명사의 특징 벡터를 생성하여 각 명사간 유사도를 산출하고, 상기 산출된 유사도에 근거하여 상기 대체어를 추출하는 단계를 포함한다.

Description

대체어 추출 방법 및 장치{METHOD AND APPARATUS FOR EXTRACTING ALTERNATIVE WORDS}
본 발명은 대체어를 추출하는 방법 및 장치에 관한 것으로, 더욱 상세하게는 평판 분석을 위한 상품 특징 대체어를 자동으로 추출하는 방법 및 장치에 관한 것이다.
최근 사이버 쇼핑몰을 통한 상품의 구매가 증가함에 따라 사이버쇼핑 거래액은 지속적인 증가추세를 보이고 있으며, 사이버 쇼핑몰을 이용한 전자상거래의 증가는 스마트폰을 이용한 모바일 인터넷 쇼핑몰 거래 확산에 따라 통해 꾸준히 성장하고 있다.
이러한 사이버쇼핑몰에서 사용자는 상품에 대한 정보를 얻기 위해 기구매자의 상품평을 이용하는 경우가 많다.
상품평은 사용자에게 좋은 정보를 제공하지만, 일반적으로 그 양이 너무 방대하므로 모든 상품평을 읽는 것은 불가능에 가까우며, 이를 보완하기 위하여 사이버 쇼핑몰에서는 상품의 특징별 별점 통계 정보나 수작업을 통한 특징별 요약 정보를 제공하고 있다.
그러나, 상품의 품목이 많기 때문에 많은 상품평 정보를 수작업에 의해 분류하고 통계 정보를 제공하는 일은 많은 노력을 필요로 한다
이에 상품의 특징별 사용자의 긍/부정 여부를 자동으로 요약하는 Opinion Mining 연구가 활발히 진행되고 있다.
그러나, 사이버 쇼핑몰에서 기구매자의 상품평에 상품을 지칭하는 명사가 외래어이거나, 뜻이 서로 비슷한 유의어가 쓰인 경우, 또는 인터넷 상의 은어 때문에 상품의 특징에 대하여 사용자들이 사용하는 어휘가 일치하지 않아, 상품의 특징을 나타내는 단어의 출현 빈도가 부정확하게 계산되는 문제점이 있다.
한국등록특허공보 제10-0798752호(2008.01.28. 공고), 한국어 맞춤법 검사기 및 검사 방법
본 발명은 전술한 종래 기술의 문제점을 해결하기 위한 것으로, 상품평 내의 문맥 정보를 활용하여 제품의 특징에 대한 대체어를 자동으로 추출하는 방법 및 장치를 제공하고자 한다.
상기와 같은 목적을 달성하기 위해, 본 발명의 일 실시예에 따른 ~하는 방법은 특정 객체와 관련된 문장으로부터 상기 특정 객체의 특징을 나타내는 특징 명사에 대한 대체어를 추출하는 방법은 (a) 형태소 분석을 통해 상기 문장으로부터 추출된 명사와 서술어 쌍의 거리별 출현 빈도 및 상기 명사 중 복합 명사를 구성하는 결합 명사의 출현 빈도를 산출하는 단계, (b) 상기 산출된 출현 빈도를 이용하여 카테고리 내 상기 명사에 대한 상기 서술어 및 결합 명사의 연관성 값을 각각 산출하고, 상기 명사와 연관된 서술어 및 결합 명사를 추출하는 단계 및 (c) 상기 명사에 대한 상기 추출된 서술어의 거리별 특징 벡터와 상기 추출된 결합 명사의 특징 벡터를 생성하여 각 명사간 유사도를 산출하고, 상기 산출된 유사도에 근거하여 상기 대체어를 추출하는 단계를 포함한다.
본 발명의 일 측면에서, 상기 (a) 단계는 상기 명사 및 서술어에 대한 모든 경우의 쌍을 형성하고, 상기 형성된 쌍의 출현 빈도를 산출하는 단계를 포함한다.
또한, 본 발명의 일 측면에서, 상기 (b) 단계는 상기 명사에 대한 상기 서술어의 연관성 값을 거리별 PMI(Pointwise Mutual Informaion)를 이용하여 산출하고, 상기 명사에 대한 상기 결합 명사의 연관성 값을 PMI를 이용하여 산출하며, 상기 (c) 단계는 상기 산출된 거리별 PMI에 근거하여 상기 서술어의 거리별 특징 벡터를 생성하고, 상기 산출된 PMI를 이용하여 결합 명사의 특징 벡터를 생성한다.
또한, 본 발명의 일 측면에서, 상기 (c) 단계는 코사인 유사도를 이용하여 상기 유사도를 산출하는 단계 및 상기 산출된 유사도에 가중치를 반영하여 상기 대체어를 추출하는 단계를 포함한다.
또한, 본 발명의 일 측면에서, 상기 대체어 추출 방법은 상기 (a) 단계 이전에, 상기 명사로서 일반 명사, 고유 명사 및 의존 명사 중 하나 이상을 포함하여 추출하고, 상기 서술어로서 형용사, 동사 및 보조 용언 중 하나 이상을 포함하여 추출하는 단계를 더 포함한다.
상기와 같은 목적을 달성하기 위해, 본 발명의 일 실시예에 따른 특정 객체와 관련된 문장으로부터 상기 특정 객체의 특징을 나타내는 특징 명사에 대한 대체어를 추출하는 장치는, 형태소 분석을 통해 상기 문장으로부터 추출된 명사와 서술어 쌍의 거리별 출현 빈도 및 상기 명사 중 복합 명사를 구성하는 결합 명사의 출현 빈도를 산출하는 출현 빈도 산출부, 상기 산출된 출현 빈도를 이용하여 카테고리 내 상기 명사에 대한 상기 서술어 및 결합 명사의 연관성 값을 각각 산출하고, 상기 명사와 연관된 서술어 및 결합 명사를 추출하는 연관 단어 추출부 및 상기 명사에 대한 상기 추출된 서술어의 거리별 특징 벡터와 상기 추출된 결합 명사의 특징 벡터를 생성하여 각 명사간 유사도를 산출하고, 상기 산출된 유사도에 근거하여 상기 대체어를 추출하는 유사도 산출부를 포함한다.
본 발명의 일 측면에서, 상기 출현 빈도 산출부는 상기 명사 및 서술어에 대한 모든 경우의 쌍을 형성하고, 상기 형성된 쌍의 출현 빈도를 산출한다.
또한, 본 발명의 일 측면에서, 상기 연관 단어 추출부는 상기 명사에 대한 상기 서술어의 연관성 값을 거리별 PMI(Pointwise Mutual Informaion)를 이용하여 산출하고, 상기 명사에 대한 상기 결합 명사의 연관성 값을 PMI를 이용하여 산출하며, 상기 유사도 산출부는 상기 산출된 거리별 PMI에 근거하여 상기 서술어의 거리별 특징 벡터를 생성하고, 상기 산출된 PMI를 이용하여 결합 명사의 특징 벡터를 생성한다.
또한, 본 발명의 일 측면에서, 상기 유사도 산출부는 코사인 유사도를 이용하여 상기 유사도를 산출하고, 상기 산출된 유사도에 가중치를 반영하여 상기 대체어를 추출한다.
또한, 본 발명의 일 측면에서, 상기 대체어 추출 장치는 상기 명사로서 일반 명사, 고유 명사 및 의존 명사 중 하나 이상을 포함하여 추출하고, 상기 서술어로서 형용사, 동사 및 보조 용언 중 하나 이상을 포함하여 추출하는 문장 분석부를 더 포함한다.
본 발명의 일 실시예에 따르면, 평판 분석(Opinion Mining)에서 상품 리뷰를 요약할 때 동일한 특징을 지칭하는 단어를 자동으로 추출하고 그룹화하여 요약 정보 분석을 수행할 수 있다.
또한, 사용자가 작성한 상품과 관련된 특징 내용에 대한 감성을 누락 없이 반영할 수 있다.
본 발명의 효과는 상기한 효과로 한정되는 것은 아니며, 본 발명의 상세한 설명 또는 특허청구범위에 기재된 발명의 구성으로부터 추론가능한 모든 효과를 포함하는 것으로 이해되어야 한다.
도 1은 본 발명의 일 실시예에 따른 대체어 추출 장치의 구성을 도시한 블록도이다.
도 2는 본 발명의 일 실시예에 따른 대체어 추출 과정을 도시한 흐름도이다.
도 3은 본 발명의 일 실시예에 따른 특정 명사와 대체어 유사성을 도시한 도면이다.
도 4는 본 발명의 일 실시예에 따른 특정 명사와 대체어의 결합 명사 유사성을 도시한 도면이다.
도 5는 본 발명의 일 실시예에 따른 특징 명사와 연관 서술어 목록을 나타낸 도면이다.
도 6은 본 발명의 일 실시예에 따른 특징 명사와 연관성이 높은 결합 명사를 나타낸 도면이다.
도 7은 본 발명의 일 실시예에 따른 명사와 서술어간 거리의 변화에 따른 명사의 수를 도시한 그래프이다.
도 8은 본 발명의 일 실시예에 따른 대체어 추출 결과를 도시한 도면이다.
이하에서는 첨부한 도면을 참조하여 본 발명을 설명하기로 한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 따라서 여기에서 설명하는 실시예로 한정되는 것은 아니다.
그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 부재를 사이에 두고 "간접적으로 연결"되어 있는 경우도 포함한다.
또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 구비할 수 있다는 것을 의미한다.
이하 첨부된 도면을 참고하여 본 발명의 실시예를 상세히 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따른 대체어 추출 장치의 구성을 도시한 블록도이다.
본 발명의 일 실시예에 따른 대체어 추출 장치(100)는 문장 분석부(110), 출현 빈도 산출부(120), 연관 단어 추출부(130) 및 유사도 산출부(140)를 포함할 수 있다.
각 구성 요소를 설명하면, 문장 분석부(110)는 형태소 분석을 통해 특정 객체와 관련된 문장(이하, ‘상품평’이라 칭함)으로부터 카테고리 별 상품의 특징이 될 수 있는 명사와 상품의 특징에 대한 표현이 될 수 있는 서술어를 추출할 수 있다.
구체적으로, 문장 분석부(110)는 형태소 분석기(미도시)로부터 태깅된 품사 정보를 이용하여 명사와 서술어를 추출할 수 있다.
?이때, 문장 분석부(110)는 상기 명사로서 일반 명사, 고유 명사 및 의존 명사 중 하나 이상을 추출할 수 있으며, 상기 서술어로서 형용사, 동사 및 보조 용언 중 하나 이상을 추출할 수 있다.
문장 분석부(110)가 명사와 함께 서술어를 추출하는 이유는, 특정 명사와 연관된 서술어 및 대체어와 연관된 서술어는 서로 동일하거나 유사할 수 있기 때문이다.
여기서, ‘대체어’는 한 문장에서 특정 단어를 대신하여 사용해도 문장의 의미를 훼손하지 않는 단어를 의미할 수 있다.
특정 명사와 대체어의 서술어 유사성에 대해서는 도 3을 참조하여 후술하도록 한다.
또한, 문장 분석부(110)는 명사로 태깅된 단어에서 복합 명사를 추출할 수 있으며, 추출된 복합 명사를 타 단어와 결합 가능한 명사(이하, 결합 명사)와 단순 명사로 분리할 수 있다.
문장 분석부(110)가 복합 명사로부터 결합 명사를 분리하는 이유는, 특정 명사와 결합하여 복합 명사를 이루는 단어가 동일하거나 유사하다면 해당 단어는 특정 명사의 대체어가 될 수 있기 때문이다.
특정 명사와 대체어의 결합 명사 유사성에 대해서는 도 4를 참조하여 후술하도록 한다.
참고로, 상품의 특징에 대한 내용 없이 감정 표현만을 반복해서 사용하는 상품평 또는 특징 명사를 포함하는 상품평이라 하더라도 띄어쓰기 없이 여러 번 반복되는 서술어는 올바른 태깅이 수행하지 못하고 문장 전체가 일반 명사 또는 고유 명사로 분석될 수 있으므로 문장 분석에서 제외될 수 있다.
한편, 출현 빈도 산출부(120)는 상품평 내에서 명사와 서술어의 거리별 출현 빈도 및 결합 명사의 출현 빈도를 산출하여 각 출현 빈도를 누적시킬 수 있으며, 카테고리별로 출현 빈도가 특정 순위 내에 속하는 명사와 서술어를 각 카테고리의 상품의 특징이 될 수 있는 명사(이하, ‘특징 명사’라 칭함)와 상품의 특징에 대한 표현이 될 수 있는 서술어(이하, ‘연관 서술어’라 칭함)로 선정할 수 있다.
구체적으로, 출현 빈도 산출부(120)는 상품평 내 명사 및 서술어에 대한 모든 경우의 쌍을 형성하고, 각 명사-서술어 쌍이 상품평에서 등장하는 거리별 출현 빈도를 산출할 수 있다.
이는, 특징 명사와 관련 있는 연관 서술어는 상품평 내에서 특징 명사의 인접한 거리 내에 출현할 것이라는 가정하에 특징 명사 출현 후 등장하는 연관 서술어의 순서와 거리를 반영한 것이다.
여기서, ‘거리’는 어절의 구분이 있는 단어의 출현 순서 차를 의미할 수 있으며, 출현 빈도 산출부(120)는 형태소 분석기(미도시)에 의해 분석된 단어의 순서에 따라 index를 지정하고 상품평 내에 등장하는 명사를 기준으로 서술어와의 순서 차를 명사-서술어간 거리로 설정할 수 있다.
한편, 연관 단어 추출부(130)는 카테고리 내 모든 명사와 서술어간 거리별 연관성 값 및 카테고리 내 모든 명사와 결합 명사 간 연관성 값을 산출하여 특징 명사에 대한 연관 단어를 추출할 수 있다.
여기서 ‘연관 단어’는 상품평 내에서 특징 명사가 출현할 때 동반될 수 있는 모든 서술어와 결합 명사를 포함할 수 있으며, 연관성 값 산출을 위해 PMI(Pointwise Mutual Information)를 이용할 수 있다.
참고로, 특징 명사와 연관 서술어가 함께 출현할 확률이 독립적인 경우 PMI 값은 0, 유의한 경우 PMI 값은 0을 초과할 수 있다.
이를 식으로 나타내면 아래와 같다.
여기서, 특징 명사와 연관 서술어 간의 PMI 산출은 식 (1)을 이용할 수 있으며, 특징 명사와 연관 서술어의 거리를 반영한 PMI 산출은 식 (2)를 이용할 수 있다.
Figure 112013099062419-pat00001
Figure 112013099062419-pat00002
Figure 112013099062419-pat00003
연관 단어 추출부(130)는 상기 식 (2)를 이용하여 명사와 서술어의 거리를 반영한 연관 서술어를 추출할 수 있으며, 이에 대한 상세한 설명은 도 5를 참조하여 후술하도록 한다.
식 (2)에서 특징 명사
Figure 112013099062419-pat00004
와의 연관성이 계산되는
Figure 112013099062419-pat00005
는 카테고리
Figure 112013099062419-pat00006
의 서술어 집합의 원소이거나 결합 명사 집합의 원소일 수 있으며, 복합 명사의 경우 결합 명사와 특징 명사는 어절의 구분이 없으므로 거리는 0으로 설정될 수 있다.
그리고, 특징 명사
Figure 112013099062419-pat00007
에 대한 연관 단어는 식 (1)과 동일하게 PMI가 0 초과인 일정 거리의 서술어 및 결합 명사 목록으로 저장될 수 있다.
한편, 유사도 산출부(140)는 특징 명사에 대한 대체어를 자동으로 추출하기 위해 특징 명사와 대체어 후보 명사간의 코사인 유사도를 산출할 수 있다.
여기서, 두 명사 간 코사인 유사도를 산출하기 위해서는 각 특징 명사와 대체어 후보 명사에 대한 특징 벡터 값이 필요하며, 유사도 산출부(140)는 특징 명사에 대한 연관 서술어 벡터(이하, 제 1 특징 벡터)와 특징 명사에 대한 결합 명사 벡터(이하, 제 2 특징 벡터)를 생성하고 이를 코사인 유사도 산출에 이용할 수 있다.
이를 위해 유사도 산출부(140)는 연관 단어 추출부(130)에서 산출된 PMI 값에 근거하여 코사인 유사도를 산출할 수 있으며, 이를 식으로 나타내면 아래와 같다.
여기서, 특징 명사와 연관 서술어간 거리가 반영되지 않은 두 단어의 PMI를 이용한 코사인 유사도 산출은 식 (3)을 이용할 수 있으며, 특징 명사와 연관 서술어간 거리가 반영된 두 단어의 PMI 및 특징 명사와 결합 명사간 PMI를 이용한 코사인 유사도 산출식은 식 (4)를 이용할 수 있다.
Figure 112013099062419-pat00008
Figure 112013099062419-pat00009
Figure 112013099062419-pat00010
참고로, 상기 식과 같이 코사인 유사도를 산출함에 있어 명사와 서술어간 거리를 이용하는 이유는, 특징 명사는 인접한 단어와 밀접한 관계를 가질 수 있는 상품평의 특성에 따른 것이고, 코사인 유사도 계산시 제 1 특징 벡터(연관 서술어 벡터)의 크기에 따른 계산량을 줄이기 위해서이다.
또한, 유사도 산출부(140)는 제 1 특징 벡터와 제 2 특징 벡터의 구성 종류에 따른 정확도를 가중치로 하여 코사인 유사도 산출 시 반영할 수 있으며, 가중치가 반영된 코사인 유사도의 합이 높은 순으로 정렬하여 상위 목록(특정 순위 내)에 위치한 단어가 최종 대체어로 추출될 수 있다.
이를 식으로 나타내면 아래와 같다.
Figure 112013099062419-pat00011
Figure 112013099062419-pat00012
참고로, 식 (5)에서 복합 명사 대체어 목록의 거리가 0인 것은 복합명사의 특성상 어절의 구분이 없기 때문이다.
도 2는 본 발명의 일 실시예에 따른 대체어 추출 과정을 도시한 흐름도이다.
도 2의 흐름도는 도 1에 도시된 대체어 추출 장치의 동작에 의해 수행될 수 있다.
먼저, 대체어 추출 장치(100)는 형태소 분석을 통해 카테고리 별 명사와 서술어를 추출한다(S201).
여기서, 명사는 일반 명사, 고유 명사 및 의존 명사 중 하나 이상을 포함할 수 있으며, 상기 서술어는 형용사, 동사 및 보조 용언 중 하나 이상을 포함할 수 있으며, 상기 S201을 통해 상품의 특징을 추출할 수 있다.
S201 후, 대체어 추출 장치(100)는 S201에서 분석된 각 형태소의 출현 빈도를 산출한다(S202).
즉, 명사와 서술어에 대한 모든 경우의 쌍(명사, 서술어, 명사와 서술어)의 출현 빈도를 산출하며, 명사와 서술어간 거리별 출현 빈도를 산출할 수 있다.
또한, 복합 명사에서 분리된 결합 명사의 출현 빈도를 산출할 수 있다.
S202 후, 대체어 추출 장치(100)는 S202에서 산출된 출현 빈도를 이용하여 카테고리 내 모든 명사와 서술어간 PMI, 모든 명사와 서술어간 거리별 PMI 및 모든 명사와 결합 단어간 PMI를 산출하여 연관 단어를 추출한다(S203).
여기서, 연관 단어는 특징 명사가 출현할 때 동반될 수 있는 모든 서술어와 결합 명사를 포함할 수 있다.
S203 후, 대체어 추출 장치(100)는 연관 단어로 추출된 거리별 서술어 벡터와 결합 명사 벡터를 생성하고, 이를 이용하여 코사인 유사도를 산출하여 대체어를 추출한다(S204).
이때, 대체어 추출 장치(100)는 코사인 유사도에 가중치를 반영할 수 있다.
도 3은 본 발명의 일 실시예에 따른 특정 명사와 대체어 유사성을 도시한 도면이다.
도 3에서 특정 명사가 상품의 특징을 나타내는 특징 명사이며, 특징 명사 ‘사이즈’에 대해 ‘크다’, ‘작다’ 등은 옷의 크기를 표현하는 서술어이지만 ‘예쁘다’와 ‘떨어지다’ 등은 옷의 크기를 표현하는 단어인 ‘사이즈’를 표현할 수 없다.
따라서 특징 명사 및 대체어 후보에 대한 연관 서술어의 동질성은 두 단어가 대체어가 될 수 있는지를 판단하는데 중요한 요소가 될 수 있다.
도 4는 본 발명의 일 실시예에 따른 특정 명사와 대체어의 결합 명사 유사성을 도시한 도면이다.
도 4에서 특정 명사가 상품의 특징을 나타내는 특징 명사이며, ‘사이즈’와 ‘치수’는 ‘실제’, ‘허리’ 등의 결합 명사와 어절의 구분없이 하나의 복합 명사를 구성할 수 있다.
그리고 대체어 관계인 이 둘의 복합 명사내 결합 명사는 비슷한 경향을 보이는 것을 알 수 있다.
도 5는 본 발명의 일 실시예에 따른 특징 명사와 연관 서술어 목록을 나타낸 도면이다.
도 5의 (a)는 특징 명사와 서술어의 문장내 동시 출현 빈도를 이용하여 추출된 연관성이 높은 상위 5개 서술어를 나타내며, 도 5의 (b)는 특징 명사와 거리가 1인 서술어 쌍의 동시 출현 빈도를 이용하여 추출된 연관성이 높은 상위 5개 서술어를 나타낸다.
단순히 PMI만을 이용한 것보다 특징 명사와 서술어 쌍의 거리를 반영한 결과가 더 연관성이 높음을 알 수 있다.
도 6은 본 발명의 일 실시예에 따른 특징 명사와 연관성이 높은 결합 명사를 나타낸 도면이다.
도 6은 의류 카테고리 내 복합 명사에서 특징 명사 ‘소재’와 소재의 대체어 후보인 ‘원단’과 연관성이 높은 결합 명사를 나타낸 것이다.
도 6에서 ‘소재’ 와 결합하는 ‘폴리’, ‘데님’, ‘실켓’ 등의 단어는 ‘원단’의 결합 명사 목록에서 대부분 출현하였고 높은 연관성을 보였으며, ‘소재’는 ‘원단’과 연관성이 높은 결합 명사 외에도 ‘시원한’, ‘시폰’ 등의 단어와도 자주 같이 등장하는 것을 볼 수 있다.
도 6을 통해 알 수 있듯이, 특정 명사와 결합하여 복합 명사를 이루는 단어가 동일하거나 유사하다면 해당 단어는 특정 명사의 대체어가 될 수 있다.
도 7은 본 발명의 일 실시예에 따른 명사와 서술어간 거리의 변화에 따른 명사의 수를 도시한 그래프이다.
도 7에서, 가로축은 명사-서술어간 거리(절대값)를 나타내며 세로축은 서술어의 거리변화에 따른 명사의 수를 나타낸다.
도 7에 따르면 명사-서술어간의 거리가 멀수록 명사와 등장하는 서술어의 종류가 급격히 감소하는 추세를 보임을 알 수 있다.
이런 현상은 문장 내에서 명사를 수식하는 서술어와의 거리가 가까울수록 명사-서술어 쌍이 다양하게 존재할 수 있다는 것을 보여준다.
도 8은 본 발명의 일 실시예에 따른 대체어 추출 결과를 도시한 도면이다.
(a)는 특징 명사와 연관 서술어간의 거리를 반영하지 않은 결과이며, (b)는 특징 명사와 연관 서술어간 거리를 1로 반영한 결과이다.
또한, (c)는 특징 명사와 결합 명사의 연관 관계를 이용한 결과이며, (d)는 본 발명의 방법, 즉, 특징 명사에 대한 연관 서술어의 특징 벡터 및 결합 명사의 특징 벡터를 반영한 결과이다.
도 8을 통해서, 본 발명의 (d)에 의한 결과가 다른 방법만을 사용한 결과보다 더 정확한 대체어를 추출할 수 있음을 알 수 있다(즉, 특징 명사 '사이즈'의 대체어로서 '싸이즈'가 1순위로 추출되었음).
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다.
그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.
예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
100 : 대체어 추출 장치
110 : 문장 분석부
120 : 출현 빈도 산출부
130 : 연관 단어 추출부
140 : 유사도 산출부

Claims (10)

  1. 대체어 추출 장치가 특정 객체와 관련된 문장으로부터 상기 특정 객체의 특징을 나타내는 특징 명사에 대한 대체어를 추출하는 방법에 있어서,
    (a) 형태소 분석을 통해 상기 문장으로부터 추출된 명사와 서술어 쌍의 거리별 출현 빈도 및 상기 명사 중 복합 명사를 구성하는 결합 명사의 출현 빈도를 산출하는 단계;
    (b) 상기 산출된 출현 빈도를 이용하여 카테고리 내 상기 명사에 대한 상기 서술어 및 결합 명사의 연관성 값을 각각 산출하고, 상기 명사와 연관된 서술어 및 결합 명사를 추출하는 단계; 및
    (c) 상기 명사에 대한 상기 추출된 서술어의 거리별 특징 벡터와 상기 추출된 결합 명사의 특징 벡터를 생성하여 각 명사간 유사도를 산출하고, 상기 산출된 유사도에 근거하여 상기 대체어를 추출하는 단계;
    를 포함하는 대체어 추출 방법.
  2. 제 1 항에 있어서,
    상기 (a) 단계는,
    상기 명사 및 서술어에 대한 모든 경우의 쌍을 형성하고, 상기 형성된 쌍의 출현 빈도를 산출하는 단계;
    를 포함하는 대체어 추출 방법.
  3. 제 1 항에 있어서,
    상기 (b) 단계는,
    상기 명사에 대한 상기 서술어의 연관성 값을 거리별 PMI(Pointwise Mutual Informaion)를 이용하여 산출하고, 상기 명사에 대한 상기 결합 명사의 연관성 값을 PMI를 이용하여 산출하며,
    상기 (c) 단계는,
    상기 산출된 거리별 PMI에 근거하여 상기 서술어의 거리별 특징 벡터를 생성하고, 상기 산출된 PMI를 이용하여 결합 명사의 특징 벡터를 생성하는 대체어 추출 방법.
  4. 제 1 항에 있어서,
    상기 (c) 단계는,
    코사인 유사도를 이용하여 상기 유사도를 산출하는 단계; 및
    상기 산출된 유사도에 가중치를 반영하여 상기 대체어를 추출하는 단계;
    를 포함하는 대체어 추출 방법.
  5. 제 1 항에 있어서,
    상기 (a) 단계 이전에,
    상기 명사로서 일반 명사, 고유 명사 및 의존 명사 중 하나 이상을 포함하여 추출하고, 상기 서술어로서 형용사, 동사 및 보조 용언 중 하나 이상을 포함하여 추출하는 단계;
    를 더 포함하는 대체어 추출 방법.
  6. 특정 객체와 관련된 문장으로부터 상기 특정 객체의 특징을 나타내는 특징 명사에 대한 대체어를 추출하는 장치에 있어서,
    형태소 분석을 통해 상기 문장으로부터 추출된 명사와 서술어 쌍의 거리별 출현 빈도 및 상기 명사 중 복합 명사를 구성하는 결합 명사의 출현 빈도를 산출하는 출현 빈도 산출부;
    상기 산출된 출현 빈도를 이용하여 카테고리 내 상기 명사에 대한 상기 서술어 및 결합 명사의 연관성 값을 각각 산출하고, 상기 명사와 연관된 서술어 및 결합 명사를 추출하는 연관 단어 추출부; 및
    상기 명사에 대한 상기 추출된 서술어의 거리별 특징 벡터와 상기 추출된 결합 명사의 특징 벡터를 생성하여 각 명사간 유사도를 산출하고, 상기 산출된 유사도에 근거하여 상기 대체어를 추출하는 유사도 산출부;
    를 포함하는 대체어 추출 장치.
  7. 제 6 항에 있어서,
    상기 출현 빈도 산출부는,
    상기 명사 및 서술어에 대한 모든 경우의 쌍을 형성하고, 상기 형성된 쌍의 출현 빈도를 산출하는 대체어 추출 장치.
  8. 청구항 8은(는) 설정등록료 납부시 포기되었습니다.
    제 7 항에 있어서,
    상기 연관 단어 추출부는,
    상기 명사에 대한 상기 서술어의 연관성 값을 거리별 PMI(Pointwise Mutual Informaion)를 이용하여 산출하고, 상기 명사에 대한 상기 결합 명사의 연관성 값을 PMI를 이용하여 산출하며,
    상기 유사도 산출부는,
    상기 산출된 거리별 PMI에 근거하여 상기 서술어의 거리별 특징 벡터를 생성하고, 상기 산출된 PMI를 이용하여 결합 명사의 특징 벡터를 생성하는 대체어 추출 장치.
  9. 제 6 항에 있어서,
    상기 유사도 산출부는,
    코사인 유사도를 이용하여 상기 유사도를 산출하고,
    상기 산출된 유사도에 가중치를 반영하여 상기 대체어를 추출하는 대체어 추출 장치.
  10. 제 6 항에 있어서,상기 명사로서 일반 명사, 고유 명사 및 의존 명사 중 하나 이상을 포함하여 추출하고, 상기 서술어로서 형용사, 동사 및 보조 용언 중 하나 이상을 포함하여 추출하는 문장 분석부;
    를 더 포함하는 대체어 추출 장치.
KR1020130130952A 2013-10-31 2013-10-31 대체어 추출 방법 및 장치 KR101451108B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020130130952A KR101451108B1 (ko) 2013-10-31 2013-10-31 대체어 추출 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130130952A KR101451108B1 (ko) 2013-10-31 2013-10-31 대체어 추출 방법 및 장치

Publications (1)

Publication Number Publication Date
KR101451108B1 true KR101451108B1 (ko) 2014-10-16

Family

ID=51997766

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130130952A KR101451108B1 (ko) 2013-10-31 2013-10-31 대체어 추출 방법 및 장치

Country Status (1)

Country Link
KR (1) KR101451108B1 (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101659611B1 (ko) * 2015-09-10 2016-09-23 네이버 주식회사 자료 제공 장치, 방법, 및 컴퓨터 프로그램
WO2018016673A1 (ko) * 2016-07-21 2018-01-25 숭실대학교산학협력단 대체어 자동 추출 장치 및 방법, 이를 수행하기 위한 기록 매체
KR102639880B1 (ko) * 2023-08-02 2024-02-23 (주)유알피 문서 내의 유의어를 대표어로 관리하기 위한 인공지능기반 유의어 치환방법
KR102639873B1 (ko) * 2023-08-02 2024-02-23 (주)유알피 인공지능을 활용한 대표어 관리를 위한 유의어 치환장치
KR102691165B1 (ko) * 2022-01-17 2024-08-05 삼육대학교산학협력단 소셜 빅데이터의 키워드 분석 정확도를 높이기 위한 복합 명사 추출방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100798752B1 (ko) * 2007-06-26 2008-01-28 (주)나라인포테크 한국어 맞춤법 검사기 및 검사방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100798752B1 (ko) * 2007-06-26 2008-01-28 (주)나라인포테크 한국어 맞춤법 검사기 및 검사방법

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101659611B1 (ko) * 2015-09-10 2016-09-23 네이버 주식회사 자료 제공 장치, 방법, 및 컴퓨터 프로그램
WO2018016673A1 (ko) * 2016-07-21 2018-01-25 숭실대학교산학협력단 대체어 자동 추출 장치 및 방법, 이를 수행하기 위한 기록 매체
KR102691165B1 (ko) * 2022-01-17 2024-08-05 삼육대학교산학협력단 소셜 빅데이터의 키워드 분석 정확도를 높이기 위한 복합 명사 추출방법
KR102639880B1 (ko) * 2023-08-02 2024-02-23 (주)유알피 문서 내의 유의어를 대표어로 관리하기 위한 인공지능기반 유의어 치환방법
KR102639873B1 (ko) * 2023-08-02 2024-02-23 (주)유알피 인공지능을 활용한 대표어 관리를 위한 유의어 치환장치

Similar Documents

Publication Publication Date Title
US9535911B2 (en) Processing a content item with regard to an event
Bansal et al. Hybrid attribute based sentiment classification of online reviews for consumer intelligence
KR101451108B1 (ko) 대체어 추출 방법 및 장치
CN105868255A (zh) 查询推荐方法及装置
García-Moya et al. Storing and analysing voice of the market data in the corporate data warehouse
CN110309251A (zh) 文本数据的处理方法、装置和计算机可读存储介质
Phu et al. A valence-totaling model for Vietnamese sentiment classification
Yaakub et al. Integration of sentiment analysis into customer relational model: the importance of feature ontology and synonym
Beheshti et al. Big data and cross-document coreference resolution: Current state and future opportunities
Renjit et al. CUSAT NLP@ AILA-FIRE2019: Similarity in Legal Texts using Document Level Embeddings.
Thamviset et al. Information extraction for deep web using repetitive subject pattern
Rathan et al. Every post matters: a survey on applications of sentiment analysis in social media
Kim et al. Historical credibility for movie reviews and its application to weakly supervised classification
CN106055614A (zh) 基于多个语义摘要的内容相似性分析方法
Zou et al. Assessing software quality through web comment search and analysis
Tjahyanto et al. The utilization of filter on object-based opinion mining in tourism product reviews
US10380151B2 (en) Information processing to search for related expressions
Tristram et al. Weasel: a machine learning based approach to entity linking combining different features
Rezk et al. Accurate product attribute extraction on the field
Hamroun et al. Lexico semantic patterns for customer intentions analysis of microblogging
Horch et al. Matching product offers of e-shops
Appiktala et al. Identifying salient entities of news articles using binary salient classifier
Bhamre et al. Aspect rating analysis based product ranking
JP5187187B2 (ja) 体験情報検索システム
Eldin et al. Cross-language semantic web service discovery to improve the selection mechanism by using data mining techniques

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20181001

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20191001

Year of fee payment: 6