KR20200075068A - 감성사전 구축 방법 및 시스템 - Google Patents

감성사전 구축 방법 및 시스템 Download PDF

Info

Publication number
KR20200075068A
KR20200075068A KR1020180157063A KR20180157063A KR20200075068A KR 20200075068 A KR20200075068 A KR 20200075068A KR 1020180157063 A KR1020180157063 A KR 1020180157063A KR 20180157063 A KR20180157063 A KR 20180157063A KR 20200075068 A KR20200075068 A KR 20200075068A
Authority
KR
South Korea
Prior art keywords
emotional
keyword
dictionary
unit
data
Prior art date
Application number
KR1020180157063A
Other languages
English (en)
Inventor
장환석
Original Assignee
(주)다음소프트
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)다음소프트 filed Critical (주)다음소프트
Priority to KR1020180157063A priority Critical patent/KR20200075068A/ko
Publication of KR20200075068A publication Critical patent/KR20200075068A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 개시는 감성사전 구축방법에 있어서, 데이터(data) 수집부가 데이터를 수집하는 단계; 데이터 전처리부가 수집된 데이터를 주어진 문장형태에 따라 데이터를 전처리하는 단계; 감성 키워드 선별부가 전처리된 데이터로부터 감성 키워드를 선별하는 단계; 그리고 감성사전 구축부가 선별된 감성 키워드를 미리 설정된 분류기준에 따라 분류하여 감성사전을 구축하는 단계;를 포함하는 감성사전 구축방법 및 시스템에 대한 것이다.

Description

감성사전 구축 방법 및 시스템{METHOD AND SYSTEM FOR BUILDING EMOTIONAL DICTIONARY}
본 개시(Disclosure)는 전체적으로 감성사전 구축 방법 및 시스템에 관한 것으로, 특히 명사를 기준으로 한 분류기준을 활용하여 감성사전의 정확도를 향상시킨 감성사전 구축 방법 및 시스템에 관한 것이다.
여기서는, 본 개시에 관한 배경기술이 제공되며, 이들이 반드시 공지기술을 의미하는 것은 아니다(This section provides background information related to the present disclosure which is not necessarily prior art).
소셜 네트워크 서비스(Social Network Service, 이하 SNS)와 인터넷의 발달로 인해 정보의 획득이 용이해짐에 따라 과거에 비해 다양한 장소나 제품에 대한 의견 및 정보를 생산하고 공유하는 것이 활발하게 일어나고 있다. 예를 들어 숙박업소를 사용한 사람이 해당 숙박업소에 대한 의견 및 정보를 생산하면 다수의 사람이 해당 숙박업소에 대한 의견 및 정보를 공유하는 것이다.
따라서, 사람들은 SNS를 통해 다녀온 장소나 사용한 제품에 대해 소개하고 의견을 표출하며, 이는 다른 사용자들이 의사결정을 할 때에 중요한 정보가 될 수 있다. 그러나 SNS 사용자가 급증하고 수많은 게시글이 업로드(Upload)되면서 방대한 양의 데이터(Data)로부터 의미 있는 정보를 얻고 의사결정에 도움을 얻는 것이 어려워지고 있다. 인터넷이나 SNS 사용자가 올린 수많은 게시글로부터 의미 있는 정보를 얻는 수단으로 기존에는 미리 정의된 감성사전에 기반하여 입력되는 텍스트(text)의 감성수치를 정량화하였다. 감성사전에 대한 종래기술에는 한국공개특허공보 제2012-0001053호, 한국등록특허공보 제1561464호, 한국등록특허공보 제1838573호 및 한국등록특허공보 제1851788호 등 다수에 기재되어 있다.
그러나 종래의 감성사전은 단순 긍정, 중립, 부정으로 분리하여 구축되어 텍스트 작성자의 의도를 구체적으로 파악하는데 한계가 있었다. 예를 들어 "크기가 크다"(+1), "가격이 좋다"(+1), "크기가 작다"(-1), "가격이 나쁘다"(-1)와 같이 각 감성을 나타내는 키워드(이하 감성 키워드) 별로 긍정, 부정, 중립과 같은 감성강도를 획일적으로 부여하였다. 또한 "가격이 좋다"는 것이 숙박업소의 가격이 좋다는 것인지 아니면 숙박업소에서 제공하는 식사의 가격이 좋다는 것인지에 대한 구분도 되지 않았다.
본 개시에서는 인터넷이나 SNS 사용자가 올린 수많은 텍스트에 대해 작성자의 의도를 구체적으로 파악할 수 있는 감성사전을 구축하는 방법과 감성사전을 구축하는 시스템을 제공하고자 한다.
이에 대하여 '발명을 실시하기 위한 구체적인 내용'의 후단에 기술한다.
여기서는, 본 개시의 전체적인 요약(Summary)이 제공되며, 이것이 본 개시의 외연을 제한하는 것으로 이해되어서는 아니된다(This section provides a general summary of the disclosure and is not a comprehensive disclosure of its full scope or all of its features).
본 개시에 따른 일 태양에 의하면(According to one aspect of the present disclosure), 감성사전 구축방법에 있어서, 데이터(data) 수집부가 데이터를 수집하는 단계; 데이터 전처리부가 수집된 데이터를 주어진 문장형태에 따라 데이터를 전처리하는 단계; 감성 키워드 선별부가 전처리된 데이터로부터 감성 키워드를 선별하는 단계; 그리고 감성사전 구축부가 선별된 감성 키워드를 미리 설정된 분류기준에 따라 분류하여 감성사전을 구축하는 단계;를 포함하는 감성사전 구축방법이 제공된다.
본 개시에 따른 다른 일 태양에 의하면(According to another aspect of the present disclosure), 감성사전 구축 시스템에 있어서, 외부의 데이터를 받을 수 있는 통신부; 표시부; 감성 키워드를 저장하는 저장부; 입력부; 그리고 데이터수집부, 데이터 전처리부, 감성 키워드 선별부 및 감성사전 구축부를 포함하는 제어부;를 포함하며, 감성사전 구축부는 미리 설정된 분류기준에 따라 감성사전을 구축하는 감성사전 구축 시스템이 제공된다.
이에 대하여 '발명의 실시를 위한 구체적인 내용'의 후단에 기술한다.
도 1은 본 개시에 따른 감성사전 구축 시스템의 일 예를 보여주는 도면,
도 2는 도 1에 기재된 제어부를 기능별로 세분화한 일 예를 보여주는 도면,
도 3은 본 개시에 따른 분류기준의 일 예를 보여주는 도면,
도 4는 본 개시에 따른 감성사전 구축방법을 일 예를 보여주는 흐름도.
이하, 본 개시를 첨부된 도면을 참고로 하여 자세하게 설명한다(The present disclosure will now be described in detail with reference to the accompanying drawing(s)). 또한 본 명세서에서 상측/하측, 위/아래 등과 같은 방향 표시는 도면을 기준으로 한다.
도 1은 본 개시에 따른 감성사전 구축 시스템의 일 예를 보여주는 도면이다.
감성사전 구축시스템(100)은 통신부(110), 입력부(120), 저장부(130), 표시부(140) 및 제어부(150)를 포함한다.
통신부(110)는 네트워크에 접속하여, 다른 엔티티들과 통신하기 위한 장치이며, 이러한 통신부(110)는 네트워크의 종류 및 네트워크에 적용된 프로토콜에 따라서 데이터(data)를 처리하는 기능을 더 포함할 수 있다.
입력부(120)는 감성사전 구축시스템(100) 사용자의 명령, 선택, 데이터, 정보 중에서 적어도 하나를 입력받기 위한 수단으로서, 숫자 또는 문자 정보를 입력받고 다양한 기능을 설정하기 위한 다수의 입력키 및 기능키를 포함할 수 있다. 그리고 입력부(110)는 사용자의 키 입력을 감지하여, 감지된 키 입력에 따른 입력 신호를 제어부(150)로 전달한다. 입력부(110)는 키보드, 키패드, 마우스, 조이스틱 등과 같은 입력 장치 등을 예시할 수 있다.
저장부(130)는 데이터를 저장하기 위한 장치로, 주 기억 장치 및 보조기억 장치를 포함한다. 이러한 저장부(130)는 운영 체제(OS, Operation System), 어플리케이션 등을 저장할 수 있다. 저장부(130)는 감성사전 구축시스템(100)이 수집하고, 생성하는 각 종 데이터를 저장할 수 있다. 대표적으로, 저장부(130)는 구축된 감성사전을 저장할 수 있으며, 감성 키워드, 분석기준 등을 저장할 수 있다. 저장부(130)에 저장되는 각 종 데이터는 사용자의 조작에 따라, 삭제, 변경, 추가될 수 있다.
표시부(140)는 감성사전 구축시스템(100)의 사용에 따라 발생되는 정보를 사용자가 인지할 수 있도록 표시하기 위한 것이다. 이러한 정보는 감성 키워드, 분류체계 데이터, 인터넷으로부터 수집한 문서 데이터 등을 포함할 수 있다.
제어부(150)는 본 개시의 실시예에 따른 감성사전을 구축하기 위한 방법을 수행하기 위해 필요한 동작을 수행하며, 이를 위하여, 필요한 경우, 통신부(110), 입력부(120), 저장부(130) 및 표시부(140)를 제어할 수 있다. 이를 위하여, 제어부(150)는 실제로 본 발명의 실시예에 따른 감성사전을 구축하기 위한 방법을 수행하도록 하기 위한 복수의 모듈을 포함할 수 있다. 이러한 모듈은 하드웨어 또는 소프트웨어로 구성될 수 있다. 제어부(150)는 운영 체제를 구동시키는 프로세스 장치가 될 수 있다. 예컨대, 제어부(150)는 중앙처리장치(CPU, Central Processing Unit)가 될 수 있다. 제어부(150)는 운영 체제를 저장부(130)의 보조 기억 장치로부터 주기억장치로 이동시킨 후, 운영 체제를 구동하는 부팅(booting)을 수행한다. 그리고, 제어부(150)는 본 개시에 따른 감성사전을 구축하기 위한 방법을 수행하기 위해 필요한 어플리케이션을 구동시킬 수 있다.
도 2는 도 1에 기재된 제어부를 기능별로 세분화한 일 예를 보여주는 도면이다.
제어부(150)는 데이터 수집부(151), 데이터 전처리부(152), 감성 키워드 선별부(153) 및 감성사전 구축부(154)를 포함할 수 있다.
데이터 수집부(151)는 감성사전의 대상에 따라 대상에 대한 평가를 기재한 텍스트 정보와 대상에 대한 점수를 기재한 평점 정보를 수집한다. 예를 들어 도 2(b)를 보면 데이터 수집부(151)는 감성사전의 대상이 호텔과 같은 숙박업소인 경우 숙박업소의 사용 후기인 텍스트 정보(1511)와 텍스트 정보(1511)와 함께 기재한 평점 정보(1512)를 수집한다.
데이터 전처리부(152)는 수집된 데이터 중 텍스트 정보(1511)를 정해진 문장형태에 따라 데이터를 전처리한다. 정해진 문장형태는 "명사+형용사" 및 "형용사+명사" 중 하나의 형태가 바람직하다. 예를 들어 도 2(b)에 기재된 텍스트 정보인 "객실도 넓고 침대도 트윈인데 혼자 자기에 충분히 넓었어요! 조식도 만족했습니다~ 직원분들 다 친절하세요 !! 잘 쉬었다 갑니다^^"를 전처리하면, "객실 넓고. 침대 넓었어요. 조식 만족했습니다. 직원 친절하세요"로 될 수 있다.
감성 키워드 선별부(153)는 전처리된 데이터로부터 감성 키워드를 선별한다. 도 2(c)를 보면 전처리된 데이터로부터 감성 키워드 후보를 추출(1531)하고 추출된 감성 키워드 후보로부터 감성 키워드를 선별(1532)한다. 감성 키워드 후보를 추출하는 경우 미리 설정하여 저장부(130)에 저장된 기초 감성 표현을 사용할 수도 있다. 기초 감성 표현은 "형용사" 중 출현 빈도가 높은 단어를 대상으로 선정한다. 예를 들어 "좋다", "좋지 않다", "만족하다", "만족하지 않다", "적당하다", "과하다", "비싸다"와 같은 "형용사" 단어를 기초 감성 표현으로 선정하여 사용할 수 있다. 보통 50 개 내외의 단어를 기초 감성 표현으로 선정할 수 있지만 선정되는 단어의 수가 많을수록 감성 키워드 후보를 더 많이 추출할 수 있다. 추출된 감성 키워드 후보에는 "명사 + 형용사" 또는 "형용사 + 명사" 구조가 아닌 "명사" 또는 "형용사"만으로 이루어진 문장구조가 있을 수 있다. 감성 키워드 선별은 추출된 감성 키워드 후보 중 "명사 + 형용사" 및 "형용사 + 명사" 문장형태 중 하나를 갖고 있는 것만을 다시 선별하는 작업이다. 또한 감성 키워드 선별부(153)는 미리 설정되어 저장부(130)에 저장된 분류기준에 사용된 단어를 기준으로 감성 키워드를 선별할 수 있다. 분류기준에 대해서는 도 3에서 다시 설명한다. 더 나아가 Word2vec 분석을 통해 "명사+형용사", "형용사+명사" 문장형태 중 기초 감성 표현이 포함되어 있는 문장은 전부 감성 키워드로 등록하여 감성 키워드를 확장할 수 있다. Word2vec은 Word embedding 방법인 Word2vec, Glove, Fastext 중에서 가장 대표적인 방법론이다. 감성 키워드 확장은, Word2Vec를 이용하여 맵핑되는 문장의 벡터값들끼리의 코사인 유사도를 선별하여 n번 시행 후 전처리된 데이터에 있는 문장 중 미리 설정된 기초 감성 표현들과의 코사인 유사도가 0.8 이상인 경우가 한 번의 케이스에서 존재하면 감성 키워드 후보로 다시 등록을 하게 된다. 즉 감성 키워드 선별부(153)는 선별된 감성 키워드를 활용하여 감성 키워드 후보를 추가로 추출할 수 있다. 도 2(c)를 보면 감성 키워드 선별부(153)는 선별된 감성 키워드를 대상으로 Word2Vec 방법을 사용하여 감성 키워드 후보를 추가로 추출할 수 있다(1533). 선별된 감성 키워드를 대상으로 감성 키워드 후보를 추출하는 경우 선별된 감성 키워드의 문장형태가 "명사 + 형용사" 이기 때문에 선별된 감성 키워드와 유사한 의미를 갖는 감정 키워드 후보를 추출할 확률이 높다. 예를 들어 "가격 비싸다"라는 감성 키워드의 "명사" 부분에 사용된 "가격"을 기준으로 Word2Vec 방법을 사용하여, "가격비싸다" 와 유사한 목적으로 사용되었을 "가격 싸다", "가격 무시무시하다", "가격 저렴하다" 등이 감성 키워드 후보로 제시될 확률이 매우 높아진다. 물론 추가되는 감성 키워드 후보는 전처리된 데이터로부터 추출될 수 있다. 즉 전처리된 데이터에는 "가격 무시무시하다"와 "가격 비싸다"가 있는데 미리 설정된 기초 감성 표현을 적용하여 감성 키워드 후보를 추출하면 "가격 비싸다"만이 추출되지만 Word2Vec 방법을 사용하여 전처리된 데이터에 있는 "가격 무시무시하다"도 감성 키워드 후보로 추출될 수 있는 것이다. Word2Vec 방법을 사용하여 추가로 추출된 감성 키워드 후보로부터 다시 감성 키워드를 선별할 수 있다(1532). Word2Vec 방법을 사용하여 감성 키워드 후보를 추가로 추출(1533)하고 추출된 감성 키워드 후보로부터 다시 감성 키워드를 추출(1532)하는 과정은 적어도 1회 이상 진행하여 감성 키워드를 확장하는 것이 바람직하다.
감성사전 구축부(154)는 선정된 감성 키워드를 미리 설정되어 저장부(130)에 저장된 분류기준에 따라 감성사전을 구축한다. 예를 들어 감성 키워드로 "가격 비싸다"의 경우 "명사" 부분인 "가격"에 해당하는 분류기준에 "가격 비싸다"를 할당하여 저장부(130)에 저장한다. 분류기준에 따라 감성사전을 구축하는 것은 도 3에서 설명한다. 또한 감성사전 구축부(154)는 감성 키워드에 감성수치값을 부여한다. 감성수치값은 감성 키워드가 나타내는 긍정 또는 부정의 정도를 수치로 나타내는 값이다. 종래의 감성사전에서는 감성수치값이 긍정(+1), 중립(0), 부정(-1)과 같이 획일적으로 부여되었다. 그러나 본 개시에서는 감성수치값을 획일적으로 부여하는 것이 아니라 감성 키워드가 추출된 텍스트 정보(1511)에 함께 기재한 평점정보(1512)를 반영하여 감성수치값을 부여하였다. 예를 들어 텍스트 정보(1511)에서 추출한 감성 키워드와 평점정보(1512) 사이의 벌점 회귀모형(Ridge,Lasso,Elasticnet)을 사용하여 회귀계수를 감성수치값으로 사용한다. 벌점화 회귀모형을 사용할 경우, 모든 리뷰에 따라 감성키워드를 독립변수(X)로 사용하고, 해당 리뷰의 평점을 종속변수(Y)로 학습함으로써, 평점에 따른 감성키워드별 X에 대한 계수를 산출할 수 있다. 이렇게 산출된 회귀계수를 해당 감성키워드의 감성수치값으로 활용한다. 또한, 벌점 회귀모형을 통해 산출된 감성키워드의 회귀계수 중 회귀계수가 산출되지 않거나, 감성수치값로 사용하기 어려운 경우에는 잘 구축된 감성키워드의 감성수치값 확장으로 보완한다. 벌점화 회귀모형으로부터 산출된 회귀계수 중 절대값이 큰 상위 감성 키워드(절대 값이 크다는 것은 감성의 성질을 뚜렷하게 나타내고 있다는 것으로 살펴볼 수 있다.)를 바탕으로 Label spreading 방법을 적용함으로써 감성 키워드의 감성 수치값을 확장할 수 있다. 즉, 절대값이 큰 상위 감성 키워드와 거리가 가까운 감성 키워드는 해당 감성 키워드가 갖는 감성수치값을 사용하거나, 거리대비 감성수치값을 산출하여 보완할 수 있다. 감성사전 구축부(154)는 감성 키워드를 분류기준에 따라 할당하고 감성수치값을 부여하여 저장부(130)에 저장하여 감성사전을 구축할 수 있다.
도 3은 본 개시에 따른 분류기준의 일 예를 보여주는 도면이다.
도 3에 기재된 분류기준(200)은 감성사전을 사용하고자 하는 분야가 숙박인 경우의 예이다. 분류기준은 상, 중, 하로 계층적으로 형성될 수 있다. 분류기준_상은 감성사전을 사용하고자 하는 대상을 의미하며, 분류기준_중은 감성사전을 사용하고자 하는 대상에서 사용자의 긍정 또는 부정한 감정을 발생시키는 요인을 의미하고, 분류기준_하는 사용자의 긍정 또는 부정한 감정을 발생시키는 요인과 관련된 용어에 해당한다. 예를 들어 숙박업소를 사용하는 사용자는 객실의 냉난방 상태에 따라 너무 덥거나 추운 경우 사용한 숙박업소에 대한 감성이 긍정적일 수도 있고 부정적일 수도 있다. 이러한 기준에 따라 숙박을 분류기준_상에 할당하고, 객실을 분류기준_중에 할당하고, 냉난방을 분류기준_하에 할당할 수 있다. 특히 분류기준_하에 사용된 용어는 감성 키워드를 선별 및 감성 키워드를 분류기준에 따라 감성사전을 구축할 때 기준이 된다. 예를 들어 감성 키워드 후보에 "이불 좋았다"와 "가격 좋았다"가 있는 경우 "명사" 부분을 보면 감성 키워드 후보에는 "이불"과 "가격"이 포함될 수 있다. 그러나 도 3에 기재된 분류기준을 보면 분류기준_하에는 "이불"이라는 단어가 없기 때문에 "이불 좋았다"라는 감성 키워드 후보는 감성 키워드로 탈락하고 "가격 좋았다"만이 감성 키워드로 선별될 수 있다. 또한 선별된 감성 키워드가 "가격 좋았다"인 경우 감성 키워드에 포함된 "명사"인 "가격"을 분류기준_하에 사용된 용어와 비교하여 일치하는 분류기준_하에 감성 키워드를 할당할 수 있다. 분류기준(200)은 대표적인 호텔 예약 대행 사이트에 올라온 리뷰데이터를 수집한 후 수집된 리뷰데이터(텍스트 정보)에 Word2Vec기법을 사용하여 명사, 형용사 추출한다. 이후 추출한 명사와 형용사를 기반으로 명사 Clustering 을 하고 분석된 Cluster들 중에서 대표어를 지정한다. 대표어를 분류기준_중에 할당하여 저장하고 대표어에 속하는 단어들을 각각의 대표어에 할당하여 분류기준_하에 저장한다. 이와 같은 방법으로 저장부(130)에 저장된 분류기준(200)은 감성사전을 구축할 때 사용될 수 있다. 분류기준은 숙박업소 이외에 여행지, 가전제품 등에 대하여 작성될 수도 있다.
도 4는 본 개시에 따른 감성사전 구축방법의 일 예를 보여주는 흐름도이다.
본 개시에 따른 감성사전 구축은 먼저 데이터 수집부(151)가 데이터를 수집한다(S1). 데이터 수집부(151)가 수집하는 데이터는 텍스트 정보와 평점 정보일 수 있으며 도 2(b)에 기재하였다. 데이터 수집부(151)는 데이터를 통신부(110)를 통해 수집한다. 이후 데이터 전처리부(152)가 수집된 데이터를 주어진 문장형태에 따라 전처리한다(S2). 이후 감성 키워드 선별부(153)가 전처리된 데이터로부터 감성 키워드를 선별한다(S3). 감성 키워드 선별부(153)가 감성 키워드를 선별하는 구체적인 방법은 도 2 및 도 3에 기재하였다. 이후 감성사전 구축부(154)가 선별된 감성 키워드를 저장부(130)에 저장된 분류기준에 따라 감성사전을 구축한다(S4). 감성사전 구축부(154)가 감성사전을 구축하는 구체적 방법은 도 2 및 도 3에 기재하였다. 이후 구축된 감성사전은 저장부(130)에 저장될 수 있다. 본 개시에 따라 구축된 감성사전을 사용하여 제품 사용 후기, 숙박업소 사용 후기, 영화 감상 후기 등 특정 활동을 수행한 사용자가 갖는 감성을 표현한 텍스트로부터 사용자의 긍정, 부정과 같은 감정을 종래 감성사전보다 더 정확히 확인할 수 있다.
이하 본 개시의 다양한 실시 형태에 대하여 설명한다.
(1) 감성사전 구축방법에 있어서, 데이터(data) 수집부가 데이터를 수집하는 단계; 데이터 전처리부가 수집된 데이터를 주어진 문장형태에 따라 데이터를 전처리하는 단계; 감성 키워드 선별부가 전처리된 데이터로부터 감성 키워드를 선별하는 단계; 그리고 감성사전 구축부가 선별된 감성 키워드를 미리 설정된 분류기준에 따라 분류하여 감성사전을 구축하는 단계;를 포함하는 감성사전 구축방법.
(2) 데이터 전처리부는 데이터를 명사+형용사 및 형용사+명사의 문장형태 중 하나에 따라 변형하는 감성사전 구축방법.
(3) 감성 키워드 선별부는 미리 설정된 기초 감성 표현을 기준으로 전처리된 데이터로부터 복수의 감성 키워드 후보를 추출하고 추출된 감성 키워드 후보로부터 복수의 감성 키워드를 선별하는 감성사전 구축방법.
(4) 감성 키워드 선별부는 선별된 감성 키워드를 대상으로 Word2Vec 방법을 적용하여 추가의 감성 키워드 후보를 추출한 후 추가된 감성 키워드 후보로부터 감성 키워드를 추가로 선별하는 과정을 적어도 1회 이상 반복하는 감성사전 구축방법.
(5) 감성 키워드 선별부는 각각의 감성 키워드 후보에 사용된 명사를 미리 설정된 분류기준과 비교하여 분류기준에 포함된 명사를 사용한 감성 키워드 후보를 감성 키워드로 선별하는 감성사전 구축방법.
(6) 감성사전 구축부는 감성 키워드마다 감성 키워드가 나타내는 긍정 또는 부정의 정도를 수치로 나타내는 감성수치값을 부여하는 감성사전 구축방법.
(7) 감성수치값은 감성 키워드가 추출된 텍스트 정보와 함께 기재하고 있는 평점 정보를 반영한 감성사전 구축방법.
(8) 분류기준은 상,중,하로 계층적으로 분류된 감성사전 구축방법.
(9) 감성 키워드 선별부는 분류기준_하에 사용된 용어를 기준으로 감성 키워드를 선별하는 감성사전 구축방법.
(10) 감성 키워드는 명사를 포함하며, 감성사전 구축부는 감성 키워드에 포함된 명사와 분류기준_하에 사용된 용어를 비교하여 일치하는 분류기준_하에 감성 키워드를 할당하는 감성사전 구축방법.
(11) 감성사전 구축 시스템에 있어서, 외부의 데이터를 받을 수 있는 통신부; 표시부; 감성 키워드를 저장하는 저장부; 입력부; 그리고 데이터수집부, 데이터 전처리부, 감성 키워드 선별부 및 감성 사전 구축부를 포함하는 제어부;를 포함하며, 감성사전 구축부는 미리 설정된 분류기준에 따라 감성사전을 구축하는 감성사전 구축 시스템.
(12) 감성사전 구축부는 감성 키워드마다 감성 키워드가 나타내는 긍정 또는 부정의 정도를 수치로 나타내는 감성수치값을 부여하는 감성사전 구축 시스템.
(13) 감성수치값은 감성 키워드가 추출된 텍스트 정보와 함께 기재하고 있는 평점정보를 반영한 감성사전 구축 시스템.
본 개시에 의하면, 텍스트로부터 텍스트를 작성한 사용자의 감성을 종래의 감성사전보다 향상되어 파악할 수 있다.
데이터 수집부 : 151
데이터 전처리부 : 152
감성 키워드 선별부 : 153
감성사전 구축부 : 154

Claims (13)

  1. 감성사전 구축방법에 있어서,
    데이터(data) 수집부가 데이터를 수집하는 단계;
    데이터 전처리부가 수집된 데이터를 주어진 문장형태에 따라 데이터를 전처리하는 단계;
    감성 키워드 선별부가 전처리된 데이터로부터 감성 키워드를 선별하는 단계; 그리고
    감성사전 구축부가 선별된 감성 키워드를 미리 설정된 분류기준에 따라 분류하여 감성사전을 구축하는 단계;를 포함하는 감성사전 구축방법.
  2. 제1항에 있어서,
    데이터 전처리부는 데이터를 명사+형용사 및 형용사+명사의 문장형태 중 하나에 따라 변형하는 감성사전 구축방법.
  3. 제1항에 있어서,
    감성 키워드 선별부는
    미리 설정된 기초 감성 표현을 기준으로 전처리된 데이터로부터 복수의 감성 키워드 후보를 추출하고 추출된 감성 키워드 후보로부터 복수의 감성 키워드를 선별하는 감성사전 구축방법.
  4. 제3항에 있어서,
    감성 키워드 선별부는 선별된 감성 키워드를 대상으로 Word2Vec 방법을 적용하여 추가의 감성 키워드 후보를 추출한 후 추가된 감성 키워드 후보로부터 감성 키워드를 추가로 선별하는 과정을 적어도 1회 이상 반복하는 감성사전 구축방법.
  5. 제3항에 있어서,
    감성 키워드 선별부는
    각각의 감성 키워드 후보에 사용된 명사를 미리 설정된 분류기준과 비교하여 분류기준에 포함된 명사를 사용한 감성 키워드 후보를 감성 키워드로 선별하는 감성사전 구축방법.
  6. 제1항에 있어서,
    감성사전 구축부는 감성 키워드마다 감성 키워드가 나타내는 긍정 또는 부정의 정도를 수치로 나타내는 감성수치값을 부여하는 감성사전 구축방법.
  7. 제6항에 있어서,
    감성수치값은 감성 키워드가 추출된 텍스트 정보와 함께 기재하고 있는 평점 정보를 반영한 감성사전 구축방법.
  8. 제1항에 있어서,
    분류기준은 상,중,하로 계층적으로 분류된 감성사전 구축방법.
  9. 제8항에 있어서,
    감성 키워드 선별부는 분류기준_하에 사용된 용어를 기준으로 감성 키워드를 선별하는 감성사전 구축방법.
  10. 제8항에 있어서,
    감성키워드는 명사를 포함하며,
    감성사전 구축부는 감성 키워드에 포함된 명사와 분류기준_하에 사용된 용어를 비교하여 일치하는 분류기준_하에 감성 키워드를 할당하는 감성사전 구축방법.
  11. 감성사전 구축 시스템에 있어서,
    외부의 데이터를 받을 수 있는 통신부;
    표시부;
    감성 키워드를 저장하는 저장부;
    입력부; 그리고
    데이터수집부, 데이터 전처리부, 감성 키워드 선별부 및 감성 사전 구축부를 포함하는 제어부;를 포함하며,
    감성사전 구축부는 미리 설정된 분류기준에 따라 감성사전을 구축하는 감성사전 구축 시스템.
  12. 제11항에 있어서,
    감성사전 구축부는 감성 키워드마다 감성 키워드가 나타내는 긍정 또는 부정의 정도를 수치로 나타내는 감성수치값을 부여하는 감성사전 구축 시스템.
  13. 제12항에 있어서,
    감성수치값은 감성 키워드가 추출된 텍스트 정보와 함께 기재하고 있는 평점정보를 반영한 감성사전 구축 시스템.
KR1020180157063A 2018-12-07 2018-12-07 감성사전 구축 방법 및 시스템 KR20200075068A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180157063A KR20200075068A (ko) 2018-12-07 2018-12-07 감성사전 구축 방법 및 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180157063A KR20200075068A (ko) 2018-12-07 2018-12-07 감성사전 구축 방법 및 시스템

Publications (1)

Publication Number Publication Date
KR20200075068A true KR20200075068A (ko) 2020-06-26

Family

ID=71136714

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180157063A KR20200075068A (ko) 2018-12-07 2018-12-07 감성사전 구축 방법 및 시스템

Country Status (1)

Country Link
KR (1) KR20200075068A (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112053758A (zh) * 2020-08-27 2020-12-08 北京颢云信息科技股份有限公司 一种单病种数据库智能构建及优化方法
KR102371960B1 (ko) * 2021-02-23 2022-03-07 이봉현 4pl 기반의 택배 플래닝 서비스 시스템
KR20220073498A (ko) * 2020-11-26 2022-06-03 주식회사 알에스엔 텍스트 데이터에 대한 주제 별 분류 사전 구축방법 및 이를 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 저장매체

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112053758A (zh) * 2020-08-27 2020-12-08 北京颢云信息科技股份有限公司 一种单病种数据库智能构建及优化方法
CN112053758B (zh) * 2020-08-27 2024-04-16 北京颢云信息科技股份有限公司 一种单病种数据库智能构建方法
KR20220073498A (ko) * 2020-11-26 2022-06-03 주식회사 알에스엔 텍스트 데이터에 대한 주제 별 분류 사전 구축방법 및 이를 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 저장매체
KR20220137603A (ko) * 2020-11-26 2022-10-12 주식회사 알에스엔 텍스트 데이터에 대한 주제 별 분류 사전 구축방법 및 이를 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 저장매체
KR102371960B1 (ko) * 2021-02-23 2022-03-07 이봉현 4pl 기반의 택배 플래닝 서비스 시스템

Similar Documents

Publication Publication Date Title
US11714861B2 (en) Query selection method and system
Barlas et al. To" see" is to stereotype: Image tagging algorithms, gender recognition, and the accuracy-fairness trade-off
CN111680159B (zh) 数据处理方法、装置及电子设备
JP6381775B2 (ja) 情報処理システム及び情報処理方法
CN109657054A (zh) 摘要生成方法、装置、服务器及存储介质
KR20200075068A (ko) 감성사전 구축 방법 및 시스템
WO2020123689A1 (en) Suggesting text in an electronic document
JP6653833B1 (ja) 文書情報評価装置および文書情報評価方法並びに文書情報評価プログラム
Brent et al. “Feeling the Beat” Intelligent Coding Advice from Metaknowledge in Qualitative Research
JP2022035314A (ja) 情報処理装置及びプログラム
JPH09231238A (ja) テキスト検索結果表示方法及び装置
Başarslan et al. Sentiment analysis with ensemble and machine learning methods in multi-domain datasets
de las Heras et al. Runlength histogram image signature for perceptual retrieval of architectural floor plans
JP2021086592A (ja) 文書情報評価装置および文書情報評価方法並びに文書情報評価プログラム
CN111816276B (zh) 患教教程推荐方法、装置、计算机设备和存储介质
Marchenko et al. Examining the historical development of techno-scientific biomedical communication in Russia
JP7255585B2 (ja) 情報処理装置、情報処理方法、および、プログラム
Kaili et al. Improving the Representation Choices of Privacy Policies for End-Users
Saraswati et al. Recognize The Polarity of Hotel Reviews using Support Vector Machine
Tamilarasan Ramasamy Early risk detection of depression from social media posts using hierarchical attention networks
Basarslan et al. Sentiment analysis with ensemble and machine learning methods in multi-domain datasets
US11768879B2 (en) Advice presentation system
KR102340404B1 (ko) 언어 단위를 이용한 영화 추천 항목 관리 방법 및 장치
Barlas et al. To “See” is to Stereotype
JP7193890B2 (ja) 文書情報評価装置および文書情報評価方法並びに文書情報評価プログラム

Legal Events

Date Code Title Description
E601 Decision to refuse application