KR20200084460A

KR20200084460A - 기계학습을 위한 학습 데이터를 생성하는 방법 및 장치, 생성된 학습 데이터를 이용한 소셜 미디어 분석 장치

Info

Publication number: KR20200084460A
Application number: KR1020180170519A
Authority: KR
Inventors: 백봉현
Original assignee: (주)아르고스
Priority date: 2018-12-27
Filing date: 2018-12-27
Publication date: 2020-07-13

Abstract

본 발명은 기계학습을 위한 학습 데이터를 생성하는 방법 및 장치, 생성된 학습 데이터를 이용한 소셜 미디어 분석 장치에 관한 것이다. 본 발명의 실시예에 따른, 기계학습을 위한 학습데이터를 생성하는 방법은, 키워드와 관련하여 제공된 설문 및 상기 키워드와 관련된 소셜 미디어 상 게시글로부터 비정형 데이터를 수집하는 단계; 상기 수집된 비정형 데이터를 기초로, 상기 수집된 비정형 데이터로부터 불용(不用) 데이터를 필터링할 수 있도록 하는 제1 학습데이터를 생성하는 단계; 및 상기 수집된 비정형 데이터를 기초로, 상기 필터링된 비정형 데이터를 긍정 데이터, 부정 데이터 및 중립 데이터로 분류할 수 있도록 하는 제2 학습데이터를 생성하는 단계를 포함하고, 상기 제1 및 제2 학습데이터는, 긍정 문맥 사전, 부정 문맥 사전, 긍정어절사전, 부정어절사전, 금칙어 사전 및 광고 및 음란 사전을 포함하는 기 설정된 의미사전을 기초로 하여 생성되는 것을 특징으로 할 수 있다.

Description

기계학습을 위한 학습 데이터를 생성하는 방법 및 장치, 생성된 학습 데이터를 이용한 소셜 미디어 분석 장치{METHOD AND APPARATUS FOR GENERATING LEARNING DATA FOR MACHINE LEARNING, AND SOCIAL MEDIA ANALYSIS APPARATUS USING GENERATED LEARNING DATA}

본 발명은 기계학습을 위한 학습 데이터를 생성하는 방법 및 장치, 생성된 학습 데이터를 이용한 소셜 미디어 분석 장치에 관한 것이다.

최근 PC(personal computer) 뿐만 아니라, 인터넷 포털 사이트에 접속하여 인터넷 광고를 접할 수 있는 스마트폰 및 태블릿 PC (tablet PC)와 같이 다양한 모바일 디바이스의 출현으로 SNS(Social Network Service: 소셜 네트워크 서비스) 이용자가 날로 증가하고 있다.

SNS는 웹 상에서 이용자들이 인적 네트워크를 형성할 수 있게 해 주는 서비스로서, 이러한 SNS는 나 자신 즉 개인이 중심이 되어 자신의 관심사와 개성을 타인과 ‘공유’한다는 특징이 있다.

SNS는 초기에는 주로 친목도모 엔터테인먼트 용도로 활용되었으나 이후 비즈니스, 각종 정보공유 등 생산적 용도로 활용되고 있고, 인터넷 검색보다 SNS를 통하여 최신 정보를 찾고 이를 활용하는 이들도 많다.

이와 같이, SNS 이용자는 사회/경제/정체 등 다양한 분야에서의 자신들의 의견을 표출하고 있으며, SNS 상의 데이터를 분석하여 사회/경제/정치 등의 다양한 분야에서의 흐름(예를 들어, 각 분야에서의 이용자들의 주된 관심사)에 대한 정보를 생성할 수 있다.

하지만, SNS 상에는 실제 분석에 도움이 되는 정(正)데이터, 광고성 데이터 및 의미 없는 쓰레기 데이터가 혼재되어 있기 때문에 SNS 상의 모든 데이터를 이용하는 경우 정확한 분석 데이터를 얻기 어렵다.

대한민국공개특허공보 제10-2013-0055365호

본 발명이 해결하고자 하는 과제는, 소셜 미디어의 게시글 및 설문 답변으로부터 획득한 비정형 데이터를 이용하여 기계학습에 필요한 학습데이터를 얻는 것이다.

본 발명이 해결하고자 하는 과제는, 본 발명의 일 실시예에 따라 생성된 학습데이터를 이용하여 훈련되는 기계학습을 기초로 소셜 미디어를 분석하여 키워드에 대한 평판 정보를 획득하는 것이다.

본 발명의 실시예에 따른, 기계학습을 위한 학습데이터를 생성하는 방법은, 키워드와 관련하여 제공된 설문 및 상기 키워드와 관련된 소셜 미디어 상 게시글로부터 비정형 데이터를 수집하는 단계; 상기 수집된 비정형 데이터를 기초로, 상기 수집된 비정형 데이터로부터 불용(不用) 데이터를 필터링할 수 있도록 하는 제1 학습데이터를 생성하는 단계; 및 상기 수집된 비정형 데이터를 기초로, 상기 필터링된 비정형 데이터를 긍정 데이터, 부정 데이터 및 중립 데이터로 분류할 수 있도록 하는 제2 학습데이터를 생성하는 단계를 포함하고, 상기 제1 및 제2 학습데이터는, 긍정 문맥 사전, 부정 문맥 사전, 긍정어절사전, 부정어절사전, 금칙어 사전 및 광고 및 음란 사전을 포함하는 기 설정된 의미사전을 기초로 하여 생성되는 것을 특징으로 할 수 있다.

본 발명의 실시예에 따른, 기계학습 방식으로 비정형 데이터를 분석하는 장치는, 키워드가 설정되면, 상기 키워드와 관련하여 제공된 설문 및 상기 키워드와 관련된 소셜 미디어 상 게시글로부터 비정형 데이터를 수집하는 비정형 데이터 수집부; 상기 수집된 비정형 데이터를 기초로, 상기 수집된 비정형 데이터로부터 불용(不用) 데이터를 필터링할 수 있도록 하는 제1 학습데이터와, 상기 필터링된 비정형 데이터를 긍정 데이터, 부정 데이터 및 중립 데이터로 분류할 수 있도록 하는 제2 학습데이터를 생성하는 학습데이터 생성부; 상기 기계학습 방식을 기초로 하여 상기 수집된 비정형 데이터로부터 상기 불용 데이터를 필터링하는 데이터 필터부; 및 상기 기계학습 방식을 기초로 하여 상기 필터링된 비정형 데이터를 긍정데이터, 부정데이터 및 중립데이터로 분류하고, 상기 긍정데이터, 상기 부정데이터 및 상기 중립데이터를 기초로 상기 키워드에 대한 평판을 분석하는 데이터 분석부;를 포함할 수 있다.

본 발명에 따르면, 소셜 미디어의 게시글 및 설문 답변으로부터 획득한 비정형 데이터를 이용하여 기계학습에 필요한 학습데이터를 얻을 수 있다.

본 발명에 따르면, 본 발명의 일 실시예에 따라 생성된 학습데이터를 이용하여 훈련되는 기계학습을 기초로 소셜 미디어를 분석하여 키워드에 대한 평판 정보를 획득할 수 있다.

도 1은 본 발명의 일 실시예에 따라 기계학습을 위한 학습 데이터를 생성하고 생성된 학습데이터로 소셜 미디어 상 데이터를 분석하기 위한 전체 시스템의 개략적인 구성을 나타내는 도면이다.
도 2는 본 발명의 일 실시예에 따른 서버의 내부 구성을 상세하게 도시하는 도면이다.
도 3은 본 발명의 일 실시예에 따른 긍정 및 부정문맥사전을 예시적으로 나타내는 도면이다.
도 4는 본 발명의 일 실시예에 따른 긍정 및 부정어절사전을 예시적으로 나타내는 도면이다.
도 5는 본 발명의 일 실시예에 따라 학습데이터를 생성하고, 소셜 미디어 상 데이터를 분석하는 과정을 예시적으로 설명하기 위한 순서도이다.
도 6은 본 발명의 실시예에 따른 컴퓨팅 장치를 나타내는 도면이다.

아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

본 명세서에서, 동일한 구성요소에 대해서 중복된 설명은 생략한다.

또한 본 명세서에서, 어떤 구성요소가 다른 구성요소에 '연결되어' 있다거나 '접속되어' 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에 본 명세서에서, 어떤 구성요소가 다른 구성요소에 '직접 연결되어' 있다거나 '직접 접속되어' 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

또한, 본 명세서에서 사용되는 용어는 단지 특정한 실시예를 설명하기 위해 사용되는 것으로써, 본 발명을 한정하려는 의도로 사용되는 것이 아니다.

또한 본 명세서에서, 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다.

또한 본 명세서에서, '포함하다' 또는 '가지다' 등의 용어는 명세서에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품, 또는 이들을 조합한 것이 존재함을 지정하려는 것일 뿐, 하나 또는 그 이상의 다른 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 할 것이다.

또한 본 명세서에서, '및/또는' 이라는 용어는 복수의 기재된 항목들의 조합 또는 복수의 기재된 항목들 중의 어느 항목을 포함한다. 본 명세서에서, 'A 또는 B'는, 'A', 'B', 또는 'A와 B 모두'를 포함할 수 있다.

또한 본 명세서에서, 본 발명의 요지를 흐리게 할 수 있는 공지 기능 및 구성에 대한 상세한 설명은 생략될 것이다.

도 1은 본 발명의 일 실시예에 따라 기계학습을 위한 학습 데이터를 생성하고 생성된 학습데이터로 소셜 미디어 상 데이터를 분석하기 위한 전체 시스템의 개략적인 구성을 나타내는 도면이다.

도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 전체 시스템은 통신망(100), 서버(200) 및 사용자의 단말 장치(300)를 포함하여 구성될 수 있다. 한편, 본 명세서에서 서버(200)는 ‘장치’ 또는 ‘컴퓨팅 장치’로 지칭될 수도 있다.

먼저, 본 발명의 일 실시예에 따른 통신망(100)은 데이터 송수신 서비스가 가능한 대형 통신망의 고속 기간 망일 수 있으며, 인터넷(Internet) 또는 고속의 멀티미디어 서비스를 제공하기 위한 와이파이(Wi-Fi), 와이기그(WiGig), 와이브로(Wireless Broadband Internet, Wibro), 와이맥스(World Interoperability for Microwave Access, Wimax) 등을 포함하는 차세대 무선망일 수 있다.

상기 인터넷은 TCP/IP 프로토콜 및 그 상위계층에 존재하는 여러 서비스, 즉 HTTP(Hyper Text Transfer Protocol), Telnet, FTP(File Transfer Protocol), DNS(Domain Name System), SMTP(Simple Mail Transfer Protocol), SNMP(Simple Network Management Protocol), NFS(Network File Service), NIS(Network Information Service) 등을 제공하는 전 세계적인 개방형 컴퓨터 네트워크 구조를 의미할 수 있으며, 사용자 단말 장치(300)가 서버(200)에 접속될 수 있게 하는 환경을 제공할 수 있다.

한편, 상기 인터넷은 유선 또는 무선 인터넷일 수도 있고, 이외에도 유선 공중망, 무선 이동 통신망, 또는 휴대 인터넷 등과 통합된 코어망 일 수도 있다.

만약, 통신망(100)이 이동 통신망일 경우 동기식 이동 통신망일 수도 있고, 비동기식 이동 통신망일 수도 있다. 상기 비동기식 이동 통신망의 실시 예로서, WCDMA(Wideband Code Division Multiple Access) 방식의 통신망을 들 수 있다. 이 경우 도면에 도시되진 않았지만, 상기 이동 통신망은 예컨대, RNC(Radio Network Controller) 등을 포함할 수 있다. 한편, 상기 WCDMA망을 일 예로 들었지만, 3G LTE망, 4G망, 5G망 등 차세대 통신망, 그 밖의 IP를 기반으로 한 IP 망일 수 있다.

다음으로, 본 발명의 일 실시예에 따른 서버(200)는 통신망(100)을 통하여 사용자의 단말 장치(300)로부터 정보(예를 들어, 소셜 미디어의 게시글, 서버(200)에서 제공한 설문에 대한 답변 등)를 획득하고, 획득한 정보를 소정 기준에 따라 기계학습을 통해 분석 및 분류하는 기능을 수행할 수 있다. 또한, 서버(200)는 기계학습을 위한 학습 데이터를 생성하는 기능을 수행할 수도 있다.

본 발명에 따른 서버(200)의 구성과 기능에 관하여는 아래의 상세한 설명을 통하여 자세하게 알아보기로 한다.

한편, 본 발명의 일 실시예에 따른 사용자 단말 장치(300)는 서버(200)에 접속한 후 통신할 수 있는 기능을 포함하는 디지털 기기로서, 데스크탑 컴퓨터, 노트북 컴퓨터, 워크스테이션, PDA, 웹 패드, 이동 전화기 등과 같이 메모리 수단을 구비하고 마이크로 프로세서를 탑재하여 연산 능력을 갖춘 디지털 기기라면 얼마든지 본 발명에 따른 사용자 단말 장치(300)로서 채택될 수 있다.

특히, 사용자 단말 장치(300)에는 서버(200)가 제공하는 사용자 인터페이스를 제공받을 수 있도록 하는 브라우저(browser) 관련 프로그램이 포함되어 있을 수 있다.

이하에서는, 본 발명에 따른 서버의 내부 구성과 각 구성요소의 기능에 대하여 살펴보기로 한다.

도 2는 본 발명의 일 실시예에 따른 서버의 내부 구성을 상세하게 도시하는 도면이다.

도 2에 도시된 바와 같이, 본 발명의 일 실시예에 따른 서버(200)는, 비정형 데이터 수집부(210), 학습데이터 생성부(220), 데이터 필터부(230), 데이터 분석부(240), 데이터베이스(250), 통신부(260) 및 제어부(270)를 포함하여 구성될 수 있다. 본 발명의 일 실시예에 따르면, 비정형 데이터 수집부(210), 학습데이터 생성부(220), 데이터 필터부(230), 데이터 분석부(240), 데이터베이스(250), 통신부(260) 및 제어부(270)는 그 중 적어도 일부가 사용자 단말 장치(300)와 통신하는 프로그램 모듈일 수 있다. 이러한 프로그램 모듈은 운영 시스템, 응용 프로그램 모듈 또는 기타 프로그램 모듈의 형태로 서버(200)에 포함될 수 있고, 물리적으로는 여러 가지 공지의 기억 장치에 저장될 수 있다.　 또한, 이러한 프로그램 모듈은 서버(200)와 통신 가능한 원격 기억 장치에 저장될 수도 있다.　 한편, 이러한 프로그램 모듈은 본 발명에 따라 후술할 특정 업무를 수행하거나 특정 추상 데이터 유형을 실행하는 루틴, 서브루틴, 프로그램, 오브젝트, 컴포넌트, 데이터 구조 등을 포괄하지만, 이에 제한되지는 않는다.

먼저, 비정형 데이터 수집부(210)는 키워드가 설정되면 설정된 키워드에 대한 비정형 데이터를 수집하는 기능을 할 수 있다. 구체적으로, 상기 비정형 데이터는 상기 키워드에 대한 설문 조사로부터 획득한 데이터를 포함할 수 있다. 비정형 데이터 수집부(210)는 설문 조사로부터 상기 비정형 데이터를 획득하기 위하여, 사용자 단말 장치(300)에 상기 키워드와 관련된 정보를 획득하기 위한 설문 내용을 디스플레이할 수 있으며, 상기 설문 내용은 상기 키워드에 대한 적어도 하나 이상의 주관식 질문을 포함할 수 있다.

또한, 상기 비정형 데이터는 상기 키워드와 관련된 소셜 미디어 상 게시글로부터 획득한 데이터를 포함할 수 있다.

한편, 비정형 데이터는, 분석에 도움이 되지 않는 무의미한 데이터인 불용(不用) 데이터, 키워드에 대한 사용자의 생각을 알 수 있어 분석 대상이 되는 분석대상 데이터, 및 상기 불용 데이터 및 상기 분석대상 데이터와 상이한 광고성 데이터를 포함할 수 있다.

이하에서는 도 3 및 도 4를 더 참조하여, 학습데이터 생성부(220)의 기능에 대하여 구체적으로 설명하도록 한다.

도 3은 본 발명의 일 실시예에 따른 긍정 및 부정문맥사전을 예시적으로 나타내는 도면이고, 도 4는 본 발명의 일 실시예에 따른 긍정 및 부정어절사전을 예시적으로 나타내는 도면이다.

학습데이터 생성부(220)는 후술할 데이터 필터부(230) 및 데이터 분석부(240)에서 사용될 기계학습을 위한 학습데이터를 생성하는 기능을 수행할 수 있다. 구체적으로, 학습데이터 생성부(220)는 비정형 데이터 수집부(210)에서 수집한 비정형 데이터를 자연어 처리하여 제1 학습데이터 및 제2 학습데이터를 생성할 수 있다.

제1 학습데이터는 수집된 비정형 데이터가 불용 데이터인지, 분석대상 데이터인지, 또는 광고성 데이터인지 분류할 수 있도록 하는 학습데이터일 수 있다. 또한, 제2 학습데이터는 수집된 비정형 데이터가 긍정 데이터인지, 부정 데이터인지 또는 중립 데이터인지 분류할 수 있도록 하는 학습데이터일 수 있다.

학습데이터 생성부(220)는, 수집된 비정형 데이터를 이용하여 학습데이터를 생성하기 위하여, 긍정 문맥 사전, 부정 문맥 사전, 긍정어절사전, 부정어절사전, 금칙어 사전 및 광고/음란 사전을 포함하는 의미 사전이 저장된 데이터베이스를 포함하거나 상기 데이터베이스와 통신할 수 있다.

학습데이터 생성부(220)는 먼저, 수집된 비정형 데이터를 문장 단위로 분석하는 1차 분석 단계를 수행하며, 분석 대상의 문장과, 도 3에 도시된 것과 같은 긍정문맥 사전 및 부정문맥 사전을 매칭하여, 분석 대상의 문장이 긍정 데이터인지 부정 데이터인지 분석할 수 있다.

예를 들어, 0을 기준으로 분석 대상이 긍정문맥 사전에 기록된 단어와 매칭될 때마다 1씩 증가시키고, 부정문맥 사전에 기록된 단어와 매칭될 때마다 1씩 감소시켜, 결론적으로 분석 대상이 0보다 큰 값을 가지면 긍정 데이터인 것으로 판단하고, 0보다 작은 값을 가지면 부정 데이터인 것으로 판단할 수 있다.

만약, 분석 대상이 0의 값을 갖는 경우, 즉 분석 대상이 긍정데이터인지 부정데이터인지 판단하지 못한 경우, 학습데이터 생성부(220)는 수집된 비정형 데이터를 어절 별로 분석하는 2차 분석 단계를 수행할 수 있다.

구체적으로, 학습데이터 생성부(220)는 수집된 비정형 데이터 중 분석 대상에서 링크, 특수기호 등 분석에 불필요한 요소를 제거한 후, 도 4에 도시된 것과 같은 긍정어절 사전 및 부정어절 사전과 비교할 수 있다.

예를 들어, 1차 분석 단계에서와 같이, 학습데이터 생성부(220)는 긍정어절 사전 및 부정어절 사전과 비교하여 카운터 값을 계산하고, 카운터 값이 0보다 크면 긍정 데이터로, 카운터 값이 0보다 작으면 부정 데이터로 판단할 수 있다.

또한, 카운터 값이 0인 경우, 즉 2차 분석 단계에서 분석 대상이 긍정데이터인지 부정데이터인지 판단하지 못한 경우 후술할 3차 분석 단계를 수행할 수 있다.

학습데이터 생성부(220)는 형태소분석기를 이용하여 분석 대상을 품사별로 나누고, 긍정어절 사전 및 부정어절 사전과 비교하여 카운터 값을 계산하는 3차 분석 단계를 수행할 수 있다. 이 때, 형태소분석기는 공지의 형태소분석기(예를 들어, 코모란 형태소분석기)가 사용될 수 있다.

학습데이터 생성부(220)는, 산출된 카운터 값이 0보다 크면 긍정 데이터로, 카운터 값이 0보다 작으면 부정 데이터로 판단할 수 있다. 또한, 카운터 값이 0인 경우, 즉 3차 분석 단계에서 분석 대상이 긍정데이터인지 부정데이터인지 판단하지 못한 경우 후술할 4차 분석 단계를 수행할 수 있다.

학습데이터 생성부(220)는 분석 대상을 금칙어 사전과 비교하여 카운터 값이 기 설정된 값 이상이면 부정데이터인 것으로 판단하고, 그렇지 않으면 중립데이터 또는 긍정데이터인 것으로 판단하는 4차 분석 단계를 수행할 수 있다. 한편, 도면에 도시되지는 않았으나, 금칙어 사전은 예를 들어 비속어들을 포함할 수 있다.

마지막으로, 학습데이터 생성부(220)는 분석 대상을 광고/음란 사전과 비교하여, 분석 대상이 광고성 데이터에 해당하는지, 또는 음란성 데이터에 해당하는지를 판단할 수 있다.

다음으로, 데이터 필터부(230)는 기계학습 방식을 기초로 하여 비정형 데이터 수집부(210)에서 수집된 비정형 데이터를 불용 데이터, 분석대상 데이터 및 광고성 데이터로 분류할 수 있다.

데이터 필터부(230)는 수집된 비정형 데이터가 불용 데이터인지, 분석대상 데이터인지 또는 광고성 데이터인지를 구분할 수 있도록 훈련할 수 있으며, 이때 학습데이터 생성부(220)로부터 전달받은 제1 학습데이터를 기초로 하여 훈련할 수 있다.

다음으로, 데이터 분석부(240)는 기계학습 방식을 기초로 하여 수집된 비정형 데이터에서 불용 데이터를 제외한 데이터, 즉 분석대상 데이터 및 광고성 데이터를 분류함으로써 데이터에 대한 사용자 평판을 분석할 수 있다.

구체적으로 데이터 분석부(240)는 분석대상 데이터 및 광고성 데이터를, 긍정 데이터, 부정 데이터 및 중립 데이터로 분류할 수 있다. 데이터 분석부(240)는 입력되는 데이터가 긍정 데이터인지, 부정 데이터인지 또는 중립 데이터인지를 구분할 수 있도록 훈련할 수 있으며, 이때 학습데이터 생성부(220)로부터 전달받은 제2 학습데이터를 기초로 하여 훈련할 수 있다.

긍정 데이터, 부정 데이터 및 중립 데이터로부터 키워드에 대한 사용자의 호불호를 판단할 수 있는 바, 데이터 분석부(240)는 분류된 긍정 데이터, 부정 데이터 및 중립 데이터 정보를 참조로 하여, 키워드에 대한 불특정 다수의 평판을 분석할 수 있다.

또한, 데이터 분석부(240)는 분류된 긍정 데이터, 부정 데이터 및 중립 데이터 정보에, 키워드에 대한 객관식 설문 조사로부터 획득한 데이터를 더 참조로 하여 상기 키워드에 대한 종합적인 평판을 분석할 수 있다.

다음으로, 본 발명의 일 실시예에 따른 데이터베이스(250)에는, 수집된 비정형 데이터, 학습데이터 생성부(220)에서 생성된 학습데이터에 대한 정보, 긍정 문맥 사전, 부정 문맥 사전, 긍정어절사전, 부정어절사전, 금칙어 사전 및 광고/음란 사전 등이 저장될 수 있다. 비록 도 2에서 데이터베이스(250)가 서버(200)에 포함되어 구성되는 것으로 도시되어 있지만, 본 발명을 구현하는 당업자의 필요에 따라, 데이터베이스(250)는 서버(200)와 별개로 구성될 수도 있다. 또한, 도 2에는 하나의 데이터베이스(250)만이 도시되어 있지만 본 발명이 이에 제한되는 것은 아니며, 본 발명을 구현하는 당업자의 필요에 따라 데이터베이스(250)는 복수 개 구비될 수 있다. 한편, 본 발명에서의 데이터베이스(250)는, 컴퓨터 판독 가능한 기록 매체를 포함하는 개념으로서, 협의의 데이터베이스뿐만 아니라 파일 시스템에 기반을 둔 데이터 기록 등을 포함하는 광의의 데이터베이스일 수도 있으며, 단순한 로그의 집합이라도 이를 검색하여 데이터를 추출할 수 있다면 본 발명에서의 데이터베이스(250)가 될 수 있다.

다음으로, 본 발명의 일 실시예에 따른 통신부(260)는 비정형 데이터 수집부(210), 학습데이터 생성부(220), 데이터 필터부(230), 데이터 분석부(240) 및 데이터베이스(250) 로부터의/로의 데이터 송수신이 가능하도록 하는 기능을 수행할 수 있다. 또한, 통신부(260)는 서버(200) 내 구성과 사용자 단말 장치(300) 간 데이터 송수신이 가능하도록 하는 기능을 수행할 수도 있다.

마지막으로, 본 발명의 일 실시예에 따른 제어부(270)는 비정형 데이터 수집부(210), 학습데이터 생성부(220), 데이터 필터부(230), 데이터 분석부(240), 데이터베이스(250) 및 통신부(260) 간의 데이터의 흐름을 제어하는 기능을 수행할 수 있다. 즉, 본 발명에 따른 제어부(270)는 서버(200)의 외부로부터의/로의 데이터 흐름 또는 서버의 각 구성요소 간의 데이터 흐름을 제어함으로써, 비정형 데이터 수집부(210), 학습데이터 생성부(220), 데이터 필터부(230), 데이터 분석부(240), 데이터베이스(250) 및 통신부(260)에서 각각 고유 기능을 수행하도록 제어할 수 있다.

도 5는 본 발명의 일 실시예에 따라 학습데이터를 생성하고, 소셜 미디어 상 데이터를 분석하는 과정을 예시적으로 설명하기 위한 순서도이다.

도 5를 참조하면, 먼저 서버(200)는 평판 분석하고자 하는 키워드를 설정하고, 키워드에 대응하는 비정형 데이터를 수집할 수 있다(S500). 여기서 비정형 데이터는 상기 키워드에 대한 설문 조사로부터 획득한 데이터와 상기 키워드와 관련된 소셜 미디어 상 게시글로부터 획득한 데이터를 포함할 수 있다.

비정형 데이터가 수집되면, 서버(200)는 비정형 데이터를 이용하여 학습 데이터를 생성하여 기계 학습될 수 있도록 하는 단계(S511, S513, S515)와 비정형 데이터를 이용하여 키워드에 대한 평판을 분석하는 단계(S521, S523, S525)를 수행할 수 있다.

다음으로, 서버(200)는 비정형 데이터를 기초로 하여 제1 학습데이터 및 제2 학습데이터를 생성할 수 있다(S511). 여기서, 제1 학습데이터는 수집된 비정형 데이터로부터 불용 데이터를 필터링할 수 있도록 하는 것일 수 있으며, 제2 학습데이터는 수집된 비정형 데이터가 긍정 데이터인지, 부정 데이터인지 또는 중립 데이터인지 분류할 수 있도록 하는 것일 수 있다.

한편, 제1 학습데이터 및 제2 학습데이터를 생성하는 구체적인 방법에 관하여는 도 2 내지 도 4를 참조로 하여 상술한 바, 자세한 설명은 생략하도록 한다.

다음으로, 서버(200)는 제1 학습 데이터를 이용하여, 비정형 데이터로부터 불용 데이터를 필터링하는 데이터 필터부(230)가 기계학습되도록 훈련하고(S513), 제2 학습데이터를 이용하여 필터링된 비정형 데이터를 분류하고 분석하는 데이터 분석부(240)가 기계학습되도록 훈련할 수 있다(S515).

서버(200)는 기계학습 방식을 기초로 하여 비정형 데이터로부터 불용 데이터를 필터링할 수 있다(S521). 본 발명의 일 실시예에 따르면, 비정형 데이터를 필터링하는 데이터 필터부(230)의 훈련을 위하여 소정의 사용자가 주기적으로 학습데이터를 입력하는 것이 아니라, 수집된 비정형 데이터를 이용하여 제1 학습데이터를 생성하고 이를 이용하여 데이터 필터부(230)를 훈련하므로 보다 정확한 트렌드에 따른 학습데이터를 이용하여 훈련할 수 있고 사용자의 입장에서 보다 간편하게 키워드에 대한 분석 결과를 획득할 수 있다.

다음으로, 서버(200)는 기계학습 방식을 기초로 하여 불용 데이터가 제거된 비정형 데이터를 긍정데이터, 부정데이터 및 중립데이터로 분류할 수 있다(S523). 본 발명의 일 실시예에 따르면, 비정형 데이터를 분류하는 데이터 분석부(240)의 훈련을 위하여 소정의 사용자가 주기적으로 학습데이터를 입력하는 것이 아니라, 수집된 비정형 데이터를 이용하여 제2 학습데이터를 생성하고 이를 이용하여 데이터 분석부(240)를 훈련하므로 보다 정확한 트렌드에 따른 학습데이터를 이용하여 훈련할 수 있고 사용자의 입장에서 보다 간편하게 키워드에 대한 분석 결과를 획득할 수 있다.

마지막으로, 서버(200)는 분류된 비정형 데이터를 기초로 하여 키워드에 대한 평판을 분석할 수 있다(S525).

도 6은 본 발명의 실시예에 따른, 컴퓨팅 장치를 나타내는 도면이다. 도 6의 컴퓨팅 장치(TN100)는 본 명세서에서 기술된 장치(예, 서버(200), 사용자 단말 장치(300) 등) 일 수 있다.

도 6의 실시예에서, 컴퓨팅 장치(TN100)는 적어도 하나의 프로세서(TN110), 송수신 장치(TN120), 및 메모리(TN130)를 포함할 수 있다. 또한, 컴퓨팅 장치(TN100)는 저장 장치(TN140), 입력 인터페이스 장치(TN150), 출력 인터페이스 장치(TN160) 등을 더 포함할 수 있다. 컴퓨팅 장치(TN100)에 포함된 구성 요소들은 버스(bus)(TN170)에 의해 연결되어 서로 통신을 수행할 수 있다.

프로세서(TN110)는 메모리(TN130) 및 저장 장치(TN140) 중에서 적어도 하나에 저장된 프로그램 명령(program command)을 실행할 수 있다. 프로세서(TN110)는 중앙 처리 장치(CPU: central processing unit), 그래픽 처리 장치(GPU: graphics processing unit), 또는 본 발명의 실시예에 따른 방법들이 수행되는 전용의 프로세서를 의미할 수 있다. 프로세서(TN110)는 본 발명의 실시예와 관련하여 기술된 절차, 기능, 및 방법 등을 구현하도록 구성될 수 있다. 프로세서(TN110)는 컴퓨팅 장치(TN100)의 각 구성 요소를 제어할 수 있다.

메모리(TN130) 및 저장 장치(TN140) 각각은 프로세서(TN110)의 동작과 관련된 다양한 정보를 저장할 수 있다. 메모리(TN130) 및 저장 장치(TN140) 각각은 휘발성 저장 매체 및 비휘발성 저장 매체 중에서 적어도 하나로 구성될 수 있다. 예를 들어, 메모리(TN130)는 읽기 전용 메모리(ROM: read only memory) 및 랜덤 액세스 메모리(RAM: random access memory) 중에서 적어도 하나로 구성될 수 있다.

송수신 장치(TN120)는 유선 신호 또는 무선 신호를 송신 또는 수신할 수 있다. 송수신 장치(TN120)는 네트워크에 연결되어 통신을 수행할 수 있다.

이상 설명된 본 발명에 따른 실시예들은 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

한편, 본 발명의 실시예는 지금까지 설명한 장치 및/또는 방법을 통해서만 구현되는 것은 아니며, 본 발명의 실시예의 구성에 대응하는 기능을 실현하는 프로그램 또는 그 프로그램이 기록된 기록 매체를 통해 구현될 수도 있으며, 이러한 구현은 상술한 실시예의 기재로부터 본 발명이 속하는 기술 분야의 통상의 기술자라면 쉽게 구현할 수 있는 것이다.

이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 통상의 기술자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.

100: 통신망 200: 서버
210: 비정형 데이터 수집부 220: 학습데이터 생성부
230: 데이터 필터부 240: 데이터 분석부
250: 데이터베이스 260: 통신부
270: 제어부 300: 사용자 단말 장치

Claims

기계학습을 위한 학습데이터를 생성하는 방법에 있어서,
키워드와 관련하여 제공된 설문 및 상기 키워드와 관련된 소셜 미디어 상 게시글로부터 비정형 데이터를 수집하는 단계;
상기 수집된 비정형 데이터를 기초로, 상기 수집된 비정형 데이터로부터 불용(不用) 데이터를 필터링할 수 있도록 하는 제1 학습데이터를 생성하는 단계; 및
상기 수집된 비정형 데이터를 기초로, 상기 필터링된 비정형 데이터를 긍정 데이터, 부정 데이터 및 중립 데이터로 분류할 수 있도록 하는 제2 학습데이터를 생성하는 단계를 포함하고,
상기 제1 및 제2 학습데이터는, 긍정 문맥 사전, 부정 문맥 사전, 긍정어절사전, 부정어절사전, 금칙어 사전 및 광고 및 음란 사전을 포함하는 기 설정된 의미사전을 기초로 하여 생성되는 것을 특징으로 하는 방법.
제1항에 있어서,
상기 제1 및 제2 학습데이터를 생성하는 단계는,
상기 수집된 비정형 데이터를 문장 단위로 분석하되, 각 문장을 상기 긍정 문맥 사전 및 상기 부정 문맥 사전과 비교하는 1차 분석 단계를 포함하는 방법.
제2항에 있어서,
상기 제1 및 제2 학습데이터를 생성하는 단계는,
상기 1차 분석 단계에서 상기 분석 대상 문장이 긍정 데이터인지 부정 데이터인지 판별되지 못한 경우, 상기 수집된 비정형 데이터를 어절 별로 분석하되, 각 어절을 상기 긍정어절사전 및 상기 부정어절사전과 비교하는 2차 분석 단계 및
상기 수집된 비정형 데이터를 형태소분석기를 이용하여 품사 별로 나누고, 각 품사를 상기 긍정어절사전 및 상기 부정어절사전과 비교하는 3차 분석 단계를 더 포함하는 것을 특징으로 하는 방법.
제3항에 있어서,
상기 제1 및 제2 학습데이터를 생성하는 단계는,
상기 수집된 비정형 데이터를 상기 금칙어 사전과 비교하는 4차 분석 단계; 및
상기 수집된 비정형 데이터를 상기 광고 및 음란 사전과 비교하는 5차 분석 단계를 더 포함하는 것을 특징으로 하는 방법.
기계학습 방식으로 비정형 데이터를 분석하는 장치에 있어서,
키워드가 설정되면, 상기 키워드와 관련하여 제공된 설문 및 상기 키워드와 관련된 소셜 미디어 상 게시글로부터 비정형 데이터를 수집하는 비정형 데이터 수집부;
상기 수집된 비정형 데이터를 기초로, 상기 수집된 비정형 데이터로부터 불용(不用) 데이터를 필터링할 수 있도록 하는 제1 학습데이터와, 상기 필터링된 비정형 데이터를 긍정 데이터, 부정 데이터 및 중립 데이터로 분류할 수 있도록 하는 제2 학습데이터를 생성하는 학습데이터 생성부;
상기 기계학습 방식을 기초로 하여 상기 수집된 비정형 데이터로부터 상기 불용 데이터를 필터링하는 데이터 필터부; 및
상기 기계학습 방식을 기초로 하여 상기 필터링된 비정형 데이터를 긍정데이터, 부정데이터 및 중립데이터로 분류하고, 상기 긍정데이터, 상기 부정데이터 및 상기 중립데이터를 기초로 상기 키워드에 대한 평판을 분석하는 데이터 분석부;
를 포함하는 장치.
제5항에 있어서,
상기 제1 및 제2 학습데이터는, 긍정 문맥 사전, 부정 문맥 사전, 긍정어절사전, 부정어절사전, 금칙어 사전 및 광고 및 음란 사전을 포함하는 기 설정된 의미사전을 기초로 하여 생성되는 것을 특징으로 하는 장치.
제6항에 있어서,
상기 데이터 필터부는 상기 제1 학습데이터로 훈련되고, 상기 데이터 분석부는 상기 제2 학습데이터로 훈련되는 것을 특징으로 하는 장치.
제6항에 있어서,
상기 학습데이터 생성부는,
상기 수집된 비정형 데이터를 문장 단위로 분석하되, 각 문장을 상기 긍정 문맥 사전 및 상기 부정 문맥 사전과 비교하는 것을 특징으로 하는 장치.
제8항에 있어서,
상기 학습데이터 생성부는,
상기 1차 분석 단계에서 상기 분석 대상 문장이 긍정 데이터인지 부정 데이터인지 판별되지 못한 경우, 상기 수집된 비정형 데이터를 어절 별로 분석하되, 각 어절을 상기 긍정어절사전 및 상기 부정어절사전과 비교하고,
상기 수집된 비정형 데이터를 형태소분석기를 이용하여 품사 별로 나누고, 각 품사를 상기 긍정어절사전 및 상기 부정어절사전과 비교하는 것을 특징으로 장치.
제9항에 있어서,
상기 학습데이터 생성부는,
상기 수집된 비정형 데이터를 상기 금칙어 사전과 비교하고, 상기 수집된 비정형 데이터를 상기 광고 및 음란 사전과 비교하는 것을 특징으로 장치.