KR101758555B1

KR101758555B1 - 토픽 표현 추출 방법 및 그 시스템

Info

Publication number: KR101758555B1
Application number: KR1020160027684A
Authority: KR
Inventors: 손경아; 조승우
Original assignee: 아주대학교산학협력단
Priority date: 2016-03-08
Filing date: 2016-03-08
Publication date: 2017-07-17

Abstract

본 발명이 다양한 실시예에 따르면, 토픽 표현 추출 방법 및 그 시스템을 제공한다. 일 실시예에 따르면, 토픽 표현 추출 방법은, 하나 이상의 대상 문서로부터 하나 이상의 표현을 추출하는 단계; 상기 하나 이상의 표현 중 강조 표현 또는 소정의 토픽 모델링에 의한 표현 중 하나 이상을 토픽 후보 표현으로 선발하는 단계; 통신 기반으로 연결되는 하나 이상의 온라인 매체에서 취득되며, 상기 대상 문서와 구별되는 하나 이상의 검증 문서로부터 하나 이상의 이슈 표현을 수집하는 단계; 및 상기 이슈 표현과 상기 토픽 후보 표현을 비교하여 상기 토픽 후보 표현으로부터 토픽 표현을 결정하는 단계;를 포함한다.

Description

토픽 표현 추출 방법 및 그 시스템{METHOD AND SYSTEM FOR EXTRACTING TOPIC EXPRESSION}

본 발명은 토픽 표현의 추출에 관한 것으로, 상세하게는, 토픽 표현 추출 방법 및 그 시스템에 관한 것이다.

최근 사람들이 접근할 수 있는 매체 수가 증가하면서 실시간 이슈에 대한 의견 표현 방식도 다양해지고 있다. 소셜 네트워크 서비스(social network service, SNS) 사용자들은 자신의 의견을 짧은 사진, 글 속에 녹여서 다른 사람과 공유할 수 있고 때로는 다른 사람의 동의를 구하기도 한다. 이러한 사용자들의 생각을 파악하는 것은 트랜드 분석에 있어 중요한 사항이며, 이에 대한 텍스트 마이닝(text mining)기법들은 여러 연구단체, 기업 연구소에서 활발히 연구되고 있는 상태다. SNS 빅 데이터를 이용한 트랜드 분석은 이제 성공 가능성을 넘어서서 얼마나 정확한지에 초점이 맞춰지고 있다.

정확성 달성을 위하여는 SNS 상에서 발생하는 특별한 표현들을 주목해야 한다. SNS 사용자들이 만들어내는 표현들은 일상적인 용어부터 통신 용어, 합성어, 축약어 등 수많은 종류의 표현들이 한 가지 이슈에 대해서 폭발적으로 발생한다. 또한, 현실에서 벌어지는 사건들이 지속적으로 새로운 이슈로 주목 받고 그에 맞는 용어가 탄생하기도 한다. 유의미한 분석 결과를 위해 이러한 표현들을 찾아내는 것은 연구자들에게 점점 중요한 문제로 대두되고 있다.

그러나SNS에서 발생하는 새로운 표현들을 단순히 형태소 분석을 통해 추출하기는 쉬운 일이 아니다. 언어 사전에 등재되지 않은 표현들을 형태소 분석한다면 표현 자체가 더 작은 형태소로 분해되기만 할 뿐, 원래 가지고 있는 의미를 보존하지 못한다. 또한, 새로운 표현뿐만이 아니라 기존 사전에 누락되어 있던 표현들도 형태소 분석 시 같은 문제를 야기하므로 반드시 해결되어야만 한다.

특허문헌 제10-2009-0000284호는, 사이버상의 모든 정보를 수집하는 시스템에 있어서, 모니터링 대상 웹사이트를 실시간으로 감시하여 웹상의 정보를 수집하여 분석하는 실시간정보 수집수단과; 상기 실시간정보 수집수단으로부터 수집된 정보를 분류하되, 하나의 문서를 분석하여 해당 문서가 포함하는 주제어(태그)를 추출하는 주제별정보분류수단과; 상기 수집된 정보가 수집(게시)된 시점을 기준으로 동일한 주제어(태그)가 존재하는 문서의 확산 경로를 추적하는 정보확산경로추적수단과; 유사한 주제어(태그)가 달린 문서의 집합으로부터 네티즌이 주도해 나가는 여론의 동향 및 성향을 조기에 파악하기 위한 사이버여론동향분석수단과; 상기 사이버여론동향분석수단으로부터 문서의 성향이 분류되면 분류된 문서에 포함된 단어 및 문장 구조에 가중치를 부여하여 다음 문서 분석에 적용하기 위한 문장학습수단;의 구성을 개시하고 있다.

하지만, 이는 동일한 주제에 대한 문서의 확장 경로를 추적함으로써 주제어가 사용되는 패턴을 파악하는 방법에 있어서는 효과적이지만, 단순히 문서에서 주제어 태그를 추출하는 것만으로는 트랜드가 충분히 반영된 텍스트를 추출하는 것이 용이하지 않고, 동일한 주제를 가지는 문서의 확산에 의하여 패턴을 파악함에 있어서, 주제어가 특정 분야에서의 사용되는 것을 확인하는 것일 뿐, 대중적으로 이슈되는 표현을 추출하는 것에 한계가 존재한다.

KR 10-2009-0000284 (공개특허)

상술한 바와 같이, 문서에서 표현을 추출함에 있어서, 추출한 표현들이 대중적으로 이슈되는 이른바 '토픽 표현'인지 검증할 수 있는 표현 추출 방법 및 시스템이 필요한 실정이다.

본 발명의 다양한 실시예에 따르면, 지정된 시점에 대중적으로 이슈되는 토픽 표현을 다양한 타입의 문서로부터 추출하는 방법 및 그 시스템을 제공할 수 있다.

본 발명의 다양한 실시예에 따르면, 추출한 표현들이 대중적으로 이슈되는 토픽 표현인지 여부를 다양한 온라인 매체를 이용하여 검증하는 방법 및 그 시스템을 제공할 수 있다.

본 발명의 일 실시예에 따르면, 토픽 표현 추출 방법은, 하나 이상의 대상 문서로부터 하나 이상의 표현을 추출하는 단계; 상기 하나 이상의 표현 중 강조 표현 또는 소정의 토픽 모델링에 의한 표현 중 하나 이상을 토픽 후보 표현으로 선발하는 단계; 통신 기반으로 연결되는 하나 이상의 온라인 매체에서 취득되며, 상기 대상 문서와 구별되는 하나 이상의 검증 문서로부터 하나 이상의 이슈 표현을 수집하는 단계; 및 상기 이슈 표현과 상기 토픽 후보 표현을 비교하여 상기 토픽 후보 표현으로부터 토픽 표현을 결정하는 단계;를 포함한다.

다양한 실시예에 따르면, 통신 기반으로 연결되는 하나 이상의 온라인 매체에서 취득되며, 상기 대상 문서와 구별되는 하나 이상의 검증 문서로부터 하나 이상의 이슈 표현을 수집하는 단계는, 상기 온라인 매체로부터 획득하는 통계 정보에 기반하여 상기 이슈 표현의 중요도를 결정하는 단계를 포함할 수 있다.

다양한 실시예에 따르면, 상기 통계 정보는, 해시태그(hashtag) 및 키워드 검색 정보 중 하나 이상을 포함할 수 있다.

다양한 실시예에 따르면, 상기 검증 문서는, 상기 이슈 표현 및 상기 이슈 표현 각각에 대응되는 통계 정보를 포함할 수 있다.

다양한 실시예에 따르면, 상기 이슈 표현과 상기 토픽 후보 표현을 비교하여 상기 토픽 후보 표현으로부터 토픽 표현을 결정하는 단계는, 상기 토픽 후보 표현이 상기 대상 문서에 출현하는 빈도 수에 기반하여 상기 토픽 후보 표현의 중요도를 결정하는 단계를 더 포함할 수 있다.

다양한 실시예에 따르면, 상기 이슈 표현과 상기 토픽 후보 표현을 비교하여 상기 토픽 후보 표현으로부터 토픽 표현을 결정하는 단계는, 상기 이슈 표현과 매칭되는 토픽 후보 표현 중 적어도 일부를 상기 토픽 표현으로 결정하는 단계를 포함할 수 있다.

다양한 실시예에 따르면, 상기 이슈 표현과 매칭되는 토픽 후보 표현은, 상기 이슈 표현과 동일하거나 또는 유사한 토픽 후보 표현일 수 있다.

다양한 실시예에 따르면, 상기 토픽 후보 표현은, 상기 대상 문서의 형태소 분석에 의한 표현을 더 포함할 수 있다.

다양한 실시예에 따르면, 상기 토픽 표현 추출 방법은, 상기 결정된 토픽 표현으로 회귀 분석을 수행하는 단계; 상기 회귀 분석 결과를 상기 토픽 표현과 비교하는 단계; 및 상기 비교 결과에 기반하여 상기 토픽 표현을 재결정하는 단계;를 더 포함할 수 있다.

본 발명의 일 실시예에 따르면, 하나 이상의 대상 문서로부터 하나 이상의 표현을 추출하고, 상기 하나 이상의 표현 중 강조 표현 또는 소정의 토픽 모델링에 의한 표현 중 하나 이상을 토픽 후보 표현으로 선발하는 후보 표현 추출부; 통신 기반으로 연결되는 하나 이상의 온라인 매체에서 취득되며, 상기 대상 문서와 구별되는 하나 이상의 검증 문서로부터 하나 이상의 이슈 표현을 수집하는 이슈 표현 수집부; 및 상기 이슈 표현과 상기 토픽 후보 표현을 비교하여 상기 토픽 후보 표현으로부터 토픽 표현을 결정하는 토픽 표현 결정부;를 포함한다.

다양한 실시예에 따르면, 상기 이슈 표현 수집부는, 상기 온라인 매체로부터 획득하는 통계 정보에 기반하여 상기 이슈 표현의 중요도를 결정할 수 있다.

다양한 실시예에 따르면, 상기 토픽 표현 결정부는, 상기 토픽 후보 표현이 상기 대상 문서에 출현하는 빈도 수에 기반하여 상기 토픽 후보 표현의 중요도를 결정할 수 있다.

다양한 실시예에 따르면, 상기 토픽 표현 결정부는, 상기 이슈 표현과 매칭되는 토픽 후보 표현 중 적어도 일부를 상기 토픽 표현으로 결정할 수 있다.

다양한 실시예에 따르면, 상기 토픽 표현 추출 시스템은, 상기 결정된 토픽 표현으로 회귀 분석을 수행하고, 상기 회귀 분석 결과를 상기 토픽 표현과 비교하여 상기 비교 결과에 기반하여 상기 토픽 표현을 재결정하는 검증부;를 더 포함할 수 있다.

본 발명의 다양한 실시예에 따르면, 다양한 텍스트 추출 방식을 적용하여 토픽 표현들을 결정함으로써, 하나의 텍스트 추출 방식에 의하여 누락될 수 있는 표현들도 효과적으로 누락 없이 추출하여 관리할 수 있다.

본 발명의 다양한 실시예에 따르면, 문서로부터 추출된 표현이 토픽 표현인지 여부를 다양한 온라인 매체를 이용하여 검증함으로써, 텍스트만으로는 표현되지 않는 트랜드, 감성 등의 대중적으로 이슈되는 토픽 표현들을 효과적으로 확인할 수 있다.

도 1은 본 발명의 일 실시예에 따른 표현 추출 시스템의 개략적인 구조를 도시한다.
도 2a는 본 발명의 일 실시예에 따른 후보 표현 추출부의 개략적인 구조를 도시한다.
도 2b는 본 발명의 일 실시예에 따른 토픽 표현 결정부의 개략적인 구조를 도시한다.
도 2c는 본 발명의 일 실시예에 따른 검증부의 개략적인 구조를 도시한다.
도 3은 본 발명의 일 실시예에 따른 표현 추출 시스템에 의한 토픽 표현 결정을 구체적으로 설명하는 흐름도이다.
도 4는 본 발명의 일 실시예에 따른 표현 추출 시스템에 의한 토픽 표현 검증 방법을 구체적으로 설명하는 흐름도이다.
도 5는 본 발명의 일 실시예에 따른 표현 추출 시스템에서, 특징의 조합에 기반하는 표현 추출 시스템의 분류 성능을 비교하는 그래프이다.
도 6은 본 발명의 일 실시예에 따른 표현 추출 시스템에서, 온라인 매체로부터 획득한 데이터가 표현 추출 시스템에 영향을 주는 정도를 나타내는 그래프이다.
도 7은 본 발명의 일 실시예에 따른 표현 추출 시스템에서, 구동 일자에 따른 토픽 표현의 추출을 나타내는 그래프이다.
도 8은 본 발명의 일 실시예에 따른 표현 추출 시스템에서, 동작 시간 및 토픽 표현의 분석에 소요된 시간을 나타내는 그래프이다.
도 9는 본 발명의 일 실시예에 따른 표현 추출 시스템에서, 추출된 토픽 표현의 분석을 나타내는 그래프이다.

이하, 첨부한 도면을 참고로 하여 본 발명의 다양한 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 특정 실시예가 도면에 예시되고, 관련된 상세한 설명이 기재될 수 있다, 그러나, 이는 본 발명을 특정한 실시 형태에 대하여 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경 및/또는 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략할 수 있고, 명세서 전체를 통하여 동일 또는 유사한 구성 요소에 대해서는 동일한 참조 부호를 사용할 수 있다.

본 발명의 다양한 실시예에서, '또는', '적어도 하나' 등의 표현은 함께 나열된 단어들 중 하나를 나타내거나, 또는 둘 이상의 조합을 나타낼 수 있다. 예를 들어, 'A 또는 B', 'A 및 B 중 적어도 하나'는 A 또는 B 중 하나만을 포함할 수도 있고, A와 B를 모두 포함할 수도 있다.

본 발명의 다양한 실시예에서, '제1 ', '제2 ', '첫째', '둘째' 등의 표현은 다양한 구성 요소들을 수식할 수 있지만, 반드시 해당 구성 요소의 순서, 또는 중요도 등을 의미하는 것으로 한정하지 않는다. 예를 들어, 제1 장치와 제2 장치는 모두 장치이며 서로 다른 장치를 나타낼 수 있다. 또한, 본 발명의 다양한 실시예의 권리 범위를 벗어나지 않는 경우, 제1 장치의 구성, 기능, 동작 등의 요소가 제2 장치와 동일 또는 유사한 경우, 제1 장치는 제2 장치로 명명될 수 있고, 유사하게, 제2 장치 또한 제1 장치로 명명될 수 있다.

본 발명의 다양한 실시예에서 어떤 구성 요소가 다른 구성 요소에 '연결'되어 있다거나 '접속'되어 있다고 언급된 경우, 구성 요소들은 직접적으로 연결되어 있거나 접속되어 있을 수 있지만, 구성 요소들 사이에 적어도 하나의 다른 구성 요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면, 어떤 구성 요소가 다른 구성 요소에 '직접 연결'되어 있다거나, '직접 접속'되어 있다고 언급된 경우, 구성 요소들 사이는 다른 구성 요소가 존재하지 않는 것으로 이해될 수 있어야 할 것이다.

본 발명의 다양한 실시예에서 사용되는 용어들은 특정일 실시예를 설명하기 위한 것으로, 본 발명을 한정하는 것으로 해석되어서는 안되며, 예를 들어, 단수의 표현은 문맥상 명백하게 다른 것으로 명시되지 않는 한 복수의 표현을 포함할 수 있을 것이다.

이하 설명에서, 본 발명의 다양한 실시예에 따라, 수집된 문서들에 포함된 표현들을 추출하고, 추출된 표현들 중 대중적으로 이슈되는 토픽 표현들을 선택하는 방법 및 그 시스템이 개시된다.

이 때, 대중적으로 이슈되는 표현(이하, 간단히 '토픽 표현' 이라고도 함)들이라 함은, 다양한 온라인 매체를 통하여 실시간으로 발생되는 이벤트 중에 수집되는 표현들, 예를 들어, 지정된 시간 범위(예: 일, 주, 달 등) 내에 사용도(사용 빈도, 또는 출현 빈도)가 급격히 증가하는 표현들을 포함할 수 있다. 여기에서, 실시간으로 발생되는 이벤트는, 소셜 미디어 업로드, 인터넷 검색과 같이 표현들이 실시간으로 입력 또는 노출되는 매체 및/또는 그 상태를 나타낼 수 있다.

본 발명의 다양한 실시예에서 결정되는 토픽 표현은, 신조어, 합성어, 축약어, 파생어와 같이 이전에는 없었지만 새로 형성되거나 생성된 표현들, 그리고 이전에 생성되었지만 근래에 이슈되거나 사용이 많아진 표현 등으로 결정할 수 있다.

또한, 토픽 표현은, 단순히 새로이 만들어 지거나 이슈가 되는 표현들뿐만 아니라, 연령대, 직업, 국적 등 특정 그룹의 사람들로부터 활발히 사용되는지 여부를 검증함으로써 결정되는 것으로 정의할 수 있다.

본 발명의 토픽 표현 추출 시스템(이하, 표현 추출 시스템)은, 토픽 표현을 결정 시 실질적으로 대중적으로 이슈되는 표현들을 추출하기 위하여, 이른바 '크로스 미디어 기법(cross - media technique)'을 이용하는데, 즉, 신문, 뉴스, 논문과 같이 특정 형식(또는 서식, format)을 갖춘 문서, 그리고 표현 수집에 대상이 되는 문서(이하, 대상 문서)로부터 표현을 추출할 뿐만 아니라, 실시간으로 이벤트가 발생되는 온라인 매체(online medium), 예를 들어, 인스타그램(Instagram), 카카오스토리(kakao story), 트위터(twitter)와 같은 소셜 미디어 및/또는 구글트랜드(google trend)와 같은 통계 서비스 등의 매체(또는 매체의 이벤트가 저장되는 서버)로부터 수집된 이슈 표현을 이용하여 추출한 표현들을 검증한다.

본 발명의 표현 추출 시스템은, 상술한 바와 같이 크로스 미디어 기법을 통하여, 다양한 문서들에 포함된 표현들로부터 대중적으로 이슈되는 표현을 추출할 수 있다. 그리고, 이렇게 추출된 표현(이하, 토픽 표현)은 데이터베이스(예: 사전 데이터)의 업데이트에 이용될 수 있다.

도 1은 본 발명의 일 실시예에 따른 표현 추출 시스템의 개략적인 구조를 도시한다. 표현 추출 시스템(100)은 대상 문서들로부터 후보 표현들을 추출하는 후보 표현 추출부(111), 검증 문서들로부터 이슈 표현들을 획득하는 이슈 표현 수집부(113), 후보 표현들 및 이슈 표현들에 기반하여 토픽 표현을 결정하는 토픽 표현 결정부(115)를 포함할 수 있다. 여기에서, 표현 추출 시스템(100)은, 토픽 표현 추출 동작 및 그 결과를 분석하기 위한 검증부(240)를 더 포함할 수 있다.

먼저, 도 1을 참조하면, 후보 표현 추출부(111)는, 대상 문서 중 적어도 일부를 이용하여 토픽 표현 여부를 결정하기 위한 후보 표현들을 추출한다. 여기에서, 추출되는 후보 표현은 텍스트로 구성되며, 대상 문서에 포함된 다양한 형태소를 포함할 수 있다. 예를 들어, 후보 표현은, 명사, 동사, 형용사, 부사 중 적어도 하나인 단어를 포함할 수 있다. 또한, 후보 표현 추출부(111)는, 대상 문서에 포함된 표현들 중 강조된 표현을 후보 표현으로 결정할 수 있다.

일 실시예에 따르면, 도 2a에 도시된 바와 같이, 후보 표현 추출부(111)는, 문서 수집부(211), 형태소 분석부(213), 토픽 모델링부(215), 강조 표현 수집부(217) 및 후보 표현 결정부(219)를 포함할 수 있다.

문서 수집부(211)는 입력 장치 및/또는 네트워크 통신을 통해서 문서들을 획득한다. 문서 수집부(211)는 획득한 문서들을 대상으로, 문서에 포함된 표현들을 수집한다.

여기에서, 문서 수집부(211)는 대상 문서들로부터 제목, 주제, 문서의 카테고리(예: 논문, 기사, 논평, 광고 등)를 구분할 수 있고, 및/또는 대상 문서들에 포함된 단어들을 수집할 수 있다. 이 때, 문서 수집부(211)는 중복되는 문서, 삭제된 문서 등의 문서는 하나의 문서로 통합하거나 대상 문서의 목록(또는 리스트, list)에서 제외할 수 있다.

예를 들어, 문서 수집부(211)는 동아 일보, 조선 일보 및 스포츠 조선의 신문(또는 온라인 신문)에 포함된 기사, 논설, 광고와 같은 문서들을 적어도 하나의 수집 프로그램(예: jsoup 라이브러리)에 기반하여 수집할 수 있다. 이 때, 문서 수집부(211)는 수집된 문서들을 크롤링(Crawling)할 수 있다.

그리고, 강조 표현 수집부(217)는 대상 문서들에서 강조된 표현들을 수집한다. 여기에서, 강조 표현 수집부(217)는 신문에 포함된 헤드라인, 볼드체, 이탤릭체, 지정된 폰트 이상의 크기, 한자어 표기, 외래어 표기 등의 특징 중 적어도 일부가 적용된 표현 및/또는 지정된 문자(예: ', “, ;, ! 등의 특수문자)와 함께 사용되는 표현 등과 같은 강조 기호(및/또는 부호)가 적용된 표현 또는 강조 기호와 함께 사용된 표현을 추출할 수 있다.

여기에서, 강조된 표현은 상술한 바와 같이 표기의 특징을 가지는 표현이나 지정된 문자(예: 특수 문자)를 포함할 뿐만 아니라, 이에 한정하지 않고, 문서 내에서 일반적인 텍스트(예: 본문)의 스타일과 다른 다양한 텍스트 표현들 중 적어도 일부를 포함할 수도 있다.

형태소 분석부(213)는 수집된 대상 문서들에 포함된 표현들 중 지정된 형태소를 추출한다. 이 때, 형태소 분석부(213)는 형태소 분석을 통하여 최소 의미를 가지는 텍스트를 품사에 따라서 추출할 수 있다.

토픽 모델링부(215)는 형태소 분석을 통해서 획득한 표현들에 기반하여 대상 문서 내에 존재하는 표현들의 분포를 확인한다. 예를 들어, 형태소 분석부(213)는 추출된 표현들 중 특정 품사의 형태소, 예를 들어, 명사로 추출된 표현들의 분포를 확인할 수 있다.

일 실시예에 따르면, 토픽 모델링부(215)는 적어도 하나의 토픽 모델링 알고리즘(예: LDA(linear discriminant analysis) 알고리즘)을 통하여 기사에 포함된 표현들의 분포를 확인할 수 있다. 이 때, 토픽 모델링부(215)는 각각의 대상 문서에 포함되는 표현들 중 지정된 수의 텍스트를 선택할 수 있다. 예를 들어, 토픽 모델링부(215)는 텍스트들의 분포에서 상위 100개, 상위 1%와 같이 지정된 수의 표현들을 선택할 수 있다.

토픽 모델링부(215)는 토픽 모델링 처리된 표현들 및/또는 표현들을 포함하는 문서들을 데이터베이스에 저장할 수 있다. 토픽 모델링부(215)는 새로운 대상 문서가 입력되는 경우 새로운 대상 문서들로부터 추출된 표현들을 토픽 모델링 처리함에 있어서, 기 저장된 표현들을 함께 적용하여 토픽 모델링을 수행할 수 있다.

후보 표현 결정부(219)는 토픽 모델링을 통해서 추출된 표현들 및 강조 표현 수집부(217)를 통해서 추출된 표현들에 기반하여 토픽 표현의 후보 표현들(또는 후보 세트, candidate set)을 결정한다.

예를 들어, 후보 표현 결정부(219)는 토픽 모델링부(215)을 통해서 추출된 표현들 및 강조 표현 수집부(217)를 통해서 수집된 표현들을 취합(또는 병합)할 수 있다. 이 때, 후보 표현 결정부(219)는, 취합된 텍스트들 중 일부를 후보 표현으로 결정할 수 있다.

다시, 도 1을 참조하면, 이슈 표현 수집부(113)는 적어도 하나의 온라인 매체를 통하여 이슈 표현을 수집한다. 여기에서, 이슈 표현 수집부(113)는 적어도 하나의 온라인 매체를 통하여 수집되는 표현들에 기반하여 문서(이하, 검증 문서)를 생성할 수 있다. 이슈 표현 수집부(113)가 생성하는 검증 문서는, 온라인 매체에서 실시간으로 출현(또는 노출)되는 표현들 및/또는 온라인 매체가 제공되는 서버로부터 제공되는 표현들을 포함한다.

예를 들어, 이슈 표현 수집부(113)는 적어도 하나의 온라인 매체로부터 특정 시점(또는 시간 범위)에 실시간으로 발생되는 이벤트에서 출현되는 표현들을 이슈 표현으로 수집한다.

또한, 이슈 표현 수집부(113)는 온라인 매체와 연결되어 온라인 매체의 데이터가 저장되는 적어도 하나의 서버로부터 특정 표현들(및/또는 특정 표현들이 포함된 문서)를 수신할 수 있다. 이 때, 수신하는 표현 및/또는 문서들은 통계적 정보를 포함하는 데이터(이하, 통계 정보)로 수신할 수도 있다.

예를 들어, 이슈 표현 수집부(113)는 인스타그램의 해시태그(hashtag), 카카오스토리의 해시태그, 트위터의 해시태그, 구글트랜드의 키워드 검색 정보를 통해서 출현되는 표현들을 이슈 표현으로 획득할 수 있다. 이 때, 이슈 표현 수집부(113)는 해시 태그 및/또는 키워드 검색 정보에 기반하여 이슈 표현에 대한 수치(예: 발생되는 이벤트에서 이슈 표현이 출현하는 빈도 수)를 획득할 수 있다.

여기에서, 서버들이 통계 정보를 획득하는 동작에 있어서 다양한 프로그램(또는 알고리즘)을 적용할 수 있다.

일 실시예에 따르면, 인스타그램 서버의 경우, REST API 방식으로 특정 검색어에 대한 해시태그를 측정하며, 예를 들면, Python InstagramAPI를 이용하여 해시태그를 측정하는 알고리즘을 구현할 수 있다.

다양한 실시예에 따르면, 카카오스토리 서버의 경우, python Beautiful Soup을 이용하여 해시태그를 측정하는 알고리즘을 구현할 수 있다. 추가적으로 python Selenium를 이용하여 Browser를 제어할 수 있다.

다양한 실시예에 따르면, 트위터 서버의 경우, Streaming API 방식으로 Tweet mentions을 데이터베이스에 저장함으로써 해시태그를 측정할 수 있다. 이 때, Twitter4j 라이브러리를 사용하여 Streaming API를 구현할 수 있고, Python MySQLdb를 통해 트위터 서버로부터 저장한 데이터에 접근할 수 있다.

다양한 실시예에 따르면, 구글트랜드 서버의 경우, python pyGTrends를 사용하여 구글트랜드 서비스(google trend service)의 텍스트 정보를 csv(comma-separated values) 형식으로 저장할 수 있다. 이 때, 이슈 표현 수집부(113)는 지정된 기간(예: 1주일) 동안 측정된 수치를 평균 내어 특징 값으로 사용할 수 있다.

이슈 표현 수집부(113)는 상술한 바와 같이 수집된 통계 정보 및 그 대응되는 표현(이슈 표현)에 기반하여 검증 문서를 생성하고, 이슈 표현들 및/또는 검증 문서를 토픽 표현 결정부(115)로 제공한다.

도 1을 참조하면, 토픽 표현 결정부(115)는 후보 표현 추출부(111)로부터 추출된 후보 표현들과 이슈 표현 수집부(113)로부터 획득한 이슈 표현들을 비교하여 토픽 표현을 결정한다. 이 때, 토픽 표현 결정부(115)는 이슈 표현들과 매칭되는 후보 표현들의 적어도 일부를 토픽 표현으로 결정한다.

도 2b를 참조하면, 토픽 표현 결정부(115)는 이슈 표현 수집부(113)로부터 수신한 이슈 표현의 중요도를 결정하는 이슈화 결정부(221) 및 후보 표현 및 이슈 표현에 기반하여 토픽 표현을 결정하는 토픽 결정부(223)를 포함할 수 있다.

먼저, 이슈화 결정부(221)는 상술한 바와 같이 적어도 하나의 서버로부터 수신하는 이슈 표현 및 이슈 표현과 관련된 통계 정보(예: 해시태그)에 기반하여, 이슈 표현들에 중요도를 결정한다.

여기에서, 이슈 표현에 부여되는 중요도는, 소정의 수치(예: 점수)로 결정될 수 있다. 이 때, 중요도는, 소셜 미디어를 통한 이슈 표현의 해시태그 설정 값, 통계 서비스로부터 수신하는 키워드 검색 정보에 대응하여 결정할 수 있다. 또한, 이슈 표현에 부여되는 중요도는, 수집한 이슈 표현이 검증 문서에 출현하는 빈도 수에 대응하여 결정할 수도 있다.

예를 들어, 이슈화 결정부(221)는, 이슈 표현 및 이슈 표현을 포함하는 검증 문서에 TF-IDF 알고리즘을 적용하여 획득한 이슈 표현들 및 그에 대응되는 값들 중 적어도 일부를 중요도에 반영할 수 있다.

즉, 이슈 표현에 부여되는 중요도에 기반하여 중요도가 높을수록 대중적으로 크게 이슈화 된 것으로 정의할 수 있다. 또한, 지정된 시간 범위 내에서 확인되는 이슈화도 및/또는 둘 이상의 시간 범위에서 확인되는 중요도의 변화에 기반하여 이슈화된 정도(이슈화도)를 결정할 수도 있다.

이슈화 결정부(221)는, 중요도가 결정된 이슈 표현들 중 전부 또는 일부를 토픽 결정부(223)에 전송할 수 있다. 예를 들어, 이슈화 결정부(221)는, 이슈 표현들에 부여된 중요도에 따라서 이슈 표현들을 나열하고, 중요도가 높은 순서(예: 중요도 내림 차순)에 기반하여 지정된 수 및/또는 지정된 중요도 이상의 점수를 가지는 이슈 표현들을 선택하여 전송할 수 있다.

토픽 결정부(223)는 이슈 표현과 매칭되는 후보 표현들을 결정한다. 예를 들어, 토픽 결정부(223)는 이슈화 결정부(221)로부터 확인되는 이슈 표현과 후보 표현을 비교하여 동일하거나 또는 유사한 후보 표현들을 선택할 수 있다. 이 때, 토픽 결정부(223)는 선택된 후보 표현에 매칭된 이슈 표현의 중요도를 부여할 수 있다.

다양한 실시예에 따르면, 토픽 결정부(223)는 선택된 후보 표현에 이슈 표현의 중요도를 부여함에 있어서, 동일 또는 유사 정도에 기반하여 가중치를 적용(중요도 가중치를 다르게 적용)할 수 있다.

토픽 결정부(223)는 선택된 후보 표현들 중 적어도 일부를 토픽 표현으로 결정한다. 예를 들어, 토픽 결정부(223)는 선택된 후보 표현들에 부여된 중요도에 따라서 선택된 후보 표현들을 나열하고, 중요도가 높은 순서(예: 중요도 내림 차순)에 기반하여 지정된 수 및/또는 지정된 중요도 이상의 점수를 가지는 후보 표현들을 토픽 표현으로 결정할 수 있다.

다양한 실시예에 따르면, 토픽 결정부(223)는 토픽 표현을 결정함에 있어서, 상술한 바와 같이 후보 표현 추출부(111)로부터 획득한 후보 표현을 그대로 이슈 표현과 비교하여 이슈 표현의 중요도에 따라서 토픽 표현을 결정하는 것에 한정하지 않고, 중요도가 부여된 후보 표현을 이용할 수 있다.

예를 들어, 토픽 표현 결정부(115)는 후보 표현 추출부(111)로부터 획득하는 후보 표현들에 중요도를 부여할 수 있다. 일 실시예에 따르면, 토픽 표현 결정부(115)는 문서 내 텍스트의 출현 빈도를 결정하는 TF-IDF 알고리즘을 이용하여 후보 표현들이 대상 문서에 출현한 횟수 따라서 결정되는 수치(또는 점수)를 반영하여 후보 표현들의 중요도를 결정할 수 있다.

토픽 표현 결정부(115)는, 중요도가 결정된 후보 표현들 중 전부 또는 일부를 토픽 결정부(223)에 전송할 수 있다. 예를 들어, 토픽 표현 결정부(115)는, 후보 표현들에 부여된 중요도에 따라서 후보 표현들을 나열하고, 중요도가 높은 순서(예: 중요도 내림 차순)에 기반하여 지정된 수 및/또는 지정된 중요도 이상의 점수를 가지는 후보 표현들을 선택하여 전송할 수 있다.

상술한 바와 같이, 후보 표현에 중요도를 부여하는 동작은 도 2b에 도시되어 있지는 않지만, 적어도 하나의 모듈을 통하여 수행될 수 있고, 토픽 표현 결정부(115)에 포함될 수 있다.

이 때, 토픽 결정부(223)는 상술한 바와 같이 후보 표현들로부터 토픽 표현을 결정함에 있어서, 이슈화 결정부(221)로부터 확인되는 이슈 표현과 중요도에 따라서 결정된 후보 표현을 비교할 수 있다.

이 때, 토픽 결정부(223)는, 비교 결과에 따라서 선택된 후보 표현에 이슈 표현의 중요도를 부여함에 있어서, 선택된 후보 표현에 부여된 중요도를 함께 고려할 수 있다.

예를 들어, 토픽 결정부(223)는, 선택된 후보 표현의 중요도 및 대응되는 이슈 표현의 중요도를 합산할 수 있고, 또는 동일 또는 유사 정도에 따라서 적어도 하나의 중요도 일부를 가중치로 적용할 수 있다.

다양한 실시예에 따르면, 표현 추출 시스템(100)은, 결정된 토픽 표현에 대하여 추가적인 분석 동작을 수행할 수 있다. 예를 들어, 표현 추출 시스템(100)은 도 2c에 도시된 바와 같이 검증부(117)를 통하여 토픽 표현 결정부(115)로부터 결정된 토픽 표현들을 분석한다.

검증부(117)는, 적어도 하나의 기계 학습(예: SVM 학습) 및 회귀 분석 알고리즘을 이용하여 미리 정한 개수의 후보 표현을 토픽 표현으로 결정할 수 있다. 이 때, 검증부(117)는, 기계 학습 및 토픽 분류 동작을 수행함에 있어서, SVM뿐만 아니라 다양한 분류 모델을 이용하여 회귀 분석을 수행할 수 있다.

도 2c를 참조하면, 검증부(117)는 기계 학습부(241), 비교부(243) 및 업데이트부(245)를 포함할 수 있다.

먼저, 기계 학습부(241)는 결정된 토픽 표현들로 기계 학습 및 분석을 수행한다. 예를 들어, 기계 학습부(241)는, 토픽 표현을 이용하여 SVM(support vector machine)을 학습시킬 수 있다.

또한, 기계 학습부(241)는 기계 학습 동작을 수행함에 있어서, 토픽 표현들에 한정하지 않고, 표현 추출 시스템(100)를 통하여 획득하는 다양한 문서들(예: 대상 문서 및/또는 검증 문서)로부터 추출된 표현들을 사용할 수 있다.

일 실시예에 따르면, 기계 학습부(241)는 기계 학습 동작을 수행함에 있어서, 지정된 기간 동안 추출된 표현들 중 일부(예: 2/3)를 이용하여 SVM 학습을 수행하고, 나머지 일부(예: 1/3)를 이용하여 테스트(예: 회귀 분석)를 수행할 수 있다.

기계 학습부(241)는 Accuracy, F1-measure과 같은 알고리즘을 이용하여 테스트 결과를 평가할 수 있고, 후진 소거법(backward elimination)을 진행하여 특징 조합을 결정할 수 있다.

일 실시예에 따르면, 비교부(243)는 EM 클러스터링(clustering)을 이용하여 둘 이상의 온라인 매체로부터 획득한 이슈 표현들 중 지정된 수치의 중요도를 만족하는 표현들을 분석된 토픽 표현으로 추출할 수 있다.

예를 들어, 구글트랜드, 카카오스토리, 트위터, 인스타그램 등의 온라인 매체로부터 획득한 결과(예: 통계 정보) 및 TF-IDF 결과들을 EM 클러스터링의 특징 값으로 결정할 수 있고, WEKA Tool을 이용하여 결정된 클러스터링 변수(Clustering Parameter)에 따라서 분석된 결과에 기반하여 분석된 토픽 표현을 결정할 수 있다.

이 때, 비교부(243)는 기계 학습부(241)를 통하여 획득한 분석된 토픽 표현과 토픽 표현 결정부(115)를 통하여 결정된 토픽 표현을 비교하여 매칭되는 토픽 표현의 중요도에 소정의 가중치를 부여할 수 있다.

또한, 비교부(243)는 기계 학습부(241)를 통하여 획득한 분서된 토픽 표현과 토픽 표현 결정부(115)를 통하여 결정된 토픽 표현의 중요도에 기반하여 토픽 표현을 다시 결정(재결정)할 수 있다.

다양한 실시예에 따르면, 비교부(243)는 대상 문서, 검증 문서, 기 저장된 표현들(예: 데이터베이스) 및 온라인 매체를 통하여 분석된 토픽 표현이 발생된 상황, 발생된 횟수, 표현의 의미, 표현의 형태, 표현의 구분, 표현의 품사 등의 카테고리 정보들 중 적어도 일부 정보를 획득할 수 있다.

업데이트부(245)는 분석된 토픽 표현, 그리고 비교부(243)를 통해서 추가된 토픽 표현들을 저장할 수 있다. 이 때, 업데이트부(245)는 기 저장된 데이터베이스를 참조하여, 지정된 카테고리에 따라서 토픽 표현들을 업데이트할 수 있다.

표현 추출 시스템(100)은 상술한 바와 같이, 문서로부터 특징을 가지는 표현들을 추출하여 토픽 표현을 결정하기 위한 후보 표현들을 결정하고, 실시간으로 이벤트가 발생되는 온라인 매체를 통하여 후보 표현들을 검증(예: 중요도 결정)함으로써 대중적으로 이슈되는 토픽 표현을 결정할 수 있다.

이하, 도 3을 참고하여, 본 발명의 일 실시예에 따른 표현 추출 시스템에 의한 토픽 표현 결정 방법을 구체적으로 설명한다.

먼저, 표현 추출 시스템(100)은 적어도 하나의 대상 문서로부터 토픽 표현을 결정하기 위한 후보 표현들을 추출한다(단계 S301).

표현 추출 시스템(100)은 지정된 시점 또는 지정된 시간 경과마다 후보 표현을 추출하기 위한 대상 문서를 수집할 수 있다. 예를 들어, 표현 추출 시스템(100)은, 신문, 뉴스의 공개 시점, 예를 들어, 조간 신문을 수집하도록 지정된 시간(예: 오전 7시), 석간 신문을 수집하도록 지정된 시간(예: 오후 8시)마다 해당 신문 데이터를 입력 받을 수 있다.

표현 추출 시스템(100)은 후보 표현들을 추출함에 있어서, 다양한 방법을 이용하여 추출된 표현들에 기반하여 후보 표현들을 추출할 수 있다. 예를 들어, 표현 추출 시스템(100)은 대상 문서들에 형태소 분석을 통하여 후보 표현을 결정할 수 있고, 및/또는 대상 문서에서 강조된 표현들을 후보 표현들로 결정할 수 있다.

표현 추출 시스템(100)은 후보 표현을 추출함에 있어서, 데이터베이스에 기 저장된 표현들과 동일 또는 유사한 표현을 제외할 수 있다. 예를 들어, 표현 추출 시스템(100)은 후보 표현을 추출함에 있어서, 데이터베이스에 저장된 단어들 중 동일한 단어를 제외할 수 있다.

다음으로, 표현 추출 시스템(100)은 후보 표현들이 온라인 매체와 같은 매체로부터 수신한 이슈 표현들과 동일 또는 유사한지 여부를 확인한다(단계 S303). 이는 표현 추출 시스템(100)이, 추출된 후보 표현들이 온라인 매체에서 사용되고 있는지 여부를 확인(또는 검증)하는 동작일 수 있다.

온라인 매체로부터 수신하는 이슈 표현의 일 실시예에 따르면, 상술한 바와 같이 구글트랜드, 트위터, 카카오스토리, 인스타그램 등의 데이터를 저장하는 외부 장치(예: 서버)로부터 제공되는 통계 정보에 기반하여 결정된 표현을 포함할 수 있다.

표현 추출 시스템(100)은 이슈 표현을 수신함에 있어서, 이슈 표현 및 통계 정보를 포함하는 문서 형태로 수신할 수 있고, 수신된 이슈 표현 및 통계 정보를 문서의 형태(예: 검증 문서)로 저장할 수 있다. 이 때, 검증 문서에 포함되는 이슈 표현들은 통계 정보에 기반하여 중요도가 결정된 상태일 수 있다.

일 실시예에 따르면, 표현 추출 시스템(100)은, 이슈 표현에 출현된 후보 표현들 중 검증 문서에서 출현하는 횟수, 검증 문서에 포함되는 표현들과의 비중, 및/또는 형태에 기반하여 후보 표현들의 중요도를 결정할 수 있다.

표현 추출 시스템(100)은 대상 문서로부터 획득한 후보 표현들이 검증 문서들에서 확인 가능한 경우, 후술되는 단계(S305)를 수행할 수 있고, 확인할 수 없는 경우 도 3의 실시예를 종료하거나, 또는 단계(S301)를 수행할 수 있다.

다양한 실시예에 따르면, 표현 추출 시스템(100)은 추출된 후보 표현이 검증 문서에 출현하지 않는 경우, 지정된 시간이 경과 한 후에 수신하는 검증 문서에 기반하여 출현 여부를 확인할 수도 있다.

예를 들어, 신조어의 경우, 탄생 시점부터 활발하게 사용되지 않은 가능성이 존재하며, 신조어를 후보 표현으로 추출하는 경우 해당 시점에는 이슈 표현으로 추출되지 않을 수 있다. 따라서, 표현 추출 시스템(100)은 이후 지정된 시간 주기마다, 또는 지정된 시간이 경과한 후 수신하는 검증 문서로부터 해당 후보 표현이 출현하는지 여부를 다시 확인할 수 있을 것이다. 이 경우, 표현 추출 시스템(100)은 후보 표현 추출 시점과 검증 문서에 출현한 시점을 구분하여 표시할 수 있다.

다음으로, 표현 추출 시스템(100)은 후보 표현들 중 이슈 표현과 매칭 결과를 기초로 하여 토픽 표현을 선택한다(단계 S305). 이 때, 표현 추출 시스템은 선택된 후보 표현들의 중요도에 기반하여 적어도 일부를 토픽 표현으로 결정할 수 있다.

표현 추출 시스템(100)은 후보 표현으로부터 토픽 표현을 결정함에 있어서, 온라인 매체에 기반하여 중요도가 결정된 후보 표현에 한정하지 않고, TF-IDF 알고리즘과 같은 가중치 부여 프로그램에 기반하여 중요도가 결정된 후보 표현을 함께 고려하여 토픽 표현를 결정할 수 있다.

표현 추출 시스템(100)은, 결정된 토픽 표현을 이용하여 추가적으로 분석 동작을 수행할 수 있다. 도 4는, 본 발명의 다양한 실시예에 따른 표현 추출 시스템에 의한 토픽 표현 검증 방법을 구체적으로 설명한다.

먼저, 표현 추출 시스템(100)은 결정된 토픽 표현에 기반하여 기계 학습(예: SVM 학습) 동작을 수행한다(단계 S401). 일 실시예에 따르면, 표현 추출 시스템(100)은 후보 표현들을 테스트 세트와 트레이닝 세트로 구분하여 SVM 학습 동작을 수행할 수 있다.

다음으로, 표현 추출 시스템(100)은 학습된 결과 및 테스트에 기반하여 분석된 토픽 표현을 결정한다(단계 S403). 이 때, 표현 추출 시스템(100)은 분석된 토픽 표현 및 연관된 정보에 기반하여 결정된 소정의 가중치를 토픽 표현의 중요도에 적용할 수 있다.

더하여, 표현 추출 시스템(100)은 토픽 표현과 관계된 정보를 함께 획득할 수 있고, 대상 문서, 검증 문서, 데이터베이스 및 온라인 매체 중 적어도 일부를 통하여 획득할 수 있다.

예를 들어, 표현 추출 시스템(100)은 결정된 토픽 표현의 품사, 클래스, 의미, 문서 내 표현, 이슈화 정도, 토픽 표현의 결정 시점 등의 정보를 토픽 표현과 함께 획득할 수 있다.

그리고, 표현 추출 시스템(100)은 결정된 토픽 표현들을 데이터베이스에 업데이트한다(단계 S405). 일 실시예에 따르면, 표현 추출 시스템(100)은 데이터베이스에 저장된 프로그램(예: 사전, dictionary)에 토픽 표현을 업데이트할 수 있다.

상술한 바와 같이 표현 추출 시스템(100)은 후보 표현들을 온라인 매체에 출현된 표현들과 비교함으로써, 후보 표현들의 사용 여부를 검증하고, 사용이 많은 것으로 결정되는 표현을 토픽 표현으로 추출할 수 있다.

다양한 실시예에 따르면, 표현 추출 시스템(100)은 지정된 시점에, 또는 지정된 시간 간격으로 토픽 표현을 추출할 수 있고, 추출된 토픽 표현으로 데이터베이스를 업데이트할 수 있다. 이 때, 표현 추출 시스템(100)은 대상 문서로부터 후보 표현들을 결정함에 있어서, 단계(S301)에서 설명한 바와 같이, 데이터베이스에 기 저장된 표현들은 후보 표현에서 제외할 수 있다. 따라서, 표현 추출 시스템(100)은 결정된 토픽 표현으로 데이터베이스를 업데이트함으로써, 단계(S301)의 후보 표현을 결정하기 위한 처리 시간은 감소될 수 있다.

이하, 본 발명의 다양한 실시예에 따르면, 상술한 표현 추출 시스템(100)의 성능 분석을 위한 시뮬레이션을 수행할 수 있다. 이 때, 시뮬레이션은, 검증부(117)의 동작 중 적어도 일부를 통하여 수행할 수도 있다.

표현 추출 시스템(100)은, 다양한 문서들로부터 새로운 토픽 표현을 추출함에 있어서, 지정된 기간 동안의 문서 수집, 특징 분류, 중요도 결정의 적합성 여부, 분류기 효율 등의 성능 비교를 수행할 수 있다.

도 5는 본 발명의 일 실시예에 따른 표현 추출 시스템(100)에서, 특징의 조합에 기반하는 표현 추출 시스템의 분류 성능을 비교하는 그래프이다.

도 5를 참조하면, 표현 추출 시스템(100)은 지정된 총 610개의 후보 표현들 중 410개의 트레이닝 표현들을 결정하여 학습(SVM 학습, 기계 학습)하고 200개의 텍스트 표현들을 결정하여 성능 측정을 수행할 수 있다. 이때, 트레이닝 표현들은 2015년 10월 19일부터 10월 23일까지 수집된 표현들이며, 텍스트 표현들은 2015년 10월 26일부터 10월 30일까지 수집된 표현들이다.

그리고, 상술한 바와 같이, 인스타그램, 구글트랜드, 트위터, 카카오스토리 및 TF-IDF의 5개 특징을 이용하는 2진법 분류기를 이용하며, 분류 결과가 참일 경우, 토픽 표현으로 결정하고, 특징 조합에 대하여 후진 소거법을 이용하여 분류 성능을 검증한다. 이 때, 도 5에 도시된 그래프의 X축의 경우 제외된 특징을 나타내고, Y축은 정확도(accuracy) 및 F1-특징의 수치를 나타낼 수 있다. 2진법 분류기에 의한 결과의 정확도 수치는 92.86%, F1-특징 수치는 91.98%로 나타난다.

시뮬레이션의 동작에 있어서, 전체 특징 세트에서 한 가지 특징을 제외하고 성능을 평가한다. 이 때, 한 가지 특징을 제외한 경우의 성능이 우수한 경우, 추가적으로 다른 특징을 제외하여 그 결과를 비교할 수 있다. 여기에서, 적어도 하나의 특징을 제외하여 비교하는 경우, 전체 특징 세트를 사용하는 경우보다 성능이 하락하며, 분류 성능에 가장 큰 영향을 미치는 특징은 구글트랜드인 것을 확인할 수 있다. 구글트랜드의 분석 수치는 검색 통계 및 다양한 매체들을 분석한 결과가 반영된 것으로 토픽 표현들이 직접적으로 사용된 것으로 설명할 수 있다.

도 6은 본 발명의 일 실시예에 따른 표현 추출 시스템(100)에서, 온라인 매체로부터 획득한 데이터가 표현 추출 시스템에 영향을 주는 정도를 나타내는 그래프이다. 도 6을 참조하면, X축은 TF-IDF의 특징과 어떠한 특징 값이 함께 적용되었는지를 나타내며, Y축은 정확도 및 F1-특징의 수치를 나타낸다.

표현 추출 시스템(100)의 검증 동작은 TF-IDF의 분류에 기반하고 적어도 하나의 다른 특징(온라인 매체)에 기반하는 값들을 적용하여 결정된 토픽 표현의 검증을 수행할 수 있다. 이 때, 도 5의 후진 소거법을 적용하여 나타난 바와 같이 구글트랜드의 수치가 가장 높은 것을 확인할 수 있다.

도 7은 본 발명의 일 실시예에 따른 표현 추출 시스템(100)에서, 구동 일자에 따른 토픽 표현의 추출을 나타내는 그래프이다. 도 7을 참조하면, X축은 10월 30일부터 11월 23일까지의 날짜들 중 주말(토요일 및 일요일)을 제외한 날짜이며, Y축은 대상 문서들로부터 추출된 텍스트들의 수이다.

도 7을 참조하면, 표현 추출 시스템(100)의 초기 구동 시 데이터베이스에 미등록된 표현이 많은 것으로 확인되며, 따라서, 추출된 표현 수가 비교적 큰 것으로 확인된다.

도 7을 참조하면, 표현 추출 시스템(100)은 대상 문서들로부터 추출되는 표현은 초기 2일을 제외하면 일반적으로 50개에서 70개 사이의 새로운 표현들을 추출하는 것을 확인할 수 있다.

더하여, 신문 기사와 같이 특정 대상 문서 또는 특정 대상 문서의 특정 영역에서 한 이슈를 집중적으로 보도할 경우, 표현 추출 시스템(100)에서 추출하는 표현의 수는 감소할 수 있다.

표현 추출 시스템(100)으로부터 추출되는 표현이 감소하는 경우는, 대상 문서 내 표현들이 지정된 수의 이슈에 집중되어 중복 표현되거나 강조되는 경우이다.

예를 들어, 11월 3일은 교과서 국정화에 대한 정부 발표로 인한 이슈가 집중된 경우이고, 11월 10일은 상업적 기념일인 '빼빼로 데이'에 의한 이슈가 집중된 경우이고, 11월 16일은 주말 간 발생한 '민중 총궐기' 시위로 인한 이슈가 집중된 경우이다.

도 8은 본 발명의 일 실시예에 따른 표현 추출 시스템(100)에서, 동작 시간 및 토픽 표현의 분석에 소요된 시간을 나타내는 그래프이다.

표현 추출 시스템(100)은 동작 시간 중 토픽 표현의 분석에 사용된 시간을 도 8을 통하여 나타낸다. 여기에서, 그래프의 X축은 10월 30일부터 11월 23일까지의 주말을 제외한 날짜이고, 좌측 Y축은 구동 시 분석에 소모된 시간이며, 우측 Y축은 인스타그램의 서버로부터 수신한 데이터(예: 해시태그)의 수치 평균 값을 나타낸다.

도 8을 참조하면, 대체적으로 인스타그램 서버로부터 수신하는 해시태그의 수가 많아질 수록 구동 시간이 느려지며, 인스타그램에서 이슈된 표현이 존재하는 경우, 하기와 같이 크게 느려지는 것을 확인할 수 있다.

예를 들어, 10월 30일은 110,914회의 '인스타그램' 해시태그가 확인되었고, 11월 10일은 107,278회의 '빼빼로데이' 해시태그가 확인되었다. 여기에서, 10월 30일의 해시태그 평균 수치가 낮은 것은 추출된 이슈 표현의 발생량이 높은 것, 즉 상대적으로 더 많은 수의 이슈 표현이 추출된 것으로 설명할 수 있다.

상술한 바와 같이 표현 추출 시스템(100)의 동작을 통하여 새로운 토픽 표현을 추출함에 있어서, 형태소 분석기만 사용하는 경우 찾기가 쉽지 않은 새로운 표현들을 추출 가능한 것을 확인할 수 있다.

표현 추출 시스템(100)은 형태소 분석기를 사용하는 경우 지정된 형태보다 작은 단위로 표현들이 분해되어, 유의미한 표현들이 제외되는 문제점을 방지하며, 이를 위하여 도 2를 통하여 설명한 바와 같이 형태소 분석과 토픽 모델링(예: LDA 알고리즘)뿐만 아니라 강조된 표현 수집이라는 다양한 표현 추출 방법을 적용할 수 있다.

상술한 바와 같이 표현 추출 시스템(100)의 시뮬레이션을 통하여 추출된 토픽 표현들의 적어도 일부를 살펴보면, 하기 표(1)과 같이 나타낼 수 있다.

구분	표현
일반 명사	가능성, 불균형
합성어	농구화, 일기예보
브랜드	현대자동차, EQ900
축약어	마리텔, 응팔
파생어	쿡방, 곰신
신조어	흙수저, 혼밥, 꿀잼

이 때, 표현 추출 시스템(100)은 표현들을 추출하는 동작에 있어서, 신조어의 경우 사회 현상을 빗대는 다른 표현들이 존재함을 확인할 수 있다.

표현 추출 시스템(100)은 추출된 토픽 표현들에 대하여, 대상 문서, 검증 문서, 온라인 매체 및/또는 데이터베이스를 참조하여, 하기 표(2)와 같이 구분된 카테고리의 정보 일부를 포함하여 저장할 수 있다.

토픽 표현	영어	클래스(class)	문서 내 표현
가능성	Possibility	일반 명사	다음과 같이 분석, 가능(Possible) + 성(ability)
불균형	imbalance	일반 명사	다음과 같이 분석, 불(not) + 균형(balance)
농구화	basketball shoes	합성어	다음으로 구성 농구(Basketball) + 화(Shoes)
일기예보	weather forecast	합성어	다음으로 구성 일기(Weather) + 예보(Forecast)
현대자동차	hyundai motors	브랜드	다음에 속함, 기업 카테고리
EQ900	eq900	브랜드	다음에 속함, Car category
마이리틀텔레비젼	my little television	축약어	다음으로 축약, 마리텔
응답하라1998	reply 1998	축약어	다음으로 축약, 응팔
쿡방	cook bang	파생어	다음으로부터 파생, the cooking broadcasting
곰신	rubber shoes	파생어	다음으로 파생됨, 군대간 남자친구를 기다리는 여자
흙수저	dirt spoon	신조어	다음을 풍자, 빈부격차
혼밥	eating alone	신조어	다음을 표현 비사회적으로 보이는 사람
꿀잼	Honey jam	신조어	다음을 표현 매우 재미있음

도 9는 본 발명의 일 실시예에 따른 표현 추출 시스템(100)에서, 추출된 토픽 표현의 분석을 나타내는 그래프이다. 도 9을 참조하면, 표현 추출 시스템(100)은 대상 문서로부터 추출된 후보 표현들 중 온라인 매체를 통하여 이슈된 표현들을 추출할 수 있다. 또한 그래프는, 표현 추출 시스템(100)을 통하여 11월 2일에 나타난 추출 결과에서 토픽 표현을 추출한 결과를 나타낸다.

표현 추출 시스템(100)은 다양한 특징들 중 적어도 일부를 사용하여 EM 클러스터링을 진행할 수 있다. 예를 들어, 통계 서비스(예: 구글트랜드의 통계 데이터)와 소셜 미디어(예: 카카오스토리의 해시태그 데이터), 그리고 대상 문서 내 전체 언급도(출현 빈도)를 고려하는 TF-IDF 수행 결과들이 사용될 수 있고, 정규화된 상태에서 클러스터링에 적용될 수 있다.

도 9을 참조하면 그래프에서, X축은 TF-IDF 수치를 나타내고, Y축은 카카오스토리의 클러스터의 출현 수치를 나타내며, 우측 범례는 각 클러스터를 나타낸다. 표현 추출 시스템(100)을 통하여 결정된 토픽 표현이 전통적인 미디어인 신문에서 많이 언급될 경우, TF-IDF 수치가 낮은 것을 확인할 수 있고, 온라인 매체 등을 통하여 많이 언급될 경우, 해시태그의 수치가 높은 것을 확인할 수 있다.

그래프를 참조하면, 표현 추출 시스템(100)을 통하여 추출된 텍스트들 중 붉게 표시된 클러스터05 및 클러스터08의 표현들이 토픽 표현이며, 총 113개의 표현 중 6개의 토픽 표현을 추출하였다.

또한, 표현 추출 시스템(100)은 결정된 토픽 표현들이 급격하게 이슈되는 하기의 표현들이며, 분석 결과, 대상 문서 및/또는 검증 문서에 기반하여 관련 정보를 확인할 수 있다.

상술한 바와 같이 본 발명의 다양한 실시예에 따르면, 추출된 토픽 표현을 이용하여 데이터베이스를 업데이트함에 있어서, 새로 발생된 표현뿐만 아니라, 기존에 존재하는 표현의 경우에도 사용 빈도에 따라서 검출될 수 있다.

또한, 표현 추출 시스템(100)은 다양한 방법으로 후보 표현들을 추출함으로써, 형태소 분석기를 통해서 분해되어 의미가 사라진 표현, 예를 들어, 사람의 감정을 나타내기 위하여 생성되는 신조어를 추출해낼 수 있다.

그리고, 표현 추출 시스템(100)은 토픽 표현을 추출하고 추출된 토픽 표현을 이용하여 데이터베이스를 업데이트하는 동작을 반복적으로 수행할 수 있다. 따라서, 토픽 표현의 업데이트 및 특정 표현들의 삭제에 대한 정보, 그리고 업데이트된 토픽 표현들을 포함하는 데이터베이스에 기반하여, 시간이 경과함에 따라서 표현 추출 시스템(100)이 토픽 표현을 추출하는데 소요되는 평균 시간은 점진적으로 감소할 수 있다.

다양한 실시예에 따르면, 본 발명의 청구항 및/또는 명세서에 기재된 다양한 실시예에 따른 장치, 시스템, 방법의 적어도 일부는, 하드웨어, 소프트웨어, 펌웨어를 포함하여 구현되거나 또는 하드웨어, 소프트웨어 및 펌웨어 중 둘 이상의 조합을 포함하는 형태(예: 모듈 또는 부품)로 구현될(implemented) 수 있다.

일 실시예에 따르면, 표현 추출 시스템(100)의 구성 요소들 중 적어도 일부는 도 1 및 도 2에 도시된 바와 같이 모듈 형태로 제공될 수 있다. 모듈은, 일체로 구성된 부품의 최소 단위 또는 그 일부로서 본 발명의 다양한 실시예를 수행하는 최소 단위 또는 그 일부가 될 수도 있다. 모듈은 기계적(예: 하드웨어)으로 또는 전자적(예: 소프트웨어)으로 구현될 수 있다.

소프트웨어로 구현되는 경우, 표현 추출 시스템(100)은 하나 이상의 프로그램(또는 프로그래밍 모듈, 어플리케이션)을 저장하는 저장부(또는 저장 매체)를 포함할 수 있다. 여기에서, 저장부는 컴퓨터 판독 가능한 저장 매체(또는 컴퓨터로 읽을 수 있는 저장 매체, computer-readable storage media)가 제공될 수 있다.

소프트웨어는 프로그래밍 모듈의 형태로 컴퓨터로 읽을 수 있는 저장 매체에 저장된 명령어로 구현될 수 있다. 이 때, 표현 추출 시스템(100)의 데이터베이스 또한 저장 매체에 저장될 수 있다.

여기에서, 데이터베이스는, 표현 추출 시스템(100)이 획득하는 대상 문서, 검증 문서, 이슈 표현들, 기 저장된 토픽 표현들을 포함하는 적어도 하나의 프로그램 모듈로 구형될 수 있다.

또한 데이터베이스에 포함되는 정보들 일부는 사전(dictionary) 형태로 저장될 수 있다. 일 실시예에 따르면, 사전 형태로 저장된 정보들은 색인(index) 처리되어 저장될 수 있다.

하나 이상의 프로그램 모듈은, 장치로 하여금 본 발명의 청구항 및/또는 명세서에 기재된 실시예에 따른 방법들을 실행하게 하는 명령어(instructions)를 포함할 수 있다. 상기 명령어는, 하나 이상의 제어부(예: 프로세서)에 의해 실행될 경우, 상기 하나 이상의 제어부가 상기 명령어에 해당하는 기능을 수행할 수 있다.

프로그래밍 모듈의 적어도 일부는, 예를 들면, 제어부에 의해 구현(implement)(또는 실행)될 수 있다. 상기 프로그래밍 모듈 의 적어도 일부는 하나 이상의 기능을 수행하기 위한, 예를 들면, 모듈, 프로그램, 루틴, 명령어 세트 (sets of instructions) 또는 프로세스 등을 포함할 수 있다.

상기 컴퓨터로 판독 가능한 저장 매체에는 하드디스크, 플로피디스크 및 자기 테이프와 같은 마그네틱 매체(Magnetic Media)와, CD-ROM(Compact Disc Read Only Memory), DVD(Digital Versatile Disc)와 같은 광기록 매체(Optical Media)와, 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media)와, 그리고 ROM(Read Only Memory), RAM(Random Access Memory), 플래시(flash) 메모리 등과 같은 프로그램 명령(예: 프로그래밍 모듈)을 저장하고 수행하도록 특별히 구성된 하드웨어 장치, 삭제 가능 및 프로그램 가능 롬(EEPROM, Electrically Erasable Programmable Read Only Memory), 자기 디스크 저장 장치(magnetic disc storage device) 또는 다른 형태의 광학 저장 장치, 마그네틱 카세트(magnetic cassette)가 포함될 수 있다. 또는, 이들의 일부 또는 전부의 조합으로 구성된 저장 매체에 저장될 수 있다. 또한, 각각의 저장 매체는 다수 개 포함될 수도 있다.

표현 추출 시스템(100)은 통신부를 통하여 인터넷(Internet), 인트라넷(Intranet), LAN(Local Area Network), WLAN(Wide LAN), 또는 SAN(Storage Area Network)과 같은 통신 네트워크, 또는 이들의 조합으로 구성된 통신 네트워크에 연결될 수 있다. 이 때, 저장부는, 통신 네트워크를 통하여 접근(access)할 수 있는 부착 가능한(attachable) 저장 장치(storage device, 또는 외부 장치)에 포함될 수도 있다. 이러한 저장 장치는 외부 포트를 통하여 장치에 접속할 수 있다. 여기에서, 외부 장치는 온라인 매체의 정보들이 저장되는 서버일 수 있다.

또한, 통신 네트워크상의 별도의 저장 장치가 휴대용 장치에 접속할 수도 있다. 상술한 하드웨어 장치는 본 발명의 다양한 실시예에 대한 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지다.

본 발명의 다양한 실시예에 따른 모듈 또는 프로그래밍 모듈은 전술한 구성 요소들 중 적어도 하나 이상을 포함하거나, 일부가 생략되거나, 또는 추가적인 다른 구성 요소를 더 포함할 수 있다. 본 발명의 다양한 실시예에 따른 모듈, 프로그래밍 모듈 또는 다른 구성 요소에 의해 수행되는 동작들은 순차적, 병렬적, 반복적 또는 휴리스틱(heuristic)한 방법으로 실행될 수 있다. 또한, 일부 동작은 다른 순서로 실행되거나, 생략되거나, 또는 다른 동작이 추가될 수 있다.

본 명세서와 도면에 개시된 본 발명의 실시예들은 본 발명의 기술 내용을 쉽게 설명하고 본 발명의 이해를 돕기 위해 특정 예를 제시한 것일 뿐이며, 본 발명의 범위를 한정하고자 하는 것은 아니다. 따라서 본 발명의 범위는 여기에 개시된 실시예들 이외에도 본 발명의 기술적 사상을 바탕으로 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

100: 표현 추출 시스템 111: 후보 표현 추출부
113: 이슈 표현 수집부 115: 토픽 표현 결정부
117: 검증부

Claims

후보 표현 추출부, 이슈 표현 수집부 및 토픽 표현 결정부를 포함하는 토픽 표현 추출 시스템의 토픽 표현 추출 방법에 있어서,
후보표현 추출부의, 하나 이상의 대상 문서로부터 하나 이상의 표현을 추출하되, 상기 하나 이상의 표현에서 강조 표현 또는 소정의 토픽 모델링에 의한 표현 중 기 설정된 토픽 표현을 제외한 하나 이상을 토픽 후보 표현으로 선발하는 단계;
이슈 표현 수집부의, 상기 토픽 후보 표현 선발 시, 통신 기반으로 연결되는 하나 이상의 온라인 매체에서 실시간으로 사용되는 표현들로부터 하나 이상의 이슈 표현을 수집하는 단계; 및
토픽 표현 결정부의, 상기 이슈 표현과 상기 토픽 후보 표현을 매칭하고, 상기 이슈 표현과 매칭되는 토픽 후보 표현 중 사용도가 변화된 토픽 후보 표현을 토픽 표현으로 결정하는 단계;를 포함하는, 토픽 표현 추출 방법.
제1항에 있어서,
상기 통신 기반으로 연결되는 하나 이상의 온라인 매체에서 실시간으로 사용되는 표현들로부터 하나 이상의 이슈 표현을 수집하는 단계는,
상기 온라인 매체로부터 획득하는 통계 정보에 기반하여 상기 이슈 표현의 중요도를 결정하는 단계를 포함하는, 토픽 표현 추출 방법.
제2항에 있어서,
상기 통계 정보는, 해시태그(hashtag) 및 키워드 검색 정보 중 하나 이상을 포함하는, 토픽 표현 추출 방법.
제2항에 있어서,
상기 실시간으로 사용되는 표현들은, 상기 온라인 매체에서 지정된 시간범위 동안 출력된 표현 및 상기 지정된 시간범위 동안 출력된 표현에 대응되는 통계 정보 중 적어도 일부를 포함하여 결정되는, 토픽 표현 추출 방법.
제1항에 있어서,
상기 이슈 표현과 상기 토픽 후보 표현을 매칭하고, 상기 이슈 표현과 매칭되는 토픽 후보 표현 중 사용도가 변화된 토픽 후보 표현을 토픽 표현으로 결정하는 단계는,
상기 토픽 후보 표현이 상기 대상 문서에 출현하는 빈도 수에 기반하여 상기 토픽 후보 표현의 중요도를 결정하는 단계를 더 포함하는, 토픽 표현 추출 방법.
삭제
제1항에 있어서,
상기 이슈 표현과 매칭되는 토픽 후보 표현은, 상기 이슈 표현과 동일, 유사한 표현 또는 상기 설정된 토픽 표현을 제외한 하나 이상을 포함하여 결정되는 토픽 후보 표현인, 토픽 표현 추출 방법.
제1항에 있어서,
상기 토픽 후보 표현은, 상기 대상 문서의 형태소 분석에 의한 표현을 더 포함하는, 토픽 표현 추출 방법.
제1항에 있어서,
상기 결정된 토픽 표현으로 회귀 분석을 수행하는 단계;
상기 회귀 분석 결과를 상기 토픽 표현과 비교하는 단계; 및
상기 비교 결과에 기반하여 상기 토픽 표현을 재결정하는 단계;를 더 포함하는, 토픽 표현 추출 방법.
하나 이상의 대상 문서로부터 하나 이상의 표현을 추출하고, 상기 하나 이상의 표현에서 강조 표현 또는 소정의 토픽 모델링에 의한 표현 중 기 설정된 토픽 표현을 제외한 하나 이상을 토픽 후보 표현으로 선발하는 후보 표현 추출부;
상기 토픽 후보표현 선발 시 통신 기반으로 연결되는 하나 이상의 온라인 매체에서 실시간으로 사용되는 표현들로부터 하나 이상의 이슈 표현을 수집하는 이슈 표현 수집부; 및
상기 이슈 표현과 상기 토픽 후보 표현을 매칭하고, 상기 이슈 표현과 매칭되는 토픽 후보 표현 중 사용도가 변화된 토픽 후보 표현을 토픽 표현으로 결정하는 토픽 표현 결정부;를 포함하는, 토픽 표현 추출 시스템.
제10항에 있어서,
상기 이슈 표현 수집부는, 상기 온라인 매체로부터 획득하는 통계 정보에 기반하여 상기 이슈 표현의 중요도를 결정하는, 토픽 표현 추출 시스템.
제11항에 있어서,
상기 통계 정보는, 해시태그(hashtag) 및 키워드 검색 정보 중 하나 이상을 포함하는, 토픽 표현 추출 시스템.
제11항에 있어서,
상기 이슈 표현 수집부는, 상기 온라인 매체에서 지정된 시간범위 동안 출력된 표현 및 상기 지정된 시간범위 동안 출력된 표현에 대응되는 통계 정보 중 적어도 일부를 포함하여 상기 실시간으로 사용되는 표현들을을 결정하는, 토픽 표현 추출 시스템.
제10항에 있어서,
상기 토픽 표현 결정부는, 상기 토픽 후보 표현이 상기 대상 문서에 출현하는 빈도 수에 기반하여 상기 토픽 후보 표현의 중요도를 결정하는, 토픽 표현 추출 시스템.
삭제
제10항에 있어서,
상기 이슈 표현과 매칭되는 토픽 후보 표현은, 상기 이슈 표현과 동일, 유사한 표현 또는 상기 설정된 토픽 표현을 제외한 하나 이상을 포함하여 결정되는 토픽 후보 표현인, 토픽 표현 추출 시스템.
제10항에 있어서,
상기 토픽 후보 표현은, 상기 대상 문서의 형태소 분석에 의한 표현을 더 포함하는, 토픽 표현 추출 시스템.
제10항에 있어서,
상기 결정된 토픽 표현으로 회귀 분석을 수행하고, 상기 회귀 분석 결과를 상기 토픽 표현과 비교하여 상기 비교 결과에 기반하여 상기 토픽 표현을 재결정하는 검증부;를 더 포함하는, 토픽 표현 추출 시스템.