WO2022085823A1

WO2022085823A1 - 토픽 모델링 기법을 이용한 포지셔닝 맵 생성 장치 및 방법

Info

Publication number: WO2022085823A1
Application number: PCT/KR2020/014525
Authority: WO
Inventors: 배복태; 이시영; 장혁수
Original assignee: 주식회사 데이타솔루션
Priority date: 2020-10-22
Filing date: 2020-10-22
Publication date: 2022-04-28

Abstract

토픽 모델링 기법을 이용한 포지셔닝 맵 생성 장치 및 방법을 개시한다. 본 발명은 토픽모델링 기법인 LDA(Latent Direchlet Allocation) 기법을 이용하여 토픽을 자동으로 생성하고, 각 토픽에 포함된 키워드의 출현 빈도수를 벡터화하여 계량화 한 후 포지셔닝맵의 각 공간에 표시할 수 있도록 자동화하여 포지셔닝맵을 구성할 수 있다.

Description

토픽 모델링 기법을 이용한 포지셔닝 맵 생성 장치 및 방법

본 발명은 토픽 모델링 기법을 이용한 포지셔닝 맵 생성 장치 및 방법에 관한 발명으로서, 더욱 상세하게는 토픽모델링 기법인 LDA(Latent Direchlet Allocation) 기법을 이용하여 토픽을 자동으로 생성하고, 각 토픽에 포함된 키워드의 출현 빈도수를 벡터화하여 계량화 한 후 포지셔닝맵의 각 공간에 표시할 수 있도록 자동화하여 포지셔닝맵을 구성하는 토픽 모델링 기법을 이용한 포지셔닝 맵 생성 장치 및 방법에 관한 것이다.

최근 사람들이 접근할 수 있는 매체 수가 증가하면서 실시간 이슈에 대한 의견 표현 방식도 다양해지고 있다.

사용자들은 자신의 의견을 짧은 사진, 글 속에 녹여서 다른 사람과 공유할 수 있고 때로는 다른 사람의 동의를 구하기도 한다.

이러한 사용자들의 생각을 파악하는 것은 트랜드 분석에 있어 중요한 사항이며, 이에 대한 텍스트 마이닝(text mining)기법들은 여러 연구단체, 기업 연구소에서 활발히 연구되고 있고, 빅 데이터를 이용한 트랜드 분석은 이제 성공 가능성을 넘어서서 얼마나 정확한지에 초점이 맞춰지고 있다.

그러나 현실에서 벌어지는 사건들이 지속적으로 새로운 이슈로 주목 받고 그에 맞는 용어가 탄생하기도 하고, 유의미한 분석 결과를 위해 토픽들의 키워드 생성과 전략적으로 설정한 키워드들 간의 유사도에 기반한 계량화와 전략 프레임 워크를 생성하는 것에 한계가 있는 문제점이 있다.

또한, 비즈니스 환경에서의 전략 수립은 주로 컨설턴트들의 영역이었고, 여러 종류의 비즈니스 전략 프레임워크를 이용하여 회사들의 시장에서의 위치나 경쟁구도 상에서 제품들의 위치를 파악한다.

또한, 파악된 제품들의 현재 위치를 기반으로 이후 사업적인 방향성이나 제품의 발전 방향을 전략적으로 수립한다.

이러한 비즈니스 프레임워크를 이용한 전략 수립은 사람이 직접 회사의 내부 및 외부 데이터를 분석하고, 시장 환경을 파악한 후 수립하게 되는데 많은 비용과 시간이 소요되는 문제점이 있다.

또한, 최근과 같이 시장 환경이 급변하고 기업을 둘러싼 환경이 시시각각 변하는 환경에서는 더욱 시의적절하고 빠른 대응의 전략 수립이 요구된다.

특허문헌, 한국 등록특허공보 등록번호 제10-1758555호(발명의 명칭: 토픽 표현 추출 방법 및 그 시스템)

이러한 문제점을 해결하기 위하여, 본 발명은 토픽 모델링 기법인 LDA(Latent Direchlet Allocation) 기법을 이용하여 토픽을 자동으로 생성하고, 각 토픽에 포함된 키워드의 출현 빈도수를 벡터화하여 계량화 한 후 포지셔닝맵의 각 공간에 표시할 수 있도록 자동화하여 포지셔닝맵을 구성하는 토픽 모델링 기법을 이용한 포지셔닝 맵 생성 장치 및 방법을 제공하는 것을 목적으로 한다.

상기한 목적을 달성하기 위하여 본 발명의 일 실시 예는 네트워크를 통해 임의의 뉴스 데이터가 입력되면, 토픽 모델링부가 상기 뉴스 데이터로부터 키워드를 포함한 복수의 토픽을 추출하고, 전략 계량화부가 전략 입력부로부터 입력되는 사용자가 정의하는 전략에 대한 하나 이상의 전략 키워드로 구성된 전략 키워드 리스트와, 상기 토픽 모델링부에서 생성된 각 토픽의 키워드 리스트 사이에 유사도를 계산하여 상기 전략을 계량화 하며, 상기 계량화 된 전략은 결과 출력부를 통해 2차원 좌표 공간에 표시하는 것을 특징으로 한다.

또한, 상기 실시 예는 네트워크를 통해 임의의 뉴스 데이터를 입력받는 뉴스 입력부; 상기 뉴스 데이터로부터 단어를 추출하고, 추출된 단어 별로 TF-IDF(Term Frequency-Inverse Document Frequency)를 계산하여 가중치를 생성하는 가중치 생성부; 상기 뉴스 데이터를 LDA(Latent Direchlet Allocaion)을 이용하여 복수의 토픽을 추출하는 토픽 모델링부; 사용자가 정의하는 전략에 대한 하나 이상의 전략 키워드를 입력받아 전략 키워드 리스트로 출력하는 전략 입력부; 상기 전략 입력부에서 출력되는 전략 키워드 리스트와, 상기 토픽 모델링부에서 생성된 각 토픽의 키워드 리스트 사이에 유사도를 계산하여 상기 전략을 계량화 하는 전략 계량화부; 및 상기 계량화 된 전략을 저장하고, 계량화 된 전략을 2차원 좌표 공간에 표시하여 출력하는 결과 출력부;를 포함하는 것을 특징으로 한다.

또한, 상기 실시 예에 따른 가중치 생성부는 단어 단위로 토큰화 한 후 각 단어의 빈도값(Term Frequency)과, 단어의 문서 출현 역빈도값(Inverse Document Frequency)을 계산하고, 상기 TF-IDF는 하기식으로부터 산출되는 것을 특징으로 한다.

여기서, tf_i,j는 j에서 i의 총 발생 횟수, df_i는 j에서 i가 포함된 총 문서 수, N은 총 문서 수 이다.

또한, 상기 실시 예에 따른 토픽 모델링부는 각 토픽을 구성하는 키워드를 포함하여 추출하되, 상기 키워드의 확률적 분포를 통해 주제 토픽을 구성하는 것을 특징으로 한다.

또한, 상기 실시 예에 따른 전략 계량화부는 전략 키워드 리스트의 원소 키워드에 대한 단어 벡터 값을 산출하여 단어×단어 행렬을 생성하는 행렬 생성부; 상기 전략 키워드 리스트의 원소 키워드와 토픽의 각 원소 키워드를 각각 단어 벡터 공간에서 유사도 계산을 수행하는 유사도 연산부; 및 상기 유사도 연산부에 계산된 각 키워드 간의 유사도 값을 합산하여 산술 평균 값을 산출하고, 상기 산술 평균 값을 해당 토픽의 전략에 대한 대푯값으로 생성하여 계량화 하는 계량화부;를 포함하는 것을 특징으로 한다.

또한, 본 발명의 일 실시 예는 토픽 모델링 기법을 이용한 포지셔닝 맵 생성 방법으로서, a) 뉴스 입력부가 네트워크를 통해 임의의 뉴스 데이터를 입력받는 단계; b) 토픽 모델링부가 상기 뉴스 데이터를 LDA(Latent Direchlet Allocaion)을 이용하여 복수의 토픽을 추출하는 단계; c) 전략 입력부가 사용자가 정의하는 전략에 대한 하나 이상의 전략 키워드를 입력받아 전략 키워드 리스트로 출력하면, 전략 계량화부가 상기 전략 입력부에서 출력되는 전략 키워드 리스트와, 상기 b)단계에서 추출된 각 토픽의 키워드 리스트 사이에 유사도를 계산하여 상기 전략을 계량화 하는 단계; 및 d) 결과 출력부가 상기 계량화 된 전략을 저장하고, 계량화 된 전략을 2차원 좌표 공간에 표시하여 출력하는 단계;를 포함한다.

또한, 상기 실시 예에 따른 a)단계는 가중치 생성부를 통해 상기 뉴스 데이터로부터 단어를 추출하고, 추출된 단어 별로 TF-IDF(Term Frequency-Inverse Document Frequency)를 계산하여 가중치를 생성하는 전처리 단계;를 더 포함하는 것을 특징으로 한다.

또한, 상기 실시 예에 따른 가중치는 단어 단위로 토큰화 한 후 각 단어의 빈도값(Term Frequency)과, 단어의 문서 출현 역빈도값(Inverse Document Frequency)을 계산하고, 상기 TF-IDF는 하기식으로부터 산출되는 것을 특징으로 한다.

또한, 상기 실시 예에 따른 b)단계는 각 토픽을 구성하는 키워드를 포함하여 추출하되, 상기 키워드의 확률적 분포를 통해 주제 토픽을 구성하는 것을 특징으로 한다.

또한, 상기 실시 예에 따른 c) 단계는 c-1) 전략 키워드 리스트의 원소 키워드에 대한 단어 벡터 값을 산출하여 단어×단어 행렬을 생성하는 단계; c-2) 상기 전략 키워드 리스트의 원소 키워드와 토픽의 각 원소 키워드를 각각 단어 벡터 공간에서 유사도 계산을 수행하는 단계; 및 c-3) 상기 계산된 각 키워드 간의 유사도 값을 합산하여 산술 평균 값을 산출하고, 상기 산술 평균 값을 해당 토픽의 전략에 대한 대푯값으로 생성하여 계량화 하는 단계;를 포함하는 것을 특징으로 한다.

본 발명은 토픽모델링 기법인 LDA(Latent Direchlet Allocation) 기법을 이용하여 토픽을 자동으로 생성하고, 각 토픽에 포함된 키워드의 출현 빈도수를 벡터화하여 계량화 한 후 포지셔닝맵의 각 공간에 표시할 수 있도록 자동화하여 포지셔닝맵을 구성할 수 있는 장점이 있다.

또한, 본 발명은 토픽모델링 기법으로 생성한 토픽들의 키워드들과 전략으로 설정한 키워드들 간의 유사도를 계산하여 각 전략과 각 토픽간의 유사도를 계량화 하고 각 토픽을 2차원으로 표현할 수 있는 장점이 있다.

도1은 본 발명의 일 실시 예에 따른 토픽 모델링 기법을 이용한 포지셔닝 맵 생성 장치의 구성을 나타낸 블록도.

도2는 도1의 실시 예에 따른 토픽 모델링 기법을 이용한 포지셔닝 맵 생성 장치의 행렬 생성부 구성을 나타낸 블록도.

도3은 본 발명의 일 실시 예에 따른 토픽 모델링 기법을 이용한 포지셔닝 맵 생성 과정을 나타낸 흐름도.

이하에서는 본 발명의 바람직한 실시 예 및 첨부하는 도면을 참조하여 본 발명을 상세히 설명하되, 도면의 동일한 참조부호는 동일한 구성요소를 지칭함을 전제하여 설명하기로 한다.

본 발명의 실시를 위한 구체적인 내용을 설명하기에 앞서, 본 발명의 기술적 요지와 직접적 관련이 없는 구성에 대해서는 본 발명의 기술적 요지를 흩뜨리지 않는 범위 내에서 생략하였음에 유의하여야 할 것이다.

또한, 본 명세서 및 청구범위에 사용된 용어 또는 단어는 발명자가 자신의 발명을 최선의 방법으로 설명하기 위해 적절한 용어의 개념을 정의할 수 있다는 원칙에 입각하여 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야 할 것이다.

본 명세서에서 어떤 부분이 어떤 구성요소를 "포함"한다는 표현은 다른 구성요소를 배제하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다.

또한, "‥부", "‥기", "‥모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어, 또는 그 둘의 결합으로 구분될 수 있다.

또한, "적어도 하나의" 라는 용어는 단수 및 복수를 포함하는 용어로 정의되고, 적어도 하나의 라는 용어가 존재하지 않더라도 각 구성요소가 단수 또는 복수로 존재할 수 있고, 단수 또는 복수를 의미할 수 있음은 자명하다 할 것이다.

또한, 각 구성요소가 단수 또는 복수로 구비되는 것은, 실시 예에 따라 변경가능하다 할 것이다.

이하, 첨부된 도면을 참조하여 본 발명의 일 실시 예에 따른 토픽 모델링 기법을 이용한 포지셔닝 맵 생성 장치 및 방법의 바람직한 실시예를 상세하게 설명한다.

도1은 본 발명의 일 실시 예에 따른 토픽 모델링 기법을 이용한 포지셔닝 맵 생성 장치의 구성을 나타낸 블록도이고, 도2는 도1의 실시 예에 따른 토픽 모델링 기법을 이용한 포지셔닝 맵 생성 장치의 행렬 생성부 구성을 나타낸 블록도이다.

도1 및 도2를 참조하면, 본 발명의 일 실시 예에 따른 토픽 모델링 기법을 이용한 포지셔닝 맵 생성 장치는 네트워크를 통해 임의의 뉴스 데이터가 입력되면, 상기 뉴스 데이터로부터 키워드를 포함한 복수의 토픽을 추출하고, 사용자가 정의하는 전략에 대한 하나 이상의 전략 키워드로 구성된 전략 키워드 리스트와, 상기 각 토픽의 키워드 리스트 사이에 유사도를 계산하여 전략을 계량화 하며, 상기 계량화 된 전략은 2차원 좌표 공간에 표시한다.

또한, 상기 포지셔닝 맵 생성 장치는 입력부(100)와, 가중치 생성부(200)와, 토픽 모델링부(300)와, 전략 입력부(400)와, 전략 계량화부(500)와, 결과 출력부(600)를 포함하여 구성된다.

상기 입력부(100)는 네트워크를 통해 임의의 서버 시스템(미도시) 또는 단말과 접속하고, 접속된 서버 시스템 또는 단말로부터 뉴스 데이터를 입력받는다.

상기 뉴스 데이터는 인터넷 기사 형태의 뉴스 데이터로서, 하나의 레코드에 하나의 기사 형식으로 가공하여 입력될 수 있다.

상기 가중치 생성부(200)는 입력받은 뉴스 데이터를 형태소 분석과 전처리 과정을 통해 단어를 추출한다.

또한, 상기 가중치 생성부(200)는 추출된 단어 별로 TF-IDF(Term Frequency-Inverse Document Frequency)를 계산하여 가중치를 부여하고, 문서×단어 행렬 형식으로 만드는 작업을 수행할 수 있다.

또한, 상기 가중치 생성부(200)는 단어 단위로 토큰화 한 후 각 단어의 빈도값(Term Frequency)과, 단어의 문서 출현 역빈도값(Inverse Document Frequency)을 계산하여 행렬 원소의 값으로 생성할 수 있다.

상기 TF-IDF는 정보 검색과 텍스트 마이닝에서 이용하는 가중치로서, 여러 뉴스 데이터(또는 문서)로 이루어진 뉴스 데이터군이 있을 경우, 어떤 단어가 특정 뉴스 데이터 내에서 얼마나 중요한 것인지를 나타내는 통계적인 수치이다.

상기 텍스트 마이닝은 다수의 뉴스 데이터들 각각에 포함된 다수의 단어들 각각의 빈도 수를 결정하거나 계산할 수 있는데, 다수의 단어들 각각이 다수의 뉴스 데이터들 각각에 포함된 빈도 수를 요소로 하는 문서×단어 행렬(X)을 생성할 수 있다.

상기 문서×단어 행렬(X)는 다음과 같이 표현될 수 있다.

여기서, TF는 다수의 뉴스 데이터들 각각에서 특정 단어가 포함된 빈도수를 의미하고, 상기 TF의 값이 클수록 TF에 대응하는 단어가 중요 단어로 고려될 수 있다.

또한, IDF는 특정 단어가 나타난 뉴스 데이터의 수를 의미하는 DF(Document Frequency)의 역수로서, 상기 IDF의 값이 클수록 상기 IDF에 대응하는 단어가 중요 단어로 고려될 수 있다.

따라서, 본 실시 예에서는 TF와 IDF의 곱을 가중치, 즉 TF-IDF 가중치로 사용하고, 결과적으로 상기 TF-IDF 가중치는 상기 TF와 상기 IDF의 곱으로 표현되며, 단어의 빈도수가 높을수록, 해당 단어가 포함된 뉴스 데이터의 수가 적을수록 높은 값을 가질 수 있고, 상기 TF-IDF 가중치가 높을수록 중요 단어인 키워드로 판단될 수 있다.

상기 TF-IDF는 하기식으로부터 산출될 수 있다.

[수학식 1]

또한, 상기 TF-IDF 값으로 생성된 행렬은 관점에 따라 문서 벡터와 단어 벡터로 표현할 수 있고, 본 실시 예에서는 단어 벡터로 구성한다.

상기 토픽 모델링부(300)는 뉴스 데이터를 LDA(Latent Direchlet Allocaion) 알고리즘을 이용하여 복수의 토픽을 추출한다.

여기서, 토픽들은 단어들의 확률 분포로서, 복수개의 각 토픽은 토픽을 구성하는 키워드를 포함할 수 있고, 상기 키워드의 확률적 분포를 통해 주제 토픽을 구성할 수도 있으며, 상기 주제 토픽을 구성하는 하나 이상의 키워드는 키워드 리스트로 출력될 수 있다.

예를 들어 '전기차', '배터리 충전', '하이브리드 차량' 등의 단어들과 관련된 특정한 확률 분포를 갖는 토픽은 '자동차'일 수 있고, 키워드는 '전기', '배터리', '하이브리드' 등이 될 수 있다.

상기 토픽 모델링부(300)는 다수의 뉴스 데이터들에 포함된 단어들 각각의 확률 분포를 계산하여 다수의 뉴스 데이터들을 분석할 수 있다.

또한, 상기 LDA는 다수의 뉴스 데이터들 내에 잠재된 토픽들을 추출하는 알고리즘으로서 VEM(variational expectation maximization)을 이용할 수 있고, LDA를 적용하기 위해서 미리 토픽의 수를 결정할 수도 있다.

또한, 상기 토픽 모델링부(300)는 토픽의 수를 결정하기 위해 혼잡도(perplexity; P)를 이용할 수 있이고, 이때, 혼잡도(P)는 학습된 생성 모델이 실제 관찰 가능한 결과를 생성해낼 확률을 측정하는 것으로, 상기 혼잡도(P)가 낮을수록 모델의 성능이 우수하다고 볼 수 있다.

상기 전략 입력부(400)는 사용자가 정의하는 전략에 대한 하나 이상의 전략 키워드를 입력받는 구성으로서, 키보드, 키패드 등의 입력수단을 포함하여 이루어질 수 있고, 상기 키워드는 일반적인 키워드 형식으로 하나 이상을 입력받아 전략 키워드 리스트로 출력될 수 있다.

상기 전략 계량화부(500)는 전략 입력부(400)에서 출력되는 전략 키워드 리스트와, 토픽 모델링부(300)에서 생성된 각 토픽의 키워드 리스트 사이에 유사도를 계산하여 상기 전략을 계량화 하는 구성으로서, 행렬 생성부(510)와, 유사도 연산부(520)와, 계량화부(530)를 포함하여 구성될 수 있다.

상기 행렬 생성부(510)는 전략 키워드 리스트의 원소 키워드에 대한 단어 벡터 값을 문서×단어의 가중치 행렬에서 산출하여 단어×단어의 행렬을 생성한다.

상기 유사도 연산부(520)는 행렬 생성부(510)에서 생성된 행렬 값과 사용자 정의 전략 정보와의 유사도를 계산하는 구성으로서, 전략 키워드 리스트의 원소 키워드와 토픽의 각 원소 키워드를 각각 단어 벡터 공간에서 유사도 계산을 수행한다.

또한, 상기 유사도 연산부(520)는 코사인 유사도(Cosine similarity) 방식으로 벡터 공간에서의 유사도를 계산한다.

여기서, 상기 유사도 연산부(520)는 산출된 코사인 값이 1에 가까운 값을 가질수록 각 벡터에 대응하는 키워드 간의 유사도가 높다고 판단할수 있다.

예를 들어, 유사도 연산부(520)는 1과 코사인 값의 차이값이 임계 값보다 작으면 각 벡터에 대응하는 키워드가 서로 유사하다고 판단할 수 있다.

상기 계량화부(530)는 유사도 연산부(520)에 계산된 각 키워드 간의 유사도 값을 합산하여 산술 평균 값을 산출한다.

또한, 상기 계량화부(530)는 산출된 산술 평균 값을 해당 토픽의 전략에 대한 대푯값으로 생성하여 표시하는 계량화(計量化)를 수행한다.

상기 결과 출력부(600)는 전략 계량화부(500)에서 계량화 된 전략 정보를 데이터베이스(DB)에 저장하거나, 또는 모니터 등의 디스플레이 수단을 통해 상기 계량화 된 전략 정보가 2차원 좌표 공간에 표시되도록 출력한다.

즉, 상기 결과 출력부(600)는 각 토픽에 포함된 키워드의 출현 빈도수를 벡터화하여 계량화 되면, 2차원 좌표 공간으로 이루어진 포지셔닝맵의 각 공간에 표시하여 사용자가 쉽게 확인할 수 있도록 한다.

다음은 본 발명의 일 실시 예에 따른 토픽 모델링 기법을 이용한 포지셔닝 맵 생성 방법을 설명한다.

도3은 본 발명의 일 실시 예에 따른 토픽 모델링 기법을 이용한 포지셔닝 맵 생성 과정을 나타낸 흐름도로서, 도1 내지 도3을 참조하여 설명한다.

뉴스 입력부(100)가 네트워크를 통해 임의의 뉴스 데이터를 입력받아 수신(S100)하면, 가중치 생성부(200)는 수신된 상기 뉴스 데이터로부터 단어를 추출하고, 추출된 단어 별로 TF-IDF(Term Frequency-Inverse Document Frequency)를 계산하여 가중치를 생성하는 전처리 과정을 수행(S200)한다.

상기 S200 단계에서, 가중치는 단어 단위로 토큰화 한 후 각 단어의 빈도값(Term Frequency)과, 단어의 문서 출현 역빈도값(Inverse Document Frequency)을 계산하고, 상기 TF-IDF는 하기식으로부터 산출한다.

[수학식 2]

상기 S200 단계를 수행한 다음, 토픽 모델링부(300)는 뉴스 데이터를 LDA(Latent Direchlet Allocaion) 알고리즘을 이용하여 복수의 토픽을 추출(S300)한다.

상기 S300 단계에서, 토픽들은 단어들의 확률 분포이고, 복수개의 각 토픽은 토픽을 구성하는 키워드를 포함할 수 있다.

또한, 상기 키워드의 확률적 분포를 통해 주제 토픽을 구성할 수도 있으며, 상기 주제 토픽을 구성하는 하나 이상의 키워드는 키워드 리스트로 출력될 수 있다.

또한, 상기 S300 단계에서 토픽 모델링부(300)는 다수의 뉴스 데이터들에 포함된 단어들 각각의 확률 분포를 계산하여 다수의 뉴스 데이터들을 분석할 수 있다.

계속해서, 전략 입력부(400)가 사용자가 정의하는 전략에 대한 하나 이상의 전략 키워드를 입력받아 전략 키워드 리스트로 출력(S400)한다.

전략 계량화부(500)는 상기 S400 단계에서 전략 입력부(400)가 출력하는 전략 키워드 리스트와, 상기 S300 단계에서 추출된 각 토픽의 키워드 리스트 사이에 유사도를 계산하여 상기 전략을 계량화(S500)한다.

상기 S500 단계에서, 전략 계량화부(500)는 전략 키워드 리스트의 원소 키워드에 대한 단어 벡터 값을 문서×단어의 가중치 행렬에서 산출하여 단어×단어의 행렬을 생성한다.

또한, 상기 전략 계량화부(500)는 생성된 행렬 값과 사용자 정의 전략 정보와의 유사도를 계산하는데, 코사인 유사도(Cosine similarity) 방식으로 전략 키워드 리스트의 원소 키워드와 토픽의 각 원소 키워드를 각각 단어 벡터 공간에서 유사도 계산을 수행한다.

또한, 상기 전략 계량화부(500)는 계산된 각 키워드 간의 유사도 값을 합산하여 산술 평균 값을 산출하고, 산출된 산술 평균 값을 해당 토픽의 전략에 대한 대푯값으로 생성하여 표시하는 계량화(計量化)를 수행한다.

계속해서, 각 토픽에 포함된 키워드의 출현 빈도수를 벡터화하여 유사도 연산과 계량화가 완료되면, 결과 출력부(600)는 2차원 좌표 공간으로 이루어진 포지셔닝맵의 각 공간에 전략 계량화부(500)에서 계량화 된 전략 정보를 표시하여 사용자가 쉽게 확인할 수 있도록 모니터 등의 디스플레이 수단을 통해 표시되도록 출력(S600)한다.

또한, 상기 S600 단계는 전략 계량화부(500)에서 계량화 된 전략 정보를 데이터베이스(DB)에 저장할 수 있다.

따라서, 토픽모델링 기법인 LDA(Latent Direchlet Allocation) 기법을 이용하여 토픽을 자동으로 생성하고, 각 토픽에 포함된 키워드의 출현 빈도수를 벡터화하여 계량화 한 후 포지셔닝맵의 각 공간에 표시할 수 있도록 자동화하여 포지셔닝맵을 구성할 수 있다.

또한, 토픽모델링 기법으로 생성한 토픽들의 키워드들과 전략으로 설정한 키워드들 간의 유사도를 계산하여 각 전략과 각 토픽간의 유사도를 계량화 하고 각 토픽을 2차원으로 표현함으로써, 사용자가 쉽게 확인할 수 있다.

상기와 같이, 본 발명의 바람직한 실시 예를 참조하여 설명하였지만 해당 기술 분야의 숙련된 당업자라면 하기의 특허청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

또한, 본 발명의 특허청구범위에 기재된 도면번호는 설명의 명료성과 편의를 위해 기재한 것일 뿐 이에 한정되는 것은 아니며, 실시예를 설명하는 과정에서 도면에 도시된 선들의 두께나 구성요소의 크기 등은 설명의 명료성과 편의상 과장되게 도시되어 있을 수 있다.

또한, 상술된 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례에 따라 달라질 수 있으므로, 이러한 용어들에 대한 해석은 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

또한, 명시적으로 도시되거나 설명되지 아니하였다 하여도 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기재사항으로부터 본 발명에 의한 기술적 사상을 포함하는 다양한 형태의 변형을 할 수 있음은 자명하며, 이는 여전히 본 발명의 권리범위에 속한다.

또한, 첨부하는 도면을 참조하여 설명된 상기의 실시예들은 본 발명을 설명하기 위한 목적으로 기술된 것이며 본 발명의 권리범위는 이러한 실시예에 국한되지 아니한다.

[부호의 설명]

100 : 뉴스 입력부

200 : 가중치 생성부

300 : 토픽 모델링부

310 : 행렬 생성부

320 : 유사도 연산부

330 : 계량화부

400 : 전략 입력부

500 : 전략 계량화부

600: 결과 출력부

Claims

네트워크를 통해 임의의 뉴스 데이터가 입력되면, 토픽 모델링부(300)가 상기 뉴스 데이터로부터 키워드를 포함한 복수의 토픽을 추출하고,

전략 계량화부(500)가 전략 입력부(400)로부터 입력되는 사용자가 정의하는 전략에 대한 하나 이상의 전략 키워드로 구성된 전략 키워드 리스트와, 상기 토픽 모델링부(300)에서 생성된 각 토픽의 키워드 리스트 사이에 유사도를 계산하여 상기 전략을 계량화 하며,

상기 계량화 된 전략은 결과 출력부(600)를 통해 2차원 좌표 공간에 표시하는 것을 특징으로 하는 토픽 모델링 기법을 이용한 포지셔닝 맵 생성 장치.
제 1 항에 있어서,

상기 네트워크를 통해 임의의 뉴스 데이터를 입력받는 뉴스 입력부(100);

상기 뉴스 데이터로부터 단어를 추출하고, 추출된 단어 별로 TF-IDF(Term Frequency-Inverse Document Frequency)를 계산하여 가중치를 생성하는 가중치 생성부(200);

상기 뉴스 데이터를 LDA(Latent Direchlet Allocaion)을 이용하여 복수의 토픽을 추출하는 토픽 모델링부(300);

사용자가 정의하는 전략에 대한 하나 이상의 전략 키워드를 입력받아 전략 키워드 리스트로 출력하는 전략 입력부(400);

상기 전략 입력부(400)에서 출력되는 전략 키워드 리스트와, 상기 토픽 모델링부(300)에서 생성된 각 토픽의 키워드 리스트 사이에 유사도를 계산하여 상기 전략을 계량화 하는 전략 계량화부(500); 및

상기 계량화 된 전략을 저장하고, 계량화 된 전략을 2차원 좌표 공간에 표시하여 출력하는 결과 출력부(600);를 포함하는 것을 특징으로 하는 토픽 모델링 기법을 이용한 포지셔닝 맵 생성 장치.
제 2 항에 있어서,

상기 가중치 생성부(200)는 단어 단위로 토큰화 한 후 각 단어의 빈도값(Term Frequency)과, 단어의 문서 출현 역빈도값(Inverse Document Frequency)을 계산하고,

상기 TF-IDF는 하기식으로부터 산출되는 것을 특징으로 하는 토픽 모델링 기법을 이용한 포지셔닝 맵 생성 장치.

- 여기서, tf_i,j는 j에서 i의 총 발생 횟수, df_i는 j에서 i가 포함된 총 문서 수, N은 총 문서 수 임 -
제 2 항에 있어서,

상기 토픽 모델링부(300)는 각 토픽을 구성하는 키워드를 포함하여 추출하되,

상기 키워드의 확률적 분포를 통해 주제 토픽을 구성하는 것을 특징으로 하는 토픽 모델링 기법을 이용한 포지셔닝 맵 생성 장치.
제 2 항에 있어서,

상기 전략 계량화부(500)는 전략 키워드 리스트의 원소 키워드에 대한 단어 벡터 값을 산출하여 단어×단어 행렬을 생성하는 행렬 생성부(510);

상기 전략 키워드 리스트의 원소 키워드와 토픽의 각 원소 키워드를 각각 단어 벡터 공간에서 유사도 계산을 수행하는 유사도 연산부(520); 및

상기 유사도 연산부(520)에 계산된 각 키워드 간의 유사도 값을 합산하여 산술 평균 값을 산출하고, 상기 산술 평균 값을 해당 토픽의 전략에 대한 대푯값으로 생성하여 계량화 하는 계량화부(530);를 포함하는 것을 특징으로 하는 토픽 모델링 기법을 이용한 포지셔닝 맵 생성 장치.
a) 뉴스 입력부(100)가 네트워크를 통해 임의의 뉴스 데이터를 입력받는 단계;

b) 토픽 모델링부(300)가 상기 뉴스 데이터를 LDA(Latent Direchlet Allocaion)을 이용하여 복수의 토픽을 추출하는 단계;

c) 전략 입력부(400)가 사용자가 정의하는 전략에 대한 하나 이상의 전략 키워드를 입력받아 전략 키워드 리스트로 출력하면, 전략 계량화부(500)가 상기 전략 입력부(400)에서 출력되는 전략 키워드 리스트와, 상기 b)단계에서 추출된 각 토픽의 키워드 리스트 사이에 유사도를 계산하여 상기 전략을 계량화 하는 단계; 및

d) 결과 출력부(600)가 상기 계량화 된 전략을 저장하고, 계량화 된 전략을 2차원 좌표 공간에 표시하여 출력하는 단계;를 포함하는 토픽 모델링 기법을 이용한 포지셔닝 맵 생성 방법.
제 6 항에 있어서,

상기 a)단계는 가중치 생성부(200)를 통해 상기 뉴스 데이터로부터 단어를 추출하고, 추출된 단어 별로 TF-IDF(Term Frequency-Inverse Document Frequency)를 계산하여 가중치를 생성하는 전처리 단계;를 더 포함하는 것을 특징으로 하는 토픽 모델링 기법을 이용한 포지셔닝 맵 생성 방법.
제 7 항에 있어서,

상기 가중치는 단어 단위로 토큰화 한 후 각 단어의 빈도값(Term Frequency)과, 단어의 문서 출현 역빈도값(Inverse Document Frequency)을 계산하고,

상기 TF-IDF는 하기식으로부터 산출되는 것을 특징으로 하는 토픽 모델링 기법을 이용한 포지셔닝 맵 생성 장치.

- 여기서, tf_i,j는 j에서 i의 총 발생 횟수, df_i는 j에서 i가 포함된 총 문서 수, N은 총 문서 수 임 -
제 6 항에 있어서,

상기 b)단계는 각 토픽을 구성하는 키워드를 포함하여 추출하되,

상기 키워드의 확률적 분포를 통해 주제 토픽을 구성하는 것을 특징으로 하는 토픽 모델링 기법을 이용한 포지셔닝 맵 생성 방법.
제 6 항에 있어서,

상기 c) 단계는 c-1) 전략 키워드 리스트의 원소 키워드에 대한 단어 벡터 값을 산출하여 단어×단어 행렬을 생성하는 단계;

c-2) 상기 전략 키워드 리스트의 원소 키워드와 토픽의 각 원소 키워드를 각각 단어 벡터 공간에서 유사도 계산을 수행하는 단계; 및

c-3) 상기 계산된 각 키워드 간의 유사도 값을 합산하여 산술 평균 값을 산출하고, 상기 산술 평균 값을 해당 토픽의 전략에 대한 대푯값으로 생성하여 계량화 하는 단계;를 포함하는 것을 특징으로 하는 토픽 모델링 기법을 이용한 포지셔닝 맵 생성 방법.