WO2022085823A1 - 토픽 모델링 기법을 이용한 포지셔닝 맵 생성 장치 및 방법 - Google Patents

토픽 모델링 기법을 이용한 포지셔닝 맵 생성 장치 및 방법 Download PDF

Info

Publication number
WO2022085823A1
WO2022085823A1 PCT/KR2020/014525 KR2020014525W WO2022085823A1 WO 2022085823 A1 WO2022085823 A1 WO 2022085823A1 KR 2020014525 W KR2020014525 W KR 2020014525W WO 2022085823 A1 WO2022085823 A1 WO 2022085823A1
Authority
WO
WIPO (PCT)
Prior art keywords
strategy
topic
keywords
word
unit
Prior art date
Application number
PCT/KR2020/014525
Other languages
English (en)
French (fr)
Inventor
배복태
이시영
장혁수
Original Assignee
주식회사 데이타솔루션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 데이타솔루션 filed Critical 주식회사 데이타솔루션
Priority to PCT/KR2020/014525 priority Critical patent/WO2022085823A1/ko
Publication of WO2022085823A1 publication Critical patent/WO2022085823A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Definitions

  • the present invention relates to an apparatus and method for generating a positioning map using a topic modeling technique. More particularly, a topic is automatically created using a topic modeling technique, LDA (Latent Direchlet Allocation) technique, and keywords included in each topic. It relates to an apparatus and method for generating a positioning map using a topic modeling technique that configures a positioning map by automating it so that it can be vectorized and quantified and displayed in each space of the positioning map.
  • LDA Topic Direchlet Allocation
  • strategy establishment in the business environment was mainly the domain of consultants, and various types of business strategy frameworks were used to determine the position of companies in the market or the position of products in the competitive landscape.
  • the future business direction or product development direction is strategically established.
  • Strategy establishment using such a business framework has a problem in that a person directly analyzes the company's internal and external data and establishes it after understanding the market environment, which takes a lot of money and time.
  • Patent Literature Korean Patent Registration No. 10-1758555 (Title of the Invention: Topic Expression Extraction Method and its System)
  • the present invention automatically creates a topic using a topic modeling technique, LDA (Latent Direchlet Allocation) technique, and quantifies the frequency of occurrence of keywords included in each topic by vectorizing each of the positioning maps.
  • LDA Topic Direchlet Allocation
  • An object of the present invention is to provide an apparatus and method for generating a positioning map using a topic modeling technique that configures a positioning map by automating it to be displayed in space.
  • the topic modeling unit extracts a plurality of topics including keywords from the news data, and the strategy quantification unit is input from the strategy input unit.
  • the strategy is quantified by calculating the similarity between the strategy keyword list composed of one or more strategy keywords for the strategy defined by the user and the keyword list of each topic generated by the topic modeling unit, and the quantified strategy is outputted through the result output unit. It is characterized in that it is displayed in a two-dimensional coordinate space through
  • the embodiment includes a news input unit for receiving arbitrary news data through a network; a weight generator for extracting a word from the news data, calculating a TF-IDF (Term Frequency-Inverse Document Frequency) for each extracted word, and generating a weight; a topic modeling unit for extracting a plurality of topics from the news data using latent directory allocation (LDA); a strategy input unit for receiving one or more strategy keywords for a strategy defined by a user and outputting it as a list of strategy keywords; a strategy quantification unit quantifying the strategy by calculating a similarity between the strategy keyword list output from the strategy input unit and the keyword list of each topic generated by the topic modeling unit; and a result output unit that stores the quantified strategy and displays and outputs the quantified strategy in a two-dimensional coordinate space.
  • LDA latent directory allocation
  • the weight generator calculates a frequency value (Term Frequency) of each word and an Inverse Document Frequency value (Inverse Document Frequency) of each word after tokenizing in units of words, and the TF-IDF is It is characterized in that it is calculated from the formula.
  • tf i,j is the total number of occurrences of i in j
  • df i is the total number of documents including i in j
  • N is the total number of documents.
  • the topic modeling unit extracts including keywords constituting each topic, and constitutes the topic topic through a probabilistic distribution of the keywords.
  • the strategy quantification unit includes: a matrix generator for generating a word ⁇ word matrix by calculating a word vector value for an element keyword of the strategy keyword list; a similarity calculating unit that calculates a similarity of each element keyword of the strategic keyword list and each element keyword of a topic in a word vector space; and a quantification unit for calculating an arithmetic average value by summing the similarity values between the keywords calculated by the similarity calculating unit, and generating and quantifying the arithmetic average value as a representative value for a strategy of a corresponding topic.
  • an embodiment of the present invention provides a method for generating a positioning map using a topic modeling technique, comprising the steps of: a) a news input unit receiving arbitrary news data through a network; b) extracting a plurality of topics by the topic modeling unit using the news data LDA (Latent Direchlet Allocation); c) When the strategy input unit receives one or more strategy keywords for a strategy defined by the user and outputs it as a list of strategy keywords, the strategy quantification unit includes the strategy keyword list output from the strategy input unit and each topic extracted in step b). quantifying the strategy by calculating a similarity between keyword lists; and d) a result output unit storing the quantified strategy, and displaying and outputting the quantified strategy in a two-dimensional coordinate space.
  • LDA Topic Direchlet Allocation
  • step a) includes a preprocessing step of extracting a word from the news data through a weight generator, calculating a TF-IDF (Term Frequency-Inverse Document Frequency) for each extracted word, and generating a weight; It is characterized in that it further comprises.
  • TF-IDF Term Frequency-Inverse Document Frequency
  • the weight according to the embodiment is tokenized in units of words, and then a frequency value (Term Frequency) of each word and an inverse document frequency value (Inverse Document Frequency) of each word are calculated, and the TF-IDF is expressed by the following formula It is characterized in that it is calculated from
  • tf i,j is the total number of occurrences of i in j
  • df i is the total number of documents including i in j
  • N is the total number of documents.
  • step b) keywords constituting each topic are extracted, and the subject topic is configured through a probabilistic distribution of the keywords.
  • step c) includes the steps of c-1) generating a word ⁇ word matrix by calculating word vector values for element keywords in the strategy keyword list; c-2) performing similarity calculation for each element keyword of the strategic keyword list and each element keyword of a topic in a word vector space; and c-3) calculating an arithmetic mean value by summing the similarity values between the calculated keywords, and generating and quantifying the arithmetic mean value as a representative value for a strategy of a corresponding topic.
  • the present invention automatically creates a topic using the topic modeling technique, LDA (Latent Direchlet Allocation) technique, quantifies and vectorizes the frequency of occurrence of keywords included in each topic, and then automates it so that it can be displayed in each space of the positioning map.
  • LDA Topic Direchlet Allocation
  • the present invention has the advantage of being able to quantify the similarity between each strategy and each topic by calculating the similarity between the keywords of the topics created by the topic modeling technique and the keywords set as the strategy, and to express each topic in two dimensions.
  • FIG. 1 is a block diagram showing the configuration of an apparatus for generating a positioning map using a topic modeling technique according to an embodiment of the present invention.
  • FIG. 2 is a block diagram illustrating the configuration of a matrix generator of the apparatus for generating a positioning map using a topic modeling technique according to the embodiment of FIG. 1 .
  • FIG. 3 is a flowchart illustrating a positioning map generation process using a topic modeling technique according to an embodiment of the present invention.
  • ... unit means a unit that processes at least one function or operation, which may be divided into hardware, software, or a combination of the two.
  • the term "at least one" is defined as a term including the singular and the plural, and even if the term at least one does not exist, each element may exist in the singular or plural, and may mean the singular or plural. will be self-evident.
  • FIG. 1 is a block diagram showing the configuration of an apparatus for generating a positioning map using a topic modeling technique according to an embodiment of the present invention
  • FIG. 2 is a matrix generation of the apparatus for generating a positioning map using the topic modeling technique according to the embodiment of FIG. It is a block diagram showing the sub-configuration.
  • the apparatus for generating a positioning map using a topic modeling technique extracts a plurality of topics including keywords from the news data when arbitrary news data is input through a network. And, the strategy is quantified by calculating the similarity between the strategy keyword list composed of one or more strategy keywords for the strategy defined by the user and the keyword list of each topic, and the quantified strategy is displayed in a two-dimensional coordinate space.
  • the positioning map generating apparatus includes an input unit 100 , a weight generation unit 200 , a topic modeling unit 300 , a strategy input unit 400 , a strategy quantification unit 500 , and a result output unit 600 . ) is included.
  • the input unit 100 connects to an arbitrary server system (not shown) or terminal through a network, and receives news data from the connected server system or terminal.
  • the news data is news data in the form of an Internet article, and may be processed and input in the form of one article in one record.
  • the weight generator 200 extracts words through morpheme analysis and pre-processing of the received news data.
  • the weight generator 200 may calculate a term frequency-inverse document frequency (TF-IDF) for each extracted word, assign a weight, and perform the operation of forming a document ⁇ word matrix.
  • TF-IDF term frequency-inverse document frequency
  • the weight generator 200 is tokenized in units of words, and then calculates the frequency value (Term Frequency) of each word and the inverse document frequency value (Inverse Document Frequency) of the word to generate it as a value of a matrix element.
  • the TF-IDF is a weight used in information retrieval and text mining, and is a statistical value indicating how important a certain word is in a specific news data when there is a news data group consisting of several news data (or documents).
  • the text mining may determine or calculate the frequency number of each of a plurality of words included in each of the plurality of news data.
  • the document x word matrix X may be expressed as follows.
  • TF means the frequency of including a specific word in each of a plurality of news data, and as the value of the TF increases, a word corresponding to the TF may be considered as an important word.
  • the IDF is a reciprocal of a document frequency (DF) indicating the number of news data in which a specific word appears. As the value of the IDF increases, a word corresponding to the IDF may be considered as an important word.
  • DF document frequency
  • the product of TF and IDF is used as a weight, that is, TF-IDF weight.
  • the TF-IDF weight is expressed as the product of the TF and the IDF.
  • the frequency of a word increases, the corresponding word It may have a higher value as the number of news data including .
  • the TF-IDF can be calculated from the following formula.
  • tf i,j is the total number of occurrences of i in j
  • df i is the total number of documents including i in j
  • N is the total number of documents.
  • the matrix generated with the TF-IDF value may be expressed as a document vector and a word vector depending on the viewpoint, and in this embodiment is composed of a word vector.
  • the topic modeling unit 300 extracts a plurality of topics from the news data using a Late Direchlet Allocation (LDA) algorithm.
  • LDA Late Direchlet Allocation
  • the topics are probability distributions of words, and each of a plurality of topics may include a keyword constituting the topic, and may compose a topic topic through the probabilistic distribution of the keywords, and may include one or more topics constituting the topic topic.
  • the keyword may be output as a keyword list.
  • a topic having a specific probability distribution related to words such as 'electric vehicle', 'battery charging', 'hybrid vehicle', etc. may be 'automobile', and the keywords are 'electric', 'battery', 'hybrid', etc. this can be
  • the topic modeling unit 300 may analyze a plurality of news data by calculating a probability distribution of each word included in the plurality of news data.
  • the LDA may use VEM (variational expectation maximization) as an algorithm for extracting latent topics from a plurality of news data, and may determine the number of topics in advance to apply the LDA.
  • VEM variable expectation maximization
  • the topic modeling unit 300 may use a degree of congestion (P) to determine the number of topics. As a measurement, it can be seen that the lower the congestion degree P, the better the performance of the model.
  • P degree of congestion
  • the strategy input unit 400 is configured to receive one or more strategy keywords for a strategy defined by a user, and may include input means such as a keyboard and a keypad, and the keywords receive one or more input in the form of a general keyword. It can be output as a list of strategic keywords.
  • the strategy quantification unit 500 is a configuration for quantifying the strategy by calculating the similarity between the strategy keyword list output from the strategy input unit 400 and the keyword list of each topic generated by the topic modeling unit 300, a matrix It may be configured to include a generating unit 510 , a similarity calculating unit 520 , and a quantifying unit 530 .
  • the matrix generator 510 generates a matrix of words ⁇ words by calculating word vector values for element keywords of the strategy keyword list from a weight matrix of documents ⁇ words.
  • the similarity calculating unit 520 is a configuration for calculating the similarity between the matrix value generated by the matrix generating unit 510 and the user-defined strategy information. A similarity calculation is performed.
  • the similarity calculating unit 520 calculates the similarity in the vector space using a cosine similarity method.
  • the similarity calculating unit 520 may determine that the similarity between keywords corresponding to each vector is higher as the calculated cosine value has a value closer to 1.
  • the similarity calculator 520 may determine that keywords corresponding to each vector are similar to each other.
  • the quantification unit 530 calculates an arithmetic mean value by summing the similarity values between the keywords calculated by the similarity calculating unit 520 .
  • the quantification unit 530 performs quantification to generate and display the calculated arithmetic mean value as a representative value for the strategy of the corresponding topic.
  • the result output unit 600 stores the strategy information quantified by the strategy quantification unit 500 in the database (DB), or outputs the quantified strategy information to be displayed in a two-dimensional coordinate space through a display means such as a monitor. do.
  • the result output unit 600 is quantified by vectorizing the frequency of occurrence of keywords included in each topic, it is displayed in each space of the positioning map made of the two-dimensional coordinate space so that the user can easily check it.
  • FIG. 3 is a flowchart illustrating a positioning map generation process using a topic modeling technique according to an embodiment of the present invention, which will be described with reference to FIGS. 1 to 3 .
  • the weight generator 200 extracts a word from the received news data, and TF-IDF (Term Frequency) for each extracted word -Inverse Document Frequency) is calculated and a preprocessing process of generating a weight is performed (S200).
  • TF-IDF Term Frequency
  • step S200 the weight is tokenized in word units, and then the frequency value of each word (Term Frequency) and the inverse document frequency value of the word are calculated, and the TF-IDF is calculated from the following formula do.
  • tf i,j is the total number of occurrences of i in j
  • df i is the total number of documents including i in j
  • N is the total number of documents.
  • the topic modeling unit 300 extracts a plurality of topics from the news data using a latent directory allocation (LDA) algorithm (S300).
  • LDA latent directory allocation
  • the topics are probability distributions of words, and each of the plurality of topics may include a keyword constituting the topic.
  • a topic topic may be configured through a probabilistic distribution of the keywords, and one or more keywords constituting the topic topic may be output as a keyword list.
  • the topic modeling unit 300 may analyze a plurality of news data by calculating a probability distribution of each word included in the plurality of news data.
  • the strategy input unit 400 receives one or more strategy keywords for a strategy defined by the user and outputs the received strategy keyword list ( S400 ).
  • the strategy quantification unit 500 calculates the similarity between the strategy keyword list output by the strategy input unit 400 in step S400 and the keyword list of each topic extracted in step S300 to quantify the strategy (S500).
  • step S500 the strategy quantification unit 500 generates a word ⁇ word matrix by calculating a word vector value for an element keyword in the strategy keyword list from the document ⁇ word weight matrix.
  • the strategy quantification unit 500 calculates the similarity between the generated matrix value and the user-defined strategy information.
  • the element keyword of the strategy keyword list and each element keyword of the topic are converted into word vectors, respectively. Perform similarity calculations in space.
  • the strategy quantification unit 500 calculates an arithmetic mean value by summing the similarity values between the calculated keywords, and generates and displays the calculated arithmetic mean value as a representative value for the strategy of the corresponding topic.
  • the result output unit 600 is quantified in the strategy quantification unit 500 in each space of the positioning map composed of a two-dimensional coordinate space.
  • the displayed strategy information is output to be displayed through a display means such as a monitor so that the user can easily check it (S600).
  • step S600 the strategy information quantified by the strategy quantification unit 500 may be stored in the database DB.
  • topics are automatically created using LDA (Latent Direchlet Allocation), a topic modeling technique, and the frequency of occurrence of keywords included in each topic is vectorized and quantified, and then displayed in each space of the positioning map.
  • LDA Topic Direchlet Allocation
  • a positioning map can be configured.
  • the similarity between the keywords of the topics created by the topic modeling technique and the keywords set as the strategy is quantified, and each topic is expressed in two dimensions, so that the user can easily check it.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

토픽 모델링 기법을 이용한 포지셔닝 맵 생성 장치 및 방법을 개시한다. 본 발명은 토픽모델링 기법인 LDA(Latent Direchlet Allocation) 기법을 이용하여 토픽을 자동으로 생성하고, 각 토픽에 포함된 키워드의 출현 빈도수를 벡터화하여 계량화 한 후 포지셔닝맵의 각 공간에 표시할 수 있도록 자동화하여 포지셔닝맵을 구성할 수 있다.

Description

토픽 모델링 기법을 이용한 포지셔닝 맵 생성 장치 및 방법
본 발명은 토픽 모델링 기법을 이용한 포지셔닝 맵 생성 장치 및 방법에 관한 발명으로서, 더욱 상세하게는 토픽모델링 기법인 LDA(Latent Direchlet Allocation) 기법을 이용하여 토픽을 자동으로 생성하고, 각 토픽에 포함된 키워드의 출현 빈도수를 벡터화하여 계량화 한 후 포지셔닝맵의 각 공간에 표시할 수 있도록 자동화하여 포지셔닝맵을 구성하는 토픽 모델링 기법을 이용한 포지셔닝 맵 생성 장치 및 방법에 관한 것이다.
최근 사람들이 접근할 수 있는 매체 수가 증가하면서 실시간 이슈에 대한 의견 표현 방식도 다양해지고 있다.
사용자들은 자신의 의견을 짧은 사진, 글 속에 녹여서 다른 사람과 공유할 수 있고 때로는 다른 사람의 동의를 구하기도 한다.
이러한 사용자들의 생각을 파악하는 것은 트랜드 분석에 있어 중요한 사항이며, 이에 대한 텍스트 마이닝(text mining)기법들은 여러 연구단체, 기업 연구소에서 활발히 연구되고 있고, 빅 데이터를 이용한 트랜드 분석은 이제 성공 가능성을 넘어서서 얼마나 정확한지에 초점이 맞춰지고 있다.
그러나 현실에서 벌어지는 사건들이 지속적으로 새로운 이슈로 주목 받고 그에 맞는 용어가 탄생하기도 하고, 유의미한 분석 결과를 위해 토픽들의 키워드 생성과 전략적으로 설정한 키워드들 간의 유사도에 기반한 계량화와 전략 프레임 워크를 생성하는 것에 한계가 있는 문제점이 있다.
또한, 비즈니스 환경에서의 전략 수립은 주로 컨설턴트들의 영역이었고, 여러 종류의 비즈니스 전략 프레임워크를 이용하여 회사들의 시장에서의 위치나 경쟁구도 상에서 제품들의 위치를 파악한다.
또한, 파악된 제품들의 현재 위치를 기반으로 이후 사업적인 방향성이나 제품의 발전 방향을 전략적으로 수립한다.
이러한 비즈니스 프레임워크를 이용한 전략 수립은 사람이 직접 회사의 내부 및 외부 데이터를 분석하고, 시장 환경을 파악한 후 수립하게 되는데 많은 비용과 시간이 소요되는 문제점이 있다.
또한, 최근과 같이 시장 환경이 급변하고 기업을 둘러싼 환경이 시시각각 변하는 환경에서는 더욱 시의적절하고 빠른 대응의 전략 수립이 요구된다.
특허문헌, 한국 등록특허공보 등록번호 제10-1758555호(발명의 명칭: 토픽 표현 추출 방법 및 그 시스템)
이러한 문제점을 해결하기 위하여, 본 발명은 토픽 모델링 기법인 LDA(Latent Direchlet Allocation) 기법을 이용하여 토픽을 자동으로 생성하고, 각 토픽에 포함된 키워드의 출현 빈도수를 벡터화하여 계량화 한 후 포지셔닝맵의 각 공간에 표시할 수 있도록 자동화하여 포지셔닝맵을 구성하는 토픽 모델링 기법을 이용한 포지셔닝 맵 생성 장치 및 방법을 제공하는 것을 목적으로 한다.
상기한 목적을 달성하기 위하여 본 발명의 일 실시 예는 네트워크를 통해 임의의 뉴스 데이터가 입력되면, 토픽 모델링부가 상기 뉴스 데이터로부터 키워드를 포함한 복수의 토픽을 추출하고, 전략 계량화부가 전략 입력부로부터 입력되는 사용자가 정의하는 전략에 대한 하나 이상의 전략 키워드로 구성된 전략 키워드 리스트와, 상기 토픽 모델링부에서 생성된 각 토픽의 키워드 리스트 사이에 유사도를 계산하여 상기 전략을 계량화 하며, 상기 계량화 된 전략은 결과 출력부를 통해 2차원 좌표 공간에 표시하는 것을 특징으로 한다.
또한, 상기 실시 예는 네트워크를 통해 임의의 뉴스 데이터를 입력받는 뉴스 입력부; 상기 뉴스 데이터로부터 단어를 추출하고, 추출된 단어 별로 TF-IDF(Term Frequency-Inverse Document Frequency)를 계산하여 가중치를 생성하는 가중치 생성부; 상기 뉴스 데이터를 LDA(Latent Direchlet Allocaion)을 이용하여 복수의 토픽을 추출하는 토픽 모델링부; 사용자가 정의하는 전략에 대한 하나 이상의 전략 키워드를 입력받아 전략 키워드 리스트로 출력하는 전략 입력부; 상기 전략 입력부에서 출력되는 전략 키워드 리스트와, 상기 토픽 모델링부에서 생성된 각 토픽의 키워드 리스트 사이에 유사도를 계산하여 상기 전략을 계량화 하는 전략 계량화부; 및 상기 계량화 된 전략을 저장하고, 계량화 된 전략을 2차원 좌표 공간에 표시하여 출력하는 결과 출력부;를 포함하는 것을 특징으로 한다.
또한, 상기 실시 예에 따른 가중치 생성부는 단어 단위로 토큰화 한 후 각 단어의 빈도값(Term Frequency)과, 단어의 문서 출현 역빈도값(Inverse Document Frequency)을 계산하고, 상기 TF-IDF는 하기식으로부터 산출되는 것을 특징으로 한다.
Figure PCTKR2020014525-appb-I000001
여기서, tfi,j는 j에서 i의 총 발생 횟수, dfi는 j에서 i가 포함된 총 문서 수, N은 총 문서 수 이다.
또한, 상기 실시 예에 따른 토픽 모델링부는 각 토픽을 구성하는 키워드를 포함하여 추출하되, 상기 키워드의 확률적 분포를 통해 주제 토픽을 구성하는 것을 특징으로 한다.
또한, 상기 실시 예에 따른 전략 계량화부는 전략 키워드 리스트의 원소 키워드에 대한 단어 벡터 값을 산출하여 단어×단어 행렬을 생성하는 행렬 생성부; 상기 전략 키워드 리스트의 원소 키워드와 토픽의 각 원소 키워드를 각각 단어 벡터 공간에서 유사도 계산을 수행하는 유사도 연산부; 및 상기 유사도 연산부에 계산된 각 키워드 간의 유사도 값을 합산하여 산술 평균 값을 산출하고, 상기 산술 평균 값을 해당 토픽의 전략에 대한 대푯값으로 생성하여 계량화 하는 계량화부;를 포함하는 것을 특징으로 한다.
또한, 본 발명의 일 실시 예는 토픽 모델링 기법을 이용한 포지셔닝 맵 생성 방법으로서, a) 뉴스 입력부가 네트워크를 통해 임의의 뉴스 데이터를 입력받는 단계; b) 토픽 모델링부가 상기 뉴스 데이터를 LDA(Latent Direchlet Allocaion)을 이용하여 복수의 토픽을 추출하는 단계; c) 전략 입력부가 사용자가 정의하는 전략에 대한 하나 이상의 전략 키워드를 입력받아 전략 키워드 리스트로 출력하면, 전략 계량화부가 상기 전략 입력부에서 출력되는 전략 키워드 리스트와, 상기 b)단계에서 추출된 각 토픽의 키워드 리스트 사이에 유사도를 계산하여 상기 전략을 계량화 하는 단계; 및 d) 결과 출력부가 상기 계량화 된 전략을 저장하고, 계량화 된 전략을 2차원 좌표 공간에 표시하여 출력하는 단계;를 포함한다.
또한, 상기 실시 예에 따른 a)단계는 가중치 생성부를 통해 상기 뉴스 데이터로부터 단어를 추출하고, 추출된 단어 별로 TF-IDF(Term Frequency-Inverse Document Frequency)를 계산하여 가중치를 생성하는 전처리 단계;를 더 포함하는 것을 특징으로 한다.
또한, 상기 실시 예에 따른 가중치는 단어 단위로 토큰화 한 후 각 단어의 빈도값(Term Frequency)과, 단어의 문서 출현 역빈도값(Inverse Document Frequency)을 계산하고, 상기 TF-IDF는 하기식으로부터 산출되는 것을 특징으로 한다.
Figure PCTKR2020014525-appb-I000002
여기서, tfi,j는 j에서 i의 총 발생 횟수, dfi는 j에서 i가 포함된 총 문서 수, N은 총 문서 수 이다.
또한, 상기 실시 예에 따른 b)단계는 각 토픽을 구성하는 키워드를 포함하여 추출하되, 상기 키워드의 확률적 분포를 통해 주제 토픽을 구성하는 것을 특징으로 한다.
또한, 상기 실시 예에 따른 c) 단계는 c-1) 전략 키워드 리스트의 원소 키워드에 대한 단어 벡터 값을 산출하여 단어×단어 행렬을 생성하는 단계; c-2) 상기 전략 키워드 리스트의 원소 키워드와 토픽의 각 원소 키워드를 각각 단어 벡터 공간에서 유사도 계산을 수행하는 단계; 및 c-3) 상기 계산된 각 키워드 간의 유사도 값을 합산하여 산술 평균 값을 산출하고, 상기 산술 평균 값을 해당 토픽의 전략에 대한 대푯값으로 생성하여 계량화 하는 단계;를 포함하는 것을 특징으로 한다.
본 발명은 토픽모델링 기법인 LDA(Latent Direchlet Allocation) 기법을 이용하여 토픽을 자동으로 생성하고, 각 토픽에 포함된 키워드의 출현 빈도수를 벡터화하여 계량화 한 후 포지셔닝맵의 각 공간에 표시할 수 있도록 자동화하여 포지셔닝맵을 구성할 수 있는 장점이 있다.
또한, 본 발명은 토픽모델링 기법으로 생성한 토픽들의 키워드들과 전략으로 설정한 키워드들 간의 유사도를 계산하여 각 전략과 각 토픽간의 유사도를 계량화 하고 각 토픽을 2차원으로 표현할 수 있는 장점이 있다.
도1은 본 발명의 일 실시 예에 따른 토픽 모델링 기법을 이용한 포지셔닝 맵 생성 장치의 구성을 나타낸 블록도.
도2는 도1의 실시 예에 따른 토픽 모델링 기법을 이용한 포지셔닝 맵 생성 장치의 행렬 생성부 구성을 나타낸 블록도.
도3은 본 발명의 일 실시 예에 따른 토픽 모델링 기법을 이용한 포지셔닝 맵 생성 과정을 나타낸 흐름도.
이하에서는 본 발명의 바람직한 실시 예 및 첨부하는 도면을 참조하여 본 발명을 상세히 설명하되, 도면의 동일한 참조부호는 동일한 구성요소를 지칭함을 전제하여 설명하기로 한다.
본 발명의 실시를 위한 구체적인 내용을 설명하기에 앞서, 본 발명의 기술적 요지와 직접적 관련이 없는 구성에 대해서는 본 발명의 기술적 요지를 흩뜨리지 않는 범위 내에서 생략하였음에 유의하여야 할 것이다.
또한, 본 명세서 및 청구범위에 사용된 용어 또는 단어는 발명자가 자신의 발명을 최선의 방법으로 설명하기 위해 적절한 용어의 개념을 정의할 수 있다는 원칙에 입각하여 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야 할 것이다.
본 명세서에서 어떤 부분이 어떤 구성요소를 "포함"한다는 표현은 다른 구성요소를 배제하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다.
또한, "‥부", "‥기", "‥모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어, 또는 그 둘의 결합으로 구분될 수 있다.
또한, "적어도 하나의" 라는 용어는 단수 및 복수를 포함하는 용어로 정의되고, 적어도 하나의 라는 용어가 존재하지 않더라도 각 구성요소가 단수 또는 복수로 존재할 수 있고, 단수 또는 복수를 의미할 수 있음은 자명하다 할 것이다.
또한, 각 구성요소가 단수 또는 복수로 구비되는 것은, 실시 예에 따라 변경가능하다 할 것이다.
이하, 첨부된 도면을 참조하여 본 발명의 일 실시 예에 따른 토픽 모델링 기법을 이용한 포지셔닝 맵 생성 장치 및 방법의 바람직한 실시예를 상세하게 설명한다.
도1은 본 발명의 일 실시 예에 따른 토픽 모델링 기법을 이용한 포지셔닝 맵 생성 장치의 구성을 나타낸 블록도이고, 도2는 도1의 실시 예에 따른 토픽 모델링 기법을 이용한 포지셔닝 맵 생성 장치의 행렬 생성부 구성을 나타낸 블록도이다.
도1 및 도2를 참조하면, 본 발명의 일 실시 예에 따른 토픽 모델링 기법을 이용한 포지셔닝 맵 생성 장치는 네트워크를 통해 임의의 뉴스 데이터가 입력되면, 상기 뉴스 데이터로부터 키워드를 포함한 복수의 토픽을 추출하고, 사용자가 정의하는 전략에 대한 하나 이상의 전략 키워드로 구성된 전략 키워드 리스트와, 상기 각 토픽의 키워드 리스트 사이에 유사도를 계산하여 전략을 계량화 하며, 상기 계량화 된 전략은 2차원 좌표 공간에 표시한다.
또한, 상기 포지셔닝 맵 생성 장치는 입력부(100)와, 가중치 생성부(200)와, 토픽 모델링부(300)와, 전략 입력부(400)와, 전략 계량화부(500)와, 결과 출력부(600)를 포함하여 구성된다.
상기 입력부(100)는 네트워크를 통해 임의의 서버 시스템(미도시) 또는 단말과 접속하고, 접속된 서버 시스템 또는 단말로부터 뉴스 데이터를 입력받는다.
상기 뉴스 데이터는 인터넷 기사 형태의 뉴스 데이터로서, 하나의 레코드에 하나의 기사 형식으로 가공하여 입력될 수 있다.
상기 가중치 생성부(200)는 입력받은 뉴스 데이터를 형태소 분석과 전처리 과정을 통해 단어를 추출한다.
또한, 상기 가중치 생성부(200)는 추출된 단어 별로 TF-IDF(Term Frequency-Inverse Document Frequency)를 계산하여 가중치를 부여하고, 문서×단어 행렬 형식으로 만드는 작업을 수행할 수 있다.
또한, 상기 가중치 생성부(200)는 단어 단위로 토큰화 한 후 각 단어의 빈도값(Term Frequency)과, 단어의 문서 출현 역빈도값(Inverse Document Frequency)을 계산하여 행렬 원소의 값으로 생성할 수 있다.
상기 TF-IDF는 정보 검색과 텍스트 마이닝에서 이용하는 가중치로서, 여러 뉴스 데이터(또는 문서)로 이루어진 뉴스 데이터군이 있을 경우, 어떤 단어가 특정 뉴스 데이터 내에서 얼마나 중요한 것인지를 나타내는 통계적인 수치이다.
상기 텍스트 마이닝은 다수의 뉴스 데이터들 각각에 포함된 다수의 단어들 각각의 빈도 수를 결정하거나 계산할 수 있는데, 다수의 단어들 각각이 다수의 뉴스 데이터들 각각에 포함된 빈도 수를 요소로 하는 문서×단어 행렬(X)을 생성할 수 있다.
상기 문서×단어 행렬(X)는 다음과 같이 표현될 수 있다.
Figure PCTKR2020014525-appb-I000003
여기서, TF는 다수의 뉴스 데이터들 각각에서 특정 단어가 포함된 빈도수를 의미하고, 상기 TF의 값이 클수록 TF에 대응하는 단어가 중요 단어로 고려될 수 있다.
또한, IDF는 특정 단어가 나타난 뉴스 데이터의 수를 의미하는 DF(Document Frequency)의 역수로서, 상기 IDF의 값이 클수록 상기 IDF에 대응하는 단어가 중요 단어로 고려될 수 있다.
따라서, 본 실시 예에서는 TF와 IDF의 곱을 가중치, 즉 TF-IDF 가중치로 사용하고, 결과적으로 상기 TF-IDF 가중치는 상기 TF와 상기 IDF의 곱으로 표현되며, 단어의 빈도수가 높을수록, 해당 단어가 포함된 뉴스 데이터의 수가 적을수록 높은 값을 가질 수 있고, 상기 TF-IDF 가중치가 높을수록 중요 단어인 키워드로 판단될 수 있다.
상기 TF-IDF는 하기식으로부터 산출될 수 있다.
[수학식 1]
Figure PCTKR2020014525-appb-I000004
여기서, tfi,j는 j에서 i의 총 발생 횟수, dfi는 j에서 i가 포함된 총 문서 수, N은 총 문서 수 이다.
또한, 상기 TF-IDF 값으로 생성된 행렬은 관점에 따라 문서 벡터와 단어 벡터로 표현할 수 있고, 본 실시 예에서는 단어 벡터로 구성한다.
상기 토픽 모델링부(300)는 뉴스 데이터를 LDA(Latent Direchlet Allocaion) 알고리즘을 이용하여 복수의 토픽을 추출한다.
여기서, 토픽들은 단어들의 확률 분포로서, 복수개의 각 토픽은 토픽을 구성하는 키워드를 포함할 수 있고, 상기 키워드의 확률적 분포를 통해 주제 토픽을 구성할 수도 있으며, 상기 주제 토픽을 구성하는 하나 이상의 키워드는 키워드 리스트로 출력될 수 있다.
예를 들어 '전기차', '배터리 충전', '하이브리드 차량' 등의 단어들과 관련된 특정한 확률 분포를 갖는 토픽은 '자동차'일 수 있고, 키워드는 '전기', '배터리', '하이브리드' 등이 될 수 있다.
상기 토픽 모델링부(300)는 다수의 뉴스 데이터들에 포함된 단어들 각각의 확률 분포를 계산하여 다수의 뉴스 데이터들을 분석할 수 있다.
또한, 상기 LDA는 다수의 뉴스 데이터들 내에 잠재된 토픽들을 추출하는 알고리즘으로서 VEM(variational expectation maximization)을 이용할 수 있고, LDA를 적용하기 위해서 미리 토픽의 수를 결정할 수도 있다.
또한, 상기 토픽 모델링부(300)는 토픽의 수를 결정하기 위해 혼잡도(perplexity; P)를 이용할 수 있이고, 이때, 혼잡도(P)는 학습된 생성 모델이 실제 관찰 가능한 결과를 생성해낼 확률을 측정하는 것으로, 상기 혼잡도(P)가 낮을수록 모델의 성능이 우수하다고 볼 수 있다.
상기 전략 입력부(400)는 사용자가 정의하는 전략에 대한 하나 이상의 전략 키워드를 입력받는 구성으로서, 키보드, 키패드 등의 입력수단을 포함하여 이루어질 수 있고, 상기 키워드는 일반적인 키워드 형식으로 하나 이상을 입력받아 전략 키워드 리스트로 출력될 수 있다.
상기 전략 계량화부(500)는 전략 입력부(400)에서 출력되는 전략 키워드 리스트와, 토픽 모델링부(300)에서 생성된 각 토픽의 키워드 리스트 사이에 유사도를 계산하여 상기 전략을 계량화 하는 구성으로서, 행렬 생성부(510)와, 유사도 연산부(520)와, 계량화부(530)를 포함하여 구성될 수 있다.
상기 행렬 생성부(510)는 전략 키워드 리스트의 원소 키워드에 대한 단어 벡터 값을 문서×단어의 가중치 행렬에서 산출하여 단어×단어의 행렬을 생성한다.
상기 유사도 연산부(520)는 행렬 생성부(510)에서 생성된 행렬 값과 사용자 정의 전략 정보와의 유사도를 계산하는 구성으로서, 전략 키워드 리스트의 원소 키워드와 토픽의 각 원소 키워드를 각각 단어 벡터 공간에서 유사도 계산을 수행한다.
또한, 상기 유사도 연산부(520)는 코사인 유사도(Cosine similarity) 방식으로 벡터 공간에서의 유사도를 계산한다.
여기서, 상기 유사도 연산부(520)는 산출된 코사인 값이 1에 가까운 값을 가질수록 각 벡터에 대응하는 키워드 간의 유사도가 높다고 판단할수 있다.
예를 들어, 유사도 연산부(520)는 1과 코사인 값의 차이값이 임계 값보다 작으면 각 벡터에 대응하는 키워드가 서로 유사하다고 판단할 수 있다.
상기 계량화부(530)는 유사도 연산부(520)에 계산된 각 키워드 간의 유사도 값을 합산하여 산술 평균 값을 산출한다.
또한, 상기 계량화부(530)는 산출된 산술 평균 값을 해당 토픽의 전략에 대한 대푯값으로 생성하여 표시하는 계량화(計量化)를 수행한다.
상기 결과 출력부(600)는 전략 계량화부(500)에서 계량화 된 전략 정보를 데이터베이스(DB)에 저장하거나, 또는 모니터 등의 디스플레이 수단을 통해 상기 계량화 된 전략 정보가 2차원 좌표 공간에 표시되도록 출력한다.
즉, 상기 결과 출력부(600)는 각 토픽에 포함된 키워드의 출현 빈도수를 벡터화하여 계량화 되면, 2차원 좌표 공간으로 이루어진 포지셔닝맵의 각 공간에 표시하여 사용자가 쉽게 확인할 수 있도록 한다.
다음은 본 발명의 일 실시 예에 따른 토픽 모델링 기법을 이용한 포지셔닝 맵 생성 방법을 설명한다.
도3은 본 발명의 일 실시 예에 따른 토픽 모델링 기법을 이용한 포지셔닝 맵 생성 과정을 나타낸 흐름도로서, 도1 내지 도3을 참조하여 설명한다.
뉴스 입력부(100)가 네트워크를 통해 임의의 뉴스 데이터를 입력받아 수신(S100)하면, 가중치 생성부(200)는 수신된 상기 뉴스 데이터로부터 단어를 추출하고, 추출된 단어 별로 TF-IDF(Term Frequency-Inverse Document Frequency)를 계산하여 가중치를 생성하는 전처리 과정을 수행(S200)한다.
상기 S200 단계에서, 가중치는 단어 단위로 토큰화 한 후 각 단어의 빈도값(Term Frequency)과, 단어의 문서 출현 역빈도값(Inverse Document Frequency)을 계산하고, 상기 TF-IDF는 하기식으로부터 산출한다.
[수학식 2]
Figure PCTKR2020014525-appb-I000005
여기서, tfi,j는 j에서 i의 총 발생 횟수, dfi는 j에서 i가 포함된 총 문서 수, N은 총 문서 수 이다.
상기 S200 단계를 수행한 다음, 토픽 모델링부(300)는 뉴스 데이터를 LDA(Latent Direchlet Allocaion) 알고리즘을 이용하여 복수의 토픽을 추출(S300)한다.
상기 S300 단계에서, 토픽들은 단어들의 확률 분포이고, 복수개의 각 토픽은 토픽을 구성하는 키워드를 포함할 수 있다.
또한, 상기 키워드의 확률적 분포를 통해 주제 토픽을 구성할 수도 있으며, 상기 주제 토픽을 구성하는 하나 이상의 키워드는 키워드 리스트로 출력될 수 있다.
또한, 상기 S300 단계에서 토픽 모델링부(300)는 다수의 뉴스 데이터들에 포함된 단어들 각각의 확률 분포를 계산하여 다수의 뉴스 데이터들을 분석할 수 있다.
계속해서, 전략 입력부(400)가 사용자가 정의하는 전략에 대한 하나 이상의 전략 키워드를 입력받아 전략 키워드 리스트로 출력(S400)한다.
전략 계량화부(500)는 상기 S400 단계에서 전략 입력부(400)가 출력하는 전략 키워드 리스트와, 상기 S300 단계에서 추출된 각 토픽의 키워드 리스트 사이에 유사도를 계산하여 상기 전략을 계량화(S500)한다.
상기 S500 단계에서, 전략 계량화부(500)는 전략 키워드 리스트의 원소 키워드에 대한 단어 벡터 값을 문서×단어의 가중치 행렬에서 산출하여 단어×단어의 행렬을 생성한다.
또한, 상기 전략 계량화부(500)는 생성된 행렬 값과 사용자 정의 전략 정보와의 유사도를 계산하는데, 코사인 유사도(Cosine similarity) 방식으로 전략 키워드 리스트의 원소 키워드와 토픽의 각 원소 키워드를 각각 단어 벡터 공간에서 유사도 계산을 수행한다.
또한, 상기 전략 계량화부(500)는 계산된 각 키워드 간의 유사도 값을 합산하여 산술 평균 값을 산출하고, 산출된 산술 평균 값을 해당 토픽의 전략에 대한 대푯값으로 생성하여 표시하는 계량화(計量化)를 수행한다.
계속해서, 각 토픽에 포함된 키워드의 출현 빈도수를 벡터화하여 유사도 연산과 계량화가 완료되면, 결과 출력부(600)는 2차원 좌표 공간으로 이루어진 포지셔닝맵의 각 공간에 전략 계량화부(500)에서 계량화 된 전략 정보를 표시하여 사용자가 쉽게 확인할 수 있도록 모니터 등의 디스플레이 수단을 통해 표시되도록 출력(S600)한다.
또한, 상기 S600 단계는 전략 계량화부(500)에서 계량화 된 전략 정보를 데이터베이스(DB)에 저장할 수 있다.
따라서, 토픽모델링 기법인 LDA(Latent Direchlet Allocation) 기법을 이용하여 토픽을 자동으로 생성하고, 각 토픽에 포함된 키워드의 출현 빈도수를 벡터화하여 계량화 한 후 포지셔닝맵의 각 공간에 표시할 수 있도록 자동화하여 포지셔닝맵을 구성할 수 있다.
또한, 토픽모델링 기법으로 생성한 토픽들의 키워드들과 전략으로 설정한 키워드들 간의 유사도를 계산하여 각 전략과 각 토픽간의 유사도를 계량화 하고 각 토픽을 2차원으로 표현함으로써, 사용자가 쉽게 확인할 수 있다.
상기와 같이, 본 발명의 바람직한 실시 예를 참조하여 설명하였지만 해당 기술 분야의 숙련된 당업자라면 하기의 특허청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
또한, 본 발명의 특허청구범위에 기재된 도면번호는 설명의 명료성과 편의를 위해 기재한 것일 뿐 이에 한정되는 것은 아니며, 실시예를 설명하는 과정에서 도면에 도시된 선들의 두께나 구성요소의 크기 등은 설명의 명료성과 편의상 과장되게 도시되어 있을 수 있다.
또한, 상술된 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례에 따라 달라질 수 있으므로, 이러한 용어들에 대한 해석은 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
또한, 명시적으로 도시되거나 설명되지 아니하였다 하여도 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기재사항으로부터 본 발명에 의한 기술적 사상을 포함하는 다양한 형태의 변형을 할 수 있음은 자명하며, 이는 여전히 본 발명의 권리범위에 속한다.
또한, 첨부하는 도면을 참조하여 설명된 상기의 실시예들은 본 발명을 설명하기 위한 목적으로 기술된 것이며 본 발명의 권리범위는 이러한 실시예에 국한되지 아니한다.
[부호의 설명]
100 : 뉴스 입력부
200 : 가중치 생성부
300 : 토픽 모델링부
310 : 행렬 생성부
320 : 유사도 연산부
330 : 계량화부
400 : 전략 입력부
500 : 전략 계량화부
600: 결과 출력부

Claims (10)

  1. 네트워크를 통해 임의의 뉴스 데이터가 입력되면, 토픽 모델링부(300)가 상기 뉴스 데이터로부터 키워드를 포함한 복수의 토픽을 추출하고,
    전략 계량화부(500)가 전략 입력부(400)로부터 입력되는 사용자가 정의하는 전략에 대한 하나 이상의 전략 키워드로 구성된 전략 키워드 리스트와, 상기 토픽 모델링부(300)에서 생성된 각 토픽의 키워드 리스트 사이에 유사도를 계산하여 상기 전략을 계량화 하며,
    상기 계량화 된 전략은 결과 출력부(600)를 통해 2차원 좌표 공간에 표시하는 것을 특징으로 하는 토픽 모델링 기법을 이용한 포지셔닝 맵 생성 장치.
  2. 제 1 항에 있어서,
    상기 네트워크를 통해 임의의 뉴스 데이터를 입력받는 뉴스 입력부(100);
    상기 뉴스 데이터로부터 단어를 추출하고, 추출된 단어 별로 TF-IDF(Term Frequency-Inverse Document Frequency)를 계산하여 가중치를 생성하는 가중치 생성부(200);
    상기 뉴스 데이터를 LDA(Latent Direchlet Allocaion)을 이용하여 복수의 토픽을 추출하는 토픽 모델링부(300);
    사용자가 정의하는 전략에 대한 하나 이상의 전략 키워드를 입력받아 전략 키워드 리스트로 출력하는 전략 입력부(400);
    상기 전략 입력부(400)에서 출력되는 전략 키워드 리스트와, 상기 토픽 모델링부(300)에서 생성된 각 토픽의 키워드 리스트 사이에 유사도를 계산하여 상기 전략을 계량화 하는 전략 계량화부(500); 및
    상기 계량화 된 전략을 저장하고, 계량화 된 전략을 2차원 좌표 공간에 표시하여 출력하는 결과 출력부(600);를 포함하는 것을 특징으로 하는 토픽 모델링 기법을 이용한 포지셔닝 맵 생성 장치.
  3. 제 2 항에 있어서,
    상기 가중치 생성부(200)는 단어 단위로 토큰화 한 후 각 단어의 빈도값(Term Frequency)과, 단어의 문서 출현 역빈도값(Inverse Document Frequency)을 계산하고,
    상기 TF-IDF는 하기식으로부터 산출되는 것을 특징으로 하는 토픽 모델링 기법을 이용한 포지셔닝 맵 생성 장치.
    Figure PCTKR2020014525-appb-I000006
    - 여기서, tfi,j는 j에서 i의 총 발생 횟수, dfi는 j에서 i가 포함된 총 문서 수, N은 총 문서 수 임 -
  4. 제 2 항에 있어서,
    상기 토픽 모델링부(300)는 각 토픽을 구성하는 키워드를 포함하여 추출하되,
    상기 키워드의 확률적 분포를 통해 주제 토픽을 구성하는 것을 특징으로 하는 토픽 모델링 기법을 이용한 포지셔닝 맵 생성 장치.
  5. 제 2 항에 있어서,
    상기 전략 계량화부(500)는 전략 키워드 리스트의 원소 키워드에 대한 단어 벡터 값을 산출하여 단어×단어 행렬을 생성하는 행렬 생성부(510);
    상기 전략 키워드 리스트의 원소 키워드와 토픽의 각 원소 키워드를 각각 단어 벡터 공간에서 유사도 계산을 수행하는 유사도 연산부(520); 및
    상기 유사도 연산부(520)에 계산된 각 키워드 간의 유사도 값을 합산하여 산술 평균 값을 산출하고, 상기 산술 평균 값을 해당 토픽의 전략에 대한 대푯값으로 생성하여 계량화 하는 계량화부(530);를 포함하는 것을 특징으로 하는 토픽 모델링 기법을 이용한 포지셔닝 맵 생성 장치.
  6. a) 뉴스 입력부(100)가 네트워크를 통해 임의의 뉴스 데이터를 입력받는 단계;
    b) 토픽 모델링부(300)가 상기 뉴스 데이터를 LDA(Latent Direchlet Allocaion)을 이용하여 복수의 토픽을 추출하는 단계;
    c) 전략 입력부(400)가 사용자가 정의하는 전략에 대한 하나 이상의 전략 키워드를 입력받아 전략 키워드 리스트로 출력하면, 전략 계량화부(500)가 상기 전략 입력부(400)에서 출력되는 전략 키워드 리스트와, 상기 b)단계에서 추출된 각 토픽의 키워드 리스트 사이에 유사도를 계산하여 상기 전략을 계량화 하는 단계; 및
    d) 결과 출력부(600)가 상기 계량화 된 전략을 저장하고, 계량화 된 전략을 2차원 좌표 공간에 표시하여 출력하는 단계;를 포함하는 토픽 모델링 기법을 이용한 포지셔닝 맵 생성 방법.
  7. 제 6 항에 있어서,
    상기 a)단계는 가중치 생성부(200)를 통해 상기 뉴스 데이터로부터 단어를 추출하고, 추출된 단어 별로 TF-IDF(Term Frequency-Inverse Document Frequency)를 계산하여 가중치를 생성하는 전처리 단계;를 더 포함하는 것을 특징으로 하는 토픽 모델링 기법을 이용한 포지셔닝 맵 생성 방법.
  8. 제 7 항에 있어서,
    상기 가중치는 단어 단위로 토큰화 한 후 각 단어의 빈도값(Term Frequency)과, 단어의 문서 출현 역빈도값(Inverse Document Frequency)을 계산하고,
    상기 TF-IDF는 하기식으로부터 산출되는 것을 특징으로 하는 토픽 모델링 기법을 이용한 포지셔닝 맵 생성 장치.
    Figure PCTKR2020014525-appb-I000007
    - 여기서, tfi,j는 j에서 i의 총 발생 횟수, dfi는 j에서 i가 포함된 총 문서 수, N은 총 문서 수 임 -
  9. 제 6 항에 있어서,
    상기 b)단계는 각 토픽을 구성하는 키워드를 포함하여 추출하되,
    상기 키워드의 확률적 분포를 통해 주제 토픽을 구성하는 것을 특징으로 하는 토픽 모델링 기법을 이용한 포지셔닝 맵 생성 방법.
  10. 제 6 항에 있어서,
    상기 c) 단계는 c-1) 전략 키워드 리스트의 원소 키워드에 대한 단어 벡터 값을 산출하여 단어×단어 행렬을 생성하는 단계;
    c-2) 상기 전략 키워드 리스트의 원소 키워드와 토픽의 각 원소 키워드를 각각 단어 벡터 공간에서 유사도 계산을 수행하는 단계; 및
    c-3) 상기 계산된 각 키워드 간의 유사도 값을 합산하여 산술 평균 값을 산출하고, 상기 산술 평균 값을 해당 토픽의 전략에 대한 대푯값으로 생성하여 계량화 하는 단계;를 포함하는 것을 특징으로 하는 토픽 모델링 기법을 이용한 포지셔닝 맵 생성 방법.
PCT/KR2020/014525 2020-10-22 2020-10-22 토픽 모델링 기법을 이용한 포지셔닝 맵 생성 장치 및 방법 WO2022085823A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/KR2020/014525 WO2022085823A1 (ko) 2020-10-22 2020-10-22 토픽 모델링 기법을 이용한 포지셔닝 맵 생성 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/KR2020/014525 WO2022085823A1 (ko) 2020-10-22 2020-10-22 토픽 모델링 기법을 이용한 포지셔닝 맵 생성 장치 및 방법

Publications (1)

Publication Number Publication Date
WO2022085823A1 true WO2022085823A1 (ko) 2022-04-28

Family

ID=81289820

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2020/014525 WO2022085823A1 (ko) 2020-10-22 2020-10-22 토픽 모델링 기법을 이용한 포지셔닝 맵 생성 장치 및 방법

Country Status (1)

Country Link
WO (1) WO2022085823A1 (ko)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017199350A (ja) * 2016-04-29 2017-11-02 富士通株式会社 テキスト感情検出
KR20190008699A (ko) * 2017-07-17 2019-01-25 경희대학교 산학협력단 토픽 모델링 기반 시맨틱 이미지 검색 방법, 시스템 및 컴퓨터 프로그램
KR20190124986A (ko) * 2018-04-27 2019-11-06 고려대학교 산학협력단 연관법령 제공 방법
KR102126911B1 (ko) * 2018-12-27 2020-07-07 서울대학교산학협력단 KeyplayerRank를 이용한 소셜 미디어상의 주제별 키플레이어 탐지 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017199350A (ja) * 2016-04-29 2017-11-02 富士通株式会社 テキスト感情検出
KR20190008699A (ko) * 2017-07-17 2019-01-25 경희대학교 산학협력단 토픽 모델링 기반 시맨틱 이미지 검색 방법, 시스템 및 컴퓨터 프로그램
KR20190124986A (ko) * 2018-04-27 2019-11-06 고려대학교 산학협력단 연관법령 제공 방법
KR102126911B1 (ko) * 2018-12-27 2020-07-07 서울대학교산학협력단 KeyplayerRank를 이용한 소셜 미디어상의 주제별 키플레이어 탐지 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LEE MINCHUL: "Construction of Event Networks from Large News Data Using Text Mining Techniques", JINEUNG JEONGBO YEON-GU - JOURNAL OF INTELLIGENT INFORMATION SYSTEMS, HAN'GUG JI'NEUNG JEONGBO SI'SEU'TEM HAGHOE NONMUNJI, vol. 24, no. 1, 1 March 2018 (2018-03-01), pages 183 - 203, XP055924423, ISSN: 2288-4866, DOI: 10.13088/jiis.2018.24.1.183 *

Similar Documents

Publication Publication Date Title
WO2019103183A1 (ko) Esg 기반의 기업 평가 수행 장치 및 이의 작동 방법
WO2018030672A1 (ko) 머신러닝을 활용한 정해진 시나리오로 고객과 상담하는 로봇 자동 상담 방법 및 시스템
WO2016056749A1 (ko) 승소 가능성 평가 장치 및 방법
WO2018124729A1 (en) Privacy-preserving transformation of continuous data
WO2021112463A1 (ko) 기업을 위한 정보 제공 장치 및 방법
WO2012050252A1 (ko) 분류기의 동적 결합에 의한 대용량 분류기 자동 생성 시스템 및 방법
WO2021010744A1 (ko) 음성 인식 기반의 세일즈 대화 분석 방법 및 장치
WO2013002436A1 (ko) 온톨로지 기반의 문서 분류 방법 및 장치
WO2021235617A1 (ko) 과학기술 지식정보 추천 시스템 및 그 방법
WO2017115994A1 (ko) 인공 지능 기반 연관도 계산을 이용한 노트 제공 방법 및 장치
WO2017074066A1 (ko) 인터넷 콘텐츠 제공 서버 및 그 방법이 구현된 컴퓨터로 판독 가능한 기록매체
WO2022085823A1 (ko) 토픽 모델링 기법을 이용한 포지셔닝 맵 생성 장치 및 방법
WO2012046904A1 (ko) 다중 자원 기반 검색정보 제공 장치 및 방법
WO2021107448A1 (ko) 효율적 문서 분류 처리를 지원하는 지식 그래프 기반 마케팅 정보 분석 서비스 제공 방법 및 그 장치
WO2021215551A1 (ko) 블록체인 기반의 전자 연구노트 검증 방법 및 이를 이용한 전자 연구노트 관리 장치
WO2021107447A1 (ko) 마케팅 지식 그래프를 위한 문서 분류 처리 방법 및 그 장치
WO2012144683A1 (ko) 유망 기술 라이프 사이클을 이용한 유망 단계 판단 장치 및 방법
WO2014148664A1 (ko) 단어의 의미를 기반으로 하는 다국어 검색 시스템, 다국어 검색 방법 및 이를 이용한 이미지 검색 시스템
WO2020149541A1 (ko) 특정 주제에 관한 질문-답변 데이터 셋 자동 생성 방법 및 장치
WO2022114447A1 (ko) 유사 임상 시험 데이터 제공 방법 및 이를 실행하는 서버
WO2022092497A1 (ko) 유사 사건 정보제공시스템 및 그 방법
CN113204644B (zh) 一种基于知识图谱的政务百科构建方法
WO2021256578A1 (ko) 이미지 캡션 자동 생성 장치 및 방법
CN114722174A (zh) 提词方法和装置、电子设备及存储介质
WO2023249345A1 (ko) 경력 업무 데이터 분석 방법 및 시스템

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20958774

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20958774

Country of ref document: EP

Kind code of ref document: A1