KR102239225B1 - 워드 클라우드의 시각화를 위한 장치 및 방법 - Google Patents

워드 클라우드의 시각화를 위한 장치 및 방법 Download PDF

Info

Publication number
KR102239225B1
KR102239225B1 KR1020190110208A KR20190110208A KR102239225B1 KR 102239225 B1 KR102239225 B1 KR 102239225B1 KR 1020190110208 A KR1020190110208 A KR 1020190110208A KR 20190110208 A KR20190110208 A KR 20190110208A KR 102239225 B1 KR102239225 B1 KR 102239225B1
Authority
KR
South Korea
Prior art keywords
keywords
subject
keyword
word cloud
frequency
Prior art date
Application number
KR1020190110208A
Other languages
English (en)
Other versions
KR20210028981A (ko
Inventor
조창규
Original Assignee
주식회사 알마덴디자인리서치
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 알마덴디자인리서치 filed Critical 주식회사 알마덴디자인리서치
Priority to KR1020190110208A priority Critical patent/KR102239225B1/ko
Publication of KR20210028981A publication Critical patent/KR20210028981A/ko
Application granted granted Critical
Publication of KR102239225B1 publication Critical patent/KR102239225B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 문서에 개시되는 일 실시 예에 따른 워드 클라우드의 시각화를 위한 방법은 복수의 웹 페이지로부터 수집된 텍스트로부터 추출된 복수의 키워드를 획득하는 단계, - 텍스트는 제1 주제 또는 제2 주제 중 적어도 하나와 연관됨 - 및 복수의 키워드를 포함하고, 제1 영역, 제2 영역 및 제1 영역과 제2 영역 사이에 개재된 제3 영역을 포함하는 워드 클라우드를 제공하는 단계를 포함하고, 제1 영역은 복수의 키워드 중 제1 주제와 연관된 제1 그룹 키워드를 포함하고, 제2 영역은 복수의 키워드 중 제2 주제와 연관된 제2 그룹 키워드를 포함하고, 제3 영역은 복수의 키워드 중 제1 주제 및 제2 주제 양자와 연관된 제3 그룹 키워드를 포함할 수 있다.

Description

워드 클라우드의 시각화를 위한 장치 및 방법{APPARATUS AND METHOD FOR VISUALIZING WORD CLOUD}
본 문서에서 개시되는 실시 예들은 다양한 형태의 워드 클라우드를 제공하는 장치 및 방법과 관련된다.
워드 클라우드는 문서로부터 획득되는 단어들을 분석하고, 그 단어들을 중요도 또는 인기도 등을 고려하여 시각적으로 표시하는 기법을 의미한다. 워드 클라우드는 단어의 중요도 또는 인기도에 따라 단어의 위치, 크기 및/또는 색상 등을 다르게 표시함으로써, 사용자가 문서의 주요한 화두를 직관적으로 파악할 수 있도록 사용자에게 제공될 수 있다. 예를 들어, 워드 클라우드에서 중요도가 높은 단어들은 사용자의 눈에 띄는 위치에 배치되고, 굵고 크게 강조되어 표시될 수 있다.
특히, 기존의 데이터에 비해 방대한 양의 정보를 다루는 빅데이터를 분석하는 경우, 워드 클라우드가 더욱 효율적으로 활용될 수 있다. 워드 클라우드는 빅데이터에 포함된 다양한 키워드 중 주요한 키워드를 직관적으로 도시함으로써, 사용자가 데이터의 특징을 용이하게 도출하는 데에 기여할 수 있다.
워드 클라우드는 다양한 분야에서 특정 대상에 대한 객관적, 정량적 분석을 위해 활용될 수 있다. 예를 들어, 제품 또는 서비스의 제공자는 제품 또는 서비스에 대한 고객의 반응을 정량적으로 분석하기 위해 워드 클라우드를 이용할 수 있다. 워드 클라우드를 이용하는 경우 제품 또는 서비스의 제공자가 예측하기 어려운 고객의 니즈(needs)가 파악될 수도 있다.
통상적인 워드 클라우드는 단순히 단어들의 출현 빈도에 따라 단어들이 표시되는 위치, 크기 및/또는 색상 등을 조절하여 표시할 뿐이므로, 워드 클라우드로부터 통상적인 사용자가 그 의미를 도출하는 것은 용이하지 않을 수 있다. 특히, 제품 또는 서비스에 대한 고객의 반응을 분석하는 경우, 고객의 만족도, 불편사항 및 잠재적(또는 암묵적) 니즈 등을 파악할 필요가 있는데, 고객의 심리는 복합적이고 시간에 따라 변화하는 것이므로 단순히 출현 빈도를 고려하여 특정 주제에 대한 단어들을 도시하는 통상적인 워드 클라우드만으로는 고객의 반응을 명확하게 파악하기 어려울 수 있다. 따라서, 효율적인 데이터의 해석을 위한 새로운 형태의 워드 클라우드를 제공할 필요성이 있다.
본 발명의 실시 예들은, 주제별 키워드의 차이점 및 시간에 따른 키워드의 변화를 효율적으로 파악할 수 있도록 워드 클라우드를 시각화할 수 있는 장치 및 방법을 제공할 수 있다.
본 문서에 개시되는 일 실시 예에 따른 워드 클라우드의 시각화를 위한 방법은 복수의 웹 페이지로부터 수집된 텍스트로부터 추출된 복수의 키워드를 획득하는 단계, - 텍스트는 제1 주제 또는 제2 주제 중 적어도 하나와 연관됨 - 및 복수의 키워드를 포함하고, 제1 영역, 제2 영역 및 제1 영역과 제2 영역 사이에 개재된 제3 영역을 포함하는 워드 클라우드를 제공하는 단계를 포함하고, 제1 영역은 복수의 키워드 중 제1 주제와 연관된 제1 그룹 키워드를 포함하고, 제2 영역은 복수의 키워드 중 제2 주제와 연관된 제2 그룹 키워드를 포함하고, 제3 영역은 복수의 키워드 중 제1 주제 및 제2 주제 양자와 연관된 제3 그룹 키워드를 포함할 수 있다.
일 실시 예에 따르면, 복수의 키워드는 텍스트에 포함된 명사 단어 또는 형용사 단어 중 적어도 일부를 포함할 수 있다.
일 실시 예에 따르면, 제1 주제 및 제2 주제 각각은 텍스트와 연관된 주제어 또는 텍스트가 포함된 플랫폼일 수 있다.
일 실시 예에 따르면, 제공하는 단계는 제1 주제가 제1 영역의 내부 또는 제1 영역의 주변부에 표시되고, 제2 주제가 제2 영역의 내부 또는 제2 영역의 주변부에 표시된 워드 클라우드를 제공하는 단계일 수 있다.
일 실시 예에 따르면, 제1 그룹 키워드는 제1 주제와 연관된 출현 빈도가 지정된 값보다 큰 키워드를 포함하고, 제2 그룹 키워드는 제2 주제와 연관된 출현 빈도가 지정된 값보다 큰 키워드를 포함하고, 제3 그룹 키워드는 제1 주제 및 제2 주제 양자와 연관된 출현 빈도가 지정된 값보다 큰 키워드를 포함할 수 있다.
일 실시 예에 따르면, 워드 클라우드는 제1 도형 및 제1 도형과 부분적으로 오버랩된 제2 도형을 포함하는 다이어그램으로 구성되고, 제3 영역은 제1 도형과 제2 도형이 오버랩된 영역이고, 제1 영역은 제1 도형 중 오버랩된 영역을 제외한 영역이고, 제2 영역은 제2 도형 중 오버랩된 영역을 제외한 영역일 수 있다.
일 실시 예에 따르면, 방법은 복수의 키워드 중 제1 기간과 연관된 키워드를 포함하는 제1 워드 클라우드 및 복수의 키워드 중 제2 기간과 연관된 키워드를 포함하는 제2 워드 클라우드를 제공하는 단계를 더 포함할 수 있다.
일 실시 예에 따르면, 제1 기간은 제1 워드 클라우드의 내부 또는 제1 워드 클라우드의 주변부에 표시되고, 제2 기간은 제2 워드 클라우드의 내부 또는 제2 워드 클라우드의 주변부에 표시될 수 있다.
일 실시 예에 따르면, 방법은 복수의 키워드 중 적어도 하나에 대해 기간에 따른 출현 빈도의 변화를 나타내는 그래프를 제공하는 단계를 더 포함할 수 있다.
본 문서에 개시되는 일 실시 예에 따른 워드 클라우드의 시각화를 위한 장치는 외부와 통신하도록 구성된 통신 회로, 및 통신 회로와 전기적으로 연결된 프로세서를 포함하고, 프로세서는 통신 회로를 이용하여 복수의 웹 페이지로부터 수집된 텍스트로부터 추출된 복수의 키워드를 획득하고, - 텍스트는 제1 주제 또는 제2 주제 중 적어도 하나와 연관됨 - 복수의 키워드를 포함하고, 제1 영역, 제2 영역 및 제1 영역과 제2 영역 사이에 개재된 제3 영역을 포함하는 워드 클라우드를 제공하도록 설정되고, 제1 영역은 복수의 키워드 중 제1 주제와 연관된 제1 그룹 키워드를 포함하고, 제2 영역은 복수의 키워드 중 제2 주제와 연관된 제2 그룹 키워드를 포함하고, 제3 영역은 복수의 키워드 중 제1 주제 및 제2 주제 양자와 연관된 제3 그룹 키워드를 포함할 수 있다.
본 문서에 개시되는 실시 예들에 따르면, 제1 주제와 연관된 키워드, 제2 주제와 연관된 키워드, 제1 주제 및 제2 주제 양자와 연관된 키워드를 구별하여 표시함으로써, 워드 클라우드를 통해 제1 주제와 연관된 키워드, 제2 주제와 연관된 키워드 및 공통된 키워드를 용이하게 비교할 수 있다.
또한, 키워드가 입력된 시기를 고려하여 기간별 키워드를 도시하는 워드 클라우드를 동시에 제공함으로써, 시간의 흐름에 따른 키워드의 변화를 용이하게 비교할 수 있다.
또한, 워드 클라우드와 연계하여 시간의 흐름에 따른 키워드의 출현 빈도의 변화를 나타내는 그래프를 제공함으로써, 시간에 따른 출현 빈도의 변화 추이를 효율적으로 도시할 수 있다.
이 외에, 본 문서를 통해 직접적 또는 간접적으로 파악되는 다양한 효과들이 제공될 수 있다.
도 1은 일 실시 예에 따른 워드 클라우드의 시각화를 위한 장치의 동작 환경을 나타낸다.
도 2는 일 실시 예에 따른 워드 클라우드의 시각화를 위한 장치의 구성을 나타내는 블록도이다.
도 3은 일 실시 예에 따른 워드 클라우드의 시각화를 위한 장치에 포함되는 프레임워크를 나타내는 블록도이다.
도 4는 일 실시 예에 따른 워드 클라우드의 시각화를 위한 장치에 의해 제공되는 예시적인 워드 클라우드를 도시한다.
도 5는 일 실시 예에 따른 워드 클라우드의 시각화를 위한 장치에 의해 제공되는 예시적인 워드 클라우드를 도시한다.
도 6은 일 실시 예에 따른 워드 클라우드의 시각화를 위한 장치에 의해 제공되는 예시적인 그래프를 도시한다.
도 7은 일 실시 예에 따른 워드 클라우드의 시각화를 위한 방법을 설명하기 위한 흐름도이다.
도 8은 일 실시 예에 따른 워드 클라우드의 시각화를 위한 방법을 설명하기 위한 흐름도이다.
도면의 설명과 관련하여, 동일 또는 유사한 구성요소에 대해서는 동일 또는 유사한 참조 부호가 사용될 수 있다.
이하, 본 발명의 실시 예가 첨부된 도면을 참조하여 기재된다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 실시 예의 다양한 변경(modification), 균등물(equivalent), 및/또는 대체물(alternative)을 포함하는 것으로 이해되어야 한다.
도 1은 일 실시 예에 따른 워드 클라우드의 시각화를 위한 장치의 동작 환경을 나타낸다.
도 1을 참조하면, 일 실시 예에 따른 워드 클라우드의 시각화를 위한 장치는 서버(100) 형태로 구현될 수 있다. 서버(100)는 외부 장치(12)로부터 다양한 텍스트를 크롤링(crawling)할 수 있다. 서버(100)는 다양한 채널 또는 플랫폼으로부터 텍스트를 수집할 수 있다. 예를 들어, 서버(100)는 SNS(social network service), 블로그, 다양한 웹 사이트, 웹 페이지 및 웹 문서 등으로부터 텍스트를 수집할 수 있다. 서버(100)는 특정 대상(target)(또는 특정 상품(서비스를 포함))(예: 스마트폰)에 대한 텍스트를 수집할 수 있다. 분석 대상은 사용자 단말(11)을 통해 미리 설정될 수 있다.
일 실시 예에 따르면, 서버(100)는 수집된 텍스트를 분석하여 명사 또는 형용사로 이루어진 키워드를 추출할 수 있다. 서버(100)는 추출된 키워드를 주제별로 분류할 수 있다. 주제는, 예를 들어, 특정 상품의 제공자 또는 키워드가 추출된 채널에 해당할 수 있다. 예를 들어, 서버(100)는 추출된 키워드를 A 제조사와 연관된 키워드, B 제조사와 연관된 키워드 및 양자 모두와 연관된 키워드로 분류할 수 있다. 다른 예를 들면, 서버(100)는 추출된 키워드를 C사 SNS로부터 획득된 키워드, D사 블로그로부터 획득된 키워드 및 양자 모두로부터 획득된 키워드로 분류할 수도 있다. 서버(100)는 분류된 키워드가 서로 구별되도록 다이어그램 형태로 배열된 워드 클라우드를 생성할 수 있다.
일 실시 예에 따르면, 서버(100)는 추출된 키워드를 시간을 기준으로 분류하여 워드 클라우드를 생성할 수 있다. 예를 들어, 서버(100)는 2017년에 업로드된 텍스트에 포함된 키워드에 기초하여 제1 워드 클라우드를 생성하고, 2018년에 업로드된 텍스트에 포함된 키워드에 기초하여 제2 워드 클라우드를 생성할 수 있다. 서버(100)는 시간의 흐름에 따른 키워드의 출현 빈도를 나타내는 그래프를 생성할 수도 있다.
일 실시 예에 따르면 서버(100)는 생성된 워드 클라우드를 사용자 단말(11)로 제공할 수 있다. 사용자 단말(11)은 제공된 워드 클라우드를 표시 장치를 통해 출력할 수 있다.
도 1에서는 서버(100)와 사용자 단말(11)이 분리된 것으로 도시되었으나, 이에 제한되지 않고, 하나의 컴퓨팅 디바이스로 통합되어 구현될 수도 있다. 또한, 도 1에서는 서버(100) 및 사용자 단말(11)이 각각 하나의 디바이스인 것으로 도시되었으나, 이에 제한되지 않고, 서버(100) 및 사용자 단말(11)은 각각 2 이상의 컴퓨팅 디바이스로 분리되어 구현될 수도 있다.
또한, 도 1을 참조하여 설명된 서버(100)에 의해 수행되는 동작 중 적어도 일부는 사용자 단말(11)에 의해 수행될 수도 있다. 예를 들어, 추출된 키워드를 주제별로 분류하는 동작, 키워드의 출현 빈도를 산출하는 동작 및 워드 클라우드를 제공 또는 생성하는 동작 등은 사용자 단말(11)에 의해 수행될 수도 있다.
도 2는 일 실시 예에 따른 워드 클라우드의 시각화를 위한 장치의 구성을 나타내는 블록도이다.
도 2를 참조하면, 일 실시 예에 따른 워드 클라우드의 시각화 장치(200)는 통신 회로(210), 메모리(220) 및 프로세서(230)를 포함할 수 있다. 워드 클라우드의 시각화 장치(200)는 서버의 형태로 구현될 수도 있고 사용자 단말의 형태로 구현될 수도 있다. 사용자 단말의 형태로 구현된 경우, 도 2에 도시된 사용자 단말(21)의 기능은 워드 클라우드의 시각화 장치(200)에 의해 수행될 수 있다.
통신 회로(210)는 외부와 통신하도록 구성될 수 있다. 통신 회로(210)는 무선 통신 인터페이스 및/또는 유선 통신 인터페이스를 포함할 수 있다. 예를 들어, 통신 회로(210)는 사용자 단말(21) 및 외부 장치(22)와 데이터를 송수신할 수 있다.
메모리(220)는 휘발성 메모리 및/또는 비휘발성 메모리를 포함할 수 있다. 메모리(220)는 워드 클라우드의 시각화 장치(200)에서 취급되는 다양한 데이터를 저장할 수 있다. 예를 들어, 메모리(220)는 사용자 단말(21) 및/또는 외부 장치(22)로부터 수신된 데이터를 저장할 수 있고, 워드 클라우드의 시각화 장치(200) 내부에서 처리된 데이터를 저장할 수도 있다.
프로세서(230)는 통신 회로(210) 및 메모리(220)와 전기적으로 연결될 수 있다. 프로세서(230)는 통신 회로(210) 및 메모리(220)를 제어할 수 있고, 다양한 데이터 처리 및 연산을 수행할 수 있다.
일 실시 예에 따르면, 프로세서(230)는 통신 회로(210)를 이용하여 복수의 웹 페이지로부터 수집된 텍스트로부터 추출된 복수의 키워드를 획득할 수 있다. 추출된 텍스트는 제1 주제 또는 제2 주제 중 적어도 하나와 연관될 수 있다. 예를 들어, 프로세서(230)는 외부 장치(22)를 통해 다수의 웹 문서로부터 제1 주제 또는 제2 주제 중 적어도 하나와 연관된 텍스트를 크롤링할 수 있다. 프로세서(230)는 형태소 분석기를 이용하여 수집된 텍스트로부터 명사 단어 또는 형용사 단어로 이루어진 복수의 키워드를 추출할 수 있다.
일 실시 예에 따르면, 제1 주제 및 제2 주제 각각은 텍스트와 연관된 주제어 또는 텍스트가 포함된 플랫폼일 수 있다. 주제는 사용자 단말(21)에 의해 설정될 수 있다. 예를 들어, 프로세서(230)는 특정 대상(예: 스마트폰)을 포함하는 웹 문서 중 제1 주제어(예: A 제조사) 또는 제2 주제어(예: B 제조사) 중 적어도 일부를 포함하는 웹 문서를 크롤링할 수 있다. 이 경우, 프로세서(230)는 키워드를 추출한 후, 추출된 키워드를 제1 주제어와 연관된 키워드, 제2 주제어와 연관된 키워드, 및 제1 주제어 및 제2 주제어 양자와 연관된 키워드로 분류할 수 있다. 프로세서(230)는 제1 주제어와 연관된 키워드, 제2 주제어와 연관된 키워드 및 제1 주제어 및 제2 주제어 양자와 연관된 키워드를 개별적으로 추출할 수도 있다. 다른 예를 들면, 프로세서(230)는 특정 대상(예: 스마트폰)을 포함하는 웹 문서 중 제1 플랫폼(예: C사 SNS) 또는 제2 플랫폼(예: D사 블로그)에 포함된 웹 문서를 크롤링할 수 있다. 이 경우, 프로세서(230)는 키워드를 추출한 후, 추출된 키워드를 제1 플랫폼으로부터 획득된 키워드, 제2 플랫폼으로부터 획득된 키워드, 및 제1 플랫폼 및 제2 플랫폼 양자 모두로부터 획득된 키워드로 분류할 수 있다. 프로세서(230)는 제1 플랫폼으로부터의 키워드, 제2 플랫폼으로부터의 키워드 및 제1 플랫폼 및 제2 플랫폼 양자 모두로부터의 키워드를 개별적으로 추출할 수도 있다.
일 실시 예에 따르면, 프로세서(230)는 추출된 키워드의 텍스트 내 출현 빈도를 산출할 수 있다. 프로세서(230)는 키워드와 그 키워드의 출현 빈도로 이루어진 순서쌍을 생성할 수 있다.
일 실시 예에 따르면, 프로세서(230)는 복수의 키워드를 포함하고, 제1 영역, 제2 영역 및 제1 영역과 제2 영역 사이에 개재된 제3 영역을 포함하는 워드 클라우드를 제공할 수 있다. 일 실시 예에 따르면, 워드 클라우드는 제1 도형 및 제1 도형과 부분적으로 오버랩된 제2 도형을 포함하는 다이어그램으로 구성되고, 제3 영역은 제1 도형과 제2 도형이 오버랩된 영역이고, 제1 영역은 제1 도형 중 오버랩된 영역을 제외한 영역이고, 제2 영역은 제2 도형 중 오버랩된 영역을 제외한 영역일 수 있다. 예를 들어, 워드 클라우드는 2개의 서로 겹쳐진 원으로 이루어진 벤 다이어그램의 형태로 구성될 수 있다.
일 실시 예에 따르면, 제1 영역은 복수의 키워드 중 제1 주제와(또는 제1 주제에만) 연관된 제1 그룹 키워드를 포함하고, 제2 영역은 복수의 키워드 중 제2 주제와(또는 제2 주제에만) 연관된 제2 그룹 키워드를 포함하고, 제3 영역은 복수의 키워드 중 제1 주제 및 제2 주제 양자와 연관된 제3 그룹 키워드를 포함할 수 있다. 예를 들어, 워드 클라우드가 2개의 서로 겹쳐진 원으로 이루어진 벤 다이어그램의 형태로 구성된 경우 제3 그룹 키워드는 교집합 영역에 표시되고, 제1 그룹 키워드 및 제2 그룹 키워드 각각은 나머지 2개 영역에 각각 분리되어 표시될 수 있다.
일 실시 예에 따르면, 제1 그룹 키워드는 제1 주제와 연관된 출현 빈도가 지정된 값보다 큰 키워드를 포함하고, 제2 그룹 키워드는 제2 주제와 연관된 출현 빈도가 지정된 값보다 큰 키워드를 포함하고, 제3 그룹 키워드는 제1 주제 및 제2 주제 양자와 연관된 출현 빈도가 지정된 값보다 큰 키워드를 포함할 수 있다. 여기서, 출현 빈도는 0 이상의 값으로 0에 해당할 수도 있다. 출현 빈도를 반영하여 워드 클라우드를 생성하기 위한 처리 동작에 대해서는 이하에서 상세히 설명한다.
예를 들어, 전체 키워드 중 제1 주제와 연관된 단어, 출현 빈도 순서쌍의 집합을 제1 사전이라 하고, 전체 키워드 중 제2 주제와 연관된 단어, 출현 빈도 순서쌍의 집합을 제2 사전이라고 하면, 제1 사전과 제2 사전의 출현 빈도의 절대량은 차이가 있을 수 있다. 따라서, 프로세서(230)는 제1 사전과 제2 사전 사이의 비교를 위해 사전 각각의 최다 출현 빈도 값을 1로 설정하고 각 단어의 빈도 값을 상대 빈도 값(0 내지 1)으로 변환할 수 있다.
제1 사전에 포함된 단어의 집합을 A, A에 포함된 단어들을 ai, 제1 사전에서 단어 ai의 상대 빈도 값을 fA(ai)라 하고, 제2 사전에 포함된 단어의 집합을 B, B에 포함된 단어들을 bi, 제2 사전에서 단어 bi의 상대 빈도 값을 fB(bi)라 한다. 프로세서(230)는 A와 B의 교집합을 구하고, 교집합에 포함된 단어의 상대 빈도 값은 제1 사전에 나타난 상대 빈도 값과 제2 사전에 나타난 상대 빈도 값 중 작은 값으로 설정할 수 있다. 예를 들어, 교집합 A∩B를 C, C에 속한 단어들을 ci, 교집합 C 내에서 단어 ci에 대해 부여되는 상대 빈도 값을 fC(ci)라 하면, fC(ci) = min(fA(ci), fB(ci)) (단, ci∈A and ci∈B)일 수 있다. 이 경우, A' = A - B라 할 때, fA'(ai) = fA(ai) - min(fA(ai), fB(ai))일 수 있고, B' = B - A라 할 때, fB'(bi) = fB(bi) - min(fB(bi), fA(bi))일 수 있다.
프로세서(230)는 산출된 상대 빈도 값들에 기초하여 다이어그램 형태로 이루어진 워드 클라우드에 (ai, fA'(ai)), (ci, fC(ci)), (bi, fB'(bi))를 표현할 수 있다. 예를 들어, 프로세서(230)는 상대 빈도 값 fA'(ai), fC(ci), fB'(bi)에 비례하는 크기로 단어 ai, ci, bi 를 표현할 수 있다. 이 경우, 프로세서(230)는 빈도가 0인 단어는 표시하지 않을 수 있다. 프로세서(230)는 워드 클라우드의 공간이 모든 단어를 표현하기에 부족한 경우 빈도가 지정된 값 이하인 단어를 생략하여 공간이 허락하는 수준까지만 단어를 표현할 수 있다. 프로세서(230)는, 예를 들어, ai를 제1 영역에 표시하고, bi를 제2 영역에 표시하고, ci를 제3 영역에 표시할 수 있다.
일 실시 예에 따르면, 프로세서(230)는 제1 주제가 제1 영역의 내부 또는 제1 영역의 주변부에 표시되고, 제2 주제가 제2 영역의 내부 또는 제2 영역의 주변부에 표시된 워드 클라우드를 제공할 수 있다. 예를 들어, 프로세서(230)는 제1 영역 내부 또는 주변부에 제1 주제어(또는 제1 플랫폼)을 나타내는 문구를 표시하고, 제2 영역 내부 또는 주변부에 제2 주제어(또는 제2 플랫폼)을 나타내는 문구를 표시할 수 있다.
일 실시 예에 따르면, 프로세서(230)는 복수의 키워드 중 제1 기간과 연관된 키워드를 포함하는 제1 워드 클라우드 및 복수의 키워드 중 제2 기간과 연관된 키워드를 포함하는 제2 워드 클라우드를 제공할 수도 있다. 예를 들어, 프로세서(230)는 제1 기간 동안 작성된 웹 문서로부터 획득된 키워드를 제1 기간 동안의 출현 빈도에 기초하여 제1 워드 클라우드에 표현하고, 제2 기간 동안 작성된 웹 문서로부터 획득된 키워드를 제2 기간 동안의 출현 빈도에 기초하여 제2 워드 클라우드에 표현할 수 있다. 프로세서는 키워드가 추출된 웹 페이지에 기재된 날짜 정보에 기초하여 키워드에 대응하는 기간을 판단할 수 있다.
일 실시 예에 따르면, 제1 기간은 제1 워드 클라우드의 내부 또는 제1 워드 클라우드의 주변부에 표시되고, 제2 기간은 제2 워드 클라우드의 내부 또는 제2 워드 클라우드의 주변부에 표시될 수 있다. 예를 들어, 프로세서(230)는 제1 워드 클라우드의 내부 또는 주변부에 제1 기간을 나타내는 문구를 표시하고, 제2 워드 클라우드의 내부 또는 주변부에 제2 기간을 나타내는 문구를 표시할 수 있다.
일 실시 예에 따르면, 프로세서(230)는 복수의 키워드 중 적어도 하나에 대해 기간에 따른 출현 빈도의 변화를 나타내는 그래프를 제공할 수 있다. 예를 들어, 프로세서(230)는 제1 워드 클라우드 및 제2 워드 클라우드에 포함된 키워드들의 기간별 출현 빈도를 산출할 수 있다. 프로세서(230)는 산출된 출현 빈도를 기간에 따른 출현 빈도를 나타내는 그래프에 표시할 수 있다.
일 실시 예에 따르면, 프로세서(230)는 생성된 워드 클라우드 및/또는 그래프를 사용자 단말(21)로 제공할 수 있다. 사용자 단말(21)은 제공된 워드 클라우드 및/또는 그래프를 출력할 수 있다.
상술한 동작 중 적어도 일부는 사용자 단말(21)에 의해 수행될 수도 있고, 이 경우, 사용자 단말(21)이 워드 클라우드의 시각화 장치(200)에 해당하는 것으로 이해될 수도 있다.
상술한 실시 예들에 따르면, 워드 클라우드의 시각화 장치(200)는 주제별로 키워드의 차이점을 효율적으로 비교할 수 있고, 시간의 흐름에 따른 키워드의 변화를 효율적으로 관찰할 수 있는 워드 클라우드를 제공할 수 있다. 이로써, 소비자의 심리 등과 같이 복합적이고 변화하는 현상이 객관적이고 정확하게 파악될 수 있다.
도 3은 일 실시 예에 따른 워드 클라우드의 시각화를 위한 장치에 포함되는 프레임워크를 나타내는 블록도이다.
도 3을 참조하면, 일 실시 예에 따른 워드 클라우드의 시각화를 위한 장치에 포함되는 프레임워크는 데이터 수집 모듈(310), 데이터 저장 모듈(320), 데이터 정제 모듈(330), 데이터 분석 모듈(340) 및 시각화 모듈(350)을 포함할 수 있다.
데이터 수집 모듈(310)은 SNS, 블로그 및 웹 사이트 등과 같은 다양한 웹 페이지로부터 텍스트 데이터를 수집할 수 있다. 예를 들어, 데이터 수집 모듈(310)은 3시간 동안 5천건 이상의 웹 페이지로부터 텍스트 데이터를 수집할 수 있다.
데이터 저장 모듈(320)은 데이터 수집 모듈(310)에 의해 획득된 데이터를 저장할 수 있다. 예를 들어, 데이터 저장 모듈(320)은 웹 페이지의 URL을 저장할 수 있고, 웹 페이지로부터 획득된 텍스트 데이터 및 이미지 데이터를 저장할 수 있다.
데이터 정제 모듈(330)은 데이터 저장 모듈(320)에 저장된 데이터를 정제할 수 있다. 예를 들어, 데이터 정제 모듈(330)은 형태소 분석을 통해 텍스트 데이터로부터 명사 단어 및 형용사 단어를 추출하여 분석에 필요한 데이터만을 획득할 수 있다.
데이터 분석 모듈(340)은 데이터 정제 모듈(330)에 의해 정제된 키워드를 분석할 수 있다. 예를 들어, 데이터 분석 모듈(340)은 명사 단어 및 형용사 단어를 카운팅할 수 있다. 데이터 분석 모듈(340)은 키워드의 출현 빈도를 산출할 수 있다. 데이터 분석 모듈(340)은 키워드를 워드 클라우드에 나타내기 위해 출현 빈도를 노멀라이징할 수도 있다. 데이터 분석 모듈(340)은 키워드의 긍정 빈도 및 부정 빈도를 분석할 수도 있고, 키워드를 카테고리화할 수도 있다.
시각화 모듈(350)은 데이터 분석 모듈(340)에 의해 분석된 결과를 워드 클라우드 및/또는 그래프 형태로 나타낼 수 있다. 예를 들어, 시각화 모듈(350)은 키워드를 주제별 또는 시간별로 분류하여 다이어그램 형태로 구성된 워드 클라우드에 표시할 수 있고, 키워드의 출현 빈도를 시간에 따른 변화를 나타내는 그래프에 표시할 수도 있다.
도 4는 일 실시 예에 따른 워드 클라우드의 시각화를 위한 장치에 의해 제공되는 예시적인 워드 클라우드를 도시한다.
도 4를 참조하면, 일 실시 예에 따른 워드 클라우드의 시각화를 위한 장치는 제1 도형(411) 및 제1 도형(411)에 오버랩된 제2 도형(412)의 형태로 이루어진 워드 클라우드를 제공할 수 있다. 여기서, 분석 대상은 스마트폰이고, 제1 주제는 A사이고, 제2 주제는 B사일 수 있다. 워드 클라우드의 제1 영역(421)에는 제1 주제어인 키워드 'A사'를 포함하는 웹 페이지에 출현 빈도가 높고, 제2 주제어인 키워드 'B사'를 포함하는 웹 페이지에 출현 빈도가 낮은 제1 그룹 키워드(431)가 표시될 수 있다. 워드 클라우드의 제2 영역(422)에는 키워드 'A사'를 포함하는 웹 페이지에 출현 빈도가 낮고, 키워드 'B사'를 포함하는 웹 페이지에 출현 빈도가 높은 제2 그룹 키워드(432)가 표시될 수 있다. 워드 클라우드의 제3 영역(423)에는 키워드 'A사' 및 'B사'를 포함하는 웹 페이지에서 출현 빈도가 일정 이상인 제3 그룹 키워드(433)가 표시될 수 있다. 제1 영역(421)의 주변부에는 제1 주제를 나타내는 문구 'A사 스마트폰'(441)이 표시될 수 있고, 제2 영역(422)의 주변부에는 제2 주제를 나타내는 문구 'B사 스마트폰'(442)이 표시될 수 있다.
상술한 워드 클라우드를 통해, A사 제품과 관련된 소비자의 관심사는 제1 영역(421)에 표시된 '듀얼 스크린', '카메라', '게임' 및 '사진' 등과 같은 기능에 있음을 파악할 수 있다. 반면, B사 제품과 관련된 소비자의 관심사는 제2 영역(422)에 표시된 '폴드', '디스플레이', '미러링', '메모리카드' 등과 같은 기능에 있음을 파악할 수 있다. 분석 대상인 스마트폰과 관련하여 소비자가 생각하는 핵심적 기능은 제3 영역(423)에 표시된 '카메라', '디스플레이', '배터리' 등임을 파악할 수 있다. 이로써, 워드 클라우드를 통해 서로 다른 두 제조사 사이에서 소비자의 인식 차이를 용이하게 파악할 수 있다.
한편, 도 4에는 도시되지 않았으나, 워드 클라우드는 플랫폼을 기준으로 키워드를 분류하여 표시할 수도 있다. 예를 들어, 워드 클라우드의 제1 영역(421)에는 제1 플랫폼인 C사 SNS에서 출현 빈도가 높고, 제2 플랫폼인 D사 블로그에서 출현 빈도가 낮은 키워드가 표시되고, 제2 영역(422)에는 C사 SNS에서 출현 빈도가 낮고, D사 블로그에서 출현 빈도가 높은 키워드가 표시되고, 워드 클라우드의 제3 영역(423)에는 C사 SNS 및 D사 블로그 양자 모두에서 출현 빈도가 일정 이상인 키워드가 표시될 수 있다. 이로써, 워드 클라우드를 통해 서로 다른 채널에 따른 소비자의 인식 차이 내지 표현 차이를 용이하게 파악할 수 있다.
상술한 것과 같이, 제1 주제와 연관된 키워드, 제2 주제와 연관된 키워드, 제1 주제 및 제2 주제 양자와 연관된 키워드를 구별하여 표시함으로써, 워드 클라우드를 통해 제1 주제와 연관된 키워드, 제2 주제와 연관된 키워드 및 공통된 키워드를 용이하게 비교할 수 있다.
도 5는 일 실시 예에 따른 워드 클라우드의 시각화를 위한 장치에 의해 제공되는 예시적인 워드 클라우드를 도시한다.
도 5를 참조하면, 일 실시 예에 따른 워드 클라우드의 시각화를 위한 장치는 제1 기간에 대응하는 제1 워드 클라우드(511), 제2 기간에 대응하는 제2 워드 클라우드(512) 및 제3 기간에 대응하는 제3 워드 클라우드를 동시에 제공할 수 있다. 여기서, 분석 대상은 스마트폰일 수 있고, 제1 기간은 2005년부터 2009년, 제2 기간은 2010년부터 2014년, 제3 기간은 2015년부터 2019년일 수 있다. 제1 워드 클라우드(511)는 제1 기간 동안 작성된 웹 페이지로부터 획득된 키워드를 포함할 수 있고, 제2 워드 클라우드(512)는 제2 기간 동안 작성된 웹 페이지로부터 획득된 키워드를 포함할 수 있고, 제3 워드 클라우드는 제3 기간 동안 작성된 웹 페이지로부터 획득된 키워드를 포함할 수 있다. 제1 워드 클라우드(511)의 주변부에는 제1 기간을 나타내는 문구 '2005-2009'(521)가 표시될 수 있고, 제2 워드 클라우드(512)의 주변부에는 제2 기간을 나타내는 문구 '2010-2014'(522)가 표시될 수 있고, 제3 워드 클라우드의 주변부에는 제3 기간을 나타내는 문구 '2015-2019'(523)가 표시될 수 있다.
상술한 워드 클라우드를 통해, 제1 기간 동안의 소비자의 관심은 '인터넷', '통신', '탑재', '터치', '애플리케이션' 등과 같은 스마트폰의 기본적인 기능에 있음을 알 수 있다. 제2 기간 동안의 소비자의 관심은 '배터리', '화면', '게임', '사진', '동영상' 등과 같은 스마트폰의 부수적인 기능에 있음을 알 수 있다. 제3 기간 동안의 소비자의 관심은 '사진', '카메라', '촬영', '삼각대' 등과 같은 사진 찍기 기능에 대해 더욱 증가하고, '방수', '차량', '건강' 등과 같은 새로운 기능에 대해서도 증가하고 있음을 알 수 있다. 이로써, 워드 클라우드(511, 512, 513)를 통해 시간의 흐름에 따른 소비자의 인식의 변화를 용이하게 파악할 수 있다.
도 5에서는 워드 클라우드(511, 512, 513) 각각이 원형으로 이루어진 것으로 도시되었으나, 이에 제한되지 않고, 워드 클라우드(511, 512, 513) 각각은 도 4에 도시된 것과 같은 다이어그램 형태로 이루어질 수도 있다.
상술한 것과 같이, 키워드가 입력된 시기를 고려하여 기간별 키워드를 도시하는 워드 클라우드를 동시에 제공함으로써, 시간의 흐름에 따른 키워드의 변화를 용이하게 비교할 수 있다.
도 6은 일 실시 예에 따른 워드 클라우드의 시각화를 위한 장치에 의해 제공되는 예시적인 그래프를 도시한다.
도 6을 참조하면, 일 실시 예에 따른 워드 클라우드의 시각화를 위한 장치는 시간의 흐름에 따른 키워드의 출현 빈도의 변화를 나타내는 그래프를 제공할 수 있다. 워드 클라우드의 시각화를 위한 장치는 키워드를 분석하여 특정 기능과 연관된 키워드를 카테고리화할 수 있다. 워드 클라우드의 시각화를 위한 장치는 데이터베이스를 이용하여 카테고리별로 키워드를 분류할 수 있다. 예를 들어, '사진', '카메라', '촬영', '삼각대' 등과 같은 키워드는 사진 기능 관련 키워드로 분류될 수 있고, '인터넷', '통신', '무선', 데이터', '속도' 등과 같은 키워드는 네트워크 통신 관련 키워드로 분류될 수 있다. 워드 클라우드의 시각화를 위한 장치는, 예를 들어, 도 5에 도시된 워드 클라우드 또는 워드 클라우드와 함께 제공되는 UI에 대한 사용자의 입력이 수신되면, 도 6에 도시된 그래프를 출력할 수도 있다. 다른 예를 들면, 도 6에 도시되지는 않았으나, 워드 클라우드의 시각화를 위한 장치는 도 5에 도시된 워드 클라우드에서 특정 키워드에 대한 사용자의 입력이 수신되면, 그 특정 키워드(또는 그 특정 키워드가 포함된 카테고리의 키워드들)의 출현 빈도의 변화를 나타내는 그래프를 제공할 수도 있다.
제1 곡선(610)은 사진 기능 관련 키워드의 점유율을 나타낸다. 제1 곡선(610)을 참조하면, 시간의 흐름에 따라 사진 기능에 대한 소비자의 관심이 증가하고 있음을 파악할 수 있다.
제2 곡선(620)은 네트워크 통신 관련 키워드의 점유율을 나타낸다. 제2 곡선(620)을 참조하면, 시간의 흐름에 따라 네트워크 통신 기능에 대한 소비자의 관심이 감소하고 있음을 파악할 수 있다.
제3 곡선(630)은 배터리 관련 키워드의 점유율을 나타낸다. 제3 곡선(630)을 참조하면, 배터리에 대한 소비자의 관심은 증가 추세에 있다가 감소 추세에 들어섰음을 파악할 수 있다.
제4 곡선(640)은 영상 보기 관련 키워드의 점유율을 나타낸다. 제4 곡선(640)을 참조하면, 영상 보기에 대한 소비자의 관심은 증가 추세에 있다가 정체 상태에 있음을 파악할 수 있다.
제5 곡선(650)은 문자 메시지 관련 키워드의 점유율을 나타내고, 제6 곡선(660)은 커머스 관련 키워드의 점유율을 나타낸다. 제5 곡선(650) 및 제6 곡선(660)을 참조하면, 문자 메시지 및 커머스에 대한 소비자의 관심은 약간의 변동이 있으나 전체적으로 미미한 정도에 해당함을 파악할 수 있다.
상술한 것과 같이, 워드 클라우드와 연계하여 시간의 흐름에 따른 키워드의 출현 빈도의 변화를 나타내는 그래프를 제공함으로써, 시간에 따른 출현 빈도의 변화 추이를 효율적으로 도시할 수 있다.
도 7은 일 실시 예에 따른 워드 클라우드의 시각화를 위한 방법을 설명하기 위한 흐름도이다.
이하에서는 도 2의 워드 클라우드의 시각화 장치(200) 또는 사용자 단말(21)가 도 7의 프로세스를 수행하는 것을 가정한다. 또한, 도 7의 설명에서, 장치에 의해 수행되는 것으로 기술된 동작은 워드 클라우드의 시각화 장치(200)의 프로세서(230) 또는 사용자 단말(21)의 프로세서(미도시)에 의해 제어되는 것으로 이해될 수 있다.
도 7을 참조하면, 단계 710에서, 장치는 복수의 웹 페이지로부터 제1 주제 또는 제2 주제 중 적어도 하나와 연관된 텍스트를 수집할 수 있다. 단계 720에서, 장치는 수집된 텍스트로부터 복수의 키워드를 추출할 수 있다. 단계 730에서, 장치는 수집된 텍스트 내에서 복수의 키워드 각각의 출현 빈도를 산출할 수 있다. 단계 740에서, 장치는 복수의 키워드를 제1 주제 및/또는 제2 주제와의 연관성에 기초하여 3개의 그룹으로 분류할 수 있다. 단계 750에서, 장치는 출현 빈도 및 분류 결과에 기초하여 워드 클라우드를 제공할 수 있다.
도 8은 일 실시 예에 따른 워드 클라우드의 시각화를 위한 방법을 설명하기 위한 흐름도이다.
이하에서는 도 2의 워드 클라우드의 시각화 장치(200) 또는 사용자 단말(21)가 도 8의 프로세스를 수행하는 것을 가정한다. 또한, 도 8의 설명에서, 장치에 의해 수행되는 것으로 기술된 동작은 워드 클라우드의 시각화 장치(200)의 프로세서(230) 또는 사용자 단말(21)의 프로세서(미도시)에 의해 제어되는 것으로 이해될 수 있다.
단계 810에서, 장치는 복수의 웹페이지로부터 텍스트를 수집할 수 있다. 단계 820에서, 장치는 수집된 텍스트로부터 복수의 키워드를 추출할 수 있다. 단계 830에서, 장치는 수집된 텍스트 내에서 복수의 키워드 중 제1 기간과 연관된 키워드의 출현 빈도를 산출할 수 있다. 단계 840에서, 장치는 수집된 텍스트 내에서 복수의 키워드 중 제2 기간과 연관된 키워드의 출현 빈도를 산출할 수 있다. 단계 850에서, 장치는 출현 빈도에 기초하여 제1 기간과 연관된 키워드를 포함하는 제1 워드 클라우드 및 제2 기간과 연관된 키워드를 포함하는 제2 워드 클라우드를 제공할 수 있다.
본 문서의 실시 예들 및 이에 사용된 용어들은 본 문서에 기재된 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 해당 실시 예의 다양한 변경, 균등물, 및/또는 대체물을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다. 본 문서에서, "A 또는 B", "A 및/또는 B 중 적어도 하나", "A, B 또는 C" 또는 "A, B 및/또는 C 중 적어도 하나" 등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다. "제1," "제2," "첫째," 또는 "둘째,"등의 표현들은 해당 구성요소들을, 순서 또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다. 어떤 구성요소가 다른 구성요소에 "(기능적으로 또는 통신적으로) 연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소를 통하여 연결될 수 있다.
본 문서에서, "~하도록 설정된(adapted to or configured to)"은 상황에 따라, 예를 들면, 하드웨어적 또는 소프트웨어적으로 "~에 적합한," "~하는 능력을 가지는," "~하도록 변경된," "~하도록 만들어진," "~를 할 수 있는," 또는 "~하도록 설계된"과 상호 호환적으로(interchangeably) 사용될 수 있다. 어떤 상황에서는, "~하도록 구성된 장치"라는 표현은, 그 장치가 다른 장치 또는 부품들과 함께 "~할 수 있는" 것을 의미할 수 있다. 예를 들면, 문구 "A, B, 및 C를 수행하도록 설정된 (또는 구성된) 프로세서"는 해당 동작들을 수행하기 위한 전용 프로세서(예: 임베디드 프로세서), 또는 메모리 장치에 저장된 하나 이상의 프로그램들을 실행함으로써, 해당 동작들을 수행할 수 있는 범용 프로세서(예: CPU)를 의미할 수 있다.
본 문서에서 사용된 용어 "모듈"은 하드웨어, 소프트웨어 또는 펌웨어(firmware)로 구성된 유닛(unit)을 포함하며, 예를 들면, 로직, 논리 블록, 부품, 또는 회로 등의 용어와 상호 호환적으로 사용될 수 있다. "모듈"은, 일체로 구성된 부품 또는 하나 또는 그 이상의 기능을 수행하는 최소 단위 또는 그 일부가 될 수 있다. "모듈"은 기계적으로 또는 전자적으로 구현될 수 있으며, 예를 들면, 어떤 동작들을 수행하는, 알려졌거나 앞으로 개발될, ASIC(application-specific integrated circuit) 칩, FPGAs(field-programmable gate arrays), 또는 프로그램 가능 논리 장치를 포함할 수 있다.
일 실시 예에 따른 장치(예: 모듈들 또는 그 기능들) 또는 방법(예: 동작들)의 적어도 일부는 프로그램 모듈의 형태로 컴퓨터로 판독 가능한 저장 매체에 저장된 명령어로 구현될 수 있다. 상기 명령어가 프로세서에 의해 실행될 경우, 프로세서가 상기 명령어에 해당하는 기능을 수행할 수 있다. 컴퓨터로 판독 가능한 기록 매체는, 하드디스크, 플로피디스크, 마그네틱 매체(예: 자기테이프), 광기록 매체(예: CD-ROM, DVD, 자기-광 매체(예: 플롭티컬 디스크), 내장 메모리 등을 포함할 수 있다. 명령어는 컴파일러에 의해 만들어지는 코드 또는 인터프리터에 의해 실행될 수 있는 코드를 포함할 수 있다.
일 실시 예에 따른 구성 요소(예: 모듈 또는 프로그램 모듈) 각각은 단수 또는 복수의 개체로 구성될 수 있으며, 전술한 해당 서브 구성 요소들 중 일부 서브 구성 요소가 생략되거나, 또는 다른 서브 구성 요소를 더 포함할 수 있다. 대체적으로 또는 추가적으로, 일부 구성 요소들(예: 모듈 또는 프로그램 모듈)은 하나의 개체로 통합되어, 통합되기 이전의 각각의 해당 구성 요소에 의해 수행되는 기능을 동일 또는 유사하게 수행할 수 있다. 일 실시 예에 따른 모듈, 프로그램 모듈 또는 다른 구성 요소에 의해 수행되는 동작들은 순차적, 병렬적, 반복적 또는 휴리스틱(heuristic)하게 실행되거나, 적어도 일부 동작이 다른 순서로 실행되거나, 생략되거나, 또는 다른 동작이 추가될 수 있다.

Claims (10)

  1. 워드 클라우드의 시각화를 위한 방법에 있어서,
    복수의 웹 페이지로부터 수집된 텍스트로부터 추출된 복수의 키워드를 획득하는 단계; - 상기 텍스트는 제1 주제 또는 제2 주제 중 적어도 하나와 연관됨 -
    상기 복수의 키워드를 포함하고, 제1 영역, 제2 영역 및 상기 제1 영역과 상기 제2 영역 사이에 개재된 제3 영역을 포함하는 워드 클라우드를 제공하는 단계;
    상기 복수의 키워드를 분석하여 상기 복수의 키워드를 카테고리별로 분류하는 단계; 및
    상기 워드 클라우드에서 상기 복수의 키워드 중 특정 키워드에 대한 사용자의 입력이 수신되면, 상기 특정 키워드를 포함하는 카테고리의 키워드들의 시간의 흐름에 따른 출현 빈도의 변화를 나타내는 그래프를 제공하는 단계를 포함하고,
    상기 제1 영역은 상기 복수의 키워드 중 상기 제1 주제와 연관된 제1 그룹 키워드를 포함하고, 상기 제2 영역은 상기 복수의 키워드 중 상기 제2 주제와 연관된 제2 그룹 키워드를 포함하고, 상기 제3 영역은 상기 복수의 키워드 중 상기 제1 주제 및 상기 제2 주제 양자와 연관된 제3 그룹 키워드를 포함하고,
    제1 사전의 출현 빈도 및 제2 사전의 출현 빈도는 상대 빈도로 변환되고, - 상기 제1 사전은 상기 제1 주제와 연관된 키워드와 상기 제1 주제와 연관된 키워드의 출현 빈도 순서쌍의 집합이고, 상기 제2 사전은 상기 제2 주제와 연관된 키워드와 상기 제2 주제와 연관된 단어의 출현 빈도 순서쌍의 집합임 -
    상기 제3 그룹 키워드의 상대 빈도는 상기 제1 사전에 나타난 상대 빈도와 상기 제2 사전에 나타난 상대 빈도 중 작은 값으로 설정되고,
    상기 복수의 키워드는 상기 제1 사전에 나타난 상대 빈도, 상기 제2 사전에 나타난 상대 빈도 및 상기 제3 그룹 키워드의 상대 빈도에 비례하는 크기로 상기 워드 클라우드에 표시되는 것을 특징으로 하는, 방법.
  2. 제 1 항에 있어서,
    상기 복수의 키워드는 상기 텍스트에 포함된 명사 단어 또는 형용사 단어 중 적어도 일부를 포함하는 것을 특징으로 하는, 방법.
  3. 제 1 항에 있어서,
    상기 제1 주제 및 상기 제2 주제 각각은 상기 텍스트와 연관된 주제어 또는 상기 텍스트가 포함된 플랫폼인 것을 특징으로 하는, 방법.
  4. 제 1 항에 있어서,
    상기 제공하는 단계는,
    상기 제1 주제가 상기 제1 영역의 내부 또는 상기 제1 영역의 주변부에 표시되고, 상기 제2 주제가 상기 제2 영역의 내부 또는 상기 제2 영역의 주변부에 표시된 상기 워드 클라우드를 제공하는 단계인 것을 특징으로 하는, 방법.
  5. 제 1 항에 있어서,
    상기 제1 그룹 키워드는 상기 제1 주제와 연관된 출현 빈도가 지정된 값보다 큰 키워드를 포함하고, 상기 제2 그룹 키워드는 상기 제2 주제와 연관된 출현 빈도가 지정된 값보다 큰 키워드를 포함하고, 상기 제3 그룹 키워드는 상기 제1 주제 및 상기 제2 주제 양자와 연관된 출현 빈도가 지정된 값보다 큰 키워드를 포함하는 것을 특징으로 하는, 방법.
  6. 제 1 항에 있어서,
    상기 워드 클라우드는 제1 도형 및 상기 제1 도형과 부분적으로 오버랩된 제2 도형을 포함하는 다이어그램으로 구성되고,
    상기 제3 영역은 상기 제1 도형과 상기 제2 도형이 오버랩된 영역이고, 상기 제1 영역은 상기 제1 도형 중 상기 오버랩된 영역을 제외한 영역이고, 상기 제2 영역은 상기 제2 도형 중 상기 오버랩된 영역을 제외한 영역인 것을 특징으로 하는, 방법.
  7. 제 1 항에 있어서,
    상기 복수의 키워드 중 제1 기간과 연관된 키워드를 포함하는 제1 워드 클라우드 및 상기 복수의 키워드 중 제2 기간과 연관된 키워드를 포함하는 제2 워드 클라우드를 제공하는 단계를 더 포함하는 것을 특징으로 하는, 방법.
  8. 제 7 항에 있어서,
    상기 제1 기간은 상기 제1 워드 클라우드의 내부 또는 상기 제1 워드 클라우드의 주변부에 표시되고, 상기 제2 기간은 상기 제2 워드 클라우드의 내부 또는 상기 제2 워드 클라우드의 주변부에 표시되는 것을 특징으로 하는, 방법.
  9. 삭제
  10. 워드 클라우드의 시각화를 위한 장치에 있어서,
    외부와 통신하도록 구성된 통신 회로; 및
    상기 통신 회로와 전기적으로 연결된 프로세서를 포함하고,
    상기 프로세서는,
    상기 통신 회로를 이용하여 복수의 웹 페이지로부터 수집된 텍스트로부터 추출된 복수의 키워드를 획득하고, - 상기 텍스트는 제1 주제 또는 제2 주제 중 적어도 하나와 연관됨 -
    상기 복수의 키워드를 포함하고, 제1 영역, 제2 영역 및 상기 제1 영역과 상기 제2 영역 사이에 개재된 제3 영역을 포함하는 워드 클라우드를 제공하고,
    상기 복수의 키워드를 분석하여 상기 복수의 키워드를 카테고리별로 분류하고,
    상기 워드 클라우드에서 상기 복수의 키워드 중 특정 키워드에 대한 사용자의 입력이 수신되면, 상기 특정 키워드를 포함하는 카테고리의 키워드들의 시간의 흐름에 따른 출현 빈도의 변화를 나타내는 그래프를 제공하도록 설정되고,
    상기 제1 영역은 상기 복수의 키워드 중 상기 제1 주제와 연관된 제1 그룹 키워드를 포함하고, 상기 제2 영역은 상기 복수의 키워드 중 상기 제2 주제와 연관된 제2 그룹 키워드를 포함하고, 상기 제3 영역은 상기 복수의 키워드 중 상기 제1 주제 및 상기 제2 주제 양자와 연관된 제3 그룹 키워드를 포함하고,
    제1 사전의 출현 빈도 및 제2 사전의 출현 빈도는 상대 빈도로 변환되고, - 상기 제1 사전은 상기 제1 주제와 연관된 키워드와 상기 제1 주제와 연관된 키워드의 출현 빈도 순서쌍의 집합이고, 상기 제2 사전은 상기 제2 주제와 연관된 키워드와 상기 제2 주제와 연관된 단어의 출현 빈도 순서쌍의 집합임 -
    상기 제3 그룹 키워드의 상대 빈도는 상기 제1 사전에 나타난 상대 빈도와 상기 제2 사전에 나타난 상대 빈도 중 작은 값으로 설정되고,
    상기 복수의 키워드는 상기 제1 사전에 나타난 상대 빈도, 상기 제2 사전에 나타난 상대 빈도 및 상기 제3 그룹 키워드의 상대 빈도에 비례하는 크기로 상기 워드 클라우드에 표시되는 것을 특징으로 하는, 장치.
KR1020190110208A 2019-09-05 2019-09-05 워드 클라우드의 시각화를 위한 장치 및 방법 KR102239225B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190110208A KR102239225B1 (ko) 2019-09-05 2019-09-05 워드 클라우드의 시각화를 위한 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190110208A KR102239225B1 (ko) 2019-09-05 2019-09-05 워드 클라우드의 시각화를 위한 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20210028981A KR20210028981A (ko) 2021-03-15
KR102239225B1 true KR102239225B1 (ko) 2021-04-12

Family

ID=75134707

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190110208A KR102239225B1 (ko) 2019-09-05 2019-09-05 워드 클라우드의 시각화를 위한 장치 및 방법

Country Status (1)

Country Link
KR (1) KR102239225B1 (ko)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7788592B2 (en) * 2005-01-12 2010-08-31 Microsoft Corporation Architecture and engine for time line based visualization of data
KR102023491B1 (ko) * 2017-10-30 2019-11-04 한림대학교 산학협력단 텍스트 데이터의 연관 규칙 분석을 위한 텍스트 데이터 수집 및 분석 방법 및 장치

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Steffen Lohmann et al., ConcentriCloud: Word Cloud Visualization for Multiple Text Documents, 2015 19th International Conference on Information Visualisation. 2015.07.22, 114-120pages. 1부.*
김재영 외 1인, Wordle을 이용한 뉴스 토픽 시각화, 한국HCI학회 학술대회, 2018.1, 32-35pages. 1부.*
박예슬 외 1인, 벤 다이어그램 기반 퍼지 집합 시각화, 한국HCI학회 학술대회, 2009.2, 15-20pages. 1부.*

Also Published As

Publication number Publication date
KR20210028981A (ko) 2021-03-15

Similar Documents

Publication Publication Date Title
Gu et al. " what parts of your apps are loved by users?"(T)
US10019421B2 (en) Flexible analytics-driven webpage design and optimization
WO2016085409A1 (en) A method and system for sentiment classification and emotion classification
US20130117677A1 (en) Methods and systems for displaying web pages based on a user-specific browser history analysis
US10141006B1 (en) Artificial intelligence system for improving accessibility of digitized speech
US9619209B1 (en) Dynamic source code generation
US20170220327A1 (en) Dynamic source code generation
US20200097881A1 (en) Data distillery for signal detection
US20170185964A1 (en) Methods and systems for matching candidates and job positions bi-directionally using cognitive computing
Story et al. Which apps have privacy policies? an analysis of over one million google play store apps
KR102023516B1 (ko) 사용자 반응 데이터 분석 방법 및 장치
US20160132809A1 (en) Identifying and amalgamating conditional actions in business processes
JP6289989B2 (ja) 商品に対するユーザの感情分析装置及びプログラム
KR20160091756A (ko) 키워드 검색을 통한 웹 페이지의 상대적 품질 지수 평가 장치
US10503743B2 (en) Integrating search with application analysis
KR102308062B1 (ko) 창업을 위한 정보를 제공하기 위한 전자 장치 및 그 동작 방법
US20160162930A1 (en) Associating Social Comments with Individual Assets Used in a Campaign
KR101850853B1 (ko) 빅데이터를 이용한 검색 방법 및 장치
KR102239225B1 (ko) 워드 클라우드의 시각화를 위한 장치 및 방법
KR20160077446A (ko) 시맨틱 엔티티 토픽 추출 방법
JP2016162357A (ja) 商品に対するユーザの感情分析装置及びプログラム
US10380615B2 (en) Product design based on user reviews
Kim et al. Analysis of dynamic changes in customer sentiment on product features after the outbreak of covid-19 based on online reviews
KR102225128B1 (ko) 감성 측정을 이용한 키워드의 분석 장치 및 방법
KR102250804B1 (ko) 빅데이터를 이용한 품질 요인의 분석을 위한 장치 및 방법

Legal Events

Date Code Title Description
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant