KR102476208B1 - 한국어 명사 추출 토크나이저 기반의 워드클라우드 시스템 - Google Patents

한국어 명사 추출 토크나이저 기반의 워드클라우드 시스템 Download PDF

Info

Publication number
KR102476208B1
KR102476208B1 KR1020210016816A KR20210016816A KR102476208B1 KR 102476208 B1 KR102476208 B1 KR 102476208B1 KR 1020210016816 A KR1020210016816 A KR 1020210016816A KR 20210016816 A KR20210016816 A KR 20210016816A KR 102476208 B1 KR102476208 B1 KR 102476208B1
Authority
KR
South Korea
Prior art keywords
text
word cloud
user
noun
word
Prior art date
Application number
KR1020210016816A
Other languages
English (en)
Other versions
KR20220113075A (ko
Inventor
박유경
Original Assignee
굿모니터링 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 굿모니터링 주식회사 filed Critical 굿모니터링 주식회사
Priority to KR1020210016816A priority Critical patent/KR102476208B1/ko
Publication of KR20220113075A publication Critical patent/KR20220113075A/ko
Application granted granted Critical
Publication of KR102476208B1 publication Critical patent/KR102476208B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/263Language identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Transfer Between Computers (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 워드클라우드 시스템에 관한 것으로 보다 구체적으로는 사용자가 입력한 문장 또는 문서로부터 키워드들을 검출하고 검출된 키워드의 빈도수에 따라 시각화여 나타내는 한국어 명사 추출 토크나이저 기반의 워드클라우드 시스템에 관한 것이다. 본 발명의 일양태에 따르면 텍스트를 입력하기 위한 사용자 단말; 입력된 텍스트에 대해 워드클라우드 서비스를 제공하는 워드클라우드 서버를 포함하는 한국어 명사 추출 토크나이저 기반의 워드클라우드 시스템이 제공된다. 워드클라우드 시스템에 있어서, 워드클라우드 서버는, 사용자로부터 텍스트를 입력받는 동작; 사용자 단말을 통해 입력된 텍스트에 대해 텍스트 전처리를 수행하는 동작; 텍스트 전처리된 문서에 대해 사용자가 노이즈로서 지정한 명사를 필터링하여 텍스트 내 명사의 빈도수를 계산하는 동작; 명사의 빈도수에 기반하여 미리지정된 형태를 갖도록 워드클라우드를 시각화하는 동작;을 수행하도록 구성된다.

Description

한국어 명사 추출 토크나이저 기반의 워드클라우드 시스템{WORD CLOUD SYSTEM BASED ON KOREAN NOUN EXTRACTION TOKENIZER}
본 발명은 워드클라우드 시스템에 관한 것으로 보다 구체적으로는 사용자가 입력한 문장 또는 문서로부터 키워드들을 검출하고 검출된 키워드의 빈도수에 따라 시각화하여 나타내는 한국어 명사 추출 토크나이저 기반의 워드클라우드 시스템에 관한 것이다.
인터넷을 통한 정보 검색 시 사용자가 방대한 양의 텍스트 기반 문서들(예컨대, 강의 자료, 논문 등) 중 짧은 시간에 어떠한 문서를 읽을지 결정하기 어려운 문제가 있다.
문서의 키워드나 제목 등 메타 정보로 대략적인 주제는 알 수 있지만, 이 또한 사람의 노력이 필요로 하고 실제로 본문에서 어떠한 내용들이 다루어져 있는지 알기는 어렵다. 텍스트 기반 문서들에 대한 시각적 인지 능력이 부재인 현재, 특히 모바일 환경에서 작은 화면으로 본문의 텍스트를 예측하기란 다소 어려운 일일 수밖에 없다.
최근 인터넷 정보 검색 모델에서는 인터넷을 통한 정보 검색에 문서 자동 요약 개념을 부가하고 있다. 예를 들어, 사용자가 정보를 검색하면 해당 문서의 범주를 제시하거나, 문서의 일부분을 추출하거나 혹은 기술문(Description)에 지정된 부분을 제시하거나, 해당 검색어가 포함되어 있는 문장을 조합하여 제시하거나, 해당문서의 텍스트만을 추출하여 제시하는 미리 보기 기능을 제시하는 형태를 취하고 있지만 이러한 방법은 문장 또는 문서의 내용을 효과적으로 보여주는데 제한이 있다.
또한 보고서, 논문, 메일, 뉴스, 게시글, 댓글 등의 비정형 데이터는 매일 생산되고 있지만 분류되거나 분석되지 않고 사장되고 있으며, 정형 또는 비정형 데이터로부터 의미있는 내용과 가치있는 정보를 발굴할 필요성이 있다.
본 발명은 전술한 문제점에 기반하여 안출된 발명으로 한국어에 적합한 토크나이저를 이용하여 입력된 텍스트들에서 문서의 키워드를 직관적으로 시각화하여 표시해줄 수 있는 한국어 명사 추출 토크나이저 기반의 워드클라우드 시스템을 제공하는 것을 목적으로 한다.
전술한 과제를 해결하기 위해 본 발명의 일양태에 따르면 텍스트를 입력하기 위한 사용자 단말; 입력된 텍스트에 대해 워드클라우드 서비스를 제공하는 워드클라우드 서버를 포함하는 한국어 명사 추출 토크나이저 기반의 워드클라우드 시스템이 제공된다. 이 워드클라우드 시스템에 있어서, 워드클라우드 서버는, 사용자로부터 텍스트를 입력받는 동작; 사용자 단말을 통해 입력된 텍스트에 대해 텍스트 전처리를 수행하는 동작; 텍스트 전처리된 문서에 대해 사용자가 노이즈로서 지정한 명사를 필터링하여 텍스트 내 명사의 빈도수를 계산하는 동작; 명사의 빈도수에 기반하여 미리지정된 형태를 갖도록 워드클라우드를 시각화하는 동작;을 수행하도록 구성된다.
전술한 양태에서 사용자로부터 제공되는 텍스트는, 사용자의 단말로부터 입력되는 텍스트, 사용자가 업로드한 텍스트 문서, 사용자가 입력한 URL 주소에 포함된 텍스트 중 어느 하나일 수도 있다.
또한 전술한 양태에서 사용자가 입력한 텍스트를 전처리하는 동작은 문자열 처리 동작을 포함하고, 문자열 처리 동작은, 텍스트 중 특수 문자를 제거하는 동작; 줄 바꿈 문자를 공백으로 대체하는 동작; 영어를 제외한 외국 문자를 제거하는 동작을 포함한다.
또한 전술한 양태에서 사용자가 입력한 텍스트를 전처리하는 동작은 문자열 처리 동작 이후, 자동 띄어쓰기 처리 동작을 포함한다.
또한 전술한 양태에서 사용자가 입력한 텍스트를 전처리하는 동작은 WPM(Word Piece Model) 처리를 포함하고, WPM 처리는 명사와 조사를 분리키시고 조사를 제거하여 명사만을 유지하도록 동작한다.
또한 전술한 양태에서 워드클라우드를 시각화하는 동작는 명사의 빈도수에 따라 각 명사의 크기를 상이하게 표시시키거나, 워드클라우드를 시각화하는 동작는 명사의 빈도수에 따라 각 명사의 컬러를 상이하게 표시시킬 수도 있다.
본 발명에 따르면 한국어에 적합한 토크나이저를 이용하여 입력된 텍스트들에서 문서의 키워드를 직관적으로 시각화하여 표시해줄 수 있는 한국어 명사 추출 토크나이저 기반의 워드클라우드 시스템을 제공할 수 있다.
도 1은 본 발명에 따른 한국어 명사 추출 토크나이저 기반의 워드클라우드 시스템의 일례를 나타내는 도면;
도 2는 본 발명에 따른 워드클라우드 시스템에서 사용자 단말과 워드클라우드 서버의 구조를 개략적으로 도시한 도면;
도 3은 워드클라우드 서버에서 제공하는 워드클라우드 서비스의 인터페이스 화면의 일례를 나타낸 도면;
도 4는 워드클라우드 서버에서 제공하는 워드클라우드 제공 형태의 일례를 나타낸 도면;
도 5는 워드클라우드 서버에서 제공하는 워드클라우드 출력 화면의 일례를 나타낸 도면;
도 6은 워드클라우드 서버에서의 워드클라우드 처리 흐름을 나타내는 도면;
도 7은 텍스트 전처리 중 WPM 어휘 사전 생성 알고리즘을 나타내는 흐름도이다.
본 명세서에 개시되어 있는 본 발명의 개념에 따른 실시예들에 대해서 특정한 구조적 또는 기능적 설명들은 단지 본 발명의 개념에 따른 실시예들을 설명하기 위한 목적으로 예시된 것으로서, 본 발명의 개념에 따른 실시예들은 다양한 형태로 실시될 수 있으며 본 명세서에 설명된 실시예들에 한정되지 않는다.
본 발명의 개념에 따른 실시예들은 다양한 변경들을 가할 수 있고 여러 가지 형태들을 가질 수 있으므로 실시예들을 도면에 예시하고 본 명세서에 상세하게 설명하고자 한다. 그러나, 이는 본 발명의 개념에 따른 실시예들을 특정한 개시형태들에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 변경, 균등물, 또는 대체물을 포함한다.
제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만, 예를 들어 본 발명의 개념에 따른 권리 범위로부터 이탈되지 않은 채, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성요소들 간의 관계를 설명하는 표현들, 예를 들어 "~사이에"와 "바로~사이에" 또는 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.
본 명세서에서 사용한 용어는 단지 특정한 실시예들을 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 실시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 그러나, 특허출원의 범위가 이러한 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타내는 것으로 이해될 수 있다.
도 1은 본 발명에 따른 한국어 명사 추출 토크나이저 기반의 워드클라우드 시스템(이하 '워드클라우드 시스템'이라고 함)의 일례를 도시한 도면이다. 도 1에 도시된 바와 같이 본 발명에 따른 워드클라우드 시스템은 워드클라우드 서버(100); 및 워드클라우드 서버(100)에 접속하여 워드클라우딩 서비스를 제공받는 사용자 단말(3000)을 포함하고, 워드클라우드 서버(100)와 사용자 단말(3000)은 통신망(30)을 통해 서로 연결된다.
통신망(300)은 사용자 단말(200)과, 워드클라우드 서버(100) 간의 정보 송수신을 위한 통로를 제공하는 역할을 한다. 즉, 통신망(300)은 사용자 단말이 워드클라우드 서버(100)에 접속하여 데이터의 송수신이 이루어질 수 있도록 기능하는 데이터망에 해당한다.
예를 들어, 이와 같은 기능을 수행하는 통신망(300)은 인터넷 프로토콜(IP, Internet Protocol)을 통하여 대용량 데이터의 송수신 서비스 및 끊기는 현상이 없는 데이터 서비스를 제공하는 아이피망으로, 아이피를 기반으로 서로 다른 망을 통합한 아이피망 구조인 올 아이피(All IP)망 일 수 있다. 또한, 통신망(300)은 유선통신망, 이동통신망, Wibro(Wireless Broadband)망, HSDPA(High Speed Downlink Packet Access)망, 위성통신망 및 와이파이(WI-FI, Wireless Fidelity)망 중 하나일 수 있으며, 사용자 단말(200)과 워드클라우드 서버(100) 사이에 데이터 통신을 제공할 수 있다면 어떠한 통신망이라도 이용될 수 있다.
사용자 단말(200)은 프로세서(210), 통신수단(213), 입출력수단(230), 디스플레이(240)을 포함하고, 도시하지는 않았지만, 메모리와 같은 저장수단, 및 데이터 버스를 더 포함할 수 있다. 데이터 버스는 전술한 구성요소들(210~240)을 서로 연결하고, 구성요소들 간의 통신(예컨대, 제어 메시지 또는 데이터)을 가능하게 한다.
프로세서(210)는 중앙처리장치, 어플리케이션 프로세서, 또는 커뮤니케이션 프로세서(communication processor(CP)) 중 적어도 하나를 포함할 수 있다. 프로세서는 예컨대 사용자 단말(200)의 적어도 하나의 다른 구성요소들의 제어 및/또는 통신에 관한 연산이나 데이터 처리를 실행할 수 있다.
또한 프로세서(210)는 디스플레이(240)를 통해 표시되는 화면 데이터를 생성할 수 있다. 또한 프로세서(210)는 입력 수단을 통해 입력된 텍스트를 워드클라우드 서버(100)와 같은 다른 장치로부터 송신하거나 워드클라우드 서버(100)로부터의 데이터를 수신하도록 통신 수단(220)을 제어할 수도 있다.
프로세서(210)는 예컨대 SoC(system on chip)로 구현될 수 있다. 일 실시예에 따르면, 프로세서(210)는 GPU(graphic processing unit) 및/또는 이미지 신호 프로세서를 더 포함할 수 있다. 프로세서(210)는 구성요소들 중 적어도 일부(예컨대, 셀룰러 모듈)를 포함할 수도 있다. 프로세서(210)는 다른 구성요소들(예컨대, 비휘발성 메모리) 중 적어도 하나로부터 수신된 명령 또는 데이터를 휘발성 메모리에 로드)하여 처리하고, 결과 데이터를 비휘발성 메모리에 저장할 수 있다.
입출력수단(230)는 입출력 인터페이스를 포함하고, 이는 사용자 또는 다른 외부 기기로부터 입력된 명령 또는 데이터를 사용자 단말(200)의 다른 구성요소(들)에 전달하거나, 사용자 단말(200)의 다른 구성요소(들)로부터 수신된 명령 또는 데이터를 사용자또는 다른 외부 기기로 출력할 수 있다. 입력 장치는 예컨대 터치 패널, 펜 센서, 키, 또는 초음파 입력 장치 중 적어도 하나를 포함한다.
디스플레이(240)는 사용자에게 각종 컨텐츠(예컨대, 텍스트, 이미지, 비디오, 아이콘, 및/또는 심볼 등) 및/또 는 각종 정보(예컨대, 멀티미디어 데이터 또는 텍스트 데이터 등)을 표시할 수 있다. 디스플레이(240)는 액정디스플레이(LCD), 유기 발광 다이오드(OLED) 디스플레이, 발광 다이오드(LED) 디스플레이, 마이크로 전자기계시스템(MEMS) 디스플레이, 또는 전자종이(electronic paper) 디스플레이를 포함할 수 있다. 디스플레이(240)는 디스플레이 드라이버 집적회로의 제어 하에 화면 데이터를 표시할 수 있다.
통신수단(220)는 무선 통신을 통해서 네트워크에 연결되어 외부 장치(예컨대, 워드클라우드 서버(100))와 통신할 수 있다. 무선 통신은 예컨대 LTE, LTE-A(LTE Advance), CDMA(code division multiple access), WCDMA(wideband CDMA), UMTS(universal mobile telecommunications system), WiBro(Wireless Broadband), 또는 GSM(Global System for Mobile Communications) 등 중 적어도 하나를 사용하는 셀룰러 통신을 포함할 수 있으며, 또한 무선 통신은 WiFi(wireless fidelity), 블루투스, 블루투스 저전력(BLE), 지그비(Zigbee), NFC(near field communication), 또는 라디오 프리퀀시(RF) 중 적어도 하나를 더 포함할 수도 있다.
워드클라우드 서버(100)는 워드클라우드 서비스를 제어하기 위한 프로세서(110), 사용자 단말(200)과 통신을 위한 통신 수단(120) 및 사용자 정보 등이 저장되는 데이터베이스(130)를 포함한다.
이와 같은 시스템에서 사용자는 사용자 단말(200)을 이용하여 워드클라우드 서버(100)의 웹페이지에 접속하고 접속된 웹페이지에서 텍스트를 입력하거나, 문서 파일 또는 텍스트를 포함하고 잇는 URL 주소 등을 입력함으로써 워드클라우딩 서비스를 제공받을 수 있다.
도 3은 본 발명에 따른 워드클라드 서비스를 제공하는 웹페이지의 일례를 나타낸 도면이다. 도 3에 도시된 바와 같이 사용자는 워드클라우드 서버(100)에 접속하여 로그인이 허용되면 워드클라드 서비스를 제공받을 수 있도록 구성된다.
사용자는 "한글데이터"에 텍스트를 입력하고 필요한 경우 제외할 단어를 입력한후 출력 모양을 지정한다.
본 발명에서 출력되는 모양은 도 4에 도시된 바와 같이 대한민국의 전체 지도를 기본으로 하고 있으며, 서울, 인천, 부산, 대전, 대구, 광주, 세종, 울산, 경기도, 강원도, 제주도, 경남, 경북, 전남, 전북, 충남, 충북과 같은 지역 지도를 포함하도록 구성되어, 동일 주제에 대해 전국적으로 또는 지역적으로 어떤 키워드가 주로 표출되고 있는지를 보여줄 수 있다.
도 5는 사용자가 텍스트를 입력한 경우 분석한 결과의 예시를 나타내는 도면이다. 도 5에 도시된 바와 같이 워드클라우드 서버(10)는 사용자 화면의 일측에 시각화된 키워드 이미지와 함께 키워드의 빈도수 및 제외 키워드의 빈도수를 동시에 나타냄으로써 사용자에게 제공된 결과가 사용자의 의도에 적합한 것인지 알 수 있게 도와 준다.
워드클라우드 서버(10)는 입력되는 한글 또는 영문 텍스트에 대한 워드클라우드 서비스를 수행하기 도 6에 도시한 바와 같은 단계, 즉 텍스트 수신 단계(S100), 텍스트 전처리 단계(S110), 노이즈 필터링 단계(S120), 명사 빈도수 계산 단계(S130), 및 시각화 단계(S140)을 포함한다.
S100에서 텍스트 수신 단계는 사용자의 단말로부터 웹페이지를 통해 입력되는 텍스트를 수신하거나, 사용자 업로드에 의해 텍스트 문서를 수신하거나, 사용자 입력 URL을 수신하거나, 사용자에 의해 제외될 불용어를 수신하는 것을 포함한다.
이어서 워드클라우드 서버(10)는 사용자에 의해 입력된 텍스트를 수신한후 입력된 텍스트에 대한 전처리를 수행한다.
텍스트의 경우 사람이 인지할 수 있는 국문, 영문, 숫자 등 자연 형태의 언어로 구성되어 있다. 기계 학습에 기반한 워드클라우드 서비스를 제공하기 위하여 컴퓨터가 이해할 수 있는 형태로 표현해야 하는데, 이에 따른 제반 기술을 자연어처리(Natural Language Processing, NLP)라 한다.
자연어는 컴퓨터 프로그램 언어와 같은 인공 언어와 구별된다. 인공 언어는 인간이 규칙을 정해 컴퓨터가 이해할 수 있도록 만들어진 언어이기 때문에, 누구나 그 규칙을 배우면 이해할 수 있게 되지만 자연어는 인간이 규칙을 정하긴 했지만, 오랜 시간이 흐르면서 관습적 규칙, 비형식적 규칙 등 다양한 변화가 가미됨으로 인해 규칙만으로 이해될 수 없는 특성이 있다. 자연어 처리 과정은 형태소 분석, 통사 분석, 의미 분석, 화용 분석의 4개단계로 구분할 수 있으며, 각 단계는 특정이론을 통해 명확한 이론이 확립된 단계가 아니라 지속해서 이론이 제시되고 검증되는 발전단계에 있다.
- 문자열의 처리
Figure 112021015240425-pat00001
- 자동 띄어쓰기 처리
텍스트 분석에서 가장 기초적인 작업은 텍스트로부터 단어를 식별하고 추출하는 토큰화(Tokenization)라고 할 수 있다. 한국어는 '어절(語節)'로 토큰의 단위 기준으로 보고, 중국어나 일본어와 같이 어절 경계 표지가 없는 언어와는 달리, 어절과 어절 사이에 공백을 두어 띄어쓰기를 하도록 규정하였다. 한국어에 있어서 잘못된 띄어쓰기는 중의성(ambiguity)을 유발시키거나 텍스트분석에서 잡음(noise)을 일으켜 오히려 토큰화를 방해하며, 가독성을 떨어뜨린다. 이와 같이 한국어에서 띄어쓰기는 텍스트에 대한 사용자 가독성만큼 이나 기계 가독성에도 영향을 주는 중요한 요소이다. 문장 내의 띄어쓰기 오류는 많은 문법적, 의미적 모호성을 일으키며, 때로는 형태소 분석을 불가능하게 만들기도 한다.
본 발명에서는 사용자가 띄어쓰기를 고려하지 않고 텍스트를 입력하는 경우도 있는 것으로 가정하고, 자동 띄어쓰기를 적용하여 전처리를 수행한다. 아래의 표 1은 비격식 문서를 나타내고 표 2는 비격식 문서에 자동 띄어쓰기를 적용한 예를 나타낸다.
[표 1]비격식 문서의 예
Figure 112021015240425-pat00002
[표 2]비격식 문서에 자동 띄어쓰기를 적용한 예
Figure 112021015240425-pat00003
- WPM(Word Piece Model) 처리
WPM은 음성 검색 시스템 구축을 위한 방법으로 언어에 대한 사전 지식 없이 혼잡도(perplexity)를 최소로 하여 어휘를 자동 생성하는 방법이다. 기존의 자연어 처리에서는 형태소 분석, 통사 분석, 의미 분석, 화용 분석 등 4가지로 진행되나, WPM은 국제 발음기호(the International Phonetic Alphabet, PA)기반의 발음 세트(Set)로 유닛을 코드화 시킨 후, 통계적 기법을 활용하여 사용 빈도수에 따라 조합을 하여 새로운 유닛을 생성한다. WPM 어휘 사전 생성 알고리즘은 도 7과 같은 과정으로 이루어져 있다.
WPM의 장점은 언어에 독립적이며, 통계적인 방식을 사용하므로 특정 도메인 또는 아직 의미가 파악되지 않는 언어에도 적용할 수 있다. 본 발명에서는 위의 표 2와 같이 자동 띄어쓰기를 적용한 문서에 도 7에서와 같이 WPM 알고리즘을 적용하여 명사와 조사를 분리키시고 조사를 제거하여 명사만을 추출하게 된다.
명사와 명사가 연속적으로 출현된 경우에는 합성 명사로서 사용가능한지 여부를 데이터베이스에 저장된 데이터세으로부터 검색하고 매칭되는 결과가 발견될 때는 합성명사로서 간주하도록 처린된다.
단계 S110에서 텍스트에 대한 전처리가 수행되고 난 후 워드클라우드 서버(10)는 전처리된 텍스트에 대해 노이즈 필터링을 수행하게 된다. 여기서 노이즈 필터링이라 사용자가 입력한 불용어들에 대해 제외하는 처리를 의미한다.
이어진 단계 S130에서 워드클라우드 서버(10)는 텍스트에 포함된 각각의 명사에 대한 빈도수를 계산한다.
추출된 명사들에 대한 빈도수가 결정되고 난 후 이어진 시각화 단계에서는 명사들의 빈도수를 기반으로 하여 각 명사들이 벡터 형태로 변환하여 이를 시각화한다.
예컨대, 사과 3번 출현, 바나나 2번 출현, 과일 1번 출현한 경우 {모델:3, 분류:2, 문서:1}과 같이 각 단어의 빈도수를 나타내는 벡터 값으로 변환될 수 있다. 이어서, 워드클라우드 서버(10)는 각 단어의 크기에 따라 로그 스케일링 하여 표시함으로써 워드클라우드(302)를 생성할 수 있다.
예컨대, 각 단어의 빈도수를 나타내는 벡터 값이 {모델:17; 분류:9, 문서: 3}이고, 로그 스케일링 수치가 2인 것(=LOG(2))으로 가정하면, 각 단어의 크기를 [사과:4, 바나나:3, 과일: 1]와 같이 스케일링 할 수 있다. 그리고, 워드클라우드 서버(10)는 문서에 등장하는 단어들에 대하여 스케일링된 수치가 높을수록 클라우드의 가운데에 배치하도록 구성될 수 있다. 이때, 각 단어가 배치되는 각도는 랜덤으로 배치되거나 미리 정해진 일정 범위 내에서 결정될 수 있다.
또한, 워드클라우드 서버(10)는 워드클라우드에 스케일링 된 수치에 따라 각 단어의 글자 색을 결정하여 적용할수 있다. 예컨대, 스케일링 된 수치가 가장 큰 단어의 경우 빨간색, 그 다음 주황색, 갈색, 초록색, 파란색 등의 순서로 각 단어의 크기에 따라 글자 색을 다르게 적용할 수 있다.
전술한 바와 같이, 본 실시예에서는 워드클라우드를 생성함에 있어 문서에 등장하는 빈도수에 따라 각 단어의 크기를 결정할 수 있으며, 더 나아가 각 단어의 배열 위치 및 글자 색 중 적어도 하나를 결정할 수 있다.
또한 시각화 단계에서는 도 3에서 사용자가 선택한 테이터 출력 모양을 적용하여 전술한 바와 같이 각 단어들을 출력 모양 내에 배열하고 종료하게 된다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.
100: 워드클라우드 서버 200: 사용자 단말
300: 통신망 110: 서버 프로세서
120: 통신 수단 130: 데이터베이스
210: 사용자 단말 프로세서 220: 통신 수단
230: 입출려 수단 240: 디스플레이
250: 웹브라우저

Claims (7)

  1. 텍스트를 입력하기 위한 사용자 단말; 입력된 텍스트에 대해 워드클라우드 서비스를 제공하는 워드클라우드 서버를 포함하는 한국어 명사 추출 토크나이저 기반의 워드클라우드 시스템에 있어서,
    상기 워드클라우드 서버는,
    사용자로부터 텍스트를 입력받는 동작;
    사용자 단말을 통해 입력된 텍스트에 대해 텍스트 전처리를 수행하는 동작;
    텍스트 전처리된 문서에 대해 사용자가 노이즈로서 지정한 명사를 필터링하여 텍스트 내 명사의 빈도수를 계산하는 동작;
    명사의 빈도수에 기반하여 미리지정된 형태를 갖도록 워드클라우드를 시각화하는 동작;을 수행하도록 구성되고,
    사용자로부터 제공되는 텍스트는, 사용자의 단말로부터 입력되는 텍스트, 사용자가 업로드한 텍스트 문서, 사용자가 입력한 URL 주소에 포함된 텍스트 중 어느 하나에서 선택가능하고,
    사용자가 입력한 텍스트를 전처리하는 동작은 문자열 처리 동작을 포함하고, 문자열 처리 동작은, 텍스트 중 특수 문자를 제거하는 동작; 줄 바꿈 문자를 공백으로 대체하는 동작; 영어를 제외한 외국 문자를 제거하는 동작을 포함하고,
    사용자가 입력한 텍스트를 전처리하는 동작은 문자열 처리 동작 이후, 자동 띄어쓰기 처리 동작을 포함하고,
    사용자가 입력한 텍스트를 전처리하는 동작은 WPM(Word Piece Model) 처리를 포함하고, WPM 처리는 명사와 조사를 분리키시고 조사를 제거하여 명사만을 유지하도록 동작하고,
    워드클라우드를 시각화하는 동작은 명사의 빈도수에 따라 각 명사의 크기를 상이하게 표시시키고, 명사의 빈도수에 따라 각 명사의 컬러를 상이하게 표시시키고,
    워드클라우드를 시각화하는 동작은 대한민국의 전체 지도를 기본으로 하여, 서울, 인천, 부산, 대전, 대구, 광주, 세종, 울산, 경기도, 강원도, 제주도, 경남, 경북, 전남, 전북, 충남, 충북과 같은 지역 지도를 포함하도록 구성되고, 동일 주제에 대해 전국적으로 또는 지역적으로 키워드를 표출하도록 구성된 것을 특징으로 하는
    한국어 명사 추출 토크나이저 기반의 워드클라우드 시스템.
  2. 삭제
  3. 삭제
  4. 삭제
  5. 삭제
  6. 삭제
  7. 삭제
KR1020210016816A 2021-02-05 2021-02-05 한국어 명사 추출 토크나이저 기반의 워드클라우드 시스템 KR102476208B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210016816A KR102476208B1 (ko) 2021-02-05 2021-02-05 한국어 명사 추출 토크나이저 기반의 워드클라우드 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210016816A KR102476208B1 (ko) 2021-02-05 2021-02-05 한국어 명사 추출 토크나이저 기반의 워드클라우드 시스템

Publications (2)

Publication Number Publication Date
KR20220113075A KR20220113075A (ko) 2022-08-12
KR102476208B1 true KR102476208B1 (ko) 2022-12-12

Family

ID=82803992

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210016816A KR102476208B1 (ko) 2021-02-05 2021-02-05 한국어 명사 추출 토크나이저 기반의 워드클라우드 시스템

Country Status (1)

Country Link
KR (1) KR102476208B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102650634B1 (ko) 2023-11-28 2024-03-22 디지털로그 테크놀로지스 주식회사 워드 클라우드를 이용한 해시태그 추천 방법 및 장치

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101934240B1 (ko) 2018-08-13 2019-04-05 주식회사 아발론교육 키워드를 표시하는 방법 및 그 장치

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101481253B1 (ko) * 2013-03-14 2015-01-13 한국과학기술원 워드 클라우드 기반 텍스트 문서의 이미지화 요약 방법 및 이를 이용한 정보 제공 시스템
KR20170090370A (ko) * 2017-06-05 2017-08-07 숙명여자대학교산학협력단 리뷰 데이터 분석 방법, 이를 이용한 시스템 및 이동 단말기
KR20190093755A (ko) * 2018-01-11 2019-08-12 강병구 빅데이터기반 이미지 텍스트 인식 및 맞춤형 식재료 추천 방법 및 시스템
KR20200040032A (ko) * 2018-10-08 2020-04-17 굿모니터링 주식회사 양방향 lstm―attention 기반 한국어 게시글 분류 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101934240B1 (ko) 2018-08-13 2019-04-05 주식회사 아발론교육 키워드를 표시하는 방법 및 그 장치

Also Published As

Publication number Publication date
KR20220113075A (ko) 2022-08-12

Similar Documents

Publication Publication Date Title
CN113807098B (zh) 模型训练方法和装置、电子设备以及存储介质
CN109657054B (zh) 摘要生成方法、装置、服务器及存储介质
US20180089178A1 (en) Mining multi-lingual data
CN111291195B (zh) 一种数据处理方法、装置、终端及可读存储介质
TWI629601B (zh) 提供翻譯與分類翻譯結果的系統,電腦可讀存儲媒體,檔案分配系統及其方法
CN107818085B (zh) 阅读机器人进行阅读理解的答案选择方法及系统
AU2017408800B2 (en) Method and system of mining information, electronic device and readable storable medium
US9646512B2 (en) System and method for automated teaching of languages based on frequency of syntactic models
JP2006190006A5 (ko)
CN103678684A (zh) 一种基于导航信息检索的中文分词方法
CN104008126A (zh) 一种基于网页内容分类进行分词处理的方法和装置
KR102078627B1 (ko) 사용자-입력 컨텐츠와 연관된 실시간 피드백 정보 제공 방법 및 시스템
Jabbar et al. An improved Urdu stemming algorithm for text mining based on multi-step hybrid approach
US8880391B2 (en) Natural language processing apparatus, natural language processing method, natural language processing program, and computer-readable recording medium storing natural language processing program
CN111858905A (zh) 模型训练方法、信息识别方法、装置、电子设备及存储介质
KR102476208B1 (ko) 한국어 명사 추출 토크나이저 기반의 워드클라우드 시스템
CN111199151A (zh) 数据处理方法、及数据处理装置
US9639524B2 (en) Linguistic based determination of text creation date
CN114417878A (zh) 语义识别方法、装置、电子设备及存储介质
US20210073466A1 (en) Semantic vector rule discovery
CA3110046A1 (en) Machine learning lexical discovery
US20170060832A1 (en) Linguistic based determination of text location origin
CN101425087A (zh) 构建词典的方法和系统
CN114201607A (zh) 一种信息处理的方法和装置
Vo et al. VietSentiLex: A sentiment dictionary that considers the polarity of ambiguous sentiment words

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant