KR102463216B1 - 텍스트 데이터에 대한 주제 별 분류 사전 구축방법 및 이를 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 저장매체 - Google Patents

텍스트 데이터에 대한 주제 별 분류 사전 구축방법 및 이를 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 저장매체 Download PDF

Info

Publication number
KR102463216B1
KR102463216B1 KR1020200161622A KR20200161622A KR102463216B1 KR 102463216 B1 KR102463216 B1 KR 102463216B1 KR 1020200161622 A KR1020200161622 A KR 1020200161622A KR 20200161622 A KR20200161622 A KR 20200161622A KR 102463216 B1 KR102463216 B1 KR 102463216B1
Authority
KR
South Korea
Prior art keywords
text data
subject
classification
word
classification system
Prior art date
Application number
KR1020200161622A
Other languages
English (en)
Other versions
KR20220073498A (ko
Inventor
류승완
Original Assignee
주식회사 알에스엔
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 알에스엔 filed Critical 주식회사 알에스엔
Priority to KR1020200161622A priority Critical patent/KR102463216B1/ko
Publication of KR20220073498A publication Critical patent/KR20220073498A/ko
Priority to KR1020220124944A priority patent/KR102492881B1/ko
Application granted granted Critical
Publication of KR102463216B1 publication Critical patent/KR102463216B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명에 따른 텍스트 데이터에 대한 주제 별 분류 사전 구축방법은, 저장매체에 저장된 텍스트 데이터에 대한 주제 별 분류 사전 구축용 프로그램이 설치된 관리서버를 통해 수행되는 텍스트 데이터에 대한 주제 별 분류 사전 구축방법에 있어서, 온라인 서비스로부터 텍스트 데이터를 추출하는 (a)단계, 상기 (a)단계에 의해 추출된 상기 텍스트 데이터에 포함된 문장을 기 설정된 단어 단위로 분할 및 추출하는 (b)단계, 상기 (b)단계에 의해 분할된 단어를 전처리하는 (c)단계, 상기 (c)단계에 의해 전처리된 단어를 분석하여 상기 텍스트 데이터의 주제명을 도출하는 (d)단계 및 상기 (a)단계 내지 상기 (d)단계의 과정을 초기 분류체계로서 저장하는 (e)단계를 포함한다.

Description

텍스트 데이터에 대한 주제 별 분류 사전 구축방법 및 이를 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 저장매체{Classification Dictionary Building Method Per Subject of Text Data and Storage Medium Recording Program for Executing the Same}
본 발명은 텍스트 데이터에 대한 주제 별 분류 사전 구축방법 및 이를 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 저장매체에 관한 것으로서, 보다 상세하게는 텍스트 데이터의 주제와 연관성이 높은 분류 패턴을 추천하여 사전 구축을 용이하게 할 수 있도록 제공되는 텍스트 데이터에 대한 주제 별 분류 사전 구축방법 및 이를 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 저장매체에 관한 것이다.
최근에는 온라인 상에 존재하는 데이터의 양이 방대해짐에 따라 텍스트로 이루어진 빅데이터를 텍스트 마이닝하여 분류 사전을 구축하는 작업이 중요해지고 있다.
종래에는, 분류 사전을 구축하기 위해 사람이 직접 대용량 텍스트 데이터를 샘플링하여 처음부터 끝까지 읽어 가며 데이터 분류에 해당하는 단어를 일일이 추출하는 방식을 사용하였다.
하지만, 이와 같이 사람이 직접 수작업을 통해 분류 사전을 구축하는 방식은 방대한 양의 데이터를 모두 반영하기 위해 많은 인건비가 발생하는 것은 물론, 작업자의 주관에 따라 전혀 다른 분류 사전이 구축된다는 문제가 있다.
뿐만 아니라, 주제에 맞지 않는 패턴이 분류 사전에 포함될 가능성이 높아 그로 인해 잘못된 분류체계가 만들어지고, 데이터의 분류 정확도가 크게 떨어지는 문제가 존재하게 된다.
더 나아가, 최근 기하급수적으로 증가하고 있는 최신 데이터의 양을 사람이 확인하기에는 명확한 한계가 있어 분류 사전에 최신 트렌드를 반영하기가 어렵다는 문제가 있다.
따라서 이와 같은 문제점들을 해결하기 위한 방법이 요구된다.
한국공개특허 제10-2014-0010930호
본 발명은 상술한 종래 기술의 문제점을 해결하기 위하여 안출된 발명으로서, 텍스트 데이터의 주제와 연관성이 높은 분류 패턴을 추천하여 사전 구축을 용이하게 할 수 있는 텍스트 데이터에 대한 주제 별 분류 사전 구축방법을 제공하기 위한 목적을 가진다.
본 발명의 과제들은 이상에서 언급한 과제들로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
상기한 목적을 달성하기 위한 본 발명의 텍스트 데이터에 대한 주제 별 분류 사전 구축방법은, 저장매체에 저장된 텍스트 데이터에 대한 주제 별 분류 사전 구축용 프로그램이 설치된 관리서버를 통해 수행되는 텍스트 데이터에 대한 주제 별 분류 사전 구축방법에 있어서, 온라인 서비스로부터 텍스트 데이터를 추출하는 (a)단계, 상기 (a)단계에 의해 추출된 상기 텍스트 데이터에 포함된 문장을 기 설정된 단어 단위로 분할 및 추출하는 (b)단계, 상기 (b)단계에 의해 분할된 단어를 전처리하는 (c)단계, 상기 (c)단계에 의해 전처리된 단어를 분석하여 상기 텍스트 데이터의 주제명을 도출하는 (d)단계 및 상기 (a)단계 내지 상기 (d)단계의 과정을 초기 분류체계로서 저장하는 (e)단계를 포함한다.
이때 상기 (b)단계는, 상기 텍스트 데이터에 포함된 문장을 어절 별로 분할하는 (b-1)단계 및 상기 (b-1)단계에 의해 분할된 어절에서 명사군, 동사군 및 형용사군에 해당하는 단어만을 분리하여 추출하는 (b-2)단계를 포함할 수 있다.
그리고 상기 (c)단계는, 상기 (b)단계에 의해 추출된 단어 n개를 조합하여 조합그룹을 구성하는 (c-1)단계, 상기 조합그룹에 포함된 각 단어의 주제 지수를 추출하는 (c-2)단계 및 상기 조합그룹에 포함된 각 단어에 대한 가중치를 부여하는 (c-3)단계 포함할 수 있다.
여기서 상기 (c-3)단계는, 상기 조합그룹이 명사와 형용사를 포함하고 있을 경우, 해당 조합그룹의 명사에 추가적인 가중치를 부여하도록 할 수 있다.
또는 상기 (c-3)단계는, 상기 조합그룹에 포함된 형용사가 기 설정되어 분류된 강조 형용사일 경우, 해당 형용사에 추가적인 가중치를 부여하도록 할 수 있다.
그리고 상기 (d)단계는, 상기 (c)단계에 의해 전처리된 임의의 단어가 상기 텍스트 데이터 내에서 노출되는 횟수를 산출하는 (d-1)단계, 상기 텍스트 데이터를 구성하는 단어들이 상기 (d-1)단계의 임의의 단어와 동일한 주제를 나타내는 비율을 산출하는 (d-2)단계, 상기 (d-1)단계 및 상기 (d-2)단계의 결과값을 곱하여 주제 지수를 산출하는 (d-3)단계 및 상기 (d-3)단계의 주제 지수를 고려하여 상기 텍스트 데이터의 주제명을 도출하는 (d-4)단계를 포함할 수 있다.
한편 본 발명은 상기 초기 분류체계가 저장된 이후 새롭게 수행된 (a)단계 내지 (d)단계에 의해 도출된 신규 분류체계를 반영하여 확장 분류체계로 갱신하는 (f)단계를 더 포함할 수 있다.
그리고 상기 (f)단계는, 상기 초기 분류체계에 포함된 텍스트 데이터의 주제명과 상기 신규 분류체계에 포함된 텍스트 데이터의 주제명의 유사도를 측정하는 (f-1)단계 및 상기 (f-1)단계의 유사도 측정 결과에 따라, 상기 신규 분류체계에 포함된 텍스트 데이터의 주제명을 상기 초기 분류체계에 포함된 텍스트 데이터의 주제명과 합산하거나 분리하여 상기 확장 분류체계를 갱신하는 (f-2)단계를 포함할 수 있다.
이때 상기 (f-1)단계는,
Figure 112020127886750-pat00001
의 수식을 통해 상기 초기 분류체계에 포함된 텍스트 데이터의 주제명과 상기 신규 분류체계에 포함된 텍스트 데이터의 주제명의 유사도를 판단할 수 있다.
또한 상기 (f-2)단계는, 상기 (f-1)단계의 유사도 판단 결과 0.5 이상의 절대값을 가지는 텍스트 데이터의 주제명은 서로 통합하여 저장하고, 0.5 미만의 절대값을 가지는 텍스트 데이터의 주제명은 신규 분류로 인식하여 분리 저장함에 따라 상기 확장 분류체계를 갱신하도록 할 수 있다.
더불어 상기 (f-2)단계는, 상기 (f-1)단계의 유사도 판단 결과 0.5 이상의 절대값을 가지는 텍스트 데이터의 주제명이 복수 개인 경우, 가장 높을 절대값을 가지는 텍스트 데이터의 주제명만을 통합하여 저장할 수 있다.
한편 본 발명의 텍스트 데이터에 대한 주제 별 분류 사전 구축방법은 이를 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 저장매체 형태로 제공될 수 있다.
상기한 과제를 해결하기 위한 본 발명의 텍스트 데이터에 대한 주제 별 분류 사전 구축방법 및 이를 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 저장매체는, 종래 대용량 텍스트 데이터를 사람이 하나씩 확인하여 분류 체계를 구축하는 과정을 기계적으로 자동화하여 비용을 절감하고, 최신 데이터의 신속한 반영, 일관성 있는 분류 기준을 가지는 사전을 구축할 수 있는 장점을 가진다.
특히 종래에는 사람이 하나의 분야에 장기간에 걸쳐 수만건의 데이터를 봐야하기 때문에 다양한 분야의 사전을 구축하지 못하던 문제가 있었으나, 본 발명은 자동화를 통한 분류 사전을 구축할 수 있도록 함으로써 다양한 분야에서 더 높은 정확도를 가진 분류 사전을 구축할 수 있으며, 데이터 분류 생산성 증가에 큰 발전을 이룰 수 있는 장점을 가진다.
본 발명의 효과들은 이상에서 언급한 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 청구범위의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 발명의 일 실시예에 따른 텍스트 데이터에 대한 주제 별 분류 사전 구축방법의 전체 과정을 나타낸 도면;
도 2는 본 발명의 일 실시예에 따른 텍스트 데이터에 대한 주제 별 분류 사전 구축방법에 있어서, (b)단계의 세부 과정을 나타낸 도면;
도 3은 본 발명의 일 실시예에 따른 텍스트 데이터에 대한 주제 별 분류 사전 구축방법에 있어서, (c)단계의 세부 과정을 나타낸 도면;
도 4는 본 발명의 일 실시예에 따른 텍스트 데이터에 대한 주제 별 분류 사전 구축방법에 있어서, (d)단계의 세부 과정을 나타낸 도면; 및
도 5는 본 발명의 일 실시예에 따른 텍스트 데이터에 대한 주제 별 분류 사전 구축방법에 있어서, (f)단계의 세부 과정을 나타낸 도면이다.
이하 본 발명의 목적이 구체적으로 실현될 수 있는 본 발명의 바람직한 실시예를 첨부된 도면을 참조하여 설명한다. 본 실시예를 설명함에 있어서, 동일 구성에 대해서는 동일 명칭 및 동일 부호가 사용되며 이에 따른 부가적인 설명은 생략하기로 한다.
본 발명에 따른 텍스트 데이터에 대한 주제 별 분류 사전 구축방법은 텍스트 데이터에 대한 주제 별 분류 사전 구축용 프로그램이 설치된 저장매체가 구비된 관리서버를 통해 수행되는 것으로서, 관리서버에 설치되어 관리서버의 프로세서에 의해 구동될 수 있다.
또한 이에 의해 구동된 텍스트 데이터에 대한 주제 별 분류 사전 구축용 프로그램은 디스플레이 모듈 등 영상 출력장치를 통해 출력될 수 있으며, 시각화된 그래픽 유저 인터페이스를 통해 사용자에게 가시적인 정보를 제공할 수 있다.
특히 텍스트 데이터에 대한 주제 별 분류 사전 구축용 프로그램이 저장된 저장매체는 이동식 디스크나 통신망을 이용하여 관리서버에 설치될 수 있으며, 텍스트 데이터에 대한 주제 별 분류 사전 구축용 프로그램은 관리서버가 다양한 기능적 수단으로 운용되도록 할 수 있다. 즉 본 발명은 소프트웨어에 의한 정보 처리가 하드웨어를 통해 구체적으로 실현된다.
이하에서는 관리서버를 통해 실행되는 본 발명의 텍스트 데이터에 대한 주제 별 분류 사전 구축방법의 알고리즘에 대해 설명하도록 한다.
도 1은 본 발명의 일 실시예에 따른 텍스트 데이터에 대한 주제 별 분류 사전 구축방법의 전체 과정을 나타낸 도면이다.
도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 텍스트 데이터에 대한 주제 별 분류 사전 구축방법은 온라인 서비스로부터 텍스트 데이터를 추출하는 (a)단계와, (a)단계에 의해 추출된 텍스트 데이터에 포함된 문장을 기 설정된 단어 단위로 분할 및 추출하는 (b)단계와, (b)단계에 의해 분할된 단어를 전처리하는 (c)단계와, (c)단계에 의해 전처리된 단어를 분석하여 텍스트 데이터의 주제명을 도출하는 (d)단계와, (a)단계 내지 (d)단계의 과정을 초기 분류체계로서 저장하는 (e)단계를 포함한다.
(a)단계는 다양한 온라인 서비스로부터 소정의 텍스트 데이터를 추출하는 과정이다.
여기서 온라인 서비스라 함은 웹, SNS 등 통신망을 이용한 다양한 온라인 서비스 매체일 수 있으며, 어느 하나의 온라인 서비스에 제한되지 않는다. 또한 향후 등장할 미래의 온라인 서비스를 포함할 수 있음은 물론이다.
그리고 (b)단계는 (a)단계에 의해 추출된 텍스트 데이터에 포함되어 있는 문장을, 기 설정된 단어 단위로 분할 및 추출하는 과정으로서, 세부적으로 복수 개의 과정을 포함할 수 있다.
도 2는 본 발명의 일 실시예에 따른 텍스트 데이터에 대한 주제 별 분류 사전 구축방법에 있어서, (b)단계의 세부 과정을 나타낸 도면이다.
도 2에 도시된 바와 같이, (b)단계는 세부적으로 텍스트 데이터에 포함된 문장을 어절 별로 분할하는 (b-1)단계와, (b-1)단계에 의해 분할된 어절에서 명사군, 동사군 및 형용사군에 해당하는 단어만을 분리하여 추출하는 (b-2)단계를 포함한다.
(b-1)단계에서는 텍스트 데이터에 포함된 문장에 포함된 어절을 각각 분할 처리하게 된다. 예컨대, 텍스트 데이터에 '좋은 화장품은 피부를 촉촉하게 만든다.'와 같은 문장이 존재할 경우, 이는 '좋은', '화장품은', '피부를', '촉촉하게', '만든다.'의 어절 별로 분할할 수 있다.
그리고 (b-2)단계에서는, 이와 같이 (b-1)단계에 의해 분할된 어절에서 명사군, 동사군 및 형용사군에 해당하는 단어만을 따로 분리하여 추출하도록 하기 위해, ‘대상’을 나타내는 명사, 대명사를 포함하는 명사군과, ‘행동’을 나타내는 동사를 포함하는 동사군, ‘강조’를 나타내는 형용사를 포함하는 형용사군을 제외한 나머지 요소들, 즉 조사, 종결어미, 수사, 관형사, 부사 등의 요소를 제거하게 된다.
이와 같이 하는 이유는, 텍스트 데이터에 포함된 문장이 서술하고 있는 대상들을 명확하게 하여 각 문장의 단어 간 연관관계를 통한 분류, 즉 주제의 정확도를 높이기 위한 것이다.
다음으로, (c)단계는 (b)단계에 의해 분할된 단어를 전처리하는 과정으로서, 세부적으로 복수 개의 과정을 포함할 수 있다.
도 3은 본 발명의 일 실시예에 따른 텍스트 데이터에 대한 주제 별 분류 사전 구축방법에 있어서, (c)단계의 세부 과정을 나타낸 도면이다.
도 3에 도시된 바와 같이, (c)단계는 세부적으로 (b)단계에 의해 추출된 단어 n개를 조합하여 조합그룹을 구성하는 (c-1)단계와, 조합그룹에 포함된 각 단어의 주제 지수를 추출하는 (c-2)단계와, 조합그룹에 포함된 각 단어에 대한 가중치를 부여하는 (c-3)단계를 포함한다.
(c-1)단계에서는, 전술한 (b)단계에 의해 추출된 단어, 즉 명사군, 동사군 및 형용사군에 해당하는 각 단어를 n개 조합하여 조합그룹을 구성하게 된다. 여기서 n은 1이상의 자연수일 수 있으며, 본 실시예의 경우 1개의 단어 내지 3개의 단어를 조합하여 조합그룹을 구성하는 것으로 예시하였다.
이와 같이 본 실시예에서 3개를 초과하여 조합그룹을 구성하지 않는 이유는, 데이터의 양이 많아질 경우 데이터의 주제가 너무 세분화될 수 있기 때문이다.
그리고 본 실시예에 의해 조합될 수 있는 조합그룹은, 이하와 같은 표 1과 같이 구성될 수 있다.
Figure 112020127886750-pat00002
이와 같은 표 1의 구성 기준은 단어의 연관 관계를 잘 표현하기 위한 조합으로서, 각 단어의 조합에 따라 단어의 의미가 텍스트 데이터의 주제를 잘 표현할 수 있는지를 중점으로 구성하였다. 이때 조합그룹은 문장 단위로 이루어 지며, 문장의 기준은 종결어미, 마침표, 줄바꿈을 기준으로 하였다.
한편 머신러닝 알고리즘에서 텍스트로 이루어진 단어를 그대로 사용할 경우 속도가 매우 느리고 컴퓨터 하드웨어 자원의 소모가 매우 극심하기 때문에, 본 실시예에서는 각 단어에 정수 형태로 된 ID를 부여하고, 이를 정수 치환하기 위해 취합하여 임시 단어사전을 만든 뒤, 단어 단위로 나눠 놓은 대용량 데이터를 대용량 데이터 단어 벡터로 정수 치환할 수 있다.
이에 대한 예시는, 이하의 표 2에 나타난 바와 같이 구성될 수 있다.
Figure 112020127886750-pat00003
그리고 (c-2)단계에서는 이상과 같은 조합그룹에 포함된 각 단어의 주제 지수를 추출하게 되며, (c-3)단계에서는 조합그룹에 포함된 각 단어의 주제 지수에 대한 가중치를 부여하게 된다.
여기서 주제 지수에 대한 가중치 부여는 다양한 기준에 의해 이루어질 수 있다.
본 실시예에서는, 조합그룹이 명사와 형용사를 포함하고 있을 경우, 해당 조합그룹의 명사에 추가적인 가중치를 부여하도록 하고, 특히 조합그룹에 포함된 형용사가 기 설정되어 분류된 강조 형용사일 경우, 해당 형용사에 추가적인 가중치를 부여하도록 하는 방법을 적용하였다.
이와 같이 하는 이유는 명사와 함께 형용사를 포함하고 있는 조합그룹은 명사에 대해 강조의 의미가 들어가 있기 때문이며, 또한 명사에 대해 강력한 주제의 의미를 나타내는 형용사는 다른 형용사에 비해 보다 높은 주제의 의미를 나타내기 때문이다.
다음으로, (d)단계에서는 (c)단계에 의해 전처리된 단어를 분석하여 텍스트 데이터의 주제명을 도출하는 과정이 이루어진다. (d)단계 역시 마찬가지로, 세부적으로 복수 개의 과정을 포함할 수 있다.
도 4는 본 발명의 일 실시예에 따른 텍스트 데이터에 대한 주제 별 분류 사전 구축방법에 있어서, (d)단계의 세부 과정을 나타낸 도면이다.
도 4에 도시된 바와 같이, (d)단계는 세부적으로 (c)단계에 의해 전처리된 임의의 단어가 텍스트 데이터 내에서 노출되는 횟수를 산출하는 (d-1)단계와, 텍스트 데이터를 구성하는 단어들이 (d-1)단계의 임의의 단어와 동일한 주제를 나타내는 비율을 산출하는 (d-2)단계와, (d-1)단계 및 (d-2)단계의 결과값을 곱하여 주제 지수를 산출하는 (d-3)단계와, (d-3)단계의 주제 지수를 고려하여 텍스트 데이터의 주제명을 도출하는 (d-4)단계를 포함한다.
(d-1)단계와 같이 전처리된 임의의 단어가 텍스트 데이터 내에서 노출되는 횟수를 산출하는 이유는, 각 텍스트 데이터 별로 자주 언급되는 단어일수록 해당 텍스트 데이터 내에서 중요한 패턴일 확률이 높기 때문이다.
또한 (d-2)단계와 같이 텍스트 데이터를 구성하는 단어들이 선택된 임의의 단어와 동일한 주제를 나타내는 비율을 산출하는 이유는, 텍스트 데이터에서 일관적으로 높은 비율로 나타나는 주제에 해당하는 단어는 해당 텍스트 데이터 내에서 중요한 패턴일 확률이 높기 때문이다.
이에 따라 (d-3)단계에서는 (d-1)단계 및 (d-2)단계의 결과값을 곱하여 주제 지수를 산출하여 높은 순서대로 패턴을 추천하게 되며, (d-4)단계에서는 이와 같은 (d-3)단계의 주제 지수를 고려하여 텍스트 데이터의 주제명을 도출하게 된다.
그리고 이와 같은 (d)단계의 각 과정에서는, 전술한 (c-3)단계에서 부여된 각 단어 별 가중치가 적용될 수 있다.
이상과 같은 과정을 거쳐 텍스트 데이터의 주제명이 도출되며, (e)단계에서는 (a)단계 내지 (d)단계의 과정을 초기 분류체계로서 저장하게 된다.
다만, 초기 분류체계는 신조어나 새롭게 등장하는 주제를 분류하지 못하기 때문에, 항상 새로운 데이터를 수집하고 분류체계를 생성하여 초기 분류체계에 추가시켜 확장을 할 필요가 있다.
따라서 본 발명의 일 실시예에 따른 텍스트 데이터에 대한 주제 별 분류 사전 구축방법은, (e)단계에 의해 초기 분류체계가 저장된 이후, 새롭게 수행된 (a)단계 내지 (d)단계에 의해 도출된 신규 분류체계를 반영하여 확장 분류체계로 갱신하는 (f)단계를 더 포함할 수 있다.
도 5는 본 발명의 일 실시예에 따른 텍스트 데이터에 대한 주제 별 분류 사전 구축방법에 있어서, (f)단계의 세부 과정을 나타낸 도면이다.
도 5에 도시된 바와 같이, (f)단계는 세부적으로 초기 분류체계에 포함된 텍스트 데이터의 주제명과 신규 분류체계에 포함된 텍스트 데이터의 주제명의 유사도를 측정하는 (f-1)단계와, (f-1)단계의 유사도 측정 결과에 따라, 신규 분류체계에 포함된 텍스트 데이터의 주제명을 초기 분류체계에 포함된 텍스트 데이터의 주제명과 합산하거나 분리하여 확장 분류체계를 갱신하는 (f-2)단계를 포함할 수 있다.
(f-1)단계의 경우, 초기 분류체계의 확장을 위해 초기 분류체계에 포함된 텍스트 데이터의 주제명과 신규 분류체계에 포함된 텍스트 데이터의 주제명의 유사도를 측정하는 과정이 이루어진다.
이때 초기 분류체계에 포함된 텍스트 데이터의 주제명과 신규 분류체계에 포함된 텍스트 데이터의 주제명의 유사도 측정 방법은 다양하게 적용될 수 있음은 물론이다.
본 실시예의 경우, 유사도를 판단하기 위한 방법으로서, 이하의 수식 1을 적용하는 것으로 하였다. 이와 같은 수식 1은 결과의 절대값이 1에 가까울수록 유사도가 높은 것으로 판단될 수 있다.
Figure 112020127886750-pat00004
그리고 (f-2)단계에서는, 이와 같은 (f-1)단계의 유사도 판단 결과 0.5 이상의 절대값을 가지는 텍스트 데이터의 주제명은 서로 통합하여 저장하고, 0.5 미만의 절대값을 가지는 텍스트 데이터의 주제명은 신규 분류로 인식하여 분리 저장함에 따라 확장 분류체계를 갱신하도록 할 수 있다.
더불어 (f-1)단계의 유사도 판단 결과 0.5 이상의 절대값을 가지는 텍스트 데이터의 주제명이 복수 개인 경우에는, 가장 높은 절대값을 가지는 텍스트 데이터의 주제명만을 통합하여 저장할 수 있다.
Figure 112020127886750-pat00005
예컨대, 초기 분류 1 및 초기 분류 2와, 신규 분류 1 및 신규 분류 2 간의 유사도 판단 결과 위 표 3과 같은 테이블이 도출된 경우, 신규 분류 1은 초기 분류 1에 통합되고, 신규 분류 2는 초기 분류 2와 통합될 수 있다.
이때 신규 분류 2 역시 절대값이 0.5 이상이므로 초기 분류 1과의 통합 조건을 만족하나, 신규 분류 2의 절대값이 신규 분류 1보다 높기 때문에 신규 분류 1이 초기 분류 1과 통합된다.
이상 설명한 과정과 같이, 본 발명은 종래 대용량 텍스트 데이터를 사람이 하나씩 확인하여 분류 체계를 구축하는 과정을 기계적으로 자동화하여 비용을 절감하고, 최신 데이터의 신속한 반영, 일관성 있는 분류 기준을 가지는 사전을 구축할 수 있게 된다.
이상과 같이 본 발명에 따른 바람직한 실시예를 살펴보았으며, 앞서 설명된 실시예 이외에도 본 발명이 그 취지나 범주에서 벗어남이 없이 다른 특정 형태로 구체화될 수 있다는 사실은 해당 기술에 통상의 지식을 가진 이들에게는 자명한 것이다. 그러므로, 상술된 실시예는 제한적인 것이 아니라 예시적인 것으로 여겨져야 하고, 이에 따라 본 발명은 상술한 설명에 한정되지 않고 첨부된 청구항의 범주 및 그 동등 범위 내에서 변경될 수도 있다.

Claims (12)

  1. 저장매체에 저장된 텍스트 데이터에 대한 주제 별 분류 사전 구축용 프로그램이 설치된 관리서버를 통해 수행되는 텍스트 데이터에 대한 주제 별 분류 사전 구축방법에 있어서,
    온라인 서비스로부터 텍스트 데이터를 추출하는 (a)단계;
    상기 (a)단계에 의해 추출된 상기 텍스트 데이터에 포함된 문장을 기 설정된 단어 단위로 분할 및 추출하는 (b)단계;
    상기 (b)단계에 의해 분할된 단어를 전처리하는 (c)단계;
    상기 (c)단계에 의해 전처리된 단어를 분석하여 상기 텍스트 데이터의 주제명을 도출하는 (d)단계;
    상기 (a)단계 내지 상기 (d)단계의 과정을 초기 분류체계로서 저장하는 (e)단계; 및
    상기 초기 분류체계가 저장된 이후 새롭게 수행된 (a)단계 내지 (d)단계에 의해 도출된 신규 분류체계를 반영하여 확장 분류체계로 갱신하는 (f)단계;를 포함하고,
    상기 (d)단계는,
    상기 (c)단계에 의해 상기 전처리된 단어가 상기 텍스트 데이터 내에서 노출되는 횟수를 산출하는 (d-1)단계;
    상기 텍스트 데이터를 구성하는 단어들이 상기 전처리된 단어와 동일한 주제를 나타내는 비율을 산출하는 (d-2)단계;
    상기 (d-1)단계 및 상기 (d-2)단계의 결과값을 곱하여 주제 지수를 산출하는 (d-3)단계; 및
    상기 (d-3)단계의 주제 지수를 고려하여 상기 텍스트 데이터의 주제명을 도출하는 (d-4)단계;를 포함하고,
    상기 (f)단계는,
    상기 초기 분류체계에 포함된 텍스트 데이터의 주제명과 상기 신규 분류체계에 포함된 텍스트 데이터의 주제명의 유사도를 측정하는 (f-1)단계; 및
    상기 (f-1)단계의 유사도 측정 결과에 따라, 상기 신규 분류체계에 포함된 텍스트 데이터의 주제명을 상기 초기 분류체계에 포함된 텍스트 데이터의 주제명과 합산하거나 분리하여 상기 확장 분류체계를 갱신하는 (f-2)단계;를 포함하는,
    텍스트 데이터에 대한 주제 별 분류 사전 구축방법.
  2. 제1항에 있어서,
    상기 (b)단계는,
    상기 텍스트 데이터에 포함된 문장을 어절 별로 분할하는 (b-1)단계; 및
    상기 (b-1)단계에 의해 분할된 어절에서 명사군, 동사군 및 형용사군에 해당하는 단어만을 분리하여 추출하는 (b-2)단계;
    를 포함하는,
    텍스트 데이터에 대한 주제 별 분류 사전 구축방법.
  3. 제1항에 있어서,
    상기 (c)단계는,
    상기 (b)단계에 의해 추출된 단어 n개를 조합하여 조합그룹을 구성하는 (c-1)단계;
    상기 조합그룹에 포함된 각 단어의 주제 지수를 추출하는 (c-2)단계; 및
    상기 조합그룹에 포함된 각 단어에 대한 가중치를 부여하는 (c-3)단계;
    를 포함하는,
    텍스트 데이터에 대한 주제 별 분류 사전 구축방법.
  4. 제3항에 있어서,
    상기 (c-3)단계는,
    상기 조합그룹이 명사와 형용사를 포함하고 있을 경우, 해당 조합그룹의 명사에 추가적인 가중치를 부여하도록 하는,
    텍스트 데이터에 대한 주제 별 분류 사전 구축방법.
  5. 제3항에 있어서,
    상기 (c-3)단계는,
    상기 조합그룹에 포함된 형용사가 기 설정되어 분류된 강조 형용사일 경우, 해당 형용사에 추가적인 가중치를 부여하도록 하는,
    텍스트 데이터에 대한 주제 별 분류 사전 구축방법.
  6. 삭제
  7. 삭제
  8. 삭제
  9. 제1항에 있어서,
    상기 (f-1)단계는,
    Figure 112022054768143-pat00006

    의 수식을 통해 상기 초기 분류체계에 포함된 텍스트 데이터의 주제명과 상기 신규 분류체계에 포함된 텍스트 데이터의 주제명의 유사도를 판단하는,
    텍스트 데이터에 대한 주제 별 분류 사전 구축방법.
  10. 제9항에 있어서,
    상기 (f-2)단계는,
    상기 (f-1)단계의 유사도 판단 결과 0.5 이상의 절대값을 가지는 텍스트 데이터의 주제명은 서로 통합하여 저장하고, 0.5 미만의 절대값을 가지는 텍스트 데이터의 주제명은 신규 분류로 인식하여 분리 저장함에 따라 상기 확장 분류체계를 갱신하도록 하는,
    텍스트 데이터에 대한 주제 별 분류 사전 구축방법.
  11. 제10항에 있어서,
    상기 (f-2)단계는,
    상기 (f-1)단계의 유사도 판단 결과 0.5 이상의 절대값을 가지는 텍스트 데이터의 주제명이 복수 개인 경우, 가장 높은 절대값을 가지는 텍스트 데이터의 주제명만을 통합하여 저장하는,
    텍스트 데이터에 대한 주제 별 분류 사전 구축방법.
  12. 컴퓨터에 제1항 내지 제5항, 및 제 9항 내지 제 11항 중 어느 한 항의 텍스트 데이터에 대한 주제 별 분류 사전 구축방법을 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 저장매체.
KR1020200161622A 2020-11-26 2020-11-26 텍스트 데이터에 대한 주제 별 분류 사전 구축방법 및 이를 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 저장매체 KR102463216B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020200161622A KR102463216B1 (ko) 2020-11-26 2020-11-26 텍스트 데이터에 대한 주제 별 분류 사전 구축방법 및 이를 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 저장매체
KR1020220124944A KR102492881B1 (ko) 2020-11-26 2022-09-30 텍스트 데이터에 대한 주제 별 분류 사전 구축방법 및 이를 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 저장매체

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200161622A KR102463216B1 (ko) 2020-11-26 2020-11-26 텍스트 데이터에 대한 주제 별 분류 사전 구축방법 및 이를 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 저장매체

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020220124944A Division KR102492881B1 (ko) 2020-11-26 2022-09-30 텍스트 데이터에 대한 주제 별 분류 사전 구축방법 및 이를 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 저장매체

Publications (2)

Publication Number Publication Date
KR20220073498A KR20220073498A (ko) 2022-06-03
KR102463216B1 true KR102463216B1 (ko) 2022-11-04

Family

ID=81982460

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020200161622A KR102463216B1 (ko) 2020-11-26 2020-11-26 텍스트 데이터에 대한 주제 별 분류 사전 구축방법 및 이를 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 저장매체
KR1020220124944A KR102492881B1 (ko) 2020-11-26 2022-09-30 텍스트 데이터에 대한 주제 별 분류 사전 구축방법 및 이를 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 저장매체

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020220124944A KR102492881B1 (ko) 2020-11-26 2022-09-30 텍스트 데이터에 대한 주제 별 분류 사전 구축방법 및 이를 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 저장매체

Country Status (1)

Country Link
KR (2) KR102463216B1 (ko)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8516205B2 (en) 2010-10-29 2013-08-20 Nokia Corporation Method and apparatus for providing efficient context classification
KR20200075068A (ko) * 2018-12-07 2020-06-26 (주)다음소프트 감성사전 구축 방법 및 시스템

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
김유영, 송민, 영화 리뷰 감성분석을 위한 텍스트 마이닝 기반 감성 분류기 구축, J Intell Inform Syst 2016 September: 22(3). pp.71~89. 1부.*
박상민 외 4인 ,Bi-LSTM 기반의 한국어 감성사전 구축 방안, J Intell Inform Syst 2018 December: 24(4). pp. 219~240. 1부.*

Also Published As

Publication number Publication date
KR20220137603A (ko) 2022-10-12
KR102492881B1 (ko) 2023-01-30
KR20220073498A (ko) 2022-06-03

Similar Documents

Publication Publication Date Title
CN110008349B (zh) 计算机执行的事件风险评估的方法及装置
Hornik et al. The textcat package for n-gram based text categorization in R
EP2664997B1 (en) System and method for resolving named entity coreference
US10102191B2 (en) Propagation of changes in master content to variant content
US9043339B2 (en) Extracting terms from document data including text segment
US20170075983A1 (en) Subject-matter analysis of tabular data
EP1542138A1 (en) Learning and using generalized string patterns for information extraction
CN111126060A (zh) 一种主题词的提取方法、装置、设备及存储介质
CN111737961B (zh) 一种故事生成的方法、装置、计算机设备和介质
CN112434211A (zh) 一种数据处理方法、装置、存储介质及设备
Bajestan et al. DErivCELEX: Development and evaluation of a German derivational morphology lexicon based on CELEX
Wahyudi et al. Topic modeling of online media news titles during COVID-19 emergency response in Indonesia using the latent dirichlet allocation (LDA) algorithm
JP5117744B2 (ja) 単語意味タグ付与装置および方法、プログラム並びに記録媒体
KR102463216B1 (ko) 텍스트 데이터에 대한 주제 별 분류 사전 구축방법 및 이를 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 저장매체
CN108701126A (zh) 主题推定装置、主题推定方法以及存储介质
JP2009295052A (ja) 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム
JP6026036B1 (ja) データ分析システム、その制御方法、プログラム、及び、記録媒体
KR101758555B1 (ko) 토픽 표현 추출 방법 및 그 시스템
CN111339287B (zh) 摘要生成方法及装置
CN114328895A (zh) 新闻摘要的生成方法、装置以及计算机设备
CN113326348A (zh) 一种博客质量评估方法及工具
Bruchansky Political footprints: Political discourse analysis using pre-trained word vectors
JP2011150603A (ja) カテゴリ主題語句抽出装置及び階層的タグ付与装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体
Zaidi et al. Hybrid Approach for Extracting Collocations from Arabic Quran Texts
KR20200088164A (ko) 소셜 네트워크 서비스 메시지의 감정 분석을 위한 POS(part of speech) 특징기반의 감정 분석 방법 및 이를 수행하는 감정 분석 장치

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant