KR101393604B1 - 형태소 기반 컨텐츠분류 방법 및 장치 - Google Patents

형태소 기반 컨텐츠분류 방법 및 장치 Download PDF

Info

Publication number
KR101393604B1
KR101393604B1 KR1020120026183A KR20120026183A KR101393604B1 KR 101393604 B1 KR101393604 B1 KR 101393604B1 KR 1020120026183 A KR1020120026183 A KR 1020120026183A KR 20120026183 A KR20120026183 A KR 20120026183A KR 101393604 B1 KR101393604 B1 KR 101393604B1
Authority
KR
South Korea
Prior art keywords
morpheme
category
numbering
content
contents
Prior art date
Application number
KR1020120026183A
Other languages
English (en)
Other versions
KR20130104573A (ko
Inventor
김경민
Original Assignee
(주)네오위즈게임즈
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)네오위즈게임즈 filed Critical (주)네오위즈게임즈
Priority to KR1020120026183A priority Critical patent/KR101393604B1/ko
Publication of KR20130104573A publication Critical patent/KR20130104573A/ko
Application granted granted Critical
Publication of KR101393604B1 publication Critical patent/KR101393604B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

온라인 서비스에 있어서, 온라인 상의 블로그나 뉴스와 같은 컨텐츠들의 제목에서 형태소를 분석하여 명사를 추출하고, 추출된 명사를 기반으로 동의어 복합어 등을 검색 및 가중치를 부가하여 기설정된 카테고리에 매핑함으로써 컨텐츠를 효율적으로 실시간 분류할 수 있도록 하는 기술을 제공한다. 본 발명의 일 실시예에 따른 형태소 기반 컨텐츠 분류방법은, 온라인 상에 제공된 컨텐츠를 수집하는 단계, 컨텐츠의 제목에 포함된 문자 정보로부터 각 문자에 포함된 적어도 하나의 형태소 및 하나의 형태소에 접사가 붙거나두 개 이상의 형태소가 결합된 단위로서 복합어를 추출하는 단계, 적어도 하나의 형태소 및 복합어 각각에 대해 넘버링을 수행하는 단계, 적어도 하나의 형태소에 대한 넘버링 및 복합어에 대한 넘버링 각각에 대해 가중치를 설정하는 단계, 컨텐츠를 분류하는 단위인 기설정된 적어도 하나의 카테고리 각각에 대해 적어도 하나의 형태소 및 복합어 각각을 가중치 순서로 비교하여 컨텐츠가 속하는 카테고리를 검색하는 단계, 및 컨텐츠를 검색된 카테고리의 하위 컨텐츠로 분류하는 단계를 포함한다.

Description

형태소 기반 컨텐츠분류 방법 및 장치{METHOD AND APPARATUS FOR CLASSIFING CONTENTS BASE ON MORPHEME}
본 발명은, 온라인 서비스에 있어서, 온라인 상의 블로그나 뉴스와 같은 컨텐츠들의 제목에서 형태소를 분석하여 명사를 추출하고, 추출된 명사를 기반으로 동의어, 복합어 등을 검색 및 가중치를 부가하여 기설정된 카테고리에 매핑함으로써컨텐츠를 효율적으로 실시간 분류할 수 있도록 하는 기술에 관한 것이다.
정보 통신 기술의 발전에 따라, 기존에 활자 매체를 이용하여 제공되는 정보가 온라인을 통해 제공 가능하게 되어 온라인 상의 정보량이 급격하게 증가하였다. 또한 온라인상의 정보량의 증가는 더욱 많은 정보를 재생산하게 되어 정보량은 나날이 기하급수적으로 증가하고 있는 추세이다. 특히 뉴스와 같은 컨텐츠들은 시시각각 새로운 컨텐츠가 생성되어 온라인 상에 제공되고 있다.
더불어 최근에는 소셜 네트워크 서비스(Social Network Service : SNS)나 블로그(Blog)와 같은 1인 미디어가 온라인 서비스로서 제공됨에 따라 온라인 서비스 사용자들이 정보를 접할 수 있는 기회나 정보를 제공할 수 있는 기회가 더욱 확대되고 있다.
이러한 온라인 상의 정보 폭발적 증가는 온라인 서비스 사용자들이 필요로 하는 정보를 쉽고 빠르게 찾지 못하게 하므로, 온라인 상의 각종 정보에 대한 효율적인 관리가 절실하게 필요한 상황이다.
이에 따라, 컨텐츠를 일정한 카테고리별로 분류하고, 컨텐츠 검색 시 분류된 카테고리에 속하는 컨텐츠를 제공함으로써, 사용자가 검색한 내용과 동일한 카테고리에 속하는 컨텐츠를 제공하는 서비스가 제공되고 있다. 이에 따라 사용자가 검색을 수행하면, 검색된 내용에 대응하는 카테고리에 속하는 컨텐츠를 제공함으로써, 검색의 정확도를 높이고, 컨텐츠 검색에 대한 사용자들의 만족도가 증가될 수 있다.
그러나 기존의 컨텐츠 검색 방법은 컨텐츠의 제목 및 내용에 포함된 단어에 매칭되는 카테고리에 대응하는 컨텐츠를 검색하였다. 예를 들어 한국공개특허 2011-0045927 에는, 사용자가 도서 컨텐츠 검색 시 입력한 색인어를 기반으로 색인어에 대응하는 도서 컨텐츠를 검색하는 방법이 기재되어 있다. 그러나 이러한 매칭 방법에 의해서는 카테고리가 제대로 분류되지 못하는 경우가 발생한다. 한편 일부 컨텐츠 분류 방법은 자동화된 알고리즘(algorithm)을 이용하여 컨텐츠 자동 분류를 수행하지만, 알고리즘의 복잡성으로 인해 많은 비용을 필요로 한다.
이에 본 발명은, 온라인 서비스에 있어서, 온라인 상의 블로그나 뉴스와 같은 컨텐츠들의 제목에서 형태소를 분석하여 명사를 추출하고, 추출된 명사를 기반으로 동의어, 복합어 등을 검색 및 가중치를 부가하여 기설정된 카테고리에 매핑함으로써컨텐츠를 효율적으로 실시간 분류할 수 있도록하는데 그 목적이 있다.
상기 목적을 달성하기 위하여, 본 발명의 일 실시예에따른 형태소 기반 컨텐츠분류방법은,온라인 상에 제공된 컨텐츠를 수집하는 단계; 상기 컨텐츠의 제목에 포함된 문자 정보로부터 각 문자에 포함된 적어도 하나의 형태소 및 하나의 형태소에 접사가 붙거나두 개 이상의 형태소가 결합된단위로서 복합어를 추출하는 단계; 상기 적어도 하나의 형태소 및 상기 복합어 각각에 대해 넘버링을 수행하는 단계; 상기 적어도 하나의 형태소에 대한 상기 넘버링 및 상기 복합어에 대한 상기 넘버링 각각에 대해 가중치를 설정하는 단계; 상기 컨텐츠를 분류하는 단위인 기설정된 적어도 하나의 카테고리 각각에 대해 상기 적어도 하나의 형태소 및 상기 복합어 각각을 상기 가중치 순서로 비교하여 상기 컨텐츠가 속하는 카테고리를 검색하는 단계; 및 상기 컨텐츠를 상기 검색된 카테고리의 하위 컨텐츠로 분류하는 단계; 를포함한다.
상기 추출하는 단계는, 상기 컨텐츠의 제목에 포함된 문자 정보에서 적어도 하나의 단어를 획득하는 단계; 상기 컨텐츠의 제목에 포함된 문자 정보에서 획득한 적어도 하나의 단어들로부터 상기 적어도 하나의 형태소를 순차적으로 획득하는 것이 바람직하다.
상기 넘버링을 수행하는 단계는, 상기 적어도 하나의 형태소 각각의 위치를 판별하고, 상기 판별된 위치에 따라 상기 적어도 하나의 형태소 각각에 대해 1차 넘버링을 수행하는 단계; 상기 복합어가 추출되는 경우, 상기 복합어에 대해 2차 넘버링을 수행하는 단계; 및 상기 1차 넘버링 및 상기 2차 넘버링을 조합하는 단계; 를 포함하는 것이 바람직하다.
상기 1차 넘버링을 수행하는 단계는, 상기 적어도 하나의 형태소의 획득 순서에 따라 상기 1차 넘버링을 수행하는 것이 바람직하다.
상기 추출하는 단계 후, 기설정된 사전 데이터베이스로부터 상기 적어도 하나의 형태소 각각에 대한 동의어를 검색하는 단계; 를 더 포함하는 것이 바람직하다.
상기 넘버링을 수행하는 단계는, 검색된 상기 동의어 각각에 대해 넘버링을 수행하는 것이 바람직하다.
상기 동의어 각각에 대해 넘버링을 수행하는 단계는, 상기 동의어 각각에 대해 대응하는 상기 형태소와 동일한 넘버를 부여하는 것이 바람직하다.
상기 가중치를 설정하는 단계는, 상기 적어도 하나의 형태소에 대한 상기 넘버링 각각에 상기 가중치를 설정하는 단계; 상기 복합어에 대한 상기 넘버링 각각에 상기 가중치를 설정하는 단계; 및 설정된 상기 가중치를 상기 추출된 형태소 및 복합어에 할당하는 단계; 를 포함하는 것이 바람직하다.
상기 복합어에 대한 상기 넘버링 각각에 설정되는 가중치를 상기 적어도 하나의 형태소에 대한 상기 넘버링 각각에 설정되는 가중치보다 높게 설정하는 것이 바람직하다.
상기 카테고리를 검색하는 단계는, 상기 적어도 하나의 형태소 및 복합어를 상기 할당된 가중치 순서로 정렬하는 단계; 및 상기 적어도 하나의 형태소 및 복합어 각각을 정렬된 순서에 따라 기설정된 적어도 하나의 카테고리 각각과 비교하는 단계; 를 포함하는 것이 바람직하다.
상기 하위 컨텐츠로 분류하는 단계는, 검색된 카테고리가 복수개인 경우, 상기 카테고리 중 상기 형태소 또는 복합어 중 높은 가중치를 갖는 형태소 또는 복합어에 대응하는 카테고리를 선택하여 상기 컨텐츠를 상기 선택한 카테고리의 하위 컨텐츠로 분류하는 것이 바람직하다.
상기 하위 컨텐츠로 분류하는 단계는 상기 높은 가중치를 갖는 형태소 또는 복합어에 대응하는 카테고리가 복수개 선택된 경우, 상기 선택된 카테고리에 매칭된 적어도 하나의 형태소 및 복합어에 대한 상기 가중치를 합산하는 단계; 및 상기 컨텐츠를 상기 가중치의 합이 가장 높은 카테고리의 하위 요소로 분류하는 단계; 를 포함하는 것이 바람직하다.
상기 목적을 달성하기 위하여, 본 발명의 일실시예에 따른 형태소 기반 컨텐츠분류장치는,온라인 상에 제공된 컨텐츠를 수집하는 컨텐츠수집부; 상기 컨텐츠의 제목을 분석하여 적어도 하나의 형태소를 획득하고, 상기 컨텐츠의 제목에 포함된 문자 정보에서 획득된 형태소의 위치를 판별하는 형태소 추출부; 동의어 사전이 저장되어 상기 적어도 하나의 획득한 형태소 각각에 대응하는 동의어를 검색하는 동의어 정보 저장부; 상기 컨텐츠의 제목에 포함된 문자 정보에서 상기 적어도 하나의 형태소의 위치에 따라 획득된 형태소 각각의 가중치를 부여하는 가중치 설정부; 및 상기 컨텐츠를 분류하는 단위인 기설정된적어도 하나의 카테고리에 대한 정보를 저장하고, 상기 가중치가 설정된 상기 적어도 하나의 형태소 각각에 매칭되는 카테고리를 검색하여 검색된 카테고리의 하위 컨텐츠로 상기 컨텐츠 각각을 분류하는 카테고리 저장부; 를 포함한다.
상기 형태소 추출부는, 상기 컨텐츠의 제목에 포함된 문자 정보에서 적어도 하나의 단어를 추출하여, 복합어가 존재하면 복합어를 획득하고, 상기 적어도 하나의 단어 각각에서 상기 형태소를 검색하여 제목에 표시된 순서대로 순차적으로 적어도 하나의 형태소를 획득하며, 상기 적어도 하나의 형태소의 획득 순서에 따라 1차 넘버링을 수행하고, 획득된 복합어에 대해 2차 넘버링을 수행하는 것이 바람직하다.
상기 형태소 추출부는, 상기 동의어 정보 저장부로부터 획득된 상기 적어도 하나의 형태소 각각에 대한 상기 동의어가 획득되면, 상기 동의어에 대해서 넘버링을 수행 것이 바람직하다.
상기 형태소 추출부는, 상기 동의어에 대해 대응하는 형태소와 동일한 넘버링을 부여하는 것이 바람직하다.
상기 가중치 설정부는, 상기 적어도 하나의 형태소 및 복합어에 부여된 상기 1차 넘버링 및 상기 2차 넘버링에 따라 서로 다른 가중치를 부여하고, 상기 2차 넘버링에 대해 상기 1차 넘버링 보다 높은 가중치를 부여하는 것이 바람직하다.
상기 카테고리 저장부는, 상기 가중치가 설정된 복합어 또는 상기 적어도 하나의 형태소를 상기 가중치가 높은 순서부터 차례로 기설정된 복수개의 카테고리와 비교하여 매칭되는 카테고리를 검색하고, 상기 매칭되는 카테고리가 존재하지 않으면, 가장 높은 가중치를 갖는 상기 복합어 또는 상기 적어도 하나의 형태소에 대응하는 카테고리를 생성하는 것이 바람직하다.
상기 카테고리 저장부는, 상기 매칭되는 카테고리가 복수개인 경우, 높은 상기 가중치를 갖는 상기 적어도 하나의 형태소 또는 상기 복합어에 대응하는 상기 카테고리를 선택하여 상기 컨텐츠를 상기 선택된 카테고리의 하위 컨텐츠로 분류하는 것이 바람직하다.
본 발명에 의하면, 온라인 서비스에 있어서, 온라인 상의 블로그나 뉴스와 같은 컨텐츠들의 제목에서 형태소를 분석하여 명사를 추출하고, 추출된 명사를 기반으로 동의어, 복합어 등을 검색한다. 그리고 추출된 명사와 동의어 및 복합어에 가중치를 부가하여 기설정된 복수개의 카테고리 중 정확도가 높은 카테고리에 자동으로매핑함으로써컨텐츠를 효율적으로 실시간 분류할 수 있도록 한다. 따라서 컨텐츠를 분류 및 검색하기 위한 비용을 절감할 수 있으며, 효율적으로 컨텐츠를 관리할 수 있다.
도1 은 본 발명의 일 실시예에 따른 형태소 기반 컨텐츠분류방법에 대한 플로우차트이다.
도2 는 본 발명의 일예에 따른 형태소를 추출하는 흐름을 나타낸다.
도3 은 본 발명의 일예에 따른 형태소 위치를 판별하는 흐름을 나타낸다.
도4 는 본 발명의 일 예에 따른 동의어를 검색하는 흐름을 나타낸다.
도5 는 본 발명의 일 예에 따른 가중치를 설정하는 흐름을 나타낸다.
도6은 본 발명의 일 예에 따른 매칭 카테고리를 검색하는 흐름을 나타낸다.
도7 은 본 발명의 일 예에 따른 카테고리를 분류하는 흐름을 나타낸다.
도8 은 본발명의일 실시예에따른형태소 기반 컨텐츠분류장치의 블록도이다.
이하, 첨부된 도면을 참조하여 본 발명의 각 실시예에 따른 형태소 기반 컨텐츠분류방법 및 장치에 대하여 설명하기로 한다.
이하의 실시 예는 본 발명의 이해를 돕기 위한 상세한 설명이며, 본 발명의 권리 범위를 제한하는 것이 아님은 당연할 것이다. 따라서, 본 발명과 동일한 기능을 수행하는 균등한 발명 역시 본 발명의 권리 범위에 속할 것이다.
또한 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.
또한, 본 발명의 구성 요소를 설명하는 데 있어서, 제 1, 제 2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 어떤 구성 요소가 다른 구성요소에 "연결", "결합" 또는 "접속"된다고 기재된 경우, 그 구성 요소는 그 다른 구성요소에 직접적으로 연결되거나 또는 접속될 수 있지만, 각 구성 요소 사이에 또 다른 구성 요소가 "연결", "결합" 또는 "접속"될 수도 있다고 이해되어야 할 것이다.
본 발명의 실시 예에서 “통신”, “통신망” 및 “네트워크”는 동일한 의미로 사용될 수 있다. 상기 세 용어들은, 파일을 사용자 단말, 다른 사용자들의 단말 및 다운로드 서버 사이에서 송수신할 수 있는 유무선의 근거리 및 광역 데이터 송수신망을 의미한다.
이하의 설명에서 “게임 서버”란, 사용자들이 접속하여 게임 컨텐츠를 이용하기 위하여 접속하게 되는 서버 컴퓨터를 의미한다. 용량이 작거나 이용자 수가 작은 게임의 경우 하나의 게임 서버에 다수의 게임 프로그램이 운영될 수 있다. 또한, 용량이 매우 크거나 실시간 접속 인원 수가 많은 게임의 경우, 게임의 기능에 따라서 하나의 게임의 운영을 위한 게임 서버가 하나 이상 존재할 수도 있다.
또한 게임 서버에는 데이터 베이스에 대한 미들웨어나 결제 처리를 수행하는 서버들이 연결될 수 있으나, 본 발명에서는 이에 대한 설명은 생략하기로 한다.
본 발명에서 컨텐츠(contents)는 각종 유무선 통신망을 통해 제공되는 디지털 정보를 통칭하여 이르는 말로서,유무선 전기 통신망에서 사용하기 위하여 문자, 부호, 음성, 음향, 이미지, 영상 등을 디지털 방식으로 제작해 처리 및 유통하는 각종 정보 또는 그 내용물을 통틀어 이르는 말이다.
도1 은 본 발명의 일 실시예에 따른 형태소 기반 컨텐츠분류방법에 대한 플로우차트이다.
온라인 상에서 제공되고 있는 다양한 컨텐츠를 효율적으로 실시간으로 관리하기 위해서는 복수개의 컨텐츠 각각을 복수 개의 카테고리(category)로 분류하여 관리하는 것이 효율적이다. 그리고 컨텐츠를 복수 개의 카테고리로 용이하게 분류하기 위하여 본 발명에서는 컨텐츠의 제목에 포함된 형태소(morpheme)를 분석한다.
도1 을 참조하여, 형태소 기반 컨텐츠 분류 방법을 설명하면, 먼저 컨텐츠 분류 장치는 온라인 상의 각종 컨텐츠를 수집한다(S100). 여기서 컨텐츠 분류 장치가 수집하는 컨텐츠의 종류나 범위는 한정되지 않는다. 그러나 컨텐츠 분류 장치가 온라인 상의 특정 서비스를 위한 장치인 경우에, 해당 서비스 내에 포함된 컨텐츠만을 수집할 수도 있다. 컨텐츠 분류 장치는 컨텐츠에 대한 수집을 상시적으로 수행할 수도 있으며, 기설정된 기간에 따라 주기적으로 수행할 수도 있다.
컨텐츠에 대한 수집이 완료되면, 컨텐츠 분류 장치는 수집된 컨텐츠의 제목으로부터 적어도 하나의 형태소(形態素)를 추출한다(S200). 형태소는 어문학상으로 의미를 가진 가장 작은 말의 단위를 나타낸다. 따라서 컨텐츠 분류 장치는 컨텐츠의 제목이 복수개의 어절(語節)로 이루어진 경우, 복수개의 어절에서 복수개의 형태소를 추출할 수 있다.
컨텐츠 분류 장치는 적어도 하나의 형태소가 추출되면, 컨텐츠의 제목에서 추출된 형태소 각각의 위치를 판별한다(S300). 형태소의 위치를 판별하는 것은 컨텐츠의 제목에 복수 개의 형태소가 존재하는 경우, 각 형태소의 위치에 따라 우선 순위를 부여하여 용이하게 카테고리를 구분하기 위함이다.
그리고 컨텐츠 분류 장치는 추출된 형태소와 유사한 의미를 갖는 동의어(同意語)를 검색한다(S400). 동의어의 검색은 온라인 상에 제공된 정보에서 검색할 수도 있으나, 빠른 검색을 위해 컨텐츠 분류 장치가 별도의 동의어 사전을 저장하고, 저장된 동의어 사전에서 추출된 형태소에 대응하는 동의어를 검색하는 것이 바람직하다. 실제 컨텐츠의 제목에서 추출된 형태소만으로 카테고리를 구분할 수도 있으나, 이 경우 제목에 함께 포함된 다양한 수식어들로 인해 정확한 카테고리를 구분하지 못할 수 있기 때문이다. 즉 본 발명에서는 컨텐츠의 제목에서 추출된 형태소뿐만 아니라, 추출된 형태소에 대응하는 동의어까지 분석하여 카테고리를 분류하므로, 추출된 형태소에 따라 카테고리를 분류하는 경우보다 상대적으로 정확하게 카테고리를 분류할 수 있다.
이후 컨텐츠 분류 장치는 위치가 판별된 형태소 각각에 대해 가중치를 설정한다(S500). 이때 추출된 형태소 중 단일 형태소가 아니라 복합어(複合語)가 존재하는 경우, 복합어에 대해서는 별도의 가중치를 설정한다. 복합어는 어문학상 단어 구성의 한가지 형태이며, 하나의 실질형태소에 접사가 붙거나두 개 이상의 실질형태소가 결합된말을 의미한다. 형태소의 위치에 따른 가중치 설정 및 복합어에 대한 가중치 설정은 후술하도록 한다.
가중치 설정이 완료되면, 추출된 형태소에 따라 매칭 카테고리를 검색한다(S600). 컨텐츠 분류 장치는 복수개의 카테고리를 설정하고, 설정된 복수개의 카테고리 각각의 하위 컨텐츠로서 이전 분류된 컨텐츠를 저장할 수 할 수 있다. 그리고 새로운 컨텐츠가 수집된 경우에, 수집된 컨텐츠가 우선 이전 설정된 카테고리에 대응하는 컨텐츠인지 확인하기 위해 매칭 카테고리를 검색한다. 즉 수집된 컨텐츠가 하위 컨텐츠로 포함될 수 있는 기설정된 카테고리가 존재하는지 검색한다.
그리고 컨텐츠 분류 장치는 매칭 카테고리가 존재하는지 판별한다(S700). 만일매칭 카테고리가 존재하지 않으면, 컨텐츠 분류 장치는 추출된 형태소 중 높은 가중치를 갖는 형태소에 따라 새로운 카테고리를 생성한다(S800). 그리고 생성된 카테고리에 수집된 컨텐츠를하위 컨텐츠로서 분류한다(S900). 그러나매칭 카테고리가 존재하면, 검색된 매칭 카테고리의 하위 구성요소로 수집된 컨텐츠를 분류한다(S900).
기존의 컨텐츠 분류 방법은 컨텐츠의 제목 및 내용에 포함된 단어에 정확히 매칭되는 카테고리를 검색하여 분류하였다. 그러나 이러한 매칭 방법에 의해서는 카테고리가 제대로 분류되지 못하는 경우가 발생한다. 한편 일부 컨텐츠 분류 방법은 자동화된 알고리즘(algorithm)을 이용하여 컨텐츠 자동 분류를 수행하지만, 알고리즘의 복잡성으로 인해 많은 비용을 필요로 한다. 그러나 본 발명에서는 상기한 바와 같이 컨텐츠의 제목으로부터 형태소를 분석하고, 형태소에 따라 카테고리를 분류하므로, 저비용으로 구현 가능하다. 그리고 동의어 검색을 수행하여 상대적으로 정확한 카테고리 분류를 수행할 수 있다.
도2 는 본 발명의 일 예에 따른 형태소를 추출하는 흐름을 나타낸다.
도2 를 참조하여 형태소를 추출하는 흐름을 살펴보면, 컨텐츠 분류 장치는 먼저 수집된 컨텐츠의 컨텐츠 제목을 분석한다(S210). 컨텐츠의 종류는 다양할 수 있으나, 거의 모든 컨텐츠의 제목은 적어도 하나의 단어 또는 문장의 형태로 제공된다. 따라서 컨텐츠의 제목을 분석은 어문학적으로 접근이 가능하다. 이에컨텐츠 분류 장치는 분석된 컨텐츠 제목에서 단어(word, 單語)를 추출한다(S220). 단어는 어문학상 자립성(自立性)과 분리성(分離性)을 가진 말의 최소 단위로서, 최소한 1개 이상의 형태소로 이루어지고, 일정한 뜻을 가진다. 즉 단어는 적어도 하나의 형태소를 포함한다. 예를 들어 컨텐츠의 제목이 '간단반찬 - 두부떡간장조림'인 경우, 컨텐츠 분류 장치는 제목에서 단어로서 반찬, 두부, 떡, 간장, 조림을 추출할 수 있다.
그리고 추출된 제목 단어에서 복합어가 존재하는지 판별한다(S230). 복합어가 존재하면 복합어를 획득한다(S240). 이는 이후 가중치 설정 시에 복합어에 대해 별도의 가중치를 설정하기 위함이다. 상기한 컨텐츠 제목에서는 간장조림이 복합어로 획득될 수 있다.
복합어가 획득한 이후 또는 복합어가 존재 하지 않는 경우, 컨텐트 분류 장치는 제목으로부터 형태소를 검색한다(S250). 그리고 검색된 형태소를 순차적으로 획득한다(S260). 즉 제목에 표시된 형태소를 순차적으로 획득한다. 형태소를 순차적으로 획득하는 이유 또한 이후 가중치 설정 시에 서로 다른 가중치를 부여하기 위함이다. 상기한 컨텐츠 제목에서는 각각의 단어가 1개의 형태소로 구성된 단어이므로, 형태소는 단어와 마찬가지로 반찬, 두부, 떡, 간장 조림이 순차적으로 획득될 수 있다.
도3 은 본 발명의 일 예에 따른 형태소 위치를 판별하는 흐름을 나타낸다.
형태소의 위치를 판별하는 흐름은 형태소를 추출하는 흐름에서 순차적으로 획득된 형태소의 획득 순서에 따라 1차 넘버링을 한다(S310). 즉컨텐츠의 제목에서 먼저 획득되는 형태소부터 이후 획득되는 형태소의 순서로 넘버링을 수행한다.상기한 컨텐츠의 제목에서는 반찬, 두부, 떡, 간장, 조림이 순차적으로 획득되므로, 반찬에는 1, 두부에는 2, 떡에는 3, 간장에는 4, 조림에는 5를 넘버링한다.
이후 컨텐츠의 제목을 분석하여 획득된 복합어가 존재하는지 판별한다(S320).만일 복합어가 존재하면, 복합어에 대해 2차 넘버링한다(S330). 복합어는 1차 넘버링과 달리 복합어의 획득 순서가 아닌 복합어인지 아닌지에 따라 넘버링을 수행한다. 즉 형태소에 대해서는 1을 넘버링하고 복합어에 대해서는 2를 넘버링하여 형태소와 복합어를 구분한다. 도3 에서 형태소와 복합어를 구분하여 1차 및 2차 넘버링을 수행하는 것은 복합어를 형태소와 별개로 취급하기 위해서이다.상기한 컨텐츠 제목에서는 간장조림만이 복합어로 획득되므로, 간장조림에만 2가 넘버링 되고, 반찬, 두부, 떡, 간장, 조림에 대해서는 1이 넘버링된다.
그리고 1차 및 2차 넘버링에 대해 조합을 수행한다(S340). 1차 및 2차 넘버링을 수행하면, 형태소로 획득된 반찬, 두부, 떡, 간장, 조림에 대해서는 순차적으로 1-1, 2-1, 3-1, 4-1 및 5-1이 부여된다. 여기서 앞의 숫자는 형태소에 대한 1차 넘버링이며, 뒤의 숫자는 복합어에 대한 2차 넘버링이나, 반찬, 두부, 떡, 간장, 조림은 모두 복합어가 아니므로 1로 설정된다. 그리고 복합어로 획득된 간장조림에 대해서는 간장과 조림의 복합어이므로 이중 먼저 획득되는 형태소인 간장의 위치에 대한 1차 넘버링인 4와 복합어에 대한 2차 넘버링이 조합되어 4-2가 부여된다.
도4 는 본 발명의 일 예에 따른 동의어를 검색하는 흐름을 나타낸다.
도4 를 참조하면, 컨텐츠 분류 장치는 획득된 형태소 각각에 대해 동의어를 검색한다(S410). 상기한 바와 같이, 컨텐츠 분류 장치는 동의어를 검색하기 위해 동의어 사전을 저장할 수 있다. 그리고 컨텐츠 분류장치는 획득된 모든 형태소에 대해 동의어가 검색되었는지 판별한다(S420). 만인 모든 형태소에 대해 동의어가 검색되지 않았으면, 다시 다른 형태소에 대한 동의어를 검색한다(S410). 그러나 모든 형태소에 대해 검색되었으면, 검색된 동의어에 대해 넘버링을 수행한다. 이때 검색된 동의어는 대응하는 형태소에 따라 넘버링되며, 일예로 검색된 동의어는 대응하는 형태소와 동일하게 넘버링 될 수 있다. 예를 들어 '떡'의 동의어로 검색되는 '편'에도 '떡'과 동일하게 3을 넘버링한다. 동의어에도 형태소와 동일한 넘버링을 부여하는 이유는 획득된 형태소와 형태소에 대응하는 동의어에 동일한 가중치를 부여하기 위함이다. 그러나 경우에 따라서는 동의어는 획득된 형태소와 다른 가중치를 부여할 수도 있다.
도5 는 본 발명의 일 예에 따른 가중치를 설정하는 흐름을 나타낸다.
컨텐츠 분류 장치는 형태소 대해 수행된 1차 넘버링에 대해 가중치를 설정한다(S510). 1차 넘버링에 대한 가중치는 결국 형태소의 위치에 따른 가중치로서 컨텐츠 분류 장치는 1차 넘버링에 대해 오름 차순 또는 내림 차순 중 하나를 선택하여 높은 가중치를 설정할 수 있다.
그리고 1차 넘버링에 대한 가중치를 설정한 이후, 2차 넘버링에 대한 가중치를 설정한다(S520). 본 발명에서 2차 넘버링에 대한 가중치는 1차 넘버링에 대한 가중치보다 높은 가중치로 설정한다. 즉 본 발명에 따른 컨텐츠 분류 장치는 복합어에 대해 더 높은 가중치를 부여하여, 우선적으로 복합어에 매칭되는 카테고리를 검색하여 컨텐츠를 분류할 수 있도록 한다.
1차 및 2차 넘버링 각각에 대한 가중치가 설정되면, 설정된 가중치를 획득된 형태소 및 복합어에 할당한다(S530).
도6은 본 발명의 일 예에 따른 매칭 카테고리를 검색하는 흐름을 나타낸다.
도6을 참조하면 매칭 카테고리를 검색하는 흐름은 먼저 형태소 및 복합어를 할당된 가중치 순서로 재정렬한다(S610). 그리고 정렬된 순서에 따라매칭 카테고리를 검색한다(S620). 획득된 모든 형태소 및 복합어에 대해 매칭 카테고리 검색이 수행되었는지 판별한다(S630). 모든 형태소 및 복합어에 대해 매칭 카테고리 검색이 수행되지 않았으면, 정렬 순서에 따라 다음 형태소 및 복합어에 대해 매칭 카테고리를 검색한다. 그러나 모든 형태소 및 복합어에 대해 매칭 카테고리 검색이 수행되었으면, 매칭되는 카테고리가 존재하는지 판별한다(S700)
도7 은 본 발명의 일 예에 따른 카테고리를 분류하는 흐름을 나타낸다.
매칭 카테고리가 존재하는 것으로 판별되면(S700), 매칭 카테고리가 복수개인지 판별한다(S910). 매칭 카테고리가 복수개가 아닌 것으로 판별되면, 수집된 컨텐츠를매칭 카테고리의 하위 컨텐츠로 분류한다(S920). 그러나 매칭 카테고리가 복수개이면, 각각 가중치를 갖는 형태소 또는 복합어 중 높은 가중치를 갖는 형태소 또는 복합어에 대응하는 카테고리를 선택한다(S930). 상기에서 복합어는 형태소에 비해 높은 가중치를 갖도록 설정되는 것으로 설명하였으므로, 만일 복합어에 매칭되는 카테고리가 존재하면, 복합어에 매칭되는 카테고리가 선택될 수 있다. 그리고 선택된 카테고리가 복수개인지 판별한다(S940). 만일 선택 카테고리가 복수개가 아니면, 수집된 컨텐츠를 선택된 카테고리의 하위 컨텐츠로 분류한다(S950). 그리고 선택 카테고리가 복수개이면, 선택 카테고리에 매칭된 형태소들의 가중치를 합산한다(S960). 이후 합산된 가중치 합이 높은 카테고리에 수집된 컨텐츠를하위 컨텐츠로 분류한다(S970).
도8 은 본발명의 일실시예에 따른 형태소 기반 컨텐츠 분류장치의 블록도이다.
도8에서 도시된 바와 같이, 본 발명의 실시예에 따른 형태소 기반 컨텐츠분류 시스템은 복수개의 사용자 단말(101 ~ 10n), 인터넷(200), 온라인 서비스 서버(300) 및 컨텐츠 분류 장치(400)를 구비한다. 복수개의 사용자 단말(101 ~ 10n) 각각은 인터넷(200)을 통해 온라인 서비스 서버(300)와 접속되며, 게임을 수행하기 위한 게임 클라이언트가 설치된다.
온라인 서비스 서버(300)는 인터넷(200)을 통해 다수의사용자 단말(101 ~ 10n)이 접속할 수 있는 화면을 제공하며, 접속되는 다수의 사용자 단말(101 ~ 10n)에게각종온라인게임을비롯하여채팅, 동호회, 쇼핑몰, 컨텐츠 검색등의 여러서비스를 제공한다. 온라인 서비스 서버(300)는 온라인 상에서 제공할 수 있는 다양한 서비스를 하나의 서버에서 제공할 수도 있으며, 복수개의 온라인 서버(300) 각각이 서로 다른 서비스를 제공할 수도 있다.
도8 에서는 다수의 사용자들이 컴퓨터(101 ~ 10n)를 통해 온라인 서비스 서버(300)에 접속하는 것으로 도시하였으나, 컴퓨터이외에 인터넷(200)을 통해 온라인 서비스 서버(300)에접속하여게임을수행할수있는다른단말일수있다. 예를들면, 이동통신단말, 인터넷접속이가능한텔레비전등이사용될수있다.
컨텐츠 분류 장치(400)는 인터넷(200)을 통해 적어도 하나의 컨텐츠를 수집하는 컨텐츠수집부(410), 컨텐츠수집부(410)에서 수집한 컨텐츠의 제목을 분석하여 적어도 하나의 형태소를 획득하고, 컨텐츠의 제목에서 획득된 형태소의 위치를 판별하는 형태소 추출부(420), 동의어 사전이 저장되어 형태소 추출부(420)에서 획득한 형태소에 대응하는 동의어를 검색하기 위한 동의어 정보 저장부(430), 형태소 추출부(420)에서 획득한 형태소의 위치에 따라 획득된 형태소 각각의 가중치를 부여하는 가중치 설정부(440) 및 기설정된 적어도 하나의 카테고리에 대한 정보를 저장하고, 가중치가 설정된 적어도 하나의 형태소 각각에 매칭되는카테고리를 검색하여 매칭된 카테고리의 하위 컨텐츠로 수집된 컨텐츠를 분류하는 카테고리 저장부(450)를 포함한다.
컨텐츠수집부(410)는 컨텐츠 분류 장치(400)가 온라인 상의 특정 서비스를 위한 장치인 경우에, 해당 서비스 내에 포함된 컨텐츠만을 수집할 수도 있다. 컨텐츠 분류 장치는 컨텐츠에 대한 수집을 상시적으로 수행할 수도 있으며, 기설정된 기간에 따라 주기적으로 수행할 수도 있다.
형태소 추출부(420)는 컨텐츠의 제목으로부터 적어도 하나의 단어를 추출하여, 복합어가 존재하면 복합어를 획득한다. 그리고 추출된 적어도 하나의 단어 각각에서 형태소를 검색하여 제목에 표시된 순서대로 순차적으로 적어도 하나의 형태소를 획득한다. 또한 형태소 추출부(420)는 형태소의 획득 순서에 따라 1차 넘버링을 수행하고, 획득된 복합어에 대해 2차 넘버링을 수행한다. 복합어에 대한 2차 넘버링은 복합어인지 아닌지에 대한 넘버링일 수 있다. 추가적으로 형태소 추출부(420)는 동의어 정보 저장부(430)로부터 획득된 형태소 각각에 대한 동의어가 획득되면, 획득된 동의어에 대해서도 넘버링을 수행한다. 이때 형태소 추출부(420)는 획득된 동의어에 대해 대응하는 형태소와 동일한 넘버링을 부여할 수 있다.
동의어 정보 저장부(430)는 동의어 사전 정보를 저장하여, 획득된 형태소 각각에 대응하는 동의어를 검색하여 획득한다.
가중치 설정부(440)는 형태소 및 복합어에 부여된 1차 및 2차 넘버링에 따라 서로 다른 가중치를 부여한다. 이 때, 가중치 설정부(440)는 2차 넘버링에 대해 1차 넘버링 보다 높은 가중치를 부여할 수 있다. 즉 복합어에 대해 형태소보다 높은 가중치를 부여할 수 있다.
카테고리 저장부(440)는 가중치가 설정된 복합어 또는 형태소를 가중치가 높은 순서부터 차례로 기설정된 복수개의 카테고리와 비교하여 매칭 카테고리를 검색한다. 만일 매칭 카테고리가 존재하지 않으면, 가장 높은 가중치를 갖는 복합어 또는 형태소에 대응하는 카테고리를 새로이 생성한다. 그러나 매칭 카테고리가 복수개인 경우, 높은 가중치를 갖는 형태소 또는 복합어에 대응하는 카테고리를 선택하여 수집된 컨텐츠를 선택된 카테고리의 하위 컨텐츠로 분류한다. 만일 선택된 카테고리마저도 복수개인 경우, 카테고리 저장부(440)는 카테고리에 매칭되는 형태소의 가중치를 합산하고, 가중치의 합이 가장 높은 카테고리에 수집된 컨텐츠를 하위 컨텐츠로 분류한다.
도8 에서는 컨텐츠 분류 장치(400)를 별도의 장치로 도시되었으나, 컨텐츠 분류 장치(400)는 온라인 서비스 서버(300)에 포함되어 구성될 수 있으며, 경우에 따라서는 데이터베이스(database)로서 구현될 수도 있다.
이상에서 전술한 본 발명의 실시예에 따른 형태소 기반 컨텐츠분류방법 및 장치는, 단말에 기본적으로 설치된 애플리케이션(이는 단말에 기본적으로 탑재된 플랫폼이나 운영체제 등에 포함된 프로그램을 포함할 수 있음)에 의해 실행될 수 있고, 사용자가 애플리케이션 스토어 서버, 애플리케이션 또는 해당 서비스와 관련된 웹 서버 등의 애플리케이션 제공 서버를 통해 단말에 직접 설치한 애플리케이션(즉, 프로그램)에 의해 실행될 수도 있다. 이러한 의미에서, 전술한 본 발명의 실시예에 따른 형태소 기반 컨텐츠분류방법은 단말에 기본적으로 설치되거나 사용자에 의해 직접 설치된 애플리케이션(즉, 프로그램)으로 구현되고 단말 등의 컴퓨터로 읽을 수 있는 기록매체에 기록될 수 있다.
이러한 프로그램은 컴퓨터에 의해 읽힐 수 있는 기록매체에 기록되고 컴퓨터에 의해 실행됨으로써 전술한 기능들이 실행될 수 있다.
이와 같이, 본 발명의 각 실시예에 따른 형태소 기반 컨텐츠분류방법을 실행시키기 위하여, 전술한 프로그램은 컴퓨터의 프로세서(CPU)가 읽힐 수 있는 C, C++, JAVA, 기계어 등의 컴퓨터 언어로 코드화된 코드(Code)를 포함할 수 있다.
이러한 코드는 전술한 기능들을 정의한 함수 등과 관련된 기능적인 코드(Function Code)를 포함할 수 있고, 전술한 기능들을 컴퓨터의 프로세서가 소정의 절차대로 실행시키는데 필요한 실행 절차 관련 제어 코드를 포함할 수도 있다.
또한, 이러한 코드는 전술한 기능들을 컴퓨터의 프로세서가 실행시키는데 필요한 추가 정보나 미디어가 컴퓨터의 내부 또는 외부 메모리의 어느 위치(주소 번지)에서 참조 되어야 하는지에 대한 메모리 참조 관련 코드를 더 포함할 수 있다.
또한, 컴퓨터의 프로세서가 전술한 기능들을 실행시키기 위하여 원격(Remote)에 있는 어떠한 다른 컴퓨터나 서버 등과 통신이 필요한 경우, 코드는 컴퓨터의 프로세서가 컴퓨터의 통신 모듈(예: 유선 및/또는 무선 통신 모듈)을 이용하여 원격(Remote)에 있는 어떠한 다른 컴퓨터나 서버 등과 어떻게 통신해야만 하는지, 통신 시 어떠한 정보나 미디어를 송수신해야 하는지 등에 대한 통신 관련 코드를 더 포함할 수도 있다.
그리고, 본 발명을 구현하기 위한 기능적인(Functional) 프로그램과 이와 관련된 코드 및 코드 세그먼트 등은, 기록매체를 읽어서 프로그램을 실행시키는 컴퓨터의 장치 환경 등을 고려하여, 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론되거나 변경될 수도 있다.
이상에서 전술한 바와 같은 프로그램을 기록한 컴퓨터로 읽힐 수 있는 기록매체는, 일 예로, ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 미디어 저장장치 등이 있다.
또한 전술한 바와 같은 프로그램을 기록한 컴퓨터로 읽힐 수 있는 기록매체는 네트워크로 커넥션된 컴퓨터 장치에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 이 경우, 다수의 분산된 컴퓨터 중 어느 하나 이상의 컴퓨터는 상기에 제시된 기능들 중 일부를 실행하고, 그 결과를 다른 분산된 컴퓨터들 중 하나 이상에 그 실행 결과를 전송할 수 있으며, 그 결과를 전송받은 컴퓨터 역시 상기에 제시된 기능들 중 일부를 실행하여, 그 결과를 역시 다른 분산된 컴퓨터들에 제공할 수 있다.
특히, 본 발명의 각 실시예에 따른 형태소 기반 컨텐츠분류방법을 실행시키기 위한 프로그램인 애플리케이션을 기록한 컴퓨터로 읽을 수 있는 기록매체는, 애플리케이션 스토어 서버(Application Store Server), 애플리케이션 또는 해당 서비스와 관련된 웹 서버 등의 애플리케이션 제공 서버(Application Provider Server)에 포함된 저장매체(예: 하드디스크 등)이거나, 애플리케이션 제공 서버 그 자체일 수도 있다.
본 발명의 각 실시예에 따른 형태소 기반 컨텐츠분류방법을 실행시키기 위한 프로그램인 애플리케이션을 기록한 기록매체를 읽을 수 있는 컴퓨터는, 일반적인 데스크 탑이나 노트북 등의 일반 PC 뿐만 아니라, 스마트 폰, 태블릿 PC, PDA(Personal Digital Assistants) 및 이동통신 단말 등의 모바일단말을 포함할 수 있으며, 이뿐만 아니라, 컴퓨팅(Computing) 가능한 모든 기기로 해석되어야 할 것이다.
또한, 본 발명의 실시예에 따른 형태소 기반 컨텐츠분류방법을 실행시키기 위한 프로그램인 애플리케이션을 기록한 기록매체를 읽을 수 있는 컴퓨터가 스마트 폰, 태블릿 PC, PDA(Personal Digital Assistants) 및 이동통신 단말 등의 모바일단말인 경우, 애플리케이션은 애플리케이션 제공 서버에서 일반 PC로 다운로드 되어 동기화 프로그램을 통해 모바일단말에 설치될 수도 있다.
이상에서, 본 발명의 실시예를 구성하는 모든 구성 요소들이 하나로 결합되거나 결합되어 동작하는 것으로 설명되었다고 해서, 본 발명이 반드시 이러한 실시예에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위 안에서라면, 그 모든 구성 요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다. 또한, 그 모든 구성 요소들이 각각 하나의 독립적인 하드웨어로 구현될 수 있지만, 각 구성 요소들의 그 일부 또는 전부가 선택적으로 조합되어 하나 또는 복수 개의 하드웨어에서 조합된 일부 또는 전부의 기능을 수행하는 프로그램 모듈을 갖는 컴퓨터 프로그램으로서 구현될 수도 있다. 그 컴퓨터 프로그램을 구성하는 코드들 및 코드 세그먼트들은 본 발명의 기술 분야의 당업자에 의해 용이하게 추론될 수 있을 것이다. 이러한 컴퓨터 프로그램은 컴퓨터가 읽을 수 있는 저장매체(Computer Readable Media)에 저장되어 컴퓨터에 의하여 읽혀지고 실행됨으로써, 본 발명의 실시예를 구현할 수 있다. 컴퓨터 프로그램의 저장매체로서는 자기 기록매체, 광 기록매체, 등이 포함될 수 있다.
또한, 이상에서 기재된 "포함하다", "구성하다" 또는 "가지다" 등의 용어는, 특별히 반대되는 기재가 없는 한, 해당 구성 요소가 내재될 수 있음을 의미하는 것이므로, 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것으로 해석되어야 한다. 기술적이거나 과학적인 용어를 포함한 모든 용어들은, 다르게 정의되지 않는 한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 사전에 정의된 용어와 같이 일반적으로 사용되는 용어들은 관련 기술의 문맥 상의 의미와 일치하는 것으로 해석되어야 하며, 본 발명에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims (21)

  1. 형태소 기반 컨텐츠 분류 장치가,
    온라인상에 제공된 컨텐츠를 수집하는 단계;
    상기 컨텐츠에 포함된 문자 정보로부터 각 문자에 포함된 적어도 하나의 형태소 및 하나의 형태소에 접사가 붙거나 두 개 이상의 형태소가 결합된 단위로서 복합어를 추출하는 단계;
    상기 적어도 하나의 형태소의 위치를 판별하는 단계;
    기설정된 사전 데이터베이스로부터 상기 적어도 하나의 형태소 각각에 대한 동의어를 검색하는 단계;
    상기 적어도 하나의 형태소의 위치에 따라, 적어도 하나의 형태소의 가중치를 부여하는 단계;
    상기 복합어 각각에 대해 가중치를 설정하는 단계;
    상기 컨텐츠를 분류하는 단위인 기설정된 적어도 하나의 카테고리 각각에 대해 상기 적어도 하나의 형태소 및 상기 복합어 각각을 상기 가중치 순서로 비교하여 상기 컨텐츠가 속하는 카테고리를 검색하는 단계; 및
    상기 컨텐츠를 상기 검색된 카테고리의 하위 컨텐츠로 분류하는 단계; 를 포함하는 형태소 기반 컨텐츠 분류 방법.
  2. 청구항 2은(는) 설정등록료 납부시 포기되었습니다.
    제1 항에 있어서,
    상기 추출하는 단계는,
    상기 컨텐츠의 제목에 포함된 문자 정보에서 적어도 하나의 단어를 획득하는 단계; 및
    상기 컨텐츠의 제목에 포함된 문자 정보에서 획득한 적어도 하나의 단어들로부터 상기 적어도 하나의 형태소를 순차적으로 획득하는 단계를 포함하는 것을 특징으로 하는 형태소 기반 컨텐츠 분류 방법.
  3. 제1 항에 있어서,
    상기 가중치를 설정하는 단계는,
    상기 적어도 하나의 형태소 및 상기 복합어 각각에 대해 넘버링을 수행하는 단계; 및
    상기 적어도 하나의 형태소에 대한 상기 넘버링 및 상기 복합어에 대한 상기 넘버링 각각에 대해 가중치를 설정하는 단계; 를 포함하는 것을 특징으로 하는 형태소 기반 컨텐츠 분류 방법.
  4. 제3 항에 있어서,
    상기 넘버링을 수행하는 단계는,
    상기 형태소 각각에 대해 상기 판별된 위치에 따라 상기 적어도 하나의 형태소 각각에 대해 1차 넘버링을 수행하는 단계;
    상기 복합어가 추출되는 경우, 상기 복합어에 대해 2차 넘버링을 수행하는 단계; 및
    상기 복합어가 추출되는 경우, 상기 1차 넘버링 및 상기 2차 넘버링을 조합하는 단계; 를 포함하는 것을 특징으로 하는 형태소 기반 컨텐츠 분류 방법.
  5. 청구항 5은(는) 설정등록료 납부시 포기되었습니다.
    제4 항에 있어서,
    상기 1차 넘버링을 수행하는 단계는,
    상기 적어도 하나의 형태소의 획득 순서에 따라 상기 1차 넘버링을 수행하는 것을 특징으로 하는 형태소 기반 컨텐츠 분류 방법.
  6. 청구항 6은(는) 설정등록료 납부시 포기되었습니다.
    제1 항에 있어서,
    상기 추출하는 단계 후,
    기설정된 사전 데이터베이스로부터 상기 적어도 하나의 형태소 각각에 대한 동의어를 검색하는 단계; 를 더 포함하는 것을 특징으로 하는 형태소 기반 컨텐츠 분류 방법.
  7. 청구항 7은(는) 설정등록료 납부시 포기되었습니다.
    제3항에 있어서,
    상기 넘버링을 수행하는 단계는,
    검색된 상기 동의어 각각에 대해 넘버링을 수행하는 것을 특징으로 하는 형태소 기반 컨텐츠 분류 방법.
  8. 청구항 8은(는) 설정등록료 납부시 포기되었습니다.
    제7 항에 있어서,
    상기 동의어 각각에 대해 넘버링을 수행하는 단계는,
    상기 동의어 각각에 대해 대응하는 상기 형태소와 동일한 넘버를 부여하는 것을 특징으로 하는 형태소 기반 컨텐츠 분류 방법.
  9. 제3 항에 있어서,
    상기 가중치를 설정하는 단계는,
    상기 적어도 하나의 형태소에 대한 상기 넘버링 각각에 상기 가중치를 설정하는 단계;
    상기 복합어에 대한 상기 넘버링 각각에 상기 가중치를 설정하는 단계; 및
    설정된 상기 가중치를 상기 추출된 형태소 및 복합어에 할당하는 단계; 를 포함하는 것을 특징으로 하는 형태소 기반 컨텐츠 분류 방법.
  10. 청구항 10은(는) 설정등록료 납부시 포기되었습니다.
    제9 항에 있어서,
    상기 복합어에 대한 상기 넘버링 각각에 설정되는 가중치를 상기 적어도 하나의 형태소에 대한 상기 넘버링 각각에 설정되는 가중치보다 높게 설정하는 것을 특징으로 하는 형태소 기반 컨텐츠 분류 방법.
  11. 제1 항에 있어서,
    상기 카테고리를 검색하는 단계는,
    상기 적어도 하나의 형태소 및 복합어를 상기 설정된 가중치 순서로 정렬하는 단계; 및
    상기 적어도 하나의 형태소 및 복합어 각각을 정렬된 순서에 따라 기설정된 적어도 하나의 카테고리 각각과 비교하는 단계; 를 포함하는 것을 특징으로 하는 형태소 기반 컨텐츠 분류 방법.
  12. 청구항 12은(는) 설정등록료 납부시 포기되었습니다.
    제11 항에 있어서,
    상기 하위 컨텐츠로 분류하는 단계는,
    검색된 카테고리가 복수개인 경우, 상기 카테고리들 중 상기 형태소 또는 복합어 중 가장 높은 가중치를 갖는 형태소 또는 복합어에 대응하는 카테고리를 선택하여 상기 컨텐츠를 상기 선택한 카테고리의 하위 컨텐츠로 분류하는 것을 특징으로 하는 형태소 기반 컨텐츠 분류 방법.
  13. 청구항 13은(는) 설정등록료 납부시 포기되었습니다.
    제12항에 있어서,
    상기 하위 컨텐츠로 분류하는 단계는
    상기 가장 높은 가중치를 갖는 형태소 또는 복합어에 대응하는 카테고리가 복수개 선택된 경우, 상기 선택된 카테고리들 각각에 매칭된 적어도 하나의 형태소 및 복합어에 대한 상기 가중치를 합산하는 단계; 및
    상기 컨텐츠를 상기 가중치의 합이 가장 높은 카테고리의 하위 요소로 분류하는 단계; 를 포함하는 것을 특징하는 형태소 기반 컨텐츠 분류 방법.
  14. 온라인상에 제공된 컨텐츠를 수집하는 컨텐츠수집부;
    상기 컨텐츠의 제목을 분석하여 적어도 하나의 형태소를 획득하고, 상기 컨텐츠의 제목에 포함된 문자 정보에서 획득된 형태소의 위치를 판별하는 형태소 추출부;
    동의어 사전이 저장되어 상기 적어도 하나의 획득한 형태소 각각에 대응하는 동의어를 검색하는 동의어 정보 저장부;
    상기 컨텐츠의 제목에 포함된 문자 정보에서 상기 적어도 하나의 형태소의 위치에 따라 획득된 형태소 각각의 가중치를 부여하는 가중치 설정부; 및
    상기 컨텐츠를 분류하는 단위인 기설정된 적어도 하나의 카테고리에 대한 정보를 저장하고, 상기 가중치가 설정된 상기 적어도 하나의 형태소 각각에 매칭되는 카테고리를 검색하여 검색된 카테고리의 하위 컨텐츠로 상기 컨텐츠 각각을 분류하는 카테고리 저장부;를 포함하는 형태소 기반 컨텐츠분류장치.
  15. 청구항 15은(는) 설정등록료 납부시 포기되었습니다.
    제14 항에 있어서,
    상기 형태소 추출부는,
    상기 컨텐츠의제목에 포함된 문자 정보에서 적어도 하나의 단어를 추출하여, 복합어가 존재하면 복합어를 획득하고, 상기 적어도 하나의 단어 각각에서 상기 형태소를 검색하여 제목에 표시된 순서대로 순차적으로 적어도 하나의 형태소를 획득하며, 상기 적어도 하나의 형태소의 획득 순서에 따라 1차 넘버링을 수행하고, 획득된 복합어에 대해 2차 넘버링을 수행하는 것을 특징으로 하는 형태소 기반 컨텐츠 분류 장치.
  16. 청구항 16은(는) 설정등록료 납부시 포기되었습니다.
    제15 항에 있어서,
    상기 형태소 추출부는,
    상기 동의어 정보 저장부로부터 획득된 상기 적어도 하나의 형태소 각각에 대한 상기 동의어가 획득되면, 상기 동의어에 대해서 넘버링을 수행 것을 특징으로 하는 형태소 기반 컨텐츠 분류 장치.
  17. 청구항 17은(는) 설정등록료 납부시 포기되었습니다.
    제16 항에 있어서,
    상기 형태소 추출부는,
    상기 동의어에 대해 대응하는 형태소와 동일한 넘버링을 부여하는 것을 특징으로 하는 형태소 기반 컨텐츠 분류 장치.
  18. 제15 항에 있어서,
    상기 가중치 설정부는,
    상기 적어도 하나의 형태소 및 복합어에 부여된 상기 1차 넘버링 및 상기 2차 넘버링에 따라 서로 다른 가중치를 부여하고, 상기 2차 넘버링에 대해 상기 1차 넘버링 보다 높은 가중치를 부여하는 것을 특징으로 하는 형태소 기반 컨텐츠분류장치.
  19. 청구항 19은(는) 설정등록료 납부시 포기되었습니다.
    제18 항에 있어서,
    상기 카테고리 저장부는,
    상기 가중치가 설정된 복합어 또는 상기 적어도 하나의 형태소를 상기 가중치가 높은 순서부터 차례로 기설정된 복수개의 카테고리와 비교하여 매칭되는 카테고리를 검색하고, 상기 매칭되는 카테고리가 존재하지 않으면, 가장 높은 가중치를 갖는 상기 복합어 또는 상기 적어도 하나의 형태소에 대응하는 카테고리를 생성하는 것을 특징으로 하는 형태소 기반 컨텐츠 분류 장치.
  20. 청구항 20은(는) 설정등록료 납부시 포기되었습니다.
    제19 항에 있어서,
    상기 카테고리 저장부는,
    상기 매칭되는 카테고리가 복수개인 경우, 상기 카테고리들 중 상기 형태소 또는 복합어 중 가장 높은 가중치를 갖는 형태소 또는 복합어에 대응하는 카테고리를 선택하여 상기 컨텐츠를 상기 선택된 카테고리의 하위 컨텐츠로 분류하는 것을 특징으로 하는 형태소 기반 컨텐츠 분류 장치.
  21. 형태소 기반 컨텐츠 분류 장치가,
    온라인상에 제공된 컨텐츠를 수집하는 단계;
    상기 컨텐츠에 포함된 문자 정보로부터 각 문자에 포함된 적어도 하나의 형태소 및 하나의 형태소에 접사가 붙거나 두 개 이상의 형태소가 결합된 단위로서 복합어를 추출하는 단계;
    상기 적어도 하나의 형태소의 위치를 판별하는 단계;
    기설정된 사전 데이터베이스로부터 상기 적어도 하나의 형태소 각각에 대한 동의어를 검색하는 단계;
    상기 적어도 하나의 형태소의 위치에 따라, 적어도 하나의 형태소의 가중치를 부여하는 단계;
    상기 복합어 각각에 대해 가중치를 설정하는 단계;
    상기 컨텐츠를 분류하는 단위인 기설정된 적어도 하나의 카테고리 각각에 대해 상기 적어도 하나의 형태소 및 상기 복합어 각각을 상기 가중치 순서로 비교하여 상기 컨텐츠가 속하는 카테고리를 검색하는 단계; 및
    상기 컨텐츠를 상기 검색된 카테고리의 하위 컨텐츠로 분류하는 단계; 를 포함하는 형태소 기반 컨텐츠 분류 방법을 구현하기 위한 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록 매체.
KR1020120026183A 2012-03-14 2012-03-14 형태소 기반 컨텐츠분류 방법 및 장치 KR101393604B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020120026183A KR101393604B1 (ko) 2012-03-14 2012-03-14 형태소 기반 컨텐츠분류 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120026183A KR101393604B1 (ko) 2012-03-14 2012-03-14 형태소 기반 컨텐츠분류 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20130104573A KR20130104573A (ko) 2013-09-25
KR101393604B1 true KR101393604B1 (ko) 2014-05-09

Family

ID=49453383

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120026183A KR101393604B1 (ko) 2012-03-14 2012-03-14 형태소 기반 컨텐츠분류 방법 및 장치

Country Status (1)

Country Link
KR (1) KR101393604B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160040341A (ko) * 2014-10-02 2016-04-14 키위플 주식회사 지역 상권 흐름 분석 방법 및 이를 수행하기 위한 시스템

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102150049B1 (ko) * 2019-12-09 2020-08-31 김민수 디지털 사이니지용 동영상 콘텐츠 제공 방법 및 서버

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003167914A (ja) * 2001-11-30 2003-06-13 Fujitsu Ltd マルチメディア情報検索方法、プログラム、記録媒体及びシステム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003167914A (ja) * 2001-11-30 2003-06-13 Fujitsu Ltd マルチメディア情報検索方法、プログラム、記録媒体及びシステム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160040341A (ko) * 2014-10-02 2016-04-14 키위플 주식회사 지역 상권 흐름 분석 방법 및 이를 수행하기 위한 시스템
KR101715737B1 (ko) 2014-10-02 2017-03-14 키위플 주식회사 지역 상권 흐름 분석 방법 및 이를 수행하기 위한 시스템

Also Published As

Publication number Publication date
KR20130104573A (ko) 2013-09-25

Similar Documents

Publication Publication Date Title
JP4909334B2 (ja) サービス提案装置及びその方法、サービス提案システム、ユーザのお気に入りベースに基づくサービス提案装置及びその方法
CN107862022B (zh) 文化资源推荐系统
CN105069103B (zh) App搜索引擎利用用户评论的方法及系统
CN110019794B (zh) 文本资源的分类方法、装置、存储介质及电子装置
KR101100830B1 (ko) 인터넷을 활용한 개체 검색과 이를 위한 하이브리드 기반의 의견분석 시스템 및 그 방법
US10152478B2 (en) Apparatus, system and method for string disambiguation and entity ranking
JP2010129061A (ja) インデックス生成システム、情報検索システム、及びインデックス生成方法
KR100485321B1 (ko) 검색 엔진에서 등록된 웹사이트를 관리하기 위한 방법 및그 시스템
CN110569496A (zh) 实体链接方法、装置及存储介质
KR101735312B1 (ko) 소셜 미디어 분석을 기반으로 복합이슈를 탐지하기 위한 장치, 시스템 및 그 방법
KR20200049193A (ko) 콘텐츠 추천 방법 및 이를 지원하는 서비스 장치
JP4569380B2 (ja) ベクトル生成方法及び装置及びカテゴリ分類方法及び装置及びプログラム及びプログラムを格納したコンピュータ読み取り可能な記録媒体
KR20160066216A (ko) 사용자 검색어 연관 이슈패턴 검출 방법, 이를 수행하는 이슈패턴 검출 서버 및 이를 저장하는 기록매체
KR101624420B1 (ko) 검색 대상의 관련 키워드를 이용한 검색 방법 및 시스템
JP5302614B2 (ja) 施設関連情報の検索データベース形成方法および施設関連情報検索システム
KR101976816B1 (ko) SaaS 어플리케이션 연동 서비스의 제공장치 및 그 제공방법
KR20120003834A (ko) 인터넷을 활용한 개체 검색과 이를 위한 하이브리드 기반의 의견분석 시스템 및 그 방법
KR101393604B1 (ko) 형태소 기반 컨텐츠분류 방법 및 장치
KR101866411B1 (ko) 문서 추천 정보를 제공하는 방법 및 이를 이용하는 문서 추천 정보 제공 장치
CN110990705B (zh) 一种新闻处理方法、装置、设备及介质
JP5321258B2 (ja) 情報収集システムおよび情報収集方法ならびにそのプログラム
JP4759600B2 (ja) 文章検索装置、文章検索方法、文章検索プログラムおよびその記録媒体
KR101958555B1 (ko) 검색 결과 제공 장치 및 방법
KR101918358B1 (ko) 맞춤형 정보를 제공하는 데이터 센터 시스템
JP5518665B2 (ja) 特許検索装置、特許検索方法、およびプログラム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee