KR20220109886A - 유의어에 기반한 콘텐츠 클러스터링 시스템 및 그 방법 - Google Patents

유의어에 기반한 콘텐츠 클러스터링 시스템 및 그 방법 Download PDF

Info

Publication number
KR20220109886A
KR20220109886A KR1020210013444A KR20210013444A KR20220109886A KR 20220109886 A KR20220109886 A KR 20220109886A KR 1020210013444 A KR1020210013444 A KR 1020210013444A KR 20210013444 A KR20210013444 A KR 20210013444A KR 20220109886 A KR20220109886 A KR 20220109886A
Authority
KR
South Korea
Prior art keywords
content
tags
tag
unit
anchor
Prior art date
Application number
KR1020210013444A
Other languages
English (en)
Other versions
KR102479381B1 (ko
Inventor
장준도
김상원
이종영
Original Assignee
인하대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인하대학교 산학협력단 filed Critical 인하대학교 산학협력단
Priority to KR1020210013444A priority Critical patent/KR102479381B1/ko
Publication of KR20220109886A publication Critical patent/KR20220109886A/ko
Application granted granted Critical
Publication of KR102479381B1 publication Critical patent/KR102479381B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 유의어에 기반한 콘텐츠 클러스터링 시스템에 관한 것으로써, 유의어에 기반하여 콘텐츠 요소들을 분류하여 데이터베이스를 구축하기 위한 유의어에 기반한 콘텐츠 클러스터링 시스템 및 그 방법에 관한 것이다. 본 발명에 따르면, 유사한 의미를 지닌 동등한 수준의 표현에 대한 데이터베이스를 작성하고, 계층적으로 배치될 수 있는 표현의 범주가 다른 표현에 대한 데이터베이스를 분류하여 작성할 수 있는 효과가 있다.

Description

유의어에 기반한 콘텐츠 클러스터링 시스템 및 그 방법{System for content clustering based on thesaurus and method therefor}
본 발명은 유의어에 기반한 콘텐츠 클러스터링 시스템에 관한 것으로써, 더욱 상세하게는 유의어에 기반하여 콘텐츠 요소들을 분류하여 데이터베이스를 구축하기 위한 유의어에 기반한 콘텐츠 클러스터링 시스템 및 그 방법에 관한 것이다.
현재 인터넷의 발달로 사용자가 급속히 늘어가면서 웹 서비스 환경이 다양하게 변화하고 있다. 종래의 웹 서비스가 정적으로 수동적인데 반하여, 웹 서비스는 점차 동적이고 능동적으로 변화되고 있으며, 이러한 웹 서비스 변화의 흐름을 반영하기 위하여 웹 2.0이 도입되었다.
웹 2.0이란 정보의 개방을 통해 인터넷 사용자들 간의 정보 공유와 참여를 이끌어내고, 창조된 정보의 가치를 지속적으로 증대시키기 위하여 개발된 일련의 움직임을 의미한다. 즉, 웹 2.0에서는 개방적인 웹 환경을 기반으로 네티즌들이 자유롭게 참여하고, 콘텐츠를 생산 및 재창조, 공유할 수 있다.
웹 2.0에서 정보는 사용자에 의하여 생산되고, 사용자가 붙인 태그에 의해 정보가 체계화된다. 사용자들은 이러한 정보를 용이하게 공유할 수 있으며, 따라서 다양한 리소스들이 상호 연관된다. 이와 같이 웹 2.0 현상은 모든 인터넷 사이트의 필수 전략이 되었으며, 웹 2.0을 성공적으로 구현하기 위하여 다양한 기법들이 소개되고 있다.
이러한 기법들 중 하나가 태깅(tagging)이다. 태깅은 블로그와 같은 웹 문서로부터 이미지, 동영상과 같은 멀티미디어 콘텐츠에 까지 폭넓게 이용되고 있는데, 사용자가 자신이 생성한 콘텐츠에 태그를 붙임으로써 검색과 분류가 용이하게 이루어지도록 하는 것이다.
종래, 공개특허 2010-0013157에서 연관 태그에 기반한 태그 클러스터링 장치에 의하면, 태그 매핑 과정에서 동일 태그의 출현 빈도를 추출하고, 연관 태그 쌍들 중 임계치 이상의 빈도수를 가지는 연관 태그들만을 추출하여 태그 클러스터를 생성하여 동의어를 나타내는 태그들을 동일한 태그로 간주한다.
이러한 빈도 기반 텍스트 분석(Frequency Based Text Analysis)과 같은 통계적인 추측은 이론적으로 인간 활동에서 사용된 모든 언어 기록이 있다면 이 문제를 매우 잘 해결할 수 있으나 현실적으로는 수집 가능한 텍스트 정보에는 한계가 있고 지역, 연령, 관심 분야, 직종 등으로 나뉘어질 수 있는 언어 사용의 하위 그룹들의 특수한 언어 사용 습관은 이러한 일반론적 분석으로는 놓칠 수 있는 언어적 다양성을 가지고 있으며 이는 표현의 유사성을 예측하는 통계적 추측 방식에 사용되는 언어 데이터베이스도 모든 상황에서 동일한 것을 사용할 수는 없다는 문제가 있다.
공개특허 제10-2010-0013157호(2010.02.09)
본 발명은 상술한 문제를 해결하고자 고안한 것으로, 유사한 데이터를 다양한 언어적 메타 데이터로 정의하고 질의 데이터를 포괄적으로 인식하여 다양한 목적과 상황에서 의미적으로 분류하도록 하는 유의어에 기반한 콘텐츠 클러스터링 시스템 및 그 방법을 제공함에 목적이 있다.
본 발명의 일 측면에 따른 유의어에 기반한 콘텐츠 클러스터링 시스템은 소정의 모집단에 포함되는 콘텐츠 중, 동일 콘텐츠에 관련되는 태그를 추출하는 태그 추출부; 상기 태그 추출 과정에서 의미적으로 위계성을 갖는 계층형 구조에 태그를 배치하는 배치부; 상기 태그를 배치하는 과정에서 의미적으로 근접한 태그를 연결하는 앵커를 구성하는 앵커부; 상기 앵커부를 통한 연결에 대해 태그 개념의 연결 인접성에 가중치를 부여하여 연결 강도에 따라 개념을 분류하여 콘텐츠를 클러스터링하는 분류부;를 포함한다.
바람직하게 태그 추출부는 사용자의 텍스트 형태 질의(Query)에 기반하여 검색결과를 보여주기 위해 텍스트 형태의 미리 정의된 태깅 정보를 포함하는 콘텐츠 중, 동일 콘텐츠에 관련되는 태그를 추출하나.
바람직하게 상기 분류부는 콘텐츠의 원본 데이터와 함께 데이터의 내용을 언어적으로 설명하기 위한 태그 또는 설명을 포함하는 메타 데이터가 연동되어 저장되도록 한다.
바람직하게 상기 배치부는 태그 추출 과정에서 각 개념들이 의미적으로 위계성을 갖는 계층형 구조에 배치하여 포함 관계와 유의어 관계를 데이터베이스 상에 저장한다.
바람직하게 상기 앵커부는 태그를 배치하는 과정에서 의미적으로 근접한 태그를 횡적으로 연결되는 앵커를 구성하여 인접 개념을 연결한다.
한편, 유의어에 기반한 콘텐츠 클러스터링 방법은 (a)소정의 모집단에 포함되는 콘텐츠 중, 동일 콘텐츠에 관련되는 태그를 추출하는 단계; (b)상기 태그 추출 과정에서 의미적으로 위계성을 갖는 계층형 구조에 태그를 배치하는 단계; (c)상기 태그를 배치하는 과정에서 의미적으로 근접한 태그를 연결하는 앵커를 구성하는 단계; (d)상기 앵커부를 통한 연결에 대해 태그 개념의 연결 인접성에 가중치를 부여하고 연결 강도에 따라 개념을 분류하여 콘텐츠를 클러스터링하는 분류단계;를 포함한다.
본 발명의 일 실시예에 따른 유의어에 기반한 콘텐츠 클러스터링 시스템에 의하면, 유사한 데이터를 다양한 언어적 메타 데이터로 정의하여 질의 데이터를 포괄적으로 인식하여 다양한 목적과 상황에서 의미적으로 분류할 수 있는 효과가 있다.
도 1은 본 발명의 일 실시예에 따른 유의어에 기반한 콘텐츠 클러스터링 시스템의 구성을 나타낸 도면이다.
도 2는 본 발명의 일 실시예에 따른 유의어에 기반한 콘텐츠 클러스터링 시스템의 텍스트 정보 태깅을 나타낸 도면이다.
도 3은 영상에 표시되는 이미지의 범주를 나타낸 도면이다.
도 4는 유의어지만 데이터베이스 상의 표기가 달라지는 상황을 나타낸 도면이다.
도 5는 단어와 단어 간의 연관성을 나타낸 도면이다.
도 6은 본 발명의 일 실시예에 따른 유의어에 기반한 콘텐츠 클러스터링 시스템의 계층형 배치 구조와 앵커 연결을 설명하기 위한 도면이다.
도 7은 본 발명의 일 실시예에 따른 유의어에 기반한 콘텐츠 클러스터링 방법을 나타낸 흐름도이다.
본 발명의 실시예에서 제시되는 특정한 구조 내지 기능적 설명들은 단지 본 발명의 개념에 따른 실시예를 설명하기 위한 목적으로 예시된 것으로, 본 발명의 개념에 따른 실시예들은 다양한 형태로 실시될 수 있다. 또한, 본 명세서에 설명된 실시예들에 한정되는 것으로 해석되어서는 아니 되며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경물, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
한편, 본 발명에서 제1 및/또는 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소들과 구별하는 목적으로만, 예컨대 본 발명의 개념에 따른 권리 범위로부터 벗어나지 않는 범위 내에서, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.
이하 첨부된 도면을 참조하여 본 발명의 실시예를 설명한다. 본 발명의 실시예를 설명함에 있어서, 관련된 공지기능 혹은 구성에 대한 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 설명을 생략하였다.
도 1은 본 발명의 일 실시예에 따른 유의어에 기반한 콘텐츠 클러스터링 시스템의 구성을 나타낸 도면이다. 도 1에 도시된 바와 같이, 유의어에 기반한 콘텐츠 클러스터링 시스템(10)은 태그 추출부(100), 배치부(200), 앵커부(300), 분류부(400)를 포함한다.
태그 추출부(100)는 소정의 모집단에 포함되는 콘텐츠 중, 동일 콘텐츠에 관련되는 태그를 추출한다. 이러한 태그 추출부는 사용자의 텍스트 형태 질의(Query)에 기반하여 검색결과를 보여주기 위해 텍스트 형태의 미리 정의된 태깅 정보를 포함하는 콘텐츠 중, 동일 콘텐츠에 관련되는 태그를 추출한다.
배치부(200)는 태그 추출 과정에서 의미적으로 위계성을 갖는 계층형 구조에 태그를 배치하는 구성이다. 이러한 배치부는 태그 추출 과정에서 각 개념들이 의미적으로 위계성을 갖는 계층형 구조에 배치하여 포함 관계와 유의어 관계를 데이터베이스 상에 저장한다.
앵커부(300)는 태그를 배치하는 과정에서 의미적으로 근접한 태그를 연결하는 앵커를 구성한다. 이러한 앵커부는 태그를 배치하는 과정에서 의미적으로 근접한 태그를 횡적으로 연결되는 앵커를 구성하여 인접 개념을 연결한다.
분류부(400)는 앵커부를 통한 연결에 대해 태그 개념의 연결 인접성에 가중치를 부여하여 연결 강도에 따라 개념을 분류하여 콘텐츠를 클러스터링한다. 이러한 분류부는 분류부는 콘텐츠의 원본 데이터와 함께 데이터의 내용을 언어적으로 설명하기 위한 태그 또는 설명을 포함하는 메타 데이터가 연동되어 저장되도록 한다. 또한 배치부는 태그 추출 과정에서 각 개념들이 의미적으로 위계성을 갖는 계층형 구조에 배치하여 포함 관계와 유의어 관계를 데이터베이스 상에 저장한다.
본 발명의 일 실시예에 따른 유의어에 기반한 콘텐츠 클러스터링 시스템은 서사적 스토리의 콘텐츠 요소들을 유의어에 기반하여 분류하고 데이터베이스화하는 방식으로 효율적인 데이터베이스를 구축하기 위해서는 다음과 같은 조건이 필요하다. 오디오, 비디오, 인터렉티브 콘텐츠 등의 라이브러리를 구성함에 있어 사용자의 텍스트 형태의 질의(Query)에 기반하여 검색결과를 보여주기 위해서는 텍스트 형태로 미리 정의된 태깅 정보가 필요하다. 이러한 비 언어적 데이터의 언어적 설명을 위해서는 원본 데이터와 함께 데이터의 내용을 언어적으로 설명하기 위한 태그(Tag)나 설명(Description)와 같은 메타 데이터(Meta Data)가 연동되어 저장되어야 한다. 언어적 태그 및 설명 정보는 비 언어적 데이터의 내용을 최대한 상세히 표현할 수 있어야 하며 이를 위해 적절한 조건의 분류 기준이 필요하다.
도 2는 본 발명의 일 실시예에 따른 유의어에 기반한 콘텐츠 클러스터링 시스템의 텍스트 정보 태깅을 나타낸 도면이다. 도 2는 영상에 대한 텍스트 정보 태깅의 사례를 나타낸 것으로 효율적인 데이터베이스를 구축하기 위해서 텍스트 형태로 미리 정의된 태깅 정보가 필요하고, 메타 데이터(Meta Data)가 연동되어 저장되어야 하며, 적절한 조건의 분류 기준이 필요하다.
하지만 이러한 각종 분류 조건에 대해 최대한 자세한 언어적 메타 데이터를 구성한다고 하더라도 유사한 정보에 대해서도 다양한 방식의 언어적 메타 데이터가 구성될 수 있다는 문제가 발생한다.
도 3은 영상 정보의 메타 데이터 구성에서 선택적으로, 혹은 동시에 사용될 수 있는 단어들의 예시이다. 도 3에 도시된 바와 같이, 영상에 표시되는 이미지는 범주가 다른 여러 어휘로 표현될 수 있다. 맥락에 따라 다른 태깅이 이루어질 경우 일반적인 방식의 SQL 쿼리로는 이러한 계층적 정보를 충분히 표현하기 어려워진다.
도 4는 같은 의미의 표현이지만 데이터베이스 상의 표기는 달라질 수 있는 상황으로 유의어지만 데이터베이스 상의 표기가 달라지는 상황을 나타낸 도면이고, 도 5는 단어와 단어 간의 연관성을 나타낸 도면이다. 도 5에 도시된 바와 같이, 어희의 개념이 수평적, 수직적 범주로 표현될 수 없는 상황의 예시가 있다. 단어와 단어 간의 연관성은 단순한 수직적 범주가 아닌 여러 척도를 가진 양적수치로 표현되어야 한다.
도 4와 도 5에 도시된 바와 같이, 메타 데이터는 인간의 수작업, 혹은 기계에 의한 자동 생성에 의해 작성될 수 있으나 이 두 가지 방법 모두 영상 정보의 특정 상황을 언어적으로 기술함에 있어 다양한 표현 중 하나, 혹은 일부를 선택해야 하는 상황에 놓이게 된다. 이러한 문제는 아래와 같은 원인으로 발생한다.
다른 표현이지만 의미적으로 유사하여 선택적으로 사용될 수 있는 경우, 의미적으로 더 상위에, 혹은 하위에 위치하여 동일한 대상을 지칭하나 해석될 수 있는 표현의 범주가 달라질 수 있는 경우, 복수의 어휘들이 동일한 대상을 지칭할 수 있지만 각 어휘가 규정하고 있는 의미의 범위는 서로 다를 경우를 포함한다.
이렇게 유사한 데이터를 다른 언어적 메타 데이터로 정의했을 경우 SQL과 같은 일반적인 형태의 데이터베이스의 기본 검색 질의만으로는 질의자에 의도에 따른 이 모든 유사한 데이터베이스의 포괄적인 검색 결과를 제공할 수 없게 된다. 이는 영상 데이터베이스를 다양한 목적과 상황에서 의미적으로 분류하는데 큰 장애가 되고 있으며 질의 데이터를 포괄적으로 인식할 수 있는 수단이 필요해짐을 의미한다.
빈도 기반 텍스트 분석(Frequency Based Text Analysis)과 같은 통계적인 추측은 이론적으로 인간 활동에서 사용된 모든 언어 기록이 있다면 이 문제를 매우 잘 해결할 수 있으나 현실적으로는 수집 가능한 텍스트 정보에는 한계가 있고 지역, 연령, 관심 분야, 직종 등으로 나뉘어질 수 있는 언어 사용의 하위 그룹들의 특수한 언어 사용 습관은 이러한 일반론적 분석으로는 놓칠 수 있는 언어적 다양성을 가지고 있으며 이는 표현의 유사성을 예측하는 통계적 추측 방식에 사용되는 언어 데이터베이스도 모든 상황에서 동일한 것을 사용할 수는 없다는 것을 의미한다.
도 6은 본 발명의 일 실시예에 따른 유의어에 기반한 콘텐츠 클러스터링 시스템의 계층형 배치 구조와 앵커 연결을 설명하기 위한 도면이다. 이러한 데이터베이스는 도 6과 같이 구성될 수 있다. 각 개념들은 의미적으로 위계성을 갖는 계층형 구조에 배치될 수 있으며 이를 통해 기본적인 포함 관계와 유의어 관계를 데이터베이스 상에 저장할 수 있다. 또한 위계적 개념으로 정의하기 힘든, 다른 위계상에 존재하지만 의미적으로는 근접한 인접한 개념의 경우에는 횡적으로 연결되는 앵커를 구성하여 가능한 모든 인접 개념을 연결할 수 있고 앵커의 연결에 대해 가중치를 부여하는 것으로 보다 긴밀한 연결과 인접성이 상대적으로 적은 막연한 연결의 연결 강도를 규정할 수 있다.
초기의 앵커 구성은 통계적 방식을 이용할 수 있으나 인간이 이해할 수 있는 시각화 된 연결성을 제공할 수 있는 본 방식은 인간의 지도학습을 통해 손쉬운 지도학습 절차를 이행함으로서 데이터 학습량이 적거나, 인반적 용도가 아닌 특수한 상황 속에서의 적절한 인접 개념들을 연결해야 할 필요가 있을 때에 빠른 개념 분류 기계를 구룩할 수 있게 된다.
도 6에 도시된 바와 같이, 위계적 관계를 가진 어휘, 또는 개념들에 대한 트리 구조형 배치로 상위 범주의 개념이 완전히 포괄할 수 없는 하위 개념에 대한 수평적 앵커를 생성하여 유기적인 연결을 제공한다. 유의어 각 개념들의 유의어 개념들에 대한 시각적인 직관적 view를 제공하는 디스플레이를 포함한다.
한편, 본 실시예에 따른 유의어에 기반한 콘텐츠 클러스터링 방법은 도 7에 도시된 바와 같이 (701)소정의 모집단에 포함되는 콘텐츠 중, 동일 콘텐츠에 관련되는 태그를 추출한다. 다음으로 (703)태그 추출 과정에서 의미적으로 위계성을 갖는 계층형 구조에 태그를 배치한다. 다음으로 (705)태그를 배치하는 과정에서 의미적으로 근접한 태그를 연결하는 앵커를 구성한다. 다음으로 (707)상기 앵커부를 통한 연결에 대해 태그 개념의 연결 인접성에 가중치를 부여하고 연결 강도에 따라 개념을 분류하여 콘텐츠를 클러스터링한다.
본 발명의 일 실시예에 따른 유의어에 기반한 콘텐츠 클러스터링 시스템의 기대효과를 설명하면 다음과 같다. 인간의 수집과 수정에 기반한 유의어 데이터베이스는 빅 데이터와 머신 러닝에 소요되는 스토리지, 컴퓨팅 자원 등에 대한 소요를 절약할 수 있으며 수집되는 콘텐츠의 형태에 따라 유연하게 수정될 수 있으며 무엇보다 연관 데이터 추천에 대한 근거를 데이터베이스 관리자가 직관적으로 확인하고 개선 사항을 추가할 수 있다는 장점을 가지고 있다. 빅 데이터에 기반한 통계 분석이 유의미하게 작동하기 위해서는 최소 수십 기가바이트 이상의 텍스트 정보를 보유하고, 지속적으로 업데이트 해야 하나 대부분의 프로젝트에서 이 정도 분량의 텍스트 정보는 실제 분석해야 하는 비디오 내의 내용 정보보다도 많은 양이 될 수 있고 수집된 텍스트 데이터가 영상 데이터베이스를 분석하는데 적합한 샘플인지의 여부도 증명은 불가하다는 점에서 유의어 데이터베이스에 기반한 확장된 검색 질의 방식은 상대적으로 중소규모의 프로젝트에서 큰 효용을 가진다고 할 수 있다.
본 발명의 일 실시예에 따른 유의어에 기반한 콘텐츠 클러스터링 시스템은 유사한 의미를 지닌 동등한 수준의 표현에 대한 데이터베이스를 작성하고, 계층적으로 배치될 수 있는 표현의 범주가 다른 표현에 대한 데이터베이스를 분류하여 작성할 수 있다.
이상에서 설명한 본 발명은 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니고, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능함은 당업자에게 명백할 것이다.
100 : 태그 추출부
200 : 배치부
300 : 앵커부
400 : 분류부

Claims (6)

  1. 소정의 모집단에 포함되는 콘텐츠 중, 동일 콘텐츠에 관련되는 태그를 추출하는 태그 추출부;
    상기 태그 추출 과정에서 의미적으로 위계성을 갖는 계층형 구조에 태그를 배치하는 배치부;
    상기 태그를 배치하는 과정에서 의미적으로 근접한 태그를 연결하는 앵커를 구성하는 앵커부;
    상기 앵커부를 통한 연결에 대해 태그 개념의 연결 인접성에 가중치를 부여하고 연결 강도에 따라 개념을 분류하여 콘텐츠를 클러스터링하는 분류부;를 포함하는 것을 특징으로 하는 유의어에 기반한 콘텐츠 클러스터링 시스템.
  2. 제1항에 있어서,
    상기 태그 추출부는 사용자의 텍스트 형태 질의(Query)에 기반하여 검색결과를 보여주기 위해 텍스트 형태의 미리 정의된 태깅 정보를 포함하는 콘텐츠 중, 동일 콘텐츠에 관련되는 태그를 추출하는 것을 특징으로 하는 유의어에 기반한 콘텐츠 클러스터링 시스템.
  3. 제1항에 있어서,
    상기 분류부는 콘텐츠의 원본 데이터와 함께 데이터의 내용을 언어적으로 설명하기 위한 태그 또는 설명을 포함하는 메타 데이터가 연동되어 저장되도록 하는 것을 특징으로 하는 유의어에 기반한 콘텐츠 클러스터링 시스템.
  4. 제1항에 있어서,
    상기 배치부는 태그 추출 과정에서 각 개념들이 의미적으로 위계성을 갖는 계층형 구조에 배치하여 포함 관계와 유의어 관계를 데이터베이스 상에 저장하는 것을 특징으로 하는 유의어에 기반한 콘텐츠 클러스터링 시스템.
  5. 제1항에 있어서,
    상기 앵커부는 태그를 배치하는 과정에서 의미적으로 근접한 태그를 횡적으로 연결되는 앵커를 구성하여 인접 개념을 연결하는 것을 특징으로 하는 유의어에 기반한 콘텐츠 클러스터링 시스템.
  6. (a)소정의 모집단에 포함되는 콘텐츠 중, 동일 콘텐츠에 관련되는 태그를 추출하는 단계;
    (b)상기 태그 추출 과정에서 의미적으로 위계성을 갖는 계층형 구조에 태그를 배치하는 단계;
    (c)상기 태그를 배치하는 과정에서 의미적으로 근접한 태그를 연결하는 앵커를 구성하는 단계;
    (d)상기 앵커부를 통한 연결에 대해 태그 개념의 연결 인접성에 가중치를 부여하고 연결 강도에 따라 개념을 분류하여 콘텐츠를 클러스터링하는 분류단계;를 포함하는 것을 특징으로 하는 유의어에 기반한 콘텐츠 클러스터링 방법.
KR1020210013444A 2021-01-29 2021-01-29 유의어에 기반한 콘텐츠 클러스터링 시스템 및 그 방법 KR102479381B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210013444A KR102479381B1 (ko) 2021-01-29 2021-01-29 유의어에 기반한 콘텐츠 클러스터링 시스템 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210013444A KR102479381B1 (ko) 2021-01-29 2021-01-29 유의어에 기반한 콘텐츠 클러스터링 시스템 및 그 방법

Publications (2)

Publication Number Publication Date
KR20220109886A true KR20220109886A (ko) 2022-08-05
KR102479381B1 KR102479381B1 (ko) 2022-12-19

Family

ID=82826705

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210013444A KR102479381B1 (ko) 2021-01-29 2021-01-29 유의어에 기반한 콘텐츠 클러스터링 시스템 및 그 방법

Country Status (1)

Country Link
KR (1) KR102479381B1 (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100013157A (ko) 2008-07-30 2010-02-09 주식회사 메디오피아테크 연관 태그에 기반한 태그 클러스터링 장치 및 그 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100013157A (ko) 2008-07-30 2010-02-09 주식회사 메디오피아테크 연관 태그에 기반한 태그 클러스터링 장치 및 그 방법

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Seunghee Han, Comparative Study on Clustering Techniques for Clustering Related Tags, Journal of the Korean Library and Information Society, Vol. 43, No. 3, 2009. pp. 399-416 *
Sihwa Lee et al., Design and Implementation of Tag Clustering System for Efficient Image Search in Web2.0 Environment, Journal of Multimedia Society, Vol. 11, No. 8, Aug. 2008. pp. 1169-1178 *

Also Published As

Publication number Publication date
KR102479381B1 (ko) 2022-12-19

Similar Documents

Publication Publication Date Title
Dessì et al. Bridging learning analytics and cognitive computing for big data classification in micro-learning video collections
Dessì et al. Generating knowledge graphs by employing natural language processing and machine learning techniques within the scholarly domain
Deng et al. Adapting sentiment lexicons to domain-specific social media texts
Aggarwal et al. An introduction to text mining
Ittoo et al. Text analytics in industry: Challenges, desiderata and trends
Losiewicz et al. Textual data mining to support science and technology management
Clark et al. Automatically structuring domain knowledge from text: An overview of current research
US10664530B2 (en) Control of automated tasks executed over search engine results
Ghazi et al. Prior and contextual emotion of words in sentential context
Simoff et al. Ontology-based multimedia data mining for design information retrieval
Salatino et al. Improving editorial workflow and metadata quality at springer nature
Shiri Linked data meets big data: A knowledge organization systems perspective
KR102421904B1 (ko) 재난사고 원인분석의 고도화 방법
Limsettho et al. Unsupervised bug report categorization using clustering and labeling algorithm
Rinaldi et al. Using a multimedia semantic graph for web document visualization and summarization
Noubours et al. NLP as an essential ingredient of effective OSINT frameworks
Moreo et al. FAQtory: A framework to provide high-quality FAQ retrieval systems
Al-Natsheh et al. Metadata enrichment of multi-disciplinary digital library: a semantic-based approach
Zhang et al. The xLiMe system: Cross-lingual and cross-modal semantic annotation, search and recommendation over live-TV, news and social media streams
Aguiar et al. A categorization of technological approaches to concept maps construction
KR102479381B1 (ko) 유의어에 기반한 콘텐츠 클러스터링 시스템 및 그 방법
Wang et al. Dynamic word clouds: Context-based word clouds of presentation slides for quick browsing
Tissaoui et al. Probabilistic topic models for enriching ontology from texts
Andreasen et al. The power and potentials of Flexible Query Answering Systems: A critical and comprehensive analysis
Raftopoulou et al. Semantic similarity measures: A comparison study

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
GRNT Written decision to grant