KR101271171B1 - 사용자가 선정한 키워드에 기반한 콘텐츠 관련정보 제공장치 및 방법 - Google Patents

사용자가 선정한 키워드에 기반한 콘텐츠 관련정보 제공장치 및 방법 Download PDF

Info

Publication number
KR101271171B1
KR101271171B1 KR1020110052252A KR20110052252A KR101271171B1 KR 101271171 B1 KR101271171 B1 KR 101271171B1 KR 1020110052252 A KR1020110052252 A KR 1020110052252A KR 20110052252 A KR20110052252 A KR 20110052252A KR 101271171 B1 KR101271171 B1 KR 101271171B1
Authority
KR
South Korea
Prior art keywords
content
user
keyword
contents
similarity
Prior art date
Application number
KR1020110052252A
Other languages
English (en)
Other versions
KR20120133546A (ko
Inventor
양재영
이세진
권세형
Original Assignee
삼성에스디에스 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성에스디에스 주식회사 filed Critical 삼성에스디에스 주식회사
Priority to KR1020110052252A priority Critical patent/KR101271171B1/ko
Publication of KR20120133546A publication Critical patent/KR20120133546A/ko
Application granted granted Critical
Publication of KR101271171B1 publication Critical patent/KR101271171B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

사용자가 선정한 키워드에 기반한 콘텐츠 관련정보 제공장치 및 방법이 개시된다. 키워드 수신부는 사용자 단말로부터 사용자에게 제공되는 콘텐츠에 대해 사용자가 선정한 키워드를 수신한다. 요약정보 생성부는 콘텐츠에 대해 고유하게 부여된 콘텐츠 코드와 복수의 사용자 단말로부터 수신된 콘텐츠에 대응하는 키워드 집합을 포함하는 요약정보를 생성한다. 유사도 산출부는 복수의 콘텐츠 각각에 대해 생성된 요약정보에 포함되어 있는 키워드 집합을 기초로 복수의 콘텐츠 사이의 유사도를 산출한다. 본 발명에 따르면, 사용자는 콘텐츠에 존재하는 모든 키워드를 검색하지 않고 필요한 단어들만으로 검색을 수행하여 기존의 검색보다 빠르고 정확하게 검색을 수행할 수 있다.

Description

사용자가 선정한 키워드에 기반한 콘텐츠 관련정보 제공장치 및 방법{Apparatus and method for providing content-related information based on user-selected keywords}
본 발명은 사용자가 선정한 키워드에 기반한 콘텐츠 관련정보 제공장치 및 방법에 관한 것으로, 보다 상세하게는 사용자가 이용하는 콘텐츠와 다른 복수의 콘텐츠 간의 유사도를 분석하여 관련 있는 콘텐츠를 추천하는 콘텐츠 관련정보 제공장치 및 방법에 관한 것이다.
현대 사회에서는 웹 2.0 및 위키(Wiki)를 바탕으로 사용자 참여형 서비스가 증가하고 있으며 이를 통해 생산되는 정보의 양 또한 기하급수적으로 증가하고 있다. 이러한 정보의 홍수 속에서, 보다 효율적이고 효과적으로 정보를 찾는 방법에 대한 요구는 꾸준히 늘어나고 있다.
종래의 일반적인 검색이나 관련정보 추천 시스템은 전자문서에 나타난 모든 키워드를 추출하고 빈도 수를 계산하여 가중치를 부여하는 것으로, 사용자의 질의어와 문서에 나타난 가중치가 부여된 단어 간의 유사도 검사를 통해 유사한 전자문서 순서대로 검색결과를 제공한다. 또 다른 종래 기술은 문서 전체에서 단어들을 추출하고 이를 기반으로 클러스터링 알고리즘을 사용하여 클러스터를 생성한 후, 같은 클러스터 안에 존재하는 문서들을 관련문서로 추천하는 것이다.
그러나 이러한 종래의 기술들은, 문서는 단어의 집합으로 볼 수 있으며 이러한 단어의 집합에서 핵심주제 및 주제어를 제외한 다른 단어들로 인해 핵심주제 및 주제어의 중요도가 고려되지 못하는 문제점을 가진다. 일반적으로 문서에 나타나는 모든 단어들이 같은 중요도를 가진다는 가정을 바탕으로 단어들의 발생 빈도 수를 기초로 관련문서를 추천하기 때문에 추천 결과의 신뢰도가 현저하게 떨어지는 현상이 발생한다.
즉 기계적인 방식으로 핵심주제 또는 주제어를 찾는 것은 컴퓨팅 파워를 늘려야 하는 등 많은 문제를 발생시키고, 핵심주제 또는 주제어의 정확성에 대한 신뢰도도 떨어지게 된다.
최근의 도서 검색 기술인 구글 북스(Google Books)는 문서에서 인용부호로 둘러싸인 문장을 추출하고 다른 도서에 같은 문장이 있는가를 판단하여, 어떤 도서가 피인용이 많이 되었는지를 판단해 이를 관련도서로 추천한다. 인용부호는 원문에서 인용한 부분이므로 부분수정을 할 수 없기 때문에 스코어 함수를 이용한 유사도 측정이 아닌 완전 매치(exact-match) 방법을 이용하여 연관문서를 검색한다.
하지만 이러한 경우 인용을 하지 않은 도서에 대해서는 도서 추천을 하지 못하는 문제가 발생한다.
본 발명이 이루고자 하는 기술적 과제는, 종래의 시스템에서 문서 전체의 비교에 의해 발생하는 검색 및 추천 성능의 저하를 줄이고, 비교해야 할 단어의 수를 감소시켜 개선된 검색 및 추천의 속도를 갖는 콘텐츠 관련정보 제공장치 및 방법을 제공함에 있다.
본 발명이 이루고자 하는 다른 기술적 과제는, 종래의 시스템에서 문서 전체의 비교에 의해 발생하는 검색 및 추천 성능의 저하를 줄이고, 비교해야 할 단어의 수를 감소시켜 개선된 검색 및 추천의 속도를 갖는 콘텐츠 관련정보 제공방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공함에 있다.
상기의 기술적 과제를 달성하기 위한, 본 발명에 따른 사용자가 선정한 키워드에 기반한 콘텐츠 관련정보 제공장치는, 사용자 단말로부터 사용자에게 제공되는 콘텐츠에 대해 상기 사용자가 선정한 키워드를 수신하는 키워드 수신부; 상기 콘텐츠에 대해 고유하게 부여된 콘텐츠 코드, 복수의 사용자 단말로부터 수신된 상기 콘텐츠에 대응하는 키워드들로 이루어진 키워드 집합 및 각각의 콘텐츠에 대응하는 키워드들의 선정자 수를 포함하는 요약정보를 생성하는 요약정보 생성부; 및 상기 복수의 콘텐츠 각각에 대해 생성된 요약정보에 포함되어 있는 키워드 집합 중에서 상기 키워드별 선정자 수를 기준으로 사전에 설정된 개수만큼 키워드를 선정하여 이를 기초로 상기 복수의 콘텐츠 사이의 유사도를 산출하는 유사도 산출부;를 구비한다.
상기의 다른 기술적 과제를 달성하기 위한, 본 발명에 따른 사용자가 선정한 키워드에 기반한 콘텐츠 관련정보 제공방법은, 사용자 단말로부터 사용자에게 제공되는 콘텐츠에 대해 상기 사용자가 선정한 키워드를 수신하는 키워드 수신단계; 상기 콘텐츠에 대해 고유하게 부여된 콘텐츠 코드, 복수의 사용자 단말로부터 수신된 상기 콘텐츠에 대응하는 키워드들로 이루어진 키워드 집합 및 각각의 콘텐츠에 대응하는 키워드들의 선정자 수를 포함하는 요약정보를 생성하는 요약정보 생성단계; 및 상기 복수의 콘텐츠 각각에 대해 생성된 요약정보에 포함되어 있는 키워드 집합 중에서 상기 키워드별 선정자 수를 기준으로 사전에 설정된 개수만큼 키워드를 선정하여 이를 기초로 상기 복수의 콘텐츠 사이의 유사도를 산출하는 유사도 산출단계;를 갖는다.
본 발명에 따른 사용자가 선정한 키워드에 기반한 콘텐츠 관련정보 제공장치 및 방법에 의하면, 콘텐츠에 존재하는 모든 키워드를 검색하지 않고 필요한 단어들만으로 검색을 수행하여 기존의 검색보다 빠르고 정확하게 검색을 수행할 수 있다. 그리고 본 발명은 사용자들에 의해 콘텐츠의 주제에 해당하거나 핵심에 해당하는 키워드를 선별하고 이에 관련된 콘텐츠들을 추천할 수 있으므로, 기존의 추천 방식보다 사용자가 원하는 의미 있는 키워드 기반의 콘텐츠 추천이 가능하다. 또한 본 발명은 소셜 네트워크(social network)를 통해 다수의 사용자가 콘텐츠의 키워드를 선정하여 사용자에게 보다 다양하고 유익한 정보를 제공할 수 있게 된다.
구체적으로 본 발명은 다수의 사용자에 의해서 같은 콘텐츠 또는 다른 콘텐츠의 키워드를 이용하여 보다 효율적으로 검색을 하거나 관련 콘텐츠를 추천할 수 있다. 여기서 같은 콘텐츠에 다수의 사용자에 의해 선정된 키워드를 이용하면, 다른 각도로 콘텐츠를 해석한 여러 사용자의 의견이 반영된 요약 내용을 얻을 수 있으므로 사용자는 집단지성(collective intelligence)과 같은 효과를 얻을 수 있다. 또한 다른 콘텐츠에 다수의 사용자에 의해 선정된 키워드를 이용하면, 사용자는 현재 이용하는 콘텐츠와 유사한 다른 콘텐츠들을 더 빠르고 정확하게 얻을 수 있다. 즉, 소셜 네트워크를 이용하여 키워드를 선정하는 사용자가 많으면 많을수록 그리고 선정된 키워드가 많으면 많을수록 콘텐츠 관련정보 제공장치를 통해서 얻을 수 있는 정보의 신뢰도가 높아지게 된다.
도 1은 본 발명에 따른 사용자가 선정한 키워드에 기반한 콘텐츠 관련정보 제공장치에 대한 바람직한 실시예의 구성을 도시한 블록도,
도 2는 본 발명에 따른 사용자가 선정한 키워드에 기반한 콘텐츠 관련정보 제공방법에 대한 바람직한 실시예의 수행과정을 도시한 흐름도, 그리고,
도 3은 본 발명에 따른 사용자가 선정한 키워드에 기반한 콘텐츠 관련정보 제공시 클러스터를 생성하는 경우에 대한 바람직한 실시예의 수행과정을 도시한 흐름도이다.
이하에서 첨부된 도면들을 참조하여 본 발명에 따른 사용자가 선정한 키워드에 기반한 콘텐츠 관련정보 제공장치 및 방법의 바람직한 실시예에 대해 상세하게 설명한다.
도 1은 본 발명에 따른 사용자가 선정한 키워드에 기반한 콘텐츠 관련정보 제공장치(100)에 대한 바람직한 실시예의 구성을 도시한 블록도이다.
도 1을 참조하면, 본 발명에 따른 콘텐츠 관련정보 제공장치(100)는, 키워드 수신부(110), 요약정보 생성부(120), 유사도 산출부(130), 제1콘텐츠 추천부(140), 클러스터 생성부(150), 제2콘텐츠 추천부(160), 콘텐츠 제공부(170) 및 저장부(180)를 구비한다.
키워드 수신부(110)는 사용자 단말로부터 사용자에게 제공되는 콘텐츠에 대해 사용자가 선정한 키워드를 수신한다. 이를 위해 사용자 단말에는 사용자로부터 콘텐츠에 대해 사용자가 선정한 키워드를 입력받아 본 발명에 따른 콘텐츠 관련정보 제공장치(100)로 전송하는 기능을 수행하는 클라이언트 프로그램이 설치된다. 이러한 클라이언트 프로그램은 사용자에게 제공된 전자문서(PDF, Web Page, Word 등)에 직접적으로 사용자가 해당 전자문서와 관련된 키워드를 입력하거나 하이라이이팅(high-lighting)에 의해 키워드를 선정하는 기능을 수행한다. 하이라이팅은 사용자가 전자문서를 읽으면서 중요하다고 생각하는 부분에 하이라이트(highlight)를 부여하는 방법을 말한다. 또한 클라이언트 프로그램은 전자문서, 동영상 등의 콘텐츠에 대해 사용자가 선정한 키워드를 입력받는 문자입력창을 사용자 단말에 출력하여 사용자로부터 키워드를 입력받는 방식을 취할 수도 있다. 이러한 클라이언트 프로그램은 다른 프로그램(웹 브라우져, PDF reader 등)의 플러그 인(Plug-in) 형태 또는 단독 프로그램으로 구현될 수 있다.
요약정보 생성부(120)는 콘텐츠에 대해 고유하게 부여된 콘텐츠 코드와 복수의 사용자 단말로부터 수신된 콘텐츠에 대응하는 키워드 집합을 포함하는 요약정보를 생성한다. 콘텐츠 코드는 사용자 단말로부터 수신한 사용자에게 제공되는 콘텐츠를 다른 콘텐츠와 구별하기 위해 콘텐츠에 고유하게 부여된 식별정보이다. 이는 콘텐츠의 제목, URL, 간단한 기호나 번호 등으로 표현될 수 있다. 콘텐츠에 대응하는 키워드 집합은 하나의 콘텐츠에 대해 복수의 사용자 단말로부터 콘텐츠의 키워드로 선정된 키워드들의 집합이다.
한편, 요약정보에는 사용자 식별정보, 키워드별 선정자 수, 전자문서의 경우 키워드의 위치, 키워드 반복횟수 등이 포함될 수 있다. 사용자 식별정보는 콘텐츠에 대한 키워드를 선정한 사용자를 다른 사용자와 구별하기 위해 고유하게 부여된 값으로, 사용자 식별정보를 이용하여 요약정보의 신뢰도를 높이는 것이 가능하다. 즉, 사용자 중에서 키워드를 허위로 선정하는 사용자들의 사용자 식별정보를 기재한 블랙리스트를 생성하여 블랙리스트에 기재된 사용자가 선정한 키워드는 요약정보에서 배제하는 것이다.
키워드별 선정자 수는 콘텐츠의 키워드별로 이를 선정한 사용자의 수를 의미한다. 이러한 키워드별 선정자 수를 이용하여 본 발명에 따른 콘텐츠 관련정보 제공장치(100)는 동일한 콘텐츠를 제공받은 사용자의 사용자 단말에 대표적인 키워드를 전송할 수 있다. 구체적으로 사용자가 제공받은 콘텐츠에 다른 사용자들에 의해 선정된 콘텐츠에 대응하는 키워드 집합이 존재하는 경우, 키워드별 선정자의 수가 가장 많은 대표적인 키워드를 사용자에게 전송할 수 있다. 나아가 선정자의 수를 기준으로 선택된 키워드들을 사용하여 콘텐츠 사이의 유사도를 산출할 수 있다. 키워드의 위치는 전자문서 등 콘텐츠 자체에 키워드가 명시적으로 포함되는 경우, 콘텐츠 내에서 키워드의 위치를 명확히 나타내주는 값이다. 키워드 반복횟수는 콘텐츠 내에서 선정된 키워드가 반복되는 횟수로 키워드 위치의 개수와 같은 값을 갖게 된다. 만약, 하이라이팅에 의해 전자문서의 키워드를 선정하면, 요약정보는 표 1에 기재된 바와 같은 형태로 생성될 수 있다.
콘텐츠 코드 콘텐츠의
키워드
키워드의
위치
사용자
식별정보
키워드별
선정자 수
키워드
반복횟수
A cats 50,60 JH,JW 2 2
A dogs 40 JH,JW,IS 3 1
A rose 10 MP 1 1
표 1에 의하면, 콘텐츠 코드가 A인 전자문서의 키워드 집합은 cats, dogs, rose 이다. cats는 콘텐츠 코드가 A인 전자문서의 50번째, 60번째 존재하는 단어로 2번 반복되었고 사용자 식별코드가 JH와 JW인 사용자에 의해 선정되었기에 선정자 수는 2명이다. 이때 다른 사용자가 전자문서 A를 제공받은 경우 콘텐츠 관련정보 제공장치(100)는 키워드별 선정자의 수가 가장 많은 3에 해당하는 dogs를 전자문서 A의 대표적인 키워드로 전송할 수 있다. 그리고 MP가 블랙리스트에 존재하는 경우 MP가 선정한 rose는 콘텐츠의 키워드에서 제외시킬 수 있다.
유사도 산출부(130)는 복수의 콘텐츠 각각에 대해 생성된 요약정보에 포함되어 있는 키워드 집합을 기초로 복수의 콘텐츠 사이의 유사도를 산출한다. 이때 콘텐츠의 키워드를 기초로 콘텐츠 사이의 유사도를 산출하는 방식은 다양하게 설정될 수 있다. 유사도 산출 방식의 일 예로, 사용자에게 제공되는 콘텐츠와 다른 콘텐츠 사이에서 일치하는 키워드의 개수에 의해 유사도 값을 산출할 수 있다.
한편 유사도 산출부(130)는 요약정보 생성부(120)가 생성한 요약정보인 키워드별 선정자 수를 고려하여 유사도 값을 산출할 수 있다. 일 예로, 복수의 콘텐츠 각각에 대해 생성된 키워드 집합 중에서 키워드별 선정자 수를 기준으로 사전에 설정된 개수(예를 들면, 10개)만큼 키워드를 선정하고, 선정된 키워드들을 기초로 콘텐츠 사이의 유사도를 산출하는 방식이 채용될 수 있다. 콘텐츠의 키워드는 사용자에 의해 선정되므로 다수의 사용자에 의해 선정된 키워드가 콘텐츠의 대표적인 핵심 키워드에 해당할 가능성이 크다. 따라서, 선정된 키워드 중에서 키워드별 선정자 수가 가장 많은 키워드만을 비교하거나 키워드별 선정자 수가 많은 순서대로 몇 개의 키워드만을 비교하는 방법, 키워드별 선정자 수가 많은 키워드에 가중치를 부여하여 유사도를 산출하는 방법 등 키워드별 선정자 수를 고려하여 유사도 값을 산출할 수 있다. 일 예로, 하이라이팅에 의해 전자문서의 키워드를 선정하는 경우에 요약정보는 표 2에 기재된 바와 같은 형태로 생성될 수 있다.
콘텐츠 코드 콘텐츠의 키워드 키워드 반복횟수 키워드별 선정자 수
A cats 6 6
A dogs 7 2
B cats 5 5
B dogs 3 1
전자문서 사이의 동일한 키워드가 반복되는 수를 기초로 유사도 값을 산출하면, 전자문서 A와 전자문서 B는 동일한 키워드 cats가 5번, dogs가 3번 반복되기에 두 전자문서의 유사도 값은 8로 산출된다. 이와 달리 선정된 키워드 중에서 키워드별 선정자 수가 가장 많은 키워드만 비교하여 유사도 값을 산출하는 경우에, 전자문서 A와 전자문서 B 모두 cats 만이 키워드로 선택된다. 따라서 동일한 키워드 cats가 5번 반복되기에 두 전자문서의 유사도 값은 5로 산출된다.
제1콘텐츠 추천부(140)는 산출된 유사도를 기초로 사전에 설정된 개수만큼 콘텐츠를 선정하여 사용자 단말에 리스트를 제공한다. 이때, 제1콘텐츠 추천부(140)는 산출된 유사도를 기준으로 다양한 방식으로 선정된 콘텐츠를 추천할 수 있다. 구체적인 콘텐츠 추천 기준으로 '사전에 설정된 개수'의 의미는 추천되는 콘텐츠의 개수를 상수로 나타낸 것에 한정되지는 않는다. 예를 들면 유사도 값이 큰 순서대로 3개의 콘텐츠를 추천하도록 추천되는 콘텐츠의 개수를 상수로 설정할 수도 있고, 유사도 값이 사용자가 설정한 임계값 이상인 콘텐츠를 추천하거나 유사도 값이 큰 순서대로 상위 퍼센티지에 해당하는 콘텐츠를 추천하는 방법 등으로 설정하는 것도 포함된다.
클러스터 생성부(150)는 복수의 콘텐츠들을 복수의 콘텐츠 간의 유사도 값과 사전에 설정된 기준 값을 비교하여 그룹으로 분류한다. 구체적으로 유사도 값은 두 개의 콘텐츠 간에서 산출되기에 하나의 콘텐츠는 복수의 클러스터에 할당될 수 있다. 표 3에는 복수의 콘텐츠 사이의 유사도가 기재되어 있다.
콘텐츠 코드 콘텐츠 코드 두 콘텐츠 간의 유사도
A B 10
B C 9
C D 8
C A 7
B D 6
A C 5
표 4에는 표 3에 기재된 콘텐츠 간 유사도를 기초로 사전에 설정된 기준 값이 9인 경우 클러스터를 생성한 예가 기재되어 있다.
클러스터 1 클러스터 2
A,B,C A,B,C,D
표 4에서 볼 수 있듯이, 사전에 설정된 기준 값이 9인 경우에 클러스터 1은 유사도 값이 9 이상인 집합이고 클러스터 2는 유사도 값이 9 미만인 집합이다. 그리고 콘텐츠 코드 A,B,C 는 복수의 클러스터에 속하게 된다.
본 발명에서 클러스터를 생성하는 기준 값은 다양하게 설정될 수 있다. 예를 들면, 유사도 값이 큰 순서대로 상위 퍼센티지에 해당하는 콘텐츠로 클러스터를 생성하거나, 두 개 이상의 기준 값을 설정하여 다수의 클러스터로 분류할 수 있다.
제2콘텐츠 추천부(160)는 동일한 클러스터에 속하는 콘텐츠들 중에서 사전에 설정된 개수만큼 콘텐츠를 선정하여 사용자 단말에 리스트를 제공한다. 이때, 제2콘텐츠 추천부(160)는 다양한 방식으로 동일한 클러스터 내의 콘텐츠를 추천할 수 있다. 구체적인 콘텐츠 추천 기준으로 '사전에 설정된 개수'의 의미는 추천되는 콘텐츠의 개수를 상수로 나타낸 것에 한정되지는 않는다. 예를 들면 동일한 클러스터에 속하는 콘텐츠들 중에서 유사도 값이 큰 순서대로 3개의 콘텐츠를 추천하도록 추천되는 콘텐츠의 개수를 상수로 설정할 수도 있고, 유사도 값이 사용자가 설정한 임계값 이상인 콘텐츠를 추천하거나 유사도 값이 큰 순서대로 상위 퍼센티지에 해당하는 콘텐츠를 추천하는 방법 등으로 설정하는 것도 포함된다.
제2콘텐츠 추천부(160)와 제1콘텐츠 추천부(140)의 차이점은 제2콘텐츠 추천부(160)는 동일한 클러스터 내에 있는 콘텐츠들 중에서 추천한다는 점이다. 또한 제2콘텐츠 추천부(160)는 클러스터 내에 있는 콘텐츠를 추천하면서 유사도를 고려하며 추천하거나 유사도를 고려하지 않으며 추천할 수도 있다. 즉, 앞서 설명한 바와 같이 유사도를 고려할 수도 있으나 유사도를 고려하지 않고 클러스터 내에 있는 콘텐츠 중 임의의 몇 개를 선정하는 방법, 동일한 클러스터 내의 콘텐츠를 모두 추천하는 방법 등도 가능하다.
표 3과 표 4에 기재된 실시예를 기준으로 설명하면, 콘텐츠 코드 A와 유사한 콘텐츠를 추천하는 경우 제2콘텐츠 추천부(160)는 클러스터 1에 해당하는 B,C 중에서 사전에 설정된 개수에 따라 선정하여 추천할 수 있다. 또한 콘텐츠 코드 D와 유사한 콘텐츠를 추천하는 경우 제2콘텐츠 추천부(160)는 클러스터 2에 해당하는 A, B, C 중에서 사전에 설정된 개수에 따라 선정하여 추천할 수 있다. 이러한 제1콘텐츠 추천부(140)와 제2콘텐츠 추천부(160)는 하나의 콘텐츠 추천부로서 구현될 수 있다. 이 경우, 콘텐츠 추천부는 클러스터가 생성된 경우 동일한 클러스터 내의 콘텐츠를 사전에 설정되어 있는 기준에 의해 선정하여 콘텐츠 자체 또는 콘텐츠 리스트를 사용자 단말에 제공하고, 클러스터를 생성하지 않은 경우에는 유사도를 기준으로 콘텐츠를 선정하여 콘텐츠 자체 또는 콘텐츠 리스트를 사용자 단말에 제공한다.
콘텐츠 제공부(170)는 사용자 단말로부터 추천된 콘텐츠 리스트에 해당하는 콘텐츠 제공 요청이 있는 경우 해당 콘텐츠를 직접 제공해 준다. 사용자 단말로부터의 콘텐츠 제공 요청은 콘텐츠 제공부(170)에서 직접 수신하거나 키워드 수신부(110)에서 수신할 수도 있다. 이때 콘텐츠 제공부(170)는 해당 콘텐츠가 저장부(180)에 저장된 것인 경우 저장부(180)로부터 해당 콘텐츠를 독출하여 사용자 단말에 제공할 수 있다.
저장부(180)는 콘텐츠 관련정보 제공장치(100)의 수행과정에 있어서 필요한 정보들을 저장하는 역할을 한다. 저장부(180)는 콘텐츠 관련정보 제공장치(100) 내부에 위치하거나, 따로 데이터 베이스를 구축하여 외부에서 그 역할을 수행할 수도 있다. 구체적으로, 저장부(180)에는 키워드 수신부(110)로부터 선정된 키워드, 요약정보 생성부(120)에서 생성된 요약정보, 유사도 산출부(130)에서 산출된 유사도, 클러스터 생성부(150)에서 생성된 클러스터, 제1콘텐츠 추천부(140) 및 제2콘텐츠 추천부(160)에서 생성된 콘텐츠 추천 리스트가 저장된다.
도 2는 본 발명에 따른 사용자가 선정한 키워드에 기반한 콘텐츠 관련정보 제공방법에 대한 바람직한 실시예의 수행과정을 도시한 흐름도이다.
먼저, 키워드 수신부(110)는 사용자 단말로부터 사용자가 선정한 키워드를 수신한다(S200). 이때, 수신된 키워드는 대응하는 콘텐츠에 대해 부여된 콘텐츠 코드와 연계되어 저장부(180)에 저장되며, 부가적으로 해당 키워드를 선정한 사용자의 식별코드가 저장될 수 있다. 다음으로, 요약정보 생성부(120)는 저장부(180)에 저장되어 있는 정보를 기초로 각각의 콘텐츠에 대해 콘텐츠 코드, 해당 콘텐츠에 대해 각각의 사용자가 선정한 키워드들로 이루어진 키워드 집합을 포함하는 요약정보를 생성한다(S210). 생성된 요약정보는 저장부(180)에 저장된다. 요약정보의 구체적인 내용은 앞서 설명한 바와 같다.
다음으로, 유사도 산출부(130)는 요약정보를 기초로 콘텐츠들 사이의 유사도를 산출한다(S220). 콘텐츠 사이의 유사도 산출 방법은 전술한 바와 같으며, 산출된 유사도는 저장부(180)에 저장된다. 한편 유사도 산출부(130)에 의해 콘텐츠 사이의 유사도가 산출된 이후에 임의의 콘텐츠에 대한 키워드가 추가되거나 배제될 수 있다. 나아가 해당 시점까지 키워드가 입력되지 않은 콘텐츠에 대해서 최초로 사용자에 의해 선정된 키워드가 입력됨에 따라 해당 콘텐츠에 대한 요약정보가 새롭게 생성될 수 있다. 이러한 경우에 유사도의 갱신이 필요하며, 이를 위해 유사도 산출부(130)는 각각의 콘텐츠의 키워드가 변경(즉, 새로운 키워드의 추가, 또는 기존재하는 콘텐츠의 삭제)되었는지 여부를 판단한다(S230). 이때, 유사도 산출부(130)는 일정한 시간 간격으로 저장부(180)에 저장된 콘텐츠의 요약정보를 확인하여 키워드의 변경 여부를 확인하거나, 유사도 산출 이후 각각의 콘텐츠에 대한 키워드가 수신되는 시점에 키워드의 변경여부를 확인한다.
다음으로, 제1콘텐츠 추천부(140)는 유사도 산출부(130)에 의해 산출된 유사도를 기준으로 사전에 설정되어 있는 콘텐츠 추천 방법으로 콘텐츠를 선정하여 사용자에게 추천한다(S240). 제1콘텐츠 추천부(140)에 의한 콘텐츠 추천 방법은 앞서 설명한 바와 같다.
도 3은 본 발명에 따른 사용자가 선정한 키워드에 기반한 콘텐츠 관련 정보 제공시 클러스터를 생성하는 경우에 대한 바람직한 실시예의 수행과정을 도시한 흐름도이다.
먼저, 키워드 수신부(110)는 사용자 단말로부터 사용자가 선정한 키워드를 수신한다(S300). 수신된 키워드는 저장부(180)에 저장된다. 다음으로, 요약정보 생성부(120)는 저장부(180)에 저장되어 있는 정보를 기초로 각각의 콘텐츠에 대응하는 요약정보를 생성한다(S310). 생성된 요약정보는 저장부(180)에 저장되며, 요약정보의 구체적인 내용은 앞서 설명한 바와 같다. 다음으로, 유사도 산출부(130)는 요약정보를 기초로 콘텐츠들 사이의 유사도를 산출하고, 산출된 유사도는 저장부(180)에 저장된다(S320). 유사도의 산출 방법은 앞서 설명한 바와 같다. 한편, 전술한 바와 같이 각각의 콘텐츠에 대응하는 키워드가 변경된 경우에 유사도 산출부(130)는 콘텐츠들 사이의 유사도를 다시 산출하여 저장부(180)에 저장한다.
다음으로, 클러스터 생성부(150)는 저장부(180)에 저장되어 있는 콘텐츠 간의 유사도를 기초로 유사도가 높은 콘텐츠들로 이루어진 클러스터들을 생성한다(S330). 그리고 클러스터 생성부(150)는 각각의 클러스터에 고유한 식별코드를 부여한 후 각각의 클러스터에 속하는 콘텐츠의 식별정보를 연계하여 저장부(180)에 저장한다. 이때, 클러스터를 생성하는 방법은 앞서 설명한 바와 같다. 다음으로, 제2콘텐츠 추천부(160)는 사전에 설정되어 있는 콘텐츠 추천 방법에 의해 선정한 콘텐츠를 사용자에게 추천한다(S340). 이러한 콘텐츠 추천 방법은 전술한 바와 같다.
본 발명은 기업 내 정보 시스템에 이용될 수 있다. 즉, 기업 내 구축된 정보 시스템이나 지식 관리 시스템(knowledge management system : KMS)에 등록되거나 등록될 콘텐츠들에 대해 사용자들이 하이라이팅 등의 방법으로 선정한 키워드를 기초로 콘텐츠들 사이의 유사도를 산출한 후 특정한 콘텐츠를 선택한 사용자에게 사용자가 선택한 콘텐츠와 관련있는 콘텐츠들을 추천할 수 있다. 또한 본 발명은 소셜 네트워크 서비스에서 그룹 단위로 적용되어 그룹 내의 멤버들로부터 하이라이팅을 얻고 이를 통해 그룹 내의 멤버들에게 같은 주제의 문서를 추천할 수 있다. 그리고 이러한 서비스를 그룹간으로 확대하여 네트워크가 연결되어 있는 그룹과 그룹 사이의 문서 분석을 통해 비슷한 주제로 판단되면 그룹과 그룹이 함께 정보를 공유할 수 있다.
본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
이상에서 본 발명의 바람직한 실시예에 대해 도시하고 설명하였으나, 본 발명은 상술한 특정의 바람직한 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형 실시가 가능한 것은 물론이고, 그와 같은 변경은 청구범위 기재의 범위 내에 있게 된다.

Claims (15)

  1. 사용자 단말로부터 사용자에게 제공되는 콘텐츠에 대해 상기 사용자가 선정한 키워드를 수신하는 키워드 수신부;
    상기 콘텐츠에 대해 고유하게 부여된 콘텐츠 코드, 복수의 사용자 단말로부터 수신된 상기 콘텐츠에 대응하는 키워드들로 이루어진 키워드 집합 및 각각의 콘텐츠에 대응하는 키워드들의 선정자 수를 포함하는 요약정보를 생성하는 요약정보 생성부; 및
    상기 복수의 콘텐츠 각각에 대해 생성된 요약정보에 포함되어 있는 키워드 집합 중에서 상기 키워드별 선정자 수를 기준으로 사전에 설정된 개수만큼 키워드를 선정하여 이를 기초로 상기 복수의 콘텐츠 사이의 유사도를 산출하는 유사도 산출부;를 포함하는 것을 특징으로 하는 콘텐츠 관련정보 제공장치.
  2. 제 1항에 있어서,
    상기 요약정보는 각각의 사용자를 구별하는 사용자 식별정보를 더 포함하고,
    상기 요약정보 생성부는 콘텐츠에 대한 키워드를 선정한 사용자의 사용자 식별정보가 허위 키워드를 입력한 사용자의 식별정보가 기재되어 있는 블랙리스트에 포함되어 있으면, 상기 블랙리스트에 포함되어 있는 사용자가 선정한 키워드를 상기 요약정보에서 배제하는 것을 특징으로 하는 콘텐츠 관련정보 제공장치.
  3. 삭제
  4. 제 1항에 있어서,
    상기 유사도 산출부는 유사도 산출의 대상인 복수의 콘텐츠들 각각에 대응하는 키워드 집합에 포함되는 키워드의 일치 개수를 유사도 값으로 산출하는 것을 특징으로 하는 콘텐츠 관련정보 제공장치.
  5. 제 1항, 제2항 또는 제 4항 중 어느 한 항에 있어서,
    상기 산출된 유사도를 기초로 사전에 설정된 개수만큼 콘텐츠를 선정하여 상기 사용자 단말에 리스트를 제공하는 제1콘텐츠 추천부를 더 포함하는 것을 특징으로 하는 콘텐츠 관련정보 제공장치.
  6. 제 1항, 제2항 또는 제 4항 중 어느 한 항에 있어서,
    상기 복수의 콘텐츠들을 상기 복수의 콘텐츠 간의 유사도 값과 사전에 설정된 기준 값을 비교하여 그룹으로 분류하는 클러스터 생성부를 더 포함하는 것을 특징으로 하는 콘텐츠 관련정보 제공장치.
  7. 제 6항에 있어서,
    동일한 클러스터에 속하는 콘텐츠들 중에서 사전에 설정된 개수만큼 콘텐츠를 선정하여 상기 사용자 단말에 리스트를 제공하는 제2콘텐츠 추천부를 더 포함하는 것을 특징으로 하는 콘텐츠 관련정보 제공장치.
  8. 사용자 단말로부터 사용자에게 제공되는 콘텐츠에 대해 상기 사용자가 선정한 키워드를 수신하는 키워드 수신단계;
    상기 콘텐츠에 대해 고유하게 부여된 콘텐츠 코드, 복수의 사용자 단말로부터 수신된 상기 콘텐츠에 대응하는 키워드들로 이루어진 키워드 집합 및 각각의 콘텐츠에 대응하는 키워드들의 선정자 수를 포함하는 요약정보를 생성하는 요약정보 생성단계; 및
    상기 복수의 콘텐츠 각각에 대해 생성된 요약정보에 포함되어 있는 키워드 집합 중에서 상기 키워드별 선정자 수를 기준으로 사전에 설정된 개수만큼 키워드를 선정하여 이를 기초로 상기 복수의 콘텐츠 사이의 유사도를 산출하는 유사도 산출단계;를 포함하는 것을 특징으로 하는 콘텐츠 관련정보 제공방법.
  9. 제 8항에 있어서,
    상기 요약정보는 각각의 사용자를 구별하는 사용자 식별정보를 더 포함하고,
    상기 요약정보 생성단계에서,콘텐츠에 대한 키워드를 선정한 사용자의 사용자 식별정보가 허위 키워드를 입력한 사용자의 식별정보가 기재되어 있는 블랙리스트에 포함되어 있으면, 상기 블랙리스트에 포함되어 있는 사용자가 선정한 키워드를 상기 요약정보에서 배제하는 것을 특징으로 하는 콘텐츠 관련정보 제공방법.
  10. 삭제
  11. 제 8항에 있어서,
    상기 유사도 산출단계에서, 유사도 산출의 대상인 복수의 콘텐츠들 각각에 대응하는 키워드 집합에 포함되는 키워드의 일치 개수를 유사도 값으로 산출하는 것을 특징으로 하는 콘텐츠 관련정보 제공방법.
  12. 제 8항, 제9항 또는 제 11항 중 어느 한 항에 있어서,
    상기 산출된 유사도를 기초로 사전에 설정된 개수만큼 콘텐츠를 선정하여 상기 사용자 단말에 리스트를 제공하는 제1콘텐츠 추천단계를 더 포함하는 것을 특징으로 하는 콘텐츠 관련정보 제공방법.
  13. 제 8항, 제9항 또는 제 11항 중 어느 한 항에 있어서,
    상기 복수의 콘텐츠들을 상기 복수의 콘텐츠 간의 유사도 값과 사전에 설정된 기준 값을 비교하여 그룹으로 분류하는 클러스터 생성단계를 더 포함하는 것을 특징으로 하는 콘텐츠 관련정보 제공방법.
  14. 제 13항에 있어서,
    동일한 클러스터에 속하는 콘텐츠들 중에서 사전에 설정된 개수만큼 콘텐츠를 선정하여 상기 사용자 단말에 리스트를 제공하는 제2콘텐츠 추천단계를 더 포함하는 것을 특징으로 하는 콘텐츠 관련정보 제공방법.
  15. 제 8항, 제9항 또는 제 11항 중 어느 한 항에 기재된 콘텐츠 관련정보 제공방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR1020110052252A 2011-05-31 2011-05-31 사용자가 선정한 키워드에 기반한 콘텐츠 관련정보 제공장치 및 방법 KR101271171B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020110052252A KR101271171B1 (ko) 2011-05-31 2011-05-31 사용자가 선정한 키워드에 기반한 콘텐츠 관련정보 제공장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020110052252A KR101271171B1 (ko) 2011-05-31 2011-05-31 사용자가 선정한 키워드에 기반한 콘텐츠 관련정보 제공장치 및 방법

Publications (2)

Publication Number Publication Date
KR20120133546A KR20120133546A (ko) 2012-12-11
KR101271171B1 true KR101271171B1 (ko) 2013-06-05

Family

ID=47516892

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020110052252A KR101271171B1 (ko) 2011-05-31 2011-05-31 사용자가 선정한 키워드에 기반한 콘텐츠 관련정보 제공장치 및 방법

Country Status (1)

Country Link
KR (1) KR101271171B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9552468B2 (en) 2013-11-29 2017-01-24 Samsung Electronics Co., Ltd. Image processing apparatus and control method thereof

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101981746B1 (ko) * 2018-09-10 2019-06-03 주식회사 시스메틱 키워드 기반의 정보 컨텐츠 제공 방법, 장치 및 컴퓨터-판독가능 기록매체

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090033728A (ko) * 2007-10-01 2009-04-06 삼성전자주식회사 컨텐트 요약 정보 제공 방법 및 그 장치
KR20090089096A (ko) * 2008-02-18 2009-08-21 삼성전자주식회사 질의어 개념화를 구현하는 문맥 연관 검색 시스템 및 방법
KR20090111734A (ko) * 2008-04-22 2009-10-27 (주)코인미디어 랩 키워드 세트를 포함하는 유사 콘텐츠 검색 방법
JP2010251860A (ja) 2009-04-10 2010-11-04 Sony Corp コンテンツ処理装置および方法、プログラム、並びに記録媒体

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090033728A (ko) * 2007-10-01 2009-04-06 삼성전자주식회사 컨텐트 요약 정보 제공 방법 및 그 장치
KR20090089096A (ko) * 2008-02-18 2009-08-21 삼성전자주식회사 질의어 개념화를 구현하는 문맥 연관 검색 시스템 및 방법
KR20090111734A (ko) * 2008-04-22 2009-10-27 (주)코인미디어 랩 키워드 세트를 포함하는 유사 콘텐츠 검색 방법
JP2010251860A (ja) 2009-04-10 2010-11-04 Sony Corp コンテンツ処理装置および方法、プログラム、並びに記録媒体

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9552468B2 (en) 2013-11-29 2017-01-24 Samsung Electronics Co., Ltd. Image processing apparatus and control method thereof

Also Published As

Publication number Publication date
KR20120133546A (ko) 2012-12-11

Similar Documents

Publication Publication Date Title
US9449271B2 (en) Classifying resources using a deep network
US8630972B2 (en) Providing context for web articles
US8082247B2 (en) Best-bet recommendations
CN110019794B (zh) 文本资源的分类方法、装置、存储介质及电子装置
US10318543B1 (en) Obtaining and enhancing metadata for content items
US20110264651A1 (en) Large scale entity-specific resource classification
KR20160057475A (ko) 소셜 데이터를 능동적으로 획득하기 위한 시스템 및 방법
CN112749326B (zh) 信息处理方法、装置、计算机设备及存储介质
Huang et al. Topic detection from large scale of microblog stream with high utility pattern clustering
US10387805B2 (en) System and method for ranking news feeds
Middleton et al. Geoparsing and geosemantics for social media: Spatiotemporal grounding of content propagating rumors to support trust and veracity analysis during breaking news
CN103902597A (zh) 确定目标关键词所对应的搜索相关性类别的方法和设备
US11423096B2 (en) Method and apparatus for outputting information
CN108319628B (zh) 一种用户兴趣确定方法及装置
CN111324801B (zh) 基于热点词的司法领域热点事件发现方法
JP5952711B2 (ja) 予測対象コンテンツにおける将来的なコメント数を予測する予測サーバ、プログラム及び方法
US20120239657A1 (en) Category classification processing device and method
US9020863B2 (en) Information processing device, information processing method, and program
CN112579729A (zh) 文档质量评价模型的训练方法、装置、电子设备和介质
CN110909266B (zh) 深度分页的方法、装置及服务器
CN103955480A (zh) 一种用于确定用户所对应的目标对象信息的方法与设备
CN110297967B (zh) 兴趣点确定方法、装置、设备及计算机可读存储介质
Wei et al. Online education recommendation model based on user behavior data analysis
CN111930949B (zh) 搜索串处理方法、装置、计算机可读介质及电子设备
Bagdouri et al. Profession-based person search in microblogs: Using seed sets to find journalists

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20160330

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20170309

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20180403

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20190401

Year of fee payment: 7