KR101252670B1 - 연관 콘텐츠 제공 장치, 방법 및 컴퓨터 판독 가능한 기록 매체 - Google Patents
연관 콘텐츠 제공 장치, 방법 및 컴퓨터 판독 가능한 기록 매체 Download PDFInfo
- Publication number
- KR101252670B1 KR101252670B1 KR1020110039875A KR20110039875A KR101252670B1 KR 101252670 B1 KR101252670 B1 KR 101252670B1 KR 1020110039875 A KR1020110039875 A KR 1020110039875A KR 20110039875 A KR20110039875 A KR 20110039875A KR 101252670 B1 KR101252670 B1 KR 101252670B1
- Authority
- KR
- South Korea
- Prior art keywords
- content
- keyword
- generating
- refined
- keywords
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000001914 filtration Methods 0.000 claims abstract description 92
- 230000000694 effects Effects 0.000 claims abstract description 22
- 238000004458 analytical method Methods 0.000 claims abstract description 17
- 238000010606 normalization Methods 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/48—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
- G06F16/435—Filtering based on additional data, e.g. user or group profiles
- G06F16/437—Administration of user profiles, e.g. generation, initialisation, adaptation, distribution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Library & Information Science (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
연관 콘텐츠 제공 장치, 방법 및 컴퓨터 판독 가능한 기록 매체가 개시된다. 사용자의 콘텐츠 선택 활동을 기록한 로그 데이터에 기반하여 연속 콘텐츠 데이터를 생성하는 로그 분석 모듈; 생성된 연속 콘텐츠 데이터의 키워드를 수집하여 확장된 키워드를 생성하는 키워드 확장 모듈; 가중치에 기반하여 확장된 키워드를 필터링하여 정련된 키워드를 생성하는 필터링 모듈; 및 콘텐츠 별로 정련된 키워드에 기반하여 연관 키워드 또는 연관 콘텐츠를 사용자에게 제공하는 추천모듈을 포함하는 것을 특징으로 하는 연관 콘텐츠 제공 장치가 개시된다.
Description
본 발명의 실시예들은 콘텐츠 제공 장치에 관한 것이다. 구체적으로 본 발명의 실시예들은, 연관 콘텐츠 제공 서버, 방법 및 컴퓨터 판독 가능한 기록 매체에 관한 것이다.
근래 초고속 인터넷 망 등 각종 네트워크 기술이 발달함에 따라, 인터넷 콘텐츠(content)에서 동영상이 차지하는 비중이 급격하게 늘고 있다. 특히, 일반 사용자들이 직접 제작하거나 편집하여 게시하는 사용자 생성 콘텐츠(User Created Content; UCC)가 차지하는 비율은 더욱 증가하는 추세이다. 하지만, 이러한 동영상 콘텐츠의 경우 텍스트 정보가 너무 적어서, 기존의 텍스트 검색 등으로 콘텐츠를 제공하는 방식은 한계가 있다. 이에 따라, 사용자가 흥미있어 할 콘텐츠를 찾아서 효과적으로 제공하는 기술의 필요성이 증가되고 있다.
현재 동영상 콘텐츠 제공 사이트에서 많이 사용하고 있는 기술은 순수 콘텐츠 기반 관련 동영상 콘텐츠 추천 방법이다. 이는 사용자가 현재 보고 있는 동영상콘텐츠의 제목과 태그(tag) 등의 텍스트 정보를 이용하여 비슷한 내용의 다른 동영상 콘텐츠를 찾아서 추천해주는 기술로, 이러한 텍스트 정보가 너무 적거나, 태그 정보 등 사용자가 직접 넣는 키워드들이 의미가 없는 경우가 많아서 문제가 된다. 또한 검색에 이용되는 텍스트 정보가 여러 가지 의미를 갖는 등의 이유로 인하여, 관련없는 동영상 콘텐츠를 추천해주는 경우가 허다하다.
또한 동영상 콘텐츠 사이트의 사용자들로부터 다른 사용자들이 흥미있어 할 동영상 콘텐츠를 추천받아, 이를 다른 사용자에게 추천하는 인맥 기반 동영상 추천 방법이 있다. 그러나 인맥 기반 동영상 추천 방법은 콘텐츠 추천의 기준이 주관적이며, 그 정확도가 낮은 단점이 있다.
본 발명의 일 측면에 따르면, 사용자가 동영상 콘텐츠를 이용할 때, 텍스트 검색에 적합한 키워드를 보충하고 이를 사용자에게 제공할 수 있다.
본 발명의 일 측면에 따르면, 사용자가 동영상 콘텐츠를 이용할 때, 실질적으로 연관되어 흥미를 불러일으킬 수 있는 연관 동영상 콘텐츠를 찾아서 제공할 수 있다.
본 발명의 일 측면에 따르면, 객관적인 데이터를 이용하여 연관 동영상 콘텐츠의 관련성을 증대시킬 수 있다.
본 발명의 일 태양에 따르면, 사용자의 콘텐츠 선택 활동을 기록한 로그 데이터에 기반하여 연속 콘텐츠 데이터를 생성하는 로그 분석 모듈; 상기 생성된 연속 콘텐츠 데이터의 키워드를 수집하여 확장된 키워드를 생성하는 키워드 확장 모듈; 가중치에 기반하여 상기 확장된 키워드를 필터링하여 정련된 키워드를 생성하는 필터링 모듈; 및 콘텐츠 별로 상기 정련된 키워드에 기반하여 연관 키워드 또는 연관 콘텐츠를 사용자에게 제공하는 추천모듈을 포함하는 것을 특징으로 하는 연관 콘텐츠 제공 장치가 제공된다.
본 발명의 다른 태양에 따르면, 상기 연속 콘텐츠 데이터는 콘텐츠 ID, 연속 콘텐츠 ID, 콘텐츠 반복 횟수 중 하나 이상을 포함하는 것을 특징으로 하는 연관 콘텐츠 제공 장치가 제공된다.
본 발명의 다른 태양에 따르면, 상기 키워드 확장 모듈은 상기 연속 콘텐츠 ID의 제목, 태그, 내용 중 어느 하나 이상을 포함하는 텍스트 정보에서 키워드를 추출하는 것을 특징으로 하는 연관 콘텐츠 제공 장치가 제공된다.
본 발명의 다른 태양에 따르면, 상기 필터링 모듈은 콘텐츠 연속 횟수에 비례하여 가중치를 부여하는 연속 콘텐츠 필터링 모듈을 포함하는 것을 특징으로 하는 연관 콘텐츠 제공 장치가 제공된다.
본 발명의 다른 태양에 따르면, 상기 필터링 모듈은 카테고리유사도에 기반하여 가중치를 부여하는 카테고리 필터링 모듈을 포함하는 것을 특징으로 하는 연관 콘텐츠 제공 장치가 제공된다.
본 발명의 다른 태양에 따르면, 상기 필터링 모듈은 금지어에 기반하여 가중치를 부여하는 금지어 필터링 모듈을 포함하는 것을 특징으로 하는 연관 콘텐츠 제공 장치가 제공된다.
본 발명의 다른 태양에 따르면, 상기 필터링 모듈은 유사어에 기반하여 가중치를 부여하는 유사어 필터링 모듈을 포함하는 것을 특징으로 하는 연관 콘텐츠 제공 장치가 제공된다.
본 발명의 다른 태양에 따르면, 상기 부여된 가중치를 가중치 중 최대값으로 나누어 표준화된 가중치를 부여하는 정규화 모듈을 더 포함하는 것을 특징으로 하는 연관 콘텐츠 제공 장치가 제공된다.
본 발명의 다른 태양에 따르면, 상기 추천 모듈은 상기 가중치에 기반하여 상기 정련된 키워드 중 일부를 추천하는 것을 특징으로 하는 연관 콘텐츠 제공 장치가 제공된다.
본 발명의 다른 태양에 따르면, 상기 추천 모듈은 상기 정련된 키워드로 콘텐츠를 검색하여, 상기 검색된 콘텐츠 중 일부를 추천하는 것을 특징으로 하는 연관 콘텐츠 제공 장치가 제공된다.
본 발명의 다른 태양에 따르면, 상기 콘텐츠의 정보가 저장된 콘텐츠 DB; 상기 로그데이터 정보가 저장된 로그 DB; 상기 필터링 모듈에서 상기 가중치에 기반하여 확장된 키워드를 필터링하기위한 필터링 참조 정보가 저장된 필터링 참조 DB를 더 포함하는 것을 특징으로 하는 연관 콘텐츠 제공 장치가 제공된다.
본 발명의 다른 태양에 따르면, 상기 필터링 참조 DB의 필터링 참조 정보는 카테고리 유사도 정보, 금지어 정보, 유사어 정보 중 어느 하나를 포함하는 것을 특징으로 하는 연관 콘텐츠 제공 장치가 제공된다.
본 발명의 다른 태양에 따르면, 사용자의 콘텐츠 선택 활동을 기록한 로그 데이터에 기반하여 연속 콘텐츠 데이터를 생성하는 단계;
상기 생성된 연속 콘텐츠 데이터의 키워드를 수집하여 확장된 키워드를 생성하는 단계; 가중치에 기반하여 상기 확장된 키워드를 필터링하여 정련된 키워드를 생성하는 단계; 및 콘텐츠별로 상기 정련된 키워드에 기반하여 연관 키워드 또는 연관 콘텐츠를 사용자에게 제공하는 단계를 포함하는 것을 특징으로 하는 연관 콘텐츠 제공 방법이 제공된다.
본 발명의 다른 태양에 따르면, 상기 연속 콘텐츠 데이터는 콘텐츠 ID, 연속콘텐츠 ID, 콘텐츠 반복 횟수 중 어느 하나 이상을 포함하는 것을 포함하는 것을 특징으로 하는 연관 콘텐츠 제공 방법이 제공된다.
본 발명의 다른 태양에 따르면, 상기 확장된 키워드를 생성하는 단계는 상기 연속 콘텐츠 ID의 제목, 태그, 내용 중 어느 하나를 포함하는 텍스트 정보에서 키워드를 추출하는 것을 특징으로 하는 연관 콘텐츠 제공 방법이 제공된다.
본 발명의 다른 태양에 따르면, 상기 정련된 키워드를 생성하는 단계는 콘텐츠 연속 횟수에 비례하여 가중치를 부여하는 것을 특징으로 하는 연관 콘텐츠 제공 방법이 제공된다.
본 발명의 다른 태양에 따르면, 상기 정련된 키워드를 생성하는 단계는 카테고리유사도에 기반하여 가중치를 부여하는 것을 특징으로 하는 연관 콘텐츠 제공 방법이 제공된다.
본 발명의 다른 태양에 따르면, 상기 정련된 키워드를 생성하는 단계는 금지어에 기반하여 가중치를 부여하는 것을 특징으로 하는 연관 콘텐츠 제공 방법이 제공된다.
본 발명의 다른 태양에 따르면, 상기 정련된 키워드를 생성하는 단계는 유사어에 기반하여 가중치를 부여하는 것을 특징으로 하는 연관 콘텐츠 제공 방법이 제공된다.
본 발명의 다른 태양에 따르면, 상기 부여된 가중치를 가중치 중 최대값으로 나누어 표준화된 가중치를 부여하는 가중치 정규화 단계를 더 포함하는 것을 특징으로 하는 연관 콘텐츠 제공 방법이 제공된다.
본 발명의 다른 태양에 따르면, 상기 연관 키워드 또는 연관 콘텐츠를 사용자에게 제공하는 단계는 상기 정련된 키워드 중 일부를 추천하는 것을 특징으로 하는 연관 콘텐츠 제공 방법이 제공된다.
본 발명의 다른 태양에 따르면, 상기 연관 키워드 또는 연관 콘텐츠를 사용자에게 제공하는 단계는 상기 정련된 키워드 중 일부를 이용하여 검색한 콘텐츠를 추천하는 것을 특징으로 하는 연관 콘텐츠 제공 방법이 제공된다.
본 발명의 다른 태양에 따르면, 사용자의 콘텐츠 선택 활동을 기록한 로그 데이터에 기반하여 연속 콘텐츠 데이터를 생성하는 단계; 상기 생성된 연속 콘텐츠 데이터의 키워드를 수집하여 확장된 키워드를 생성하는 단계; 가중치에 기반하여 상기 확장된 키워드를 필터링하여 정련된 키워드를 생성하는 단계; 및 콘텐츠별로 상기 정련된 키워드에 기반하여 연관 키워드 또는 연관 콘텐츠를 사용자에게 제공하는 단계를 포함하는 것을 특징으로 하는 연관 콘텐츠 제공 방법을 실행하기 위한 컴퓨터 프로그램을 기록한 컴퓨터 판독 가능한 기록매체가 제공된다.
본 발명의 일 측면에 의하면, 기본적인 텍스트 정보가 부족한 동영상 콘텐츠에 확장된 키워드를 제공함으로써, 풍부한 텍스트 정보의 확보가 가능해지는 효과가 있다.
나아가, 동영상 콘텐츠를 이용시, 현재 이용하는 동영상과 실질적으로 연관되는 연관 동영상 콘텐츠의 제공이 가능해지는 효과가 있다.
또한, 다양한 방법의 필터링 과정을 통해 정확한 연관 동영상 콘텐츠의 제공이 가능해지는 효과가 있다.
도 1은 일 실시예에 따른 연관 콘텐츠 제공 시스템의 개략적인 구성도이다.
도 2는 일 실시예에 따른 연관 콘텐츠 제공 서버의 내부 구성도이다.
도 3은 일 실시예에 따른 연관 콘텐츠 제공 서버의 필터링 모듈의 내부 구성도이다.
도 4는 일 실시예에 따른 연관 콘텐츠 제공 서버의 필터링 참조 DB의 내부 구성도이다.
도 5는 일 실시예에 따른 연관 콘텐츠 제공 방법의 순서도이다.
도 2는 일 실시예에 따른 연관 콘텐츠 제공 서버의 내부 구성도이다.
도 3은 일 실시예에 따른 연관 콘텐츠 제공 서버의 필터링 모듈의 내부 구성도이다.
도 4는 일 실시예에 따른 연관 콘텐츠 제공 서버의 필터링 참조 DB의 내부 구성도이다.
도 5는 일 실시예에 따른 연관 콘텐츠 제공 방법의 순서도이다.
후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다. 이하, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 바람직한 실시예들에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.
도 1은 일 실시예에 따른 연관 동영상 콘텐츠 추천 시스템의 개략적인 구성도이다. 연관 동영상 콘텐츠 추천 시스템은 콘텐츠 제공 서버(110)와 인터넷을 통해서 연결된 다수의 클라이언트들(101~104)을 포함할 수 있다.
먼저, 인터넷은 유선 및 무선 등과 같은 그 통신 양태를 가리지 않고 구성될 수 있으며, 근거리 통신망(LAN; Local Area Network), 도시권 통신망(MAN; Metropolitan Area Network), 광역 통신망(WAN; Wide Area Network) 등 다양한 통신망으로 구성될 수 있다. 본 발명에서 말하는 인터넷은 공지의 월드와이드웹(WWW; World Wide Web)일 수 있다.
사용자 단말 장치(101 ~ 104)는, 사용자가 인터넷을 통하여 서버에 접속한 후 통신할 수 있도록 하는 기능을 포함하는 디지털 기기일 수 있다. 예를 들어, 개인용 컴퓨터(예를 들어, 데스크탑 컴퓨터, 노트북 컴퓨터 등), 워크스테이션, PDA, 웹 패드, 피쳐폰, 스마트폰 등과 같이 메모리 수단을 구비하고 마이크로 프로세서를 탑재하여 연산 능력을 갖춘 디지털 기기라면 얼마든지 본 발명에 따른 사용자 단말장치로서 채택될 수 있다. 사용자는 인터넷을 통하여 동영상 콘텐츠 전문 웹사이트(예를 들어, Youtube, 판도라TV) 등 동영상 콘텐츠가 제공되는 임의의 웹사이트(구글, 네이버 등 포털 사이트도 포함)에서 다수의 동영상 콘텐츠(이하 '콘텐츠')를 시청한다. 그러나 이하 기술할 콘텐츠는 반드시 동영상 콘텐츠에 그 의미를 한정하는 것이 아니라, 비디오, 음성, 이미지 등 각종 멀티미디어 수단에 의하여 사용자에게 제공되는 모든 매체 자료를 포함한 개념이라고 하겠다.
연관 콘텐츠 제공 서버(110)는 다수 사용자 단말 장치(101 ~ 104)에 의한 콘텐츠 시청 행위를 로그 행위로 저장하고, 이 중 사용자가 연속해서 보는 콘텐츠의 쌍을 추출하고 분석한다. 한 콘텐츠에 대해 많은 사용자가 다음으로 선택하는 콘텐츠를 분석하면 콘텐츠와 관련이 깊은 키워드를 추출할 수 있다. 이를 통해 대부분의 콘텐츠에서 텍스트 정보가 부족한 문제점을 보완하여 키워드 및 콘텐츠 추천 등에 활용할 수 있다. 연관 콘텐츠 제공 서버(110)는 사용자 단말 장치에 다운로드된 후에 설치되어 실행되는 다운로드 가능한 연관 콘텐츠 추천 소프트웨어 패키지(미도시됨)를 포함할 수도 있다. 연관 콘텐츠 제공 서버(110)는 연관 콘텐츠 추천 소프트웨어 패키지(미도시됨)를 사용자 단말장치가 인터넷을 통하여 서버에 접속한 상태에서 다운로드 받을 수 있도록 제공할 수 있다. 이러한 연관 콘텐츠 추천 소프트웨어 패키지(미도시됨)는 사용자 단말 장치에 설치된 후 실행되어, 사용자에게 보다 용이하게 연관 콘텐츠를 추천할 수 있도록 한다.
도 2는 일 실시예에 따른 연관 콘텐츠 제공 서버(110)의 내부 구성도이다. 연관 콘텐츠 제공 서버(110)는 로그 분석 모듈(201), 키워드 확장 모듈(202), 필터링 모듈(203), 추천 모듈(204), 콘텐츠 DB(211), 로그 DB(212), 연속 콘텐츠 DB(213), 필터링 참조 DB(214)를 포함할 수 있다.
로그 분석 모듈(201)은 사용자 단말 장치(101 ~ 104)를 통한 콘텐츠 시청행위를 기록한 로그 데이터를 분석하는 기능을 수행한다. 로그 데이터는 로그 DB(212)에 저장될 수 있다. 표 1은 일 실시예에서 로그데이터에 저장될 수 있는 필드값과 그 설명에 대해서 나타낸 것이다. 로그 데이터에는 시청한 콘텐츠의 ID(log_content_id), 바로 이전에 시청한 콘텐츠의 ID(log_prev_content), 로그가 발생한 날짜 및 시간(log_date), 콘텐츠를 보는 사용자 ID(log_user_id)와 IP 주소(log_IP) 등이 포함될 수 있다.
필드 | 설명 |
log_content_id | 콘텐츠 ID |
log_prev_content | 이전에 시청한 콘텐츠 ID |
log_date | 로그가 발생한 날짜 및 시간 |
log_user_id | 사용자 ID |
log_IP | IP 주소 |
로그 데이터는 다수 사용자 단말 장치 (101 ~ 104)를 통해 콘텐츠를 시청하는 활동에 따라 데이터가 쌓이기 때문에 상당히 많은 수의 데이터를 가지게 되므로, 이 데이터들을 실시간으로 분석하여 서비스를 하기에는 무리가 따를 수도 있다. 일 실시예에 따르면 로그 분석 모듈(201)은 로그 데이터를 매일 또는 일정 주기에 따라 분석할 수 있다. 다른 실시예에 따르면 로그 분석 모듈(201)은 실시간으로 로그 데이터를 분석할 수 있다. 로그 분석 모듈(201)은 연속해서 콘텐츠를 보는 경우만 추출하기 위해 log_prev_content가 있는 로그 데이터만 메모리 등 저장 장치로 읽어들인다. 하나의 콘텐츠를 반복해서 본 경우를 제외하기 위해 log_content_id와 log_prev_content가 동일한 경우의 로그 데이터를 제거할 수 있고, 동일한 사용자가 한 콘텐츠를 보고 특정 콘텐츠를 보는 행위를 여러 번 반복하는 경우를 제외하기 위해 동일한 log_user_id와 log_IP에서 중복된 (content_id, prev_content)쌍이 있으면 제거하여 하나로 처리하는 필터링을 할 수 있다. 필터링을 거친 로그 데이터를 콘텐츠와 연속해서 시청하는 콘텐츠를 기준으로 정리하기 위하여, 연속 콘텐츠 데이터를 생성한다. 표 2는 일 실시예에서 연속 콘텐츠 데이터에 저장될 수 있는 필드값과 그 설명에 대해서 나타낸 것이다. 연속 콘텐츠 데이터에는 시청한 콘텐츠의 ID(r_content_id), 바로 이후에 시청한 콘텐츠의 ID(r_prev_content), 콘텐츠 반복 횟수(r_num), 업데이트 된 시간(r_date) 등이 포함될 수 있다.
필드 | 설명 |
r_content_id | 콘텐츠 ID |
r_next_content | 이후에 시청한 콘텐츠 ID |
r_num | 콘텐츠 반복 횟수 |
r_date | 업데이트 된 시간 |
로그 분석 모듈(201)은 로그 데이터의 log_prev_content값을 연속 콘텐츠 데이터의 r_content_id로, 로그 데이터의 log_content_id값을 연속 콘텐츠 데이터의 r_next_content 필드에 저장한다. 그 후, 서로 다른 사용자에 의해 연속 콘텐츠 데이터의 (r_content_id, r_next_content)쌍이 반복되는 경우 반복되는 횟수를 콘텐츠 반복 횟수(num)에 저장한다.
키워드 확장 모듈(202)은 연속 콘텐츠 데이터를 통하여 콘텐츠의 키워드를 확장하는 기능을 수행한다. 일 실시예에서 사용자들의 소셜(social) 활동인 연속 콘텐츠 정보를 통해 한 콘텐츠의 관련 키워드를 확장하는 과정은 다음과 같다. 먼저 콘텐츠를 Ci로 표시하고, 바로 이후에 시청한 콘텐츠 쌍을 {Ci, Cj}와 같이 표시한다. 위의 연속 콘텐츠 데이터에서 한 콘텐츠 Ck에 대해 연속해서 본 모든 콘텐츠의 집합을 NCk = { {Ck, Cm}, {Ck, Cn}, ...}와 같이 얻을 수 있으며, 연속 콘텐츠 횟수 N(Ck, Cm)도 역시 연속 콘텐츠 데이터의 콘텐츠 반복 횟수(num) 필드에서 얻을 수 있다. 일 실시예에서는 한 콘텐츠 Ck의 제목에서 단어를 추출하여 콘텐츠 Ck에 해당하는 키워드 집합 Kk={k0, k1, k2, ...}를 구할 수 있다. 보통의 동영상 콘텐츠 제공 서비스에서는, 콘텐츠의 제목, 태그, 내용과 같은 텍스트 정보를 포함하고 있으며, 이러한 텍스트 정보에서도 키워드를 추출할 수 있다. 그리고 Ck의 바로 이후 시청한 콘텐츠 집합 NCk에 속하는 모든 콘텐츠에 대해서 각각 키워드를 추출하여 키워드를 확장할 수 있다. 확장된 키워드에는 기본적으로 Ck의 키워드가 포함되어 있을 수 있다.
필터링 모듈(203)은 확장된 키워드들에 가중치를 적용하여 키워드의 중요도를 판단하는 기능을 수행한다. 즉 가중치에 기반하여 확장된 키워드들을 정련하는 역할을 한다. 필터링 방법은 연속 콘텐츠 횟수 N(Ck, Cm)로 가중치를 부여하거나, 카테고리를 판단하여 가중치를 부여하거나, 금지어 확인을 통하여 가중치를 삭제하거나, 유사어 비교를 통하여 가중치를 합산하는 다양한 방법을 통하여 이루어진다. 이하에서 상세히 살펴보도록 하겠다.
추천 모듈(204)은 필터링 모듈(203)을 통해 정련된 키워드에 기반하여 연관키워드 또는 연관 콘텐츠를 사용자에게 추천하는 기능을 수행한다. 정련된 키워드는 각각의 키워드에 평가된 가중치가 할당된다. 일 실시예에서, 가중치에 따라 키워드를 내림차순으로 정렬할 수 있고, 특정 콘텐츠를 시청하는 경우 사용자(101 ~ 104)에게 상위로 판단된 키워드 중 일부(예를 들어 12개)를 연관키워드로써 제공할 수 있다. 일 실시예에서, 사용자는 제공받은 연관키워드를 체크하여 다른 콘텐츠를 검색할 수 있다. 다른 실시예에서 정련된 키워드를 이용하여 자동으로 콘텐츠를 검색하여 연관 콘텐츠를 직접 사용자에게 제공할 수 있다.
콘텐츠 DB(211)는 콘텐츠의 고유 데이터를 저장하는 기능을 수행한다. 표 3은 일 실시예에서 콘텐츠 데이터에 저장될 수 있는 필드값과 그 설명에 대해서 나타낸 것이다. 콘텐츠 DB(211)에 저장되는 콘텐츠 데이터는 콘텐츠 ID(c_content_id), 저작자 ID(c_upload_id), 제목(c_title), 콘텐츠 내용(c_body), 업로드된 날짜, 시간(c_date), 화질(c_quality), 전체 조회수(c_hit), 전체 스크랩수(c_scrap), 평점(c_rating_score), 카테고리(c_category) 등을 포함할 수 있다.
필드 | 설명 |
c_content_id | 콘텐츠 ID |
c_upload_user | 저작자 ID |
c_title | 제목 |
c_body | 콘텐츠 내용 |
c_date | 업로드된 날짜, 시간 |
c_quality | 화질 |
c_hit | 전체 조회수 |
c_scrap | 전체 스크랩 수 |
c_rating_score | 평점 |
c_category | 카테고리 |
로그 DB(212)에는 로그 분석 모듈(201)에서 분석되는 사용자의 로그 데이터를 저장하는 기능을 수행한다.
연속 콘텐츠 DB(213)는 로그 분석 모듈(201)에서 분석된 연속 콘텐츠 데이터를 저장하는 기능을 수행한다.
필터링 참조 DB(214)는 필터링 모듈(203)에서 필터링 할 수 있는 필터링 데이터를 저장하는 기능을 수행한다. 구체적으로 카테고리 유사도 데이터, 금지어 데이터, 유사어 데이터를 저장한다. 이에 대해서는 후술한다.
비록 도 2에서 콘텐츠 DB(211), 로그 DB(212), 연속 콘텐츠 DB(213), 필터링 참조 DB(214)로 표현되는 DB(Data Base)들이 서버에 포함되어 구성되어 있지만, 본 발명을 구현하는 당업자의 필요에 따라, DB는 서버와 별개로 구성되어 있는 것으로 구성될 수도 있다. 본 발명에 있어서, 각종 DB는 협의의 DB 뿐만 아니라, 파일 시스템에 기반한 데이터 기록 등을 포함하는 넓은 의미의 DB를 지칭하며, 단순 로그의 집합이라도 이를 검색하여 데이터를 추출할 수 있다면 본 발명의 DB에 포함된다.
도 3은 일 실시예에 따른 필터링 모듈(203)의 내부 구성도이다. 필터링 모듈(203)은 연속 콘텐츠 필터링 모듈(301), 카테고리 필터링 모듈(302), 금지어 필터링 모듈(303), 유사어 필터링 모듈(304), 정규화 모듈(305)을 포함할 수 있다.
연속 콘텐츠 필터링 모듈(301)은 연속 콘텐츠 횟수 N(Ck, Cm)에 의하여 키워드에 가중치를 부여하는 기능을 수행한다. 연속 콘텐츠 횟수 N(Ck, Cm)는 서로 다른 사용자에 의해 연속 콘텐츠 데이터(content_id, next_content)쌍이 반복되는 경우 연속 콘텐츠 데이터의 콘텐츠 반복 횟수(num) 필드를 저장한 값이므로, 연속 콘텐츠 횟수 N(Ck, Cm)가 높은 콘텐츠의 키워드에는 높은 가중치가 부여될 수 있다.
카테고리 필터링 모듈(302)은 콘텐츠 DB의 카테고리 정보(c_category)를 참조하여 키워드에 가중치를 부여하는 기능을 수행한다. 처음에 시청한 콘텐츠와 다음에 시청한 콘텐츠의 카테고리가 비슷하면 높은 가중치를 주고, 전혀 다른 카테고리의 콘텐츠를 다음으로 봤다면 낮은 가중치를 주어 계산할 수 있다. 일 실시예에서, 필터링 참조 DB(214)에 저장된 카테고리 유사도 데이터를 참조하여 가중치를 부여할 수 있다. 다른 실시예에서 보통의 동영상 콘텐츠 공유 사이트에서 분류하는 카테고리 목록에 따라 각 항목의 유사도를 미리 계산하여 카테고리 유사도 데이터(401)로 저장하여 필터링 참조 DB(214)에 저장할 수 있다. 표 4는 카테고리 유사도 데이터(401)의 저장방식을 나타낸 일 실시예이다.
필드 | 설명 |
category_0 | 첫 번째 카테고리 |
category_1 | 두 번째 카테고리 |
similarity | 유사도 값(0.0 내지 1.0) |
본 발명의 일 실시예를 통해, 연속 콘텐츠 필터링 모듈(301)과 카테고리 필터링 모듈(302)을 동시에 적용하여 키워드를 필터링하는 과정을 소개한다. 콘텐츠 Ck와 다음에 시청한 콘텐츠 Cm의 키워드 Km={km0, km1, km2}에 대해서 연속 콘텐츠 가중치N(Ck, Cm)에 카테고리 가중치CT(Ck, Cm)를 곱한 값 N(Ck, Cm)*CT(Ck, Cm)를 적용하여 확장 키워드 집합 EK에 넣고, 이후 Cn등 다른 콘텐츠에서 추출한 키워드 Kn={kn0, kn1, kn2, ...} 중 중복되는 키워드가 있으면 중복되는 키워드에 가중치 N(Ck, Cn)*CT(Ck, Cn)을 더하고 새로 추가되는 키워드는 가중치 N(Ck, Cn)*CT(Ck, Cn)을 적용하여 확장 키워드 집합 EK에 추가할 수 있다. 이 과정을 NCk에 속하는 모든 콘텐츠에 대해 적용하면, 콘텐츠 Ck에 대한 확장 키워드 집합 EKk={k0, k1, ... }과 키워드 가중치 KWk(ki)를 얻을 수 있다. 확장 키워드 집합에는 기본적으로 Ck 자체의 키워드가 포함될 수 있다.
금지어 필터링 모듈(303)은 키워드에 대해 무의미한 단어인 금지어를 제거하는 기능을 수행한다. 금지어(stop word)는 “자막 있음”, “고화질", "동영상", YouTube" 등과 같이 하나의 단어로 큰 의미를 지니지 않지만 여러 동영상 콘텐츠에서 반복해서 사용되어 키워드 확장 결과의 질을 떨어뜨리는 단어들로, 이러한 단어 집합을 필터링 참조 DB(214)에 미리 금지어 데이터(402)로 저장하고 금지어에 해당하는 키워드를 제거할 수 있다.
유사어 필터링 모듈(304)는 유사한 키워드를 하나의 키워드로 병합하는 기능을 수행한다. “골”, “데뷔골”, “골 장면” 등과 같이 비슷한 의미의 키워드들이 각각 나타나는 경우 이 키워드들을 하나로 통합할 수 있다. 일 실시예에서, 이 키워드를 통합하는 기준은 한 키워드 k0가 다른 키워드 k1의 시작 부분이나 끝 부분에 완전히 속하는 경우, 두 키워드 중 가중치 KW(ki)가 높은 키워드를 남기고 제거되는 키워드의 가중치를 남기는 키워드에 더하는 것일 수 있다.
정규화 모듈(305)는 연속 콘텐츠 필터링 모듈(301), 카테고리 필터링 모듈(302), 금지어 필터링 모듈(303), 유사어 필터링 모듈(304) 등을 통하여 가중치가 부여된 키워드들을 표준화하는 기능을 수행한다. 확장된 키워드의 가중치를 정규화하기 위해 하기 수학식 1과 같이 콘텐츠 Ck에 대해 키워드 확장 과정을 통해 추출된 키워드의 가중치 KWk(ki)중 최대값으로 다른 모든 값을 나누어 모든 가중치 값이 약 0 내지 1 사이의 값이 되도록 할 수 있다.
도 4는 일 실시예에 따른 필터링 참조 DB의 내부 구성도이다. 필터링 모듈(304)의 필터링 수행에 참조되는, 카테고리 유사도 데이터, 금지어 데이터, 유사어 데이터를 포함할 수 있다.
도 5는 일 실시예에 따른 연관 콘텐츠 추천 과정을 시계열적으로 표현한 것이다. 연관 콘텐츠를 추천하기 위하여 기본적으로 로그 데이터를 수집(S5010)한다. 일 실시예에서, 로그 데이터는 로그 DB에 저장될 수 있다. 로그 DB는 연관 콘텐츠 제공 서버 내부에 존재할 수 있지만, 반드시 이에 한정되는 것은 아니며 외부에서 존재할 수도 있다. 로그데이터 중에서 연속된 콘텐츠의 데이터를 추출하기 위하여 로그데이터를 분석하여 연속 콘텐츠 데이터를 생성한다(S5020). 로그데이터 분석 과정에 이전 콘텐츠가 없는 경우이거나, 사용자 중복되는 경우 등을 제외하는 간단한 필터링 과정이 포함될 수 있다. 연속 콘텐츠 데이터를 통하여 콘텐츠의 키워드를 확장한다(S5030). 콘텐츠의 키워드는 연속 콘텐츠의 제목, 태그, 내용과 같은 텍스트 정보에서 추출할 수 있다. 확장된 키워드를 필터링하기 위하여 콘텐츠의 연속 횟수가 많은 경우 키워드에 가중치를 추가하는 방식으로 가중치를 차등화 한다(S5040, S5041). 또한 카테고리 유사도를 통하여 연속된 콘텐츠의 카테고리가 유사한 경우 가중치를 추가한다(S5050, S5051). 그 후 콘텐츠의 실제 내용과 관련없는 키워드를 제거하기 위한 금지어 여부를 확인하여 해당하는 경우 가중치를 삭제한다(S5060, S5061). 또한 유사한 키워드들은 가중치가 가장 높은 키워드에 가중치를 통합하여 합산한다(S5070, S5071). 각종 필터링 과정을 통하여 산출된 키워드들의 가중치를 표준화하여 정규화된 가중치값을 도출한다(S5080). 도출된 가중치값에 기반한 키워드를 통해 연관 콘텐츠를 검색하고(S5090) 연관 콘텐츠를 사용자에게 추천한다(S5100). 다른 실시예에서, 검색엔진에 가중치 값과 키워드 정보를 제공하여, 검색방법 자체에 수정을 가할 수도 있다. 일 실시예에서, 각 키워드별로 검색되는 콘텐츠 리스트 RCi에서의 검색 엔진의 관련성(relevant) 점수에(Keyword_Relevent(RCi)) 키워드의 정규화 된 가중치(Normalized_KWK(Kj)를 곱하여 키워드의 가중치에 따른 RCi의 관련성 점수를 구할 수 있다. 또한 사용자가 보고있는 콘텐츠 Ck와 추천할 콘텐츠 리스트 RCi의 관련도를 더욱 높이기 위해 추가적으로 별도의 카테고리 유사도CT(Ck,RCi)를 적용할 수 있다. 표 4의 카테고리 유사도 테이블의 정보를 이용하여 CT(Ck, RCi)의 값을 계산할 수 있다. 따라서, 관련 콘텐츠 추천에 사용하는 관련성 점수는 하기 수학식 2와 같이 계산될 수도 있다.
이상 설명된 본 발명에 따른 실시예들은 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거니와 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크 (floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명이 상기 실시예들에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형을 꾀할 수 있다.
따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등하게 또는 등가적으로 변형된 모든 것들은 본 발명의 사상의 범주에 속한다고 할 것이다.
Claims (23)
- 사용자의 콘텐츠 선택 활동을 기록한 로그 데이터에 기반하여 연속 콘텐츠 데이터를 생성하는 로그 분석 모듈;
상기 생성된 연속 콘텐츠 데이터의 키워드를 수집하여 확장된 키워드를 생성하는 키워드 확장 모듈;
가중치에 기반하여 상기 확장된 키워드를 필터링하여 정련된 키워드를 생성하는 필터링 모듈; 및
콘텐츠 별로 상기 정련된 키워드에 기반하여 연관 키워드 또는 연관 콘텐츠를 사용자에게 제공하는 추천모듈을 포함하되,
상기 추천 모듈은 상기 가중치에 기반하여 상기 정련된 키워드 중 일부를 추천하는 것을 특징으로 하는 연관 콘텐츠 제공 장치. - 제 1항에 있어서,
상기 연속 콘텐츠 데이터는 콘텐츠 ID, 연속 콘텐츠 ID, 콘텐츠 반복 횟수 중 하나 이상을 포함하는 것을 특징으로 하는 연관 콘텐츠 제공 장치. - 제 2항에 있어서,
상기 키워드 확장 모듈은 상기 연속 콘텐츠 ID의 제목, 태그, 내용 중 어느 하나 이상을 포함하는 텍스트 정보에서 키워드를 추출하는 것을 특징으로 하는 연관 콘텐츠 제공 장치. - 사용자의 콘텐츠 선택 활동을 기록한 로그 데이터에 기반하여 연속 콘텐츠 데이터를 생성하는 로그 분석 모듈;
상기 생성된 연속 콘텐츠 데이터의 키워드를 수집하여 확장된 키워드를 생성하는 키워드 확장 모듈;
가중치에 기반하여 상기 확장된 키워드를 필터링하여 정련된 키워드를 생성하는 필터링 모듈; 및
콘텐츠 별로 상기 정련된 키워드에 기반하여 연관 키워드 또는 연관 콘텐츠를 사용자에게 제공하는 추천모듈을 포함하되,
상기 연속 콘텐츠 데이터는 콘텐츠 ID, 연속 콘텐츠 ID, 콘텐츠 반복 횟수 중 하나 이상을 포함하고,
상기 필터링 모듈은 콘텐츠 연속 횟수에 비례하여 가중치를 부여하는 연속 콘텐츠 필터링 모듈을 포함하는 것을 특징으로 하는 연관 콘텐츠 제공 장치. - 사용자의 콘텐츠 선택 활동을 기록한 로그 데이터에 기반하여 연속 콘텐츠 데이터를 생성하는 로그 분석 모듈;
상기 생성된 연속 콘텐츠 데이터의 키워드를 수집하여 확장된 키워드를 생성하는 키워드 확장 모듈;
가중치에 기반하여 상기 확장된 키워드를 필터링하여 정련된 키워드를 생성하는 필터링 모듈; 및
콘텐츠 별로 상기 정련된 키워드에 기반하여 연관 키워드 또는 연관 콘텐츠를 사용자에게 제공하는 추천모듈을 포함하되,
상기 필터링 모듈은 카테고리유사도에 기반하여 가중치를 부여하는 카테고리 필터링 모듈을 포함하는 것을 특징으로 하는 연관 콘텐츠 제공 장치. - 사용자의 콘텐츠 선택 활동을 기록한 로그 데이터에 기반하여 연속 콘텐츠 데이터를 생성하는 로그 분석 모듈;
상기 생성된 연속 콘텐츠 데이터의 키워드를 수집하여 확장된 키워드를 생성하는 키워드 확장 모듈;
가중치에 기반하여 상기 확장된 키워드를 필터링하여 정련된 키워드를 생성하는 필터링 모듈; 및
콘텐츠 별로 상기 정련된 키워드에 기반하여 연관 키워드 또는 연관 콘텐츠를 사용자에게 제공하는 추천모듈을 포함하되,
상기 필터링 모듈은 금지어에 기반하여 가중치를 부여하는 금지어 필터링 모듈을 포함하는 것을 특징으로 하는 연관 콘텐츠 제공 장치. - 사용자의 콘텐츠 선택 활동을 기록한 로그 데이터에 기반하여 연속 콘텐츠 데이터를 생성하는 로그 분석 모듈;
상기 생성된 연속 콘텐츠 데이터의 키워드를 수집하여 확장된 키워드를 생성하는 키워드 확장 모듈;
가중치에 기반하여 상기 확장된 키워드를 필터링하여 정련된 키워드를 생성하는 필터링 모듈; 및
콘텐츠 별로 상기 정련된 키워드에 기반하여 연관 키워드 또는 연관 콘텐츠를 사용자에게 제공하는 추천모듈을 포함하되,
상기 필터링 모듈은 유사어에 기반하여 가중치를 부여하는 유사어 필터링 모듈을 포함하는 것을 특징으로 하는 연관 콘텐츠 제공 장치. - 제 4항 내지 제7항 중 어느 한 항에 있어서,
상기 부여된 가중치를 가중치 중 최대값으로 나누어 표준화된 가중치를 부여하는 정규화 모듈을 더 포함하는 것을 특징으로 하는 연관 콘텐츠 제공 장치. - 삭제
- 사용자의 콘텐츠 선택 활동을 기록한 로그 데이터에 기반하여 연속 콘텐츠 데이터를 생성하는 로그 분석 모듈;
상기 생성된 연속 콘텐츠 데이터의 키워드를 수집하여 확장된 키워드를 생성하는 키워드 확장 모듈;
가중치에 기반하여 상기 확장된 키워드를 필터링하여 정련된 키워드를 생성하는 필터링 모듈; 및
콘텐츠 별로 상기 정련된 키워드에 기반하여 연관 키워드 또는 연관 콘텐츠를 사용자에게 제공하는 추천모듈을 포함하되,
상기 추천 모듈은 상기 정련된 키워드로 콘텐츠를 검색하여, 상기 검색된 콘텐츠 중 일부를 추천하는 것을 특징으로 하는 연관 콘텐츠 제공 장치. - 사용자의 콘텐츠 선택 활동을 기록한 로그 데이터에 기반하여 연속 콘텐츠 데이터를 생성하는 로그 분석 모듈;
상기 생성된 연속 콘텐츠 데이터의 키워드를 수집하여 확장된 키워드를 생성하는 키워드 확장 모듈;
가중치에 기반하여 상기 확장된 키워드를 필터링하여 정련된 키워드를 생성하는 필터링 모듈; 및
콘텐츠 별로 상기 정련된 키워드에 기반하여 연관 키워드 또는 연관 콘텐츠를 사용자에게 제공하는 추천모듈을 포함하되,
상기 콘텐츠의 정보가 저장된 콘텐츠 DB;
상기 로그데이터 정보가 저장된 로그 DB;
상기 필터링 모듈에서 상기 가중치에 기반하여 확장된 키워드를 필터링하기위한 필터링 참조 정보가 저장된 필터링 참조 DB를 더 포함하는 것을 특징으로 하는 연관 콘텐츠 제공 장치. - 제 11항에 있어서,
상기 필터링 참조 DB의 필터링 참조 정보는 카테고리 유사도 정보, 금지어 정보, 유사어 정보 중 어느 하나를 포함하는 것을 특징으로 하는 연관 콘텐츠 제공 장치. - 연관 콘텐츠 제공 장치가 사용자의 콘텐츠 선택 활동을 기록한 로그 데이터에 기반하여 연속 콘텐츠 데이터를 생성하는 단계;
상기 연관 콘텐츠 제공 장치가 상기 생성된 연속 콘텐츠 데이터의 키워드를 수집하여 확장된 키워드를 생성하는 단계;
상기 연관 콘텐츠 제공 장치가 가중치에 기반하여 상기 확장된 키워드를 필터링하여 정련된 키워드를 생성하는 단계; 및
상기 연관 콘텐츠 제공 장치가 콘텐츠별로 상기 정련된 키워드에 기반하여 연관 키워드 또는 연관 콘텐츠를 사용자에게 제공하는 단계를 포함하되,
상기 연관 키워드 또는 연관 콘텐츠를 사용자에게 제공하는 단계는 상기 연관 콘텐츠 제공 장치가 상기 가중치에 기반하여 상기 정련된 키워드 중 일부를 추천하는 것을 특징으로 하는 연관 콘텐츠 제공 방법. - 제 13항에 있어서,
상기 연속 콘텐츠 데이터는 콘텐츠 ID, 연속콘텐츠 ID, 콘텐츠 반복 횟수 중 어느 하나 이상을 포함하는 것을 포함하는 것을 특징으로 하는 연관 콘텐츠 제공 방법. - 제 14항에 있어서,
상기 확장된 키워드를 생성하는 단계는 상기 연관 콘텐츠 제공 장치가 상기 연속 콘텐츠 ID의 제목, 태그, 내용 중 어느 하나를 포함하는 텍스트 정보에서 키워드를 추출하는 것을 특징으로 하는 연관 콘텐츠 제공 방법. - 연관 콘텐츠 제공 장치가 사용자의 콘텐츠 선택 활동을 기록한 로그 데이터에 기반하여 연속 콘텐츠 데이터를 생성하는 단계;
상기 연관 콘텐츠 제공 장치가 상기 생성된 연속 콘텐츠 데이터의 키워드를 수집하여 확장된 키워드를 생성하는 단계;
상기 연관 콘텐츠 제공 장치가 가중치에 기반하여 상기 확장된 키워드를 필터링하여 정련된 키워드를 생성하는 단계; 및
상기 연관 콘텐츠 제공 장치가 콘텐츠별로 상기 정련된 키워드에 기반하여 연관 키워드 또는 연관 콘텐츠를 사용자에게 제공하는 단계를 포함하되,
상기 연속 콘텐츠 데이터는 콘텐츠 ID, 연속콘텐츠 ID, 콘텐츠 반복 횟수 중 어느 하나 이상을 포함하고,
상기 정련된 키워드를 생성하는 단계는 상기 연관 콘텐츠 제공 장치가 콘텐츠 연속 횟수에 비례하여 가중치를 부여하는 것을 특징으로 하는 연관 콘텐츠 제공 방법. - 연관 콘텐츠 제공 장치가 사용자의 콘텐츠 선택 활동을 기록한 로그 데이터에 기반하여 연속 콘텐츠 데이터를 생성하는 단계;
상기 연관 콘텐츠 제공 장치가 상기 생성된 연속 콘텐츠 데이터의 키워드를 수집하여 확장된 키워드를 생성하는 단계;
상기 연관 콘텐츠 제공 장치가 가중치에 기반하여 상기 확장된 키워드를 필터링하여 정련된 키워드를 생성하는 단계; 및
상기 연관 콘텐츠 제공 장치가 콘텐츠별로 상기 정련된 키워드에 기반하여 연관 키워드 또는 연관 콘텐츠를 사용자에게 제공하는 단계를 포함하되,
상기 정련된 키워드를 생성하는 단계는 상기 연관 콘텐츠 제공 장치가 카테고리유사도에 기반하여 가중치를 부여하는 것을 특징으로 하는 연관 콘텐츠 제공 방법. - 연관 콘텐츠 제공 장치가 사용자의 콘텐츠 선택 활동을 기록한 로그 데이터에 기반하여 연속 콘텐츠 데이터를 생성하는 단계;
상기 연관 콘텐츠 제공 장치가 상기 생성된 연속 콘텐츠 데이터의 키워드를 수집하여 확장된 키워드를 생성하는 단계;
상기 연관 콘텐츠 제공 장치가 가중치에 기반하여 상기 확장된 키워드를 필터링하여 정련된 키워드를 생성하는 단계; 및
상기 연관 콘텐츠 제공 장치가 콘텐츠별로 상기 정련된 키워드에 기반하여 연관 키워드 또는 연관 콘텐츠를 사용자에게 제공하는 단계를 포함하되,
상기 정련된 키워드를 생성하는 단계는 상기 연관 콘텐츠 제공 장치가 금지어에 기반하여 가중치를 부여하는 것을 특징으로 하는 연관 콘텐츠 제공 방법. - 연관 콘텐츠 제공 장치가 사용자의 콘텐츠 선택 활동을 기록한 로그 데이터에 기반하여 연속 콘텐츠 데이터를 생성하는 단계;
상기 연관 콘텐츠 제공 장치가 상기 생성된 연속 콘텐츠 데이터의 키워드를 수집하여 확장된 키워드를 생성하는 단계;
상기 연관 콘텐츠 제공 장치가 가중치에 기반하여 상기 확장된 키워드를 필터링하여 정련된 키워드를 생성하는 단계; 및
상기 연관 콘텐츠 제공 장치가 콘텐츠별로 상기 정련된 키워드에 기반하여 연관 키워드 또는 연관 콘텐츠를 사용자에게 제공하는 단계를 포함하되,
상기 정련된 키워드를 생성하는 단계는 상기 연관 콘텐츠 제공 장치가 유사어에 기반하여 가중치를 부여하는 것을 특징으로 하는 연관 콘텐츠 제공 방법. - 제 16항 내지 제19항 중 어느 한 항에 있어서,
상기 연관 콘텐츠 제공 장치가 상기 부여된 가중치를 가중치 중 최대값으로 나누어 표준화된 가중치를 부여하는 가중치 정규화 단계를 더 포함하는 것을 특징으로 하는 연관 콘텐츠 제공 방법. - 삭제
- 연관 콘텐츠 제공 장치가 사용자의 콘텐츠 선택 활동을 기록한 로그 데이터에 기반하여 연속 콘텐츠 데이터를 생성하는 단계;
상기 연관 콘텐츠 제공 장치가 상기 생성된 연속 콘텐츠 데이터의 키워드를 수집하여 확장된 키워드를 생성하는 단계;
상기 연관 콘텐츠 제공 장치가 가중치에 기반하여 상기 확장된 키워드를 필터링하여 정련된 키워드를 생성하는 단계; 및
상기 연관 콘텐츠 제공 장치가 콘텐츠별로 상기 정련된 키워드에 기반하여 연관 키워드 또는 연관 콘텐츠를 사용자에게 제공하는 단계를 포함하되,
상기 연관 키워드 또는 연관 콘텐츠를 사용자에게 제공하는 단계는 상기 연관 콘텐츠 제공 장치가 상기 정련된 키워드 중 일부를 이용하여 검색한 콘텐츠를 추천하는 것을 특징으로 하는 연관 콘텐츠 제공 방법. - 연관 콘텐츠 제공 장치가 사용자의 콘텐츠 선택 활동을 기록한 로그 데이터에 기반하여 연속 콘텐츠 데이터를 생성하는 단계;
상기 연관 콘텐츠 제공 장치가 상기 생성된 연속 콘텐츠 데이터의 키워드를 수집하여 확장된 키워드를 생성하는 단계;
상기 연관 콘텐츠 제공 장치가 가중치에 기반하여 상기 확장된 키워드를 필터링하여 정련된 키워드를 생성하는 단계; 및
상기 연관 콘텐츠 제공 장치가 콘텐츠별로 상기 정련된 키워드에 기반하여 연관 키워드 또는 연관 콘텐츠를 사용자에게 제공하는 단계를 포함하되,
상기 연관 키워드 또는 연관 콘텐츠를 사용자에게 제공하는 단계는 상기 연관 콘텐츠 제공 장치가 상기 가중치에 기반하여 상기 정련된 키워드 중 일부를 추천하는 것을 특징으로 하는 연관 콘텐츠 제공 방법을 실행하기 위한 컴퓨터 프로그램을 기록한 컴퓨터 판독 가능한 기록매체.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR20110008338 | 2011-01-27 | ||
KR1020110008338 | 2011-01-27 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20120087058A KR20120087058A (ko) | 2012-08-06 |
KR101252670B1 true KR101252670B1 (ko) | 2013-04-09 |
Family
ID=46872712
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020110039875A KR101252670B1 (ko) | 2011-01-27 | 2011-04-28 | 연관 콘텐츠 제공 장치, 방법 및 컴퓨터 판독 가능한 기록 매체 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101252670B1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210121387A (ko) * | 2020-03-30 | 2021-10-08 | 주식회사 메디치소프트 | 콘텐츠에서 키워드를 추출하고, 추출된 키워드를 이용하여 콘텐츠를 추천하는 방법, 장치 및 프로그램 |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102051323B1 (ko) * | 2012-09-06 | 2019-12-03 | 에스케이플래닛 주식회사 | 사용자 상황에 따른 컨텐츠 추천 시스템 및 방법 |
KR102012501B1 (ko) * | 2012-10-30 | 2019-08-20 | 에스케이플래닛 주식회사 | 컨텐츠 추천 서비스 제공 시스템 및 방법 |
KR102012498B1 (ko) * | 2012-11-05 | 2019-08-20 | 에스케이플래닛 주식회사 | 컨텐츠 추천 서비스 제공 시스템 및 방법 |
KR101678660B1 (ko) * | 2014-01-03 | 2016-11-23 | 에스케이플래닛 주식회사 | 사용자 로그 기반 상품 추천 방법, 이를 위한 시스템 및 장치 |
KR101483554B1 (ko) * | 2014-02-25 | 2015-01-19 | 어니컴 주식회사 | 소셜 네트워크 기반의 연관 콘텐츠 추천 방법 및 장치 |
CN105761425B (zh) | 2016-03-24 | 2019-09-03 | 腾讯科技(深圳)有限公司 | 求救方法、系统及装置 |
KR102021897B1 (ko) * | 2016-09-30 | 2019-11-04 | 에스케이플래닛 주식회사 | 사용자 로그 기반 상품 추천 방법, 이를 위한 시스템 및 장치 |
KR101887643B1 (ko) * | 2017-03-07 | 2018-08-10 | (주)위세아이텍 | 머신 러닝 기반의 공공데이터 추천 장치 및 방법 |
KR102503466B1 (ko) * | 2017-12-12 | 2023-02-27 | 삼성전자주식회사 | 전자 장치 및 그의 제어방법 |
KR102615379B1 (ko) * | 2021-09-03 | 2023-12-19 | 숭실대학교 산학협력단 | 동영상 추천 장치의 제어방법, 이를 수행하기 위한 기록매체 및 장치 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20040063641A (ko) * | 2003-01-08 | 2004-07-14 | 주식회사 옵투스 | 키워드확장장치 및 방법과 키워드확장장치를 이용한검색시스템 |
KR20060050397A (ko) * | 2004-10-05 | 2006-05-19 | 마이크로소프트 코포레이션 | 개인화된 검색 및 정보 액세스를 제공하기 위한 시스템,방법 및 인터페이스 |
KR20070013371A (ko) * | 2005-07-26 | 2007-01-31 | 연세대학교 산학협력단 | 사용자의 상황에 따라 추천 엔진별 가중치를 부여하는장치, 방법 및 이를 구현할 수 있는 컴퓨터로 읽을 수 있는기록 매체 |
KR20100090178A (ko) * | 2009-02-05 | 2010-08-13 | 한국과학기술연구원 | 키워드 정련 장치 및 방법과 그를 위한 컨텐츠 검색 시스템 및 그 방법 |
-
2011
- 2011-04-28 KR KR1020110039875A patent/KR101252670B1/ko not_active IP Right Cessation
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20040063641A (ko) * | 2003-01-08 | 2004-07-14 | 주식회사 옵투스 | 키워드확장장치 및 방법과 키워드확장장치를 이용한검색시스템 |
KR20060050397A (ko) * | 2004-10-05 | 2006-05-19 | 마이크로소프트 코포레이션 | 개인화된 검색 및 정보 액세스를 제공하기 위한 시스템,방법 및 인터페이스 |
KR20070013371A (ko) * | 2005-07-26 | 2007-01-31 | 연세대학교 산학협력단 | 사용자의 상황에 따라 추천 엔진별 가중치를 부여하는장치, 방법 및 이를 구현할 수 있는 컴퓨터로 읽을 수 있는기록 매체 |
KR20100090178A (ko) * | 2009-02-05 | 2010-08-13 | 한국과학기술연구원 | 키워드 정련 장치 및 방법과 그를 위한 컨텐츠 검색 시스템 및 그 방법 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210121387A (ko) * | 2020-03-30 | 2021-10-08 | 주식회사 메디치소프트 | 콘텐츠에서 키워드를 추출하고, 추출된 키워드를 이용하여 콘텐츠를 추천하는 방법, 장치 및 프로그램 |
KR102488914B1 (ko) * | 2020-03-30 | 2023-01-16 | 주식회사 메디치소프트 | 콘텐츠에서 키워드를 추출하고, 추출된 키워드를 이용하여 콘텐츠를 추천하는 방법, 장치 및 프로그램 |
Also Published As
Publication number | Publication date |
---|---|
KR20120087058A (ko) | 2012-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101252670B1 (ko) | 연관 콘텐츠 제공 장치, 방법 및 컴퓨터 판독 가능한 기록 매체 | |
KR101527259B1 (ko) | 검색 질의에 응답하여 디스커션 스레드에 대한 포스트를 제공하는 방법 및 시스템 | |
US11734289B2 (en) | Methods, systems, and media for providing a media search engine | |
US20140258283A1 (en) | Computing device and file searching method using the computing device | |
CN102982153B (zh) | 一种信息检索方法及其装置 | |
CN107180093B (zh) | 信息搜索方法及装置和时效性查询词识别方法及装置 | |
CN102054003B (zh) | 网络信息推荐、建立网络资源索引的方法及系统 | |
US8655648B2 (en) | Identifying topically-related phrases in a browsing sequence | |
Koutra et al. | Events and controversies: Influences of a shocking news event on information seeking | |
US20150205580A1 (en) | Method and System for Sorting Online Videos of a Search | |
CN104219575A (zh) | 相关视频推荐方法及系统 | |
JP2010067175A (ja) | ハイブリッド型コンテンツ推薦サーバ、推薦システムおよび推薦方法 | |
KR20150036117A (ko) | 쿼리 확장 | |
US20160085869A1 (en) | Social media content analysis and output | |
CN111008321A (zh) | 基于逻辑回归推荐方法、装置、计算设备、可读存储介质 | |
JP2014502753A (ja) | ウェブページ情報の検出方法及びシステム | |
US20110208715A1 (en) | Automatically mining intents of a group of queries | |
EP2701078A1 (en) | Process for summarising automatically a video content for a user of at least one video service provider in a network | |
WO2015188719A1 (zh) | 结构化数据与图片的关联方法与关联装置 | |
JP5952711B2 (ja) | 予測対象コンテンツにおける将来的なコメント数を予測する予測サーバ、プログラム及び方法 | |
CN110377817B (zh) | 搜索词条挖掘方法和装置及其在多媒体资源的应用 | |
US20160048575A1 (en) | System and method for topics extraction and filtering | |
US8572073B1 (en) | Spam detection for user-generated multimedia items based on appearance in popular queries | |
JP7395377B2 (ja) | コンテンツ検索方法、装置、機器、および記憶媒体 | |
CN106919700B (zh) | 基于并行化cep处理的语义驱动犯罪线索实时推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20160401 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20170403 Year of fee payment: 5 |
|
FPAY | Annual fee payment |
Payment date: 20180403 Year of fee payment: 6 |
|
LAPS | Lapse due to unpaid annual fee |