KR20100090178A - 키워드 정련 장치 및 방법과 그를 위한 컨텐츠 검색 시스템 및 그 방법 - Google Patents

키워드 정련 장치 및 방법과 그를 위한 컨텐츠 검색 시스템 및 그 방법 Download PDF

Info

Publication number
KR20100090178A
KR20100090178A KR1020090066521A KR20090066521A KR20100090178A KR 20100090178 A KR20100090178 A KR 20100090178A KR 1020090066521 A KR1020090066521 A KR 1020090066521A KR 20090066521 A KR20090066521 A KR 20090066521A KR 20100090178 A KR20100090178 A KR 20100090178A
Authority
KR
South Korea
Prior art keywords
corpus
keyword
word
comment
link
Prior art date
Application number
KR1020090066521A
Other languages
English (en)
Other versions
KR101105798B1 (ko
Inventor
김래현
한요섭
차정원
Original Assignee
한국과학기술연구원
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술연구원, 한국전자통신연구원 filed Critical 한국과학기술연구원
Publication of KR20100090178A publication Critical patent/KR20100090178A/ko
Application granted granted Critical
Publication of KR101105798B1 publication Critical patent/KR101105798B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

사용자에 의해 작성된 키워드를 정련하는 키워드 정련 장치 및 방법과 그를 위한 컨텐츠 검색 시스템이 개시된다. 이 장치 및 방법에 의하면, 대상 문서를 검색하여 읽어와, 문서의 구조를 분석하여, 제목 말뭉치, 본문 말뭉치, 키워드 말뭉치, 적어도 하나의 댓글 말뭉치 중 적어도 두 개의 말뭉치를 추출한 후, 추출된 말뭉치들을 구성하는 각 단어들 간에 링크를 생성한다. 이렇게 생성된 링크를 이용해 각 단어들의 중요도를 계산하여 중요도가 낮은 단어를 키워드 말뭉치에서 제거한다.
키워드, 말뭉치, 정련, TextRank, 중요도, UCC

Description

키워드 정련 장치 및 방법과 그를 위한 컨텐츠 검색 시스템 및 그 방법{APPARATUS AND METHOD REFINING KEYWORD AND CONTENTS SEARCHING SYSTEM AND METHOD}
본 발명은 사용자에 의해 작성된 키워드를 정련하는 키워드 정련 장치 및 방법과 그를 위한 컨텐츠 검색 시스템에 관한 것으로, 더욱 상세하게는 인터넷 문서, UCC(User Created Content) 공유사이트 등에 대해 사용자가 작성한 키워드 중에서 컨텐츠 특성을 잘 나타낼 수 있는 단어는 남기고 필요없거나 오용될 수 있는 단어는 삭제할 수 있는 것이다.
최근 웹 컨텐츠의 제공 및 사용 형태가 빠르게 변화하고 있다. 처음 웹 컨텐츠가 보급되기 시작할 때에는 기존에 미디어에서 사용하던 방식대로 소수의 전문 공급자가 대부분의 컨텐츠를 만들어 보급하였고 다수의 일반 사용자는 단지 보급된 컨텐츠를 소비할 뿐이었다. 하지만 근래 들어 사용자 참여와 협동이 강조되는 웹2.0의 도래로 말미암아, 일반 사용자 역시 컨텐츠 생성에 참여하게 되었고, 최근에는 블로그나 공유사이트 등을 중심으로 제작자와 사용자의 명확한 구분이 없는 형태의 컨텐츠 저작/사용이 가속화되고 있다. 이에 따라 사용자 생성 컨텐츠(UCC)가 전체 웹에서 차지하는 비중도 급격히 높아지고 있다. 이러한 UCC는 대표적으로 블로그, 웹 포럼, 사진이나 비디오 공유 사이트 등에서 많이 나타나고 있으며, 또한 소셜 네트워크 플랫폼을 통해 많은 사용자들이 스스로 컨텐츠를 생성하고 있다. 이러한 UCC의 폭발적인 증가로 인해 방대한 양의 컨텐츠를 대상으로 검색이나 추천을 통해 양질의 컨텐츠를 사용자에게 제공하는 기술이 필요하게 되었다.
기존의 영화 정보 제공 서비스나 비디오 컨텐츠 제공 서비스 등에서는 영화 제목이나 줄거리, 배우 정보, 수상 내역 등의 풍부한 텍스트 정보를 공급자가 미리 입력해 둠으로써 이를 통해 사용자가 쉽게 검색할 수 있도록 하거나, 장르나 시대 등의 기준으로 공급자가 미리 분류해 둠으로써 사용자가 검색하는데 용이하도록 하였다. 하지만 UCC는 사용자들이 직접 컨텐츠를 생성하므로, 기존 공급자 중심의 컨텐츠에서 제공하는 정형화된 메타데이터와 잘 정의된 분류를 통한 컨텐츠 제공을 기대하기 어렵다. 즉 UCC는 공급자 생성 컨텐츠와는 다르게 생성된 컨텐츠의 품질이 아주 다양한 모습을 보이는데, 제한된 수의 공급자가 컨텐츠를 생성할 때는 각 컨텐츠간의 질적 차이가 비교적 크지 않았지만, UCC는 전문가 수준부터 아주 낮은 수준까지 분포가 다양하고 심지어는 저속한 내용의 컨텐츠들도 다수 포함된다. 이 때문에 UCC를 제공할 때에는 이러한 컨텐츠들의 필터링과 랭킹이 매우 중요하고 또한 복잡한 문제이다.
블로그(Blog), 위키위키(WikiWiki)와 같은 1인 미디어 시대를 대표하는 매체에서 자신이 작성한 컨텐츠의 내용과 관련이 있는 단어를 태그(Tag)라고 한다. 태그는 해당 컨텐츠를 대표하는 키워드(핵심어)라고 할 수도 있다.
태그는 시스템에서 자동으로 생성되지 않고 사용자가 직접 입력하는 구조로 되어 있으며, 해당 컨텐츠를 대표하는 키워드로서 높은 신뢰도를 가지고 있다. 이러한 태그의 특징을 이용하여 문서의 검색 및 분류가 이루어지고 있다.
하지만 컨텐츠의 키워드를 찾는 훈련이 되지 않은 다수의 사용자들이 무분별하게 태그를 사용함으로써(즉 가치가 없는 단어를 키워드로 선정하여 태깅함) 태그의 본질을 흐리고 있다. 또한 태그의 특성을 악용하여, 업체 또는 사용자가 자신이 작성한 컨텐츠와 관련없는 단어를 태그로 사용함으로써(즉 연관 관계가 없는 단어를 키워드로 선정하여 태깅함) 검색 확률을 높이는 좋지 않은 방향으로도 사용되고 있다. 따라서 컨텐츠를 대표하는 키워드가 올바르게 태깅될 수 있도록, 사용자에 의해 무분별하게 태깅된 키워드를 정련(Refinement)할 수 있는 방안이 절실히 요구된다.
본 발명의 목적은 인터넷 문서, UCC 공유사이트 등에 대해 사용자가 작성한 키워드 중에서 컨텐츠 특성을 잘 나타낼 수 있는 단어는 남기고 필요없거나 오용될 수 있는 단어는 삭제할 수 있는, 키워드 정련 장치 및 방법과 그를 위한 컨텐츠 검색 시스템을 제공하는 것이다.
본 발명의 일 특징에 따르면, 사용자에 의해 작성된 키워드를 정련하는 키워드 정련 장치 및 방법과 그를 위한 컨텐츠 검색 시스템이 개시된다. 이 장치 및 방법에 의하면, 대상 문서를 검색하여 읽어와, 문서의 구조를 분석하여, 제목 말뭉치, 본문 말뭉치, 키워드 말뭉치, 적어도 하나의 댓글 말뭉치 중 적어도 두 개의 말뭉치를 추출한 후, 추출된 말뭉치들을 구성하는 각 단어들 간에 링크를 생성한다. 이렇게 생성된 링크를 이용해 각 단어들의 중요도를 계산하여 중요도가 낮은 단어를 키워드 말뭉치에서 제거한다.
본 발명에 의하면, 사용자가 컨텐츠에 작성한 키워드 중에서 불필요하거나 의미없는 단어를 제거할 수 있는 이점이 있다. 또한 별도의 언어 처리를 하지 않아, 언어 독립적인 시스템을 구축할 수 있다.
이하 첨부된 도면을 참조하여 본 발명의 실시예들에 대해 상세히 설명한다. 다만, 이하의 설명에서는 본 발명의 요지를 불필요하게 흐릴 우려가 있는 경우, 널리 알려진 기능이나 구성에 관한 구체적 설명은 생략하기로 한다.
도 1은 본 발명이 적용될 수 있는 정보 검색 서비스 시스템의 구성을 예시적으로 도시한 도면이다.
도 1에 도시된 바와 같이, 정보 검색 서비스 시스템은 사용자 단말기(10), 정보통신망(20), 웹(WEB)/왑(WAP) 서버(30), 컨텐츠 검색 서버(40)를 포함한다.
사용자 단말기(10)는 정보통신망(20)을 통해 검색어를 컨텐츠 검색 서버(40)에 전송하며, 컨텐츠 검색 서버(40)로부터 검색 결과를 수신한다. 사용자 단말기(10)는 HTML(Hyper Test Markup Language)의 형태로 웹/왑 내용을 디스플레이할 수 있는 인터넷 브라우저(예를 들어 Internet Netscape, Internet Explorer)를 가지고 있으며, 검색어 입력에 의한 정보 검색을 수행하고 검색 결과의 웹/왑 페이지를 디스플레이할 수 있는 퍼스널 컴퓨터(PC), PDA 및 휴대폰 등으로 구성될 수 있다. 검색어 입력에 의한 정보 검색은, 사용자 단말기(10)가 텍스트 형태의 검색어를 컨텐츠 검색 서버(40)로 전송하여, 전송한 검색어에 관한 일반적인 텍스트 검색 결과와 함께 영상, 음원 등이 포함된 멀티미디어 검색 결과를 컨텐츠 검색 서버(40)로부터 수신하여 디스플레이하는 검색을 의미한다.
정보통신망(20)은 사용자 단말기(10), 웹/왑 서버(30) 및 컨텐츠 검색 서버(40)를 서로 접속시키는 기능을 수행하고, TCP/IP 프로토콜에 의한 유선 인터넷망 및 WAP 프로토콜 등에 의한 무선 인터넷망을 포함한다.
웹/왑 서버(30)는 정보통신망(20) 상에 존재하는 다양한 웹/왑 사이트, 상품 판매사이트(쇼핑몰), 포토앨범 또는 지식인 등을 구성하는 각종의 데이터가 저장되어 있는 물리적 공간으로, 이들 데이터는 웹/왑 브라우저 등을 통하여 사용자 단말기(10)로 전송된다. 웹/왑 서버(30)는 사용자 단말기(10)로 전송되는 웹/왑 페이지와 웹/왑 페이지 등에 노출되는 각종 텍스트 정보 뿐만 아니라 이미지 파일, 음악 파일 또는 동영상 파일 등이 저장되어 있는 스토리지를 포괄적으로 포함하는 개념으로 이해되어야 한다.
사용자는 웹/왑 서버(30)에 존재하는 다양한 정보를 사용자 단말기(10) 상의 웹/왑 브라우저 등을 통하여 접할 수 있으며, 또한 사용자는 웹/왑 서버(30)에 텍스트, 이미지, 음악, 동영상, 실행 스크립트 등 다양한 데이터를 업로드하여 저장할 수 있다. 사용자가 등록한 이미지 등의 모든 데이터는 일단 웹/왑 서버(30)에 저장되고, 이를 컨텐츠 검색 서버(40)가 수거해간다.
컨텐츠 검색 서버(40)는 정보통신망(20)을 통해 사용자 단말기(10)로부터의 검색어 입력신호에 따라 관련되는 정보들의 검색을 수행하며, 키워드 정련부(41), 컨텐츠 검색부(43), 검색 DB(42)를 포함한다.
키워드 정련부(41)는 웹/왑 서버(30)로부터 수거한 인터넷 문서, UCC 공유사이트 등에 대해 사용자가 작성한 키워드 중에서 컨텐츠 특성을 잘 나타낼 수 있는 단어(의미있는 키워드)는 남기고 필요없거나 오용될 수 있는 단어(의미없는 키워드)는 삭제하는 기능을 수행한다. 구체적으로, 입력된 키워드에서 불필요한 단어를 제거함에 있어서, 대상 문서의 구조를 분석하여 각 구조에서 단어와 단어의 링크를 생성하고, 단어와 단어의 링크를 TextRank 알고리즘을 이용해 단어의 중요도를 계 산하여 불필요한 단어를 제거한다. 일실시예에 있어서, TextRank 알고리즘을 이용해 컨텐츠에서 단어의 중요도를 계산하여, 단어 중요도가 떨어지는 하위 n%의 단어를 컨텐츠 제작자가 작성한 키워드에서 제거한다. 키워드 정련부(41)에 대한 보다 상세한 설명은 후술하기로 한다.
검색 DB(42)는 키워드 정련부(41)에 의해 키워드가 정련된 태그를 갖는 인터넷 문서, UCC 공유사이트 등을 저장한다.
컨텐츠 검색부(43)는 사용자 단말기(10)로부터 검색어 입력신호를 수신한 경우 수신한 검색어와 관련된 컨텐츠(인터넷 문서, UCC 공유사이트 등)를 검색 DB(42)에서 검색하여 검색 결과를 사용자 단말기(10)에 디스플레이한다.
도 2에 도시된 바와 같이, 키워드 정련부(41)는 데이터 입력부(411), 문서 구조 분석부(412), 단어와 단어들의 링크를 생성하는 링크 생성부(413), TextRank 알고리즘을 이용하여 사용자가 입력한 키워드 중에서 불필요한 단어를 제거하는 단어 제거부(414), 결과 출력부(415)를 포함한다.
데이터 입력부(411)는 처리할 문서 대상을 검색하여 읽어온다. 즉 데이터 입력부(411)는 많은 문서에서 키워드를 정련할 문서를 검색하고, 문서가 검색되면 해당 문서를 읽어온다. 예컨대, 도 3과 같이 제목, 본문, 키워드, 댓글이 존재하는 컨텐츠(웹페이지)가 있을 수 있는데, 데이터 입력부(411)는 이들을 텍스트 문서로 저장하고 하나씩 읽어온다.
문서 구조 분석부(412)는 데이터 입력부(411)에서 읽어온 문서의 구조를 분석하여 제목, 본문, 키워드, 댓글을 추출한다. 예컨대 도 3의 컨텐츠(웹페이지)에 대해, 도 4와 같이 제목, 본문, 키워드, 댓글을 추출한다. 본 실시예에서는 제목, 본문, 키워드, 다수의 댓글을 포함하는 컨텐츠를 가정한다. 제목, 본문, 키워드, 각 댓글은 각각이 다수의 단어들로 이루어진 말뭉치(Corpus)이다. 이하의 실시예에서는 제목 말뭉치, 본문 말뭉치, 키워드 말뭉치, 다수의 댓글 말뭉치를 포함하는 컨텐츠를 키워드 정련의 대상으로 가정하지만, 적어도 2개의 말뭉치들 간에 단어 링크를 생성할 수 있으면 키워드 정련 대상 컨텐츠의 말뭉치 개수에 제한되지 않음을 밝혀둔다.
링크 생성부(413)는 단어를 하나의 텍스트로 가정하고 단어와 단어 사이에 가상의 링크를 생성한다. 즉 컨텐츠의 제목, 본문, 키워드, 댓글 등에 출현한 단어들 사이에 가상의 링크를 생성한다. 도 5를 참조하여 보다 구체적으로 살펴보면 다음과 같다.
링크 생성부(413)는 문서 구조 분석부(412)에서 추출된 댓글 말뭉치들에 대해 단어와 단어의 링크를 생성한다(501). 단, 댓글은 작성시간을 기준으로 오름차순 정렬되어 있으며, 도 6과 같이 n번째 댓글(상위 댓글) 말뭉치에 출현한 단어는 n+1번째 댓글(하위 댓글) 말뭉치에 출현한 동일한 단어와 링크가 생성된다. 댓글간 링크의 방향은 n+1번째의 단어에서 n번째에 출현한 단어의 방향(하위 댓글에서 상위 댓글의 방향, 예컨대 댓글3→댓글2→댓글1)으로 생성된다.
구체적으로, 컨텐츠에 댓글을 작성할 때는 컨텐츠의 제목, 본문, 키워드, 작성중인 바로 위의 댓글 내용을 참조하여 작성하는 특징을 가지고 있다. 그래서 컨텐츠의 제목, 본문, 키워드에 출현한 단어는 댓글에 출현할 확률이 높다. 댓글은 작성된 시간을 기준으로 정렬하여, 댓글과 댓글에서 출현한 단어들 사이에 가상의 링크를 생성하면 도 6과 같은 결과를 얻을 수 있으며, 댓글은 이전에 작성된 댓글을 참조하여 작성된다는 성격이 반영되어 있다. 모든 댓글은 컨텐츠의 제목, 본문, 키워드를 참조하여 작성될 확률이 높으므로 도 7과 같은 결과를 얻을 수 있다.
즉 링크 생성부(413)는 상하위 댓글 말뭉치에서 제목 말뭉치로 링크를 생성하되(502), 제목 말뭉치에 출현한 단어와 상하위 댓글 말뭉치에 출현한 동일한 단어에 대해 링크를 생성한다. 이때 댓글과 제목간 링크의 방향은 상하위 댓글(n번째 댓글, n+1댓글) 말뭉치의 단어에서 제목 말뭉치에 출현한 단어의 방향으로 생성된다.
또한 링크 생성부(413)는 상하위 댓글 말뭉치에서 본문 말뭉치로 링크를 생성하되(503), 본문 말뭉치에 출현한 단어와 상하위 댓글 말뭉치에 출현한 동일한 단어에 대해 링크를 생성한다. 이때 댓글과 본문간 링크의 방향은 상하위 댓글(n번째 댓글, n+1댓글) 말뭉치의 단어에서 본문 말뭉치에 출현한 단어의 방향으로 생성된다.
또한 링크 생성부(413)는 상하위 댓글 말뭉치에서 키워드 말뭉치로 링크를 생성하되(504), 키워드 말뭉치에 출현한 단어와 상하위 댓글 말뭉치에 출현한 동일한 단어에 대해 링크를 생성한다. 이때 댓글과 키워드간 링크의 방향은 상하위 댓글(n번째 댓글, n+1댓글) 말뭉치의 단어에서 키워드 말뭉치에 출현한 단어의 방향으로 생성된다.
상기 '502' 단계 내지 '504' 단계는 처리 순서에 무관하게 댓글과 제목, 본 문, 키워드 간에 링크를 생성할 수 있다.
이와 같이 댓글과 댓글, 댓글과 제목, 본문, 키워드 말뭉치간에 단어와 단어 사이의 링크를 생성하면, 도 7과 같이 각 단어들에 대해서 링크를 생성할 수 있다. 도 8에 도시된 바를 통해 어떤 위치에 나타난 단어가 어떤 단어에 링크되었는지를 쉽게 알 수 있다. 도 8은 제목, 본문, 키워드, 댓글 말뭉치에 출현한 단어들이 다른 말뭉치에서 링크된 위치를 보여준다.
이처럼 단어를 하나의 Text로 가정하고 단어와 단어 사이에 가상의 링크를 생성할 수 있다면, 키워드 정련에 Text의 중요도를 계산하는데 사용하는 TextRank 알고리즘을 적용할 수 있다.
도 2 및 도 9를 참조하면, 단어 제거부(414)는 링크 생성부(413)에서 구축한 제목, 본문, 키워드, 댓글 말뭉치에 출현한 단어들의 링크에 대해 TextRank 알고리즘을 적용하여 단어의 중요도를 계산하고(901) 중요도가 낮은 하위 단어 n%를 추출한다(902).
TextRank 알고리즘은 Text A에서 Text B로 연결된 링크 하나를 Text A가 Text B에게 던지는 한 표로 해석하여 특정 Text의 득표수를 기준으로 중요도를 평가한다. 그리고 Text의 TextRank 값은 특정 Text의 중요도를 고려하여 중요한 Text로부터 표를 받은 경우 링크된 Text에 더 큰 TextRank 값을 부여한다. TextRank 알고리즘은 하기의 [수학식 1]과 같이 정의할 수 있다.
Figure 112009044474455-PAT00001
각 링크는 서로 다른 가중치 w(Vi)를 갖는다. 즉 제목으로 가는 링크는 가중치가 '20'이고, 본문으로 가는 링크의 가중치는 '30'이다. 키워드에 대해서는 가중치 '40'을 부여하고, 댓글에 대해서는 가중치 '10'을 부여한다. 링크가 생성되지 않은 노드는 d를 0.85의 값으로 고정한다.
상기 [수학식1]에서 S(Vi), S(Vj)는 특정 Text의 TextRank 값이며, I(Vi)는 Text Vi가 링크하고 있는 모든 Test의 집합을 나타내고, O(Vj)는 Vj를 링크하고 있는 Test의 개수를 나타낸다.
상기 [수학식1]은 Vi를 가리키는(영향을 미치는) 노드들의 값(S(Vj))을 그 노드에서 나가는 링크의 수 O(Vj)로 나누어서 모두 더한 것이다. 이를 도 10을 참조하여 설명한다. 도 10의 링크 관계에서 '제목'을 가리키는 것은 '댓글1', '댓글3', '댓글4'이다. 댓글1에서 나가는 링크수는 '3'이고(제목, 댓글2, 댓글3), 댓글3에서 나가는 링크수는 '2'이며(제목, 본문), 댓글4에서 나가는 링크수는 '2'이다(제목, 댓글3). 따라서 제목 말뭉치에 대해 TextRank 알고리즘을 적용하면, "(1-0.85) + 0.85*{0.2*S(댓글1)/3 + 0.2*S(댓글3)/2 + 0.2*S(댓글4)/2}"가 된다. 이러한 계산을 반복 수행하여 수렴하면 종료한다. 도 11은 반복 수행하여 계산하는 과정을 보여주고, 최종 TextRank 값은 도 12에 도시된 바와 같다.
컨텐츠(제목, 본문, 키워드, 댓글 말뭉치를 포함하는 문서임)마다 키워드를 몇 개 가질 수 있는지에 대해서는 평균과 표준편차를 이용해서 구한다. 가령 긴 문서는 많은 키워드를 가질 수 있고 짧은 문서는 적은 키워드를 가져야 한다. 예컨대 도 3의 컨텐츠가 도 13에 도시된 바와 같이 최대 7개의 키워드를 갖는다고 가정하면, TextRank 값을 내림차순으로 정렬하여 7개만을 남기고 나머지 의미없는 단어는 키워드 말뭉치에서 제거한다. 도 13은 사용자가 입력한 13개의 키워드(키워드 말뭉치) 중 최대 허용 키워드 수 7개를 제외한 나머지 불필요한 키워드 6개를 제거(정련)한 결과를 보여준다. 사용자가 입력한 키워드 중에서 불필요한 단어를 제거한 결과는 결과 출력부(415)를 통해 출력된다. 이때 키워드 정련 결과는 단순히 단어의 중요도가 낮은 하위 n%의 단어를 제거하는 것 보다는 신뢰도 구간을 만족할 때까지 제거하는(예컨대 신뢰도 구간을 설정하여 신뢰도 구간을 벗어나는 키워드만 제거함) 것이 보다 좋은 키워드 정련 결과를 보이게 된다.
본 명세서에서는 본 발명이 일부 실시예들과 관련하여 설명되었지만, 본 발명이 속하는 기술분야의 당업자가 이해할 수 있는 본 발명의 정신 및 범위를 벗어나지 않는 범위에서 다양한 변형 및 변경이 이루어질 수 있다는 점을 알아야 할 것이다. 또한, 그러한 변형 및 변경은 본 명세서에 첨부된 특허청구의 범위 내에 속하는 것으로 생각되어야 한다.
도 1은 본 발명이 적용될 수 있는 검색 서비스 시스템의 구성을 예시적으로 도시한 도면.
도 2는 본 발명의 실시예에 따라 키워드 정련 장치의 구성을 전체적으로 도시한 도면.
도 3는 본 발명의 실시예에 따라 데이터 입력 과정을 보여주는 설명도.
도 4는 본 발명의 실시예에 따라 문서 구조를 분석하는 과정을 보여주는 설명도.
도 5은 본 발명의 실시예에 따라 단어들의 링크를 생성하는 과정을 보여주는 흐름도.
도 6은 본 발명의 실시예에 따라 댓글과 댓글에 출현한 단어들의 링크를 보여주는 설명도.
도 7은 본 발명의 실시예에 따라 제목, 본문, 키워드, 댓글에 출현한 단어들의 링크를 보여주는 설명도.
도 8은 본 발명의 실시예에 따라 제목, 본문, 키워드, 댓글에 출현한 단어들이 링크된 위치를 보여주는 설명도.
도 9는 본 발명의 실시예에 따라 불필요한 단어를 제거하는 과정을 보여주는 흐름도.
도 10은 본 발명의 실시예에 따라 단어 간의 링크 관계를 보여주는 설명도.
도 11은 본 발명의 실시예에 따라 계산을 반복 수행하여 수렴된 결과를 보여 주는 설명도.
도 12는 본 발명의 실시예에 따라 TextRank 값을 보여주는 설명도.
도 13은 본 발명의 실시예에 따라 불필요한 단어를 제거한 결과를 보여주는 설명도.
* 도면의 주요 부분에 대한 부호의 설명
10: 사용자 단말기 20: 정보통신망
30: 웹/왑 서버 40: 컨텐츠 검색 서버
41: 키워드 정련부 42: 검색 DB
43: 컨텐츠 검색부 411: 데이터 입력부
412: 문서 구조 분석부 413: 링크 생성부
414: 단어 제거부 415: 결과 출력부

Claims (16)

  1. 키워드 정련 장치로서,
    대상 문서를 검색하여 읽어오는 데이터 입력부;
    상기 문서의 구조를 분석하여, 제목 말뭉치, 본문 말뭉치, 키워드 말뭉치, 적어도 하나의 댓글 말뭉치 중 적어도 두 개의 말뭉치를 추출하는 문서 구조 분석부;
    상기 추출된 말뭉치들을 구성하는 각 단어들 간에 링크를 생성하는 링크 생성부; 및
    상기 생성된 링크를 이용해 각 단어들의 중요도를 계산하여 중요도가 낮은 단어를 상기 키워드 말뭉치에서 제거하는 단어 제거부를 포함하는 키워드 정련 장치.
  2. 제1항에 있어서,
    상기 단어 제거부에 의해 수행된 키워드 정련 결과를 출력하는 결과 출력부를 더 포함하는 키워드 정련 장치.
  3. 제1항에 있어서,
    상기 말뭉치는, 상기 제목 말뭉치, 상기 본문 말뭉치, 상기 키워드 말뭉치, 상기 적어도 하나의 댓글 말뭉치를 포함하는, 키워드 정련 장치.
  4. 제3항에 있어서,
    상기 키워드 말뭉치는, 평균과 표준편차에 따라 단어의 개수가 정해지는, 키워드 정련 장치.
  5. 제3항에 있어서,
    상기 문서 구조 분석부는, 상기 문서의 구조를 분석하여, 상기 제목 말뭉치, 상기 본문 말뭉치, 상기 키워드 키워드, 상기 적어도 하나의 댓글 말뭉치를 추출하는, 키워드 정련 장치.
  6. 제5항에 있어서,
    상기 링크 생성부는, 하위 댓글 말뭉치에서 상위 댓글 말뭉치로, 상하위 댓글 말뭉치에서 상기 제목 말뭉치로, 상기 상하위 댓글 말뭉치에서 상기 본문 말뭉치로, 상기 상하위 댓글 말뭉치에서 상기 키워드 말뭉치로 각각 단어의 링크를 생성하는, 키워드 정련 장치.
  7. 제1항 내지 제6항 중 어느 한 항에 있어서,
    상기 단어 제거부는, 하기의 TextRank 알고리즘을 이용하여 단어의 중요도를 계산하는, 키워드 정련 장치.
    Figure 112009044474455-PAT00002
    (여기서 w(Vi)는 링크 가중치, S(Vi), S(Vj)는 특정 Text의 TextRank 값이며, I(Vi)는 Text Vi가 링크하고 있는 모든 Test의 집합을 나타내고, O(Vj)는 Vj를 링크하고 있는 Test의 개수를 나타냄)
  8. 제7항에 있어서,
    상기 단어 제거부는, 중요도가 낮은 단어를 상기 키워드 말뭉치에서 제거함에 있어서, 신뢰도 구간을 설정하여 신뢰도 구간을 벗어나는 단어를 제거하는 키워드 정련 장치.
  9. 제1항 내지 제6항 중 어느 한 항의 키워드 정련 장치에 의해 키워드 정련된 컨텐츠를 저장하는 검색 DB; 및
    검색 요청에 따라 해당 컨텐츠를 검색하여 제공하는 컨텐츠 검색부를 포함하는 컨텐츠 검색 시스템.
  10. 키워드 정련 방법으로서,
    a) 대상 문서를 검색하여 읽어오는 단계;
    (b) 상기 문서의 구조를 분석하여, 제목 말뭉치, 본문 말뭉치, 키워드 말뭉치, 적어도 하나의 댓글 말뭉치 중 적어도 두 개의 말뭉치를 추출하는 단계;
    (c) 상기 추출된 말뭉치들을 구성하는 각 단어들 간에 링크를 생성하는 단계; 및
    (d) 상기 생성된 링크를 이용해 각 단어들의 중요도를 계산하여 중요도가 낮은 단어를 상기 키워드 말뭉치에서 제거하는 단계를 포함하는 키워드 정련 방법.
  11. 제10항에 있어서,
    상기 (d) 단계에서 수행된 키워드 정련 결과를 출력하는 단계를 더 포함하는 키워드 정련 방법.
  12. 제10항에 있어서,
    상기 말뭉치는, 상기 제목 말뭉치, 상기 본문 말뭉치, 상기 키워드 말뭉치, 상기 적어도 하나의 댓글 말뭉치를 포함하고,
    상기 키워드 말뭉치는, 평균과 표준편차에 따라 단어의 개수가 정해지는, 키워드 정련 방법.
  13. 제12항에 있어서,
    상기 (b) 단계에서, 상기 문서의 구조를 분석하여, 상기 제목 말뭉치, 상기 본문 말뭉치, 상기 키워드 키워드, 상기 적어도 하나의 댓글 말뭉치를 추출하는, 키워드 정련 방법.
  14. 제13항에 있어서,
    상기 (c) 단계에서, 하위 댓글 말뭉치에서 상위 댓글 말뭉치로, 상하위 댓글 말뭉치에서 상기 제목 말뭉치로, 상기 상하위 댓글 말뭉치에서 상기 본문 말뭉치로, 상기 상하위 댓글 말뭉치에서 상기 키워드 말뭉치로 각각 단어의 링크를 생성하는, 키워드 정련 방법.
  15. 제10항 내지 제14항 중 어느 한 항에 있어서,
    상기 (d) 단계에서, 하기의 TextRank 알고리즘을 이용하여 단어의 중요도를 계산하는, 키워드 정련 방법.
    Figure 112009044474455-PAT00003
    (여기서 w(Vi)는 링크 가중치, S(Vi), S(Vj)는 특정 Text의 TextRank 값이며, I(Vi)는 Text Vi가 링크하고 있는 모든 Test의 집합을 나타내고, O(Vj)는 Vj를 링크하고 있는 Test의 개수를 나타냄)
  16. 제10항 내지 제14항 중 어느 한 항의 키워드 정련 방법에 의해 키워드 정련된 컨텐츠를 저장하는 단계; 및
    검색 요청에 따라 해당 컨텐츠를 검색하여 제공하는 단계를 포함하는 컨텐츠 검색 방법.
KR1020090066521A 2009-02-05 2009-07-21 키워드 정련 장치 및 방법과 그를 위한 컨텐츠 검색 시스템 및 그 방법 KR101105798B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020090009384 2009-02-05
KR20090009384 2009-02-05

Publications (2)

Publication Number Publication Date
KR20100090178A true KR20100090178A (ko) 2010-08-13
KR101105798B1 KR101105798B1 (ko) 2012-01-17

Family

ID=42755866

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090066521A KR101105798B1 (ko) 2009-02-05 2009-07-21 키워드 정련 장치 및 방법과 그를 위한 컨텐츠 검색 시스템 및 그 방법

Country Status (1)

Country Link
KR (1) KR101105798B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101252670B1 (ko) * 2011-01-27 2013-04-09 한국과학기술연구원 연관 콘텐츠 제공 장치, 방법 및 컴퓨터 판독 가능한 기록 매체
KR102128852B1 (ko) * 2020-03-30 2020-07-01 (주)위세아이텍 텍스트 데이터에서 생성한 단어 벡터에 주성분 분석을 적용하여 추출한 피처의 주요 단어 시각화 장치 및 방법
KR102198780B1 (ko) * 2019-12-06 2021-01-05 주식회사 클리노믹스 상호연관성 기반 전문분야에 특화된 인터넷 검색 서비스 제공 방법

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102296931B1 (ko) 2019-05-29 2021-09-01 경희대학교 산학협력단 텍스트 스트리밍 환경에서의 실시간 키워드 추출 방법 및 장치

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000132553A (ja) 1998-10-22 2000-05-12 Sharp Corp キーワード抽出方法、キーワード抽出装置、及びキーワード抽出プログラムを記録したコンピュータ読み取り可能な記録媒体
KR100918167B1 (ko) * 2002-05-21 2009-09-17 주식회사 케이티 사용자 성향 데이터를 이용한 사용자 프로파일 학습 방법
KR100492005B1 (ko) * 2002-12-26 2005-05-30 한국전자통신연구원 멀티미디어 컨텐츠의 핫 이슈 추출장치 및 그 방법
KR101318130B1 (ko) * 2007-07-09 2013-10-16 에스케이플래닛 주식회사 트랙백 구조를 이용하여 콘텐츠를 검색하기 위한 방법,시스템 및 서버

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101252670B1 (ko) * 2011-01-27 2013-04-09 한국과학기술연구원 연관 콘텐츠 제공 장치, 방법 및 컴퓨터 판독 가능한 기록 매체
KR102198780B1 (ko) * 2019-12-06 2021-01-05 주식회사 클리노믹스 상호연관성 기반 전문분야에 특화된 인터넷 검색 서비스 제공 방법
KR102128852B1 (ko) * 2020-03-30 2020-07-01 (주)위세아이텍 텍스트 데이터에서 생성한 단어 벡터에 주성분 분석을 적용하여 추출한 피처의 주요 단어 시각화 장치 및 방법

Also Published As

Publication number Publication date
KR101105798B1 (ko) 2012-01-17

Similar Documents

Publication Publication Date Title
Stamatatos et al. Overview of the PAN/CLEF 2015 evaluation lab
US8630972B2 (en) Providing context for web articles
US10366154B2 (en) Information processing device, information processing method, and computer program product
CN108090104B (zh) 用于获取网页信息的方法和装置
US20080243791A1 (en) Apparatus and method for searching information and computer program product therefor
TW201514845A (zh) 從網頁擷取標題及主體
US20170316519A1 (en) Mutually reinforcing ranking of social media accounts and contents
US10783192B1 (en) System, method, and user interface for a search engine based on multi-document summarization
JPWO2009096523A1 (ja) 情報分析装置、検索システム、情報分析方法及び情報分析用プログラム
JP6872258B2 (ja) インターネットコンテンツ提供サーバ及びその方法が具現化されたコンピュータで判読できる記録媒体
US10430805B2 (en) Semantic enrichment of trajectory data
US20130254190A1 (en) Search device, search method, and computer program product
US11651039B1 (en) System, method, and user interface for a search engine based on multi-document summarization
El Abdouli et al. Sentiment analysis of moroccan tweets using naive bayes algorithm
KR20110019131A (ko) 소셜 관계를 이용한 정보 검색 장치 및 방법
US8037403B2 (en) Apparatus, method, and computer program product for extracting structured document
CN103262079B (zh) 检索装置及检索方法
KR101105798B1 (ko) 키워드 정련 장치 및 방법과 그를 위한 컨텐츠 검색 시스템 및 그 방법
JP2010128917A (ja) 情報伝播ネットワーク抽出方法、情報伝播ネットワーク抽出装置、及び情報伝播ネットワーク抽出プログラム
KR101651963B1 (ko) 시공간 연관 정보 생성 방법, 이를 수행하는 시공간 연관 정보 생성 서버 및 이를 저장하는 기록매체
KR20160002199A (ko) 연관 키워드를 이용한 이슈 데이터 추출방법 및 시스템
Vidulin et al. Multi-label approaches to web genre identification
Gali et al. Extracting representative image from web page
KR101583073B1 (ko) 기사 요약 서비스 서버 및 방법
Dai et al. MOETA: a novel text-mining model for collecting and analysing competitive intelligence

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20141226

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20151229

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20161226

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20171227

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20190102

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20191224

Year of fee payment: 9