KR20100090178A - 키워드 정련 장치 및 방법과 그를 위한 컨텐츠 검색 시스템 및 그 방법 - Google Patents
키워드 정련 장치 및 방법과 그를 위한 컨텐츠 검색 시스템 및 그 방법 Download PDFInfo
- Publication number
- KR20100090178A KR20100090178A KR1020090066521A KR20090066521A KR20100090178A KR 20100090178 A KR20100090178 A KR 20100090178A KR 1020090066521 A KR1020090066521 A KR 1020090066521A KR 20090066521 A KR20090066521 A KR 20090066521A KR 20100090178 A KR20100090178 A KR 20100090178A
- Authority
- KR
- South Korea
- Prior art keywords
- corpus
- keyword
- word
- comment
- link
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
Claims (16)
- 키워드 정련 장치로서,대상 문서를 검색하여 읽어오는 데이터 입력부;상기 문서의 구조를 분석하여, 제목 말뭉치, 본문 말뭉치, 키워드 말뭉치, 적어도 하나의 댓글 말뭉치 중 적어도 두 개의 말뭉치를 추출하는 문서 구조 분석부;상기 추출된 말뭉치들을 구성하는 각 단어들 간에 링크를 생성하는 링크 생성부; 및상기 생성된 링크를 이용해 각 단어들의 중요도를 계산하여 중요도가 낮은 단어를 상기 키워드 말뭉치에서 제거하는 단어 제거부를 포함하는 키워드 정련 장치.
- 제1항에 있어서,상기 단어 제거부에 의해 수행된 키워드 정련 결과를 출력하는 결과 출력부를 더 포함하는 키워드 정련 장치.
- 제1항에 있어서,상기 말뭉치는, 상기 제목 말뭉치, 상기 본문 말뭉치, 상기 키워드 말뭉치, 상기 적어도 하나의 댓글 말뭉치를 포함하는, 키워드 정련 장치.
- 제3항에 있어서,상기 키워드 말뭉치는, 평균과 표준편차에 따라 단어의 개수가 정해지는, 키워드 정련 장치.
- 제3항에 있어서,상기 문서 구조 분석부는, 상기 문서의 구조를 분석하여, 상기 제목 말뭉치, 상기 본문 말뭉치, 상기 키워드 키워드, 상기 적어도 하나의 댓글 말뭉치를 추출하는, 키워드 정련 장치.
- 제5항에 있어서,상기 링크 생성부는, 하위 댓글 말뭉치에서 상위 댓글 말뭉치로, 상하위 댓글 말뭉치에서 상기 제목 말뭉치로, 상기 상하위 댓글 말뭉치에서 상기 본문 말뭉치로, 상기 상하위 댓글 말뭉치에서 상기 키워드 말뭉치로 각각 단어의 링크를 생성하는, 키워드 정련 장치.
- 제7항에 있어서,상기 단어 제거부는, 중요도가 낮은 단어를 상기 키워드 말뭉치에서 제거함에 있어서, 신뢰도 구간을 설정하여 신뢰도 구간을 벗어나는 단어를 제거하는 키워드 정련 장치.
- 제1항 내지 제6항 중 어느 한 항의 키워드 정련 장치에 의해 키워드 정련된 컨텐츠를 저장하는 검색 DB; 및검색 요청에 따라 해당 컨텐츠를 검색하여 제공하는 컨텐츠 검색부를 포함하는 컨텐츠 검색 시스템.
- 키워드 정련 방법으로서,a) 대상 문서를 검색하여 읽어오는 단계;(b) 상기 문서의 구조를 분석하여, 제목 말뭉치, 본문 말뭉치, 키워드 말뭉치, 적어도 하나의 댓글 말뭉치 중 적어도 두 개의 말뭉치를 추출하는 단계;(c) 상기 추출된 말뭉치들을 구성하는 각 단어들 간에 링크를 생성하는 단계; 및(d) 상기 생성된 링크를 이용해 각 단어들의 중요도를 계산하여 중요도가 낮은 단어를 상기 키워드 말뭉치에서 제거하는 단계를 포함하는 키워드 정련 방법.
- 제10항에 있어서,상기 (d) 단계에서 수행된 키워드 정련 결과를 출력하는 단계를 더 포함하는 키워드 정련 방법.
- 제10항에 있어서,상기 말뭉치는, 상기 제목 말뭉치, 상기 본문 말뭉치, 상기 키워드 말뭉치, 상기 적어도 하나의 댓글 말뭉치를 포함하고,상기 키워드 말뭉치는, 평균과 표준편차에 따라 단어의 개수가 정해지는, 키워드 정련 방법.
- 제12항에 있어서,상기 (b) 단계에서, 상기 문서의 구조를 분석하여, 상기 제목 말뭉치, 상기 본문 말뭉치, 상기 키워드 키워드, 상기 적어도 하나의 댓글 말뭉치를 추출하는, 키워드 정련 방법.
- 제13항에 있어서,상기 (c) 단계에서, 하위 댓글 말뭉치에서 상위 댓글 말뭉치로, 상하위 댓글 말뭉치에서 상기 제목 말뭉치로, 상기 상하위 댓글 말뭉치에서 상기 본문 말뭉치로, 상기 상하위 댓글 말뭉치에서 상기 키워드 말뭉치로 각각 단어의 링크를 생성하는, 키워드 정련 방법.
- 제10항 내지 제14항 중 어느 한 항의 키워드 정련 방법에 의해 키워드 정련된 컨텐츠를 저장하는 단계; 및검색 요청에 따라 해당 컨텐츠를 검색하여 제공하는 단계를 포함하는 컨텐츠 검색 방법.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020090009384 | 2009-02-05 | ||
KR20090009384 | 2009-02-05 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20100090178A true KR20100090178A (ko) | 2010-08-13 |
KR101105798B1 KR101105798B1 (ko) | 2012-01-17 |
Family
ID=42755866
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020090066521A KR101105798B1 (ko) | 2009-02-05 | 2009-07-21 | 키워드 정련 장치 및 방법과 그를 위한 컨텐츠 검색 시스템 및 그 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101105798B1 (ko) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101252670B1 (ko) * | 2011-01-27 | 2013-04-09 | 한국과학기술연구원 | 연관 콘텐츠 제공 장치, 방법 및 컴퓨터 판독 가능한 기록 매체 |
KR102128852B1 (ko) * | 2020-03-30 | 2020-07-01 | (주)위세아이텍 | 텍스트 데이터에서 생성한 단어 벡터에 주성분 분석을 적용하여 추출한 피처의 주요 단어 시각화 장치 및 방법 |
KR102198780B1 (ko) * | 2019-12-06 | 2021-01-05 | 주식회사 클리노믹스 | 상호연관성 기반 전문분야에 특화된 인터넷 검색 서비스 제공 방법 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102296931B1 (ko) | 2019-05-29 | 2021-09-01 | 경희대학교 산학협력단 | 텍스트 스트리밍 환경에서의 실시간 키워드 추출 방법 및 장치 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000132553A (ja) | 1998-10-22 | 2000-05-12 | Sharp Corp | キーワード抽出方法、キーワード抽出装置、及びキーワード抽出プログラムを記録したコンピュータ読み取り可能な記録媒体 |
KR100918167B1 (ko) * | 2002-05-21 | 2009-09-17 | 주식회사 케이티 | 사용자 성향 데이터를 이용한 사용자 프로파일 학습 방법 |
KR100492005B1 (ko) * | 2002-12-26 | 2005-05-30 | 한국전자통신연구원 | 멀티미디어 컨텐츠의 핫 이슈 추출장치 및 그 방법 |
KR101318130B1 (ko) * | 2007-07-09 | 2013-10-16 | 에스케이플래닛 주식회사 | 트랙백 구조를 이용하여 콘텐츠를 검색하기 위한 방법,시스템 및 서버 |
-
2009
- 2009-07-21 KR KR1020090066521A patent/KR101105798B1/ko active IP Right Grant
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101252670B1 (ko) * | 2011-01-27 | 2013-04-09 | 한국과학기술연구원 | 연관 콘텐츠 제공 장치, 방법 및 컴퓨터 판독 가능한 기록 매체 |
KR102198780B1 (ko) * | 2019-12-06 | 2021-01-05 | 주식회사 클리노믹스 | 상호연관성 기반 전문분야에 특화된 인터넷 검색 서비스 제공 방법 |
KR102128852B1 (ko) * | 2020-03-30 | 2020-07-01 | (주)위세아이텍 | 텍스트 데이터에서 생성한 단어 벡터에 주성분 분석을 적용하여 추출한 피처의 주요 단어 시각화 장치 및 방법 |
Also Published As
Publication number | Publication date |
---|---|
KR101105798B1 (ko) | 2012-01-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Stamatatos et al. | Overview of the PAN/CLEF 2015 evaluation lab | |
US8630972B2 (en) | Providing context for web articles | |
US10366154B2 (en) | Information processing device, information processing method, and computer program product | |
CN108090104B (zh) | 用于获取网页信息的方法和装置 | |
US20080243791A1 (en) | Apparatus and method for searching information and computer program product therefor | |
TW201514845A (zh) | 從網頁擷取標題及主體 | |
US20170316519A1 (en) | Mutually reinforcing ranking of social media accounts and contents | |
US10783192B1 (en) | System, method, and user interface for a search engine based on multi-document summarization | |
JPWO2009096523A1 (ja) | 情報分析装置、検索システム、情報分析方法及び情報分析用プログラム | |
JP6872258B2 (ja) | インターネットコンテンツ提供サーバ及びその方法が具現化されたコンピュータで判読できる記録媒体 | |
US10430805B2 (en) | Semantic enrichment of trajectory data | |
US20130254190A1 (en) | Search device, search method, and computer program product | |
US11651039B1 (en) | System, method, and user interface for a search engine based on multi-document summarization | |
El Abdouli et al. | Sentiment analysis of moroccan tweets using naive bayes algorithm | |
KR20110019131A (ko) | 소셜 관계를 이용한 정보 검색 장치 및 방법 | |
US8037403B2 (en) | Apparatus, method, and computer program product for extracting structured document | |
CN103262079B (zh) | 检索装置及检索方法 | |
KR101105798B1 (ko) | 키워드 정련 장치 및 방법과 그를 위한 컨텐츠 검색 시스템 및 그 방법 | |
JP2010128917A (ja) | 情報伝播ネットワーク抽出方法、情報伝播ネットワーク抽出装置、及び情報伝播ネットワーク抽出プログラム | |
KR101651963B1 (ko) | 시공간 연관 정보 생성 방법, 이를 수행하는 시공간 연관 정보 생성 서버 및 이를 저장하는 기록매체 | |
KR20160002199A (ko) | 연관 키워드를 이용한 이슈 데이터 추출방법 및 시스템 | |
Vidulin et al. | Multi-label approaches to web genre identification | |
Gali et al. | Extracting representative image from web page | |
KR101583073B1 (ko) | 기사 요약 서비스 서버 및 방법 | |
Dai et al. | MOETA: a novel text-mining model for collecting and analysing competitive intelligence |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20141226 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20151229 Year of fee payment: 5 |
|
FPAY | Annual fee payment |
Payment date: 20161226 Year of fee payment: 6 |
|
FPAY | Annual fee payment |
Payment date: 20171227 Year of fee payment: 7 |
|
FPAY | Annual fee payment |
Payment date: 20190102 Year of fee payment: 8 |
|
FPAY | Annual fee payment |
Payment date: 20191224 Year of fee payment: 9 |