KR100849272B1 - 마크업 문서 자동 요약 방법 - Google Patents
마크업 문서 자동 요약 방법 Download PDFInfo
- Publication number
- KR100849272B1 KR100849272B1 KR1020010073201A KR20010073201A KR100849272B1 KR 100849272 B1 KR100849272 B1 KR 100849272B1 KR 1020010073201 A KR1020010073201 A KR 1020010073201A KR 20010073201 A KR20010073201 A KR 20010073201A KR 100849272 B1 KR100849272 B1 KR 100849272B1
- Authority
- KR
- South Korea
- Prior art keywords
- markup
- document
- tag
- text
- weight
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/137—Hierarchical processing, e.g. outlines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/14—Tree-structured documents
- G06F40/143—Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/221—Parsing markup language streams
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Abstract
Description
Claims (5)
- 마크업(Markup) 문서 자동 요약 방법에 있어서,상기 마크업 문서의 카테고리 등급 및 태그 별 가중치를 미리 설정해 두는 제 1 단계와 ;상기 미리 설정해 둔 마크업 문서의 카테고리 등급 및 태그 별 가중치를 이용해 요약할 마크업 문서의 해당 태그별 최종 가중치를 산출하는 제 2 단계와 ;상기 최종 가중치가 높은 순서대로 해당 태그의 텍스트를 추출하는 제 3 단계로 이루어지는 것을 특징으로 마크업 문서 자동 요약 방법.
- 제 1 항에 있어서, 상기 제 1 단계와 제 2 단계 사이에 ;상기 요약할 마크업 문서의 범위와 요약 정보의 분량을 미리 설정하는 단계를 추가로 포함하는 것을 특징으로 하는 마크업 문서 자동 요약 방법.
- 제 2 항에 있어서, 상기 제 3 단계는 ;상기 미리 설정한 마크업 문서의 범위 및 그 분량에 따라 상기 해당 태그의 텍스트를 추출하는 것을 특징으로 하는 마크업 문서 자동 요약 방법.
- 제 1 항 내지 제 3 항 중 어느 한 항에 있어서, 상기 마크업 문서는 ;HTML(Hypertext Markup Language) 또는 XML(Extensible Markup Language)의 마크업 언어로 작성되는 것을 특징으로 하는 마크업 문서 자동 요약 방법.
- 제 1 항 내지 제 3 항 중 어느 한 항에 있어서, 상기 최종 가중치는 ;상기 요약할 마크업 문서의 해당 카테고리 등급 가중치와 해당 태그 가중치를 승산하여 산출하는 것을 특징으로 하는 마크업 문서 자동 요약 방법.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020010073201A KR100849272B1 (ko) | 2001-11-23 | 2001-11-23 | 마크업 문서 자동 요약 방법 |
US10/301,794 US7181683B2 (en) | 2001-11-23 | 2002-11-22 | Method of summarizing markup-type documents automatically |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020010073201A KR100849272B1 (ko) | 2001-11-23 | 2001-11-23 | 마크업 문서 자동 요약 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20030042523A KR20030042523A (ko) | 2003-06-02 |
KR100849272B1 true KR100849272B1 (ko) | 2008-07-29 |
Family
ID=19716224
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020010073201A KR100849272B1 (ko) | 2001-11-23 | 2001-11-23 | 마크업 문서 자동 요약 방법 |
Country Status (2)
Country | Link |
---|---|
US (1) | US7181683B2 (ko) |
KR (1) | KR100849272B1 (ko) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101656245B1 (ko) | 2015-09-09 | 2016-09-09 | 주식회사 위버플 | 문장 추출 방법 및 시스템 |
KR20170030434A (ko) | 2016-09-05 | 2017-03-17 | 주식회사 위버플 | 문장 추출 방법 및 시스템 |
KR20180032541A (ko) | 2018-03-20 | 2018-03-30 | 주식회사 위버플 | 문장 추출 방법 및 시스템 |
KR20190121727A (ko) | 2019-10-14 | 2019-10-28 | 주식회사 딥서치 | 문장 추출 방법 및 시스템 |
KR20200042767A (ko) | 2018-10-16 | 2020-04-24 | 주식회사 포스코아이씨티 | 키워드 추출 및 요약문 생성 시스템 및 방법 |
Families Citing this family (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8156216B1 (en) | 2002-01-30 | 2012-04-10 | Adobe Systems Incorporated | Distributed data collection and aggregation |
US9280603B2 (en) * | 2002-09-17 | 2016-03-08 | Yahoo! Inc. | Generating descriptions of matching resources based on the kind, quality, and relevance of available sources of information about the matching resources |
US20050216844A1 (en) * | 2004-03-03 | 2005-09-29 | Error Brett M | Delayed transmission of website usage data |
US7441195B2 (en) * | 2003-03-04 | 2008-10-21 | Omniture, Inc. | Associating website clicks with links on a web page |
JP4333229B2 (ja) * | 2003-06-23 | 2009-09-16 | 沖電気工業株式会社 | 固有表現文字列の評価装置および評価方法 |
US9009153B2 (en) * | 2004-03-31 | 2015-04-14 | Google Inc. | Systems and methods for identifying a named entity |
KR100667756B1 (ko) * | 2004-07-01 | 2007-01-11 | 삼성전자주식회사 | 방송 스트림 저장/검색 방법 및 장치 |
US8595223B2 (en) | 2004-10-15 | 2013-11-26 | Microsoft Corporation | Method and apparatus for intranet searching |
US20060095841A1 (en) * | 2004-10-28 | 2006-05-04 | Microsoft Corporation | Methods and apparatus for document management |
JP4185500B2 (ja) * | 2005-03-14 | 2008-11-26 | 株式会社東芝 | 文書検索システム、文書検索方法及びプログラム |
GB2429815A (en) * | 2005-08-31 | 2007-03-07 | Ant Software Ltd | Markup language document processing |
US20070124148A1 (en) * | 2005-11-28 | 2007-05-31 | Canon Kabushiki Kaisha | Speech processing apparatus and speech processing method |
US8726144B2 (en) * | 2005-12-23 | 2014-05-13 | Xerox Corporation | Interactive learning-based document annotation |
KR100775852B1 (ko) | 2006-01-18 | 2007-11-13 | 포스데이타 주식회사 | 응용 프로그램의 자원 검색 시스템 및 방법 |
KR100785927B1 (ko) | 2006-06-02 | 2007-12-17 | 삼성전자주식회사 | 데이터 요약 생성 방법 및 장치 |
US7707161B2 (en) * | 2006-07-18 | 2010-04-27 | Vulcan Labs Llc | Method and system for creating a concept-object database |
US8745684B1 (en) | 2006-08-08 | 2014-06-03 | CastTV Inc. | Facilitating video search |
US9398350B1 (en) * | 2006-08-08 | 2016-07-19 | CastTV Inc. | Video matching service to offline counterpart |
US20080281927A1 (en) * | 2007-05-11 | 2008-11-13 | Microsoft Corporation | Summarization tool and method for a dialogue sequence |
US8209617B2 (en) * | 2007-05-11 | 2012-06-26 | Microsoft Corporation | Summarization of attached, linked or related materials |
JP4983401B2 (ja) * | 2007-05-25 | 2012-07-25 | 富士ゼロックス株式会社 | 情報処理装置及び制御プログラム |
US7917755B1 (en) * | 2007-07-27 | 2011-03-29 | Adobe Systems Incorporated | Identification of localized web page element |
US8793342B2 (en) * | 2010-08-26 | 2014-07-29 | Hewlett-Packard Development Company, L.P. | Interpreting web application content |
JP5682480B2 (ja) * | 2011-06-30 | 2015-03-11 | 富士通株式会社 | 情報処理装置、情報処理方法、および情報処理プログラム |
CN103218355B (zh) * | 2012-01-18 | 2016-08-31 | 腾讯科技(深圳)有限公司 | 一种为用户生成标签的方法和装置 |
US10169456B2 (en) * | 2012-08-14 | 2019-01-01 | International Business Machines Corporation | Automatic determination of question in text and determination of candidate responses using data mining |
JP5955186B2 (ja) * | 2012-09-28 | 2016-07-20 | 株式会社Nttドコモ | 情報処理装置 |
WO2015183246A1 (en) | 2014-05-28 | 2015-12-03 | Hewlett-Packard Development Company, L.P. | Data extraction based on multiple meta-algorithmic patterns |
KR101636519B1 (ko) * | 2014-10-07 | 2016-07-04 | 한국원자력연구원 | 코치닐추출색소의 알레르기원성 저감화 방법 |
CN105740404A (zh) * | 2016-01-28 | 2016-07-06 | 上海晶赞科技发展有限公司 | 标签关联方法及装置 |
KR101873494B1 (ko) * | 2017-06-13 | 2018-07-31 | 계원예술대학교 산학협력단 | 종이 겹침 효과의 표현이 가능한 웹 문서 표시 장치 |
CN110489542B (zh) * | 2019-08-10 | 2023-12-12 | 刘莎 | 一种互联网网页信息和文本信息的自动摘要方法 |
KR20210043884A (ko) * | 2019-10-14 | 2021-04-22 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
CN111858912A (zh) * | 2020-07-03 | 2020-10-30 | 黑龙江阳光惠远知识产权运营有限公司 | 一种基于单篇长文本的摘要生成方法 |
CN113342941B (zh) * | 2021-06-28 | 2022-08-26 | 平安信托有限责任公司 | 文本搜索方法、装置、电子设备及计算机可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20000072184A (ko) * | 2000-08-14 | 2000-12-05 | 박민우 | 온라인상의 문서파싱방법 |
KR20010018214A (ko) * | 1999-08-18 | 2001-03-05 | 정선종 | 자연어 처리를 위한 에이치.티.엠.엘/에스.지.엠.엘 태그 처리장치 및 방법 |
KR20010060048A (ko) * | 1999-12-31 | 2001-07-06 | 이계철 | 웹 문서의 태그를 이용한 용어 가중치 할당 방법 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09259028A (ja) * | 1996-03-19 | 1997-10-03 | Toshiba Corp | 情報呈示方法 |
US6092081A (en) * | 1997-03-05 | 2000-07-18 | International Business Machines Corporation | System and method for taggable digital portfolio creation and report generation |
US6175830B1 (en) * | 1999-05-20 | 2001-01-16 | Evresearch, Ltd. | Information management, retrieval and display system and associated method |
US6308324B1 (en) * | 1999-06-10 | 2001-10-23 | International Business Machines Corporation | Multi-stage profiler |
US20040122731A1 (en) * | 1999-09-23 | 2004-06-24 | Mannik Peeter Todd | System and method for using interactive electronic representations of objects |
DE19964030A1 (de) * | 1999-12-30 | 2001-07-05 | Ibm | Effizientes Laden von Dokumenten auf dem Internet |
KR100367675B1 (ko) * | 2000-04-27 | 2003-01-15 | 엘지전자 주식회사 | 티브이 문자정보 번역 시스템 및 그 제어방법 |
US20020078091A1 (en) * | 2000-07-25 | 2002-06-20 | Sonny Vu | Automatic summarization of a document |
US7607083B2 (en) * | 2000-12-12 | 2009-10-20 | Nec Corporation | Test summarization using relevance measures and latent semantic analysis |
US20020078165A1 (en) * | 2000-12-14 | 2002-06-20 | International Business Machines Corporation | System and method for prefetching portions of a web page based on learned preferences |
-
2001
- 2001-11-23 KR KR1020010073201A patent/KR100849272B1/ko active IP Right Grant
-
2002
- 2002-11-22 US US10/301,794 patent/US7181683B2/en not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20010018214A (ko) * | 1999-08-18 | 2001-03-05 | 정선종 | 자연어 처리를 위한 에이치.티.엠.엘/에스.지.엠.엘 태그 처리장치 및 방법 |
KR20010060048A (ko) * | 1999-12-31 | 2001-07-06 | 이계철 | 웹 문서의 태그를 이용한 용어 가중치 할당 방법 |
KR20000072184A (ko) * | 2000-08-14 | 2000-12-05 | 박민우 | 온라인상의 문서파싱방법 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101656245B1 (ko) | 2015-09-09 | 2016-09-09 | 주식회사 위버플 | 문장 추출 방법 및 시스템 |
US10430468B2 (en) | 2015-09-09 | 2019-10-01 | Uberple Co., Ltd. | Method and system for extracting sentences |
KR20170030434A (ko) | 2016-09-05 | 2017-03-17 | 주식회사 위버플 | 문장 추출 방법 및 시스템 |
KR20180032541A (ko) | 2018-03-20 | 2018-03-30 | 주식회사 위버플 | 문장 추출 방법 및 시스템 |
KR20200042767A (ko) | 2018-10-16 | 2020-04-24 | 주식회사 포스코아이씨티 | 키워드 추출 및 요약문 생성 시스템 및 방법 |
KR20190121727A (ko) | 2019-10-14 | 2019-10-28 | 주식회사 딥서치 | 문장 추출 방법 및 시스템 |
Also Published As
Publication number | Publication date |
---|---|
KR20030042523A (ko) | 2003-06-02 |
US7181683B2 (en) | 2007-02-20 |
US20030101415A1 (en) | 2003-05-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100849272B1 (ko) | 마크업 문서 자동 요약 방법 | |
US10599721B2 (en) | Method and apparatus for automatically summarizing the contents of electronic documents | |
US7065707B2 (en) | Segmenting and indexing web pages using function-based object models | |
US10169310B2 (en) | Rich text handling for a web application | |
Chen et al. | Function-based object model towards website adaptation | |
US7882450B2 (en) | Interactive document summarization | |
US7458017B2 (en) | Function-based object model for use in website adaptation | |
US7055094B2 (en) | Virtual tags and the process of virtual tagging utilizing user feedback in transformation rules | |
US20110055209A1 (en) | System and method for delivering content and advertisments | |
US20090125529A1 (en) | Extracting information based on document structure and characteristics of attributes | |
US20080235567A1 (en) | Intelligent form filler | |
US20080072140A1 (en) | Techniques for inducing high quality structural templates for electronic documents | |
US20070005649A1 (en) | Contextual title extraction | |
US20060026496A1 (en) | Methods, apparatus and computer programs for characterizing web resources | |
KR100393176B1 (ko) | 문서 자동 요약에 의한 인터넷 정보 검색 시스템 및 방법 | |
JP5462591B2 (ja) | 特有コンテンツ判定装置、特有コンテンツ判定方法、特有コンテンツ判定プログラム及び関連コンテンツ挿入装置 | |
WO2014049310A2 (en) | Method and apparatuses for interactive searching of electronic documents | |
EP2096561B1 (en) | Method for extracting relevant content from a markup language file, in particular from a HTML file | |
Lakshmi et al. | Web structure analysis for information mining | |
KR20100014116A (ko) | 탭을 위한 규칙 기반의 사용자 정의된 wi-메카니즘 | |
JP2000331017A (ja) | 文書間関連度計算装置、その方法およびその記録媒体 | |
JP2000353165A (ja) | 文書処理方法及び装置並びに記録媒体 | |
Ko et al. | Web page dependent vision based segementation for web sites | |
Alli et al. | Automatic page scrolling for mobile Web search | |
JP2006072949A (ja) | 文書検索システム及び文書検索エンジンプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20130624 Year of fee payment: 6 |
|
FPAY | Annual fee payment |
Payment date: 20140624 Year of fee payment: 7 |
|
FPAY | Annual fee payment |
Payment date: 20150624 Year of fee payment: 8 |
|
FPAY | Annual fee payment |
Payment date: 20160624 Year of fee payment: 9 |
|
FPAY | Annual fee payment |
Payment date: 20170614 Year of fee payment: 10 |
|
FPAY | Annual fee payment |
Payment date: 20180614 Year of fee payment: 11 |