KR101138751B1 - Apparatus and method for processing web information by using extracting local information - Google Patents
Apparatus and method for processing web information by using extracting local information Download PDFInfo
- Publication number
- KR101138751B1 KR101138751B1 KR1020090051104A KR20090051104A KR101138751B1 KR 101138751 B1 KR101138751 B1 KR 101138751B1 KR 1020090051104 A KR1020090051104 A KR 1020090051104A KR 20090051104 A KR20090051104 A KR 20090051104A KR 101138751 B1 KR101138751 B1 KR 101138751B1
- Authority
- KR
- South Korea
- Prior art keywords
- information
- web
- document data
- local
- unit
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000012545 processing Methods 0.000 title claims abstract description 15
- 238000000605 extraction Methods 0.000 claims abstract description 31
- 230000010354 integration Effects 0.000 claims abstract description 4
- 238000004458 analytical method Methods 0.000 claims description 53
- 230000010365 information processing Effects 0.000 claims description 27
- 238000013507 mapping Methods 0.000 claims description 26
- 238000003672 processing method Methods 0.000 claims description 8
- 230000000877 morphologic effect Effects 0.000 claims description 6
- 239000000284 extract Substances 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
- G06F16/84—Mapping; Conversion
- G06F16/86—Mapping to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
본 발명은 지역정보 추출을 활용한 웹 정보 가공 장치 및 방법에 관한 것으로, 웹 정보 서비스에 있어서 종래 기술에 따른 주제 중심 그룹핑 방법에서 탈피하여 지역정보를 중심으로 같은 지역을 다루고 있는 다양한 정보들을 통합하여 관리할 수 있으므로, 웹 콘텐츠를 분석하여 주요 정보를 추출하고 웹 콘텐츠 내용과 관련된 위치정보를 파악하여 관련 지역정보를 중심으로 다양한 웹 정보를 통합 관리할 수 있는 이점이 있다.The present invention relates to an apparatus and method for processing web information using local information extraction, and to break away from the subject-based grouping method according to the prior art in the web information service, by integrating various pieces of information covering the same area around the local information. Because it can be managed, it is possible to analyze the web content, extract the main information, grasp the location information related to the web content content, and integrate and manage various web information around the relevant local information.
위치정보 추출, 지역정보 추출, 지역기반 정보 서비스, 정보 통합 Location information extraction, area information extraction, area based information service, information integration
Description
본 발명은 지역정보 추출을 활용한 웹 정보 가공 장치 및 방법에 관한 것으로서, 더욱 상세하게는 웹 콘텐츠 내용과 관련된 위치정보를 파악한 후 관련 지역정보를 중심으로 다양한 웹 정보를 통합(consolidation)하여 가공한 문서 데이터를 제공하는 지역정보 추출을 활용한 웹 정보 가공 장치 및 방법에 관한 것이다.The present invention relates to an apparatus and method for processing web information using local information extraction, and more particularly, to grasp location information related to web content contents, and then process by consolidating various web information based on relevant local information. The present invention relates to a web information processing apparatus and method using local information extraction for providing document data.
본 발명은 지식경제부의 IT성장동력기술개발 사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호 : 2008-S-020-01, 과제명 : 웹 QA 기술개발].The present invention is derived from a study conducted as part of the IT growth engine technology development project of the Ministry of Knowledge Economy [Task management number: 2008-S-020-01, Task name: Web QA technology development].
인터넷을 이용하여 제공되는 다양한 서비스 중 하나인 검색 서비스는 사용자가 입력하는 소정의 검색 질의어에 대해 검색을 수행한 후 검색 질의어에 상응하는 검색 결과를 사용자에게 제공하는 서비스를 의미한다.The search service, which is one of various services provided using the Internet, refers to a service that provides a user with a search result corresponding to the search query after searching for a predetermined search query input by the user.
이러한 검색 서비스의 제공을 위해 검색 서비스 제공자는 미리 웹사이트들에 대한 정보를 수집한 후 이를 색인하여 저장함으로써 데이터베이스를 구축하고, 사용자로부터 검색이 요청되는 경우 데이터베이스에 저장된 웹사이트 정보들을 검색함으로써 해당 결과를 사용자에게 제공한다.In order to provide such a search service, a search service provider constructs a database by collecting information about websites and indexes and stores them in advance, and searches the website information stored in the database when a search is requested from a user. To the user.
종래 기술에 따른 웹 정보를 제공하기 위한 검색 서비스에서는 주제 중심 그룹핑 방법에 이용되었다.In the search service for providing web information according to the prior art, it is used in a subject-oriented grouping method.
이러한 주제 중심 그룹핑 방법은 웹 정보를 예컨대, 경제, 사회, 여행, 교육 등의 주제별로 그룹핑하여 제공하는 것이다.The subject-based grouping method is to provide web information grouped by subjects such as economy, society, travel, education, and the like.
한편, 최근에는 웹 검색 서비스에 대한 활용 방향이 다양화되었고, 이러한 추세에 맞추어서 검색 서비스 제공자는 사용자로부터 직접 특정 관심지점의 지역정보를 포함하는 주요정보에 대한 등록 요청을 받아서 이를 지역정보 데이터베이스에 등록하게 되었으며, 이러한 지역정보 데이터베이스를 활용한 지역정보 검색 서비스를 제공하게 되었다.On the other hand, in recent years, the use of web search service has diversified, and according to this trend, the search service provider receives a request for registration of key information including local information of a specific point of interest directly from the user and registers it in the local information database. It is to provide a local information search service using this local information database.
이처럼 최근에는 웹 검색 서비스의 일종으로 지역정보 검색 서비스가 제공되고 있는데, 이러한 지역정보 검색 서비스를 위해 웹 정보를 검색할 때에 종래 기술에 따른 주제 중심 그룹핑 방법을 이용할 경우에는 그 검색 결과가 주제별로 추출되므로 지역정보를 중심으로 재분류하여야 하는 등의 절차가 동반되어 지역정보 검색 서비스에는 적합하지 않은 문제점이 있었다.Recently, a local information search service has been provided as a kind of web search service. When searching for web information for such a local information search service, if the subject-based grouping method according to the prior art is used, the search results are extracted by subject. Therefore, there was a problem that the local information retrieval service was not suitable for the local information retrieval service.
본 발명은 상술한 바와 같은 종래 기술의 문제점을 해결하기 위해 제안한 것으로서, 웹 콘텐츠 내용과 관련된 위치정보를 파악한 후 관련 지역정보를 중심으로 다양한 웹 정보를 통합하여 가공한 문서 데이터를 제공하는 지역정보 추출을 활용한 웹 정보 가공 장치 및 방법을 제공한다.The present invention has been proposed to solve the problems of the prior art as described above, local information extraction to provide document data processed by integrating a variety of web information centered on the relevant local information after grasping the location information related to the content of the web content Provides a web information processing apparatus and method utilizing the.
본 발명의 일 실시예로서 지역정보 추출을 활용한 웹 정보 가공 장치는, 웹 콘텐츠에서 추출한 문서 데이터를 대상으로 하여 언어분석을 수행하는 문서 분석부와, 상기 언어분석의 결과를 토대로 하여 상기 문서 데이터의 주제를 선택하는 주제 분류부와, 선택한 상기 주제 및 상기 언어분석의 결과에 따라 상기 문서 데이터에서 지역정보를 포함하는 주요정보를 추출하는 주요정보 추출부와, 상기 지역정보에 의거하여 설정 범위 내의 지역을 다루고 있는 상기 문서 데이터를 그룹핑하여 매핑하는 관련정보 매핑부와, 매핑한 상기 문서 데이터를 비교하여 그 비교 결과에 따라 통합 가공하는 정보 통합부를 포함할 수 있다.According to an embodiment of the present invention, a web information processing apparatus using local information extraction may include a document analysis unit that performs language analysis on document data extracted from web content, and the document data based on a result of the language analysis. A subject classification section for selecting a subject of the subject, a main information extracting section for extracting main information including regional information from the document data according to the selected subject and the result of the language analysis, and within a setting range based on the regional information And a related information mapping unit for grouping and mapping the document data covering an area, and an information integrating unit for comparing the mapped document data and integrating and processing the document data.
여기서, 상기 웹 정보 가공 장치는, 추출한 상기 지역정보를 실제 지리적인 위치정보로 변환하는 위치정보 파악부를 더 포함하며, 상기 관련정보 매핑부는, 상기 지역정보 및 상기 위치정보에 의거하여 상기 문서 데이터를 그룹핑하여 매핑할 수 있다.The web information processing apparatus may further include a location information grasping unit for converting the extracted area information into actual geographic location information, and the related information mapping unit converts the document data based on the area information and the location information. Can be grouped and mapped.
상기 위치정보 파악부는, 관심지점 정보를 활용하여 상기 지역정보를 상기 위치정보로 변환할 수 있다.The location information grasping unit may convert the area information into the location information by using the point of interest information.
상기 문서 분석부는, 언어분석 자원을 활용하여 형태소 분석과 개체명 인식을 포함하는 상기 언어분석을 수행할 수 있다.The document analysis unit may perform the linguistic analysis including morphological analysis and entity name recognition using a linguistic analysis resource.
상기 주제 분류부는, 선택한 상기 주제에 따라 상기 문서 데이터에서 추출해야 할 정보의 종류가 표현된 템플릿(template)을 결정하며, 상기 주요정보 추출부는, 상기 템플릿에 의거하여 상기 문서 데이터에서 상기 주요정보를 추출할 수 있다.The subject classifying unit determines a template in which the type of information to be extracted from the document data is expressed according to the selected subject, and the main information extracting unit selects the main information from the document data based on the template. Can be extracted.
상기 관련정보 매핑부는, 상기 설정 범위 내의 지역을 동일 지역으로 한정할 수 있다.The related information mapping unit may limit an area within the set range to the same area.
상기 정보 통합부는, 상기 비교 결과에 따라 상기 주요정보가 불일치하면 일치하도록 수정할 수 있다.The information integrating unit may modify the main information if the main information does not match according to the comparison result.
본 발명의 다른 실시예로서 지역정보 추출을 활용한 웹 정보 제공 방법은, 웹 정보 가공 장치가 지역정보 추출을 활용하여 웹 정보를 가공하는 방법으로서, 웹 콘텐츠에서 추출한 문서 데이터를 대상으로 하여 언어분석을 수행하는 단계와, 상기 언어분석의 결과를 토대로 하여 상기 문서 데이터의 주제를 선택하는 단계와, 선택한 상기 주제 및 상기 언어분석의 결과에 따라 상기 문서 데이터에서 지역정보를 포함하는 주요정보를 추출하는 단계와, 상기 지역정보에 의거하여 설정 범위 내의 지역을 다루고 있는 상기 문서 데이터를 그룹핑하여 매핑하는 단계와, 매핑한 상기 문서 데이터를 비교하여 그 비교 결과에 따라 통합 가공하는 단계를 포함할 수 있다.According to another embodiment of the present invention, a web information providing method using local information extraction is a method in which a web information processing apparatus processes web information using local information extraction, and performs language analysis on document data extracted from web content. Selecting a subject of the document data based on a result of the language analysis; extracting main information including local information from the document data according to the selected subject and the result of the language analysis; And grouping and mapping the document data covering an area within a setting range based on the region information, and comparing the mapped document data and integrating the document data according to the comparison result.
상기 웹 정보 가공 방법은, 추출한 상기 지역정보를 실제 지리적인 위치정보 로 변환하는 단계를 더 포함하며, 상기 매핑하는 단계는, 상기 지역정보 및 상기 위치정보에 의거하여 상기 문서 데이터를 그룹핑하여 매핑할 수 있다.The web information processing method may further include converting the extracted area information into actual geographical location information, and the mapping may include mapping and mapping the document data based on the area information and the location information. Can be.
상기 변환하는 단계는, 관심지점 정보를 활용하여 상기 지역정보를 상기 위치정보로 변환할 수 있다.In the converting, the area information may be converted into the location information by using the point of interest information.
상기 수행하는 단계는, 언어분석 자원을 활용하여 형태소 분석과 개체명 인식을 포함하는 상기 언어분석을 수행할 수 있다.The performing may include performing a linguistic analysis including morphological analysis and entity name recognition using a linguistic analysis resource.
상기 선택하는 단계는, 선택한 상기 주제에 따라 상기 문서 데이터에서 추출해야 할 정보의 종류가 표현된 템플릿을 결정하며, 상기 추출하는 단계는, 상기 템플릿에 의거하여 상기 문서 데이터에서 상기 주요정보를 추출할 수 있다.The selecting may include determining a template in which the type of information to be extracted from the document data is expressed according to the selected subject. The extracting may include extracting the main information from the document data based on the template. Can be.
상기 매핑하는 단계는, 상기 설정 범위 내의 지역을 동일 지역으로 한정할 수 있다.In the mapping, the region within the set range may be limited to the same region.
상기 통합 가공하는 단계는, 상기 비교 결과에 따라 상기 주요정보가 불일치하면 일치하도록 수정할 수 있다.The integrated processing may be modified to coincide with each other if the main information is inconsistent according to the comparison result.
본 발명에 의하면 웹 정보 서비스에 있어서 종래 기술에 따른 주제 중심 그룹핑 방법에서 탈피하여 지역정보를 중심으로 같은 지역을 다루고 있는 다양한 정보들을 통합하여 관리할 수 있으므로, 웹 콘텐츠를 분석하여 주요 정보를 추출하고 콘텐츠 내용과 관련된 위치정보를 파악하여 관련 지역정보를 중심으로 다양한 웹 정보를 통합 관리할 수 있다.According to the present invention, since it is possible to integrate and manage a variety of information covering the same area with the focus on the local information, apart from the subject-oriented grouping method according to the prior art in the web information service, the main information is extracted by analyzing the web content. By identifying location information related to content contents, various web information can be integrated and managed based on relevant local information.
따라서, 고차원 언어분석을 포함한 문서 분석, 문서 주제 분류, 주요정보 추출, 관련 위치정보 추출, 지역정보 기반의 정보 매핑 및 정보 통합 과정을 통해 웹 상에 흩어져있는 정보들을 지역정보를 중심으로 통합하여 제시하는 서비스에 활용할 수 있는 효과가 있다.Therefore, the information scattered on the web is integrated and presented based on local information through document analysis including high-dimensional language analysis, document subject classification, key information extraction, relevant location information extraction, local information-based information mapping and information integration process. It can be used to service.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 도면부호는 동일 구성 요소를 지칭한다.Advantages and features of the present invention and methods for achieving them will be apparent with reference to the embodiments described below in detail with the accompanying drawings. However, the present invention is not limited to the embodiments disclosed below, but can be implemented in various different forms, and only the embodiments make the disclosure of the present invention complete, and the general knowledge in the art to which the present invention belongs. It is provided to fully inform the person having the scope of the invention, which is defined only by the scope of the claims. Like numbers refer to like elements throughout.
본 발명의 실시예들을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명의 실시예에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다. In describing the embodiments of the present invention, if it is determined that a detailed description of a known function or configuration may unnecessarily obscure the gist of the present invention, the detailed description thereof will be omitted. In addition, terms to be described below are terms defined in consideration of functions in the embodiments of the present invention, which may vary according to intentions or customs of users and operators. Therefore, the definition should be based on the contents throughout this specification.
첨부된 블록도의 각 블록과 흐름도의 각 단계의 조합들은 컴퓨터 프로그램 인스트럭션들에 의해 수행될 수도 있다. 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서를 통해 수행되는 그 인스트럭션들이 블록도의 각 블록 또는 흐름도의 각 단계에서 설명된 기능들을 수행하는 수단을 생성하게 된다. 이들 컴퓨터 프로그램 인스트럭션들은 특정 방식으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용 가능 또는 컴퓨터 판독 가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 블록도의 각 블록 또는 흐름도 각 단계에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능하다. 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 블록도의 각 블록 및 흐름도의 각 단계에서 설명된 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다. Combinations of each block of the accompanying block diagram and each step of the flowchart may be performed by computer program instructions. These computer program instructions may be mounted on a processor of a general purpose computer, special purpose computer, or other programmable data processing equipment such that instructions executed through the processor of the computer or other programmable data processing equipment may not be included in each block or flowchart of the block diagram. It will create means for performing the functions described in each step. These computer program instructions may be stored in a computer usable or computer readable memory that can be directed to a computer or other programmable data processing equipment to implement functionality in a particular manner, and thus the computer usable or computer readable memory. It is also possible for the instructions stored in to produce an article of manufacture containing instruction means for performing the functions described in each block or flowchart of each step of the block diagram. Computer program instructions may also be mounted on a computer or other programmable data processing equipment, such that a series of operating steps may be performed on the computer or other programmable data processing equipment to create a computer-implemented process to create a computer or other programmable data. Instructions that perform processing equipment may also provide steps for performing the functions described in each block of the block diagram and in each step of the flowchart.
또한, 각 블록 또는 각 단계는 특정된 논리적 기능(들)을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또, 몇 가지 대체 실시예들에서는 블록들 또는 단계들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들 또는 단계들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들 또는 단계들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.In addition, each block or step may represent a portion of a module, segment or code that includes one or more executable instructions for executing a specified logical function (s). It should also be noted that in some alternative embodiments, the functions noted in the blocks or steps may occur out of order. For example, the two blocks or steps shown in succession may in fact be executed substantially concurrently or the blocks or steps may sometimes be performed in the reverse order, depending on the functionality involved.
도 1은 본 발명의 실시예에 따른 지역정보 추출을 활용한 웹 정보 가공 장치의 블록 구성도이다.1 is a block diagram of a web information processing apparatus using local information extraction according to an embodiment of the present invention.
이에 나타낸 바와 같이 본 발명의 웹 정보 가공 장치는, 문서 수집부(110), 문서 데이터베이스(120), 문서 분석부(130), 언어분석 자원 저장부(131), 주제 분류부(140), 주요정보 추출부(150), 위치정보 파악부(160), 관심지점 정보 저장부(161), 관련정보 매핑부(170), 정보 통합부(180) 등을 포함하여 구성된다.As shown therein, the web information processing apparatus of the present invention includes a
문서 수집부(110)는 웹 문서(1) 등과 같은 웹 콘텐츠에서 본문을 추출하여 추출한 문서 데이터를 문서 데이터베이스(120)에 저장한다.The
문서 분석부(130)는 문서 데이터베이스(120)에 저장된 문서 데이터를 대상으로 하여 언어분석 자원 저장부(131)를 활용하는 언어분석을 수행한다. 이때, 문서 분석부(110)는 언어분석 자원 저장부(131)에 저장된 언어분석 자원을 활용하여 형태소 분석과 개체명 인식을 포함하는 언어분석을 수행한다. 언어분석 자원이라 함은 각종 디지털 사전, 언어분석 규칙, 학습 코퍼스(corpus) 등을 포함할 수 있다.The
주제 분류부(140)는 문서 분석부(130)에 의한 언어분석의 결과를 토대로 하여 문서 데이터베이스(120)에 저장된 문서 데이터의 주제를 선택하며, 선택한 주제에 따라 해당 문서 데이터에서 추출해야 할 정보의 종류가 표현된 템플릿을 결정한 다.The
주요정보 추출부(150)는 주제 분류부(140)가 선택한 주제, 즉 주제 분류부(140)가 결정한 템플릿 및 문서 분석부(130)에 의한 언어분석의 결과를 바탕으로 하여 해당 문서 데이터에서 지역정보를 포함하는 주요정보를 추출한다.The main
위치정보 파악부(160)는 주요정보 추출부(150)가 추출한 지역정보를 대상으로 관심지점 정보 저장부(161)를 활용하여 실제 지리적인 위치정보로 변환한다. 예컨대, 관심지점 정보 저장부(161)에 저장된 관심지점 디지털 사전을 이용한 관심지점 분석(analysis)을 통해 실제 지리적인 위치정보를 획득할 수 있다.The location
관련정보 매핑부(170)는 주요정보 추출부(150)에서 추출한 지역정보에 의거하거나 해당 지역정보 및 위치정보 파악부(160)에서 변환한 위치정보에 의거하여 문서 데이터베이스(120)에 저장된 문서 데이터 중에서 설정 범위 내의 지역을 다루고 있는 문서 데이터를 그룹핑하여 매핑한다. 이때, 설정 범위 내의 지역을 동일 지역으로 한정할 수도 있다.The related
정보 통합부(180)는 관련정보 매핑부(170)에서 매핑한 문서 데이터를 비교하며, 그 비교 결과에 따라 주요정보가 불일치하면 일치하도록 수정한 후에 단일의 갱신된 문서 데이터로 통합 가공하고, 통합 가공한 문서 데이터를 문서 데이터베이스(120)에 저장한다.The
이와 같이 구성된 본 발명의 실시예에 따른 지역정보 추출을 활용한 웹 정보 가공 장치에 의한 웹 정보 가공 과정을 도 2의 흐름도 및 도 3의 예시도를 추가로 참고하여 더 상세히 설명하면 다음과 같다.The web information processing process by the web information processing apparatus using the local information extraction according to the embodiment of the present invention configured as described above will be described in more detail with reference to the flowchart of FIG. 2 and the exemplary view of FIG. 3.
먼저, 문서 수집부(110)는 웹 문서(1) 등과 같은 웹 콘텐츠에서 본문을 추출(S201)하여 추출한 문서 데이터를 문서 데이터베이스(120)에 저장한다(S203).First, the
그러면, 문서 분석부(130)는 문서 데이터베이스(120)에 저장된 문서 데이터를 대상으로 하여 언어분석 자원 저장부(131)를 활용하는 언어분석을 수행한다(S205). 이때, 문서 분석부(110)는 언어분석 자원 저장부(131)를 활용하여 형태소 분석과 개체명 인식을 포함하는 언어분석을 수행한다. 예컨대, "맛집" 분야에 속한 문서를 분석한다고 가정하면, 언어분석 자원 저장부(131)에 탑재된 언어분석 디지털 사전에 등재되어 있는 개체명, 메뉴명, 맛집명 등의 언어분석을 수행할 수 있다.Then, the
다음으로, 주제 분류부(140)는 문서 분석부(130)에 의한 언어분석의 결과를 토대로 하여 문서 데이터베이스(120)에 저장된 문서 데이터의 주제를 선택하며(S207), 선택한 주제에 따라 해당 문서 데이터에서 추출해야 할 정보의 종류가 표현된 템플릿을 결정한다(S209). 예컨대, 템플릿은 맛집명, 전화번호, 주소, 메뉴명 등을 포함할 수 있다.Next, the
이어서, 주요정보 추출부(150)는 주제 분류부(140)가 선택한 주제, 즉 주제 분류부(140)가 결정한 템플릿 및 문서 분석부(130)에 의한 언어분석의 결과를 바탕으로 하여 해당 문서 데이터에서 지역정보를 포함하는 주요정보를 추출한다(S211). 예컨대, 지역정보로서 주소를 추출할 수 있다.Subsequently, the main
한편, 위치정보 파악부(160)는 주요정보 추출부(150)가 추출한 지역정보를 대상으로 관심지점 정보 저장부(161)를 활용하여 실제 지리적인 위치정보로 변환할 수 있다. 예컨대, 관심지점 정보 저장부(161)에 저장된 관심지점 디지털 사전을 이용한 관심지점 분석을 통해 실제 지리적인 위치정보를 획득할 수 있다.Meanwhile, the
그러면, 관련정보 매핑부(170)는 주요정보 추출부(150)에서 추출한 지역정보에 의거하거나 해당 지역정보 및 위치정보 파악부(160)에서 변환한 위치정보에 의거하여 문서 데이터베이스(120)에 저장된 문서 데이터 중에서 설정 범위 내의 지역을 다루고 있는 문서 데이터를 그룹핑하여 매핑한다(S213). 이때, 설정 범위 내의 지역을 동일 지역으로 한정할 수도 있다. 예컨대, 동일한 주소를 가지는 문서 데이터를 하나의 그룹으로 그룹핑하여 매핑하는 것이다.Then, the related
끝으로, 정보 통합부(180)는 관련정보 매핑부(170)에서 매핑한 문서 데이터를 비교하며(S215), 그 비교 결과에 따라 주요정보가 불일치(S217)하면 일치하도록 수정(S219)한 후에 단일의 갱신된 문서 데이터로 통합 가공하고, 통합 가공한 문서 데이터를 문서 데이터베이스(120)에 저장한다(S221). 여기서, 주요정보가 일치하도록 수정한다는 것은 정보의 종류가 동일하나 그 내용이 불일치할 때에 어느 하나의 문서 데이터를 기준으로 하여 나머지 문서 데이터의 해당 정보 내용을 수정하는 것을 의미한다. 이때 해당 문서 데이터를 추출한 웹 콘텐츠의 웹주소를 참고하여 평가한 신뢰성 수치가 가장 높은 문서 데이터를 기준으로 삼을 수 있다. 예컨대, 블로그(blog)에서 추출한 문서 데이터보다 포털사이트(portal site)에서 추출한 문서 데이터의 신뢰성 수치를 더 높게 평가하며, 포털사이트에서 추출한 문서 데이터를 정보 내용 수정의 기준으로 삼을 수 있다. 그리고, 통합 가공한다는 것은 복수의 문서 데이터에는 서로 다른 종류의 정보가 포함되었더라도 갱신된 문서 데이터는 모든 종류의 정보를 포함한다는 것을 의미한다.Finally, the
도 3은 본 발명의 실시예에 따른 지역정보 추출을 활용한 웹 정보 가공 장치에서 블로그 문서와 웹 포털사이트의 지역정보를 통합하는 실시 예를 보이는 것이다. 도 3에서 웹문서(1a)와 웹문서(1b)는 모두 특정 지역에 있는 "막창구이집"이라는 맛집을 다룬 문서이다3 illustrates an embodiment of integrating local information of a blog document and a web portal site in a web information processing apparatus using local information extraction according to an embodiment of the present invention. In FIG. 3, both the web document 1a and the
도 3의 도면부호 3은 웹문서(1a)에 대한 문서 분석부(130), 주제 분류부(140), 주요정보 추출부(150), 위치정보 파악부(160) 등의 수행 결과로 추출된 정보이다. 주제 분류부(140)가 웹문서(1a)에 대응하는 문서 데이터를 "맛집" 주제로 분류하였고, 주요정보 추출부(150)가 템플릿에 의거하여 해당 문서 데이터에서 "위치/메뉴/가격" 정보를 추출한 경우이다.
한편, 웹 상에는 "막창구이집"이라는 맛집을 다룬 콘텐츠들이 다수 존재한다. 그 예로 도 3의 웹문서(1b)는 웹 포털사이트의 지역정보로 제시되는 콘텐츠인데, 이 경우에는 도면부호 5의 형태로 해당 맛집에 대한 정보를 추출할 수 있다. 즉 주제 분류부(140)가 웹문서(1b)에 대응하는 문서 데이터를 "맛집" 주제로 분류하였고, 주요정보 추출부(150)가 템플릿에 의거하여 해당 문서 데이터에서 "전화번호/위치/업종/메뉴" 정보를 추출한 경우이다.On the other hand, there are a lot of contents dealing with a restaurant called "makgugji" on the web. For example, the
관련정보 매핑부(170)에서는 문서 데이터 중에서 유사한 지역정보를 다루는 정보를 찾아 그룹핑을 수행하는데, 도 3에서는 웹문서(1a)에 대응하는 문서 데이터 와 웹문서(1b)에 대응하는 문서 데이터가 매핑된 결과를 예시하였다. 그 외에도 지도, 사진 등의 이미지 정보를 포함한 멀티미디어 콘텐츠는 메타데이터 매핑을 통해 그룹핑할 수 있다.The related
도 3의 예에서, 도면부호 3에서는 위치정보가 "서울 서대문구 신촌동"이라고 표현된 반면, 도면부호 5에서는 더 정확하고 상세한 주소정보, 즉 "서울 서대문구 창전동 62-24"가 추출되었다. 그리고, 도면부호 5에는 메뉴의 가격정보가 표현되지 않은 반면, 도면부호 3에는 메뉴의 가격정보가 포함되었다.In the example of FIG. 3, the location information is expressed as "Sinchon-dong, Seodaemun-gu, Seoul" while the
정보 통합부(180)에서는 웹문서(1b)에서 추출한 문서 데이터의 위치정보를 기준으로 삼아서 웹문서(1a)에서 추출한 문서 데이터의 위치정보를 수정하며, 웹문서(1b)에 포함된 정보의 종류와 웹문서(1b)에 포함된 정보의 종류를 모두 포함하도록 문서 데이터를 병합 가공하여 도면부호 7의 갱신된 문서 데이터를 생성하고, 이렇게 생성한 문서 데이터를 문서 데이터베이스(120)에 저장한다.The
이처럼, 정보 통합부(180)에 의해 통합된 정보들은 웹 검색 서비스를 요청한 사용자에게 제공되며, 사용자는 지역정보를 중심으로 하는 웹 검색 결과물을 서비스 받는다.As such, the information integrated by the
도 1은 본 발명의 실시예에 따른 지역정보 추출을 활용한 웹 정보 가공 장치의 블록 구성도,1 is a block diagram of a web information processing apparatus utilizing local information extraction according to an embodiment of the present invention;
도 2는 본 발명의 실시예에 따른 지역정보 추출을 활용한 웹 정보 가공 방법을 설명하기 위한 흐름도,2 is a flowchart illustrating a web information processing method using local information extraction according to an embodiment of the present invention;
도 3은 본 발명의 실시예에 따른 지역정보 추출을 활용한 웹 정보 가공 장치에서 블로그 문서와 웹 포털사이트의 지역정보를 통합하는 실시 예를 보이는 도면.3 is a view showing an embodiment of integrating local information of a blog document and a web portal site in a web information processing apparatus using local information extraction according to an embodiment of the present invention.
<도면의 주요 부분에 대한 부호의 설명><Explanation of symbols for the main parts of the drawings>
110 : 문서 수집부 120 : 문서 데이터베이스110: document collection unit 120: document database
130 : 문서 분석부 140 : 주제 분류부130: document analysis unit 140: subject classification unit
150 : 주요정보 추출부 160 : 위치정보 파악부150: main information extraction unit 160: location information grasping unit
170 : 관련정보 매핑부 180 : 정보 통합부170: related information mapping unit 180: information integration unit
Claims (14)
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020090028632 | 2009-04-02 | ||
KR20090028632 | 2009-04-02 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20100110248A KR20100110248A (en) | 2010-10-12 |
KR101138751B1 true KR101138751B1 (en) | 2012-04-24 |
Family
ID=43130972
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020090051104A KR101138751B1 (en) | 2009-04-02 | 2009-06-09 | Apparatus and method for processing web information by using extracting local information |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101138751B1 (en) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007534045A (en) * | 2004-04-08 | 2007-11-22 | 株式会社ジャストシステム | Apparatus for processing documents using a markup language |
KR20090003270A (en) * | 2006-03-28 | 2009-01-09 | 마이크로소프트 코포레이션 | Detecting serving area of a web resource |
-
2009
- 2009-06-09 KR KR1020090051104A patent/KR101138751B1/en active IP Right Grant
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007534045A (en) * | 2004-04-08 | 2007-11-22 | 株式会社ジャストシステム | Apparatus for processing documents using a markup language |
KR20090003270A (en) * | 2006-03-28 | 2009-01-09 | 마이크로소프트 코포레이션 | Detecting serving area of a web resource |
Also Published As
Publication number | Publication date |
---|---|
KR20100110248A (en) | 2010-10-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9489401B1 (en) | Methods and systems for object recognition | |
CN111291210B (en) | Image material library generation method, image material recommendation method and related devices | |
CN112347244B (en) | Yellow-based and gambling-based website detection method based on mixed feature analysis | |
US10503828B2 (en) | System and method for answering natural language question | |
CN102054015B (en) | System and method of organizing community intelligent information by using organic matter data model | |
CN108345686B (en) | Data analysis method and system based on search engine technology | |
CN104537065A (en) | Search result pushing method and system | |
CN103106287B (en) | A kind of processing method and system of user search sentence | |
CN111522901B (en) | Method and device for processing address information in text | |
KR20130060720A (en) | Apparatus and method for interpreting service goal for goal-driven semantic service discovery | |
CN105975558A (en) | Method and device for establishing statement editing model as well as method and device for automatically editing statement | |
CN102314452B (en) | A kind of method and system of being undertaken navigating by input method platform | |
CN107861753B (en) | APP generation index, retrieval method and system and readable storage medium | |
US10621252B2 (en) | Method for searching in a database | |
KR102334236B1 (en) | Method and application of meaningful keyword extraction from speech-converted text data | |
JP2022532451A (en) | How to disambiguate Chinese place name meanings based on encyclopedia knowledge base and word embedding | |
CN109948154A (en) | A kind of personage's acquisition and relationship recommender system and method based on name | |
CN112818200A (en) | Data crawling and event analyzing method and system based on static website | |
Wang et al. | Enriching descriptions for public web services using information captured from related web pages on the internet | |
US10504145B2 (en) | Automated classification of network-accessible content based on events | |
Chang et al. | Enhancing POI search on maps via online address extraction and associated information segmentation | |
CN112035723A (en) | Resource library determination method and device, storage medium and electronic device | |
CN114238735B (en) | Intelligent internet data acquisition method | |
CN116521729A (en) | Information classification searching method and device based on elastic search | |
KR101138751B1 (en) | Apparatus and method for processing web information by using extracting local information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20160330 Year of fee payment: 5 |
|
FPAY | Annual fee payment |
Payment date: 20180403 Year of fee payment: 7 |
|
FPAY | Annual fee payment |
Payment date: 20190410 Year of fee payment: 8 |