WO2012046904A1 - Device and method for providing multi -resource based search information - Google Patents

Device and method for providing multi -resource based search information Download PDF

Info

Publication number
WO2012046904A1
WO2012046904A1 PCT/KR2010/007239 KR2010007239W WO2012046904A1 WO 2012046904 A1 WO2012046904 A1 WO 2012046904A1 KR 2010007239 W KR2010007239 W KR 2010007239W WO 2012046904 A1 WO2012046904 A1 WO 2012046904A1
Authority
WO
WIPO (PCT)
Prior art keywords
search
resource
information
entity
entities
Prior art date
Application number
PCT/KR2010/007239
Other languages
French (fr)
Korean (ko)
Inventor
정한민
김평
이승우
이미경
서동민
성원경
Original Assignee
한국과학기술정보연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술정보연구원 filed Critical 한국과학기술정보연구원
Publication of WO2012046904A1 publication Critical patent/WO2012046904A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2471Distributed queries

Definitions

  • the present invention relates to an apparatus and method for providing multi-resource-based search information, and more particularly, to an apparatus and method for providing multi-resource based search information by recognizing an entity of an input document using an entity name dictionary for each resource, Mapping the relationship between the recognized entity and the entity to multiple integrated ontologies in different multiple resources and performing inference on the integrated ontology to expand the integrated knowledge base, Searching the integrated knowledge base to obtain search information corresponding to the search word for each resource, assigning a weight according to a ratio of each resource to the obtained search information, and calculating search result information obtained by sorting the calculated result Based search information providing apparatus and method.
  • a search information providing device is a device that collects / classifies / accumulates information and extracts it as needed.
  • the search information providing device is a device that collects, processes and processes information and data predicted to be necessary by the information demander, and quickly finds information suitable for the request from the database which is stored in a form that is easy to find and provides to the information requester .
  • the search result output from the search information providing device may be informed by telephone or transmitted by facsimile, and the search result may be transmitted to a home or office of the requester having the computer via the Internet.
  • a reference search is a search for bibliographic references in the literature that are dealing with the subject that the requester wants to know.
  • a search can retrieve general, numeric, and factual data.
  • the specialized search is to retrieve not only the bibliographic data but also the entire sentence or the original text from the database which has accumulated the full text of the document, if necessary.
  • the conventional search information providing apparatus has been limited in that it can not present the individual resources such as papers, research reports, and patents independently and merely presenting the respective information related to science and technology.
  • the present invention has been made to solve the above problems of the related art, and an object of the present invention is to provide search information fused with multiple resources to a search word input by a user, Based search information providing apparatus and method capable of providing a search result obtained by calculating a weight according to a ratio of resources.
  • a database management method comprising: storing a database storing entity name dictionary and context pattern information; recognizing an entity of an input document using the entity name dictionary for each resource; And a knowledge base for expanding the integrated knowledge base by performing inference on the integrated ontology and storing the relation between the recognized entity and the entity in a different integrated resource
  • a search module for searching the integrated knowledge base for search information corresponding to the search word when the search word is input by a user, a module, and a user, and assigning a weight according to a ratio of each resource to the obtained search information, And provides search result information obtained by sorting the calculated results, Based search information providing apparatus is provided.
  • the database includes at least one category, a name of an entity belonging to each category, an entity name to which an identifier of each entity name is mapped, an entity name database storing a dictionary, a context pattern information database storing pattern information about contexts between entities, And a normalization dictionary database.
  • the object recognition and relationship generation module recognizes a term by performing morphological analysis, syntax analysis, and semantic analysis on the input document, and when the recognized term is registered in the entity name dictionary, Extracting a context between the recognized entities based on the context pattern information and normalizing the extracted context based on the normalization dictionary database when the entity recognizing unit recognizes two or more entities, And a relationship generation unit for generating a relationship between the two.
  • the entity recognizer assigns a category and an identifier to each recognized entity.
  • the relation generation unit expresses a relationship between the extracted entity and the generated entity in terms of a subject, a relation name (Predicate), and an object (Object).
  • the knowledge base building module stores the relationships among the objects created in the different multi-resources or the meta data of the respective resources as an integrated ontology expressing connection relations between multiple resources.
  • the search result providing module classifies the search information acquired for each resource by research subjects, calculates a weight by a ratio of each resource input by the user to the number of search for each resource per research subject, The results are ranked by the highest research subjects.
  • the search result providing module arranges and provides the calculated results in a predetermined order or in a sequence requested by the user.
  • a method for providing search information based on multiple resources comprising the steps of: (a) recognizing an entity of an input document by using an entity name dictionary for each resource; (B) mapping the recognized entity to the integrated ontology in different multi-resources and storing the same, and performing inference on the integrated ontology, (C) if the search word is input by the user, searching the integrated knowledge base to obtain search information corresponding to the search word for each resource; (d) And providing search result information in which the calculated results are sorted.
  • the multi-resource-based search This method is provided for information.
  • the step (a) recognizes a term by performing morphological analysis, syntax analysis, and semantic analysis on the input document, and recognizing the term as an entity when the recognized term is registered in the entity name dictionary, Extracting a context between the recognized entities based on the context pattern information when the entities are two or more, and generating a relationship between the entities by normalizing the extracted context based on the previously stored normalization dictionary .
  • step (c) includes the steps of providing a search word input screen when a search is requested by the user, receiving a search word and a ratio of a resource and a resource for the search word through the search word input screen, And acquiring search information corresponding to the input search word for each resource.
  • the step (d) includes the steps of classifying search information obtained for each resource by a research subject, applying a weight according to a ratio of each resource to the number of searches for each resource for each research subject, And ranking them in the order of higher research subjects.
  • the search result information is provided in a predefined or ordered order requested by the user.
  • a recording medium in which a program for performing a method for providing multiple resource-based search information is recorded and readable in an electronic device.
  • search information obtained by fusing multiple resources with respect to a search word input by a user and providing a search result that calculates a weight according to the ratio of resources when the ratio of each resource is input can be provided. Therefore, it is possible to provide information services from various perspectives.
  • FIG. 1 is a block diagram schematically illustrating a configuration of a multi-resource-based search information providing apparatus according to an embodiment of the present invention
  • FIG. 2 is a flowchart illustrating a method of providing search information based on multiple resources according to an embodiment of the present invention.
  • FIG. 3 is an exemplary view of a search word input screen according to the present invention.
  • FIG. 4 is an exemplary view showing a search result information providing screen according to the present invention.
  • FIG. 1 is a block diagram schematically illustrating a configuration of a multi-resource-based search information providing apparatus according to an embodiment of the present invention.
  • a multi-resource-based search information providing apparatus 100 includes a database 110, an object recognition and relationship generating module 120, a knowledge base building module 130, A search module 150, and a search result providing module 160.
  • the database 110 includes an object name dictionary database 112 in which one or more categories, object names belonging to each category, object names to which the identifiers of individual object names are mapped, database 112, context pattern information A database 114, and a normalization dictionary database 116 for normalizing the context.
  • the entity recognition and relation generation module 120 recognizes an entity of an input document by using the entity name dictionary for each resource and generates a relationship between the recognized entities using the context pattern information.
  • the entity recognition and relationship generation module 120 includes an entity recognition unit 122 and a relationship generation unit 124.
  • the entity recognizer 122 recognizes a term by performing morphological analysis, syntax analysis, and semantic analysis on the input document, and recognizes the term as an entity when the recognized term is registered in the entity name dictionary. At this time, the entity recognition unit 122 assigns a category and an identifier to each recognized entity.
  • the relation generating unit 124 extracts a context between the recognized entities based on the context pattern information, And the extracted context is normalized to generate the relationship between the entities.
  • the entity recognizer 122 recognizes a notebook, a monitor, an SSD, and a mobile processor entity in the sentence.
  • the relationship generation unit 124 extracts only the context corresponding to the previously stored context pattern information, for example, " Bebe verb + past participle + preposition ".
  • the relation generation unit 124 unifies the tense of the corresponding context, for example, "was” to "be” and uses similar expressions such as "similar to” and “similar with” and “similar to” to create a relationship between entities by performing context normalization.
  • the relationship generation unit 124 expresses the relationship between the extracted entity and the generated entity in terms of a subject, a relationship name (Predicate), and an object (Object).
  • the method for the object recognition and relation generation module 120 to generate the object recognition and the relation is performed for each resource, and the resource refers to a patent, a thesis, a report, an academic document, a standard, a statistic, an electronic document and the like.
  • the knowledge base building module 130 maps and stores the relationships between entities and entities recognized from different multiple resources into an integrated ontology and extends the integrated knowledge base by performing inference on the integrated ontology.
  • the knowledge base building module 130 stores the relationships among the objects created in the different multi-resources or the meta data of the respective resources in the integrated ontology represented by the connection relation among multiple resources.
  • the integrated knowledge base generated by the knowledge base building module 130 is stored in the knowledge base DB 140.
  • the search module 150 searches the integrated knowledge base and acquires search information corresponding to the search word for each resource.
  • the search module 150 searches the integrated knowledge base to search information about a smart card, such as a patent, a paper, a report, Statistics, and electronic documents.
  • the search result providing module 160 provides search information obtained by sorting the calculated results by assigning weights according to ratios of the resources to the search information obtained by the search module 150.
  • the search result providing module 160 classifies search information obtained for each resource by research subjects, applies a weight according to the ratio of each resource input by the user to the number of search for each resource per research subject, , And the calculated results are ranked and provided in order of higher research subjects.
  • the search result providing module 160 may arrange the calculated results in a predetermined order or in a sequence requested by the user.
  • a user inputs a "smart card” as a search word and inputs a ratio of each resource to 50% of a thesis, 30% of a patent, and 20% of a report.
  • the search information obtained for each resource was classified into 2 subjects, 3 patents, 5 reports, 5 patents, 5 patents, 1 report, and 3 patents. Ten patents, and one report, the search result providing module calculates the number of searches by multiplying the corresponding resource ratio.
  • the search result providing module 160 provides search results in the order of the C company 4.5, the B company 4.2, and the A company 2.9 by ranking the calculation results for each research subject.
  • the search result providing module 160 may arrange the calculated results in a predetermined order or in a sequence requested by the user.
  • the search information providing apparatus 100 configured as described above extracts the implicit information through text mining in multiple resources such as a paper, a patent, and a report, merges with the explicit information such as metadata, This is put on the service platform based on Semantic Web technology, enabling information service from various viewpoints.
  • FIG. 1 is a block diagram schematically illustrating a configuration of a multi-resource-based search information providing apparatus according to an embodiment of the present invention.
  • a multi-resource-based search information providing apparatus 100 includes a database 110, an object recognition and relationship generating module 120, a knowledge base building module 130, A search module 150, and a search result providing module 160.
  • the database 110 includes an object name dictionary database 112 in which one or more categories, object names belonging to each category, object names to which the identifiers of individual object names are mapped, database 112, context pattern information A database 114, and a normalization dictionary database 116 for normalizing the context.
  • the entity recognition and relation generation module 120 recognizes an entity of an input document by using the entity name dictionary for each resource and generates a relationship between the recognized entities using the context pattern information.
  • the entity recognition and relationship generation module 120 includes an entity recognition unit 122 and a relationship generation unit 124.
  • the entity recognizer 122 recognizes a term by performing morphological analysis, syntax analysis, and semantic analysis on the input document, and recognizes the term as an entity when the recognized term is registered in the entity name dictionary. At this time, the entity recognition unit 122 assigns a category and an identifier to each recognized entity.
  • the relation generating unit 124 extracts a context between the recognized entities based on the context pattern information, And the extracted context is normalized to generate the relationship between the entities.
  • the entity recognizer 122 recognizes a notebook, a monitor, an SSD, and a mobile processor entity in the sentence.
  • the relationship generation unit 124 extracts only the context corresponding to the previously stored context pattern information, for example, " Bebe verb + past participle + preposition ".
  • the relation generation unit 124 unifies the tense of the corresponding context, for example, "was” to "be” and uses similar expressions such as "similar to” and “similar with” and “similar to” to create a relationship between entities by performing context normalization.
  • the relationship generation unit 124 expresses the relationship between the extracted entity and the generated entity in terms of a subject, a relationship name (Predicate), and an object (Object).
  • the method for the object recognition and relation generation module 120 to generate the object recognition and the relation is performed for each resource, and the resource refers to a patent, a thesis, a report, an academic document, a standard, a statistic, an electronic document and the like.
  • the knowledge base building module 130 maps and stores the relationships between entities and entities recognized from different multiple resources into an integrated ontology and extends the integrated knowledge base by performing inference on the integrated ontology.
  • the knowledge base building module 130 stores the relationships among the objects created in the different multi-resources or the meta data of the respective resources in the integrated ontology represented by the connection relation among multiple resources.
  • the integrated knowledge base generated by the knowledge base building module 130 is stored in the knowledge base DB 140.
  • the search module 150 searches the integrated knowledge base and acquires search information corresponding to the search word for each resource.
  • the search module 150 searches the integrated knowledge base to search information about a smart card, such as a patent, a paper, a report, Statistics, and electronic documents.
  • the search result providing module 160 provides search information obtained by sorting the calculated results by assigning weights according to ratios of the resources to the search information obtained by the search module 150.
  • the search result providing module 160 classifies search information obtained for each resource by research subjects, applies a weight according to the ratio of each resource input by the user to the number of search for each resource per research subject, , And the calculated results are ranked and provided in order of higher research subjects.
  • the search result providing module 160 may arrange the calculated results in a predetermined order or in a sequence requested by the user.
  • a user inputs a "smart card” as a search word and inputs a ratio of each resource to 50% of a thesis, 30% of a patent, and 20% of a report.
  • the search information obtained for each resource was classified into 2 subjects, 3 patents, 5 reports, 5 patents, 5 patents, 1 report, and 3 patents. Ten patents, and one report, the search result providing module calculates the number of searches by multiplying the corresponding resource ratio.
  • the search result providing module 160 provides search results in the order of the C company 4.5, the B company 4.2, and the A company 2.9 by ranking the calculation results for each research subject.
  • the search result providing module 160 may arrange the calculated results in a predetermined order or in a sequence requested by the user.
  • the search information providing apparatus 100 configured as described above extracts the implicit information through text mining in multiple resources such as a paper, a patent, and a report, merges with the explicit information such as metadata, This is put on the service platform based on Semantic Web technology, enabling information service from various viewpoints.
  • FIG. 2 is a flowchart illustrating a method for providing search information based on multiple resources by a search information providing apparatus according to an embodiment of the present invention.
  • FIG. 3 is an exemplary view of a search word input screen according to the present invention.
  • FIG. 5 is a diagram illustrating an example of a search result information providing screen according to the embodiment of FIG.
  • the search information providing apparatus recognizes an entity of an input document using an entity name dictionary for each resource (S200), and creates a relationship between the recognized entities using the context pattern information (S202).
  • the search information providing apparatus recognizes a term by performing morphological analysis, syntax analysis, and semantic analysis on the input document, and recognizes the term as an entity when the recognized term is registered in the entity name dictionary.
  • the retrieval information providing device then extracts the context between the recognized entities based on the context pattern information and normalizes the extracted context based on the previously stored normalization dictionary when the recognized entity is two or more To create relationships between entities.
  • the search information providing device maps and stores the relationship between the entity and the entity recognized in the different multi-resources into the integrated ontology (S206), and performs inference on the integrated ontology to expand the integrated knowledge base (S208). That is, the search information providing apparatus extracts internal information through text mining in multiple resources such as a paper, a patent, and a report, merges with external information such as metadata, and puts it on a service platform based on a semantic web technology, To provide information services in the Internet.
  • step S208 After the execution of step S208, if the search word is input by the user (S210), the search information providing apparatus searches the integrated knowledge base and acquires search information corresponding to the search word for each resource (S212).
  • the search information providing apparatus provides a search word input screen as shown in FIG.
  • the search word input screen 300 includes a search word input area 310 for inputting a search word, a resource selection area 320 for selecting a resource and a ratio for the resource, do.
  • the user inputs a search word desired to be searched in the search word input area 310 and selects at least one of a patent, a thesis, a report, an academic document, a standard, statistics, and an electronic document in the resource selection area 320 . At this time, the user can input a ratio of the selected resources together.
  • the resource selection area 320 is configured as a slide bar type in which two resources can be selected. However, it is natural that the resource selection area 320 can be formed in various forms that can select a plurality of resources such as three or four.
  • search term input screen 300 may further include a year range designation area for designating a year range.
  • the search information providing apparatus searches the integrated knowledge base for search information corresponding to the input search word Acquired by each resource.
  • the search information providing apparatus After the execution of step S212, the search information providing apparatus provides a weight according to the ratio of each resource to the acquired search information (S214), and provides search result information obtained by sorting the calculated result (S216) .
  • the search information providing apparatus classifies the search information obtained for each resource by research subjects, and calculates the search information by applying a weight according to the ratio of each resource to the search number of each resource by the research subject. Then, the search information providing apparatus ranks and provides the computed results in the order of higher research subjects. At this time, the search information providing device arranges and provides the calculated results in a predetermined order or order requested by the user.
  • the search result information providing screen provided by the search information providing apparatus is as shown in FIG. 4, the search result information providing screen 400 includes a search word providing region 410, a resource providing region 420, and a search result providing region 430 do.
  • the search word providing region 410 displays a search word input by a user
  • the resource providing region 420 displays a resource selected by the user and a ratio of the resource.
  • the search result providing region 430 is a region in which a result obtained by applying a weight according to the resource ratio to the number of searches of each resource by the research subject is provided. In this case, to be.
  • the search results are provided in the order of the A company 10, the B company 8, and the C company 7 in the order of higher research subjects.
  • the user may change the resource or resource ratio using the slide bar of the resource providing area 420. Then, the search result providing area 430 is provided with a search result reflecting the changed resource or resource ratio.
  • the apparatus and method for providing multi-resource-based search information according to the present invention provide search information that fuses multiple resources to a search word input by a user, and when the ratio of each resource is input, It is suitable for providing the calculated search result and having a high necessity of providing information service from various viewpoints according to the demand of the user.

Abstract

The present invention relates to a device and method for providing search information based on multiple resources. The invention comprises a database having stored information on a named-entity dictionary and context patterns; an entity recognition and relationship generation module for recognizing, by resource, entities in an input document using the named-entity dictionary and for generating relationships between the recognized entities using the context pattern information; a knowledge base construction module for mapping and storing, as integrated ontologies, the recognized entities and relationships between the entities from multiple resources which are different from one another, and for expanding an integrated knowledge base by performing reasoning over the integrated ontologies; a search module for obtaining search information by resources corresponding to a search query by searching the integrated knowledge base when a user makes a search query entry; and a search result providing module for providing search results information by weighting the obtained search information according to the percentage of each of the resources, and calculating the obtained results and then sorting the calculated results. Therefore, according to the present invention, search information from a combination of multiple resources is provided based on the term entered by a user, and an information service is available from a variety of perspectives depending on a user's requirements, and search results are provided which have been appropriately weighed in proportion to the amount of each resource inputted.

Description

다중 자원 기반 검색정보 제공 장치 및 방법Apparatus and method for providing multiple resource-based search information
본 발명은 다중 자원 기반 검색정보 제공 장치 및 방법에 관한 것으로, 더욱 상세하게는 각 자원별로 개체명 사전을 이용하여 입력 문서의 개체를 인식하고, 문맥 패턴 정보를 이용하여 상기 인식된 개체간의 관계를 생성하며, 서로 다른 다중 자원에서 상기 인식된 개체와 개체간의 관계를 통합 온톨로지로 매핑하여 저장하고, 상기 통합 온톨로지에 대한 추론을 수행하여 통합 지식베이스를 확장한 후, 사용자에 의해 검색어가 입력된 경우, 상기 통합 지식베이스를 검색하여 상기 검색어에 해당하는 검색정보를 자원별로 획득하고, 상기 획득된 검색정보에 각 자원의 비율에 따른 가중치를 부여 및 연산하여 그 연산된 결과를 정렬한 검색결과정보를 제공하는 다중 자원 기반 검색정보 제공 장치 및 방법에 관한 것이다. The present invention relates to an apparatus and method for providing multi-resource-based search information, and more particularly, to an apparatus and method for providing multi-resource based search information by recognizing an entity of an input document using an entity name dictionary for each resource, Mapping the relationship between the recognized entity and the entity to multiple integrated ontologies in different multiple resources and performing inference on the integrated ontology to expand the integrated knowledge base, Searching the integrated knowledge base to obtain search information corresponding to the search word for each resource, assigning a weight according to a ratio of each resource to the obtained search information, and calculating search result information obtained by sorting the calculated result Based search information providing apparatus and method.
일반적으로 검색 정보 제공 장치는 정보를 수집/분류/축적하여 필요에 따라 추출할 수 있도록 하는 장치이다.In general, a search information providing device is a device that collects / classifies / accumulates information and extracts it as needed.
정보화 사회에 있어서 인간의 지적 활동에 필요 불가결한 행위의 하나는 첨단과학기술에 의존한 정보의 수집과 축적 및 검색과 이용이라고 할 수 있다. 개인적으로는 필요한 정보나 데이터를 보다 신속, 정확하게 입수하여 연구개발이나 의사결정에 활용할 수 있는 방법을 모색하고, 사회적으로는 사회 각 부문에서의 다양한 정보요구를 충족시킬 수 있는 방법이 필요하다. 그러므로, 정보검색으로 충족시킬 수 있는 검색 정보 제공 장치를 어떻게 구축, 유지, 운영하느냐가 중요하다.One of the indispensable acts in human intellectual activities in the information society is the collection, accumulation, retrieval, and utilization of information that relies on advanced science and technology. Personally, there is a need to find ways to obtain necessary information and data more quickly and accurately for research and development and decision-making, and to be able to meet diverse information needs in society at large. Therefore, it is important how to construct, maintain and operate a search information providing device that can be satisfied by information search.
그래서 검색 정보 제공 장치는 정보 수요자가 필요하다고 예측되는 정보나 데이터를 미리 수집, 가공, 처리하여 찾기 쉬운 형태로 축적해 놓은 데이터베이스로부터 요구에 적합한 정보를 신속하게 찾아내어 정보 요구자에게 제공하는 장치를 말한다. 이러한 형태에는 검색 정보 제공 장치에서 출력된 검색결과를 전화로 알려주거나 팩스로 전송하는 경우가 있고, 인터넷을 통해 컴퓨터를 보유하고 있는 요구자의 가정이나 사무실에 온라인으로 검색결과를 전송해 줄 수 있다.Therefore, the search information providing device is a device that collects, processes and processes information and data predicted to be necessary by the information demander, and quickly finds information suitable for the request from the database which is stored in a form that is easy to find and provides to the information requester . In this form, the search result output from the search information providing device may be informed by telephone or transmitted by facsimile, and the search result may be transmitted to a home or office of the requester having the computer via the Internet.
그리고 데이터베이스에 축적되어 있는 정보의 종류에 따라 참조검색/사실검색/전문(full-text)검색으로 구분된다. 참조검색은 요구자가 알고자 하는 주제를 핵심적으로 다루고 있는 문헌의 서지사항을 검색하는 것이다. 사실검색은 일반데이터나 수치데이터 및 사실데이터를 검색할 수 있는 것이다. 전문검색은 문헌의 전문을 축적해 놓은 데이터베이스로부터 서지적 데이터뿐만 아니라 해당문장이나 원문 전부를 필요에 따라 검색해서 볼 수 있는 것이다.And a reference search / fact search / full-text search according to the kind of information accumulated in the database. A reference search is a search for bibliographic references in the literature that are dealing with the subject that the requester wants to know. In fact, a search can retrieve general, numeric, and factual data. The specialized search is to retrieve not only the bibliographic data but also the entire sentence or the original text from the database which has accumulated the full text of the document, if necessary.
그러나 종래의 검색 정보 제공 장치는 논문, 연구보고서, 특허 등의 서로 다른 자원을 독립적으로 그 자체만 제시할 뿐 과학기술과 관련된 이들 각각의 정보들을 융합하여 제시하지는 못하는 한계가 있었다.However, the conventional search information providing apparatus has been limited in that it can not present the individual resources such as papers, research reports, and patents independently and merely presenting the respective information related to science and technology.
따라서 정보의 홍수 속에서 서로 다른 다중 자원을 융합한 검색 정보를 사용자의 요구에 따라 기술분야별로 분류하여 제공함으로써 해당 기술분야에 대한 연구개발과 연구동향 파악에 필요한 기술분야별 융합 정보를 서비스하여 시기적절하게 과학기술을 활용할 수 있도록 할 필요성이 대두되었다.Therefore, it is possible to provide fusion information according to technical fields and to provide the fusion information according to the technical fields, which is necessary for the R & D and research trends of the technical field, by providing the search information that fuses different multi- And to make use of science and technology.
본 발명은 상기와 같은 종래의 제반 문제점을 해결하기 위해 제안된 것으로, 본 발명의 목적은 사용자에 의해 입력된 검색어에 대해 다중 자원을 융합한 검색 정보를 제공하고, 각 자원들의 비율이 입력된 경우 자원들의 비율에 따라 가중치를 연산한 검색 결과를 제공할 수 있는 다중 자원 기반 검색정보 제공 장치 및 방법을 제공하는데 있다.SUMMARY OF THE INVENTION The present invention has been made to solve the above problems of the related art, and an object of the present invention is to provide search information fused with multiple resources to a search word input by a user, Based search information providing apparatus and method capable of providing a search result obtained by calculating a weight according to a ratio of resources.
본 발명의 다른 목적은 서로 다른 다중 자원을 융합하여 사용자의 요구에 따라 다양한 관점에서의 정보 서비스를 가능하게 하는 다중 자원 기반 검색정보 제공 장치 및 방법을 제공하는데 있다. It is another object of the present invention to provide a multi-resource-based search information providing apparatus and method that fuses different multi-resources to enable information service in various viewpoints according to a user's request.
본 발명의 한 측면에 따르면, 개체명 사전 및 문맥 패턴 정보가 저장된 데이터베이스, 각 자원별로 상기 개체명 사전을 이용하여 입력 문서의 개체를 인식하고, 상기 문맥 패턴 정보를 이용하여 상기 인식된 개체간의 관계를 생성하는 개체 인식 및 관계 생성 모듈, 서로 다른 다중 자원에서 상기 인식된 개체와 개체간의 관계를 통합 온톨로지로 매핑하여 저장하고, 상기 통합 온톨로지에 대한 추론을 수행하여 통합 지식베이스를 확장하는 지식베이스 구축 모듈, 사용자에 의해 검색어가 입력된 경우, 상기 통합 지식베이스를 검색하여 상기 검색어에 해당하는 검색정보를 자원별로 획득하는 검색 모듈, 상기 획득된 검색정보에 각 자원의 비율에 따른 가중치를 부여하여 연산하고, 그 연산된 결과를 정렬한 검색결과정보를 제공하는 검색 결과 제공 모듈을 포함하는 다중 자원 기반 검색정보 제공 장치가 제공된다. According to an aspect of the present invention, there is provided a database management method comprising: storing a database storing entity name dictionary and context pattern information; recognizing an entity of an input document using the entity name dictionary for each resource; And a knowledge base for expanding the integrated knowledge base by performing inference on the integrated ontology and storing the relation between the recognized entity and the entity in a different integrated resource A search module for searching the integrated knowledge base for search information corresponding to the search word when the search word is input by a user, a module, and a user, and assigning a weight according to a ratio of each resource to the obtained search information, And provides search result information obtained by sorting the calculated results, Based search information providing apparatus is provided.
상기 데이터베이스는 하나 이상의 범주, 각 범주에 속하는 개체명, 각 개체명의 식별자가 매핑된 개체명 사전이 저장된 개체명 사전 데이터베이스, 개체 사이의 문맥에 대한 패턴 정보가 저장된 문맥 패턴 정보 데이터베이스, 문맥을 정규화하기 위한 정규화 사전 데이터베이스를 포함한다.The database includes at least one category, a name of an entity belonging to each category, an entity name to which an identifier of each entity name is mapped, an entity name database storing a dictionary, a context pattern information database storing pattern information about contexts between entities, And a normalization dictionary database.
상기 개체 인식 및 관계 생성 모듈은 상기 입력 문서에 대해 형태소 분석, 구문 분석, 의미 분석을 수행하여 용어를 인식하고, 상기 인식된 용어가 상기 개체명 사전에 등록된 경우, 개체로 인식하는 개체 인식부, 상기 개체 인식부에서 2개 이상의 개체가 인식된 경우, 상기 문맥 패턴 정보를 근거로 상기 인식된 개체 사이의 문맥을 추출하고, 상기 정규화 사전 데이터베이스를 근거로 상기 추출된 문맥을 정규화하는 방식으로 개체간의 관계를 생성하는 관계 생성부를 포함한다.The object recognition and relationship generation module recognizes a term by performing morphological analysis, syntax analysis, and semantic analysis on the input document, and when the recognized term is registered in the entity name dictionary, Extracting a context between the recognized entities based on the context pattern information and normalizing the extracted context based on the normalization dictionary database when the entity recognizing unit recognizes two or more entities, And a relationship generation unit for generating a relationship between the two.
상기 개체 인식부는 상기 인식된 각 개체에 범주 및 식별자를 부여한다.The entity recognizer assigns a category and an identifier to each recognized entity.
상기 관계 생성부는 상기 추출된 개체와 상기 생성된 개체간의 관계를 주체(Subject), 관계명(Predicate), 객체(Object)로 표현한다.The relation generation unit expresses a relationship between the extracted entity and the generated entity in terms of a subject, a relation name (Predicate), and an object (Object).
상기 지식베이스 구축 모듈은 상기 서로 다른 다중 자원에서 생성된 개체간의 관계 또는 각 자원의 메타 데이터를 다중 자원간의 연결관계를 표현한 통합 온톨로지로 저장한다.The knowledge base building module stores the relationships among the objects created in the different multi-resources or the meta data of the respective resources as an integrated ontology expressing connection relations between multiple resources.
상기 검색 결과 제공 모듈은 상기 자원별로 획득된 검색정보를 연구주체별로 분류하고, 연구주체별 각 자원의 검색 건수에 사용자에 의해 입력된 각 자원의 비율에 따른 가중치를 적용하여 연산한 후, 그 연산된 결과가 높은 연구주체 순으로 랭킹하여 제공한다.The search result providing module classifies the search information acquired for each resource by research subjects, calculates a weight by a ratio of each resource input by the user to the number of search for each resource per research subject, The results are ranked by the highest research subjects.
또한, 상기 검색 결과 제공 모듈은 상기 연산된 결과를 미리 정의된 또는 사용자에 의해 요청된 순서대로 정렬하여 제공한다.In addition, the search result providing module arranges and provides the calculated results in a predetermined order or in a sequence requested by the user.
본 발명의 다른 측면에 따르면, 검색 정보 제공 장치가 다중 자원을 기반으로 검색 정보를 제공하는 방법에 있어서, (a) 각 자원별로 개체명 사전을 이용하여 입력 문서의 개체를 인식하고, 문맥 패턴 정보를 이용하여 상기 인식된 개체간의 관계를 생성하는 단계, (b) 서로 다른 다중 자원에서 상기 인식된 개체와 개체간의 관계를 통합 온톨로지로 매핑하여 저장하고, 상기 통합 온톨로지에 대한 추론을 수행하여 통합 지식베이스를 확장하는 단계, (c) 사용자에 의해 검색어가 입력된 경우, 상기 통합 지식베이스를 검색하여 상기 검색어에 해당하는 검색정보를 자원별로 획득하는 단계, (d) 상기 획득된 검색정보에 각 자원의 비율에 따른 가중치를 부여하여 연산하고, 그 연산된 결과를 정렬한 검색결과정보를 제공하는 단계를 포함하는다중 자원 기반 검색정보 제공 방법이 제공된다. According to another aspect of the present invention, there is provided a method for providing search information based on multiple resources, the method comprising the steps of: (a) recognizing an entity of an input document by using an entity name dictionary for each resource; (B) mapping the recognized entity to the integrated ontology in different multi-resources and storing the same, and performing inference on the integrated ontology, (C) if the search word is input by the user, searching the integrated knowledge base to obtain search information corresponding to the search word for each resource; (d) And providing search result information in which the calculated results are sorted. The multi-resource-based search This method is provided for information.
상기 (a) 단계는 상기 입력 문서에 대해 형태소 분석, 구문 분석, 의미 분석을 수행하여 용어를 인식하고, 상기 인식된 용어가 상기 개체명 사전에 등록된 경우, 개체로 인식하는 단계, 상기 인식된 개체가 2개 이상인 경우, 상기 문맥 패턴 정보를 근거로 상기 인식된 개체 사이의 문맥을 추출하는 단계, 기 저장된 정규화 사전을 근거로 상기 추출된 문맥을 정규화하는 방식으로 개체간의 관계를 생성하는 단계를 포함한다. Wherein the step (a) recognizes a term by performing morphological analysis, syntax analysis, and semantic analysis on the input document, and recognizing the term as an entity when the recognized term is registered in the entity name dictionary, Extracting a context between the recognized entities based on the context pattern information when the entities are two or more, and generating a relationship between the entities by normalizing the extracted context based on the previously stored normalization dictionary .
상기 (c) 단계는 상기 사용자에 의해 검색이 요청된 경우, 검색어 입력 화면을 제공하는 단계, 상기 검색어 입력 화면을 통해 검색어 및 그 검색어에 대한 자원과 자원별 비율을 입력받는 단계, 상기 통합 지식베이스를 검색하여 상기 입력된 검색어에 해당하는 검색정보를 자원별로 획득하는 단계를 포함한다. Wherein the step (c) includes the steps of providing a search word input screen when a search is requested by the user, receiving a search word and a ratio of a resource and a resource for the search word through the search word input screen, And acquiring search information corresponding to the input search word for each resource.
상기 (d) 단계는 상기 자원별로 획득된 검색정보를 연구주체별로 분류하는 단계, 상기 연구주체별 각 자원의 검색 건수에 각 자원의 비율에 따른 가중치를 적용하여 연산하는 단계, 상기 연산된 결과가 높은 연구주체 순으로 랭킹하여 제공하는 단계를 포함한다. The step (d) includes the steps of classifying search information obtained for each resource by a research subject, applying a weight according to a ratio of each resource to the number of searches for each resource for each research subject, And ranking them in the order of higher research subjects.
상기 검색결과정보는 미리 정의된 또는 사용자에 의해 요청된 순서대로 정렬하여 제공한다.The search result information is provided in a predefined or ordered order requested by the user.
본 발명의 또 다른 측면에 따르면, 다중 자원 기반 검색정보 제공 방법을 수행하는 프로그램이 기록되고 전자 장치에서 판독 가능한 기록 매체가 제공된다. According to another aspect of the present invention, there is provided a recording medium in which a program for performing a method for providing multiple resource-based search information is recorded and readable in an electronic device.
본 발명에 따르면, 서로 다른 다중 자원을 융합하여 사용자의 요구에 따라 다양한 관점에서의 정보 서비스가 가능하고, 의사 결정을 지원하기 위한 여러 서비스들을 제공함으로써 단편적 지식에 의한 의사 결정 오류를 방지하고 정확한 결정이 가능한 효과가 있다.According to the present invention, it is possible to prevent a decision error caused by fragmentary knowledge and to provide an information service in various viewpoints by fusing different multiple resources by providing various services for supporting decision making, There is a possible effect.
또한, 사용자에 의해 입력된 검색어에 대해 다중 자원을 융합한 검색 정보를 제공하고, 각 자원들의 비율이 입력된 경우 자원들의 비율에 따라 가중치를 연산한 검색 결과의 제공이 가능하므로, 사용자의 요구에 따라 다양한 관점에서의 정보 서비스가 가능하다.In addition, search information obtained by fusing multiple resources with respect to a search word input by a user and providing a search result that calculates a weight according to the ratio of resources when the ratio of each resource is input can be provided. Therefore, it is possible to provide information services from various perspectives.
도 1은 본 발명의 실시예에 따른 다중 자원 기반 검색정보 제공 장치의 구성을 개략적으로 나타낸 블럭도. 1 is a block diagram schematically illustrating a configuration of a multi-resource-based search information providing apparatus according to an embodiment of the present invention;
도 2는 본 발명의 실시예에 따른 검색 정보 제공 장치가 다중 자원을 기반으로 검색 정보를 제공하는 방법을 나타낸 흐름도.2 is a flowchart illustrating a method of providing search information based on multiple resources according to an embodiment of the present invention.
도 3은 본 발명에 따른 검색어 입력 화면의 예시도.3 is an exemplary view of a search word input screen according to the present invention;
도 4는 본 발명에 따른 검색 결과 정보 제공 화면을 나타낸 예시도. 4 is an exemplary view showing a search result information providing screen according to the present invention;
본 발명의 전술한 목적과 기술적 구성 및 그에 따른 작용 효과에 관한 자세한 사항은 본 발명의 명세서에 첨부된 도면에 의거한 이하 상세한 설명에 의해 보다 명확하게 이해될 것이다.The foregoing and other objects, features, and advantages of the present invention will become more apparent from the following detailed description taken in conjunction with the accompanying drawings, in which: FIG.
도 1은 본 발명의 실시예에 따른 다중 자원 기반 검색정보 제공 장치의 구성을 개략적으로 나타낸 블럭도이다. 1 is a block diagram schematically illustrating a configuration of a multi-resource-based search information providing apparatus according to an embodiment of the present invention.
도 1을 참조하면, 다중 자원 기반 검색정보 제공 장치(이하, 검색 정보 제공 장치로 칭함)(100)는 데이터베이스(110), 개체 인식 및 관계 생성 모듈(120), 지식베이스 구축 모듈(130), 검색 모듈(150), 검색결과 제공 모듈(160)을 포함한다.Referring to FIG. 1, a multi-resource-based search information providing apparatus 100 includes a database 110, an object recognition and relationship generating module 120, a knowledge base building module 130, A search module 150, and a search result providing module 160.
상기 데이터베이스(110)는 하나 이상의 범주, 각 범주에 속하는 개체명, 각 개체명의 식별자가 매핑된 개체명 사전이 저장된 개체명 사전 데이터베이스(112), 개체 사이의 문맥에 대한 패턴 정보가 저장된 문맥 패턴 정보 데이터베이스(114), 문맥을 정규화하기 위한 정규화 사전 데이터베이스(116)를 포함한다.The database 110 includes an object name dictionary database 112 in which one or more categories, object names belonging to each category, object names to which the identifiers of individual object names are mapped, database 112, context pattern information A database 114, and a normalization dictionary database 116 for normalizing the context.
상기 개체 인식 및 관계 생성 모듈(120)은 각 자원별로 상기 개체명 사전을 이용하여 입력 문서의 개체를 인식하고, 상기 문맥 패턴 정보를 이용하여 상기 인식된 개체간의 관계를 생성한다.The entity recognition and relation generation module 120 recognizes an entity of an input document by using the entity name dictionary for each resource and generates a relationship between the recognized entities using the context pattern information.
상기와 같은 개체 인식 및 관계 생성 모듈(120)은 개체 인식부(122)와 관계 생성부(124)로 구성된다. The entity recognition and relationship generation module 120 includes an entity recognition unit 122 and a relationship generation unit 124.
상기 개체 인식부(122)는 상기 입력 문서에 대해 형태소 분석, 구문 분석, 의미 분석을 수행하여 용어를 인식하고, 상기 인식된 용어가 상기 개체명 사전에 등록된 경우, 개체로 인식한다. 이때, 상기 개체 인식부(122)는 상기 인식된 각 개체에 범주 및 식별자를 부여한다.The entity recognizer 122 recognizes a term by performing morphological analysis, syntax analysis, and semantic analysis on the input document, and recognizes the term as an entity when the recognized term is registered in the entity name dictionary. At this time, the entity recognition unit 122 assigns a category and an identifier to each recognized entity.
상기 관계 생성부(124)는 상기 개체 인식부(122)에서 2개 이상의 개체가 인식된 경우, 상기 문맥 패턴 정보를 근거로 상기 인식된 개체 사이의 문맥을 추출하고, 상기 정규화 사전 데이터베이스(116)를 근거로 상기 추출된 문맥을 정규화하는 방식으로 개체간의 관계를 생성한다.When the two or more entities are recognized by the entity recognizing unit 122, the relation generating unit 124 extracts a context between the recognized entities based on the context pattern information, And the extracted context is normalized to generate the relationship between the entities.
예를 들어, "notebook consists of monitor, SSD, and mobile processor" 문장의 경우, 상기 개체 인식부(122)는 상기 문장에서 notebook, monitor, SSD, mobile processor의 개체를 인식하게 된다. For example, in the case of the "notebook consists of monitor, SSD, and mobile processor" statement, the entity recognizer 122 recognizes a notebook, a monitor, an SSD, and a mobile processor entity in the sentence.
이때, 2개 이상의 개체가 인식되었으므로, 상기 관계 생성부(124)는 기 저장된 문맥 패턴 정보 예를 들면, "Be동사 + 과거분사형 + 전치사"에 부합하는 문맥만을 추출한다.At this time, since two or more entities have been recognized, the relationship generation unit 124 extracts only the context corresponding to the previously stored context pattern information, for example, " Bebe verb + past participle + preposition ".
그런 다음 상기 관계 생성부(124)는 상기 정규화 사전을 근거로 해당 문맥의 시제 예를 들면 "was"를 "be"로 통일하고, 유사표현 예를 들면, “similar to"와 "similar with"를 "similar to"로 통일하는 등의 문맥 정규화를 수행하여 개체간의 관계를 생성한다.Then, based on the normalization dictionary, the relation generation unit 124 unifies the tense of the corresponding context, for example, "was" to "be" and uses similar expressions such as "similar to" and "similar with" and "similar to" to create a relationship between entities by performing context normalization.
상기 관계 생성부(124)는 상기 추출된 개체와 상기 생성된 개체간의 관계를 주체(Subject), 관계명(Predicate), 객체(Object)로 표현한다.The relationship generation unit 124 expresses the relationship between the extracted entity and the generated entity in terms of a subject, a relationship name (Predicate), and an object (Object).
상기 개체 인식 및 관계 생성 모듈(120)이 개체 인식 및 관계를 생성하는 방법은 자원별로 이루어지고, 여기서 자원은 특허, 논문, 보고서, 학술자료, 표준, 통계, 전자 문서 등을 말한다. The method for the object recognition and relation generation module 120 to generate the object recognition and the relation is performed for each resource, and the resource refers to a patent, a thesis, a report, an academic document, a standard, a statistic, an electronic document and the like.
상기 지식베이스 구축 모듈(130)은 서로 다른 다중 자원에서 각각 인식된 개체와 개체간의 관계를 통합 온톨로지로 매핑하여 저장하고, 상기 통합 온톨로지에 대한 추론을 수행하여 통합 지식베이스를 확장한다.The knowledge base building module 130 maps and stores the relationships between entities and entities recognized from different multiple resources into an integrated ontology and extends the integrated knowledge base by performing inference on the integrated ontology.
이때, 상기 지식베이스 구축 모듈(130)은 상기 서로 다른 다중 자원에서 각각 생성된 개체간의 관계 또는 각 자원의 메타 데이터를 다중 자원간의 연결관계로 표현한 통합 온톨로지로 저장한다.At this time, the knowledge base building module 130 stores the relationships among the objects created in the different multi-resources or the meta data of the respective resources in the integrated ontology represented by the connection relation among multiple resources.
상기 지식 베이스 구축 모듈(130)에 의해 생성된 통합 지식베이스는 지식 베이스 DB(140)에 저장된다.The integrated knowledge base generated by the knowledge base building module 130 is stored in the knowledge base DB 140.
상기 검색 모듈(150)은 사용자에 의해 검색어가 입력된 경우, 상기 통합 지식베이스를 검색하여 상기 검색어에 해당하는 검색정보를 자원별로 획득한다. When the search word is input by the user, the search module 150 searches the integrated knowledge base and acquires search information corresponding to the search word for each resource.
예들 들면, 상기 사용자에 의해 "스마트카드"라는 검색어가 입력된 경우, 상기 검색 모듈(150)은 상기 통합 지식베이스를 검색하여 스마트카드에 대한 검색정보를 특허, 논문, 보고서, 학술자료, 표준, 통계, 전자 문서 등의 자원별로 획득한다. For example, when the user inputs a search term " smart card ", the search module 150 searches the integrated knowledge base to search information about a smart card, such as a patent, a paper, a report, Statistics, and electronic documents.
상기 검색결과 제공 모듈(160)은 상기 검색 모듈(150)에서 획득된 검색정보에 각 자원의 비율에 따른 가중치를 부여하여 연산하고, 그 연산된 결과를 정렬한 검색결과정보를 제공한다.The search result providing module 160 provides search information obtained by sorting the calculated results by assigning weights according to ratios of the resources to the search information obtained by the search module 150. [
즉, 상기 검색 결과 제공 모듈(160)은 상기 자원별로 획득된 검색정보를 연구주체별로 분류하고, 연구주체별 각 자원의 검색 건수에 사용자에 의해 입력된 각 자원의 비율에 따른 가중치를 적용하여 연산한 후, 그 연산된 결과가 높은 연구주체 순으로 랭킹하여 제공한다.That is, the search result providing module 160 classifies search information obtained for each resource by research subjects, applies a weight according to the ratio of each resource input by the user to the number of search for each resource per research subject, , And the calculated results are ranked and provided in order of higher research subjects.
이때, 상기 검색 결과 제공 모듈(160)은 상기 연산된 결과를 미리 정의된 또는 사용자에 의해 요청된 순서대로 정렬하여 제공할 수 있다.At this time, the search result providing module 160 may arrange the calculated results in a predetermined order or in a sequence requested by the user.
예를 들어, 사용자가 "스마트 카드"를 검색어로 입력하고, 논문 50%, 특허 30%, 보고서 20%로 각 자원의 비율을 입력한 경우에 대하여 설명하기로 한다.For example, a case where a user inputs a "smart card" as a search word and inputs a ratio of each resource to 50% of a thesis, 30% of a patent, and 20% of a report.
상기 자원별로 획득된 검색정보를 연구주체별로 분류한 결과 A기업은 논문 2건, 특허 3건, 보고서 5건이고, B 기업은 논문 5건, 특허 5건, 보고서 1건, C기업은 논문 3건, 특허 10건, 보고서 1건인 경우, 상기 검색 결과 제공 모듈은 각 검색 건수에 해당 자원 비율을 곱하여 연산한다.The search information obtained for each resource was classified into 2 subjects, 3 patents, 5 reports, 5 patents, 5 patents, 1 report, and 3 patents. Ten patents, and one report, the search result providing module calculates the number of searches by multiplying the corresponding resource ratio.
즉, A기업의 경우 2*0.5 + 3*0.3 + 5*0.2 = 2.9, B기업의 경우 5*0.5 + 5*0.3 + 1*0.2 = 4.2, C기업의 경우 3*0.5 + 10*0.3 + 1*0.2 = 4.5의 연산결과를 갖게 된다.In the case of Company A, 2 * 0.5 + 3 * 0.3 + 5 * 0.2 = 2.9 and Company B 5 * 0.5 + 5 * 0.3 + 1 * 0.2 = 1 * 0.2 = 4.5.
그러면, 상기 검색결과 제공 모듈(160)은 상기 연산 결과를 연구주체별로 랭킹하여 C기업 4.5, B기업 4.2, A기업 2.9의 순으로 검색결과를 제공하게 된다.Then, the search result providing module 160 provides search results in the order of the C company 4.5, the B company 4.2, and the A company 2.9 by ranking the calculation results for each research subject.
이때, 상기 검색 결과 제공 모듈(160)은 상기 연산된 결과를 미리 정의된 또는 사용자에 의해 요청된 순서대로 정렬하여 제공할 수도 있다.At this time, the search result providing module 160 may arrange the calculated results in a predetermined order or in a sequence requested by the user.
상기와 같이 구성된 검색 정보 제공 장치(100)는 논문, 특허, 보고서 등 다중 자원 내에서 텍스트 마이닝을 통해 내적 정보(Implicit Information)를 추출하여 메타데이터와 같은 외형적 정보(Explicit Information)와 융합하고, 이를 시맨틱 웹 기술 기반의 서비스 플랫폼에 올려 다양한 관점에서의 정보 서비스를 가능하게 한다. The search information providing apparatus 100 configured as described above extracts the implicit information through text mining in multiple resources such as a paper, a patent, and a report, merges with the explicit information such as metadata, This is put on the service platform based on Semantic Web technology, enabling information service from various viewpoints.
본 발명의 전술한 목적과 기술적 구성 및 그에 따른 작용 효과에 관한 자세한 사항은 본 발명의 명세서에 첨부된 도면에 의거한 이하 상세한 설명에 의해 보다 명확하게 이해될 것이다.The foregoing and other objects, features, and advantages of the present invention will become more apparent from the following detailed description taken in conjunction with the accompanying drawings, in which: FIG.
도 1은 본 발명의 실시예에 따른 다중 자원 기반 검색정보 제공 장치의 구성을 개략적으로 나타낸 블럭도이다. 1 is a block diagram schematically illustrating a configuration of a multi-resource-based search information providing apparatus according to an embodiment of the present invention.
도 1을 참조하면, 다중 자원 기반 검색정보 제공 장치(이하, 검색 정보 제공 장치로 칭함)(100)는 데이터베이스(110), 개체 인식 및 관계 생성 모듈(120), 지식베이스 구축 모듈(130), 검색 모듈(150), 검색결과 제공 모듈(160)을 포함한다.Referring to FIG. 1, a multi-resource-based search information providing apparatus 100 includes a database 110, an object recognition and relationship generating module 120, a knowledge base building module 130, A search module 150, and a search result providing module 160.
상기 데이터베이스(110)는 하나 이상의 범주, 각 범주에 속하는 개체명, 각 개체명의 식별자가 매핑된 개체명 사전이 저장된 개체명 사전 데이터베이스(112), 개체 사이의 문맥에 대한 패턴 정보가 저장된 문맥 패턴 정보 데이터베이스(114), 문맥을 정규화하기 위한 정규화 사전 데이터베이스(116)를 포함한다.The database 110 includes an object name dictionary database 112 in which one or more categories, object names belonging to each category, object names to which the identifiers of individual object names are mapped, database 112, context pattern information A database 114, and a normalization dictionary database 116 for normalizing the context.
상기 개체 인식 및 관계 생성 모듈(120)은 각 자원별로 상기 개체명 사전을 이용하여 입력 문서의 개체를 인식하고, 상기 문맥 패턴 정보를 이용하여 상기 인식된 개체간의 관계를 생성한다.The entity recognition and relation generation module 120 recognizes an entity of an input document by using the entity name dictionary for each resource and generates a relationship between the recognized entities using the context pattern information.
상기와 같은 개체 인식 및 관계 생성 모듈(120)은 개체 인식부(122)와 관계 생성부(124)로 구성된다. The entity recognition and relationship generation module 120 includes an entity recognition unit 122 and a relationship generation unit 124.
상기 개체 인식부(122)는 상기 입력 문서에 대해 형태소 분석, 구문 분석, 의미 분석을 수행하여 용어를 인식하고, 상기 인식된 용어가 상기 개체명 사전에 등록된 경우, 개체로 인식한다. 이때, 상기 개체 인식부(122)는 상기 인식된 각 개체에 범주 및 식별자를 부여한다.The entity recognizer 122 recognizes a term by performing morphological analysis, syntax analysis, and semantic analysis on the input document, and recognizes the term as an entity when the recognized term is registered in the entity name dictionary. At this time, the entity recognition unit 122 assigns a category and an identifier to each recognized entity.
상기 관계 생성부(124)는 상기 개체 인식부(122)에서 2개 이상의 개체가 인식된 경우, 상기 문맥 패턴 정보를 근거로 상기 인식된 개체 사이의 문맥을 추출하고, 상기 정규화 사전 데이터베이스(116)를 근거로 상기 추출된 문맥을 정규화하는 방식으로 개체간의 관계를 생성한다.When the two or more entities are recognized by the entity recognizing unit 122, the relation generating unit 124 extracts a context between the recognized entities based on the context pattern information, And the extracted context is normalized to generate the relationship between the entities.
예를 들어, "notebook consists of monitor, SSD, and mobile processor" 문장의 경우, 상기 개체 인식부(122)는 상기 문장에서 notebook, monitor, SSD, mobile processor의 개체를 인식하게 된다. For example, in the case of the "notebook consists of monitor, SSD, and mobile processor" statement, the entity recognizer 122 recognizes a notebook, a monitor, an SSD, and a mobile processor entity in the sentence.
이때, 2개 이상의 개체가 인식되었으므로, 상기 관계 생성부(124)는 기 저장된 문맥 패턴 정보 예를 들면, "Be동사 + 과거분사형 + 전치사"에 부합하는 문맥만을 추출한다.At this time, since two or more entities have been recognized, the relationship generation unit 124 extracts only the context corresponding to the previously stored context pattern information, for example, " Bebe verb + past participle + preposition ".
그런 다음 상기 관계 생성부(124)는 상기 정규화 사전을 근거로 해당 문맥의 시제 예를 들면 "was"를 "be"로 통일하고, 유사표현 예를 들면, “similar to"와 "similar with"를 "similar to"로 통일하는 등의 문맥 정규화를 수행하여 개체간의 관계를 생성한다.Then, based on the normalization dictionary, the relation generation unit 124 unifies the tense of the corresponding context, for example, "was" to "be" and uses similar expressions such as "similar to" and "similar with" and "similar to" to create a relationship between entities by performing context normalization.
상기 관계 생성부(124)는 상기 추출된 개체와 상기 생성된 개체간의 관계를 주체(Subject), 관계명(Predicate), 객체(Object)로 표현한다.The relationship generation unit 124 expresses the relationship between the extracted entity and the generated entity in terms of a subject, a relationship name (Predicate), and an object (Object).
상기 개체 인식 및 관계 생성 모듈(120)이 개체 인식 및 관계를 생성하는 방법은 자원별로 이루어지고, 여기서 자원은 특허, 논문, 보고서, 학술자료, 표준, 통계, 전자 문서 등을 말한다. The method for the object recognition and relation generation module 120 to generate the object recognition and the relation is performed for each resource, and the resource refers to a patent, a thesis, a report, an academic document, a standard, a statistic, an electronic document and the like.
상기 지식베이스 구축 모듈(130)은 서로 다른 다중 자원에서 각각 인식된 개체와 개체간의 관계를 통합 온톨로지로 매핑하여 저장하고, 상기 통합 온톨로지에 대한 추론을 수행하여 통합 지식베이스를 확장한다.The knowledge base building module 130 maps and stores the relationships between entities and entities recognized from different multiple resources into an integrated ontology and extends the integrated knowledge base by performing inference on the integrated ontology.
이때, 상기 지식베이스 구축 모듈(130)은 상기 서로 다른 다중 자원에서 각각 생성된 개체간의 관계 또는 각 자원의 메타 데이터를 다중 자원간의 연결관계로 표현한 통합 온톨로지로 저장한다.At this time, the knowledge base building module 130 stores the relationships among the objects created in the different multi-resources or the meta data of the respective resources in the integrated ontology represented by the connection relation among multiple resources.
상기 지식 베이스 구축 모듈(130)에 의해 생성된 통합 지식베이스는 지식 베이스 DB(140)에 저장된다.The integrated knowledge base generated by the knowledge base building module 130 is stored in the knowledge base DB 140.
상기 검색 모듈(150)은 사용자에 의해 검색어가 입력된 경우, 상기 통합 지식베이스를 검색하여 상기 검색어에 해당하는 검색정보를 자원별로 획득한다. When the search word is input by the user, the search module 150 searches the integrated knowledge base and acquires search information corresponding to the search word for each resource.
예들 들면, 상기 사용자에 의해 "스마트카드"라는 검색어가 입력된 경우, 상기 검색 모듈(150)은 상기 통합 지식베이스를 검색하여 스마트카드에 대한 검색정보를 특허, 논문, 보고서, 학술자료, 표준, 통계, 전자 문서 등의 자원별로 획득한다. For example, when the user inputs a search term " smart card ", the search module 150 searches the integrated knowledge base to search information about a smart card, such as a patent, a paper, a report, Statistics, and electronic documents.
상기 검색결과 제공 모듈(160)은 상기 검색 모듈(150)에서 획득된 검색정보에 각 자원의 비율에 따른 가중치를 부여하여 연산하고, 그 연산된 결과를 정렬한 검색결과정보를 제공한다.The search result providing module 160 provides search information obtained by sorting the calculated results by assigning weights according to ratios of the resources to the search information obtained by the search module 150. [
즉, 상기 검색 결과 제공 모듈(160)은 상기 자원별로 획득된 검색정보를 연구주체별로 분류하고, 연구주체별 각 자원의 검색 건수에 사용자에 의해 입력된 각 자원의 비율에 따른 가중치를 적용하여 연산한 후, 그 연산된 결과가 높은 연구주체 순으로 랭킹하여 제공한다.That is, the search result providing module 160 classifies search information obtained for each resource by research subjects, applies a weight according to the ratio of each resource input by the user to the number of search for each resource per research subject, , And the calculated results are ranked and provided in order of higher research subjects.
이때, 상기 검색 결과 제공 모듈(160)은 상기 연산된 결과를 미리 정의된 또는 사용자에 의해 요청된 순서대로 정렬하여 제공할 수 있다.At this time, the search result providing module 160 may arrange the calculated results in a predetermined order or in a sequence requested by the user.
예를 들어, 사용자가 "스마트 카드"를 검색어로 입력하고, 논문 50%, 특허 30%, 보고서 20%로 각 자원의 비율을 입력한 경우에 대하여 설명하기로 한다.For example, a case where a user inputs a "smart card" as a search word and inputs a ratio of each resource to 50% of a thesis, 30% of a patent, and 20% of a report.
상기 자원별로 획득된 검색정보를 연구주체별로 분류한 결과 A기업은 논문 2건, 특허 3건, 보고서 5건이고, B 기업은 논문 5건, 특허 5건, 보고서 1건, C기업은 논문 3건, 특허 10건, 보고서 1건인 경우, 상기 검색 결과 제공 모듈은 각 검색 건수에 해당 자원 비율을 곱하여 연산한다.The search information obtained for each resource was classified into 2 subjects, 3 patents, 5 reports, 5 patents, 5 patents, 1 report, and 3 patents. Ten patents, and one report, the search result providing module calculates the number of searches by multiplying the corresponding resource ratio.
즉, A기업의 경우 2*0.5 + 3*0.3 + 5*0.2 = 2.9, B기업의 경우 5*0.5 + 5*0.3 + 1*0.2 = 4.2, C기업의 경우 3*0.5 + 10*0.3 + 1*0.2 = 4.5의 연산결과를 갖게 된다.In the case of Company A, 2 * 0.5 + 3 * 0.3 + 5 * 0.2 = 2.9 and Company B 5 * 0.5 + 5 * 0.3 + 1 * 0.2 = 1 * 0.2 = 4.5.
그러면, 상기 검색결과 제공 모듈(160)은 상기 연산 결과를 연구주체별로 랭킹하여 C기업 4.5, B기업 4.2, A기업 2.9의 순으로 검색결과를 제공하게 된다.Then, the search result providing module 160 provides search results in the order of the C company 4.5, the B company 4.2, and the A company 2.9 by ranking the calculation results for each research subject.
이때, 상기 검색 결과 제공 모듈(160)은 상기 연산된 결과를 미리 정의된 또는 사용자에 의해 요청된 순서대로 정렬하여 제공할 수도 있다.At this time, the search result providing module 160 may arrange the calculated results in a predetermined order or in a sequence requested by the user.
상기와 같이 구성된 검색 정보 제공 장치(100)는 논문, 특허, 보고서 등 다중 자원 내에서 텍스트 마이닝을 통해 내적 정보(Implicit Information)를 추출하여 메타데이터와 같은 외형적 정보(Explicit Information)와 융합하고, 이를 시맨틱 웹 기술 기반의 서비스 플랫폼에 올려 다양한 관점에서의 정보 서비스를 가능하게 한다. The search information providing apparatus 100 configured as described above extracts the implicit information through text mining in multiple resources such as a paper, a patent, and a report, merges with the explicit information such as metadata, This is put on the service platform based on Semantic Web technology, enabling information service from various viewpoints.
도 2는 본 발명의 실시예에 따른 검색 정보 제공 장치가 다중 자원을 기반으로 검색 정보를 제공하는 방법을 나타낸 흐름도, 도 3은 본 발명에 따른 검색어 입력 화면의 예시도, 도 4는 본 발명에 따른 검색 결과 정보 제공 화면을 나타낸 예시도이다. FIG. 2 is a flowchart illustrating a method for providing search information based on multiple resources by a search information providing apparatus according to an embodiment of the present invention. FIG. 3 is an exemplary view of a search word input screen according to the present invention. FIG. 5 is a diagram illustrating an example of a search result information providing screen according to the embodiment of FIG.
도 2를 참조하면, 검색 정보 제공 장치는 각 자원별로 개체명 사전을 이용하여 입력 문서의 개체를 인식하고(S200), 문맥 패턴 정보를 이용하여 상기 인식된 개체간의 관계를 생성한다(S202). Referring to FIG. 2, the search information providing apparatus recognizes an entity of an input document using an entity name dictionary for each resource (S200), and creates a relationship between the recognized entities using the context pattern information (S202).
즉, 상기 검색 정보 제공 장치는 상기 입력 문서에 대해 형태소 분석, 구문 분석, 의미 분석을 수행하여 용어를 인식하고, 상기 인식된 용어가 상기 개체명 사전에 등록된 경우, 개체로 인식한다. That is, the search information providing apparatus recognizes a term by performing morphological analysis, syntax analysis, and semantic analysis on the input document, and recognizes the term as an entity when the recognized term is registered in the entity name dictionary.
그런 다음 상기 검색 정보제공 장치는 상기 인식된 개체가 2개 이상인 경우, 상기 문맥 패턴 정보를 근거로 상기 인식된 개체 사이의 문맥을 추출하고, 기 저장된 정규화 사전을 근거로 상기 추출된 문맥을 정규화하는 방식으로 개체간의 관계를 생성한다.The retrieval information providing device then extracts the context between the recognized entities based on the context pattern information and normalizes the extracted context based on the previously stored normalization dictionary when the recognized entity is two or more To create relationships between entities.
상기 S202의 수행 후 상기 검색 정보제공 장치는 서로 다른 다중 자원에서 각각 인식된 개체와 개체간의 관계를 통합 온톨로지로 매핑하여 저장하고(S206), 상기 통합 온톨로지에 대한 추론을 수행하여 통합 지식베이스를 확장한다(S208). 즉, 상기 검색 정보 제공 장치는 논문, 특허, 보고서 등 다중 자원 내에서 텍스트 마이닝을 통해 내적 정보를 추출하여 메타데이터와 같은 외형적 정보와 융합하고, 이를 시맨틱 웹 기술 기반의 서비스 플랫폼에 올려 다양한 관점에서의 정보 서비스를 가능하게 한다. After the execution of S202, the search information providing device maps and stores the relationship between the entity and the entity recognized in the different multi-resources into the integrated ontology (S206), and performs inference on the integrated ontology to expand the integrated knowledge base (S208). That is, the search information providing apparatus extracts internal information through text mining in multiple resources such as a paper, a patent, and a report, merges with external information such as metadata, and puts it on a service platform based on a semantic web technology, To provide information services in the Internet.
상기 S208의 수행 후, 사용자에 의해 검색어가 입력되면(S210), 상기 검색 정보 제공 장치는 상기 통합 지식베이스를 검색하여 상기 검색어에 해당하는 검색정보를 자원별로 획득한다(S212).After the execution of step S208, if the search word is input by the user (S210), the search information providing apparatus searches the integrated knowledge base and acquires search information corresponding to the search word for each resource (S212).
즉, 상기 사용자에 의해 검색이 요청되면, 상기 검색 정보 제공 장치는 도 3과 같은 검색어 입력 화면을 제공한다. 상기 검색어 입력 화면에 대해 도 3을 참조하면, 검색어 입력 화면(300)에는 검색어를 입력하기 위한 검색어 입력 영역(310), 자원 및 그 자원에 대한 비율을 선택하기 위한 자원선택 영역(320)을 포함한다. That is, when a search is requested by the user, the search information providing apparatus provides a search word input screen as shown in FIG. Referring to FIG. 3, the search word input screen 300 includes a search word input area 310 for inputting a search word, a resource selection area 320 for selecting a resource and a ratio for the resource, do.
상기 사용자는 상기 검색어 입력영역(310)에서 검색을 원하는 검색어를 입력하고, 상기 자원선택 영역(320)에서 특허, 논문, 보고서, 학술자료, 표준, 통계, 전자 문서 중 적어도 하나의 자원을 선택한다. 이때, 상기 사용자는 상기 선택된 자원에 대한 비율을 함께 입력할 수 있다. The user inputs a search word desired to be searched in the search word input area 310 and selects at least one of a patent, a thesis, a report, an academic document, a standard, statistics, and an electronic document in the resource selection area 320 . At this time, the user can input a ratio of the selected resources together.
여기에서는 자원선택 영역(320)을 2개의 자원을 선택할 수 있는 슬라이드 바 형식으로 구성하였으나, 3개, 4개 등의 다수개의 자원을 선택할 수 있는 다양한 형태로 할 수 있음은 당연하다.In this case, the resource selection area 320 is configured as a slide bar type in which two resources can be selected. However, it is natural that the resource selection area 320 can be formed in various forms that can select a plurality of resources such as three or four.
부가적으로 상기 검색어 입력 화면(300)은 연도범위를 지정하기 위한 연도 범위 지정 영역을 더 포함할 수 있다.In addition, the search term input screen 300 may further include a year range designation area for designating a year range.
상기 사용자가 상기 검색어 입력 화면(300)을 통해 검색어 및 그 검색어에 대한 자원과 자원별 비율을 입력하면, 상기 검색 정보 제공 장치는 상기 통합 지식베이스를 검색하여 상기 입력된 검색어에 해당하는 검색정보를 자원별로 획득한다.When the user inputs a search word and a ratio of a resource and a resource for the search word through the search word input screen 300, the search information providing apparatus searches the integrated knowledge base for search information corresponding to the input search word Acquired by each resource.
상기 S212의 수행 후, 상기 검색 정보 제공 장치는 상기 획득된 검색정보에 각 자원의 비율에 따른 가중치를 부여하여 연산하고(S214), 그 연산된 결과를 정렬한 검색결과정보를 제공한다(S216).After the execution of step S212, the search information providing apparatus provides a weight according to the ratio of each resource to the acquired search information (S214), and provides search result information obtained by sorting the calculated result (S216) .
즉, 상기 검색 정보 제공 장치는 상기 자원별로 획득된 검색정보를 연구주체별로 분류하고, 상기 연구주체별 각 자원의 검색 건수에 각 자원의 비율에 따른 가중치를 적용하여 연산한다. 그런 다음 상기 검색 정보 제공 장치는 상기 연산된 결과가 높은 연구주체 순으로 랭킹하여 제공한다. 이때, 상기 검색 정보 제공 장치는 미리 정의된 또는 사용자에 의해 요청된 순서대로 상기 연산된 결과를 정렬하여 제공한다.That is, the search information providing apparatus classifies the search information obtained for each resource by research subjects, and calculates the search information by applying a weight according to the ratio of each resource to the search number of each resource by the research subject. Then, the search information providing apparatus ranks and provides the computed results in the order of higher research subjects. At this time, the search information providing device arranges and provides the calculated results in a predetermined order or order requested by the user.
상기 검색 정보 제공 장치가 제공하는 검색결과 정보 제공 화면은 도 4와 같다. 도 4를 참조하여 검색결과 정보 제공 화면(400)에 대해 설명하면, 검색결과 정보 제공 화면(400)은 검색어 제공 영역(410), 자원 제공영역(420), 검색결과 제공 영역(430)을 포함한다. The search result information providing screen provided by the search information providing apparatus is as shown in FIG. 4, the search result information providing screen 400 includes a search word providing region 410, a resource providing region 420, and a search result providing region 430 do.
상기 검색어 제공 영역(410)은 사용자에 의해 입력된 검색어가 표시되고, 상기 자원 제공 영역(420)에는 사용자에 의해 선택된 자원과 그 자원의 비율이 표시된다. The search word providing region 410 displays a search word input by a user, and the resource providing region 420 displays a resource selected by the user and a ratio of the resource.
상기 검색결과 제공영역(430)은 연구주체별 각 자원의 검색 건수에 해당 자원 비율에 따른 가중치를 적용하여 연산한 결과가 제공되는 영역으로, 여기에서는 연산결과가 높은 연구주체 순으로 랭킹하여 제공된 형태이다. The search result providing region 430 is a region in which a result obtained by applying a weight according to the resource ratio to the number of searches of each resource by the research subject is provided. In this case, to be.
예를 들면, 상기 검색결과 제공 영역(430)에는 A기업 10, B기업 8, C기업 7의 순으로 연산된 결과가 높은 연구주체 순으로 랭킹하여 검색결과가 제공된다.For example, in the search result providing region 430, the search results are provided in the order of the A company 10, the B company 8, and the C company 7 in the order of higher research subjects.
사용자는 상기 자원 제공 영역(420)의 슬라이드 바를 이용하여 자원 또는 자원 비율을 변경할 수도 있다. 그러면, 상기 검색결과 제공 영역(430)에는 상기 변경된 자원 또는 자원비율을 반영한 검색결과가 제공된다.The user may change the resource or resource ratio using the slide bar of the resource providing area 420. Then, the search result providing area 430 is provided with a search result reflecting the changed resource or resource ratio.
이와 같이, 본 발명이 속하는 기술분야의 당업자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.Thus, those skilled in the art will appreciate that the present invention may be embodied in other specific forms without departing from the spirit or essential characteristics thereof. It is therefore to be understood that the embodiments described above are to be considered in all respects only as illustrative and not restrictive. The scope of the present invention is defined by the appended claims rather than the detailed description and all changes or modifications derived from the meaning and scope of the claims and their equivalents are to be construed as being included within the scope of the present invention do.
이상과 같이 본 발명의 다중 자원 기반 검색정보 제공 장치 및 방법은 사용자에 의해 입력된 검색어에 대해 다중 자원을 융합한 검색 정보를 제공하고, 각 자원들의 비율이 입력된 경우 자원들의 비율에 따라 가중치를 연산한 검색 결과를 제공하여 사용자의 요구에 따라 다양한 관점에서의 정보 서비스 제공 필요성이 높은 것에 적합하다.As described above, the apparatus and method for providing multi-resource-based search information according to the present invention provide search information that fuses multiple resources to a search word input by a user, and when the ratio of each resource is input, It is suitable for providing the calculated search result and having a high necessity of providing information service from various viewpoints according to the demand of the user.

Claims (14)

  1. 개체명 사전 및 문맥 패턴 정보가 저장된 데이터베이스;A database storing object name dictionary and context pattern information;
    각 자원별로 상기 개체명 사전을 이용하여 입력 문서의 개체를 인식하고, 상기 문맥 패턴 정보를 이용하여 상기 인식된 개체간의 관계를 생성하는 개체 인식 및 관계 생성 모듈;An object recognition and relation generation module that recognizes an entity of an input document using the entity name dictionary for each resource and generates a relationship between the recognized entities using the context pattern information;
    서로 다른 다중 자원에서 각각 인식된 개체와 개체간의 관계를 통합 온톨로지로 매핑하여 저장하고, 상기 통합 온톨로지에 대한 추론을 수행하여 통합 지식베이스를 확장하는 지식베이스 구축 모듈;A knowledge base building module for mapping and storing relationships between entities recognized by different multiple resources into an integrated ontology and extending the integrated knowledge base by performing inference on the integrated ontology;
    사용자에 의해 검색어가 입력된 경우, 상기 통합 지식베이스를 검색하여 상기 검색어에 해당하는 검색정보를 자원별로 획득하는 검색 모듈; 및A search module for searching the integrated knowledge base and obtaining search information corresponding to the search word for each resource when a search word is input by a user; And
    상기 획득된 검색정보에 각 자원의 비율에 따른 가중치를 부여하여 연산하고, 그 연산된 결과를 정렬한 검색결과정보를 제공하는 검색 결과 제공 모듈;A search result providing module for assigning weights according to ratios of the resources to the obtained search information, and providing search result information obtained by sorting the calculated results;
    을 포함하는 다중 자원 기반 검색정보 제공 장치.Based search information providing apparatus.
  2. 제1항에 있어서, The method according to claim 1,
    상기 데이터베이스는, The database includes:
    하나 이상의 범주, 각 범주에 속하는 개체명, 각 개체명의 식별자가 매핑된 개체명 사전이 저장된 개체명 사전 데이터베이스;One or more categories, an object name belonging to each category, an object name to which an identifier of each object name is mapped, an object name in which the dictionary is stored, a dictionary database;
    개체 사이의 문맥에 대한 패턴 정보가 저장된 문맥 패턴 정보 데이터베이스; 및A context pattern information database storing pattern information on a context between entities; And
    문맥을 정규화하기 위한 정규화 사전 데이터베이스를 포함하는 것을 특징으로 하는 다중 자원 기반 검색정보 제공 장치.And a normalization dictionary database for normalizing the context.
  3. 제1항 또는 제2항에 있어서, 3. The method according to claim 1 or 2,
    상기 개체 인식 및 관계 생성 모듈은, Wherein the object recognition and relationship generation module comprises:
    상기 입력 문서에 대해 형태소 분석, 구문 분석, 의미 분석을 수행하여 용어를 인식하고, 상기 인식된 용어가 상기 개체명 사전에 등록된 경우, 개체로 인식하는 개체 인식부; 및An entity recognizing unit recognizing the term by performing morphological analysis, syntax analysis, and semantic analysis on the input document, and recognizing the term as an entity when the recognized term is registered in the entity name dictionary; And
    상기 개체 인식부에서 2개 이상의 개체가 인식된 경우, 상기 문맥 패턴 정보를 근거로 상기 인식된 개체 사이의 문맥을 추출하고, 상기 정규화 사전 데이터베이스를 근거로 상기 추출된 문맥을 정규화하는 방식으로 개체간의 관계를 생성하는 관계 생성부를 포함하는 것을 특징으로 하는 다중 자원 기반 검색정보 제공 장치.Extracting a context between the recognized entities based on the context pattern information and normalizing the extracted context based on the normalization dictionary database when two or more entities are recognized by the entity recognition unit, And a relation generator for generating a relation based on the search result.
  4. 제3항에 있어서, The method of claim 3,
    상기 개체 인식부는 상기 인식된 각 개체에 범주 및 식별자를 부여하는 것을 특징으로 하는 다중 자원 기반 검색정보 제공 장치.Wherein the entity recognition unit assigns a category and an identifier to each of the recognized entities.
  5. 제3항에 있어서, The method of claim 3,
    상기 관계 생성부는 상기 추출된 개체와 상기 생성된 개체간의 관계를 주체(Subject), 관계명(Predicate), 객체(Object)로 표현하는 것을 특징으로 하는 다중 자원 기반 검색정보 제공 장치.Wherein the relation generator represents a relationship between the extracted entity and the generated entity as a subject, a relation name, and an object.
  6. 제1항에 있어서,The method according to claim 1,
    상기 지식베이스 구축 모듈은 상기 서로 다른 다중 자원에서 생성된 개체간의 관계 또는 각 자원의 메타 데이터를 다중 자원간의 연결관계로 표현한 통합 온톨로지로 저장하는 것을 특징으로 하는 다중 자원 기반 검색정보 제공 장치.Wherein the knowledge base building module stores the relationship between the objects created in the different multiple resources or the meta data of each resource as a combined ontology expressed by a connection relation between multiple resources.
  7. 제1항에 있어서, The method according to claim 1,
    상기 검색 결과 제공 모듈은 상기 자원별로 획득된 검색정보를 연구주체별로 분류하고, 연구주체별 각 자원의 검색 건수에 사용자에 의해 입력된 각 자원의 비율에 따른 가중치를 적용하여 연산한 후, 그 연산된 결과가 높은 연구주체 순으로 랭킹하여 제공하는 것을 특징으로 하는 다중 자원을 통합한 지식베이스를 이용한 다중 관점 기반 검색정보 제공 장치.The search result providing module classifies the search information acquired for each resource by research subjects, calculates a weight by a ratio of each resource input by the user to the number of search for each resource per research subject, Wherein the search results are ranked in order of higher research subjects.
  8. 제1항에 있어서, The method according to claim 1,
    상기 검색 결과 제공 모듈은 상기 연산된 결과를 미리 정의된 또는 사용자에 의해 요청된 순서대로 정렬하여 제공하는 것을 특징으로 하는 다중 자원을 통합한 지식베이스를 이용한 다중 관점 기반 검색정보 제공 장치.Wherein the search result providing module arranges the calculated results in a predetermined order or in a sequence requested by the user, and provides the sorted results.
  9. 검색 정보 제공 장치가 다중 자원을 기반으로 검색 정보를 제공하는 방법에 있어서, A method in which a search information providing apparatus provides search information based on multiple resources,
    (a) 각 자원별로 개체명 사전을 이용하여 입력 문서의 개체를 인식하고, 문맥 패턴 정보를 이용하여 상기 인식된 개체간의 관계를 생성하는 단계;(a) recognizing an entity of an input document by using an entity name dictionary for each resource, and creating a relationship between the recognized entities using context pattern information;
    (b) 서로 다른 다중 자원에서 각각 인식된 개체와 개체간의 관계를 통합 온톨로지로 매핑하여 저장하고, 상기 통합 온톨로지에 대한 추론을 수행하여 통합 지식베이스를 확장하는 단계;(b) mapping and storing the relationships between entities and entities recognized by different multi-resources into an integrated ontology and extending the integrated knowledge base by inferring the integrated ontology;
    (c) 사용자에 의해 검색어가 입력된 경우, 상기 통합 지식베이스를 검색하여 상기 검색어에 해당하는 검색정보를 자원별로 획득하는 단계; 및 (c) when the user inputs a search word, searching the integrated knowledge base to obtain search information corresponding to the search word for each resource; And
    (d) 상기 획득된 검색정보에 각 자원의 비율에 따른 가중치를 부여하여 연산하고, 그 연산된 결과를 정렬한 검색결과정보를 제공하는 단계;(d) assigning weights according to ratios of the resources to the obtained search information, and providing search result information obtained by sorting the calculated results;
    를 포함하는 다중 관점 기반 검색정보 제공 방법.Based search information providing method.
  10. 제9항에 있어서, 10. The method of claim 9,
    상기 (a) 단계는, The step (a)
    상기 입력 문서에 대해 형태소 분석, 구문 분석, 의미 분석을 수행하여 용어를 인식하고, 상기 인식된 용어가 상기 개체명 사전에 등록된 경우, 개체로 인식하는 단계;Recognizing a term by performing morphological analysis, syntax analysis, and semantic analysis on the input document, and recognizing the term as an entity when the recognized term is registered in the entity name dictionary;
    상기 인식된 개체가 2개 이상인 경우, 상기 문맥 패턴 정보를 근거로 상기 인식된 개체 사이의 문맥을 추출하는 단계; 및Extracting a context between the recognized entities based on the context pattern information when the recognized entities are two or more; And
    기 저장된 정규화 사전을 근거로 상기 추출된 문맥을 정규화하는 방식으로 개체간의 관계를 생성하는 단계를 포함하는 것을 특징으로 하는 다중 관점 기반 검색정보 제공 방법.And generating a relationship between entities by normalizing the extracted context based on a previously stored normalization dictionary.
  11. 제9항에 있어서, 10. The method of claim 9,
    상기 (c) 단계는, The step (c)
    상기 사용자에 의해 검색이 요청된 경우, 검색어 입력 화면을 제공하는 단계;Providing a search word input screen when a search is requested by the user;
    상기 검색어 입력 화면을 통해 검색어 및 그 검색어에 대한 자원과 자원별 비율을 입력받는 단계; 및Receiving a search word and a ratio of resources and resources for the search word from the search word input screen; And
    상기 통합 지식베이스를 검색하여 상기 입력된 검색어에 해당하는 검색정보를 자원별로 획득하는 단계를 포함하는 것을 특징으로 하는 다중 관점 기반 검색정보 제공 방법.Searching for the integrated knowledge base and acquiring search information corresponding to the input search word for each resource.
  12. 제9항에 있어서, 10. The method of claim 9,
    상기 (d) 단계는, The step (d)
    상기 자원별로 획득된 검색정보를 연구주체별로 분류하는 단계;Classifying search information acquired for each resource by research subjects;
    상기 연구주체별 각 자원의 검색 건수에 각 자원의 비율에 따른 가중치를 적용하여 연산하는 단계;Applying a weight according to a ratio of each resource to the number of searches of each resource by the research subject;
    상기 연산된 결과가 높은 연구주체 순으로 랭킹하여 제공하는 단계를 포함하는 것을 특징으로 하는 다중 관점 기반 검색정보 제공 방법.And ranking the calculated results in order of higher research subjects to provide search information based on multiple viewpoints.
  13. 제9항에 있어서, 10. The method of claim 9,
    상기 검색결과정보는 미리 정의된 또는 사용자에 의해 요청된 순서대로 정렬하여 제공하는 것을 특징으로 하는 다중 관점 기반 검색정보 제공 방법.Wherein the search result information is arranged in a predetermined order or in a sequence requested by a user.
  14. 제9항 내지 제13항에 있어서, 다중 관점 기반 검색정보 제공 방법을 수행하는 프로그램이 기록되고 전자 장치에서 판독 가능한 기록 매체.The recording medium according to any one of claims 9 to 13, wherein the program for performing the multi-viewpoint-based search information providing method is recorded and readable in an electronic device.
PCT/KR2010/007239 2010-10-07 2010-10-21 Device and method for providing multi -resource based search information WO2012046904A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2010-0097796 2010-10-07
KR1020100097796A KR101055363B1 (en) 2010-10-07 2010-10-07 Apparatus and method for providing search information based on multiple resource

Publications (1)

Publication Number Publication Date
WO2012046904A1 true WO2012046904A1 (en) 2012-04-12

Family

ID=44933035

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2010/007239 WO2012046904A1 (en) 2010-10-07 2010-10-21 Device and method for providing multi -resource based search information

Country Status (2)

Country Link
KR (1) KR101055363B1 (en)
WO (1) WO2012046904A1 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407208A (en) * 2015-07-29 2017-02-15 清华大学 Establishment method and system for city management ontology knowledge base
CN107203618A (en) * 2017-05-24 2017-09-26 苏州唯亚信息科技股份有限公司 Suitable for the data classifying method of R & D Enterprises
CN112819171A (en) * 2021-02-04 2021-05-18 深圳市永达电子信息股份有限公司 Data searching method and system based on table function and computer storage medium
CN114547253A (en) * 2022-03-03 2022-05-27 北京伽睿智能科技集团有限公司 Semantic search method based on knowledge base application

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101724398B1 (en) * 2016-01-07 2017-04-18 서강대학교산학협력단 A generation system and method of a corpus for named-entity recognition using knowledge bases

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100421091B1 (en) * 2000-05-31 2004-03-10 노영희 System of search for nation base information by use the import knowledge base
JP2005078245A (en) * 2003-08-29 2005-03-24 Victor Co Of Japan Ltd Content search device using dendrogram
KR20090114779A (en) * 2008-04-30 2009-11-04 한국과학기술정보연구원 Method of semantic technological intelligence language mining for large size database
KR20100054587A (en) * 2008-11-14 2010-05-25 한국과학기술정보연구원 System for extracting ralation between technical terms in large collection using a verb-based pattern

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100421091B1 (en) * 2000-05-31 2004-03-10 노영희 System of search for nation base information by use the import knowledge base
JP2005078245A (en) * 2003-08-29 2005-03-24 Victor Co Of Japan Ltd Content search device using dendrogram
KR20090114779A (en) * 2008-04-30 2009-11-04 한국과학기술정보연구원 Method of semantic technological intelligence language mining for large size database
KR20100054587A (en) * 2008-11-14 2010-05-25 한국과학기술정보연구원 System for extracting ralation between technical terms in large collection using a verb-based pattern

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407208A (en) * 2015-07-29 2017-02-15 清华大学 Establishment method and system for city management ontology knowledge base
CN106407208B (en) * 2015-07-29 2019-06-18 清华大学 A kind of construction method and system of city management ontology knowledge base
CN107203618A (en) * 2017-05-24 2017-09-26 苏州唯亚信息科技股份有限公司 Suitable for the data classifying method of R & D Enterprises
CN112819171A (en) * 2021-02-04 2021-05-18 深圳市永达电子信息股份有限公司 Data searching method and system based on table function and computer storage medium
CN112819171B (en) * 2021-02-04 2024-04-09 深圳市永达电子信息股份有限公司 Data searching method, system and computer storage medium based on table function
CN114547253A (en) * 2022-03-03 2022-05-27 北京伽睿智能科技集团有限公司 Semantic search method based on knowledge base application

Also Published As

Publication number Publication date
KR101055363B1 (en) 2011-08-08

Similar Documents

Publication Publication Date Title
Segev et al. Context-based matching and ranking of web services for composition
WO2012070840A2 (en) Apparatus and method for consensus search
Hienert et al. Digital library research in action–supporting information retrieval in sowiport
WO2017150820A1 (en) Knowledge base-based conceptual-graph expansion system
WO2021054514A1 (en) User-customized question-answering system based on knowledge graph
WO2011162446A1 (en) Module and method for deciding named entity of term using named entity dictionary combined with ontology schema and mining rule
WO2012046904A1 (en) Device and method for providing multi -resource based search information
WO2012046906A1 (en) Device and method for providing resource search information on marked correlations between research subjects using a knowledge base from a combination of multiple resources
WO2012050252A1 (en) System and method for automatically generating a mass classifier using a dynamic combination of classifiers
WO2010123264A2 (en) Online community post search method and apparatus based on interactions between online community users and computer readable storage medium storing program thereof
TW201415254A (en) Method and system for recommending semantic annotations
WO2012144683A1 (en) Method and device for assessing promising stage using promising technology life cycle
WO2012144685A1 (en) Method and device for visualizing development of technology
WO2017057858A1 (en) Knowledge managing system having search function for each of multiple fields by weighted value
WO2013008978A1 (en) Object identification result searching system and method
KR20160120583A (en) Knowledge Management System and method for data management based on knowledge structure
WO2012144684A1 (en) Method and device for predicting development speed of technology
WO2012030049A2 (en) Apparatus and method for classifying similar documents by applying a dynamic threshold value
WO2019112223A1 (en) Electronic document retrieval method and server therefor
WO2014148664A1 (en) Multi-language search system, multi-language search method, and image search system, based on meaning of word
WO2012046905A1 (en) Device and method for resource search based on combination of multiple resources
WO2022092497A1 (en) System for providing similar case information, and method therefor
Huang et al. Pandasearch: A fine-grained academic search engine for research documents
WO2020242086A1 (en) Server, method, and computer program for inferring comparative advantage of multi-knowledge
WO2010093101A1 (en) Method and system for transforming blog post to ontology-based information

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10858180

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 10858180

Country of ref document: EP

Kind code of ref document: A1