KR20050054377A - System and method of concept-based retrieval model of protein interaction networks with gene ontology - Google Patents
System and method of concept-based retrieval model of protein interaction networks with gene ontology Download PDFInfo
- Publication number
- KR20050054377A KR20050054377A KR1020030087745A KR20030087745A KR20050054377A KR 20050054377 A KR20050054377 A KR 20050054377A KR 1020030087745 A KR1020030087745 A KR 1020030087745A KR 20030087745 A KR20030087745 A KR 20030087745A KR 20050054377 A KR20050054377 A KR 20050054377A
- Authority
- KR
- South Korea
- Prior art keywords
- protein
- information
- search
- database
- user
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9038—Presentation of query results
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioethics (AREA)
Abstract
본 발명은 단백질 상호작용 네트워크의 검색에 있어 불리언 연산자와 is-a, part-of의 계층구조를 갖는 유전자 온톨로지 개념을 이용하여 확장된 패싯 질의 기반으로 사용자 의도와 의미적으로 일치하는 정보를 순위화하여 제공하는 단백질 상호작용 네트워크 검색 시스템 및 방법에 관한 것이다. The present invention ranks information that semantically matches user intention based on extended facet query using Boolean operator and gene ontology concept with is-a and part-of hierarchy in search of protein interaction network. The present invention relates to a protein interaction network search system and method.
본 발명은 각종 단백질 및 단백질 상호작용 정보와 유전자 온톨로지 정보를 데이터베이스화하는 단계; 사용자로부터 단백질 검색을 위한 각 질의항목들을 입력받는 단계; 데이터베이스의 계층구조 및 불리언 조합을 통해 사용자 질의를 확장하는 단계; 확장된 사용자 질의를 바탕으로 단백질를 검색하고 그 검색결과를 순위화하여 출력하는 단계; 및 단백질 검색결과중 사용자가 선택한 단백질리스트만을 포함하는 단백질 상호작용 네트워크 정보를 탐색하고 그 결과를 가중치 값에 따라 순위화하여 출력하는 단계;로 이루어진다. The present invention comprises the steps of databaseing a variety of protein and protein interaction information and gene ontology information; Receiving each query item for protein search from a user; Extending the user query through a hierarchy and Boolean combination of the database; Searching for a protein based on the expanded user query and ranking and outputting the search result; And searching for protein interaction network information including only a list of proteins selected by a user among protein search results, and outputting the ranking according to weight values.
Description
본 발명은 유전자 온톨로지를 이용하여 단백질 상호작용 네트워크를 검색하는 시스템 및 방법에 관한 것이며, 보다 상세히는 단백질 상호작용 네트워크의 검색에 있어 불리언 연산자와 is-a, part-of의 계층구조를 갖는 유전자 온톨로지 개념을 이용하여 사용자가 의도하는 정보를 검색해주는 단백질 상호작용 네트워크 검색 시스템 및 방법에 관한 것이다. The present invention relates to a system and method for searching a protein interaction network using a gene ontology, and more particularly, a gene ontology having a hierarchy of Boolean operators, is-a, and part-of in searching for a protein interaction network. The present invention relates to a protein interaction network search system and method for searching for information intended by a user.
최근 생물학과 정보학이 결합된 생명정보학(Bio-informatics)이 차세대 생명공학으로서 각광 받고 있으며, 이러한 바이오인포매틱스 분야에서 단백질 상호작용 네트워크 검색은 단백질들의 기능을 전체적인 관점에서 볼 수 있다는 점에서 매우 중요한 정보로 활용되고 있다. 즉, 통합된 단백질 상호작용 네트워크의 정보는 지놈(genome) 데이터에서 유전자의 분류, 조회 및 기능을 파악하는데 많은 도움이 된다. 그래서, 방대하고 다양한 형태인 단백질 상호작용 네트워크를 효과적으로 검색하는 방법에 대한 많은 연구가 진행되고 있으며 다수의 방법들이 종래 제안된 바 있다. Recently, bio-informatics, which combines biology and informatics, is in the spotlight as the next generation of biotechnology. In this field of bioinformatics, the search for protein interaction networks is very important in that the function of proteins can be viewed from a holistic perspective. It is utilized. In other words, the information of the integrated protein interaction network is very helpful in identifying the classification, retrieval and function of genes in the genome data. Therefore, a lot of researches are being conducted on a method for effectively searching a large and diverse form of protein interaction network, and a number of methods have been proposed in the past.
하지만, 이러한 종래의 단백질 상호작용 네트워크의 검색 방법 및 장치들은 일반적으로 사용자의 질의 색인어와 일치되는 정보만을 검색하기 때문에 이와 연계된 다양한 정보들은 얻을 수 없었고, 그 결과 사용자의 의도와 의미적으로 일치하는 정보들을 효과적으로 탐색할 수 없었다. However, since the conventional methods and apparatuses for searching for protein interaction networks generally search only the information that matches the user's query index, various information associated with them cannot be obtained. Information could not be searched effectively.
따라서, 본 발명은 상술한 종래의 문제점을 해결하기 위한 것으로서, 본 발명의 목적은 검색어간의 불리언 연산자조합과 is-a, part-of의 계층 구조를 갖는 유전자 온톨로지 개념을 바탕으로 한 확장된 패싯을 기반으로 하여 사용자의 검색의도와 의미적으로 일치하는 정보들을 효과적으로 탐색하고 이를 관련정도에 따라 순위화하여 제공하는 유전자 온톨로지를 이용한 단백질 상호작용 네트워크 검색 시스템 및 방법을 제공하는데 있다. Accordingly, the present invention has been made to solve the above-described problems, and an object of the present invention is to provide an extended facet based on a gene ontology concept having a Boolean operator combination between search terms and a hierarchical structure of is-a and part-of. The present invention provides a protein interaction network search system and method using gene ontology, which effectively searches for information that is semantically matched to a user's search intention, and ranks the information according to a related degree.
상기 본 발명의 목적을 달성하기 위한 유전자 온톨로지를 이용한 단백질 상호작용 네트워크 검색시스템은, 단백질 및 단백질 상호작용 정보와 유전자 온톨로지 정보를 포함하는 데이터베이스부; 사용자로부터 패싯 질의항목들을 입력받는 사용자 질의입력부; 상기 사용자 질의항목에 대해 불리언 조합을 하고, 상기 데이터베이스부의 계층구조 정보를 참조하여 사용자 질의를 확장하는 중앙처리부; 상기 질의 처리 결과를 바탕으로 개념기반 단백질 정보 검색을 수행하는 단백질 검색부; 및 상기 검색된 단백질 리스트를 포함하는 단백질 상호작용 네트워크 정보를 검색 제공하는 단백질 상호작용 네트워크 검색부;로 구성된다. Protein interaction network search system using the gene ontology for achieving the object of the present invention, the database unit including the protein and protein interaction information and gene ontology information; A user query input unit configured to receive facet query items from a user; A central processing unit which performs a Boolean combination on the user query item and expands the user query by referring to the hierarchical structure information of the database unit; A protein retrieval unit that performs concept-based protein information retrieval based on the query processing result; And a protein interaction network search unit for searching and providing protein interaction network information including the searched list of proteins.
또한, 상기 본 발명의 목적을 달성하기 위한 유전자 온톨로지를 이용한 단백질 상호작용 네트워크 검색 방법은, 각종 단백질 및 단백질 상호작용 정보와 유전자 온톨로지 정보를 포함하여 데이터베이스화하는 단계; 사용자로부터 단백질 검색을 위한 각 질의항목들을 입력받는 단계; 상기 데이터베이스의 단백질 계층구조 정보와 불리언 조합을 통해 사용자 질의를 확장하는 단계; 상기 확장된 사용자 질의를 바탕으로 개념기반 단백질 정보를 검색하고 그 검색결과 리스트를 순위화하여 출력하는 단계; 상기 단백질 검색결과 리스트를 포함하는 단백질 상호작용 네트워크 정보를 탐색하고 그 결과를 가중치 값에 따라 순위화하여 출력하는 단계;로 이루어진다. In addition, the protein interaction network search method using the gene ontology for achieving the object of the present invention, comprising the steps of database including a variety of protein and protein interaction information and gene ontology information; Receiving each query item for protein search from a user; Expanding the user query through protein hierarchy information and Boolean combinations of the database; Searching for concept-based protein information based on the expanded user query, and ranking and outputting the search result list; And searching for protein interaction network information including the protein search result list and ranking the results according to weight values.
이하, 본 발명에 따른 실시예를 첨부한 도면을 참조하여 상세히 설명하기로 한다. Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings.
도 1은 본 발명에 따른 단백질 상호작용 네트워크 검색에 대한 개략적인 개념을 도시하고 있다. 1 illustrates a schematic concept for protein interaction network search according to the present invention.
도 1에 도시된 바와 같이, 본 발명의 단백질 상호작용 네트워크 검색은, 크게 유전자 온톨로지를 참조하여 사용자 질의에 대한 획장된 패싯 질의를 구성하는 제 1과정과, 데이터베이스로부터 상기 확장 패싯 질의와 일치하는 단백질을 검색하는 제 2과정과, 상기 검색된 단백질 정보를 포함하는 데이터베이스로부터 단백질 상호작용 네트워크를 검색하는 제 3과정으로 이루어진다. As shown in FIG. 1, the protein interaction network search of the present invention is a first step of constructing an extended facet query for a user query by referring to gene ontology, and a protein matching the expanded facet query from a database. And a third step of searching for a protein interaction network from a database including the retrieved protein information.
또한, 본 발명은 단백질 상호작용 네트워크를 검색함에 있어, 사용자 질의어를 AND, OR 등의 불리언 연산자로 조합하고, is-a, part-of의 계층 구조를 갖는 유전자 온톨로지 개념을 바탕으로 한 확장된 패싯 기반의 검색을 수행한다. 여기에서, 패싯이란 검색하고자 하는 요구 항목들을 말한다. In addition, the present invention is an extended facet based on the concept of gene ontology having a hierarchical structure of is-a, part-of by combining user query words with Boolean operators AND, OR, etc. in searching a protein interaction network Perform a base search. Here, the facets refer to the request items to be searched.
즉, 본 발명은 기존의 색인어 검색의 단점을 보완하고 사용자의 검색 의도를 만족스럽게 표현하기 위해 불리언 질의를 사용하는 것으로, AND나 OR와 같은 불리언 연산자를 이용하여 사용자 질의들 사이의 논리적 관계를 자연스럽게 표현할 수 있다는 장점을 가진다. That is, the present invention uses a Boolean query to compensate for the disadvantages of the existing index word search and satisfactorily expresses the user's search intention. The present invention naturally uses a Boolean operator such as AND or OR to logically link logical relations between user queries. It has the advantage of being expressible.
하지만, 이와 같이 불리언 연산자만을 사용할 경우, 시스템 내부에서 관련된 질의들이 모두 동일한 관련 정도로 표현되기 때문에 사용자 의도에 따라 검색된 항목에 가중치를 적용할 수 없다는 단점이 있다. 이를 해결하기 위해 본 발명은 각 패싯 값에 해당하는 관련 정도를 종 데이터베이스, 유전자 온톨로지 데이터베이스, 단백질 데이터베이스, 단백질 상호작용 데이터베이스에 사전에 정의해 두어, 사용자의 검색 질의와 검색된 결과 사이의 관련 정도를 평가할 수 있게 함으로써 시스템이 그 검색결과를 순위화된 형태로 사용자에게 제시할 수 있게 한다. However, when only the Boolean operator is used in this way, since the related queries are all expressed in the same degree of relevance in the system, weights cannot be applied to the searched items according to the user's intention. In order to solve this problem, the present invention defines a degree of relevance corresponding to each facet value in a species database, a gene ontology database, a protein database, and a protein interaction database in advance to evaluate the degree of relevance between a user's search query and the searched result. This allows the system to present the search results to the user in ranked form.
도 2는 본 발명에 따른 단백질 상호작용 네트워크 검색시스템에 대한 개략적인 블록 구성도이다. 2 is a schematic block diagram of a protein interaction network search system according to the present invention.
도 2에 도시된 바와 같이, 본 발명에 따른 검색 시스템은, 사용자 질의 입력부(110)와, 데이터베이스부(130)와, 중앙처리부(120), 단백질 검색부(125), 및 단백질 상호작용 네트워크 검색부(126) 등으로 구성된다. As shown in FIG. 2, the search system according to the present invention includes a user query input unit 110, a database unit 130, a central processing unit 120, a protein search unit 125, and a protein interaction network search. Section 126 or the like.
여기에서, 상기 사용자 질의 입력부(110)는 사용자로부터 질의항목들을 입력받기 위한 것으로, 사용자가 찾고자 하는 단백질 또는 단백질 상호작용 네트워크의 검색을 위해 요구되는 항목들로 이루어져 있다. 사용자 질의 입력부(110)에 대해서는 이하 도 5를 통해 상세히 설명하기로 한다. Here, the user query input unit 110 is for receiving query items from the user, consisting of items required for the search of the protein or protein interaction network that the user is looking for. The user query input unit 110 will be described in detail with reference to FIG. 5 below.
또한, 상기 중앙처리부(120)는 상기 사용자 질의 입력부(110)로부터의 질의 항목과 데이터베이스부(130)에 저장되어 있는 데이터 사이의 관계를 처리하는 것으로, 이에 대해서는 이하 도 6을 통해 상세히 설명하도록 한다. In addition, the central processing unit 120 processes the relationship between the query item from the user query input unit 110 and the data stored in the database unit 130, which will be described in detail with reference to FIG. .
한편, 상기 데이터베이스부(130)는 종 DB(131), 단백질 DB(132), 유전자 온톨로지 DB(133), 단백질 상호작용 DB(134)로 이루어진다. Meanwhile, the database unit 130 includes a species DB 131, a protein DB 132, a gene ontology DB 133, and a protein interaction DB 134.
여기에서, 종 DB(131)에는 단백질 종(예; 사람, 쥐...)의 계층구조 정보가 저장된다. 도 3은 상기 종 DB(131)의 단백질 종 계층 구조에 대한 일 예를 보여주고 있다. Here, the species DB 131 stores hierarchical structure information of protein species (eg, humans, rats). 3 shows an example of the protein species hierarchy of the species DB 131.
또한, 상기 단백질 DB(132)에는 지금까지 밝혀진 모든 단백질에 대한 단백질 이름(Protein Name), 고유 아이디(Access Number), 단백질 유사명(Protein Synonym), 유전자 이름(Gene Name), 종 정보(Taxonomy Information), 유전자 및 단백질에 대한 대용량 정보 데이터베이스를 보유하고 있는 NCBI 또는 SWISS-PROT, EBI, PIR과 같은 웹사이트와 연결될 수 있도록 URL 정보가 포함된다. In addition, the protein DB (132) has a protein name (Protein Name), unique ID (Access Number), protein synonym (Protein Synonym), gene name, species information (Taxonomy Information) URL information is included to link to websites such as NCBI or SWISS-PROT, EBI and PIR which have large databases of information on genes and proteins.
또한, 상기 유전자 온톨로지 DB(133)에는 세포 성분(Cellular Component), 생물학적 처리(Biological Process), 그리고 분자 기능(Molecular Function) 세 부분으로 이루어진 단백질들 사이의 상호 연관성을 나타내는 유전자 온톨로지 정보가 저장된다. In addition, the gene ontology DB 133 stores gene ontology information representing correlations between proteins consisting of three parts, a cellular component, a biological process, and a molecular function.
여기에서, 세포 컴포넌트(Cellular Component)는 세포의 구조, 위치, 거대 분자 집합 등의 정보를 포함하고, 상기 바이오 프로세서(Biological Process)는 분자 기능의 정렬화된 조합으로 이루어지며 화학적인 반응에 대한 정보를 포함한다. 또한, 상기 분자 기능(Molecular Function)은 개개 유전자 또는 단백질들의 수행 기능에 관한 정보를 포함한다. Herein, the cellular component includes information on the structure, location, macromolecular assembly, etc. of the cell, and the bioprocessor consists of an ordered combination of molecular functions and information on chemical reactions. It includes. In addition, the molecular function (Molecular Function) includes information about the performance of the individual genes or proteins.
아래 표 1은 단백질 정보 데이터베이스에 대한 일 예를 보여주고 있다. Table 1 below shows an example of the protein information database.
[표 1]TABLE 1
또한, 도 4는 상기 유전자 온톨로지 DB(133)의 유전자 온톨로지의 계층구조에 대한 예를 보여주고 있다. 4 illustrates an example of the hierarchy of gene ontology of the gene ontology DB 133.
상기 단백질 상호작용 DB(134)에는 하나의 단백질과 이와 물리적 화학적 결합관계를 가지는 모든 단백질 상호작용 네트워크 정보가 포함된다. 아래 표2는 이러한 단백질 상호작용 데이터베이스의 예를 보여주고 있다. The protein interaction DB 134 includes information about one protein and all protein interaction networks having a physical and chemical binding relationship thereto. Table 2 below shows an example of such a protein interaction database.
[표 2]TABLE 2
한편, 도 5는 상기 사용자 질의 입력부(110)에 대한 보다 상세한 블록 구성도이다. 5 is a more detailed block diagram of the user query input unit 110.
도 5에서와 같이, 상기 사용자 질의 입력부(110)는 단백질 이름부(111), 단백질 종부(112), 단백질 처리부(113), 단백질 구성부(114), 단백질 기능부(115) 등으로 구성된다. As shown in FIG. 5, the user query input unit 110 includes a protein name unit 111, a protein species unit 112, a protein processing unit 113, a protein constructing unit 114, and a protein function unit 115. .
여기에서, 상기 단백질 이름부(111)는 사용자로부터 임의의 단백질 이름을 입력받고 데이터베이스 내부의 단백질 DB(132)를 참조하여 그 관련 값을 중앙처리부(120)로 전달한다. 또한, 상기 단백질 종부(112)는 사용자로부터 단백질 종을 입력받고 종 DB(131)를 참조하여 그 관련 값을 중앙처리부(120)로 전달한다. Here, the protein name 111 receives an arbitrary protein name from the user and refers to the protein DB 132 in the database and transmits the related value to the central processing unit 120. In addition, the protein species 112 receives the protein species from the user and refers to the species DB 131 and transmits the relevant value to the central processing unit 120.
상기 단백질 처리부(113)는 사용자로부터 바이오 프로세서 값을 입력받고 유전자 온톨로지 DB(133)를 참조하여 그 관련 값을 중앙처리부(120)로 전달한다. 또한, 상기 단백질 구성부(114)는 사용자로부터 세포 컴포넌트 값을 입력받고 유전자 온톨로지 DB(133)를 참조하여 그 관련 값을 중앙처리부(120)로 전달한다. The protein processor 113 receives the bioprocessor value from the user and transfers the related value to the central processor 120 by referring to the gene ontology DB 133. In addition, the protein component 114 receives the cell component value from the user and transfers the related value to the central processing unit 120 with reference to the gene ontology DB 133.
또한, 상기 단백질 기능부(115)는 사용자로부터 분자 기능 값을 입력받고 데이터베이스 내부의 유전자 온톨로지 DB(133)를 참조하여 그 관련 값을 중앙처리부(120)로 전달한다. In addition, the protein function unit 115 receives the molecular function value from the user and refers to the gene ontology DB 133 in the database and transmits the related value to the central processing unit 120.
한편, 도 6은 상기 중앙처리부(120)에 대한 보다 상세한 블록 구성도이다. 6 is a more detailed block diagram of the central processing unit 120.
도 6을 참조하면, 상기 중앙처리부(120)는, 패싯항목 아이디 추출부(121), 검색 가중치 추출부(122), 데이터베이스 질의 확장부(123), 불리언 연산 조합부(124), 단백질 검색부(125), 단백질 상호작용 네트워크 검색부(126), 순위화 처리부(127) 등으로 구성된다. Referring to FIG. 6, the central processing unit 120 may include a facet item ID extractor 121, a search weight extractor 122, a database query expander 123, a Boolean operation combiner 124, and a protein searcher. 125, a protein interaction network search unit 126, a ranking processor 127, and the like.
여기에서, 상기 패싯항목 아이디 추출부(121)는 사용자 질의 입력부(110)의 각 항목에 대한 입력값과 매칭되는 데이터베이스의 값을 추출하는 기능을 수행한다. Here, the facet item ID extractor 121 extracts a value of a database that matches an input value for each item of the user query input unit 110.
또한, 상기 검색 가중치 추출부(122)는 상기 패싯항목 아이디 추출부(121)에서 데이터베이스 값 추출 시 그 상관 정도에 따른 검색 가중치를 추출 부여는 것으로, 이러한 상관도별 검색 가중치는 데이터베이스 구축 시 미리 정의된다. In addition, the search weight extracting unit 122 extracts and assigns search weights according to the degree of correlation when the facet item ID extracting unit 121 extracts a database value. do.
상기 데이터베이스 질의 확장부(123)는, 사용자 질의 항목에 대하여 종 계층구조와 유전자 온톨로지 계층구조를 이용하여 사용자 질의를 확장하는 기능을 수행한다. 이때, 종 계층구조와 유전자 온톨로지 계층구조는 각각 종 DB(131)와 유전자 온톨로지 DB(133)를 참조한다. The database query extension unit 123 expands a user query using a species hierarchy and a gene ontology hierarchy for the user query item. In this case, the species hierarchy and the gene ontology hierarchy refer to the species DB 131 and the gene ontology DB 133, respectively.
또한, 상기 불리언 연산 조합부(124)는, 상기 데이터베이스 질의 확장부(123)에서 확장된 질의를 AND와 OR 등과 같은 불리언 연산자를 이용하여 이를 표현하는 기능을 수행한다. In addition, the Boolean operation combiner 124 performs a function of expressing the query expanded by the database query expander 123 using a Boolean operator such as AND and OR.
상기 단백질 검색부(125)는 상기 불리언 연산 조합부(124)의 결과를 바탕으로 개념기반 검색과정을 통해 사용자의 의도와 의미적으로 일치하는 단백질 정보들을 탐색하는 기능을 수행한다. The protein search unit 125 searches for protein information semantically matching the intention of the user through a concept-based search process based on the result of the Boolean operation combination unit 124.
또한, 단백질 상호작용 네트워크 검색부(126)는 상기 단백질 검색부(125)를 통해 검색된 단백질들 중 사용자가 선택한 단백질들의 리스트만을 포함하는 단백질 상호작용 네트워크 리스트 정보를 상기 단백질 상호작용 DB(134)를 참조하여 탐색한다. 이때, 사용자의 의도와 의미적으로 일치하는 검색을 위하여 확장된 패싯 질의어를 통한 개념 기반 검색과정을 수행한다. In addition, the protein interaction network search unit 126 may provide the protein interaction network list information including the protein interaction network list information including only a list of proteins selected by the user among the proteins searched through the protein search unit 125. Navigate by reference. At this time, the concept-based search process is performed through an extended facet query for a search that semantically matches the user's intention.
한편, 상기 순위화 처리부(127)는 상기 단백질 검색부(125)와 단백질 상호작용 네트워크 검색부(126)의 검색결과 리스트에 대해, 상기 검색 가중치 추출부(122)의 값을 참조하여 사용자 의도와 가장 밀접한 관련을 가지는 목록순서로 순위화하여 사용자에게 출력한다. Meanwhile, the ranking processor 127 refers to a search result list of the protein searcher 125 and the protein interaction network searcher 126, by referring to the value of the search weight extractor 122. The list is most closely related to the user in order of output.
도 7은 본 발명에 따른 단백질 검색 및 단백질 상호작용 네트워크 검색 과정에 대한 흐름도이다. 7 is a flow chart for the protein search and protein interaction network search process according to the present invention.
도 7을 참조하면, 먼저 질의어 입력 인터페이스를 통해 사용자로부터 각 패싯 질의 항목에 대해 입력받는다.(S701) 도 8은 상기 사용자 질의 입력부(110)의 윈도우 화면 즉, 사용자 인터페이스 화면을 예시하고 있다. 이를 통해 사용자는 각 패싯 질의 항목을 입력한다. Referring to FIG. 7, first, a facet query item is received from a user through a query input interface (S701). FIG. 8 illustrates a window screen of the user query input unit 110, that is, a user interface screen. This allows the user to enter each facet query item.
사용자의 질의 입력이 완료되면, 상기 패싯항목 아이디 추출부(121)는 상기 데이터베이스부(130)의 각각의 해당 DB로부터 사용자의 질의와 일치하는 패싯항목 아이디를 추출한다.(S702) When the user's query input is completed, the facet item ID extracting unit 121 extracts a facet item ID corresponding to the user's query from each corresponding DB of the database unit 130 (S702).
그리고, 상기 종 DB(131)와 유전자 온톨로지 DB(133)의 계층구조를 참조하여 상기 추출된 패싯항목 아이디의 계층구조를 확장한다. 또한, 이와 같이 사용자 질의를 확장하면서 그 관련정도에 따른 가중치 값들을 부여한다.(S703) 도 9에는 유전자 온톨로지 계층구조를 통해 사용자 질의를 확장하는 예를 보이고 있다. The hierarchical structure of the extracted facet item ID is extended with reference to the hierarchical structure of the species DB 131 and the gene ontology DB 133. In addition, while extending the user query as described above, weight values according to the degree of relevance are assigned (S703). FIG. 9 shows an example of extending a user query through a gene ontology hierarchy.
그리고, 상기 확장된 결과물을 바탕으로 상기 데이터베이스부(130)로부터 각 패싯 항목에 대해 적합한 단백질을 검색한다.(S704) Then, based on the expanded result, a suitable protein for each facet item is searched from the database unit 130 (S704).
이때, 상기 불리언 연산 조합부(124)는 상기 검색된 각 패싯 항목에 대한 단백질들에 대해 AND 또는 OR 등의 불리언 조합을 행하여 질의입력에 대한 사용자 의도를 반영한다. 이때, 불리언 조합 연산에는 가중치도 포함된다.(S705)At this time, the Boolean operation combination unit 124 performs a Boolean combination such as AND or OR on the proteins for each faceted item to reflect the user's intention for the query input. At this time, the Boolean combination operation also includes a weight (S705).
그리고, 이러한 불리언 연산 조합의 결과를 바탕으로 상기 데이터베이스부(130)로부터 사용자의 의도와 의미적으로 일치하는 단백질 리스트를 추출한다.(S706) Based on the result of the Boolean combination, the database list 130 extracts a protein list semantically matching the intention of the user.
그리고, 상기 추출된 단백질 리스트에 대해 그 부여된 검색 가중치 값에 따라 순위화하고, 그 단백질 검색결과 리스트를 사용자 인터페이스를 통해 출력 표시한다.(S707) 도 10에는 이와 같은 단백질 검색결과 리스트에 대한 일 예를 도시하고 있다. Then, the extracted protein list is ranked according to the assigned search weight value, and the protein search result list is displayed through a user interface. (S707) FIG. 10 illustrates one such protein search result list. An example is shown.
이와 같이 순위화된 단백질 리스트가 출력되면, 사용자는 그 중에서 원하는 단백질 항목들만을 선택하고 그에 대한 단백질 상호작용 네트워크 검색을 요구하게 된다.(S711) When the ranked list of proteins is output, the user selects only the desired protein items among them and requests a search for the protein interaction network therefor (S711).
이에 따라, 상기 단백질 상호작용 네트워크 검색부(126)는 먼저 상기 데이터베이스부(130)의 해당 DB들을 참조하여 상기 선택된 단백질 이름에 대한 단백질 아이디(ACCESS NUMBER)를 확장한다.(S712) Accordingly, the protein interaction network search unit 126 first expands the protein ID (ACCESS NUMBER) for the selected protein name by referring to the corresponding DBs of the database unit 130 (S712).
그리고, 상기 확장된 단백질 아이디에 대해 불리언 조합을 수행한다. 이때, 사용자 의도를 반영하기 위하여 검색 가중치도 포함된다.(S713) Then, Boolean combination is performed on the extended protein ID. At this time, the search weight is also included to reflect the user's intention (S713).
그리고, 상기 불리언 조합 결과를 바탕으로 상기 단백질 상호작용 네트워크 DB(134)를 참조하여 사용자가 입력한 단백질들에 대한 단백질 상호작용 네트워크 리스트를 추출한다.(S714) The protein interaction network list for the proteins input by the user is extracted with reference to the protein interaction network DB 134 based on the Boolean combination result (S714).
또한, 상기 추출된 단백질 상호작용 네트워크 리스트를 그 검색 가중치를 고려하여 순위화한 후, 그 단백질 상호작용 네트워크 검색결과를 사용자 인터페이스를 통해 출력 표시한다.(S715) In addition, the extracted protein interaction network list is ranked in consideration of the search weight, and then the protein interaction network search result is displayed and output through the user interface (S715).
도 11는 이러한 단백질 상호작용 네트워크 검색결과 리스트에 대한 일 예를 보여주고 있다. 11 shows an example of such a protein interaction network search result list.
상기와 같은 본 발명의 유전자 온톨로지를 이용한 단백질 상호작용 네트워크 검색 방법은 컴퓨터로 읽을 수 있는 기록 매체에 저장될 수 있다. 이러한 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있도록 프로그램 및 데이터가 저장되는 모든 종류의 기록매체를 포함하는 것으로, 그 예로는, 롬(Read Only Memory), 램(Random Access Memory), CD(Compact Disk)-Rom, DVD(Digital Video Disk)-Rom, 자기 테이프, 플로피 디스크, 광데이터 저장장치 등이 있다. 또한, 이러한 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. The protein interaction network search method using the gene ontology of the present invention as described above may be stored in a computer-readable recording medium. Such a recording medium includes all kinds of recording media in which programs and data are stored so that they can be read by a computer system. Examples of the recording medium include read only memory, random access memory, and compact disk. -Rom, DVD (Digital Video Disk) -Rom, magnetic tape, floppy disk, optical data storage device. In addition, these recording media can be distributed over network coupled computer systems so that the computer readable code is stored and executed in a distributed fashion.
상술한 바와 같이 본 발명에 따른 유전자 온톨로지를 이용한 단백질 상호작용 네트워크 검색 시스템 및 방법은, 불리언 연산자와 is-a, part-of의 계층 구조를 갖는 유전자 온톨로지를 이용하여 확장된 패싯 질의의 개념 기반 검색을 수행하여 종래 색인어 기반 탐색의 단점들을 보완함으로써, 사용자 질의들 사이의 논리적 관계를 자연스럽게 표현할 수 있고 사용자의 의도와 의미적으로 일치하는 단백질 정보들을 효과적으로 검색할 수 있다. As described above, the protein interaction network search system and method using the gene ontology according to the present invention, the concept-based search of the extended facet query using the gene ontology having a Boolean operator and the hierarchical structure of is-a, part-of By supplementing the shortcomings of the conventional index term-based search, it is possible to naturally express the logical relationship between user queries and to efficiently search for protein information that semantically matches the intention of the user.
또한, 확장된 패싯질의에 가중치를 적용하고 이에 따라 검색결과를 순위화함으로써 사용자에게 검색 편의를 제공할 수 있다. In addition, it is possible to provide a user with a search convenience by applying weights to the extended faceted query and ranking the search results accordingly.
이상에서 설명한 것은 본 발명에 따른 유전자 온톨로지를 이용한 단백질 상호작용 네트워크 검색 시스템 및 방법을 실시하기 위한 하나의 실시예에 불과한 것으로서, 본 발명은 상기한 실시예에 한정되지 않고, 이하의 특허청구의 범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변경 실시가 가능한 범위까지 본 발명의 기술적 정신이 있다고 할 것이다. What has been described above is only one embodiment for implementing a protein interaction network search system and method using the gene ontology according to the present invention, the present invention is not limited to the above-described embodiment, the scope of the claims Without departing from the gist of the present invention claimed in the present invention, anyone of ordinary skill in the art will have the technical spirit of the present invention to the extent that various modifications can be made.
도 1은 본 발명에 따른 단백질 상호작용 네트워크 검색에 대한 개념도. 1 is a conceptual diagram for protein interaction network search according to the present invention.
도 2는 본 발명에 따른 단백질 상호작용 네트워크 검색 시스템에 대한 개략적 블록 구성도. Figure 2 is a schematic block diagram of a protein interaction network search system according to the present invention.
도 3은 본 발명에 따른 종 DB 계층구조의 일 예를 보여주는 도면. 3 is a view showing an example of a species DB hierarchy according to the present invention.
도 4는 본 발명에 따른 유전자 온톨로지 계층구조의 일 예를 보여주는 도면. Figure 4 shows an example of the gene ontology hierarchy according to the present invention.
도 5는 본 발명에 따른 사용자 질의 입력부에 대한 블록 구성도. 5 is a block diagram of a user query input unit according to the present invention;
도 6은 본 발명에 따른 중앙처리부의 블록 구성도. Figure 6 is a block diagram of a central processing unit according to the present invention.
도 7은 본 발명에 따른 단백질 및 단백질 상호작용 네트워크 검색 과정에 대한 흐름도. 7 is a flow chart for a protein and protein interaction network search process in accordance with the present invention.
도 8은 본 발명에 따른 질의 입력부의 사용자 인터페이스 화면도. 8 is a user interface screen diagram of the query input unit according to the present invention;
도 9는 본 발명에 따른 유전자 온톨로지 계층구조를 통해 사용자 질의를 확장하는 예를 보여주는 도면. 9 illustrates an example of extending a user query through a gene ontology hierarchy according to the present invention.
도 10은 본 발명에 따른 단백질 검색결과 리스트를 보여주는 도면. 10 is a view showing a list of protein search results according to the present invention.
도 11은 본 발명에 따른 단백질 상호작용 네트워크 검색결과 리스트를 보여주는 도면. 11 shows a list of protein interaction network search results according to the present invention.
<도면의 주요부분에 대한 부호의 설명><Description of the symbols for the main parts of the drawings>
110: 사용자 질의입력부 111: 단백질 이름부110: user query input unit 111: protein name book
112: 단백질 종부 113: 단백질 처리부112: protein species 113: protein processing unit
114: 단백질 구성부 115: 단백질 기능부114: protein component 115: protein function
120: 중앙처리부 121: 패싯항목 아이디 추출부120: central processing unit 121: facet item ID extraction unit
122: 검색가중치 추출부 123: 질의확장부122: search weight extractor 123: query expansion unit
124: 불리언 연산 조합부 125: 단백질검색부124: Boolean operation combination unit 125: protein search unit
126: 단백질 상호작용 네트워크 검색부126: protein interaction network search unit
127: 순위화 처리부 130: 데이터베이스부127: ranking processor 130: database unit
131: 종 DB 132: 단백질 DB131: Species DB 132: Protein DB
133: 유전자 온톨로지 DB 134: 단백질 상호작용 DB133: gene ontology DB 134: protein interaction DB
Claims (11)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020030087745A KR100551954B1 (en) | 2003-12-04 | 2003-12-04 | System and Method of concept-based retrieval model of protein interaction networks with gene ontology |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020030087745A KR100551954B1 (en) | 2003-12-04 | 2003-12-04 | System and Method of concept-based retrieval model of protein interaction networks with gene ontology |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20050054377A true KR20050054377A (en) | 2005-06-10 |
KR100551954B1 KR100551954B1 (en) | 2006-02-20 |
Family
ID=37249717
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020030087745A KR100551954B1 (en) | 2003-12-04 | 2003-12-04 | System and Method of concept-based retrieval model of protein interaction networks with gene ontology |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100551954B1 (en) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100785780B1 (en) * | 2005-12-08 | 2007-12-18 | 한국전자통신연구원 | Method and apparatus for detecting bio-complexes with rule-based templates |
KR100790870B1 (en) * | 2006-03-17 | 2008-01-03 | 삼성전자주식회사 | Method and apparatus for searching gene sequence |
KR100818357B1 (en) * | 2006-05-10 | 2008-04-02 | (주)윕스 | Presenting System of Keyword Using Associative Model and Method Thereof |
KR100849497B1 (en) * | 2006-09-29 | 2008-07-31 | 한국전자통신연구원 | Method of Protein Name Normalization Using Ontology Mapping |
US7869960B2 (en) | 2005-12-08 | 2011-01-11 | Electronics And Telecommunications Research Institute | Method and apparatus for detecting bio-complexes using rule-based templates |
KR101106174B1 (en) * | 2010-03-05 | 2012-01-20 | 인하대학교 산학협력단 | An ontology based search engine for protein-protein interactions |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6023659A (en) * | 1996-10-10 | 2000-02-08 | Incyte Pharmaceuticals, Inc. | Database system employing protein function hierarchies for viewing biomolecular sequence data |
US20020107643A1 (en) * | 1999-01-22 | 2002-08-08 | Wayne A. Hendrickson | Process for pan-genomic determination of macromolecular atomic structures |
AU2001260758A1 (en) * | 2000-06-01 | 2001-12-11 | Wisengine Inc. | Method and apparatus for unified query interface for network information |
KR100434902B1 (en) * | 2000-08-28 | 2004-06-07 | 주식회사 에이전트엑스퍼트 | Knowledge base custom made information offer system and service method thereof |
-
2003
- 2003-12-04 KR KR1020030087745A patent/KR100551954B1/en not_active IP Right Cessation
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100785780B1 (en) * | 2005-12-08 | 2007-12-18 | 한국전자통신연구원 | Method and apparatus for detecting bio-complexes with rule-based templates |
US7869960B2 (en) | 2005-12-08 | 2011-01-11 | Electronics And Telecommunications Research Institute | Method and apparatus for detecting bio-complexes using rule-based templates |
KR100790870B1 (en) * | 2006-03-17 | 2008-01-03 | 삼성전자주식회사 | Method and apparatus for searching gene sequence |
KR100818357B1 (en) * | 2006-05-10 | 2008-04-02 | (주)윕스 | Presenting System of Keyword Using Associative Model and Method Thereof |
KR100849497B1 (en) * | 2006-09-29 | 2008-07-31 | 한국전자통신연구원 | Method of Protein Name Normalization Using Ontology Mapping |
KR101106174B1 (en) * | 2010-03-05 | 2012-01-20 | 인하대학교 산학협력단 | An ontology based search engine for protein-protein interactions |
Also Published As
Publication number | Publication date |
---|---|
KR100551954B1 (en) | 2006-02-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8301437B2 (en) | Tokenization platform | |
US8316007B2 (en) | Automatically finding acronyms and synonyms in a corpus | |
US9183261B2 (en) | Lexicon based systems and methods for intelligent media search | |
US20070244863A1 (en) | Systems and methods for performing searches within vertical domains | |
US20030088715A1 (en) | System for keyword based searching over relational databases | |
US20070162546A1 (en) | Sharing tags among individual user media libraries | |
EP1411448A2 (en) | Data searching apparatus | |
US20070244862A1 (en) | Systems and methods for ranking vertical domains | |
US20070073653A1 (en) | Patent related search method and system | |
KR102069341B1 (en) | Method for searching electronic document and apparatus thereof | |
CN101395605A (en) | Comparative web search | |
CN111400323B (en) | Data retrieval method, system, equipment and storage medium | |
JP2009043263A (en) | Question classification method and its system | |
JP2007188509A (en) | Retrieval result providing method and two-stage retrieval system execution method | |
Li et al. | Two-stage hashing for fast document retrieval | |
KR100551954B1 (en) | System and Method of concept-based retrieval model of protein interaction networks with gene ontology | |
JP2001184358A (en) | Device and method for retrieving information with category factor and program recording medium therefor | |
Malhotra et al. | An ingenious pattern matching approach to ameliorate web page rank | |
WO2007120781A2 (en) | Systems and methods for performing searches within vertical domains | |
US6963865B2 (en) | Method system and program product for data searching | |
JPH09198396A (en) | Document retrieval device | |
JPH1166078A (en) | Retrieval request embodiment method/device and storage medium storing retrieval, request embodiment program | |
Huang et al. | Rough-set-based approach to manufacturing process document retrieval | |
JP2019125025A (en) | System, method for managing document data, and program | |
JP2005327225A (en) | System, method, and program for document management, and program recording medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20091228 Year of fee payment: 6 |
|
LAPS | Lapse due to unpaid annual fee |