KR102448275B1 - 생물 종 동정을 활용한 생물학적 정보 추론 장치 및 방법 - Google Patents

생물 종 동정을 활용한 생물학적 정보 추론 장치 및 방법 Download PDF

Info

Publication number
KR102448275B1
KR102448275B1 KR1020200082524A KR20200082524A KR102448275B1 KR 102448275 B1 KR102448275 B1 KR 102448275B1 KR 1020200082524 A KR1020200082524 A KR 1020200082524A KR 20200082524 A KR20200082524 A KR 20200082524A KR 102448275 B1 KR102448275 B1 KR 102448275B1
Authority
KR
South Korea
Prior art keywords
biological
logical
information
identification key
species
Prior art date
Application number
KR1020200082524A
Other languages
English (en)
Other versions
KR20210004886A (ko
Inventor
김선중
Original Assignee
(주)호모미미쿠스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)호모미미쿠스 filed Critical (주)호모미미쿠스
Priority to PCT/KR2020/008776 priority Critical patent/WO2021006573A1/ko
Priority to US17/625,067 priority patent/US20220293220A1/en
Publication of KR20210004886A publication Critical patent/KR20210004886A/ko
Application granted granted Critical
Publication of KR102448275B1 publication Critical patent/KR102448275B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B99/00Subject matter not provided for in other groups of this subclass

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Electrotherapy Devices (AREA)

Abstract

생물 종 동정을 활용한 생물학적 정보 추론 장치 및 방법이 개시된다. 본 발명의 일 실시예에 따르면, 사용자의 질의에 대해 추천 시스템이 생물 종을 추천하고, 이때 생물학적 체계 정보 인과 모형에 저장된 정보들을 활용하되, 생물 종 동정 키와 연결관계를 가지는 요소들을 조합하여 생물학적 정보를 추론하는 장치가 제공된다.

Description

생물 종 동정을 활용한 생물학적 정보 추론 장치 및 방법{Method and Apparatus to Reasoning Biological System Characteristics through Identification Keys}
본 발명은 생물 종 동정을 활용한 생물학적 정보 추론 장치 및 방법에 관한 것이다.
최근 생물학 분야에서 폭발적으로 증가하는 문헌으로부터 설계자가 원하는 생물학적 지식을 빠르고 정확하게 추출하거나 검색할 수 있도록 하는 방안이 요구되고 있다.
이를 통해, 생물학적 지식을 이용하여 반영구적 접합 방법을 개발하거나, 생체 모방 로봇에 대한 피아 식별 방법 등의 개발을 위한 아이디어를 찾는 등 다양한 기술 분야에 대해 효과적인 개발 방향이 제시될 수 있기 때문이다.
그러나, 생물학적 지식에 대한 종래의 검색 알고리즘은 설계자의 인지적 탐색(cognitive search) 과정을 지원하기에 현저히 부족한 실정이다.
또한 유전자서열 등 생물체에 관한 통합적 정보를 제공하기 위해 인터넷을 통해 접속 가능한 생물 정보 검색 서비스도 일부 구현되어 있으나, 생물체의 생물학적 관계에 한정된 제한적인 정보를 제공할 뿐, 물리적 관계 등 다양한 정보를 통합적으로 검색 가능하도록 제공하지는 못하고 있다.
이외에도 생물학적 개체명을 이용해 생물학적 문서로부터 생물학적 개체명들간의 관계를 추출하는 기술도 공개되어 있으나, 이 기술 역시 생물체의 생물학적 관계에 한정된 정보에 기반하고 있다.
이와 같이, 종래의 생물학적 지식에 대한 검색 시스템들은 매우 제한적인 정보만을 대상으로 하여 키워드 검색 방식이나 영상 정합도에 따른 단순 검색 결과를 제공하는 한계가 있다.
또한, 생물학적 시스템 정보 체계에서 생물 종 동정 키의 과학적 활용 방법이 제안되지 못하였고, 이에 관한 알고리즘 및 정보교환장치로 제안 혹은 개발된 적이 없다.
한국공개특허 제10-2015-0125093호(유전자와 질병간의 관계를 포함하는 문장 검색 엔진) 한국등록특허 제10-0478792호(2차원 젤 이미지를 이용한 단백질 검색 장치 및 방법)
본 발명은 생물학적 시스템의 생물학적 혹은 생태적 특징을 추론하는 시스템을 개발하는데 있어, 생물학 분야의 생물 종 '동정 키(Identification Key)'를 활용하여 각 생물체들이 가지고 있는 외형적 혹은 생태적 특징들을 정확하게 포착할 수 있게 돕는 시스템 및 방법을 제공하기 위한 것이다.
본 발명의 이외의 목적들은 하기의 설명을 통해 쉽게 이해될 수 있을 것이다.
본 발명의 일 측면에 따르면, 사용자의 질의에 대해 추천 시스템이 생물 종을 추천하고, 이때 생물학적 체계 정보 인과 모형에 저장된 정보들을 활용하되, 생물 종 동정 키와 연결관계를 가지는 요소들을 조합하여 생물학적 정보를 추론하는 장치가 제공된다.
생물 종 동정을 활용한 생물학적 정보 추론 장치로서, 생물 종 동정 키 집합을 수집하는 동정 키 수집부; 수집된 상기 생물 종 동정 키 집합의 질문 셋을 계층적으로 관리하는 동정 키 데이터베이스; 사용자 단말을 통한 사용자의 질문에 따라 생물학적 시스템을 추천하는 추천 시스템; 및 상기 생물학적 시스템에 대응되는 생물 종에 관한 상기 생물 종 동정 키 집합의 질문 셋과 사전 구축된 생물학적 시스템 정보 체계로부터 상기 생물학적 시스템의 특징을 추론해내는 추론 시스템을 포함하는 생물 종 동정을 활용한 생물학적 정보 추론 장치가 제공된다.
상기 생물 종 동정 키 집합은 DAG 그래프로 이루어질 수 있다.
상기 생물 종 동정 키 집합은, Yes 혹은 No로 대답할 수 있는 논리적 질문인 논리 노드와; 상기 논리적 질문의 연쇄적인 논리 연결을 포함하고, 상기 생물 종 동정 키 집합은 상기 논리 노드인 1개의 시작 지점과, 복수 개의 종료 지점을 가질 수 있다.
상기 생물 종 동정 키 집합은 1개의 논리 노드로부터 Yes 혹은 No에 해당하는 논리 연결이 각각 1개씩만 파생되고, 논리 노드는 복수 개의 논리 연결로부터 연결을 받을 수 있으며, 논리 연결의 연쇄적인 연결은 비순환 연결이고, 1개의 종료 지점에는 1개의 생물 종만 할당될 수 있다.
상기 동정 키 데이터베이스는 논리 노드 고유 번호, 논리 노드 텍스트를 포함하는 논리 노드 테이블과; 생물 종 고유 번호, 논리 노드 번호들의 논리 연결 그래프를 포함하는 논리 연결 테이블을 포함할 수 있다.
상기 추론 시스템은 상기 논리 노드 테이블의 논리 노드 텍스트, 상기 논리 연결 테이블의 생물 종 고유 번호 및 논리 연결 그래프를 이용하여 생물체 특질 정보를 추론할 수 있다.
한편 본 발명의 다른 측면에 따르면, 생물 종 동정을 활용한 생물학적 정보 추론 장치에서 수행하는 생물학적 정보 추론 방법으로서, 사용자 단말을 통한 사용자 질문을 추천 시스템으로 전달하는 단계; 상기 추천 시스템이 상기 사용자 질문을 분석하는 단계; 상기 분석 결과 관련된 생물학적 체계 정보가 존재하는 경우, 추론 시스템을 구동하는 단계; 상기 추론 시스템에서 동정 키 데이터베이스로부터 유사 동정 키를 탐색하는 단계; 및 상기 유사 동정 키가 존재하는 경우, 생물학적 체계 정보 데이터베이스에 연계하고 연관 생물학적 시스템을 추천하는 단계를 포함하는 생물 종 동정을 활용한 생물학적 정보 추론 방법이 제공된다.
상기 생물학적 체계 정보 데이터베이스에 연계하는 경우, 상기 동정 키 데이터베이스의 정보들과 상기 생물학적 체계 정보 데이터베이스의 생물학적 체계 정보 인과모형에 따른 생물학적 관계의 조직(part) 및 기관(organ)이 생물 종 동정 키 정보들과 연결관계를 추가적으로 가지고, 생태적 관계의 생태학적 행동(ecological behavior)이 생물 종 동정 키 정보들과 연결관계를 추가적으로 가지게 될 수 있다.
상기 동정 키 데이터베이스에서는 생물 종 동정 키 집합의 질문 셋이 계층적으로 관리되며, 상기 생물 종 동정 키 집합은 DAG 그래프로 이루어질 수 있다.
상기 생물 종 동정 키 집합은, Yes 혹은 No로 대답할 수 있는 논리적 질문인 논리 노드와; 상기 논리적 질문의 연쇄적인 논리 연결을 포함하고, 상기 생물 종 동정 키 집합은 상기 논리 노드인 1개의 시작 지점과, 복수 개의 종료 지점을 가질 수 있다.
상기 생물 종 동정 키 집합은 1개의 논리 노드로부터 Yes 혹은 No에 해당하는 논리 연결이 각각 1개씩만 파생되고, 논리 노드는 복수 개의 논리 연결로부터 연결을 받을 수 있으며, 논리 연결의 연쇄적인 연결은 비순환 연결이고, 1개의 종료 지점에는 1개의 생물 종만 할당될 수 있다.
상기 동정 키 데이터베이스는 논리 노드 고유 번호, 논리 노드 텍스트를 포함하는 논리 노드 테이블과; 생물 종 고유 번호, 논리 노드 번호들의 논리 연결 그래프를 포함하는 논리 연결 테이블을 포함할 수 있다.
상기 추천 단계에서는, 상기 논리 노드 테이블의 논리 노드 텍스트, 상기 논리 연결 테이블의 생물 종 고유 번호 및 논리 연결 그래프를 이용하여 생물체 특질 정보를 추론할 수 있다.
전술한 것 외의 다른 측면, 특징, 이점이 이하의 도면, 특허청구범위 및 발명의 상세한 설명으로부터 명확해질 것이다.
본 발명의 실시예에 따르면, 생물학적 시스템의 생물학적 혹은 생태적 특징을 추론하는 시스템을 개발하는데 있어, 생물학 분야의 생물 종 동정 키를 활용하여 각 생물체들이 가지고 있는 외형적 혹은 생태적 특징들을 정확하게 포착할 수 있게 돕는 효과가 있다.
도 1은 본 발명의 일 실시예에 따른 생물학적 체계 정보 검색 시스템의 구성을 개략적으로 나타낸 블록 구성도.
도 2는 본 발명의 일 실시예에 따른 생물학적 체계 정보를 구성하기 위한 인과관계에 기인한 온톨로지 구조를 예시한 도면.
도 3은 본 발명의 일 실시예에 따른 검색 쿼리를 재구성하는 과정을 나타낸 순서도.
도 4는 본 발명의 일 실시예에 따른 유사 매트릭스와 부(sub) 유사 매트릭스의 구성을 예시한 도면.
도 5는 본 발명의 일 실시예에 따른 인과모형 캔버스부가 도식화한 네트워크 그래프의 예,
도 6은 본 발명의 다른 실시예에 따른 생물 종 동정을 활용한 생물학적 정보 추론 장치의 블록도,
도 7은 본 발명의 다른 실시예에 따른 생물 종 동정을 활용한 생물학적 정보 추론 방법의 순서도,
도 8은 연질나무들의 생물 종을 나타낸 분류도,
도 9는 DAG 그래프의 예시도.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
본 명세서에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
또한, 명세서에 기재된 "??부", "??모듈"의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
또한, 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일하거나 관련된 참조부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
도 1은 본 발명의 일 실시예에 따른 생물학적 체계 정보 검색 시스템의 구성을 개략적으로 나타낸 블록 구성도이고, 도 2는 본 발명의 일 실시예에 따른 생물학적 체계 정보를 구성하기 위한 인과관계에 기인한 온톨로지 구조를 예시한 도면이다. 도 3은 본 발명의 일 실시예에 따른 검색 쿼리를 재구성하는 과정을 나타낸 순서도이고, 도 4는 본 발명의 일 실시예에 따른 유사 매트릭스와 부(sub) 유사 매트릭스의 구성을 예시한 도면이며, 도 5는 본 발명의 일 실시예에 따른 인과모형 캔버스부가 도식화한 네트워크 그래프의 예이다.
도 1을 참조하면, 생물학적 체계 정보 검색 시스템은 정보 관리 장치(110)와 정보 활용 장치(150)를 포함할 수 있다.
도 1에는 정보 관리 장치(110)와 정보 활용 장치(150)가 각각 독립된 장치로서 유선 또는 무선 통신 방식으로 연결되는 경우가 예시되었으나, 필요시 정보 관리 장치(110)와 정보 활용 장치(150)가 일체화되어 구현될 수도 있음은 당연하다.
정보 관리 장치(110)는 생체모방 설계(Bio-inspired Design)의 근간이 될 수 있는 생물학적 체계(Biological System) 정보를 구축하는 장치이다.
생물학적 체계 정보는 생체모방설계에서 모방(mimicking) 및 활용(application)의 대상이 되는 개별적인 생물체 내부에서의 물리적 현상, 생화학적 현상 등을 물리적 관계, 생태학적 관계와 생물학적 관계로 특정한 정보이며, 이는 개체(entity) 간의 상호 작용이나 복수의 종(species)들간의 상호 작용으로 확장될 수 있다.
즉, 생체 모방 설계에서 하나의 생물체(organism)가 직접적으로 모방되는 경우도 있으나, 생물체 내부의 생물학적 현상, 여러 개체(entity)들이 발생시키는 상호작용, 혹은 다양한 생물체 종(species)들이 발생시키는 상호 작용들이 직간접적으로 응용되는 경우도 많기 때문에, 설계자들이 넓은 범주에서의 다양한 아이디어를 도출할 수 있도록 개별 생물체 또는 생물체들이나 종 간의 상호작용까지 체계적으로 구성될 수 있다.
예를 들어, 생물학적 체계 정보로서 유럽 찌르레기가 알콜 중독을 해독하기 위해 알콜 분해를 촉진하는 내용이 저장되어 관리되는 경우, 알콜 분해 촉진을 위한 제품을 개발하고자 하는 설계자는 후술될 정보 활용 장치(150)를 이용하여 정보 관리 장치(110)에 접속한 후, 알콜 분해 촉진 등에 관한 생물학적 체계 정보의 검색을 통해 유럽 찌르레기에 관한 정보를 검색하여 활용할 수 있을 것이다.
정보 관리 장치(110)는 문서 수집부(112), 수집 데이터베이스(114), 어휘 사전 데이터베이스(116), 문서 구문 분석부(118), 색인 처리부(120), 인과모형 데이터베이스(122) 및 유사성 평가부(124)를 포함할 수 있다.
문서 수집부(112)는 자연어로 이루어진 생물학적 문서를 수집한다. 생물학적 문서는 예를 들어 생물학자들이 정리한 자연어 자료(natural-language based text)로서 HTML 문서일 수 있다. 물론, 생물학적 문서는 작성자나 문서 형태가 전술한 바로 제한되지 않으며, 후술될 물리적 관계, 생태학적 관계, 생물학적 관계에 관한 카테고리 분류 및 인과 모형 생성이 가능한 문서이면 충분하다.
수집 데이터베이스(114)는 문서 수집부(112)에 의해 수집된 생물학적 문서를 저장한다.
어휘 사전 데이터베이스(116)에는 생물학적 체계 정보에 포함되는 물리적 관계, 생태학적 관계, 생물학적 관계를 각각 색인하기 위해 필요한 어휘들이 저장된다.
어휘 사전 데이터베이스(116)에는 예를 들어 ITIS(Integrated Taxonomic Information System) 기준에 따른 학명(scientific name) 어휘가 수록된 학명 사전, 외부로 공개된 STONE의 2014년 논문에서 발췌된 자료(Engineering-to-biology thesaurus function terms) 등이 색인 어휘로서 저장될 수 있다. 본 발명은 학명 어휘를 사용함으로써 ITIS 기준으로 약 2만 1천개의 속(Genus)에 대한 생물학적 체계 정보를 수집할 수 있는 장점이 있다.
또한, 물리적 관계, 생태학적 관계를 각각 색인하는데, 기능(function), 물질, 에너지(energy), 신호(signal) 어휘가 필요하므로, 전문가들이 미리 작업한 기능 어휘 사전, 물질 어휘 사전(예를 들어, Material>Liquid>acid, chemical, water, blood 등), 에너지 어휘 사전(예를 들어, Energy>Hydralic>pressure, osmosis 등), 신호 어휘 사전(예를 들어, Signal>Sense>Detect>detect, locate, see / Signal>Status>change, fatty, variation 등) 등이 저장될 수도 있다. 이때, 생태학적 현상(EPH, Ecological Phenomena)과 관련된 어휘들이 기능, 물질, 에너지, 신호의 카테고리에 맞춰 분류 관계를 정의한 자료로 구성될 수도 있다.
문서 구문 분석부(118)는 문서 수집부(112)가 수집한 생물학적 문서를 파싱하여, 생물학적 문서의 문장 구조를 분석하고, 문장을 트리로 구성한다. 이때, 문서 구문 분석부(118)는 예를 들어 스크래피(Scrapy) 파서를 이용할 수 있다.
색인 처리부(120)는 종래의 SAPPhIRE 모델이 보완된 인과 관계에 기반한 생물학적 체계를 표현한 온톨로지 구조(도 2 참조)에 따라 문서 구문 분석부(118)에서 분석된 정보를 색인(indexing) 처리한다.
즉, 문서 구문 분석부(118)에서 분석된 정보에 대해, 색인 처리부(120)는 어휘 사전 데이터베이스(116)에 저장된 학명 어휘를 토대로 개별 생물체의 생물학적 관계를 색인하고, 어휘 사전 데이터베이스(116)에 저장된 기능, 물질, 에너지 및 신호를 각각 나타내는 어휘들을 토대로 해당 생물체의 생물학적 체계 중 물리적 관계와 생태학적 관계를 각각 색인한다.
생물학적 체계 정보는 주어(subject)-서술어(predicate)-목적어(object)의 트리플 형태에 기인하되, 도 2에 도시된 바와 같이, 생물체가 가지는 메커니즘(mechanism) 및 메커니즘을 통해 발현되는 인과 관계를 표현한 물리적 관계, 생태학적 관계 및/또는 생물학적 관계가 조합되도록 구조화된다.
수집된 생물학적 문서에서 분석된 정보를 토대로 생물체를 색인하기 위한 최소 단위는 노드(node)이고, 각 노드의 연결 정보는 관계 정보를 형성한다.
도 2를 참조하면, 생물학적 체계 정보의 물리적 관계(Physical relations)에서, 인풋(Input)(예를 들어, 에너지, 신호 또는/및 물질 인풋)은 물리적 효과(PEF, Physical Effects)를 작동(activate)시키고, 물리적 효과는 물리적 현상(PPH, Physical Phenomena)으로 생성(create)되며, 물리적 현상은 상태 변화(CoS, Change of State)를 생성(create)하고, 상태 변화는 액션(action)으로 해석(interpret)된다.
여기서, 물리적 관계는 하나의 생물체가 특정 목적(action, goal)을 달성하기 위하여 어떤 물리적 변화(CoS, Change of State)를 겪으며, 어떤 물리적 효과(PEF, Physical Effects)를 통해서 어떤 물리적 현상(PPH, Physical Phenomena)을 초래하는지 등을 인과 관계 방식으로 표현한 정보이다.
구체적으로, 물리적 변화(COS)는 목적을 달성하기 전 상태와 최종 결과 사이에 상태(state)가 어떻게 변화했느냐에 관한 것으로서, 사전 상태(Pre condition)와 사후 상태(Post condition)의 정적인 상태(state)가 동적인 관계로 색인된다.
물리적 효과(PEF)는 목적을 달성하는데 사용한 전략에 관한 것으로, 통상적으로 생태학사전, 물리학사전 등에 등재되어 정의(definition)가 존재하는 전략들(즉, 해당 단어와 상응하는 정의)로 색인된다.
물리적 현상(PPH)은 어떤 전략이 구체적으로 어떻게 실시되었는지에 관한 것으로서, 그것이 구체적으로 어떻게 실시되었는지를 명시적으로 나타내기 위해 전문가들에 의해 미리 작성된 기능어휘 사전(동사를 담당함)과, 목적어로서 명사를 담당하는 에너지 사전, 물질 사전, 신호 사전에 정의된 용어들이 동사와 목적어의 관계로 조합되어 색인될 수 있다.
예를 들어, 유럽 찌르레기가 알콜을 해독한다면, 알콜 해독은 액션(Action)에 해당되고, 물리적 변화(CoS)는 높은 알콜 농도가 낮은 알콜 농도로 변화되는 것이며, 중독 치료는 물리적 효과(PEF)에 해당될 수 있다. 따라서 알콜 분해 촉진이라는 물리적 현상(PPH)으로 액션, 즉 목적이 달성되는 것이다.
구체적으로, '많은 알콜 분자'라는 인풋은 '알콜 중독 치료'라는 물리적 효과를 작동시키고, '알콜 중독 치료'라는 물리적 효과는 '알콜 분해 촉진'이라는 물리적 현상을 생성하며, '알콜 분해 촉진'이라는 물리적 현상은 '높은 알콜 농도'(즉, 사전 상태(Pre condition))를 '낮은 알콜 농도'(즉, 사후 상태(Post condition))로 만드는 상태 변화를 생성하고, 이러한 상태 변화는 최종적으로 ‘알콜 해독’이라는 액션으로 해석될 수 있다. 또한 분석적 관점에서 다시 '알콜 해독'의 액션은, '많은 알콜 분자'의 인풋이라는 원인으로 재해석될 수도 있다.
또한, 액션이 생태학적 현상(EPH, Ecological Phenomena)으로 해석(interpret)되며, 따라서 액션은 특정 생물체가 어떠한 행동(또는 습성)을 수행하기 위해서 취하게 된 물리적 '전략'으로 이해될 수 있다.
예를 들어 유럽 찌르레기가 '알콜이 함유된 발효된 과일을 먹게 될 가능성이 높다'는 생태학적 관계를 인식한 경우, 알콜 중독 치료제를 개발하고자 하는 설계자는 유럽 찌르레기의 생태학적 관계에서 알콜 해독이 필요한 알콜 중독자의 생태학적 관계를 유추할 수 있고, 따라서 전술한 유럽 찌르레기가 취한 해당 행동(습성)을 수행하기 위해서 취하게 된 물리적 전략인 '알콜 해독'의 액션을 알콜 중독 치료제를 개발하기 위한 디자인 전략으로 응용할 수 있을 것이다.
수집된 생물학적 문서에 알콜 해독 능력을 가지는 유럽 찌르레기에 관한 내용이 기재되어 있는 경우를 예로 들어, 어휘 사전 데이터베이스(116)에 저장된 어휘로 구조화된 생물학적 체계 정보를 예시하면 하기 표 1과 같다. 물론 유럽 찌르레기가 다양한 특성을 가지고 있는 경우라면, 각각의 노드(즉, Input, PEF 등)에 대응되도록 각각 저장되는 어휘들은 보다 많아지고 다양해질 수도 있을 것임은 당연하다.
Input <알콜 화합물> <Alcohol>
Physical Effects <알콜 중독 치료> <Alcoholism-treatment>
Physical Phenomena <촉진하다>+<알콜 분해> <Catalyze> + <Alcohol+Decomposition>
Change of State <높은 알콜 농도> + <낮은 알콜 농도> <High+Density+of+Alcohol> + <Low+Density+of+Alcohol>
Action <알콜 해독> <Alcohol+Detoxification>
Ecological Phenomena <섭취하다> + <발효된 과일> <Ingest> +<Fermented+Fruit>
Ecological Behaviors <알콜 남용> <Alcohol+Abuse>
Organ <알콜 분해 효소> <Enzyme>
Part <위> <Stomach>
Entity <유럽 찌르레기> <European-starling> + <Sturnus vulgaris>
또한, 수집된 다른 생물학적 문서에 공기저항 감소를 위해 경량 골 구조를 가지는 유럽 찌르레기에 대한 내용이 포함되어 있는 경우, 유럽 찌르레기에 대한 생물학적 체계 정보가 표 2에 예시된 바와 같이 추가적으로 생성되어 관리될 수도 있다.
Input <운동 에너지> + <공기 저항> <Kinetic+Energy> + <Air>
Physical Effects <경량 골구조> <Light-skeletal-system>
Physical Phenomena <줄이다>+<질량> <Reduce> + <Body+Weight>
Change of State <많은 무게> + <적은 무게> <High+Weight> +<Low+Weight>
Action <에너지 소모 감소> <Reduce+Energy+Consumption>
Ecological Phenomena <증가시키다> + <비행시간> <Increase> +<Flight+Time>
Ecological Behaviors <비행> <Flying>
Organ <뼈> <Bone>
Part <골격계> <Skeletal-system>
Entity <유럽 찌르레기> <European-starling> + <Sturnus vulgaris>
표 2를 참조할 때, 유럽 찌르레기에 대한 생물학적 체계 정보는 운동에너지 인풋과 공기저항 인풋이 경량 골 구조라는 물리적 효과를 작동시키고, 경량 골 구조라는 물리적 효과는 뼈 무게 감소라는 물리적 현상을 생성하며, 뼈 무게 감소라는 물리적 현상은 큰 질량이 적은 질량이 되는 상태 변화를 생성하고, 큰 질량이 적은 질량이 되는 상태변화는 최종적으로 소모 에너지 절약이라는 액션으로 해석될 수 있다. 그리고 분석적 관점에서 다시 소모 에너지 절약의 액션은 높은 운동에너지 인풋과 공기저항 인풋이라는 원인으로 재해석될 수 있다.
또한, 효율적으로 비행하는 습성을 갖는다는 생태학적 관계에서 설계자는 유럽 찌르레기의 생태를 비행체인 사물의 생태(즉, 운전되는 상황)로 유추할 수 있고, 유럽 찌르레기가 해당 행동을 수행하기 위해서 취하게 된 물리적 전략인 소모 에너지 절약의 액션을 비행체의 행동을 수행하는, 즉 비행체를 개발하기 위한 디자인 전략으로 응용할 수 있을 것이다.
도 2와 전술한 표 1과 2에서 각각 확인되는 바와 같이, 생물학적 체계 정보의 생물학적 관계는 기관(Organ), 조직(Part), 엔티티(Entity)로 구성된다. 생물학적 관계는 생물학적 현상이 생물체(organism)의 어떤 조직(Part)의 어떤 기관(Organ)과 연관되어 있는지를 나타내며, 조직(Part)은 기관(Organ)이 속한 조직(Part)을 의미한다.
엔티티는 각각의 생물학적 체계 정보가 어떤 생물체(organism)와 관련되어있는지를 색인하는 요소로서, 기관(Organ)과 조직(Part)의 소유자이며, 바로 그 생물학적 현상을 관찰할 수 있는 생물체이다.
예를 들어, 무지갯빛(iridescent color)을 생성해내는 풍뎅이인 경우, 풍뎅이가 엔티티(Entity)로 색인되고, 큐티클(cuticle)은 풍뎅이의 쉘(shell)에 속한 부분이므로 생물학적 시스템의 조직(Part)은 쉘(shell)로 색인되며, 쉘(shell)의 큐티클이 연관된 기관(Organ)으로 색인될 수 있다.
다시 도 1을 참조하면, 인과모형 데이터베이스(122)에는 색인 처리부(120)가 미리 지정된 온톨로지 구조(도 2 참조)와 어휘 사전 데이터베이스(116)에 저장된 각 사전별 어휘에 기반하여 생성한 생물학적 체계 정보를 저장된다. 인과모형 데이터베이스(122)에는 각 생물학적 체계 정보에 상응하는 썸네일 이미지가 더 저장될 수도 있다.
이하, 인과모형 데이터베이스(122)에 각 요소별로 어휘가 색인되어 저장되는 규칙(syntax)을 간략히 설명한다.
우선 상태 변화(CoS) 요소는 하기 수학식 1의 규칙에 따라 저장될 수 있다.
Figure 112020069616240-pat00001
즉, 사전 상태(Pre condition, Statepre)와 사후 상태(Post condition, Statepost)로 저장되고, 각각 형용사부(Adj)와 명사부(Noun)로 구성된다. 여기서, 어휘 사전 데이터베이스(116)에 형용사부 색인 어휘들은 상태 형용사 사전으로 저장되고, 명사부 색인 어휘들은 각각 물질 어휘 사전, 에너지 어휘 사전, 신호 어휘 사전으로 저장된다.
그리고 물리적 현상(PPH) 요소는 하기 수학식 2의 규칙에 따라 저장될 수 있다.
Figure 112020069616240-pat00002
즉, 동사부(Predicatephysical)와 명사부(Objectphysical)로 구성된다. 어휘 사전 데이터베이스(116)에 동사부 색인 어휘들은 기능 어휘 사전으로 저장되고, 명사부 색인 어휘들은 전술한 바와 같이 각각 물질 어휘 사전, 에너지 어휘 사전, 신호 어휘 사전으로 저장된다.
그리고 물리적 효과(PEF) 요소는 하기 수학식 3의 규칙에 따라 저장될 수 있다.
Figure 112020069616240-pat00003
즉, 물리적 효과 요소는 어휘 사전 데이터베이스(116)에 저장된 PEF 색인 어휘 사전에 등록된 색인 어휘 중 하나로 색인되어 있다. PEF 색인 어휘 사전은 '색인 어휘'와 '색인 어휘의 정의(definition)'의 규칙(예를 들어 'Camouflage' + 'Camouflage의 정의')으로 어휘 사전 데이터베이스(116)에 저장된다.
그리고 인풋(Input) 요소는 하기 수학식 4의 규칙에 따라 저장될 수 있다
Figure 112020069616240-pat00004
해당 생물학적 체계 정보를 작동시키는 인풋은 관련된 물질 색인 어휘(Indexmaterial), 에너지 색인 어휘(Indexenergy), 신호 색인 어휘(Indexsignal)로 구성된다. 이들은 각각 어휘 사전 데이터베이스(116)에 저장된 물질 어휘 사전, 에너지 어휘 사전, 신호 어휘 사전에 등록된 어휘로 지정된다.
그리고 생태학적 현상(EPH) 요소는 하기 수학식 5의 규칙에 따라 저장된다.
Figure 112020069616240-pat00005
즉, '어떻게'에 관한 동사부(Predicate)와 '무엇을'에 관한 명사부(Object)로 구성된다. 일례로 적(foe)의 착시를 일으켜 적으로부터 발각되지 않도록 하는 생물학적 현상(camouflage)은 적(body - material)을 avoid(회피)하는 생태학적 기능을 갖는다. 동사부와 명사부의 색인 어휘들은 전술한 바와 같이 기능 어휘 사전, 물질 어휘 사전, 에너지 어휘 사전, 신호 어휘 사전으로 어휘 사전 데이터베이스(116)에 미리 저장된다.
그리고 생태학적 행동(EBH, Ecological Behavior) 요소는 하기 수학식 6의 규칙에 따라 저장된다.
Figure 112020069616240-pat00006
생태학적 행동 요소는 어휘 사전 데이터베이스(116)에 저장된 EBH 색인 어휘 사전에 등록된 색인 어휘 중 하나로 색인되어 있다. 예를 들어 적(foe)의 착시를 일으켜 적으로부터 발각되지 않도록 하는 생물학적 현상은 Camouflage(위장)라는 생태학적 행동을 갖고 있다. 색인 어휘 사전은 '색인 어휘'와 '색인 어휘의 정의(text)'의 규칙(예를 들어 'Herbivore' + 'Herbivore의 정의')으로 어휘 사전 데이터베이스(116)에 저장된다.
그리고 기관(Organ) 요소와 조직(Part) 요소 각각은 하기 수학식 7의 규칙에 따라 저장된다.
Figure 112020069616240-pat00007
기관 요소와 조직 요소는 어휘 사전 데이터베이스(116)에 저장된 생물학적 단어 사전의 단어를 이용하여 색인될 수 있다.
그리고 생물학적 체계 정보가 어떤 생물체(organism)와 관련되어 있는지를 색인하는 요소인 엔티티(Entity) 요소는 하기 수학식 8의 규칙에 따라 저장된다.
Figure 112020069616240-pat00008
즉, 연관 검색이 가능해질 수 있도록 하기 위해 ITIS 체계에 따른 학명에 따라 색인되며, 'ITIS 학명 사전'으로부터 생물체의 고유 ID 번호(숫자)를 색인하고, Indexscientificname는 학명(텍스트)을 색인하며, Indexcommonname는 통속명(텍스트)을 색인한다. 색인에 필요한 ITIS 사전은 어휘 사전 데이터베이스(116)에 미리 저장된다.
그리고 액션(Action) 요소는 하기 수학식 9의 규칙에 따라 저장된다.
Figure 112020069616240-pat00009
액션 요소는 별도의 사전으로 저장되지 않고, 설계자가 생물학적 체계 정보로부터 얻어낼 수 있는 설계 전략을 요약하여 기재한 설명으로 색인된다.
전술한 바와 같이, 생물학적 체계 정보는 각각의 생물체 내부의 물리적 관계, 생태학적 관계 및 생물학적 관계가 상호 연결 관계(지향성)을 가지는 인과 모형으로 표현되고 각각 색인되므로, 설계자는 활용하고자 하는 아이디어와 관련된 생물학적 체계 정보를 검색하기에 유용한 장점이 있다.
유사성 평가부(124)는 검색 요청부(156)로부터 검색 쿼리(query)를 제공받고, 검색 쿼리와 인과모형 데이터베이스(122)에 저장된 각각의 생물학적 체계 정보에 대한 유사성을 평가하며, 미리 지정된 임계값 이상의 유사성을 가지는 생물학적 체계 정보를 인과모형 캔버스부(158)로 제공한다. 유사성 평가부(124)는 예를 들어 Python 언어 형태로 인과모형 데이터베이스(122)에 저장된 생물학적 체계 정보를 관리할 수 있다.
유사성 평가부(124)의 구체적인 동작은 이후, 정보 활용 장치(150)의 검색 요청부(156) 및 인과모형 캔버스부(158)를 설명하는 과정에서 연계하여 구체적으로 설명하기로 한다.
정보 활용 장치(150)는 정보 관리 장치(110)에 구축된 생물학적 체계 정보를 대상으로 검색하여 검색 결과를 제공받기 위한 장치로서, 쿼리 입력부(152), 쿼리 구문 분석부(154), 검색 요청부(156) 및 인과모형 캔버스부(158)를 포함할 수 있다.
쿼리 입력부(152)는 생물학적 체계 정보의 검색을 위해 설계자 등의 사용자가 본인의 니즈(needs)에 상응하는 검색 쿼리를 입력하기 위한 수단이다(도 3의 단계 310 참조).
검색 쿼리는 예를 들어 하나 이상의 단어로 구성된 어구, 문장(sentence), 문단(paragraph) 등의 형태로 다양할 수 있다.
다만, 본 실시예에서는 검색 쿼리가 자연어 어구(phrase)로 구성되며, <현재상황(Current State)>과 <기대결과(Expected Result)>의 조합으로 기술(describe)되는 경우를 예로 들어 설명한다.
이를 위해, 쿼리 입력부(152)는 하나의 쿼리 입력 슬롯(slot)(예를 들어 검색어 입력창)에 <현재상황>과 <기대결과>를 자연어 어구로 함께 기재하도록 할 수도 있으나, <현재상황>의 자연어 어구를 입력하기 위한 제1 쿼리 입력 슬롯(slot)과, <기대결과>의 자연어 어구를 입력하기 위한 제2 쿼리 입력 슬롯을 사용자에게 각각 제공하도록 구현될 수도 있다.
검색 쿼리를 <현재상황(Current State)>과 <기대결과(Expected Result)>의 조합으로 기술하는 경우 검색을 수행함에 있어 인과 관계가 명확해질 수 있고, 또한 본 실시예에 따른 생물학적 체계 정보가 균일한(homogeneous) 구조 안에 표현되는 인과모형을 채택하였기 때문에 보다 효과적인 장점이 있다.
쿼리 구문 분석부(154)는 쿼리 입력부(152)를 이용하여 사용자가 입력한 쿼리 어구(phrase)를 통상의 자연어 처리 방식에 따라 의미 있는 수준의 단어인 토큰들로 분해하고, 각 토큰의 문법적 성분(예를 들어 형용사, 동사, 명사 등)을 분석한다. 또한, 쿼리 구문 분석부(154)는 정보 관리 장치(110)의 어휘 사전 데이터베이스(116)에 저장된 어휘를 참조하여 <현재상황> 및 <기대결과> 각각의 쿼리 어구를 토큰들의 묶음(corpus) 데이터셋으로 생성한다(도 3의 단계 315 참조).
예를 들어, 사용자가 알콜 중독 치료제 개발을 위한 아이디어를 얻기 위하여, 검색 쿼리를 <현재상황>으로 'The blood alcohol level is very high.(체내 알콜 농도가 매우 높다.)'를 입력하고, <기대결과>로 'The blood alcohol level is normal.(체내 알콜 농도가 보통이다.)'를 입력하였다면, 쿼리 구문 분석부(154)는 <현재상황>에 대한 묶음 데이터셋을 [blood, alcohol, level, very, high]로 생성하고, <기대결과>에 대한 묶음 데이터셋을 [blood, alcohol, level, normal]로 생성할 수 있다.
전술한 바와 같이, 묶음 데이터셋은 단어들을 토큰화하여 나누고, 문장 기호와 제외어(stopword)(예를 들어, a, an, for, and 등)를 제거하여 리스트로 표현한 것이다.
검색 요청부(156)는 쿼리 입력부(152)를 이용하여 입력되고 쿼리 구문 분석부(154)에 의해 분석된 묶음 데이터셋이 <현재상황> 및/또는 <기대결과>에 대해 존재하는지를 확인하고, 이에 상응하는 옵션값을 부가한 묶음 데이터셋을 유사성 평가부(124)로 제공한다.
유사성 평가부(124)로 제공되는 검색 쿼리에 상응하는 묶음 데이터셋이 <현재상황>과 <기대결과> 중 어느 하나만 포함된 경우에도 유사성 평가부(124)는 생물학적 체계 정보의 검색과 유사성 판단을 수행할 수 있도록 구현된다. 물론, <현재상황>과 <기대결과> 모두에 대해 묶음 데이터셋이 존재하지 않는 경우는 검색 쿼리가 입력되지 않은 것이므로 후술될 검색 절차가 진행되지 않음은 당연하다.
이는, 기본적으로 생체 모방 설계가 유추 전략에 기반한 디자인 사고를 전제로 하고 있기 때문이다. 따라서, 사용자는 아이디어를 찾기 위해 <현재상황>의 조건에서 가능한 여러 결과들을 살펴보기 위해 <기대결과>를 명시하지 않을 수 있으며, 또한 <기대결과>의 조건에서 가능한 여러 사전 상태들을 살펴보기 위해 <현재상황>을 명시하지 않을 수 있다.
즉, <현재상황>과 <기대결과> 중 어느 하나를 명시하지 않는다는 것은 사고의 제한을 풀겠다는 의사 표시로 이해될 수 있으며, 유추 사고에 기반한 생체 모방 설계에서 설계자가 창의적으로 유추하도록 장려하는 디자인 사고 방법인 것이다.
예를 들어, '높은 알콜 농도'의 <현재상황>을 '낮은 알콜 농도'의 <기대결과>와 결부시켜 인과 관계를 구체적으로 고정하는 경우, '높은 알콜 농도'라는 결과는 유지하면서, 오히려 알콜을 에너지원으로 활용하는 Pelotomaculum Thermopropionicum 박테리아 등에 대한 생물학적 체계 정보는 검색될 수 없기 때문이다.
검색 요청부(156)의 동작을 구체적으로 설명하면, 검색 요청부(156)는 검색 쿼리에 <현재상황>과 <기대결과> 중 어느 하나만이 기술된 경우에는, 생물학적 체계 정보의 온톨로지 구조 중 물리적인 변화를 가장 추상적으로 표현하는 요소인 물리적 효과(PEF) 요소를 이용하여, 유사성 평가부(124)가 인과모형 데이터베이스(122)에 저장된 생물학적 체계 정보들의 물리적 효과 요소로 색인된 정보들과 검색 쿼리의 묶음 데이터셋간의 유사성을 평가하고, 또한 유사 매트릭스를 도출하도록 하며, 미리 지정된 임계값 이상의 생물학적 체계 정보들을 인과모형 캔버스부(158)로 제공하도록 하는 옵션값을 설정한다(도 3의 단계 320 및 325 참조).
그러나, 검색 요청부(156)는 검색 쿼리에 <현재상황>과 <기대결과>가 모두 기술된 경우에는, 생물학적 체계 정보의 온톨로지 구조 중 물리적 현상(PPH)을 이용하여, 유사성 평가부(124)가 인과모형 데이터베이스(122)에 저장된 생물학적 체계 정보들의 물리적 현상 요소로 색인된 정보들과 검색 쿼리의 묶음 데이터셋간의 유사성을 평가하고, 또한 유사 매트릭스를 도출하도록 하며, 미리 지정된 임계값 이상의 생물학적 체계 정보들을 인과모형 캔버스부(158)로 제공하도록 하는 옵션값을 설정한다(도 3의 단계 320 및 330 참조).
구체적으로 설명하면, <기대결과>는 변화된 결과로써 기대하는 작동을 드러내므로, <기대결과>의 묶음 데이터셋으로부터 동사(verb) 토큰들을 수집하여 유사성 평가부(124)가 물리적 현상 요소로 색인된 정보들 각각과의 유사성을 판단하도록 할 수 있다. 이에 비해, <현재상황>은 변화의 작동 대상을 드러내므로, <현재상황>의 묶음 데이터셋으로부터 명사(noun) 토큰들을 수집하여, 유사성 평가부(124)가 물리적 현상 요소로 색인된 정보들 각각과의 유사성을 판단하도록 할 수 있다.
<기대결과>의 동사 토큰들에 의한 유사성 평가부(124)의 계산 결과와, <현재상황>의 명사 토큰들에 의한 유사성 평가부(124)의 계산 결과를 종합하여, 유사성 평가부(124)는 유사 매트릭스를 도출하고, 미리 지정된 임계값 이상의 생물학적 체계 정보들을 인과모형 캔버스부(158)로 제공할 수 있다.
또한, 검색 요청부(156)는 어휘 사전 데이터베이스(116)에 저장된 생물학적 단어 사전에 등록된 어휘가 묶음 데이터셋에서 발견되면, 유사성 평가부(124)가 생물학적 체계 정보의 온톨로지 구조 중 기관(Organ), 조직(Part) 및 엔티티(Entity)라는 요소를 유사성 평가시 추가적으로 고려하고 또한 유사 매트릭스(Similarity Matrix) 생성시 해당 유사성 평가 결과를 이용하도록 하는 옵션값을 설정한다(도 3의 단계 335 및 340 참조).
여기서, 생물학적 단어는 생물체 기관, 조직 또는/및 개체명(예를 들어 통속명, 학명 등)에 관한 단어들로서, 예를 들어 sensory-organ, lung, european-starling 등이 이에 해당된다.
그러나, 만일 묶음 데이터셋에서 생물학적 단어 사전에 등록된 어휘가 발견되지 않으면, 기관(Organ), 조직(Part) 및 엔티티(Entity)라는 요소를 유사성 평가시 고려하지 않도록 옵션값을 설정한다.
그리고, 검색 요청부(156)는 어휘 사전 데이터베이스(116)에 저장된 상태 형용사 사전에 등록된 어휘가 묶음 데이터셋에서 발견되면, 유사성 평가부(124)가 생물학적 체계 정보의 온톨로지 구조 중 상태 변화(CoS)라는 요소를 유사성 평가시 추가적으로 고려하고 또한 유사 매트릭스(Similarity Matrix) 생성시 해당 유사성 평가 결과를 이용하도록 하는 옵션값을 설정한다(도 3의 단계 345 및 350 참조).
여기서, 상태 형용사는 형용사 종류 중 크기, 모양, 상태, 색상, 연령, 재료 등에 해당되는 형용사로서, 예를 들어 high, small, enormous, round, ceramic, metal 등이 이에 해당된다.
그러나, 만일 묶음 데이터셋에서 상태 형용사 사전에 등록된 어휘가 발견되지 않으면, 상태 변화 요소를 유사성 평가시 고려하지 않도록 옵션값을 설정한다.
검색 요청부(156)는 입력된 검색 쿼리에 상응하여 생성된 묶음 데이터셋과 옵션값을 유사성 평가부(124)로 제공하여 검색을 요청한다(도 3의 단계 355 참조).
인과모형 캔버스부(158)는 유사성 평가부(124)의 유사도 평가 결과로서 제공된 하나 이상의 생물학적 체제 정보들간의 파생성(즉, 연관성)을 측정하고, 측정된 파생성을 이용하여 네트워크 그래프(도 5 참조)로 도식화하여 출력한다(도 3의 단계 355 및 단계 360 참조). 물론, 파생성 측정까지 유사성 평가부(124)에서 수행하고, 파생성 측정 결과 정보를 인과모형 캔버스부(158)가 이용하여 네트워크 그래프를 도식화할 수도 있음은 당연하다.
이하, 유사성 평가부(124)가 검색 요청부(156)로부터 제공받은 검색 쿼리에 상응하는 묶음 데이터셋과 인과모형 데이터베이스(122)에 저장된 각 생물체에 관한 생물학적 체계 정보를 이용하여 검색을 수행하고, 유사성을 판단하는 과정에 대해 설명한다(도 3의 단계 355 참조).
유사성 평가부(124)는 인과모형 데이터베이스(122)에 저장된 생물학적 체계 정보들과 제공받은 <현재상황> 및/또는 <기대결과>의 묶음 데이터셋의 유사성 평가를 수행하기 위해, 인과모형 데이터베이스(122)에 n개의 생물학적 체계 정보가 저장된 경우 묶음 데이터셋과의 비교를 위해 1 x n 행렬 형태의 유사 매트릭스(similarity matrix)를 생성한다(도 4의 (a) 참조). 유사성 평가가 수행되기 전에 각 유사도 평가값은 0으로 초기화될 수 있다.
만일 검색 쿼리에 상응하여 <현재상황> 및 <기대결과> 중 어느 하나에 대한 묶음 데이터셋만이 제공된 경우라면, 유사성 평가부(124)는 묶음 데이터셋과 인과모형 데이터베이스(122)에 n개의 생물학적 체계 정보 각각에서 물리적 효과(PEF) 요소의 색인 어휘의 정의(definition) 텍스트(이는, PEF 색인 어휘 사전에 저장되어 있음)와 토픽 연관성의 정도를 tf-idf(Term Frequency - Inverse Document Frequency) 기법을 이용하여 계산하고, 계산된 값을 각 생물학적 체계 정보 각각의 유사도 평가값으로 기록한다. 만일 이전의 유사도 평가 과정에서 이미 산출된 유사도 평가값이 존재한다면 합산 처리한다.
여기서, Tf-idf 기법은 각 문서에서 사용된 어휘(토큰)들의 유사성을 가지고 2개의 문서간의 유사성을 비교하는 일반적인 기법으로서, 예를 들어 묶음 데이터셋이 [blood, alcohol, level, very, high]로 구성되고, 이들이 물리적 효과(PEF) 요소의 색인 어휘의 정의텍스트인 'Alcoholism-treatment'에 대한 문서에서 등장하는 횟수가, PEF 색인 어휘 사전에 들어있는 모든 용어들에 대한 정의 문서들에서 등장하는 횟수에 비해서 얼마나 많은가로 계산하는 방법이다. 이 때, level, very, high 등의 토큰들은 대부분의 문서에서 일반적으로 빈번하게 사용될 수 있는 어휘이므로, blood 또는 alcohol 등의 다른 토큰들에 비해 상대적으로 낮은 유사도 값이 할당되어 적용될 수 있음은 당연하다.
그러나 만일 검색 쿼리에 상응하여 <현재상황> 및 <기대결과> 모두에 대한 묶음 데이터셋만이 제공된 경우라면, 우선 유사성 평가부(124)는 통상의 POST(Part of speech tagging) 알고리즘 등을 이용하여 <기대결과>의 묶음 데이터셋(WER)에서 동사 토큰들만을 추출하여 동사 토큰 집합(Wp)을 생성하고, <현재상황>의 묶음 데이터셋(WCS)에서 명사 토큰들만을 추출, 명사 토큰 집합(Wo)을 생성한다.
예를 들어 <현재상황>의 묶음 데이터셋이 [blood, alcohol, level, very, high]인 경우, 동사로 판단되는 토큰은 없으므로, 동사 토큰 집합(Wp)은 비어 있게 되지만, 명사 토큰 집합(Wo)는 [blood, alcohol, level]로 생성된다.
이후, 유사성 평가부(124)는 동사 토큰 집합 내의 어휘들과 각 생물학적 체계 정보의 물리적 현상(PPH) 요소의 동사부(Predicatephysical)(수학식 2 참조)와의 유사도를 계산하여 제1 유사도 계산값을 생성한다. 또한 유사성 평가부(124)는 명사 토큰 집합 내의 어휘들과 각 생물학적 체계 정보의 물리적 현상(PPH) 요소의 명사부(Objectphysical)와의 유사도를 계산하여 제2 유사도 계산값을 생성하고, 이를 제1 유사도 계산값과 곱셈 연산한 값을 각 생물학적 체계 정보 각각의 유사도 평가값으로 기록한다. 만일 이전의 유사도 평가 과정(예를 들어 생물학적 단어 존재 여부에 따른 유사도 평가 등)에서 이미 산출된 유사도 평가값이 존재한다면 합산 처리한다
전술한 예에서 동사 토큰 집합(Wp)은 비어 있는 상태이므로 제1 유사도 계산값은 0으로 산출될 것이다. 그러나 만일 동사 토큰 집합(Wp)이 비어 있지 않은 상태이고, 임의의 생물학적 체계 정보의 물리적 현상(PPH) 요소가 <Adjust> + <Direction+of+Incident+Light>로 색인되었다면, 동사 토큰 집합(Wp)내의 동사 토큰과 물리적 현상 요소의 동사부인 <Adjust>와의 유사도를 계산하게 된다.
앞서 설명한 바와 같이, 인과모형 데이터베이스(122)에 저장된 기능 어휘 사전에 동사 어휘들이 등록되어 있으므로, 동사 토큰 집합(Wp)의 동사 토큰과 Adjust와의 의미적 거리를 계산하여 제1 유사도 계산값을 산출한다.
기능 어휘 사전은 각 어휘들간의 의미적 거리를 계산할 수 있도록 트리(Tree) 데이터 구조로 구성되며, 동사 토큰과 Adjust간에 공통된 가장 가까운 부모 노드를 거쳐 해당 동사 토큰에서 Adjust까지 도달되는 거리(즉, 각 계층적 노드를 연결한 엣지의 수)로서 제1 유사도 계산값이 산출된다. 따라서 가장 가까운 부모 노드가 최상위 노드로부터 멀수록 제1 유사도 계산값은 높게 산출될 것이다. 이러한 트리 데이터 구조는 예를 들어 친척들간에 촌수를 산출할 수 있도록 각 노드간의 연결관계를 가지는 계층 구조와 유사하게 구성될 수 있을 것이다.
또한 마찬가지로 명사 토큰 집합(Wo)이 비어 있지 않은 상태이고, 임의의 생물학적 체계 정보의 물리적 현상(PPH) 요소가 <Adjust> + <Direction+of+Incident+Light>로 색인되었다면, 명사 토큰 집합(Wo)의 명사 토큰과 물리적 현상 요소의 명사부 중 명사인 'Direction' 및 'Light'와의 유사도를 계산하게 된다. 제2 유사도 계산값 역시 제1 유사도 계산값 산출 과정과 마찬가지로 어휘의 의미적 거리에 의해 산출되며, 대상이 되는 명사가 복수(예를 들어 'Direction' 및 'Light')인 경우에는 예를 들어 이들의 평균값, 합산값 또는 최대값이 제2 유사도 계산값으로 산출될 수 있다.
이어서, 유사성 평가부(124)는 검색 쿼리에 상응하는 묶음 데이터셋에 상태 형용사(예를 들어, small, high 등)가 존재하는지 판단하고, 존재하는 경우에는 상태 형용사를 고려한 유사도 평가를 더 수행한다.
즉, <현재상황> 및/또는 <기대결과>의 묶음 데이터셋에서 상태 형용사가 발견되면, 인과모형 데이터베이스(122)에 저장된 각 생물학적 체계 정보의 상태 변화(CoS) 요소의 색인 정보 중 형용사부(Adj)(수학식 1 참조)에서 발견된 빈도의 총 곱을 각 생물학적 체계 정보 각각의 유사도 평가값으로 기록한다. 만일 이전의 유사도 평가 과정에서 이미 산출된 유사도 평가값이 존재한다면 합산 처리한다. 이때, <현재상황>의 묶음 데이터셋의 상태 형용사는 사전상태의 형용사부(Adjpre)와 대비하고, <기대결과>의 묶음 데이터셋의 상태 형용사는 사전상태의 형용사부(Adjpost)와 대비하며, 만일 <현재상태>와 <기대결과>의 묶음 데이터셋 모두에서 상태 형용사가 발견되면 각 빈도의 총 곱을 합산한 값이 유사도 평가값으로 기록된다.
예를 들어, 임의의 생물학적 체계 정보의 상태 변화(CoS) 요소가 <High+Weight> + <Low+Weight>로 이루어져 있는 경우, 사전 상태의 형용사부는 'High'이고, 사후 상태의 형용사부는 'Low'이다. 그리고 <현재상태>의 묶음 데이터셋의 상태 형용사가 'high, small'이고, <기대결과>의 묶음 데이터셋의 상태 형용사가 'Normal'인 것으로 가정하면, <현재상황>의 상태 형용사 중 high는 1회 발견되었지만 small은 0회 발견되어 그 발견 빈도의 곱은 0이고, <기대결과>의 상태 형용사에 대한 발견 빈도는 0회이다. 따라서 유사도 평가값은 0이 된다.
전술한 바와 같이 발견 빈도의 곱 매커니즘을 사용함으로써 모든 요소가 발견된 경우에는 유사도 평가값에 가산점으로 작용될 수 있는 특징이 있다.
또한, 도 4의 (b)에 도시된 바와 같이, 만일 묶음 데이터셋에 생물학적 단어가 존재하는 경우, 유사성 평가부(124)는 1 x n 크기의 부(sub) 유사 매트릭스를 추가적으로 생성한다.
예를 들어 <현재상황>의 묶음 데이터셋이 [blood, alcohol, level, very, high]이고, <기대결과>의 묶음 데이터셋이 [blood, alcohol, level, normal]인 경우, 'blood'라는 토큰이 생물학적 단어 사전에 등록된 생물학적 단어이다. 유사성 평가부(124)는 해당 생물학적 단어와 인과모형 데이터베이스(122)에 저장되어있는 n개의 생물학적 체계 정보들 각각과의 비교를 실시한다. 이때 만일 j번째의 생물학적 체계 정보의 기관(Organ), 조직(Part), 엔티티(Entity) 요소들에 대응되어 색인된 어휘들 중 'blood'라는 생물학적 단어가 2번 검색되었다면, 빈도의 합(sum)은 2가 되고, j번째의 생물학적 체계 정보와 묶음 데이터셋에 포함된 생물학적 단어인 토큰과의 유사도 평가값인 2가 부 유사 매트릭스의 j 번째 요소로 등록된다.
전술한 바와 같이, 유사성 평가부(124)는 검색 쿼리에 상응하는 묶음 데이터셋과 인과모형 데이터베이스(122)에 저장된 각 생물체에 대한 생물학적 체계 정보를 이용하여 유사 매트릭스와 부 유사 매트릭스를 각각 생성한다. 다만 유사 매트릭스는 사용자의 검색 요청 모두에 대해 생성되지만, 부 유사 매트릭스는 생물학적 단어가 묶음 데이터셋 내에 포함된 경우에만 생성된다.
이하, 유사성 평가부(124)가 전술한 과정에 의해 생성한 유사도 평가값을 참조하여 하나 이상의 생물학적 체계 정보를 인과모형 캔버스부(158)로 제공하면, 인과모형 캔버스부(158)가 각 생물학적 체제 정보간의 파생성을 측정하고, 측정된 파생성을 이용하여 네트워크 그래프(도 5 참조)로 도식화하는 과정을 설명한다. 물론, 파생성 측정까지 유사성 평가부(124)에서 수행하고, 파생성 측정 결과 정보를 인과모형 캔버스부(158)가 이용하여 네트워크 그래프를 도식화할 수도 있음은 당연하다.
유사성 평가부(124)는 유사 매트릭스 및/또는 부 유사 매트릭스를 이용하여 묶음 데이터셋과 각 생물체에 대한 생물학적 체계 정보간의 유사성을 평가한 후, 각 생물학적 체계 정보에 대한 유사도 평가값이 임계값 이상인 하나 이상의 생물학적 체계 정보를 인과모형 캔버스부(158)로 제공한다. 여기서, 임계값은 예를 들어 0.75로 지정될 수 있으며, 이는 상위 75%에 해당하는 생물학적 체계 정보를 제공한다는 의미이다.
도 5에는 인과모형 캔버스부(158)가 유사성 평가부(124)로부터 제공받은 하나 이상의 생물학적 체계 정보를 파생성 측정하여 도식화한 네트워크 그래프가 도시되어 있다.
도 5를 참조하면, 그래프 표시 화면은 그래프 영역(510)과 정보 표시 영역(520)으로 분할된다.
그래프 영역(510)에는 유사도 측정값이 높은 것으로 평가된 생물학적 체계 정보에 대한 네트워크 그래프가 표시되는 영역으로, 상단에는 유사도 평가값이 높은 순서별로 사용자가 선택하여 생물학적 체계 정보를 확인할 수 있도록 하는 일련번호(530)가 배치된다. 만일 사용자가 일련번호 1에서 2로 변경 선택한 경우 그래프 영역(510)에는 상대적으로 유사도 평가값이 낮은 그룹2의 생물학적 체제 정보에 대한 네트워크 그래프가 도시되어 표시될 것이다.
그래프 영역(510)에는 각 생물학적 체제 정보의 요소별로 유사한 정보로 색인된 다른 생물학적 체계 정보에 상응하는 썸네일 이미지가 하나 이상 표시된다. 즉, 썸네일 이미지는 그래프 영역(510)으로 표시된 생물학적 체계 정보의 요소들 각각에 대해 유사한 정보를 가진 다른 생물학적 체계 정보에 대한 썸네일 이미지이며, 사용자가 임의의 썸네일 이미지를 선택한 경우 해당 생물체의 생물학적 체계 정보로 이동할 수 있도록 하이퍼링크가 설정되어 있다.
예를 들어, 도 5의 그래프 영역(510)에 표시된 생물학적 체계 정보가 딱정벌레(Cockchafer Beetle)에 대한 것이라면, [MELOLONTHA, Cockchafer Beetle]로 색인된 엔티티(Entity) 요소 옆에 표시된 3개의 썸네일 이미지들은 딱정벌레(Cockchafer Beetle)와 유사한 정보로 엔티티 요소가 색인된 다른 3개의 생물학적 체계 정보를 각각 나타낸다.
정보 표시 영역(520)에는 그래프 영역(510)에 네트워크 그래프로 표시된 생물학적 체계 정보 또는/및 관련된 생물학적 문서가 텍스트 형태로 출력된다.
이하 네트워크 그래프에 썸네일 이미지를 추가하여 도시하기 위해 인과모형 캔버스부(158)가 생물학적 체계 정보의 각 요소에 대한 파생성을 측정하는 방법을 설명하면 다음과 같다.
인과모형 캔버스부(158)는 어느 하나의 생물학적 체계 정보의 요소 각각에 색인된 정보를 이용하여 다른 생물학적 체계 정보와의 파생성을 측정하기 위해 1 x n 크기의 유사 매트릭스를 이용한다.
파생성 측정을 위한 유사 매트릭스는 앞서 도 4의 (a)를 참조하여 설명한 유사 매트릭스와 유사한 형식을 가지지만, 비교 대상이 묶음 데이터셋 대신에 어느 하나의 생물학적 체계 정보의 요소 각각에 색인된 정보이다. 따라서, 비교 대상이 되는 요소의 색인 정보와 동일한 생물학적 체계 정보가 비교되는 경우에는 유사도가 1로 나오게 되며, 따라서 이러한 생물학적 체계 정보는 썸네일 이미지를 표시하기 위한 대상에서는 제외될 필요가 있다.
우선 상태 변화(CoS) 요소에 대해 파생성(즉, 연관성)을 측정하는 방법은 하기 수학식 10과 같다.
Figure 112020069616240-pat00010
즉, 상태 변화 요소는 예를 들어 <Given+Olfactory+Stimulation> + <Peripheral+Sensory+Input>과 같이 <사전상태> + <사후상태>로 색인되어 있으며, 형용사 집합 [given, peripheral], 사전 상태의 명사 집합 [olfactory, stimulation]과 사후 상태의 명사 집합 [sensory, input]으로 재구성한 후 다른 생물학적 체계 정보의 상태 변화 요소의 색인 정보와 비교한다.
형용사 집합의 비교에서 서로 일치하면 1을, 그렇지 않으면 0을 출력하고, 사전 상태와 사후 상태의 명사 집합에 대해서는 앞서 설명한 물리적 현상(PPH)의 비교 방법과 동일하게 에너지 어휘 사전, 신호 어휘 사전 및 물질 어휘 사전에 기반한 의미적 거리 계산 방법으로 계산한 후, 이들 값을 모두 합산하여 유사도 평가값이 산출된다.
그리고 물리적 현상(PPH) 요소에 대해 파생성을 측정하는 방법은 하기 수학식 11과 같다.
Figure 112020069616240-pat00011
물리적 현상 요소는 예를 들어 <Expand> + <Surface> 과 같이 <동사부> + <명사부>로 색인되며, 다른 생물학적 체계 정보의 물리적 현상 요소의 색인 어휘와 비교할 때, 동사부는 기능 어휘 사전에 기반한 의미적 거리 계산 방법으로 계산하고, 명사부는 에너지 어휘 사전, 신호 어휘 사전 및 물질 어휘 사전에 기반한 의미적 거리 계산 방법으로 계산한 각각의 값들을 합산하여 유사도 평가값이 산출된다.
그리고 물리적 효과(PEF) 요소에 대해 파생성을 측정하는 방법은 하기 수학식 12와 같다.
Figure 112020069616240-pat00012
물리적 효과 요소는 예를 들어 <Surface-to-Volume Ratio>와 같이 PEF 색인 어휘 사전에 있는 어휘로 색인되어 있으며, 다른 생물학적 체계 정보의 물리적 효과 요소의 색인 어휘와 비교하여 동일하면 1을, 그렇지 않으면 0을 출력하여 이 값을 유사도 평가값으로 사용한다.
그리고 인풋(Input) 요소에 대해 파생성을 측정하는 방법은 하기 수학식 13과 같다.
Figure 112020069616240-pat00013
인풋 요소는 예를 들어 <Olfactory Signal>와 같이 에너지 어휘 사전, 신호 어휘 사전 또는 물질 어휘 사전에 있는 어휘로 색인되며, 다른 생물학적 체계 정보의 물리적 현상 요소의 색인 어휘와 비교할 때, <Olfactory Signal>과 같이 색인된 정보가 신호 색인 어휘에만 해당되면 물질 색인 어휘와 에너지 색인 어휘에 대한 평가 결과는 0으로 출력하되, 신호 색인 어휘에 대해서는 신호 어휘 사전에 기반한 의미적 거리 계산 방법으로 계산하여 유사도 평가값을 산출한다.
그리고 생태학적 현상(EPH) 요소에 대해 파생성을 측정하는 방법은 하기 수학식 14와 같다.
Figure 112020069616240-pat00014
생태학적 현상 요소는 예를 들어 <Locate> + <Food> 와 같이 <동사부> + <명사부>로 이루어지며, 다른 생물학적 체계 정보의 생태학적 현상 요소의 색인 어휘와 비교할 때, 동사부는 기능 어휘 사전에 기반한 의미적 거리 계산 방법으로 계산하고, 명사부는 에너지 어휘 사전, 신호 어휘 사전 및 물질 어휘 사전에 기반한 의미적 거리 계산 방법으로 계산한 각각의 값들을 합산하여 유사도 평가값이 산출된다.
그리고 생태학적 행동(EBH, Ecological Behavior) 요소에 대해 파생성을 측정하는 방법은 하기 수학식 15와 같다.
Figure 112020069616240-pat00015
생태학적 행동 요소는 <Foraging>과 같이 EBH 어휘 사전에 있는 어휘로 색인되며, 다른 생물학적 체계 정보의 생태학적 행동 요소의 색인 어휘와 비교하여 동일하면 1을, 그렇지 않으면 0을 출력하여 이 값을 유사도 평가값으로 사용한다.
그리고 기관(Organ) 요소와 조직(Part) 요소 각각에 대해 파생성을 측정하는 방법은 하기 수학식 16과 같다.
Figure 112020069616240-pat00016
기관 요소와 조직 요소는 예를 들어 <Fan-like End>, <Antennae> 등과 같이 생물학적 어휘 사전에 있는 어휘로 색인되며, 다른 생물학적 체계 정보의 기관 요소 또는 조직 요소의 색인 어휘와 비교하여 동일하면 1을, 그렇지 않으면 0을 출력하여 이 값을 유사도 평가값으로 사용한다.
그리고 엔티티(Entity) 요소에 대해 파생성을 측정하는 방법은 하기 수학식 17과 같다.
Figure 112020069616240-pat00017
엔티티 요소는 ITIS 고유 ID 번호(즉, 국제규격 ITIS에서 지정한 학명의 숫자코드)를 포함하여 색인되어 있으며, 학명의 고유 ID 번호가 가지는 계층적 트리 데이터 구조에 기반하여 의미적 거리를 계산하는 방식과 동일한 방식으로 다른 생물학적 체계 정보의 엔티티 요소의 고유 ID 번호와의 유사도를 산출한다.
그리고 액션(Action) 요소 에 대해 파생성을 측정하는 방법은 하기 수학식 18과 같다.
Figure 112020069616240-pat00018
액션 요소는 예를 들어 <Maximize Exposure>와 같이 단어들의 조합으로 색인되어 있으며, 다른 생물학적 체계 정보의 액션 요소의 색인 어휘와 비교하여 동일하면 1을, 그렇지 않으면 0을 출력하여 이 값을 유사도 평가값으로 사용한다.
전술한 방식으로 그래프 영역(510)에 네트워크 그래프가 도시된 생물학적 체계 정보의 요소 각각에 대한 파생성(즉, 연관성)이 다른 생물학적 체계 정보의 대응하는 요소들을 대상으로 산출될 수 있으며, 각각의 요소에 대해 파생성이 높은 미리 지정된 수량의 다른 생물학적 체계 정보에 대한 썸네일 이미지가 네트워크 그래프를 구성하는 생물학적 체계 정보의 각 요소에 대응하여 표시될 수 있다.
전술한 바와 같이, 본 실시예에 따른 생물학적 체계 정보 검색 시스템은 생체모방설계에서 모방 및 활용의 대상이 되는 자연계의 생물학적 체계, 즉 물리적 관계, 생태학적 관계와 생물학적 관계를 포함하는 생물학적 체계 정보를 종합적 인과 모형으로 구현하고, 온톨로지로 구축함으로써, 생체 모방 설계에서 설계자들이 다양한 정보와 조건을 이용한 효과적인 검색을 실시할 수 있게 하고, 이를 통해 설계자들의 창의적 설계를 도모할 수 있도록 하는 특징이 있다.
본 발명의 다른 실시예에 따르면, 생물 종 동정을 활용한 생물학적 정보 추론 장치 및 방법이 제공될 수 있다. 생물학적 정보 추론 장치 및 방법은 생물학 분야의 생물 종 동정 키를 활용하여 각 생물체들이 가지고 있는 외형적 혹은 생태적 특징들을 정확하게 포착할 수 있게 도울 수 있다.
도 6은 본 발명의 다른 실시예에 따른 생물 종 동정을 활용한 생물학적 정보 추론 장치의 블록도이고, 도 7은 본 발명의 다른 실시예에 따른 생물 종 동정을 활용한 생물학적 정보 추론 방법의 순서도이며, 도 8은 연질나무들의 생물 종을 나타낸 분류도이고, 도 9는 DAG 그래프의 예시도이다.
생물 종 동정(identification)이란, 생물체가 어떤 분류군에 해당하는지 그 학명과 통속명을 밝히는 행위를 말한다. 즉, 수집한 미지의 생물체 1개가 어떤 생물체인지 명확히 밝히는 행위를 말한다. 발견한 화석이나 수집한 꽃가루를 특정하는 작업도 동정(identification)이라고 부른다.
학술적 측면에서, 현재 생물학 분야에서 생물 종 동정 키는 자연에서 관찰한 생물체들의 학명('종' 및 '속' 이름)을 정확히 판별해내어 발견한 생물이 어떤 생물인지를 객관적으로(과학적으로) 명쾌히 하는데 사용되고 있다.
산업적 측면에서는, 자연유래물질을 혼동없이 정확히 사용하기 위해 활용한다. 건강상 문제와 직결되는 식품산업 및 제약산업에서 매우 중요하게 다루어지는 이슈이다. 자연유래물질을 사용하는 식품산업 및 제약산업 등에서 잘못된 생물체 활용은 자칫 위험원을 제공할 수 있기 때문이다. 예를 들어, 겉보기가 유사하여 자칫 혼동할 수 있는 생물체를 잘못 사용하지 않도록 하는데 생물 종 동정을 사용한다.
그 외에도, 생물 종 동정은 기타 학술적 혹은 산업적 목적에서, 다른 학술 혹은 산업 분야에서도 모방된 형태로 활용되고 있다. 질병을 특정하거나, 토양의 종류를 특정하거나, 광석의 종류를 특정하거나, 고고학적 유물이나 인류학적 유물들의 연대를 특정하는데 생물체 동정과 유사한 동정이 활용되고 있다.
여기서, 생물 종 동정 키(identification key)란, 생물 종 동정을 하는데 사용되는 여러 질문들의 집합이다. 일반적으로 이러한 생물 종 동정 키는 계층 구조를 가진 여러 질문들의 집합이다.
이때, 동정을 하는데 사용되는 질문들을 '동정 키'라고 부른다. 동정 키에 대해 답하다 보면, 생물체를 특정할 수 있게 된다. 예를 들어, 발견한 새우가 어떤 종의 새우인지 특정하고 싶다면, 새우류에 대한 생물 종 동정 키 집합을 가지고 '동정 키'에 답해 나가면 된다(새우류에 대한 생물 종 동정 키는 148개이다).
동정 키는 일반적으로 트리 구조의 단계별 질문들의 형태로 구성되어 사용되는 것이 일반적이었다. 그러나 최근에는 유전학 및 분자생물학의 발전으로, 보다 정확한 생물 종 동정이 가능해졌으며, 따라서 생물 종 동정 키도 보다 복잡해졌다.
최근에는 일반적인 트리 구조를 벗어나, 방향성을 가진 DAG(Directed Acyclic Graph) 형태를 가지도록 동정 키 집합도 변형되는 추세에 있다. DAG 그래프는 방향성은 가지고 있으나, 그래프 내에 순환구조는 가지지 않는 그래프를 말한다.
도 9에 도시된 것과 같이 6번, 5번, 7번 노드(node)들이 방향성을 가지고 서로 연결되어 있으나, 순환하는 연결(예를 들어, 6 -> 5 -> 7 -> 6)이 한 개도 존재하지 않는 그래프를 말한다. 따라서, 비록 구조는 예전 트리 구조의 의사 결정 그래프보다 복잡해졌으나, 종국에는 어떤 특정 생물체를 1개 특정할 수 있게끔 비순환 구조를 가지고 있다(트리 구조 의사 결정 그래프는 DAG 그래프의 일종이다).
따라서, 일련의 질문(동정 키)들에 답하다 보면, 마침내 생물의 종류를 특정할 수 있게 되고(마치 스무고개처럼 질문의 대답에 따라, 가능한 생물의 종류가 좁혀지게 되므로), 이는 연구자들로 하여금 관찰한 생물의 학명을 특정하게 만드는 과학적인 근거가 된다. 따라서 본 질문(생물 종 동정 키)들은 특정 생물체의 정체를 명확하게 정의하는데 필요한 필수 요소들을 담고 있는 것이라고 할 수 있다. 따라서 생물학계의 동의를 받아 표준화된 생물 종 동정 키들이 학계에서 활용되고 있다.
예를 들어, 자연에서 관찰한 '개미'의 정확한 학명을 분석하기 위한 상황을 가정해보면, 연구자들은 다음과 같은 동정 키 질문들에 답해야 한다. 개미의 머리 모양, 특정 신체 부위에의 털의 유무, 신체 특정 부위의 색깔, 촉각 마디가 12개 이상인가 미만인가 등을 묻는 질문들에 답하다 보면, 결국 '개미'의 종류를 특정할 수 있게 된다.
이러한 생물 종 동정 키는 "국립생물자원관"에서 정의한 것처럼
(https://species.nibr.go.kr/UPLOAD_TOTL//CMS/342/content.htm;jsessionid=Vu01qAw1jaaR12HSYMz11XLd4yQtJhvm42WqfNRia0nH2PfmyQYPWQ9PqDDZwwla.totl_was_servlet_engine1),
(1) 생물자원의 품질보증(한약재 등과 같은 생물 유래 물질들의 유사 생물 종 오용 방지), (2) 생물자원 활용(개발예정지 등의 생태 조사에서 착오 없이 생태 조사를 하기 위한 목적), (3) 자생생물과 생태계파괴종의 확실한 구별을 위한 활용 목적에서 활용되고 있다. 생태 조사에서는 특정 구획에 어떤 생물들이 자생하고 있는지 파악해내는 방법으로 해당 권역에서 살고 있는 생물 종들의 개체수를 파악해내기 때문에, 정확한 학명 파악이 매우 중요하다. 특히 미국의 IntKey(생물 종 동정 시스템)를 개발한 Delta Project에서도 생물 종 자원의 효과적인 분류를 위한 목적에서 개발되었음을 명시하고 있다(https://www.delta-intkey.com/www/overview.htm). 따라서 생물 종 동정 키는 이렇듯 생물 종 자원의 효율적 관리를 위한 목적에서만 활용되고 있다.
그러나 생물 종 동정 키는 A라는 생물 종과 B라는 생물 종을 차별화할 수 있는 명쾌한 근거 요소들을 담고 있기 때문에, 개개의 생물 종이 가진 독자적인 특징 요소를 거꾸로 유추하는데 매우 효율적으로 활용될 수 있다. 예를 들어 아까 '개미'의 종을 명확히 분류해내기 위한 예제를 통해 되짚어보면 다음과 같은 시나리오가 가능하다. '촉각 마디가 12개 이상'인 개미 중 1종이 특수한 위치 추적 능력 및 개체 추적 능력을 갖고 있는 것으로 누군가에 의해 연구 판명되었다면, 그와 유사하게 '촉각 마디가 12개 이상'인 다른 개미 종들 역시 유사한 능력을 갖고 있을 것으로 추론할 수 있다.
혹은 가문비(Spruce) 나무의 자가 치료 기술이 주목받고 있는데, 연질나무들의 생물 종 동정에서는 "수지도(Resin canal)"의 유무로 종을 구분하고 있다 (도 8 참조).
여기에서 추론할 수 있는 점은, Group 1, 2가 모두 자가 치료 기술을 갖고 있는 생물학적 시스템이라는 사실이다. (가문비 나무는 Group 2에 속해있다) 왜냐하면 자가 치료 기술의 핵심적인 역할을 담당하는 것이 Resin인데 바로 이 Resin을 내뿜는 '수지도'를 갖춘 비슷한 생물 종들은 모두 자가 치료 기술을 갖추고 있을 것으로 추론 가능하기 때문이다.
즉, 기존의 다른 생물학적 시스템의 정보들과 본 생물 종 동정 키의 정보가 결합되었을 때, 컴퓨터 시스템은 우리가 미처 알아차리지 못한 연관관계에 의해 새로운 사실을 추론해낼 수 있다.
그러나 현재의 생물 종 동정 키 활용 방법과, 현재의 생물학적 시스템 정보 체계 시스템에서는 생물 종 동정 키의 과학적인 활용 방법이 제안되지 못하였으며, 또한 알고리즘 및 정보교환장치로 제안 혹은 개발된 적이 없다.
본 발명의 생물 종 동정을 활용한 생물학적 정보 추론 장치(600)는 DAG 그래프들로 이루어진 생물 종 동정 키를 수집하는 동정 키 수집부(610), 수집된 생물 종 동정 키의 질문 셋을 계층적으로 관리하는 동정 키 데이터베이스(620), 동정 키의 질문 셋과 생물학적 시스템 정보 체계로부터 생물학적 시스템의 특징을 추론해내는 추론 시스템(640), 사용자의 질문에 따라 생물 종(=생물학적 시스템)을 추천하는 생물학적 시스템 추천 시스템(630), 및 사용자와 저장소 및 시스템들의 상호작용을 돕는 사용자 단말(650)로 구성되어 있다(도 6 참조).
동정 키 수집부(610)는 DAG 그래프들로 이루어진 생물 종 동정 키를 수집한다.
아직 생물 종 동정 키는 국제적으로 일원화되어 있지 못하다. 즉, 국제 인증으로 일원화되어 있는 산업 표준들과는 다르게, 각 생물군 별로 학계에서 널리 통용되고 있는 동정 키 집합을 표준으로 여겨 통상적으로 사용하고 있는 처지이다. 아직 전체 생물 종에 대한 동정 키 저장소(repository)나 데이터베이스(database)도 완성되지 못했다.
또한, 동정 키 집합의 스케일이 각 생물군 별로 일원화되어 있지 않다. 따라서 각기 다를 수 밖에 없다. 어떤 종류의 동정 키 집합은 전체 '목(order)'에 대한 것이고, 또 어떤 종류의 동정 키 집합은 특정 '속(Genus)'에 대한 것으로 한정되어 있기도 하다.
예를 들어,'새우류'에 대한 동정은 Decapoda '목(order)' 아래의 Dendrobranchiata '아목(suborder)'에 대한 동정 키 집합을 사용하면 된다. Dendrobranchiata 1개 '아목(suborder)'에 해당하는 모든 생물 종(새우류 생물) 동정을 위한 동정 키를 제공한다.
반면에, 식물종 동정의 경우, 1개 목에 대한 동정 키가 아닌 여러 목들에 대한 동정 키 집합이 사용된다. 도 8에 도시된 '연질목(softwood)' 생물 종 동정의 그림처럼, 겉씨식물(연질목(softwood))을 위한 생물 종 동정 키 집합은, '겉씨식물 그룹'이라고 여겨지는 여러 개의 식물 목(order)들에 대한 포괄적인 동정 키를 제공하고 있다.
각 생물 그룹에 따라, 분류에 용이한 스케일의 동정 키 집합이 각기 사용되고 있다. '새우류'에 해당하는 생물의 경우 식물과는 다르게, 눈으로도 쉽게 특징을 포착하여, '새우류'로 분류를 특정할 수 있기 때문에 식물의 경우보다 조금 더 한정적인 동정 키 집합을 사용할 수 있다. 구체적으로 설명하면, '새우류'의 경우 '집게류' 및 '게류'와 Decapoda 목(order)에서 계통분류학적으로 분파된다. 새우는 그 외형적인 특징이 '집게류' 및 '게류' 생물들과는 확연히 구분될 수 있기 때문에, 굳이 Decapoda 목(order) 그룹 전체에 대한 동정 키로 구성되지 않고, '새우류'라는 한단계 더 세부적인 아목(suborder) 그룹에 대한 한정적인 동정 키로 구성된 것이다.
각 동정 키 집합은 앞서 설명한 것과 같이 여러 질문들의 집합으로 구성되어 있다. DAG 구조로 이루어져 있으며, 최상단 질문을 시작으로, 답변에 따라 방향성을 가지고 다음 질문으로 넘어가게 되며, 연쇄적인 질문들을 답하다 보면 최종적으로 특정 생물 종 1개를 특정할 수 있게 된다.
그러나 동정 키 집합이 아직 국제적으로 표준화되지 못하여 상당수는 아직 데이터베이스화 되어 있지 못하고, 일부만 데이터베이스로 제공되고 있다. 아직도 대부분의 생물체들에 대한 동정은 각 연구분야에서 전승되고 있는 인쇄물 형태의 동정 키 집합이 사용되고 있는 처지에 있다.
이와 같은 까닭에, 대부분의 생물 종 동정 시스템(컴퓨터 시스템)의 경우, 사용자로 하여금 각기 사용하는 동정 키를 직접 입력하여 온라인에 저장한 뒤 사용하도록 시스템을 제공하고 있을 뿐, 전체 생물 종에 대한 동정 키는 제공하지 못하는 한계를 갖는다.
따라서, 생물 종 동정 키들을 수집하여 데이터베이스화하는 방법 및 시스템부터 구체화될 필요가 있다.
생물 종 동정 키 수집부(610)는 문서(인쇄된 문서 포함)로 존재하는 동정 키 집합을 데이터베이스에 저장할 수 있다. 이는 사용자 인터페이스를 가진 사용자 단말(650)을 통해 구현될 수 있다.
기본적으로 생물 종 동정 키 집합의 구성요소는 다음과 같다.
(1) Yes 혹은 No로 대답할 수 있는 '논리적 질문'인 "논리 노드"와,
(2) 질문(논리 노드)들의 연쇄적인 "논리 연결(Yes 혹은 No 연결)"과,
(3) 1개의 "시작 지점"(최상위의 1개 질문(논리 노드))와,
(4) 여러 개의 "종료 지점"(논리적 질문들의 연쇄적 답변을 통해 특정되는 생물 종).
생물 종 동정 키 집합을 구성하는데 있어 다음과 같은 조건을 만족할 필요가 있다.
(a) 1개 "논리 노드"로부터 Yes 혹은 No "논리 연결"이 각각 1개씩만 파생될 수 있다
(b) "논리 노드"는 여러 개의 "논리 연결"로부터 연결을 받을 수 있다
(c) "논리 연결"의 연쇄적인 연결은 순환 연결일 수 없다(DAG 그래프여야 한다)
(d) 1개 "종료 지점"에는 1개의 생물 종만 할당될 수 있다
(e) "시작 지점"은 1개의 "논리 노드"이다
"종료 지점"에 해당하는 1개 생물체가 가진 특질은 해당 종료 지점부터 시작 지점 사이의 "논리 노드" 및 "논리 연결"로부터 추론될 수 있으므로, 위의 4가지 요소((1)~(4))가 필수적으로 갖춰질 필요가 있다.
또한, 본 시스템의 목적은 생물 종 동정에 있는 것이 아니라, 생물 종 동정 키 정보로부터 생물체 특징을 추론해 내는데 있으므로, 비록 (2) "논리 연결"이 방향성을 가진 논리적 연결이 아닌 방향성 없는 연결선으로만 (부족하게) 구성되어 있다고 하더라도 "시작 지점"과 "종료 지점" 사이의 "논리 노드" 텍스트들의 집합을 가지고도 '특질' 정보의 대략적인 내용은 기계학습 등의 기법으로 추론해 낼 수 있다.
동정 키 데이터베이스(620)는 수집된 생물 종 동정 키의 질문 셋을 계층적으로 관리한다.
기본적으로 데이터베이스는 아래 두 가지 종류의 테이블 및 컬럼을 갖춤으로써 4개의 필수적인 구성요소들을 만족할 수 있다.
[테이블 1]에 해당하는 논리 노드 테이블(622)은 "논리 노드" 고유 번호(컬럼 1), "논리 노드" 텍스트(컬럼 2), 관련 이미지(컬럼 3)을 포함한다.
[테이블 2]에 해당하는 논리 연결 테이블(624)은 해당 생물 종 고유 번호(컬럼 1), 논리 노드 번호들의 "논리 연결" 그래프(컬럼 2)를 포함한다.
관련 이미지는, 각 '논리 노드' 질문에 참고할 수 있는 이미지가 있는 경우에 한하여 데이터베이스에 할당한다.
생물 종 고유 번호는, 생물 계통분류에 있어서 가장 많은 생물 종에 대한 표준화된 정보를 제공하는 미국 ITIS(Integrated Taxonomic Information System)을 사용할 수 있다. 그 외에도 여러 계통분류 정보화 시스템을 사용하여 동정 키 데이터베이스를 구성할 수 있다.
본 데이터베이스를 활용하여 생물 특질 추론 이외의 '생물 종 동정' 혹은 다른 기능을 추가적으로 수행하고자 한다면, 전술한 형태 외의 다양한 형태로 데이터베이스를 구성할 수도 있다.
예를 들어, 생물 종 고유 번호는 생물체의 학명 및 통속명(일반명)과 연결될 수도 있으며, 그 외에도 생물체의 이미지나 생물체의 서식지 및 관련 논문자료 등의 데이터베이스와 관계를 맺을 수도 있다.
추론 시스템(640)은 동정 키의 질문 셋과 생물학적 시스템 정보 체계로부터 생물학적 시스템의 특징을 추론해낸다. 생물학적 시스템 추천 시스템(630)은 사용자의 질문에 따라 생물 종(=생물학적 시스템)을 추천한다.
동정 키 데이터베이스(620)에 기재된 정보 중, 필수적으로 [테이블 1](컬럼 2) "논리 노드" 텍스트, [테이블 2](컬럼 1) 생물 종 고유 번호와 [테이블 2](컬럼 2) "논리 연결" 그래프 정보를 가지고 기본적으로 생물체 특질 정보를 추론할 수 있다. 이 3가지 종류의 데이터 리소스는 추론을 위한 가장 작은 갯수의 집합이다.
물론 추가적인 데이터베이스들과의 연동을 통해서 더욱 정밀한 추론을 수행할 수도 있다.
전술한 데이터 리소스에서, "논리 연결"로 연결된 "논리 노드" 텍스트는 논리 노드의 질의 결과 모두 Yes인 대답들을 모은 집합이다. 따라서, 해당 논리 노드 텍스트에 등장한 모든 단어는 해당 생물체의 특질을 간접적으로 설명하고 있다.
자연어 처리 기법을 사용하여 질의문의 문장 구조를 분석할 수 있으며, 전술한 생물학적 체계 정보 검색 시스템에 적용된 생물학적 정보 추론 기법을 활용하여 생물체 특질 정보를 추론해 낼 수 있다.
생물학적 시스템 추천 시스템(630)은 전술한 생물학적 정보 추론 기법을 활용하여 생물체 특질 정보를 추천할 수 있다.
추천 시스템(630) 및/또는 추론 시스템(640)의 작동은 도 7에 도시된 시나리오를 토대로 이루어질 수 있다. 해당 시나리오는 쿼리가 입력됨과 동시에 추론과 추천을 수행하는 예제이다.
이와 별개로, 추론과 추천을 미리 수행해두고 결과값을 미리 기타 저장소나 데이터베이스에 저장해 놓은 뒤 쿼리가 입력될 때마다 미리 계산된 값을 불러오는 방식으로 시스템을 운용할 수도 있다.
도 7을 참조하면, 본 실시예에 따른 생물학적 정보 추론 장치에서 수행되는 생물학적 정보 추론 방법은 다음과 같은 단계를 수행할 수 있다.
사용자는 설계 문제를 시스템에 질의할 수 있다(700).
예를 들어 "자율적으로 객체 및 장애물을 탐지하는 방법" 이라고 질문을 던질 수 있다.
이것은 전술한 생물학적 체계 정보 검색 시스템에서 수행하는 검색 방법과 동일하다.
사용자 단말은 해당 질문을 받아 추천 시스템(630)으로 전달한다(705).
추천 시스템(630)이 생물 종(=생물학적 시스템)을 추천하는 방법은 역시 전술한 생물학적 체계 정보 검색 시스템에서 수행하는 추천 방법과 동일하다.
관련된 생물학적 체계 정보가 존재한다면(710), 추론 시스템(640)을 구동하여(715), 생물 종 동정 키 데이터베이스(620)에서 유사 동정 키를 탐색한다(720).
유사 동정 키가 존재하는지 판단하고(725), 유사 동정 키가 존재하는 경우 생물학적 체계 정보 데이터베이스(660)에 연계한다. 그리고 연관 생물학적 시스템을 추천한다(735).
이 때 생물학적 체계 정보 인과모형에 저장된 정보들을 활용하는데, 생물학적 관계의 "Part" 및 "Organ"이 생물 종 동정 키 정보들과 연결관계를 추가로 가지게 된다. 또한 생태적 관계의 "Ecological Behavior"가 생물 종 동정 키 정보들과 연결관계를 추가로 가지게 된다.
따라서 일 실시예에 따른 생물학적 체계 정보 검색 시스템에서는 단순히 인과모형에 색인되어있는 정보들만을 가지고 추천 행위를 진행하였다면, 본 실시예에서는 동정 키 데이터베이스(620)의 정보들과 위의 3요소 "Part", "Organ", "Ecological Behavior"가 연결 관계를 갖게 되어, 기존에 찾아낼 수 없었던 생물체들까지 찾아낼 수 있도록 한다는데 차별성이 있다.
추후에 3요소 이외에 추가로 동정 키 정보들과 매핑되는 관계가 발생할 시에는 3요소 외의 다른 요소들도 동정 키 정보들과 연결 관계를 맺게 될 수도 있다(720).
동정 키 데이터베이스는 동정 키들의 계층적인 관계를 포함하고 있다.
다시 도 6을 참조하면, 사용자 단말(650)은 사용자와 저장소 및 시스템들의 상호작용을 돕는다.
사용자 단말(650)은 온라인 웹 사이트 형태로 구현된 시스템에 접속할 수 있는 컴퓨팅 장치로서, 예를 들어 PC, 노트북, 태블릿PC, 스마트폰 등일 수 있다.
사용자 단말(650)은 '질의어'를 입력하여 사용자가 추천 기능을 구동할 수 있다. 그리고 사용자는 사용자 단말(650)을 통해 생물 종 동정 키를 편집할 수도 있다.
상기에서는 본 발명의 실시예를 참조하여 설명하였지만, 해당 기술 분야에서 통상의 지식을 가진 자라면 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
110 : 정보 관리 장치 112 : 문서 수집부
114 : 수집 데이터베이스 116 : 어휘 사전 데이터베이스
118 : 문서 구문 분석부 120 : 색인 처리부
122 : 인과모형 데이터베이스 124 : 유사성 평가부
150 : 정보 활용 장치 152 : 쿼리 입력부
154 : 쿼리 구문 분석부 156 : 검색 요청부
158 : 인과모형 캔버스부
600: 생물학적 정보 추론 장치 610: 동정 키 수집부
620: 생물 종 동종 키 데이터베이스 630: 추천 시스템
640: 추론 시스템 650: 사용자 단말
660: 생물학적 체계 정보 데이터베이스

Claims (13)

  1. 생물 종 동정을 활용한 생물학적 정보 추론 장치로서,
    생물 종 동정 키 집합을 수집하는 동정 키 수집부;
    수집된 상기 생물 종 동정 키 집합의 질문 셋을 계층적으로 관리하는 동정 키 데이터베이스;
    사용자 단말을 통한 사용자의 질문에 따라 생물학적 시스템을 추천하는 추천 시스템; 및
    사전 구축된 생물학적 시스템 정보 체계의 인과모형과, 상기 추천 시스템에 의해 추천된 상기 생물학적 시스템에 대응되는 생물 종에 관한 상기 생물 종 동정 키 집합의 질문 셋으로부터 상기 생물학적 시스템의 특징을 추론해내는 추론 시스템을 포함하되,
    상기 추론 시스템은 상기 인과모형에 상응하는 생물학적 관계의 조직(part) 및 기관(organ)이 상기 생물 종 동정 키 집합의 질문 셋과 연결관계를 추가적으로 가지게 하고, 상기 인과모형에 상응하는 생태적 관계의 생태학적 행동(ecological behavior)이 상기 생물 종 동정 키 집합의 질문 셋과 연결관계를 추가적으로 가지게 하는 것을 특징으로 하는 생물 종 동정을 활용한 생물학적 정보 추론 장치.
  2. 제1항에 있어서,
    상기 생물 종 동정 키 집합은 의사 결정형 그래프로 이루어진 것을 특징으로 하는 생물 종 동정을 활용한 생물학적 정보 추론 장치.
  3. 제1항에 있어서,
    상기 생물 종 동정 키 집합은, Yes 혹은 No로 대답할 수 있는 논리적 질문인 논리 노드와; 상기 논리적 질문의 연쇄적인 논리 연결을 포함하고,
    상기 생물 종 동정 키 집합은 상기 논리 노드인 1개의 시작 지점과, 복수 개의 종료 지점을 가지는 것을 특징으로 하는 생물 종 동정을 활용한 생물학적 정보 추론 장치.
  4. 제3항에 있어서,
    상기 생물 종 동정 키 집합은 1개의 논리 노드로부터 Yes 혹은 No에 해당하는 논리 연결이 각각 1개씩만 파생되고, 논리 노드는 복수 개의 논리 연결로부터 연결을 받을 수 있으며, 논리 연결의 연쇄적인 연결은 비순환 연결이고, 1개의 종료 지점에는 1개의 생물 종만 할당되는 것을 특징으로 하는 생물 종 동정을 활용한 생물학적 정보 추론 장치.
  5. 제3항에 있어서,
    상기 동정 키 데이터베이스는 논리 노드 고유 번호, 논리 노드 텍스트를 포함하는 논리 노드 테이블과; 생물 종 고유 번호, 논리 노드 번호들의 논리 연결 그래프를 포함하는 논리 연결 테이블을 포함하는 것을 특징으로 하는 생물 종 동정을 활용한 생물학적 정보 추론 장치.
  6. 제5항에 있어서,
    상기 추론 시스템은 상기 논리 노드 테이블의 논리 노드 텍스트, 상기 논리 연결 테이블의 생물 종 고유 번호 및 논리 연결 그래프를 이용하여 생물체 특질 정보를 추론하는 것을 특징으로 하는 생물 종 동정을 활용한 생물학적 정보 추론 장치.
  7. 생물 종 동정을 활용한 생물학적 정보 추론 장치에서 수행하는 생물학적 정보 추론 방법으로서,
    사용자 단말을 통한 사용자 질문을 추천 시스템으로 전달하는 단계;
    상기 추천 시스템이 상기 사용자 질문을 분석하는 단계;
    상기 분석 결과 관련된 생물학적 체계 정보가 존재하는 경우, 추론 시스템을 구동하는 단계;
    상기 추론 시스템에서 상기 생물학적 체계 정보에 기초하여 동정 키 데이터베이스로부터 유사 동정 키를 탐색하는 단계;
    상기 유사 동정 키가 존재하는 경우, 생물학적 체계 정보 데이터베이스에 연계하고 연관 생물학적 시스템을 추천하는 단계를 포함하되,
    상기 동정 키 데이터베이스에서는 생물 종 동정 키 집합의 질문 셋이 계층적으로 관리되며,
    상기 생물학적 체계 정보 데이터베이스에 연계하는 경우, 상기 생물 종 동정 키 집합의 질문 셋과 상기 생물학적 체계 정보 데이터베이스의 생물학적 체계 정보 인과모형에 따른 생물학적 관계의 조직(part) 및 기관(organ)이 상기 생물 종 동정 키 집합의 질문 셋과 연결관계를 추가적으로 가지고, 생태적 관계의 생태학적 행동(ecological behavior)이 상기 생물 종 동정 키 집합의 질문 셋과 연결관계를 추가적으로 가지게 되는 것을 특징으로 하는 생물 종 동정을 활용한 생물학적 정보 추론 방법.
  8. 삭제
  9. 제7항에 있어서,
    상기 생물 종 동정 키 집합은 의사 결정형 그래프로 이루어진 것을 특징으로 하는 생물 종 동정을 활용한 생물학적 정보 추론 방법.
  10. 제9항에 있어서,
    상기 생물 종 동정 키 집합은, Yes 혹은 No로 대답할 수 있는 논리적 질문인 논리 노드와; 상기 논리적 질문의 연쇄적인 논리 연결을 포함하고,
    상기 생물 종 동정 키 집합은 상기 논리 노드인 1개의 시작 지점과, 복수 개의 종료 지점을 가지는 것을 특징으로 하는 생물 종 동정을 활용한 생물학적 정보 추론 방법.
  11. 제10항에 있어서,
    상기 생물 종 동정 키 집합은 1개의 논리 노드로부터 Yes 혹은 No에 해당하는 논리 연결이 각각 1개씩만 파생되고, 논리 노드는 복수 개의 논리 연결로부터 연결을 받을 수 있으며, 논리 연결의 연쇄적인 연결은 비순환 연결이고, 1개의 종료 지점에는 1개의 생물 종만 할당되는 것을 특징으로 하는 생물 종 동정을 활용한 생물학적 정보 추론 방법.
  12. 제11항에 있어서,
    상기 동정 키 데이터베이스는 논리 노드 고유 번호, 논리 노드 텍스트를 포함하는 논리 노드 테이블과; 생물 종 고유 번호, 논리 노드 번호들의 논리 연결 그래프를 포함하는 논리 연결 테이블을 포함하는 것을 특징으로 하는 생물 종 동정을 활용한 생물학적 정보 추론 방법.
  13. 제12항에 있어서,
    상기 추천 단계에서는, 상기 논리 노드 테이블의 논리 노드 텍스트, 상기 논리 연결 테이블의 생물 종 고유 번호 및 논리 연결 그래프를 이용하여 생물체 특질 정보를 추론하는 것을 특징으로 하는 생물 종 동정을 활용한 생물학적 정보 추론 방법.
KR1020200082524A 2019-07-05 2020-07-06 생물 종 동정을 활용한 생물학적 정보 추론 장치 및 방법 KR102448275B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/KR2020/008776 WO2021006573A1 (ko) 2019-07-05 2020-07-06 생물 종 동정을 활용한 생물학적 정보 추론 장치 및 방법
US17/625,067 US20220293220A1 (en) 2019-07-05 2020-07-06 Biological information inference apparatus and method utilizing biological species identification

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020190081144 2019-07-05
KR20190081144 2019-07-05

Publications (2)

Publication Number Publication Date
KR20210004886A KR20210004886A (ko) 2021-01-13
KR102448275B1 true KR102448275B1 (ko) 2022-09-28

Family

ID=74142682

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200082524A KR102448275B1 (ko) 2019-07-05 2020-07-06 생물 종 동정을 활용한 생물학적 정보 추론 장치 및 방법

Country Status (1)

Country Link
KR (1) KR102448275B1 (ko)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100478792B1 (ko) 2001-08-29 2005-03-24 주식회사 씨티앤디 2차원 젤 이미지를 이용한 유사 단백질 검색 장치 및 방법
KR100575495B1 (ko) 2003-12-17 2006-05-03 엄재홍 생물학 관련 텍스트에서 생물학개체들간의 상호작용 추출및 추론 방법, 그 방법을 실행하기 위한 프로그램 및 그프로그램을 저장한 기록매체

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101816695B1 (ko) 2014-04-29 2018-01-12 광주과학기술원 유전자와 질병간의 관계를 포함하는 문장 검색 엔진
KR101881398B1 (ko) * 2016-04-07 2018-07-24 한국과학기술원 생물학적 시스템 정보 처리 장치 및 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100478792B1 (ko) 2001-08-29 2005-03-24 주식회사 씨티앤디 2차원 젤 이미지를 이용한 유사 단백질 검색 장치 및 방법
KR100575495B1 (ko) 2003-12-17 2006-05-03 엄재홍 생물학 관련 텍스트에서 생물학개체들간의 상호작용 추출및 추론 방법, 그 방법을 실행하기 위한 프로그램 및 그프로그램을 저장한 기록매체

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
S.-J. Kim & J.-H. Lee, "A study on metadata structure and recommenders of biological systems to support bio-inspired design", Engineering Applications of Artifical Intelligence, 57:16-37.(2016.10.24.)*
V. T. Chakaravarthy 외. "Decision Trees for Entity Identification: Approximation Algorithms and Hardness Results", ACM Transactions on Algorithms, 7(2):15.(2011.03.31.)*

Also Published As

Publication number Publication date
KR20210004886A (ko) 2021-01-13

Similar Documents

Publication Publication Date Title
CN112487202B (zh) 融合知识图谱与bert的中文医学命名实体识别方法、装置
CN112148851A (zh) 一种基于知识图谱的医药知识问答系统的构建方法
Löffler et al. Dataset search in biodiversity research: Do metadata in data repositories reflect scholarly information needs?
Medelyan et al. Automatic construction of lexicons, taxonomies, ontologies, and other knowledge structures
Khelif et al. An Ontology-based Approach to Support Text Mining and Information Retrieval in the Biological Domain.
US11762925B2 (en) Biological system information retrieval system and method thereof
Safee et al. Hybrid search approach for retrieving Medical and Health Science knowledge from Quran
Baazaoui Zghal et al. A system for information retrieval in a medical digital library based on modular ontologies and query reformulation
EP4016324A1 (en) Ideation platform device and method using diagram
KR101881398B1 (ko) 생물학적 시스템 정보 처리 장치 및 방법
KR102448275B1 (ko) 생물 종 동정을 활용한 생물학적 정보 추론 장치 및 방법
KR102363131B1 (ko) 도식화된 질의 구성 방식을 이용한 전문가시스템에서의 다차원 지식 검색 방법 및 시스템
KR102198780B1 (ko) 상호연관성 기반 전문분야에 특화된 인터넷 검색 서비스 제공 방법
Carstens Ontology Based Query Expansion-Retrieval Support for the Domain of Educational Research
Tran et al. A comparative study of question answering over knowledge bases
US20220293220A1 (en) Biological information inference apparatus and method utilizing biological species identification
Reyes-Magana et al. Automatic word association norms (AWAN)
Kang et al. Methodology for refining subject terms and supporting subject indexing with taxonomy: a case study of the APO digital repository
Lauser Semi-automatic ontology engineering and ontology supported document indexing in a multilingual environment
US20230070715A1 (en) Text processing method and apparatus
Tandon Commonsense knowledge acquisition and applications
Acharya A Systematic Approach for Automatically Answering General-Purpose Objective and Subjective Questions
Kaur et al. Techniques of Ontology and its Usage in Indian Languages-A Review
Milajevs A study of model parameters for scaling up word to sentence similarity tasks in distributional semantics
Serpush et al. QEA: a new systematic and comprehensive classification of query expansion approaches

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right