KR20090114778A - 대용량 데이터베이스의 의미기반 기술용어 발굴 장치 - Google Patents

대용량 데이터베이스의 의미기반 기술용어 발굴 장치 Download PDF

Info

Publication number
KR20090114778A
KR20090114778A KR1020080040595A KR20080040595A KR20090114778A KR 20090114778 A KR20090114778 A KR 20090114778A KR 1020080040595 A KR1020080040595 A KR 1020080040595A KR 20080040595 A KR20080040595 A KR 20080040595A KR 20090114778 A KR20090114778 A KR 20090114778A
Authority
KR
South Korea
Prior art keywords
information
technical
database
terms
term
Prior art date
Application number
KR1020080040595A
Other languages
English (en)
Other versions
KR100963667B1 (ko
Inventor
최윤수
최성필
김광영
이민호
정창후
조민희
윤화묵
한선화
진두석
Original Assignee
한국과학기술정보연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술정보연구원 filed Critical 한국과학기술정보연구원
Priority to KR1020080040595A priority Critical patent/KR100963667B1/ko
Publication of KR20090114778A publication Critical patent/KR20090114778A/ko
Application granted granted Critical
Publication of KR100963667B1 publication Critical patent/KR100963667B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 대용량 데이터베이스의 의미기반 기술용어 발굴 장치에 관한 것으로, 특히 관리 데이터베이스로부터 특정 기술 분야의 정보를 검색할 신규 및 시드의 기술용어와 문맥정보에 기반한 질의어를 검색하여 출력하는 에이알엠(ARM) 수단; 에이알엠 수단으로부터 입력되는 기술용어와 문맥정보에 기반한 질의어가 포함되는 문서집합과 해당 포스팅 정보를 과학정보 데이터베이스로부터 추출하는 티알에스(TRS) 수단; 티알에스 수단이 제공하는 문서집합과 포스팅 정보로부터 기술용어와 문맥정보를 추출하고, 기술용어 들의 연관관계를 분석하는 분석수단; 분석수단으로부터 기술용어, 문맥정보, 연관관계 정보와 문서집합을 제공받고 기술용어의 발생시간, 발생위치, 저자를 포함하여 발생빈도, 연관, 확장의 관계에 의한 기술지식을 추적하여 추출하는 추적수단; 분석수단이 추출한 기술용어, 문맥정보, 연관관계 정보를 제공받고 신규 기술용어와 문맥정보를 추출하여 관리 데이터베이스에 기록하는 에이알이에스(ARES) 수단; 및 에이알이에스 수단에 접속하고 외부 자원으로부터 기술용어, 문맥정보, 연관관계와 기술문서를 추출하여 제공하는 이알에이(ERA) 수단; 을 포함하는 구성을 특징으로 하여, 대용량 데이터베이스의 전체 검색 효율성과 활용성을 높이고, 검색된 기술용어 들의 관계를 분석 및 축적하여 기술정보들의 연관 관계, 시계열 분석, 분류 등을 실시간으로 신속하게 검색 및 추적하여 기술검토, 개발 및 의사결정을 신속하게 하는 효과가 있다.
특허, 논문, 데이터베이스, 검색, 질의어, 기술용어, 문맥정보, 추출

Description

대용량 데이터베이스의 의미기반 기술용어 발굴 장치{APPARATUS OF SEMANTIC TECHNOLOGICAL INTELLIGENCE LANGUAGE MINING SYSTEM FOR LARGE SIZE DATABASE}
본 발명은 과학기술 및 특허 정보를 기록하고 관리하는 데이터베이스로부터 기술용어를 발굴하는 것으로, 특히, 관리하는 원시적 텍스트 데이터베이스의 정보량이 많은 경우 기존 방식으로 검색하는데 많은 시간이 소요되므로 검색시간을 단축하는 동시에 텍스트의 내용을 정제, 정리, 연계, 확장 처리 및 분석하여 가공된 기술용어로 추출하는 대용량 데이터베이스의 의미기반 기술용어 발굴 장치에 관한 것이다.
인류는 습득한 체험, 지식, 기술 등의 정보를 기록 등으로 축적하고, 다음 세대의 후손은 축적된 정보를 활용하여 더욱 발전시키는 과정을 반복하면서 문화를 발달시키는 동시에 풍족한 생활을 영위하여 왔다.
이러한 정보의 축적된 양은 시간이 갈수록 계속 늘어나고 축적 수단으로는 일반적으로 책 형태를 이용하며, 다양한 지식 및 정보가 기록된 많은 책을 체계적으로 관리하는 것과 필요한 지식 및 정보를 원하는 시점에 신속하고 정확하게 찾아 내는 것도 중요하다.
컴퓨터의 발달에 의하여 각종 지식 및 정보를 텍스트(TEXT)로 기록 및 관리하게 되었고, 상기와 같이 컴퓨터로 관리되는 정보 중에서 필요한 내용을 정확하고 신속하게 찾기 위한 것으로, 데이터베이스(DATABASE: DB) 기술이 개발되었다.
현대는 인문, 사회, 과학이 포함되는 모든 분야에서 텍스트로 각각 축적되는 지식 및 정보의 양이 급속하게 팽창하고 있고, 이러한 지식 및 정보를 기록, 관리하기 위하여 컴퓨터가 필수적으로 이용되고 있다.
특히, 현대 사회가 산업화되어 가면서 기술개발을 위한 정보 검색의 필요성이 증가하고 있으며, 축적된 대단위의 기술정보로부터 원하는 또는 필요로 하는 기술정보를 발굴(MINING)하는 것은 또 하나의 독립된 기술 분야가 된다.
도 1 을 참조하여 일반적인 기술 정보의 발굴 개념을 설명하면, 일반적으로 기술 정보가 포함된 것으로, 특허 문서, 논문, 기술 보고서 등이 있으며, 이러한 기술정보는 텍스트 위주의 데이터베이스(DB)로 기록되고 관리된다.
상기와 같이 기술정보가 기록된 데이터베이스의 텍스트 정보를 소프트웨어(SOFTWARE: S/W)로 분석(ANALYZE) 및 설명(REPRESENTATION)을 통하여 필요로 하는 기술정보를 검색한다.
상기와 같이 검색된 기술정보는 기술지식(TECHNOLOGY INTELLIGENCE PRODUCT)로서 기술을 분석한 결과의 목록(REPERTOIRE)이고, 경영자 및 관리자가 인식할 수 있어야 하며, 판단 또는 결정을 지원한다.
즉, 제공된 정보를 전문가에 의하여 확인하고 기술적으로 분석하며 연구한 결과에 의하여 최고 경영자 또는 관리자가 결정 및 판단하기 위한 참고자료로 사용한다. 그러므로 산업화된 현대사회에서 기술정보의 발굴은 매우 중요한 의사결정의 수단이 된다.
그러나 컴퓨터로 축적되어 관리되는 텍스트 기반 기술 정보의 량이 매우 크게 늘어나면서, 원하는 정보를 검색, 분석 및 활용하는데 많은 시간이 소요되는 문제가 있다.
또한, 기술의 발달에 의하여 사용되는 특정 단어 및 용어의 의미가 변화하여 다른 뜻으로 사용되거나 확장 및 축소되어 사용되고, 유사한 다른 용어로 사용되거나 동일한 용어가 다른 의미로 사용될 수 있는 동시에 유사한 기술이 다른 곳에서 이미 개발되거나 사용될 수 있다.
따라서 대량으로 관리되는 텍스트 정보를, 특히, 과학기술 정보를 사전에 자동으로 가공하여 정제(CLARIFICATION), 연계(LIAISON), 정리(ARRANGEMENT), 확장(EXTENSION)된 기술지식으로 분석하여 제공하므로 검색의 효율성을 높이는 기술을 개발할 필요가 있다.
본 발명은 상기와 같은 종래의 문제점 및 필요성을 개선하기 위하여 안출된 것으로서, 특히 데이터베이스의 텍스트 정보를 분석하여 키워드에 의한 기술용어를 추출하고 각 기술용어 및 다수의 기술용어가 연결된 복합 기술용어를 반복적으로 추출하여 기술지식(TECHNOLOGICAL INTELLIGENCE)으로 관리하므로 검색의 효율성을 높이는 대용량 데이터베이스의 의미기반 기술용어 발굴 장치를 제공하는 것이 그 목적이다.
또한, 본 발명은 데이터베이스로 관리되고 논문과 특허가 포함되는 과학 기술정보의 기술용어를 분석하여 각 기술정보 사이의 관계를 실시간으로 분류하도록 하는 대용량 데이터베이스의 의미기반 기술용어 발굴 장치를 제공하는 것이 그 목적이다.
상기와 같은 목적을 달성하기 위하여 안출한 본 발명은, 관리 데이터베이스로부터 특정 기술 분야의 정보를 검색할 신규 및 시드의 기술용어와 문맥정보에 기반한 질의어를 검색하여 출력하는 에이알엠(ARM) 수단; 에이알엠 수단으로부터 입력되는 기술용어와 문맥정보에 기반한 질의어가 포함되는 문서집합과 해당 포스팅 정보를 과학정보 데이터베이스로부터 추출하는 티알에스(TRS) 수단; 티알에스 수단이 제공하는 문서집합과 포스팅 정보로부터 기술용어와 문맥정보를 추출하고, 기술 용어들의 연관관계를 분석하는 분석수단; 분석수단으로부터 기술용어, 문맥정보, 연관관계 정보와 문서집합을 제공받고 기술용어의 발생시간, 발생위치, 저자를 포함하여 발생빈도, 연관, 확장의 관계에 의한 기술지식을 추적하여 추출하는 추적수단; 분석수단이 추출한 기술용어, 문맥정보, 연관관계 정보를 제공받고 신규 기술용어와 문맥정보를 추출하여 관리 데이터베이스에 기록하는 에이알이에스(ARES) 수단; 및 에이알이에스 수단에 접속하고 외부 자원으로부터 기술용어, 문맥정보, 연관관계와 기술문서를 추출하여 제공하는 이알에이(ERA) 수단; 을 포함하는 구성을 제시한다.
바람직하게 상기 추적수단이 소정 시간 동안 추적하여 누적한 기술지식을 분석하여 서비스 시나리오를 제공하는 디알에스(DRS) 수단; 분석수단, 추적수단이 분석하고 추적한 신규의 기술지식을 기록하고 관리하는 지식 데이터베이스; 에이알이에스 수단으로부터 기술용어와 문맥정보를 제공받고 기록하여 관리하고 상기 에이알엠 수단과 분석수단에 제공하는 관리 데이터베이스; 및 티엘에스 수단에 접속하고 특허, 논문, 기술보고서와 상기 이알에이 수단이 외부로부터 추출한 기술문서를 기록하여 관리하고 검색에 의하여 제공하는 과학정보 데이터베이스; 를 더 포함하는 구성을 제시한다.
또한, 상기 에이알엠 수단은 관리 데이터베이스로부터 입력된 신규 및 시드의 기술용어에 기반을 두어 선택횟수가 비교적 많고 특정 기술영역과 기술패턴의 문서집합을 검색하는 질의어를 추출하고, 상기 관리 데이터베이스로부터 입력된 신규 및 시드의 문맥정보에 의하여 자주 출현하는 어휘 패턴의 질의어를 추출하며 상 기 티알에스 수단에 제공하는 구성으로 이루어지는 것을 특징으로 한다.
또한, 상기 티알에스 수단은 에이알엠 수단으로부터 기술용어와 문맥정보의 질의어를 입력하고 부하가 소정값 이하로 운용되는 상태의 상기 과학정보 데이터베이스로부터 상기 질의어와 지정된 품사, 문장성분이 포함되는 문서들의 집합 및 각 문서의 포스팅 정보를 추출하는 구성으로 이루어지는 것을 특징으로 한다.
또한, 상기 포스팅 정보는 각 문서를 구성하는 색인어의 가중치 정보가 포함되는 것을 특징으로 한다.
또한, 상기 분석수단은 티알에스 수단으로부터 문서집합과 포스팅 정보를 입력하고 기술용어와 문맥정보를 추출하는 타스 수단; 티알에스 수단으로부터 문서집합과 포스팅 정보를 입력하고 지식 데이터베이스로부터 신규 기술용어 집합을 입력하며 문서들 사이에서의 기술 연관관계 정보를 추출하여 에이알이에스 수단과 지식 데이터베이스에 제공하는 타마 수단; 타스 수단과 타마 수단으로부터 추출된 결과를 입력하고 시소러스, 온톨로지, 어휘 지능망을 이용하여 기술용어 후보를 타스 수단에 제공하고 기술용어의 연관관계를 타마 수단에 제공하는 티엘에이 수단; 을 포함하는 구성으로 이루어지는 것을 특징으로 한다.
또한, 상기 타스 수단은 티알에스 수단으로부터 입력된 문서집합으로부터 품사 나열 방식의 패턴 분석으로 기술용어를 추출하고, 관리 데이터베이스에 기록되지 않은 신규 기술용어를 자동과 수동 방식으로 분류하며, 분류된 기술용어에 의한 문맥정보를 추출하여 에이알이에스 수단에 제공하고, 질의된 문맥정보와 함께 사용되는 기술용어를 추출하며 관리 데이터베이스에 기록되지 않은 신규 기술용어를 자 동과 수동 방식으로 분류하고, 분류된 기술용어에 의한 문맥정보를 추출하여 에이알이에스 수단에 제공하는 구성으로 이루어지는 것을 특징으로 한다.
또한, 상기 타마 수단은 티알에스 수단으로부터 입력되는 문서집합으로부터 기술용어의 품사 정보 패턴 및 어휘에 의하여 연관관계를 추출하고, 기존의 연관관계 정보를 자동으로 재확인하며, 추출된 연관관계를 자동과 수동으로 검증하고, 시소러스, 온톨로지, 어휘지능망에 의하여 연관관계를 분석하여 에이알이에스에 제공하고 특정 기술에 의한 연관관계 정보를 지식 데이터베이스에 제공하는 구성으로 이루어지는 것을 특징으로 한다.
또한, 상기 시소러스, 온톨로지, 어휘지능망에 의한 연관관계의 분석은 티엘에이 수단에 의하여 분석하는 것을 특징으로 한다.
또한, 상기 추적수단은 분석수단으로부터 추출된 기술용어와 문서내용과 연관관계의 정보를 입력하고 수동과 자동으로 기술지식을 추적하는 사트 수단; 사트 수단으로부터 기술용어, 연관관계, 문서내용의 정보를 입력하고 지식 데이터베이스로부터 누적된 기술용어, 연관관계, 문서내용의 정보를 입력하여 통계적 분석결과를 제공하는 샘 수단; 및 사트 수단으로부터 기술용어, 연관관계, 문서내용의 정보를 입력하고 지식 데이터베이스로부터 누적된 기술용어, 연관관계, 문서내용의 정보를 입력하여 기술집합으로 분류하고 군집화한 결과를 제공하는 티시엠 수단; 을 포함하는 구성으로 이루어지는 것을 특징으로 한다.
또한, 상기 사트 수단은 분석수단으로부터 검증되어 추출된 기술용어와 문서내용과 연관관계 정보를 입력하고 지식 데이터베이스로부터는 누적된 기술용어, 기 술과 기술, 기술과 문서에 의한 연계정보를 입력하며, 각 기술용어별로 발생시간, 생산자 정보, 위치정보가 포함되는 연관관계를 추적한 기술지식을 지식 데이터베이스와 디알에스 수단에 제공하며 도표와 테이블 정보로 제공하는 구성으로 이루어지는 것을 특징으로 한다.
또한, 상기 연관관계는 기술용어의 시간별 발생빈도, 관계, 거리정보에 따른 기술의 융합과 분열, 발생위치별 발생빈도, 새로운 명칭의 추정 및 검증이 포함되는 것을 특징으로 한다.
또한, 상기 샘 수단은 사트 수단과 지식 데이터베이스로부터 기술용어, 연관관계, 문서내용의 정보를 입력하고, 상기 사트 수단을 통하여 대용량으로 제공되는 텍스트의 문서집합을 가설설정, 빈도 정보와 해당 원인에 의한 비선형 회귀분석, 주성분 분석 중에서 선택된 어느 하나 이상으로 통계 분석하여 추적하는 구성으로 이루어지는 것을 특징으로 한다.
또한, 상기 티시엠 수단은 사트 수단과 지식 데이터베이스로부터 기술용어, 연관관계, 문서내용의 정보를 입력하고, 상기 사트 수단을 통하여 대용량으로 제공되는 텍스트의 문서집합을 추출된 명칭과 기술 사이의 연관관계로 분류하고 군집화하는 구성으로 이루어지는 것을 특징으로 한다.
또한, 상기 관리 데이터베이스는 시드 기술용어를 누적하여 기록하고 관리하는 기술용어 사전 데이터베이스; 및 시드 문맥정보를 누적하여 기록하고 관리하는 문맥정보 데이터베이스; 를 포함하는 구성으로 이루어지는 것을 특징으로 한다.
또한, 상기 과학정보 데이터베이스는 특허정보로 국내, 미국, 일본, 유럽 지 역에서 수집된 특허 정보를 기록하는 특허 데이터베이스; 논문정보로 관리되는 논문과 기술보고서의 영문초록을 기록하는 논문 데이터베이스; 특허, 논문, 기술보고서를 포함하는 기술문서를 외부로부터 수집하여 기록하는 외부 데이터베이스; 를 포함하여 이루어지는 구성을 특징으로 한다.
또한, 상기 에이알이에스 수단은 분석수단이 추출한 신규의 기술용어, 문맥정보, 연관관계 정보와 상기 이알에이 수단이 외부로부터 추출한 기술용어, 문맥정보, 연관관계 정보를 관리 데이터베이스의 할당된 영역에 기록하고 관리하는 구성으로 이루어지는 것을 특징으로 한다.
또한, 상기 이알에이 수단은 외부의 웹 사이트와 데이터베이스로부터 기술용어, 문맥정보, 연관관계 정보를 자동 추출하여 지식 데이터베이스와 상기 과학정보 데이터베이스, 에이알이에스 수단에 각각 제공하는 구성으로 이루어지는 것을 특징으로 한다.
상기와 같은 목적을 달성하기 위하여 안출한 본 발명은, 에이알엠수단, 티알에스수단, 분석수단, 추적수단, 관리 데이터베이스, 과학정보 데이터베이스, 에이알이에스 수단, 이알에이 수단, 지식 데이터베이스를 포함하여 의미기반 기술용어를 발굴하는 장치에 있어서, 티알에스 수단이 제공하는 특정 기술의 문서집합과 포스팅 정보로부터 품사 나열 방식의 패턴 분석으로 기술용어를 자동과 수동 방식으로 추출하고, 새로운 기술용어와 문맥정보를 분류하며, 추출된 기술용어들의 연관관계를 분석하고 검증하는 분석수단; 및 분석수단이 분석한 기술용어를 문서집합으 로부터 추출하고 추정하여 확장상태의 연관관계를 의미 확장, 시간별 발생빈도, 기술용어 사이의 관계, 거리정보에 의한 기술융합 및 분열, 발생위치별 발생빈도, 새로운 명칭을 추정하고 검증하는 추적수단; 을 포함하는 구성을 제시한다.
바람직하게, 상기 추출된 기술용어의 연관관계를 분석 및 검증은 시소러스, 온톨로지, 어휘지능망 방식 중에서 선택된 어느 하나를 이용하는 구성으로 이루어지는 것을 특징으로 한다.
상기와 같은 목적을 달성하기 위하여 안출한 본 발명은, 에이알엠수단, 티알에스수단, 분석수단, 추적수단, 관리 데이터베이스, 과학정보 데이터베이스, 에이알이에스 수단, 이알에이 수단, 지식 데이터베이스를 포함하는 장치에 의하여 대용량 데이터베이스의 의미기반 기술용어를 발굴하는 방법에 있어서, 분석수단에 의하여 과학정보 데이터베이스의 운용부하가 소정 비율로 낮은 경우 에이알엠 수단이 관리 데이터베이스로부터 검색한 질의어를 추출하여 티알에스 수단에 제공하고 티알에스 수단은 질의어에 의하여 과학 데이터베이스로부터 지정된 기술의 문서집합과 해당 포스팅 정보를 추출하여 분석수단에 제공하는 과정; 분석수단은 타스 수단에 의하여 문서집합으로부터 신규와 시드의 기술용어가 검출되면 에이알이에스 수단에 통보하고 지식 데이터베이스에 등록하는 기술용어 과정; 분석수단은 타마 수단에 의하여 문서집합으로부터 신규와 시드의 문맥정보가 검출되면 에이알이에스 수단에 통보하고 지식 데이터베이스에 등록하는 문맥정보 과정; 문서집합과 지식 데이터베이스의 정보를 추적수단에 제공하여 연관된 기술을 추적하고, 추적된 정보 를 지식 데이터베이스와 디알에스 수단에 제공하며, 추적된 정보를 분석하여 문서로 출력하는 과정; 을 포함하는 구성을 제시한다.
바람직하게, 상기 과학정보 데이터베이스의 운용부하가 소정 비율보다 높은 경우는 이알에이 수단에 의하여 외부자원으로부터 질의어를 수집하고 에이알이에스 수단에 통보하며 지식 데이터베이스에 등록하고, 수집한 기술문서를 과학정보 데이터베이스에 기록한 후에 상기 출력하는 과정으로 진행하는 기록과정; 을 더 포함하는 구성을 제시한다.
또한, 상기 추적된 정보는 기술용어의 확장, 축소에 의한 연관관계, 발생시간에 의한 발생빈도 분석, 발생시간에 의한 기술용어 간 연관관계 분석, 기술용어 사이의 거리정보에 의한 기술의 융합과 분열과정 분석, 발생위치에 의한 발생빈도 분석, 새로운 명칭의 추정과 검증이 포함되는 것을 특징으로 한다.
상기와 같은 구성의 본 발명은 텍스트로 이루어지는 과학 기술정보의 의미에 기반한 기술용어와 문맥정보를 지속적이고 반복적으로 추출하여 관리하므로 대용량 데이터베이스의 전체적인 검색 효율성과 활용성을 높이는 산업적 이용효과가 있다.
또한, 과학 기술정보의 텍스트로부터 검색된 기술용어들의 관계를 분석 및 축적하여 기술정보들의 연관 관계, 시계열 분석, 분류 등을 실시간으로 신속하게 검색하고 추적하여 기술검토 및 개발을 용이하게 하는 사용상 편리한 효과가 있다.
이하, 상기와 같은 구성의 본 발명에 의한 것으로, 대용량 데이터베이스의 의미기반 기술용어 발굴 장치의 바람직한 실시 예를 첨부된 도면을 참조하여 상세히 설명한다.
실시 예
본 발명을 설명하기 위하여 첨부된 것으로, 도 2 는 본 발명의 일례에 의한 것으로 데이터베이스의 의미기반 기술용어 발굴 장치로 최종 목표를 달성하기 위한 단계별 작용 설명도 이며, 도 3 은 본 발명의 일례에 의한 것으로 데이터베이스의 의미기반 기술용어 발굴 장치 기능 구성도 이고, 도 4 는 본 발명의 일례에 의한 것으로 데이터베이스의 의미기반 기술용어 발굴 장치를 구성하는 분석수단의 상세 기능 구성도 이며, 도 5 는 본 발명의 일례에 의한 것으로 데이터베이스의 의미기반 기술용어 발굴 장치를 구성하는 추적수단의 상세 기능 구성도 이고, 도 6 은 본 발명의 일례에 의한 것으로 데이터베이스의 의미기반 기술용어 발굴 장치를 구성하는 관리 데이터베이스의 상세 기능 구성도 이며, 도 7 은 본 발명의 일례에 의한 것으로 데이터베이스의 의미기반 기술용어 발굴 장치를 구성하는 과학정보 데이터베이스의 상세 기능 구성도 이고, 도 8 은 본 발명의 일례에 의한 것으로 데이터베이스의 의미기반 기술용어 발굴 장치를 구성하는 분석수단의 지식 데이터베이스의 상세 기능 구성도 이며, 도 9 는 본 발명의 일례에 의한 것으로 데이터베이스의 의 미기반 기술용어 발굴 장치에 의하여 추적되는 기술용어의 연관관계 설명도 이고, 도 10 은 본 발명의 일례에 의한 것으로 데이터베이스의 의미기반 기술용어 발굴 장치의 전체 상세 기능 구성도 이며, 도 11 은 본 발명의 일례에 의한 것으로 데이터베이스의 의미기반 기술용어 발굴 방법 순서도 이다.
본 발명의 일례를 설명함에 있어서, 본 발명과 직접적으로 관련 없고, 잘 알려져 있는 기술 내용에 대하여서는 도면 도시 및 설명을 생략하므로, 본 발명의 요지를 흐리지 않고 명확하게 전달한다.
도 2 를 참조하여 본 발명의 일례에 의한 것으로 데이터베이스의 의미기반 기술용어 발굴 장치로 최종 목표를 달성하기 위한 단계별 작용을 설명하면, 특허, 논문, 기술보고서 등이 포함되는 텍스트 기반 기술정보를 검색하고 관리하는 시스템을 이용하여 필요로 하는 기술정보를 검색한다.
상기와 같이 검색된 기술정보는, 전문 어휘자원, 지식 표현기술, 언어 처리기술, 기계 학습기술 등을 이용하고, 과학기술 어휘망, 전문용어 자동인식 기술, 과학기술 전문, 규칙기반 정보 추출, 텍스트 기반 노벨티 추출, 토픽 클러스터링 및 클래시피케이션, 어소시에이션 룰 발굴 등에 의하여 기술을 자동탐지하고, 기술이 시계열적 관계를 추적하며, 기술과 기술 사이의 관계를 발견하고, 기술을 자동으로 분류하며, 기술연관 정보를 인식 및 추출하고, 외부정보와 연계하여 분석하는 등의 작업을 실시간(REAL-TIME)으로 처리한다.
상기와 같이 실시간 처리된 기술정보는 외부에 연계된 정보를 참조하여 사용자 프로파일에 기반하여 개인화되고, 기계 학습에 기반하여 혁명적으로 기능화되며, 사용자 피드백을 기반으로 토픽 랭킹에 적응하며, 개인화된 비밀 수단이 되고, 사용자 스크립트에 의한 컴포넌트 재정열이 가능하게 하는 등으로 사용자를 지원한다.
즉, 검색할 기술정보와 내용을 다양하게 선택 및 변경하고, 시간적, 지역적, 기술적 등에 의한 연결 관계를 분석하므로 사용자 개인이 의사결정을 용이하게 하도록 지원한다.
상기와 같은 시스템의 실시간 대화방식으로 동작하여 기술지식(TECHNOLOGICAL INTELLIGENCE)을 제공하고, 정보검색을 정확하게 하며, 검색 결과를 실시간으로 분석하고, 최신 자연어 처리 방법, 패턴인식, 데이터 발굴 방법 등을 이용하며, 특허, 논문, 기술보고서, 웹문서를 포함하는 대용량의 기술문서 자원(RESOURCE)을 대상으로 한다.
도 3 내지 도 8 을 참조하여, 본 발명의 일례에 의한 것으로 데이터베이스의 의미기반 기술용어 발굴 장치를 설명하면, 에이알엠(ARM) 수단(100), 티알에스(TRS) 수단(110), 분석수단(120), 추적수단(130), 관리 데이터베이스(140), 과학정보 데이터베이스(150), 에이알이에스(ARES) 수단(160), 이알에이(ERA) 수단(170), 디알에스(DRS) 수단(180), 지식 데이터베이스(190)를 포함하는 구성이다.
상기 에이알엠 수단(100)은 관리 데이터베이스(140)로부터 특정 기술 분야의 정보를 검색할 신규 및 시드(SEED)의 기술용어와 문맥정보에 기반한 질의어를 검색하여 출력한다. 상기 관리데이터베이스(140)는 첨부된 도 6 에 도시된 것과 같이 기존에 관리되는 시드 기술용어를 누적하여 기록하고 관리하는 기술용어 사전 데이터베이스(142)와, 기존에 관리되는 시드 문맥정보를 누적하여 기록하고 관리하는 문맥정보 데이터베이스(144)를 포함하는 구성이다.
즉, 상기 에이알엠 수단(100)은 관리 데이터베이스(140)의 기술용어사전 데이터베이스(142)로부터 입력된 신규 및 시드의 기술용어에 기반하여 선택횟수가 비교적 많고 특정 기술영역과 기술패턴의 문서집합을 검색할 수 있는 질의어를 추출하며, 상기 관리 데이터베이스(140)의 문맥정보 데이터베이스(144)로부터 입력된 신규 및 시드의 문맥정보에 의하여 자주 출현하는 어휘 패턴의 질의어를 추출하며, 상기와 같이 추출된 기술용어 및 문맥정보를 티알에스 수단(110)에 제공한다.
상기 기술용어는 각 기술 분야에서 일반적으로 많이 사용하는 용어이며, 상기 용어에 포함된 의미는 해당 기술 분야에서 통상의 지식을 가진 사람이 쉽게 알 수 있고 이해할 수 있는 단어이다. 상기 신규 기술용어는 새로이 검색된 기술용어이고, 시드 기술용어는 기존에 검색되어 데이터베이스(DATABASE: DB)에 기록되고 관리되는 기술용어이다.
상기 기술용어에 기반한 질의어는 기술용어 사전 데이터베이스(142)에 기록되어 관리하는 다수의 기술용어 중에서 이용자 또는 사용자가 원하는 기술용어를 선택하여 질의어로 사용하는 것으로, 일례로, “STEM CELL", ”GENE EXPRESSION" 등이 될 수 있으며, 문맥정보에 기반한 질의어는 문맥정보 데이터베이스(144)에 기 록되어 관리되는 것으로서, 신규 기술용어들의 관계를 추출하기 위하여 특정 기술명칭이나 관계가 나타날 개연성이 있는 위치에서 자주 출현하는 어휘패턴으로 생성되는 질의어로, 일례로, ”TECHNOLOGIES SUCH AS", “AND OTHER TECHNOLOGIES" 등이 될 수 있다.
본 발명의 기술적 사상은 기술의 명칭이나 관계를 추출하기 위하여 데이터베이스 전체를 분석하는 것보다, 질의어를 사용하여 특정 기술 영역이나 패턴이 포함되는 “문서집합”을 대상으로 필요한 기술을 추출하고 분석하는 것이, 즉, 대용량의 데이터베이스로부터 질의어를 사용하여 특정 기술 분야의 정보만을 선택 및 검색하는 것이 효과적이라는 개념이다.
상기 티알에스(TRS) 수단(110)은 에이알엠 수단(100)으로부터 입력되는 기술용어와 문맥정보에 기반한 질의어가 포함되는 문서집합과 해당 포스팅(POSTING) 정보를 과학정보 데이터베이스(150)로부터 추출한다. 상기 과학정보 데이터베이스(150)는 첨부된 도 7 에 도시되어 있는 것과 같이, 국내, 미국, 일본, 유럽 지역의 특허 문서를 기록하고 관리하는 특허 데이터베이스(152), 논문과 기술보고서의 영문초록을 기록하고 관리하는 논문 데이터베이스(154), 특허, 논문, 기술보고서를 포함하는 기술문서를 웹(WEB)이 포함되는 외부로부터 수집하여 기록하는 외부 데이터베이스(156) 를 포함하여 이루어진다.
상기 티알에스 수단(110)은 에이알엠 수단(100)으로부터 기술용어와 문맥정보의 질의어를 입력하고 상기 과학정보 데이터베이스(150)가 소정 값 이하의 부 하(LOAD)로 운용되는 상태에서, 상기 과학정보 데이터베이스(150)로부터 상기 질의어와 지정된 품사, 문장성분이 포함되는 문서들의 집합 및 각 문서의 포스팅 정보를 추출한다.
상기 포스팅(POSTING) 정보는 각 기술문서에 구성되는 색인어의 가중치 정보이다.
상기 티알에스 수단(110)은 에이알엠 수단(100)에서 생성된 질의어를 기반으로 대용량, 일례로, 논문 데이터베이스(154)로 약 50 기가 바이트(GIGA BYTE), 특허 데이터베이스(152)로 약 40 기가 바이트의 총 90 기가 바이트 용량을 갖는 과학정보 데이터베이스(150)를 검색한다. 상기 검색의 결과는 특정한 질의어가 포함된 문서들의 집합이다.
상기 질의어에 의한 검색은 품사, 문장성분에 의한 언어정보에 기반하여 검색하고 추출하는 것으로, 일례로, <명사구> + “AND OTHER" + "TECHNOLOGIES"에 기반하는 검색은 “AND OTHER TECHNOLOGIES"가 포함되는 문서 중에서 그 앞에 ”명사구“가 위치하는 문서만을 검색하는 것이고, 다른 일례로, ”TECHNOLOGIES" + "ESPECIALLY" + <명사구> + <명사구> +,,,,에 기반하는 검색은 TECHNOLOGIES ESPECIALLY가 포함되는 문서 중에서 그 뒤에 “명사구”가 계속 나열된 문서만을 검색하는 것이다.
또한, 각 개별 문서에 대한 내부 분석 정보를 제공하는 것으로, 일례로, 색인어의 가중치 정보(DOCUMENT FREQUENCY, TERM FREQUENCY 등)를 분석하여 제공한다.
즉, 상기 티알에스 수단(110)은 상기 에이알엠 수단(100)으로부터 기술용어와 문맥정보에 의한 질의어를 입력하고, 상기 과학정보 데이터베이스(150)를 검색하여 상기 질의어가 포함되는 문서집합을 추출하는 동시에 각 문서의 색인 가중치 정보가 포함되는 포스팅 정보를 함께 추출하므로 특정 기술영역의 문서집합을 추출하여 분석수단(120)에 제공한다.
상기 분석수단(120)은 상기 티알에스 수단(110)이 제공하는 문서집합과 포스팅 정보로부터 기술용어와 문맥정보를 추출하고, 기술용어들의 연관관계를 분석하는 것으로, 타스(TAS) 수단(122), 티엘에이(TLA) 수단(124), 타마(TAMA) 수단(126)을 포함하는 구성이다.
상기 타스 수단(122)은 티알에스 수단(110)으로부터 문서집합과 포스팅 정보를 입력하고 기술용어와 문맥정보를 추출하는 것으로, 상기 문서집합으로부터 품사 나열 방식의 패턴 분석으로 기술용어를 추출하고, 관리 데이터베이스(140)에 기록되지 않은 신규 기술용어를 자동과 수동 방식으로 분류하며, 분류된 기술용어에 의한 문맥정보를 추출하여 에이알이에스 수단(160)에 제공하고, 질의된 문맥정보와 함께 사용되는 기술용어를 추출하며 상기 관리 데이터베이스(140)에 기록되지 않은 신규 기술용어를 자동과 수동 방식으로 분류하고, 분류된 기술용어에 의한 문맥정보를 추출하여 에이알이에스 수단(160)에 제공한다.
상기 타스 수단(122)은 기술 획득 시스템이고, 문서집합과 포스팅 정보를 입력하여 추출된 기술용어와 문서의 발행연도 또는 시간, 저자, 발행위치 등이 포함 되는 문서내용, 문맥정보를 추출한다. 즉, 상기 티알에스 수단(110)으로부터 추출된 문서집합을 제공받고, 기술용어 및 문맥정보에 의한 두(2) 가지 모드(MODE)를 추출한다.
기술용어에 기반한 추출모드는 상기 선택된 기술용어가 포함되는 각각의 문서로부터 단순 품사 나열 패턴 분석 방식에 의하여 불특정한 기술용어를 추출하는 방식이다. 상기 추출된 모든 기술용어를 관리 데이터베이스(140)의 기술용어 사전(142)에 기록된 시드 기술용어와 대비 및 분석하여 기록 및 관리되지 않는 신규 기술용어로 확인되면, 자동 및 수동 방식으로 검증하고, 검증에 의하여 기술용어로 판명되면, 해당 문맥정보를 수집하고 추출하며, 상기 검증된 신규 기술용어 및 문맥정보는 에이알이에스 수단(160)에 제공되어 관리 데이터베이스(140)에 추가 기록 및 관리되고, 지식 데이터베이스(190)에 제공되어 기술지식 데이터베이스(192)에 기록 및 관리되며, 상기 검증된 정보는 상기 지식 데이터베이스(190)의 검증집합 데이터베이스(194)에 기록 및 관리된다.
상기 신규 기술용어의 자동 검증은, 외부의 정보와 연계하여 기술용어를 검증하는 방식이고, 상기 수동 검증은, 해당 전문가에 의하여 수동으로 분석 및 판단하는 방식이다.
상기 문맥정보에 기반한 추출모드는 특정한 문맥정보에 관련된 용어들을 자동으로 추출하고, 상기 관리 데이터베이스(140)의 문맥정보 데이터베이스(144)에 기록되고 관리되는 시드 문맥정보와 대비하여 신규 문맥정보로 분류되면, 상기와 동일한 방식의 자동 및 수동으로 검증하며, 검증된 신규 문맥정보는 에이알이에스 수단(160)에 제공되어 관리 데이터베이스(140)에 추가 기록 및 관리되고, 지식 데이터베이스(190)에 제공되어 기술지식 데이터베이스(192)에 기록 및 관리되며, 상기 검증된 정보는 상기 지식 데이터베이스(190)의 검증집합 데이터베이스(194)에 기록 및 관리된다.
상기 티엘에이 수단(124)은 타스 수단(122)과 타마 수단(126)으로부터 추출된 결과를 입력하고 시소러스(THESAURUS), 온톨로지(ONTOLOGY), 어휘 지능망을 이용하여 기술용어 후보를 타스 수단에 제공하고 기술용어의 연관관계를 타마 수단에 제공한다.
상기 시소러스는, 컴퓨터가 정보검색을 위하여 기록 및 관리하는 용어사전이며, 각 용어의 동의어, 반의어, 유의어, 상위어, 하위어, 관련어 등을 항목별로 관리하는 방식으로 운용한다.
상기 온톨로지는, 일반적으로 우주 안에 어떤 종류의 실체들이 존재하는가에 관한 연구 또는 관심을 말하며, '실재'라는 의미의 그리스어 'ONTO'와 '논문 또는 강연' 등의 의미를 갖는 'LOGIA'의 합성어로부터 유래되고, 사물의 본질에 관한 연구를 추구하는 분야를 지칭하며, 전산학 및 정보과학에서는 특정 영역을 표현하는 데이터 모델로서 개념들 사이의 관계를 기술하는 정형 어휘의 집합이고, 추론(REASONING, INFERENCE) 하는 기술로서, 특정 분야의 인터넷 자원과의 관계 기술에 사용하는 시맨틱 웹 및 시맨틱 웹 서비스 등에 응용된다.
상기 티엘에이 수단(124)은 과학 기술 분야의 데이터베이스에 최적화된 언어처리 모듈의 집합으로서, 기술들의 연관관계를 추출하고 검증하기 위한 심층 문장 분석 모듈이며, 식별하기 어려운 문장과 다양한 문장 표현방식을 고려한 부분 구문 분석 기술을 적용하는 SHALLOW PARSER 이며, 전문성 있는 정보의 학습문서들로 학습된 기계 학습기반 품사의 모호성을 분석하는 것으로, 대용량의 정보를 분석하기에 효율적 이도록 운용속도가 최적화된 품사 태깅 시스템이다.
상기 타마 수단(126)은 티알에스 수단(110)으로부터 문서집합과 포스팅 정보를 입력하고 지식 데이터베이스(190)로부터 신규 기술용어 집합을 입력하며 문서들 사이에서의 기술 연관관계 정보를 추출하여 에이알이에스 수단(160)과 지식 데이터베이스(190)에 제공하는 것으로, 상기 연관관계 정보를 추출하고, 기존에 추출되어 관리되는 연관관계 정보의 유효성을 자동으로 재확인하며, 상기 추출된 연관관계 정보를 자동과 수동으로 검증하고, 시소러스, 온톨로지, 어휘지능망에 의하여 연관관계 정보를 분석하여 에이알이에스(160)에 제공하고 특정 기술에 의한 연관관계 정보를 지식 데이터베이스(190)에 제공한다.
상기 타마 수단(126)은 티알에스 수단(110)이 추출된 문서집합으로부터 현재까지 상기 지식 데이터베이스(190)에 누적 기록된 신규 기술용어와 상기 관리 데이터베이스(140)에 누적 기록된 시드 기술용어와의 연관관계를 어휘 및 품사정보 패턴을 기반으로 추출한다. 일례로, 전치사에 기반한 기술용어를 추출하는 경우는 “단백질키나아제(PROTAIN KINASE) IN 열처리단백질(HEAT SHOCK PROTAIN)" 등과 같고, 동사구에 기반한 기술용어를 추출하는 경우는 ”지표수(SURFACE WATER) ARE ACCOMPANIED BY HIGH FLUXES OF 유기물(ORGANIC MATTER)" 등과 같으며, 기타의 예로는 “역연령(CHRONOLOGICAL AGE) THAT IS APPLICABLE TO THE 자연개체군(NATURAL POPULATION)" 등과 같다.
또한, 상기 타마수단(126)은 이전에 추출된 연관관계 정보를 재검증하므로 자동으로 정제(CLARIFICATION) 작업하고, 추출된 연관관계 정보는 상기와 동일하게 자동 및 수동 검증작업을 한다. 또한, 시소러스 및 어휘망(예; WORDNET) 등을 활용한 연관관계 분석은 두(2) 가지 형태로 분류한다. 일례로, GENERIC RELATION 형태의 연관관계 정보는 “상위”, “하위”, “효과”, “원인”,,등과 같으며, SPECIFIC RELATION 형태의 연관관계 정보는 특정 영역이나 기술용어 사이에서 도출될 수 있는 특수한 형태의 관계이며 “고유치 문제(EIGEN-VALUE PROBLEM) OF AN OPEN SYSTEM UNDER 강한 상호작용(STRONG INTERACTION)" 등과 같다.
상기 추적수단(130)은 분석수단(120)으로부터 기술용어, 문맥정보, 연관관계 정보와 문서집합을 제공받고 기술용어의 발생시간, 발생위치, 저자를 포함하여 발생빈도, 연관, 확장의 관계에 의한 기술지식을 추적하여 추출하는 것으로, 샘(SAM) 수단(132), 사트(SATT) 수단(134), 티시엠(TCM) 수단(136)을 포함하는 구성이다.
상기 사트 수단(134)은 분석수단(120)의 타스 수단(122)과 타마 수단(126)으로부터 각각 추출된 기술용어와 문서내용과 연관관계의 정보를 입력하고 상기 지식 데이터베이스(190)로부터는 누적된 신규의 기술용어, 기술과 기술, 기술과 문서에 의한 연계정보를 입력하여 수동과 자동으로 기술지식을 추적한다. 상기 추적된 각 기술용어는 발생시간, 생산자 정보, 위치정보가 포함되는 연관관계의 기술지식이며, 지식 데이터베이스(190)에 제공되어 기록 및 관리되고, 디알에스 수단(180)에 제공되어 다양한 서비스로 응용되며, 도표와 테이블 정보에 의한 문서로 출력한다.
상기 연관관계는 기술용어의 시간별 발생빈도, 관계, 데이터베이스 상에서의 거리정보에 따른 기술의 융합과 분열, 발생위치별 발생빈도, 새로운 명칭의 추정 및 검증이 포함된다.
상기 사트 수단(134)은 추출되고 검증된 기술용어들과 문서의 발행 연도 또는 시간, 저작자, 발행위치 등의 문서내용 정보와 기술용어들의 연관관계를 입력하고, 추적된 기술지식을 지식 데이터베이스(190)에 제공하여 기록 관리하고, 디알에스 수단(180)에 제공하여 다양한 응용 서비스에 활용하며, 도표 및 테이블 등에 의한 기술문서 정보로 출력한다. 즉, 상기 추출된 모든 기술문서에는 발행 연도 등에 의한 시간정보와 저자 등에 의한 생산자 정보와 발생장소 등에 의한 위치정보가 포함되어 있고, 이러한 문서정보를 이용하여 다양한 형태로 연관관계를 추적할 수 있다.
상기 추적의 일례로, [기술용어]:[발생시간]:[저자]:[발생위치]와 같은 형태로 연관관계를 추적할 수 있고, 또한, [기술용어]:[연관관계]:[기술용어]:[발생시간]:[저자]:[발생위치]와 같은 형태로 연관관계를 추적할 수 있다.
상기와 같이 추적된 각 기술문서들 사이에서의 연관관계는 첨부된 도 9에 도시된 것과 같이 표현할 수 있다.
상기 도 9에서, 각 점들은 추출된 기술용어이고, 각 기술용어 사이에 연결된 선은 추출된 연관관계이다.
상기와 같이 추출된 연관관계는 확장(EXTENSION) 개념으로 추정될 수 있다. 일례로, 기술용어 A와 기술용어 B와 기술용어 C와의 연관관계를 추적하면, A -> B, B->C 인 경우에 결국 A->C가 되므로, 기술용어 A 는 기술용어 C와 연관관계가 있는 것으로 추적된다. 또한, 기술용어의 발생시간에 따른 발생빈도의 연관관계를 추적할 수 있고, 발생시간에 따른 연관관계를 추적할 수 있으며, 데이터베이스 안에서의 거리정보 연산에 의하여 해당 기술이 융합되거나 분열되는 과정을 추적 분석할 수 있다. 또한, 위치정보에 따른 기술의 발생빈도를 추적 분석하고, 기술용어의 명칭 변경을 추정하거나 검증할 수 있다.
상기 샘 수단(132)은 사트 수단(134)으로부터 기술용어, 연관관계, 문서내용의 정보를 입력하고 지식 데이터베이스(190)로부터 누적된 기술용어, 연관관계, 문서내용의 정보를 입력하여 통계적 분석결과를 제공하는 것으로, 사트 수단을 통하여 대용량으로 제공되는 텍스트의 문서집합을 가설설정, 빈도 정보와 해당 원인에 의한 비선형 회귀분석, 주성분(PRINCIPAL COMPONENT ANALYSIS: PCA) 분석이 포함되는 그룹 중에서 선택된 어느 하나 이상으로 통계분석으로 연관관계를 추적한다.
즉, 상기 샘 수단(132)은 각종 통계정보를 수집하기 위한 백엔드(BACKEND) 모듈로서, 대용량의 수치정보 또는 텍스트 정보를 제공받고 상황에 따라 통계적으로 분석한다.
상기 티시엠 수단(136)은 사트 수단(134)으로부터 기술용어, 연관관계, 문서내용의 정보를 입력하고 지식 데이터베이스(190)로부터 누적된 기술용어, 연관관계, 문서내용의 정보를 입력하여 기술집합으로 분류하고 군집화한 결과를 추적하여 제공하는 것으로, 사트 수단(134)을 통하여 대용량으로 제공되는 텍스트의 문서집 합을 추출된 명칭과 기술들의 연관관계로 분류(CLASSIFICATION)하고 군집화(CLUSTERING) 한다.
즉, 상기 티시엠 수단(136)은 다양한 모델, 일례로, NAIVE BAYESIAN MODEL, k-NEAREST NEIGHBOR MODEL, SVM MODEL 등을 이용하여 추출된 기술문서들을 명칭으로 군집화 및 분류하고, 연관관계에 의한 군집화 및 분류한다.
도 4 를 참조하면 분석수단(120)은 타스 수단(122), 티엘에이 수단(124), 타마 수단(126)을 포함하는 구성이다.
도 5 를 참조하면 추적수단(130)은 샘 수단(132), 사트 수단(134), 티시엠 수단(136)을 포함하는 구성이다.
도 6 을 참조하여 관리 데이터베이스(140)를 설명하면, 에이알이에스 수단(160)에 의하여 제공되는 시드 기술용어를 누적하여 기록하고 관리하는 기술용어 사전 데이터베이스(142)와 시드 문맥정보를 누적하여 기록하고 관리하는 문맥정보 데이터베이스(144)를 포함하는 구성이다.
도 7 을 참조하여 과학정보 데이터베이스(150)를 설명하면, 국내, 미국, 일본, 유럽 지역으로부터 수집된 특허 정보를 기록하여 관리하는 특허 데이터베이스(152), 관리되는 논문과 기술보고서의 영문초록을 기록하여 관리하는 논문 데이 터베이스(154), 특허, 논문, 기술보고서를 포함하는 기술문서를 외부 및 웹(WEB)으로부터 수집하여 기록하는 외부 데이터베이스(156)를 포함하는 구성이다.
도 8 을 참조하면 지식 데이터베이스(190)는 기술지식 데이터베이스(192), 검증집합 데이터베이스(194)를 포함하는 구성이고, 도 10 은 본 발명에 의한 것으로 데이터베이스의 의미기반 기술용어 발굴 장치의 전체 기능 블록이 상세히 도시되어 있다.
이하 상기 첨부된 도 11 을 참조하여, 본 발명의 일례에 의한 것으로 데이터베이스의 의미기반 기술용어 발굴 방법을 설명하면, 제공하는 과정; 기술용어 과정; 문맥정보 과정; 출력하는 과정; 기록과정; 을 포함하는 구성이다.
상기와 같은 구성에 의한 것으로 에이알엠 수단, 티알에스 수단, 분석수단, 추적수단, 관리 데이터베이스, 과학정보 데이터베이스, 에이알이에스 수단, 이알에이 수단, 디알에스 수단, 지식 데이터베이스를 포함하는 구성을 이용하는 데이터베이스의 의미기반 기술용어 발굴 방법을 상세히 설명한다.
상기 분석수단에 의하여 과학정보 데이터베이스의 운용부하가 소정 비율로 낮은지를 판단한다(S100). 즉, 이용자 또는 사용자의 접속이 많은지 또는 적은지를 판단하는 것으로 운용부하가 적은 경우에 본 발명에 의한 방법이 자동적이고 반복적으로 운용되도록 한다.
상기 판단(S100)에서 과학정보 데이터베이스의 운용비율이 소정 비율로 낮은 경우, 에이알엠(ARM) 수단이 관리 데이터베이스를 검색하여 추출한 질의어를 티알에스 수단에 제공한다(S110). 상기 질의어는 기술용어와 문맥정보에 기반한 질의어이다.
상기 티알에스 수단은 질의어에 의하여 과학정보 데이터베이스로부터 문서집합, 포스팅(POSTING) 정보를 추출하여 분석수단에 제공한다(S120). 즉, 특정한 기술 분야로 분류된 문서집합과 상기 질의어 및 포스팅 정보를 과학정보 데이터베이스로부터 검색 및 추출하여 분석수단에 제공하고, 상기 포스팅 정보는 문서를 구성하는 색인어의 가중치 정보가 포함된다.
상기 분석수단은 제공된 문서집합으로부터 신규 및 시드의 기술용어가 검출 또는 추출되는지를 확인하고(S130), 상기의 기술용어가 검출 또는 추출되는 경우는 에이알이에스 수단에 통보하는 동시에 지식 데이터베이스에 제공하여 등록한다(S140). 즉, 에이알이에스 수단은 관리 데이터베이스를 구성하는 기술용어 사전 데이터베이스에 등록하고, 지식 데이터베이스는 해당 기술지식 데이터베이스에 등록 한다.
또한, 상기 분석수단은 제공된 문서집합으로부터 신규 및 시드의 문맥정보가 검출 또는 추출되는지를 확인하고(S150), 상기의 기술용어가 검출 또는 추출되는 경우는 에이알이에스 수단에 통보하는 동시에 지식 데이터베이스에 제공하여 등록한다(S160). 즉, 에이알이에스 수단은 관리 데이터베이스를 구성하는 문맥정보 데이터베이스에 등록하고, 지식 데이터베이스는 해당 기술지식 데이터베이스에 등록한다.
상기 분석수단은 질의어로 추출된 문서집합을 추적수단에 제공하고, 상기 지식 데이터베이스는 기록하고 관리하는 것으로 기술용어가 포함되는 모든 신규 지식정보를 추적수단에 제공한다(S170).
상기 추적수단은 문서집합과 기술용어가 포함되는 해당 정보를 제공받고 연관된 기술이 있는지를 기술용어, 발생시간, 생산자 정보, 위치정보를 포함하여 연관관계가 있는지를 추적한다.
상기의 추적에 의하여 연관된 기술이 있는지를 확인하고(S180), 연관된 기술이 있는 것으로 확인되면 추적된 기술정보를 지식 데이터베이스와 디알에스 수단에 제공하여 기록 및 응용하고, 도표 및 테이블 등에 의한 문서로 출력한다(S190).
또한, 상기 과학정보 데이터베이스의 운용부하가 소정 비율로 높은 경우, 이알에이 수단에 의하여 웹이 포함되는 외부자원으로부터 질의어, 기술문헌 정보 등을 수집하여 에알이에스 수단 및 과학정보 데이터베이스의 외부 데이터베이스에 제공하여 기록하고(S200), 상기 출력과정(S170)으로 진행한다.
상기와 같은 구성의 본 발명은 자연어 처리법, 패턴 인식, 데이터 발굴법 등으로 특정 분야의 기술 문서를 제한 검색 및 추출하므로, 대용량의 정보를 실시간으로 검색하고 분석하는 장점이 있다.
본 발명을 일례로 설명하였으나, 반드시 이러한 일례에 국한되는 것이 아니고, 본 발명의 기술사상을 벗어나지 않는 범위 내에서 다양하게 변형 실시될 수 있 다. 따라서 본 발명에 개시된 일례들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 일례에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 한다.
도 1 은 일반적인 기술 정보의 발굴 개념도,
도 2 는 본 발명의 일례에 의한 것으로 데이터베이스의 의미기반 기술용어 발굴 장치로 최종 목표를 달성하기 위한 단계별 작용 설명도,
도 3 은 본 발명의 일례에 의한 것으로 데이터베이스의 의미기반 기술용어 발굴 장치 기능 구성도,
도 4 는 본 발명의 일례에 의한 것으로 데이터베이스의 의미기반 기술용어 발굴 장치를 구성하는 분석수단의 상세 기능 구성도,
도 5 는 본 발명의 일례에 의한 것으로 데이터베이스의 의미기반 기술용어 발굴 장치를 구성하는 추적수단의 상세 기능 구성도,
도 6 은 본 발명의 일례에 의한 것으로 데이터베이스의 의미기반 기술용어 발굴 장치를 구성하는 관리 데이터베이스의 상세 기능 구성도,
도 7 은 본 발명의 일례에 의한 것으로 데이터베이스의 의미기반 기술용어 발굴 장치를 구성하는 과학정보 데이터베이스의 상세 기능 구성도,
도 8 은 본 발명의 일례에 의한 것으로 데이터베이스의 의미기반 기술용어 발굴 장치를 구성하는 분석수단의 지식 데이터베이스의 상세 기능 구성도,
도 9 는 본 발명의 일례에 의한 것으로 데이터베이스의 의미기반 기술용어 발굴 장치에 의하여 추적되는 기술용어의 연관관계 설명도,
도 10 은 본 발명의 일례에 의한 것으로 데이터베이스의 의미기반 기술용어 발굴 장치의 전체 상세 기능 구성도,
도 11 은 본 발명의 일례에 의한 것으로 데이터베이스의 의미기반 기술용어 발굴 방법 순서도.
** 도면의 주요 부분에 대한 부호 설명 **
100 : ARM 수단 110 : TRS 수단
120 : 분석수단 122 : TAS 수단
124 : TLA 수단 126 : TAMA 수단
130 : 추적수단 132 : SAM 수단
134 : SATT 수단 136 : TCM 수단
140 : 관리 데이터베이스 142 : 기술용어사전 DB
144 : 문맥정보 데이터베이스 150 : 과학정보 데이터베이스
152 : 특허 데이터베이스 154 : 논문 데이터베이스
156 : 외부 데이터베이스 160 : ARES 수단
170 : ERA 수단 180 : DRS 수단
190 : 지식 데이터베이스 192 : 기술지식 데이터베이스
194 : 검증집합 데이터베이스

Claims (8)

  1. 관리 데이터베이스로부터 특정 기술 분야의 정보를 검색할 신규 및 시드의 기술용어와 문맥정보에 기반한 질의어를 검색하여 출력하는 에이알엠(ARM) 수단;
    상기 에이알엠 수단으로부터 입력되는 기술용어와 문맥정보에 기반한 질의어가 포함되는 문서집합과 해당 포스팅 정보를 과학정보 데이터베이스로부터 추출하는 티알에스(TRS) 수단;
    상기 티알에스 수단이 제공하는 문서집합과 포스팅 정보로부터 기술용어와 문맥정보를 추출하고, 기술용어들의 연관관계를 분석하는 분석수단;
    상기 분석수단으로부터 기술용어, 문맥정보, 연관관계 정보와 문서집합을 제공받고 기술용어의 발생시간, 발생위치, 저자를 포함하여 발생빈도, 연관, 확장의 관계에 의한 기술지식을 추적하여 추출하는 추적수단;
    상기 분석수단이 추출한 기술용어, 문맥정보, 연관관계 정보를 제공받고 신규 기술용어와 문맥정보를 추출하여 관리 데이터베이스에 기록하는 에이알이에스(ARES) 수단; 및
    상기 에이알이에스 수단에 접속하고 외부 자원으로부터 기술용어, 문맥정보, 연관관계와 기술문서를 추출하여 제공하는 이알에이(ERA) 수단; 을 포함하는 데이터베이스의 의미기반 기술용어 발굴 장치.
  2. 제 1 항에 있어서,
    상기 추적수단이 소정 시간 동안 추적하여 누적한 기술지식을 분석하여 서비스 시나리오를 제공하는 디알에스(DRS) 수단;
    상기 분석수단, 추적수단이 분석하고 추적한 신규의 기술지식을 기록하고 관리하는 지식 데이터베이스;
    상기 에이알이에스 수단으로부터 기술용어와 문맥정보를 제공받고 기록하여 관리하고 상기 에이알엠 수단과 분석수단에 제공하는 관리 데이터베이스; 및
    상기 티엘에스 수단에 접속하고 특허, 논문, 기술보고서와 상기 이알에이 수단이 외부로부터 추출한 기술문서를 기록하여 관리하고 검색에 의하여 제공하는 과학정보 데이터베이스; 를 더 포함하는 데이터베이스의 의미기반 기술용어 발굴 장치.
  3. 제 1 항에 있어서, 상기 에이알엠 수단은,
    상기 관리 데이터베이스로부터 입력된 신규 및 시드의 기술용어에 기반하여 선택횟수가 비교적 많고 특정 기술영역과 기술패턴의 문서집합을 검색하는 질의어를 추출하고, 상기 관리 데이터베이스로부터 입력된 신규 및 시드의 문맥정보에 의하여 자주 출현하는 어휘 패턴의 질의어를 추출하며 상기 티알에스 수단에 제공하는 구성으로 이루어지는 것을 특징으로 하는 데이터베이스의 의미기반 기술용어 발굴 장치.
  4. 제 1 항에 있어서, 상기 티알에스 수단은,
    상기 에이알엠 수단으로부터 기술용어와 문맥정보의 질의어를 입력하고 부하가 소정값 이하로 운용되는 상태의 상기 과학정보 데이터베이스로부터 상기 질의어와 지정된 품사, 문장성분이 포함되는 문서들의 집합 및 각 문서의 포스팅 정보를 추출하는 구성으로 이루어지는 것을 특징으로 하는 데이터베이스의 의미기반 기술용어 발굴 장치.
  5. 제 1 항에 있어서, 상기 분석수단은,
    상기 티알에스 수단으로부터 문서집합과 포스팅 정보를 입력하고 기술용어와 문맥정보를 추출하는 타스 수단;
    상기 티알에스 수단으로부터 문서집합과 포스팅 정보를 입력하고 지식 데이터베이스로부터 신규 기술용어 집합을 입력하며 문서들 사이에서의 기술 연관관계 정보를 추출하여 에이알이에스 수단과 지식 데이터베이스에 제공하는 타마 수단;
    상기 타스 수단과 타마 수단으로부터 추출된 결과를 입력하고 시소러스, 온톨로지, 어휘 지능망을 이용하여 기술용어 후보를 타스 수단에 제공하고 기술용어의 연관관계를 타마 수단에 제공하는 티엘에이 수단; 을 포함하는 구성으로 이루어지는 것을 특징으로 하는 데이터베이스의 의미기반 기술용어 발굴 장치.
  6. 제 5 항에 있어서, 상기 타스 수단은,
    상기 티알에스 수단으로부터 입력된 문서집합으로부터 품사 나열 방식의 패턴 분석으로 기술용어를 추출하고, 관리 데이터베이스에 기록되지 않은 신규 기술용어를 자동과 수동 방식으로 분류하며, 분류된 기술용어에 의한 문맥정보를 추출하여 에이알이에스 수단에 제공하고, 질의된 문맥정보와 함께 사용되는 기술용어를 추출하며 관리 데이터베이스에 기록되지 않은 신규 기술용어를 자동과 수동 방식으로 분류하고, 분류된 기술용어에 의한 문맥정보를 추출하여 에이알이에스 수단에 제공하는 구성으로 이루어지는 것을 특징으로 하는 데이터베이스의 의미기반 기술용어 발굴 장치.
  7. 제 5 항에 있어서, 상기 타마 수단은,
    상기 티알에스 수단으로부터 입력되는 문서집합으로부터 기술용어의 품사 정보 패턴 및 어휘에 의하여 연관관계를 추출하고, 기존의 연관관계 정보를 자동으로 재확인하며, 추출된 연관관계를 자동과 수동으로 검증하고, 시소러스, 온톨로지, 어휘지능망에 의하여 연관관계를 분석하여 에이알이에스에 제공하고 특정 기술에 의한 연관관계 정보를 지식 데이터베이스에 제공하는 구성으로 이루어지는 것을 특징으로 하는 데이터베이스의 의미기반 기술용어 발굴 장치.
  8. 제 1 항에 있어서, 상기 추적수단은,
    상기 분석수단으로부터 추출된 기술용어와 문서내용과 연관관계의 정보를 입력하고 수동과 자동으로 기술지식을 추적하는 사트 수단;
    상기 사트 수단으로부터 기술용어, 연관관계, 문서내용의 정보를 입력하고 지식 데이터베이스로부터 누적된 기술용어, 연관관계, 문서내용의 정보를 입력하여 통계적 분석결과를 제공하는 샘 수단; 및
    상기 사트 수단으로부터 기술용어, 연관관계, 문서내용의 정보를 입력하고 지식 데이터베이스로부터 누적된 기술용어, 연관관계, 문서내용의 정보를 입력하여 기술집합으로 분류하고 군집화한 결과를 제공하는 티시엠 수단; 을 포함하는 구성으로 이루어지는 것을 특징으로 하는 데이터베이스의 의미기반 기술용어 발굴 장치.
KR1020080040595A 2008-04-30 2008-04-30 대용량 데이터베이스의 의미기반 기술용어 발굴 장치 KR100963667B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020080040595A KR100963667B1 (ko) 2008-04-30 2008-04-30 대용량 데이터베이스의 의미기반 기술용어 발굴 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080040595A KR100963667B1 (ko) 2008-04-30 2008-04-30 대용량 데이터베이스의 의미기반 기술용어 발굴 장치

Publications (2)

Publication Number Publication Date
KR20090114778A true KR20090114778A (ko) 2009-11-04
KR100963667B1 KR100963667B1 (ko) 2010-06-15

Family

ID=41555986

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080040595A KR100963667B1 (ko) 2008-04-30 2008-04-30 대용량 데이터베이스의 의미기반 기술용어 발굴 장치

Country Status (1)

Country Link
KR (1) KR100963667B1 (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011062311A1 (ko) * 2009-11-11 2011-05-26 한국과학기술정보연구원 기술용어 간 관계 추출용 테스트 컬렉션 반자동 구축을 위한 프레임워크
KR101067830B1 (ko) * 2010-10-07 2011-09-27 한국과학기술정보연구원 다중 자원의 통합에 의한 자원 검색 장치 및 방법
WO2012046906A1 (ko) * 2010-10-07 2012-04-12 한국과학기술정보연구원 다중 자원을 통합한 지식베이스를 이용하여 연구 주체간의 상관관계가 표시된 자원검색 정보 제공 장치 및 방법
KR101866790B1 (ko) * 2016-12-09 2018-06-18 아주대학교 산학협력단 기술 문서를 이용한 기술관계 네트워크 생성 방법 및 장치
KR20190097669A (ko) * 2018-02-13 2019-08-21 고려대학교 산학협력단 기술 문서 키워드를 도출하는 장치 및 방법

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100421091B1 (ko) * 2000-05-31 2004-03-10 노영희 의미망 지식베이스를 이용한 개념기반 정보검색시스템
KR20070060993A (ko) * 2005-12-08 2007-06-13 한국전자통신연구원 텍스트 마이닝을 이용한 단백질 상호작용 검증 방법 및시스템
KR100815563B1 (ko) * 2006-08-28 2008-03-20 한국과학기술정보연구원 Dbms 기반 지식 확장 및 추론 서비스 시스템 및 그방법

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011062311A1 (ko) * 2009-11-11 2011-05-26 한국과학기술정보연구원 기술용어 간 관계 추출용 테스트 컬렉션 반자동 구축을 위한 프레임워크
KR101104113B1 (ko) * 2009-11-11 2012-01-13 한국과학기술정보연구원 기술용어 간 관계 추출용 테스트 컬렉션 반자동 구축을 위한 시스템
KR101067830B1 (ko) * 2010-10-07 2011-09-27 한국과학기술정보연구원 다중 자원의 통합에 의한 자원 검색 장치 및 방법
WO2012046905A1 (ko) * 2010-10-07 2012-04-12 한국과학기술정보연구원 다중 자원의 통합에 의한 자원 검색 장치 및 방법
WO2012046906A1 (ko) * 2010-10-07 2012-04-12 한국과학기술정보연구원 다중 자원을 통합한 지식베이스를 이용하여 연구 주체간의 상관관계가 표시된 자원검색 정보 제공 장치 및 방법
KR101866790B1 (ko) * 2016-12-09 2018-06-18 아주대학교 산학협력단 기술 문서를 이용한 기술관계 네트워크 생성 방법 및 장치
KR20190097669A (ko) * 2018-02-13 2019-08-21 고려대학교 산학협력단 기술 문서 키워드를 도출하는 장치 및 방법

Also Published As

Publication number Publication date
KR100963667B1 (ko) 2010-06-15

Similar Documents

Publication Publication Date Title
Nasar et al. Textual keyword extraction and summarization: State-of-the-art
Dimitrakis et al. A survey on question answering systems over linked data and documents
Mishra et al. A survey on question answering systems with classification
CN103124980B (zh) 包括从多个文档段收集答案的提供问题答案
Medelyan et al. Mining meaning from Wikipedia
KR101045955B1 (ko) 문맥의 의미적 연관관계 추출 방법 및 그 장치와 그 프로그램 소스를 저장한 기록 매체
Aletras et al. Evaluating topic representations for exploring document collections
Punuru et al. Learning non-taxonomical semantic relations from domain texts
KR100963667B1 (ko) 대용량 데이터베이스의 의미기반 기술용어 발굴 장치
Dojchinovski et al. Crowdsourced corpus with entity salience annotations
Li et al. Emotion-cause span extraction: a new task to emotion cause identification in texts
Chandurkar et al. Information retrieval from a structured knowledgebase
González-Gallardo et al. Injecting temporal-aware knowledge in historical named entity recognition
Radev et al. Evaluation of text summarization in a cross-lingual information retrieval framework
KR100963668B1 (ko) 대용량 데이터베이스의 의미기반 기술용어 발굴 방법
Cui et al. Mining concepts from wikipedia for ontology construction
Sanfilippo et al. Ontological annotation with wordnet
El-salam et al. Extracting Arabic relations from the web
Rijvordt et al. Ontology-driven news classification with aethalides
Garrido et al. NEREA: Named entity recognition and disambiguation exploiting local document repositories
Reshadat et al. Confidence measure estimation for open information extraction
Maree et al. Coupling semantic and statistical techniques for dynamically enriching web ontologies
Majid et al. Semantics in social tagging systems: A review
Molino et al. QuestionCube: a Framework for Question Answering.
Keyvanpour et al. A Useful Framework for Identification and Analysis of Different Query Expansion Approaches based on the Candidate Expansion Terms Extraction Methods.

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130410

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20140408

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20150520

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20160406

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20170327

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20181030

Year of fee payment: 9