WO2011062311A1 - 기술용어 간 관계 추출용 테스트 컬렉션 반자동 구축을 위한 프레임워크 - Google Patents

기술용어 간 관계 추출용 테스트 컬렉션 반자동 구축을 위한 프레임워크 Download PDF

Info

Publication number
WO2011062311A1
WO2011062311A1 PCT/KR2009/006828 KR2009006828W WO2011062311A1 WO 2011062311 A1 WO2011062311 A1 WO 2011062311A1 KR 2009006828 W KR2009006828 W KR 2009006828W WO 2011062311 A1 WO2011062311 A1 WO 2011062311A1
Authority
WO
WIPO (PCT)
Prior art keywords
relationship
terminology
builder
association
technical terms
Prior art date
Application number
PCT/KR2009/006828
Other languages
English (en)
French (fr)
Other versions
WO2011062311A8 (ko
Inventor
정창후
최성필
최윤수
윤화묵
류범종
Original Assignee
한국과학기술정보연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술정보연구원 filed Critical 한국과학기술정보연구원
Priority to EP09851496.1A priority Critical patent/EP2500830A4/en
Publication of WO2011062311A1 publication Critical patent/WO2011062311A1/ko
Publication of WO2011062311A8 publication Critical patent/WO2011062311A8/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 기술용어 간 관계 추출용 테스트 컬렉션 반자동 구축을 위한 프레임워크에 관한 것으로서, 문헌에 존재하는 기술용어와 이들 간의 연관관계를 언어 자원을 기반으로 시스템적으로 처리하여, 제한된 문헌과 개체들을 기반으로 소규모의 테스트 컬렉션을 구축하는 기존의 접근법에서 벗어나 대규모의 학술 데이터 베이스와 다양한 분야의 전문용어 사전, 그리고 최신의 기계학습 알고리즘을 활용하여 실용적인 테스트 컬렉션을 구축하는 기술용어 간 관계 추출용 테스트 컬렉션 반자동 구축을 위한 프레임워크를 제공하여, 정형화되고 시간이 많이 소요되는 작업을 자동화시킴으로써, 구축자의 노력을 최소화할 수 있고, 구축자의 성향에 따라 발생하는 결과의 편차를 줄일 수 있는 효과가 있다.

Description

기술용어 간 관계 추출용 테스트 컬렉션 반자동 구축을 위한 프레임워크
본 발명은 기술용어 간 관계 추출용 테스트 컬렉션 반자동 구축을 위한 프레임워크에 관한 것으로서, 더욱 상세하게는 폭넓은 분야에 속하는 기술용어 간의 연관관계를 처리하기 위해서 용어 쌍을 포함하는 문장 내에서의 관계표현 디스크립터를 언어 자원을 이용하여 시스템적으로 추상화시키고, 기술용어 간의 후보 연관관계를 제시하여 이들 중에서 가장 적합한 관계를 구축자가 최종적으로 선택하도록하는 기술용어 간 관계 추출용 테스트 컬렉션 반자동 구축을 위한 프레임워크에 관한 것이다.
인터넷의 발전으로 인해 방대한 정보가 유통되면서 구축자의 정보에 대한 요구도 다양해 지고 있다. 기존의 정보 검색이나 정보 분류를 뛰어넘어 이제는 정보에 대한 요약 및 핵심정보 추출과 같은 좀 더 세밀한 정보의 가공을 요구하고 있는 추세이다. 이러한 흐름의 일환으로 관계 추출 시스템의 중요성이 날로 부각되고 있다.
하지만, 시스템 개발과 관련하여 시스템의 성능 평가 지표가 부족하다는 것이 현재 가장 큰 문제점이 되고 있다.
또한, 현재까지 발표된 대부분의 관계 추출 시스템들은 결과물에 대한 표본 추출을 통한 수작업 검증으로 성능 평가를 수행하고 있다.
관계 추출 시스템의 객관적인 비교 평가는 문서에서 중요하게 인식되는 기술용어와 이들 간의 연관관계로 이루어진 트리플 집합이 제대로 갖추어졌을 경우에 가능하다.
다시 말해서, 관계 추출 시스템의 객관적인 신뢰도 평가를 위해서는 체계적으로 구축된 테스트 컬렉션이 필요하다. 테스트 컬렉션은 주로 문헌 내에 존재하는 기술용어, 기술용어 사이의 연관관계, 적합성 판단을 거친 트리플 집합 등으로 구성되어 있다.
이러한 테스트 컬렉션은 해당 분야의 연구뿐만 아니라 상용화 시스템의 성능을 평가하여 적절한 시스템을 선택하는 데에도 매우 중요한 역할을 하므로 관련 기술의 발전뿐만 아니라 궁극적으로는 정보 유통에 있어서는 경쟁력 강화에도 필수적인 역할을 수행한다.
따라서, 대부분의 정보 시스템을 개발할 때에는 응용 분야에 맞게 구축되어진 테스트 컬렉션을 사용하여 시스템의 평가를 수행하는 과정이 필연적으로 따라오게 된다.
텍스트에 출현하는 기술용어 간의 연관관계를 수동으로 설정하는 일은 매우 어려운 작업이다. 만일 적용 대상이 특정 분야에 한정된 경우라면 해당 분야 전문가에 의해서 기술용어 식별이나 연관관계 설정 작업이 이루어질 수 있다.
그러나 이 역시도 매우 까다로운 작업이며 세분화된 설정 기준(미리 정의된 연관관계 집합, 관계설정 방법 및 판단기준 등)과 분야 전문가의 어휘적 판단능력 등이 요구된다는 문제점이 있다.
따라서, 본 발명의 목적은 문헌에 존재하는 기술용어와 이들 간의 연관관계를 언어 자원을 기반으로 시스템적으로 처리하여, 제한된 문헌과 개체들을 기반으로 소규모의 테스트 컬렉션을 구축하는 기존의 접근법에서 벗어나 대규모의 학술 데이터 베이스와 다양한 분야의 전문용어 사전, 그리고 최신의 기계학습 알고리즘을 활용하여 실용적인 테스트 컬렉션을 구축하는 기술용어 간 관계 추출용 테스트 컬렉션 반자동 구축을 위한 프레임워크를 제공하는 것이다.
상술한 목적을 달성하기 위하여, 본 발명은 문서의 구문적 특성과 의미적 특성을 시스템적으로 처리하여 쌍을 이루는 전문용어와 관련연관관계 후보군으로 이루어진 트리플을 생성하는 자동 프로세스부, 상기 자동 프로로세스가 생성한 후보 트리플을 구축자 단말기에 제공하고, 제공된 후보 트리플 중에서 구축자가 구축자 단말기를 통해 최종적으로 선택한 트리플을 수신할 수 있도록 하는 수동 프로세스부, 상기 자동 프로세서에 의해 생성되는 트리플과, 상기 트리플 중에서 상기 수동 프로세스에 의해 선택된 트리플을 수신하여 테스트 컬렉션을 구축하고, 구축된 테스트 컬렉션을 데이터 베이스부에 저장하는 테스트 콜렉션 구축부, 및 상기 자동 프로세스부와 수동 프로세스부 그리고 테스트 콜렉션 구축부의 유기적인 동작이 이루어지도록 제어하는 중앙 처리부를 포함하는 것을 특징으로 하는 기술용어 간 관계 추출용 테스트 컬렉션 반자동 구축을 위한 프레임워크를 제공한다.
상기에서, 설명한 본 발명에 따른 관계 추출 시스템은 프레임 워크는 정형화되고 시간이 많이 소요되는 작업을 자동화시킴으로써, 구축자의 노력을 최소화할 수 있고, 구축자의 성향에 따라 발생하는 결과의 편차를 줄일 수 있는 효과가 있다.
또한, 본 발명의 관계 추출 시스템은 자원이 처리되는 과정뿐만 아니라, 그 자원 자체 또는 품질이 우수하고, 체계적으로 갖추어진 문서 처리 프로세스와 질 좋은 기반 데이터를 사용하여 양질의 테스트 컬렉션을 추출해 냄으로써, 품질 좋은 결과물을 생성할 수 있는 효과가 있다.
도 1은 본 발명에 따른 기술용어 간 관계 추출용 테스트 컬렉션 반자동 구축을 위한 프레임워크의 블록도,
도 2는 본 발명에 따른 기술용어 간 관계 추출용 테스트 컬렉션 반자동 구축을 위한 프레임워크에서 사용자 단말기에 제공된 전문용어가 포함된 문장이 제공된 화면을 캡쳐한 도면,
그리고,
도 3은 본 발명에 따른 기술용어 간 관계 추출용 테스트 컬렉션 반자동 구축을 위한 프레임워크에서 구축자의 선택사항이 구축자 단말기에 제공된 화면을 캡쳐한 도면이다.
본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정 해석되지 아니하며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다.
이하, 첨부된 도 1 내지 도 3을 참조하여 본 발명에 따른 기술용어 간 관계 추출용 테스트 컬렉션 반자동 구축을 위한 프레임워크에 대하여 상세하게 설명한다.
도 1은 본 발명에 따른 기술용어간 관계 추출용 테스트 컬렉션 반자동 구축을 위한 프레임워크의 블락도를 도시한 도면이다.
도 1에 도시된 바와 같이, 본 발명에 따른 기술용어간 관계 추출용 테스트 컬렉션 반자동 구축을 위한 프레임워크는 중앙처리부(100), 자동 프로세서부(200), 수동 프로세서부(300), 테스트 콜렉션 생성부(400) 및 데이터 베이스부(500)를 포함한다.
자동 프로세서부(200)는 문헌의 구문적 특성과 의미적 특성을 시스템적으로 처리하여 후보 트리플을 생성하며, 수동 프로세서부(300)는 자동 프로세서부(200)가 생성한 후보 트리플 중에서 가장 적합한 트리플을 구축자가 최종적으로 선택한다.
상술한 자동 프로세서부(200)와 수동 프로세서부(300)의 작업을 거쳐서 생성되는 테스트 컬렉션은 트리플 및 연관관계의 의미정보, 트리플이 출현한 문맥 정보(트리플이 추출된 문장), 트리플의 분야 정보 등을 포함한다.
상술한 바와 같이, 문헌의 구문적 특성과 의미적 특성을 시스템적으로 처리하여 후보 트리플을 생성하는 자동 프로세서부(200)는 문서 분석부(210), 전문용어 태깅부(220), 기술용어 인식부(230), 용어간 연관관계 인식부(240), 연관관계 개념화부(250) 및 후보 트리플 생성부(260)를 포함한다.
수동 프로세서부(300)는 반자동 관계추출 테스트 컬렉션 구축 프레임 워크와 구축자 단말기의 정보교환 이루어지도록 함으로써, 자동 프로세서부(200)가 생성한 후보 트리플을 구축자 단말기에 제공하고, 제공된 후보 트리플 중에서 구축자가 선택한 트리플을 수신한다.
문서 분석부(210)는 원본 데이터베이스를 분석하는 기능으로 문서에 대한 구문 분석과 더불어 품사 태깅, 구절 청킹 등의 작업을 수행한다. 이 과정에서 어휘변형을 해소하고 복합어 처리를 위한 다양한 특수 규칙이나 알고리즘을 사용한다.
상술한 품사 태깅이란, 자연 언어처리의 기본작업에 해당하는 것으로, 자연언어에 인식표(이를 태그<tag>라 함)를 붇여 컴퓨터가 이를 이해할 수 있도록 하는 방법이다.
이 태크는 본래 가방이나 옷에 달려 있는 가격표 같은 것으로, 언어처리에서는 단어마다 붙어 있는 품사정보를 뜻한다.
예를 들어, 아래과 같은 문장에 태그를 붙이면, 어떠한 모습이 되는지 알아보자.
가. 나는 학교에 간다.
나. 나/npp+는/jx 학교/nc+에/jca 가/pv+ㄴ다/ef ./s.
위에서 npp, jx, nc, jca, pv, ef, s 등은 모두 품사를 나타내는 표딱지, 즉 태그(tag)이며, 이러한 기호들의 집합을 태그집합 또는 태그세트(TAG SET)라고 한다.
전문용어 태깅부(220)는 데이터 베이스부(500)의 전문용어DB(710)저장된 16개 분야 253,603건 규모의 전문용어 사전을 사용하여 문헌에 존재하는 전문용어를 식별하는 기능을 수행한다.
기술용어 인식부(230)는 문서에서 중요한 의미를 가지고 있는 기술용어를 식별하고 이를 추출 및 정제하는 기능으로 기술용어를 식별하기 위해서 다양한 기계학습 알고리즘을 사용한다.
기술용어 간 연관관계 인식부(240)는 식별된 기술용어 간의 연관관계를 파악하는 기능으로 문장의 구문 패턴을 이용하여 용어 쌍이 가지고 있는 관계를 인식하고, 패턴분석 이후에 용어쌍이 연관관계를 가질 수 있는 형태이면 연관관계를 표현하는 디스크립터(Descriptor:기술어)를 추출한다.
연관관계 개념화부(250)는 데이터 베이스부(500)의 워드넷DB(530)와 같은 의미망을 활용하여 획득된 디스크립터의 개념을 추상화하고 이를 의미적으로 클러스터링하는 작업으로 의미 확장을 통해서 다양한 후보 연관관계를 생성한다.
즉, 연관관계 개념화부(250)는 다양한 의미를 가질 수 있는 디스크립터를 의미망을 활용하여 가각 최상위 레벨의 의미로 추상화시킨 후, 해당 의미를 기술용어 간의 연관관계로 활용한다.
참고로, 상술한 워드넷DB(530)는 단어를 유의어 집단으로 분류하여 간략하고 일반적인 정의를 제공하고, 이러한 어휘목록 사이의 다양한 의미 관계를 기록함으로써, 사전(단어집)과 시소러스(유의어·반의어 사전)의 배합을 만들어, 보다 직관적으로 사용할 수 있고 자동화된 본문 분석과 인공지능 응용을 뒷받침 한다.
후보 트리플 생성부(260)는 기술용어와 추상화된 다양한 연관관계를 이용하여 후보 트리플을 생성하는데, 상기 후보 트리플은 연관관계의 종류에 따라서 결정된다.
자동 프로세서부(200)가 생성한 후보 트리플 중에서 가장 적합한 트리플을 구축자가 최종적으로 선택하도록 하는 수동 프로세서부(300)는 트리플 결정 지원 도구(310), 트리플 선택 인터페이스(320) 및 트리플 관리 인터페이스(330)를 포함한다.
수동 프로세서부(300)의 구축자 선택 인터페이스(320)와 구축자 관리 인터페이스(330)는 수동 프로세서부(300)가 구축자(또는 구축자) 단말기와 의사소통을 할 수 있도록 일시적 또는 영구적인 접근을 목적으로 만들어진 물리적 가상적 매개체이다.
즉, 구축자 선택 인터페이스(320)와 구축자 관리 인터페이스(330)는 구축자가 시스템을 조작하기 위한 입력신호와 그로 인한 시스템의 반응 결과를 구축자에게 제공하는 출력신호의 입·출력 경로이다.
그리고, 트리플 결정 지원도구(310)은 상술한 구축자 선택 인터페이스(320)과 구축자 관리 인터페이스(330)를 통해 구축자가 후보 트리플 집합의 적합성을 판정을 통하여 최종 트리플의 결정을 지원하기 위해서 연관관계의 의미정보 및 문맥 정보 등을 참조할 수 있도록 제공한다.
기술용어 간 관계 추출용 테스트 컬렉션 반자동 구축을 위한 프레임워크를 이용하여 구축된 테스트 컬렉션의 품질을 보증받기 위해서 데이터 베이스부(500)의 전문용어DB(510)는 다음의 세가지 조건을 만족하여야 한다.
먼저, 기반 데이터로 대용량의 데이터 베이스가 필요하다. 문헌 내에 존재하는 용어 및 관계 추출의 재현율을 높이고 결과의 변동성을 최소화하기 위해서는 대용량의 데이터를 가지고 문서 분석 작업을 수행할 필요가 있기 때문이다.
다음으로 여러 분야를 포괄하는 전문용어 사전이 필요하다. 문헌에 존재하는 다양한 용어를 인식하기 위해서는 분야정보를 다양화할 필요가 있기 때문이다.
마지막으로, 객관적인 적합성 판정을 유도할 수 있는 표준화된 프로세스가 갖춰야 한다.
구축자마다 편차가 심한 결과를 생성한다면 프레임워크의 신뢰성이 떨어지게 되기 때문이다.
본 발명에 따른 기술용어 간 관계 추출용 테스트 컬렉션 반자동 구축을 위한 프레임워크는 위의 세가지 전제 조건을 만족시키기 위해서,첫 번째로 관학기술분야에 걸친 3,000만 건 이상의 해외 학술데이터를 저장·관리하고 있다.
두 번째로 본 발명에 따른 기술용어 간 관계 추출용 테스트 컬렉션 반자동 구축을 위한 프레임워크는 16개 분야 253,603건 규모의 전문용어 사전을 사용하고 있는데, 더욱 구체적으로는 건축공학(2,653), 금속공학(1,233), 기계공학(56,880), 기계공학(56,880), 물리학(11,901), 산업공학(755), 생물학(73,562), 수학(5,519), 의학(181,825), 전기전자공학(1,243), 전산학(3,157), 지구과학(7,338), 지리학(5,916), 토목공학(655), 화학(19,436), 화학공학(451) 및 환경공학(936))에 관한 전문용어 사전 데이터를 포함하고 있다.
세 번째로 본 발명에 따른 기술용어 간 관계 추출용 테스트 컬렉션 반자동 구축을 위한 프레임워크는 각종 언어처리와 구문분석, 기계학습을 시스템적으로 처리하여 기술용어와 연관관계로 이루어진 후보 트리플 집합을 효과적으로 생성한다.
동시에 본 발명에 따른 기술용어 간 관계 추출용 테스트 컬렉션 반자동 구축을 위한 프레임워크는 트리플이 추출된 문맥 정보, 연관관계의 의미 정보, 의미메 맞게 사용된 예제문과 같은 정보를 추가적으로 제공하여 구축자가 연과관계를 결정하는 작업을 좀 더 쉽고 명확하게 수행하도록 한다.
이하에서, 상술한 구성들로 이루어진 기술용어 간 관계 추출용 테스트 컬렉션 반자동 구축을 위한 프레임워크에 의한 테스트 컬렉션 구축 방법에 대하여 구체적으로 설명한다.
먼저, 자동 프로세서부(200)는 원본DB(540)에 저장된 문서로부터 서로 연관성을 가지는 기술용어 쌍을 추출해 내고 추출해낸 기술용어들 사이의 후보 연관관계 집합을 추출해 내는데, 그 구체적인 예가 [표 1]에 도시되어 있다.
표 1
기술용어 후보 연관관계 기술용어
interstitial_lung_disease 1.(keep, maintain, hold)2.(persist, remain, stay)3.(be) tropical_pulmonary_eosinophilia
inner_limiting_membranes 1.(think, cogitate, cerebrate)2.(act, move)3.(examine, see)4.(analyze, study, examine) atomic_force_microscopy
innate_immune_responses 1.(make, create)2.(act, move)3.(trigger) pattern_recognition_receptors
inhaled_nitric_oxide 1.(change, alter, modify)2.(oppress, suppress, crush)3.(inhibit, bottle_up, suppress)4.(make, create)5.(appoint, charge)6.(have, have_got, hold)7.(move, displace) pulmonary_vascular_resistance
표 1에서 볼 수 있듯이 각 기술용어 쌍 별로 연관계들이 복수로 지정된다.
따라서, 테스트 컬렉션 구축 과정은 이러한 후보 연관관계 중에서 가장 적절한 관계를 지정하는 작업으로 정의될 수 있다.
수동 프로세스부(300)를 통해 구축자는 두 기술용어 간의 관계를 보다 세밀하게 분석하기 위해서 기술용어가 포함된 문장들을 참고하게 된다.
본 발명에서 테스트 컬력션의 구축은 기술용어로서의 전문성 정도가 비교적 강한 3단어 이상으로 구성된 용어집합을 대상으로 하는데, 상기 3단어 이상 기술용어 쌍은 총 6.144개이며, 도 2에 도시된 바와 같이 각 쌍마다 용어 태깅된 참고 문장이 지정되어 있다.
또한, 3단어 이상 기술용어 쌍은 기술용어 쌍 DB(550)저장되어, 중앙 처리부(100)가 추출하여 수동 프로세서부(300)를 통해 구축자의 단말기에 제공된다.
상술한 [표 1]에서 살펴본 바와 같이 트리플은 전문용어의 쌍과 관련연관관계 후보군으로 이루어진다.
아래의 [표 2]는 전문용어의 쌍과 관련연관관계 후보군 집합으로부터, 테스트 컬렉션을 구축하기 위해 기술용어에 대한 분석과 연관관계에 대한 관계를 추출하는 작업을 정의하고 있다.
표 2
관계구분 내용
관계설정불가 - 두 전문용어가 S+V+O 형태를 구성하지 못함. - 전문용어의 전문성이 결여됨.
관계를 찾지 못함 - 두 전문용어가 S+V+O 형태를 구성하고 있으나 후보 연관관계가 적절한지 못한 경우.
관계추출 성공 - 두 전문용어가 S+V+O 형태이고, 후보 연관관계가 적절한 경우. - 연관관계에 대한 "수동","능동"에 대한 구분. _ 연관관계에 대한 "긍정","부정"에 대한 구분.
상기 표2에서 정리된 바과 같이, 용어간 연관관계 인식부(240)는 쌍을 이루는 두 전문용어간 `관계 설정불가`, `관계를 찾지 못함` 및 `관계추출 성공`과 같이 3가지로 관계구분하여 인식한다.
상기 관계 설정불가는 두 전문용어가 "S+V+O"형태로 이루어 지지 않는 경우(보기1)와 두 전문용어 중 하나라도 전문용어로 판단되지 않는 경우(보기2)가 있다.
Figure PCTKR2009006828-appb-I000001
(보기1)에서 전문용어로 추출된 두 단어가 `cevical spinal cord injury`와 `lower urinary tract`는 두 용어 사이에 위치한 연관관계 `underwent`와 관련이 없고, underwent(V)는 patients(S)와 lower urinary tract(O)에 대한 연관관계로 판단되므로, `관계설정불가`로 처리된다.
(보기2)는 두 개의 전문용어가 S+V+O를 구성하고 있지만, 두 번째 전문용어로 추출된 `no significant change`가 전문성이 결여되는 것으로 판단되어 `관계설정부가`로 처리 된다.
`관계를 찾지 못함`은 두 전문용어와 연관관계가 S+V+O형태로 구성되어 있지만, 아래의 (보기3)과 같이 후보 연관관계에서 적절한 연관관계를 찾지 못하는 경우 이다.
여기에 해당하는 연관관계는 추후 새로 정의할 필요가 있지만 현 단계에서 미분류로 가정한다.
Figure PCTKR2009006828-appb-I000002
'관계추출 성공`은 두 전문용어과 연관관계가 S+V+O 형태를 구성하고, 후보 연관관계에서 적절한 연관관계를 할당할 수 있는 경우로써, 이 경우에는 두 용어간의 관계가 `능동`인지 `수동`인지와 `긍정`인지 `부정`인지에 대한 설정되 함께 수행한다.
`능동``수동`에 대한 판단을 결정할 때는 연관관계와 두 전문용어의 위치를 조합하여 결정해야 한다.
또한, 아래의 (보기4)는 `central nervous system`과 `the immune system` 두 전문용어과 관련한 문장으로, 이문장에서 추출된 연관관계는 `affect`로서, 문장에서는 `능동`으로 사용되었지만, 전문용어의 위치가 바뀌어져 있으므로 `수동`으로 설정해야 한다.
Figure PCTKR2009006828-appb-I000003
도 3은 구축자가 테스트 컬렉션 구축을 위한 웹페이지에서 `bone mineral density`와 `quantitative computed tomography` 두 전문용어를 입력하고 검색한 화면이다.
구축자는 중앙 처리부(100)가 입력된 두 전문용어를 포함하는 문장을 수동 프로세서부(300)를 통해 구축자 단말기의 디스플레이부에 제공하면, 구축자는 전문용어가 포함된 문장을 살펴보고, 관계추출이 가능한지를 우선 결정한다.
이때, 중앙 처리부(100)는 구축자가 관계를 결정할 때 전문용어에 대한 의미를 쉽게 파악할 수 있도록 전문용어에 대한 한글 대역어애 대한 검색화면도 구축자 단말기의 디스플레이부에 함께 지원한다.
즉, 도 3에 도시된 바와 같이, 상단에 있는 `bone_mineral_density` @ `quantitative_computed_tomography`링크를 클릭하면, 중앙 처리부(100)는 도 4와 같이 두 전문용어에 대한 한글 대역본을 전문용어DB(510)에서 추출하여 구축자 단말기의 디스플레이부에 제공한다.
이후, 구축자는 관계추출이 가능하다고 판단되면, 후보군으로 설정된 관계 중에서 가장 적합하다고 판단되는 관계를 선택하고 저장버튼을 클릭한다.
수동 프로세서부(300)의 선택 인터페이스(320)는 구축자의 선택을 수신하고, 데이터 베이스부(500)의 구축자 선택정보DB(560)에 저장한다.
상술한 바와 같이 제공된 웹페이지에서 구축자의 선택사항이 구축자에 의해 선택됨에 따라 구축된 테스트 콜렉션은 아래의 [표 3]과 같은 형식으로 데이터 베이스부(500)의 테스트 콜렉션DB(520)에 텍스트 파일로 저장된다.
표 3
Term1@Term2 관계추출 Term1 전문성결여 Term2 전문성결여 수동태 부정 sentence
blood_pressure_measurements@no_significant_change 관계설정불가 0 1 0 0 ....
ow_alloy_steel@direct_reduced_iron produce,make, create 0 0 1 0 ....
이상에서 본 발명은 기재된 구체 예에 대해서만 상세히 설명되었지만 본 발명의 기술사상 범위 내에서 다양한 변형 및 수정이 가능함은 당업자에게 있어서 명백한 것이며, 이러한 변형 및 수정이 첨부된 특허청구범위에 속함은 당연한 것이다.
본 발명은 기술용어 간 관계 추출용 테스트 컬렉션 반자동 구축을 위한 프레임워크에 관한 것으로서, 대규모의 학술 데이터 베이스와 다양한 분야의 전문용어 사전, 그리고 기계학습 알고리즘을 활용하여 실용적인 테스트 컬렉션을 구축하는 기술용어 간 관계 추출용 테스트 컬렉션 반자동 구축을 위한 프레임워크를 제공하여, 정형화되고 시간이 많이 소요되는 작업을 자동화시킴으로써, 작업의 효율성과 향상시킬 수 있는 효과가 있다.

Claims (10)

  1. 문서의 구문적 특성과 의미적 특성을 시스템적으로 처리하여 쌍을 이루는 전문용어와 관련연관관계 후보군으로 이루어진 트리플을 생성하는 자동 프로세스부(200);
    상기 자동 프로세스(200)가 생성한 후보군 트리플을 구축자 단말기에 제공하고, 제공된 후보 트리플 중에서 구축자가 구축자 단말기를 통해 최종적으로 선택한 트리플을 수신할 수 있도록 하는 수동 프로세스부(300);
    상기 수동 프로세스(300)에 의해 선택된 트리플을 수신하여 테스트 컬렉션을 구축하고, 구축된 테스트 컬렉션을 데이터 베이스부(500)에 저장하는 테스트 콜렉션 구축부(400); 및
    상기 자동 프로세스부(200)와 수동 프로세스부(300) 그리고 테스트 콜렉션 구축부(400)의 유기적인 동작이 이루어지도록 제어하는 중앙 처리부(100);를 포함하는 것을 특징으로 하는 기술용어 간 관계 추출용 테스트 컬렉션 반자동 구축을 위한 프레임워크.
  2. 제 1항에 있어서,
    자동 프로세스부(200)는
    문서에 대한 구문 분석과 더불어 품사 태깅, 구절 청킹 등의 작업을 수행하는 문서 분석부(210);
    상기 데이터 베이스부(500)의 전문용어DB(510)에 저장된 전문용어 사전을 이용하여, 상기 문서에 존재하는 전문용어를 식별하는 전문용어 태깅부(220);
    문서에서 중요한 의미를 가지고 있는 기술용어를 식별하고 이를 추출 및 정제하는 기술용어 인식부(230);
    상기 기술용어 인식부(230)에 의해 식별된 기술용어 간의 연관관계를 파악하고, 문장의 구문 패턴을 이용하여 용어 쌍이 가지고 있는 관계를 인식하여, 패턴분석 이후에 용어쌍이 연관관계를 가질 수 있는 형태이면 연관관계를 표현하는 디스크립터(Descriptor:기술어)를 추출하는 기술용어 간 연관관계 인식부(240) ;
    상기 기술용어 간 연관관계 인식부(240)에 의해 추출된 디스크립터의 개념을 상기 데이터 베이스부(500)의 워드넷DB(530)와 같은 의미망을 활용하여 추상화하고 이를 의미적으로 클러스터링하는 작업으로 의미 확장을 통해서 다양한 후보 연관관계를 생성하는 연관관계 개념화부(250); 및
    상기 기술용어와 추상화된 다양한 연관관계를 이용하여 후보 트리플을 생성하는 후보 트리플 생성부(260);를 포함하는 것을 특징으로 하는 기술용어 간 관계 추출용 테스트 컬렉션 반자동 구축을 위한 프레임워크.
  3. 제 1항에 있어서,
    수동 프로세스부(300)는
    구축자가 시스템을 조작하기 위한 입력신호와 그로 인한 시스템의 반응 결과를 구축자에게 제공하는 출력신호의 입·출력 경로인 구축자 선택 인터페이스(320)와 구축자 관리 인터페이스(330);
    상기 구축자 선택 인터페이스(320)과 구축자 관리 인터페이스(330)를 통해 구축자가 후보 트리플 집합의 적합성을 판정하여 최종 트리플 결정을 지원하기 위해서 연관관계의 의미정보 및 문맥 정보 등을 참조할 수 있도록 제공하는 트리플 결정 지원도구(310);를 포함하는 것을 특징으로 하는 기술용어 간 관계 추출용 테스트 컬렉션 반자동 구축을 위한 프레임워크.
  4. 제 2항에 있어서,
    연관관계 인식부(240)는 구축자의 판단에 따라 구축자 단말기로부터 관계추출이 가능한지 여부에 대한 입력신호를 수신하여, 전문용어간의 연관관계를 `관계설정불가`, `관계를 찾지 못함` 또는 `관계추출 성공`으로 추출하는 것을 특징으로 하는 기술용어 간 관계 추출용 테스트 컬렉션 반자동 구축을 위한 프레임워크.
  5. 제 4항에 있어서,
    상기 연관관계 인식부(240)는 두 전문용어와의 연관관계가 `S+V+O`형태로 이루어 지지 않은 경우와, 두 전문용어 중 하나라도 전문용어로 판단되지 않은 경우에 전문용어간의 연관관계를 `관계설정불가`로 추출하는 것을 특징으로 하는 기술용어 간 관계 추출용 테스트 컬렉션 반자동 구축을 위한 프레임워크.
  6. 제 4항에 있어서,
    상기 연관관계 인식부(240)는 두 전문용어와의 연관관계가 `S+V+O`형태로 구성되어 있지만 후보 연관관계에서 적절한 연관관계를 찾지 못하는 경우에 전문용어간의 연관관계를 `관계를 찾지 못함`으로 추출하는 것을 특징으로 하는 기술용어 간 관계 추출용 테스트 컬렉션 반자동 구축을 위한 프레임워크.
  7. 제 4항에 있어서,
    상기 연관관계 인식부(240)는 두 전문용어와의 연관관계가 `S+V+O`형태로 구성되고, 후보 연관관계에서 적절한 연관관계를 할당할 수 있는 경우에 전문용어간의 연관관계를 `관계추출 성공`으로 추출하되, 두 용어간 긍정인지 부정인지에 대한 설정과 능동이지 수동인지에 대한 설정도 함께 수행하는 것을 특징으로 하는 기술용어 간 관계 추출용 테스트 컬렉션 반자동 구축을 위한 프레임워크.
  8. 제 1항에 있어서,
    상기 수동 프로세스부(300)는 쌍을 이루는 전문용어와 관련연관관계 후보군을 포함하는 트리플을 구축자 단말기에 제공시, 전문용어가 포함된 문장을 함께 제공하는 것을 특징으로 하는 기술용어 간 관계추출용 테스트 컬렉션 반자동 구축을 위한 프레임워크.
  9. 제 1항에 있어서,
    상기 수동 프로세스부(300)는 구축자가 전문용어에 대한 의미를 용이하게 파악할 수 있도록 한글대역어를 함께 제공하는 것을 특징으로하는 기술용어 간 관계추출용 테스트 컬렉션 반자동 구축을 위한 프레임워크.
  10. 제 1항에 있어서,
    상기 테스트 콜렉션 구축부(400)에 의해 구축된 테스트 콜렉션은 트리플 및 연관관계의 의미 정보, 트리플이 출현한 문맥 정보(트리플 추출된 문장) 및 트리플의 분야 정보를 포함하는 것을 특징으로 하는 기술용어 간 관계 추출용 테스트 컬렉션 반자동 구축을 위한 프레임워크.
PCT/KR2009/006828 2009-11-11 2009-11-19 기술용어 간 관계 추출용 테스트 컬렉션 반자동 구축을 위한 프레임워크 WO2011062311A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
EP09851496.1A EP2500830A4 (en) 2009-11-11 2009-11-19 FRAMEWORK FOR THE SEMI-AUTOMATIC DESIGN OF A COLLECTION TEST USED IN THE EXTRACTION OF RELATIONS BETWEEN TECHNICAL TERMS

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2009-0108695 2009-11-11
KR1020090108695A KR101104113B1 (ko) 2009-11-11 2009-11-11 기술용어 간 관계 추출용 테스트 컬렉션 반자동 구축을 위한 시스템

Publications (2)

Publication Number Publication Date
WO2011062311A1 true WO2011062311A1 (ko) 2011-05-26
WO2011062311A8 WO2011062311A8 (ko) 2011-08-11

Family

ID=44059776

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2009/006828 WO2011062311A1 (ko) 2009-11-11 2009-11-19 기술용어 간 관계 추출용 테스트 컬렉션 반자동 구축을 위한 프레임워크

Country Status (3)

Country Link
EP (1) EP2500830A4 (ko)
KR (1) KR101104113B1 (ko)
WO (1) WO2011062311A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020009297A1 (ko) * 2018-07-05 2020-01-09 미디어젠 주식회사 도메인 추출기반의 언어 이해 성능 향상장치및 성능 향상방법

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101939384B1 (ko) * 2017-03-27 2019-01-16 전북대학교산학협력단 용어사전 구축 장치 및 구축 방법이 구현된 프로그램이 저장된 컴퓨터로 판독 가능한 기록매체

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060122276A (ko) * 2005-05-26 2006-11-30 주식회사 다음기술 온톨로지 자동 구축을 위한 문서로부터 개념 간의 관계추출
KR20090091990A (ko) * 2008-02-26 2009-08-31 엔에이치엔(주) 고속화 검색 모델링 시스템 및 방법
KR20090114778A (ko) * 2008-04-30 2009-11-04 한국과학기술정보연구원 대용량 데이터베이스의 의미기반 기술용어 발굴 장치

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100069958A (ko) * 2008-12-17 2010-06-25 한국과학기술원 온톨로지 구축에서 용어를 공유하는 패턴 쌍을 이용한 의미관계 추출 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060122276A (ko) * 2005-05-26 2006-11-30 주식회사 다음기술 온톨로지 자동 구축을 위한 문서로부터 개념 간의 관계추출
KR20090091990A (ko) * 2008-02-26 2009-08-31 엔에이치엔(주) 고속화 검색 모델링 시스템 및 방법
KR20090114778A (ko) * 2008-04-30 2009-11-04 한국과학기술정보연구원 대용량 데이터베이스의 의미기반 기술용어 발굴 장치

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"Korean society for Internet information 2008 Regular General Meeting and Fall Conference, 07-08 November 2008", vol. 9, article JEONG, CHANG-HOO ET AL.: "Fundamental Study on Extracting Relations between Technical Terms", pages: 667 - 671 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020009297A1 (ko) * 2018-07-05 2020-01-09 미디어젠 주식회사 도메인 추출기반의 언어 이해 성능 향상장치및 성능 향상방법

Also Published As

Publication number Publication date
EP2500830A1 (en) 2012-09-19
KR101104113B1 (ko) 2012-01-13
WO2011062311A8 (ko) 2011-08-11
EP2500830A4 (en) 2013-05-29
KR20110051885A (ko) 2011-05-18

Similar Documents

Publication Publication Date Title
Leser et al. What makes a gene name? Named entity recognition in the biomedical literature
Lussier et al. PhenoGO: assigning phenotypic context to gene ontology annotations with natural language processing
Hakenberg et al. Gene mention normalization and interaction extraction with context models and sentence motifs
Gelfand et al. Comparative analysis of regulatory patterns in bacterial genomes
Park et al. Korean-to-chinese machine translation using chinese character as pivot clue
Nenadić et al. Mining semantically related terms from biomedical literature
US20060020916A1 (en) Automatic Derivation of Morphological, Syntactic, and Semantic Meaning from a Natural Language System Using a Monte Carlo Markov Chain Process
WO2011062311A1 (ko) 기술용어 간 관계 추출용 테스트 컬렉션 반자동 구축을 위한 프레임워크
Rondon et al. Never-ending multiword expressions learning
Zimmermann et al. Information extraction in the life sciences: perspectives for medicinal chemistry, pharmacology and toxicology
Atwell et al. Pattern recognition applied to the acquisition of a grammatical classification system from unrestricted English text
WO2022114447A1 (ko) 유사 임상 시험 데이터 제공 방법 및 이를 실행하는 서버
Li Research on Chinese entity relation extraction method based on deep learning
WO2022102827A1 (ko) 과학 기술 논문을 위한 지식 추출 시스템
Akhtar et al. A machine learning approach for Urdu text sentiment analysis
Mima et al. A methodology for terminology-based knowledge acquisition and integration
Couto et al. ProFAL: PROtein Functional Annotation through Literature.
Afzal et al. Towards semantic annotation of bioinformatics services: building a controlled vocabulary
Rashida et al. Trends and techniques of biomedical text mining: a review
Xu et al. Public opinion classification and text alignment based on Chinese and Tibetan corpus
WO2023128020A1 (ko) 다국가 임상데이터 표준화 방법 및 장치
A Abdullah Semi-Extractive Text Summarization Approach to Extract Research Objective of Academic Literature
Hakenberg et al. Collecting a large corpus from all of MedLine.
Afzal et al. Mining semantic descriptions of bioinformatics web resources from the literature
Wang et al. An extensible framework of leveraging syntactic skeleton for semantic relation classification

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09851496

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2009851496

Country of ref document: EP