KR20080029417A - 시맨틱 웹 어노테이션을 위한 웹 문서의 자동 의미정보추출 방법 및 그 시스템 - Google Patents

시맨틱 웹 어노테이션을 위한 웹 문서의 자동 의미정보추출 방법 및 그 시스템 Download PDF

Info

Publication number
KR20080029417A
KR20080029417A KR1020060095510A KR20060095510A KR20080029417A KR 20080029417 A KR20080029417 A KR 20080029417A KR 1020060095510 A KR1020060095510 A KR 1020060095510A KR 20060095510 A KR20060095510 A KR 20060095510A KR 20080029417 A KR20080029417 A KR 20080029417A
Authority
KR
South Korea
Prior art keywords
web
semantic
semantic information
learning data
ontology
Prior art date
Application number
KR1020060095510A
Other languages
English (en)
Inventor
김홍기
강보영
구상옥
최희철
하이타오
Original Assignee
김홍기
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 김홍기 filed Critical 김홍기
Priority to KR1020060095510A priority Critical patent/KR20080029417A/ko
Publication of KR20080029417A publication Critical patent/KR20080029417A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

1. 발명이 속한 기술분야
본 발명은 웹 문서내의 내의 각종 의미 정보를 자동으로 추출하는 방법 및 시스템에 관한 것이다.
2. 발명이 해결하려고 하는 기술적 과제
본 발명은 비정형화된 웹 문서로부터 정형화된 지식베이스인 온톨로지의 인스턴스를 자동으로 추출함으로써 대용량 웹의 의미화 및 자동화 작업을 가속화 하는데 그 목적이 있다.
3. 발명의 해결방법의 요지
본 발명에서는 나날이 신종 복합어가 생겨나고, 비정형화된 대용량의 웹 문서로부터 자동으로 의미정보를 추출해 내어, 특정 온톨로지의 인스턴스(instance 또는 individual)로 분류 가능한 의미 정보를 추출하기 위하여, SVM(Support Vector Machine)과 베이지안 분류기(Bayesian Classifier)를 이용한다. 두 방법 모두 사용자 감독이 필요한 기계학습방법으로써 학습데이터 생성, 학습, 분류 및 결정이라는 세 가지 과정에 따라 진행된다.
본 발명의 전체 시스템 구성은 대용량의 웹문서를 수집하고 HTML태그 제거, 형태소 분석 및 복합어 분해, 그리고 사용자가 학습데이터 편집기를 통해 의미태깅을 한 학습데이터를 생성하는 학습데이터 생성부; 학습데이터를 이용하여 SVM과 베이지안 분류기를 생성하고 두 분류학습기를 통합하는 통합 분류기 생성부; 새로운 웹 문서를 입력으로 하여 통합분류기를 통해 의미정보를 자동으로 추출하고 이를 온톨로지 인스턴스로 생성하는 의미정보 추출부로 이루어진다.
웹 어노테이션, 시맨틱 어노테이션, 의미정보 추출, 온톨로지 인스턴스 생성

Description

시맨틱 웹 어노테이션을 위한 웹 문서의 자동 의미정보 추출 방법 및 그 시스템 {Automatic Semantic Information Extraction from Web Documents for Semantic Web Annotation}
도 1은 본 발명에 의한 웹 문서의 자동 의미정보 추출 및 어노테이션 시스템의 전체 구성도를 도시한 것이다.
도 2는 본 발명에 의한 학습 데이터 생성부의 구성도를 도시한 것이다.
도 3은 본 발명에 의한 웹 문서 의미정보 추출 시스템의 구성 및 새로운 웹 문서의 의미정보 추출 과정을 도시한 것이다.
본 발명은 실용적인 시맨틱 웹 어플리케이션의 구현을 위해서 대용량의 웹 문서로부터 의미 정보를 추출하는 방법 및 이를 온톨로지의 특정 클래스와 매핑, 즉 온톨로지의 인스턴스를 자동으로 생성하는 시스템에 관한 것이다.
정보기술(IT) 학계 및 산업계에는 시맨틱 웹의 실현을 위한 각종 정보 표현 기술 및 상호운용적인 서비스를 위한 개발 플랫폼과 같은 인프라 구축이 절실히 요구되어 왔다. 이에 시맨틱 웹을 위한 정보표현 기술과 시맨틱 웹 서비스를 위한 플랫폼 개발은 지난 4-5년간 W3C와 같은 컨소시엄의 표준화 작업 및 수많은 관련 프로젝트의 성황으로 많은 발전이 있어왔다. 정보표현 기술로서는 RDF(Resource Description Framework)나 OWL(Web Ontology Language)과 같은 XML기반의 각종 마크업언어 및 이러한 언어로 표현 및 구축하고자 하는 범용 지식베이스인 온톨로지가 있다. JENA와 같은 추론 엔진은 온톨로지들 로부터 특정 의미 정보를 추론하여 가지고 올 수 있는 시스템이다. 시맨틱 웹의 구현을 위한 각종 기술들은 SOA(Service-Oriented Architecture) 스타일 기반의 각종 시맨틱 웹 서비스 시스템으로 통합될 수 있다.
시맨틱 웹을 위한 각종 응용 시스템의 구현에 있어서 상기의 인프라구축과 함께 매우 중요한 요소는 바로 실제로 의미 있는 정보를 각종 출처를 통해 추출해 내고, 이를 가공하여 언제든지 적절한 질의로 정보를 인출해 낼 수 있는 지식베이스 즉 온톨로지를 구축하는 작업이다. 그러나 수동으로 방대한 온톨로지를 구축하기 위해서는 많은 도메인 전문가의 시간과 노력이 필요하다.
기존 웹 서비스 및 시스템에는 자동으로 웹 문서로부터 도메인 온톨로지와 부합되는 의미적인 정보를 추출하여 이를 온톨로지의 인스턴스로 자동으로 생성하는 방법 및 시스템은 없었다.
시맨틱 웹의 실제적인 응용을 위해서는 정확하고 강력한 표현기술을 가지고, 유연하고 효율적인 플랫폼에서 '살아있는 데이터'를 '자동'으로 시스템이 이해할 수 있는 형태의 정보로 가공하는 기술이 필요하다.
본 발명은 수많은 사람 및 회사 및 국가에 의해서 만들어진 대용량의 웹 문서들로부터 도메인 온톨로지의 인스턴스를 자동으로 생성하여, 의미정보검색과 같은 시맨틱 웹의 실제 응용 분야에 활용될 수 있는 온톨로지를 자동으로 구축하고자 한다.
상기의 기술적 과제를 이루기 위하여 본 발명에 의한 웹 문서 의미정보 자동 추출 시스템은 웹 문서를 수집 및 분석하고 사용자(도메인전문가)에 의해 의미정보의 정답 집합을 구축하는 학습데이터 생성부(100); 상기 시스템에서 자동으로 의미정보를 추출하기 위해 각각SVM(Support Vector Machine)(200)과 베이지안 분류기(Bayesian Classifier)(300)를 생성하는 부분; 두 가지 방법에 의한 결과인 특성벡터를 통합한 분류학습기(400); 마지막으로 분류학습기를 통해 추출된 웹 문서 상의 의미정보를 도메인온톨로지(600)와 매핑하고, 매핑된 클래스에 대한 인스턴스를 생성하는 부분(800)으로 구성된다.
학습 데이터 생성부(100)는 방대한 웹을 항해하면서 대용량의 웹 문서를 수집하는 웹 문서 수집 장치(102); 수집된 웹 문서를 주소로 인덱싱하여 저장하는 웹 문서 저장장치(103); 저장된 웹 문서의 HTML 태그를 제거하여, 순수 텍스트로 변환하는 HTML 태그 제거 모듈(150); 자연어로 된 텍스트로 변환된 웹 문서에 품사 태그를 붙여주는 형태소분석 모듈(160)로 구성되는 전처리부와 도메인 전문가(사용자)(700)가 특정 도메인 온톨로지(600)를 바탕으로 전처리된 웹 문서들에 학습데이터 편집장치(500)를 이용하여 수동으로 의미태그를 붙여주는 학습데이터 편집부가 있다. 마지막으로 복합어 분해 모듈(170)은 도메인 전문가의 정답 의미 태그 및 모든 문서집합의 명사들을 추출하고, 복합어 분해를 통해 SVM과 베이지안 분류기 생성을 용이하게 하는 형태로 학습데이터를 가공하는 모듈이며, 이렇게 가공된 학습데이터는 학습데이터 저장장치(105)에 저장된다.
웹 문서에서 자주 출현하는 어휘들의 특징은 여러 개의 단어들이 결합하여 새로운 의미 또는 복합적인 의미를 가지는 복합어의 사용빈도가 높다는 것이다. 그리고 이런 복합어들은 대부분 ‘식당’ 또는 각종 ‘가게’ 이름, 또는 ‘요리명’이나 ‘상품명’과 같은 일상생활 속에서 자주 접할 수 있는 고유명사인 경우가 많다. 사람들이 이러한 이름들을 지을 때, 그 고유명사의 특성을 나타내는 단어를 조합하여 짓기 때문에, 같은 의미를 가진 복합어들은 비슷한 패턴을 가진 경우가 많다. 예를 들어, ‘서울집’, ‘강변집’ 과 같은 식당이름을 나타내는 복합어로 된 고유명사 들은 ‘-집’이라는 단어를 후미로 공유하며, ‘서울’ 또는 ‘강변’과 같은 지명을 나타내는 단어들이 접두에 있는 형태이다. 학습문서에 이러한 패턴이 많이 나온다면, '<지명> +집’의 패턴은 식당이름으로 분류될 가능성이 높아지는 것으로 학습된다. 따라서 웹 문서를 주된 입력으로 간주하는 상기 기술적 과제를 이루기 위해서 웹 문서의 특성을 반영하여, 복합어 분해과정을 통해 학습데이터의 단어들을 분해하고, 복합어를 이루는 단일어들의 조합 패턴을 인식하는 분류기를 생성함으로써, 자동으로 특정 의미에 부합하는 어휘들을 웹 문서로부터 추출해 낸다.
의미정보 인식을 위한 복합어의 조합 패턴인식 및 분류 작업이라는 기술적 과제를 이루기 위해 본 발명은 패턴인식 및 분류에 일반적으로 이용되고 있는 SVM과 베이지안 분류 학습 알고리즘을 도입한다. 두 방법 모두 학습데이터 생성부(100)에서 구축된 학습데이터, 즉 웹 문서내의 의미정보가 태깅된 복합어 분해가 완료된 단어들을 입력으로 하여, 단일어로 이루어진 의미특성벡터
Figure 112006071387219-PAT00001
를 구성한다. (wi는 단일어)
먼저 다량의 웹 문서 학습을 통해서 나중에 새로운 웹 문서에 대한 의미정보 추출을 자동화하기 위한 SVM과 베이지안 분류기의 학습방법을 살펴본다.
SVM은 V. Vapnik과 그의 공동 연구자들에 의해 패턴인식의 효과적이고 일반화된 방 법으로 제안되었는데, 구조적 위험 최소화(structural risk minimization)의 개념에 기반한 최적의 선형 결정 평면(optimal linear decision surface)을 찾는 이진 분류 방법이다. 결정평면은 학습 집합 원소들의 가중화된 조합(weighted combination)으로, 이러한 학습 집합의 원소들을 support vector라고 부르고,
이것은 두 클래스 간의 경계면을 나타낸다. 태깅된 학습 샘플 집합 S = {f(yi ; xi)|i=1...n} 가 있다고 할 때, 여기서 xi∈Rd 이고, yi는 관련된 레이블이다 (yi∈{-1,1}). 선형 분리 데이터를 가정할 때, 최대 여백 분류(maximum margin classification)의 목표는 support vectors의 거리가 최대화되는 초월면(hyperplane)에 의해 두 개의 클래스를 분리하는 것이다. 이러한 초월면은 최적 경계 초월면(OSH: optimal separating hyperplane)이라고 불린다. OSH는 다음과 같은 수학식 1과 같이 나타낼 수 있다.
Figure 112006071387219-PAT00002
목적함수(object function)과 결정함수(decision function) 두 가지 함수 모두 데이터 벡터 x의 내적(dot product)에 의해 표현됨에 따라, 계산적으로 복잡한 매핑 은 명시적으로 계산할 필요가 없다.
SVM의 기본적인 목적은 (wo; bo) 로 표현되는 하나의 최적 경계 초월면(OHP)를 찾는 것이다. 이 최적 경계 초월면은 입력벡터와 초월면사이의 거리를 최소화 함으로써 입력벡터를 정확하게 분류한다. mini |w xj+ bj| 를 1로 만드는 최소화 작업 후에, 수학식 2의 목적함수 Ol 을 최소화함으로써 최적 경계 초월면을 얻을 수 있다.
Figure 112006071387219-PAT00003
Figure 112006071387219-PAT00004
베이지안 분류기는 수학식 3의 Bayes 정리로부터 유도된다. 즉 문서 분류를 위한 베이지안 분류기는 여러 특성(자질) 변수 F1... Fn이 주어졌을 때, 이에 영향을 받는 조건 확률 변수 C에 대한 조건확률 모델을 사용한다.
Figure 112006071387219-PAT00005
상기 기술적 과제를 이루기 위한 Naive Bayes 알고리즘은 복합어에 나타나는 각 단일어들이 서로 독립이라는 가정하여, 복합어 집합에 대한 단일어의 출현 빈도와 복합어 내에서의 단일어의 출현 빈도를 이용한다. 학습절차는 먼저 학습 문서집합에서 복합어 집합을 추출하고, 복합어 집합에서 의미범주 cj에 대한 확률 Pr(cj)와 의미범주 cj에 대한 단일어 wi 의 조건부 확률 Pr(wi|cj)를 계산한다. 학습을 통하여 계산된 확률 값들은 수학식 4에서와 같은 MAP(maximum a posteriori)결정 규칙을 이용하여 Naive Bayesian분류 를 적용하여, 새로운 단어의 의미범부 결정을 수행한다.
Figure 112006071387219-PAT00006
도 3은 입력으로 새로운 웹 문서가 주어졌을 때, 본 발명의 실시에 따른 통합 분류학습기를 이용하여, 자동으로 웹 문서의 의미정보를 추출하고, 이를 가공하여 온톨로지 인스턴스를 생성하는 절차 및 구성을 도시한 것이다. 상기의 학습데이터 생성부(100)와 공통인 부분은 웹 문서의 HTML 태그를 제거하고 형태소 분석을 하는 전처리 단계이다. 전처리 후 복합어 분해를 거치면 SVM과 베이지안 분류기의 학습결과 정보가 통합된 통합 분류 학습기(400)의 입력으로 들어가게 되고, 분류기를 통 해 나온 결과를 바탕으로 해당 문서의 각 단어들에 대한 의미정보를 결정, 추출하게 된다(810). 추출된 의미정보들은 도메인 온톨로지의 특정 클래스에 매핑되어 온톨로지 인스턴스로 생성된다(820).
본 발명은 웹 문서에서의 의미정보 추출을 주된 목적으로 하나, 뉴스 기사 또는 일반 텍스트 문서에 대해서도 동일한 방법이 적용될 수 있으며, 복잡한 형태의 문장 분석을 하지 않으므로, 정형화되지 않은 텍스트에도 적용가능하다. 따라서 본 시스템은 웹 문서뿐 아니라, 웹 문서로써 가공 가능한 일반 문서에 대한 의미정보 자동 추출 시스템을 포함한다.
본 발명의 예에서는 단어들을 한글을 사용하여 표현하였으나, 이것은 일례에 불과한 것으로 상기 단어들은 단지 한글뿐만 아니라, 영어, 일어, 중국어 등의 다양한 언어로 표현될 수 있다. 또한 응용 시스템은 지능형 로봇, 지능형 에이전트, 시맨틱 웹 어노테이터, 각종 시맨틱 웹 서비스 프로그램, 온톨로지 구축 도구 등의 의미정보를 필요로 하고 사용하는 모든 시스템을 포함한다.
상술한 바와 같은 본 발명의 방법은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 형태로 기록매치(CD-ROM, RAM, ROM, DVD-ROM, 플로피디스크, 하드디스크, USB메모리, 광자기디스크 등)에 저장될 수 있다. 이러한 과정은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있으므로 더 이상 상세히 설 명하지 않기로 한다.
이상에서 설명한 본 발명은, 본 발명이 소하는 기술 분야에서 통상의 지식을 가진 자에게 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로, 이 발명의 보호범위는 첨부된 청구범위에 의해서만 한정될 것이며, 전술한 실시에 및 첨부된 도면에 의해 한정되는 것이 아니다.
본 발명은 웹 기반 도메인 온톨로지 구축에 직접적으로 활용될 수 있다.
웹을 기반으로 구축된 온톨로지는 시맨틱 웹 기반 의미정보검색 시스템을 만들기 위해 활용될 수 있으며, 도메인 전문가에 의한 온톨로지와 웹을 기반으로 한 자동 구축된 온톨로지 간의 차이를 비교하는 연구에도 활용가능하다. 시맨틱 웹 기반 의미정보검색 시스템은 사용자의 기존 일반 웹 정보검색에 비해 복잡한 형태의 사용자 질의도 온톨로지 추론을 통해 성공적으로 답을 줄 수 있는 훨씬 지능적인 검색 시스템이다.
본 발명에서 기술한 SVM 및 베이지안 분류기를 이용한 의미정보 추출 기법은 자동으로 의미 태깅된 웹 문서 집합을 의미적으로 분류하는 의미기반 웹 문서 분류시스템에 활용될 수 있다.
본 발명에서 기술한 SVM 및 베이지안 분류기를 이용한 의미정보 추출 기법은 자동으로 의미 태깅된 전자메일 집합을 의미적으로 분류하는 의미기반 전자메일 분류시스템에 활용될 수 있다.

Claims (1)

  1. 청구항 1.
    웹 문서를 입력으로 받아서 형태소분석 및 복합명사분해를 통해 문서를 분석하고, 기계 학습 방법을 이용해 자동으로 의미정보를 추출하는 모듈 및
    상기 추출된 의미 정보를 온톨로지 형태의 범용 지식베이스의 인스턴스로 할당하여 온톨로지 기반 지식을 생성하는 태깅(tagging) 또는 어노테이션(annotation) 시스템
    청구항 2.
    1항에 있어서 웹 문서 자동 학습 및 의미정보 추출을 위한 상기 기계학습 방법으로서
    SVM(Support Vector Machine)을 사용하는 모듈 및 장치
    청구항 3.
    1항에 있어서 웹 문서 자동 학습 및 의미정보 추출을 위한 상기 기계학습 방법으로서
    베이지안 분류기(Bayesian Classifier)을 사용하는 모듈 및 장치
    청구항 4.
    2항 또는 3항의 의미정보 추출 방법을 활용하여 의미 태깅을 함으로써, 웹 문서 분류 또는 전자메일 분류를 하는 시스템
KR1020060095510A 2006-09-29 2006-09-29 시맨틱 웹 어노테이션을 위한 웹 문서의 자동 의미정보추출 방법 및 그 시스템 KR20080029417A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020060095510A KR20080029417A (ko) 2006-09-29 2006-09-29 시맨틱 웹 어노테이션을 위한 웹 문서의 자동 의미정보추출 방법 및 그 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020060095510A KR20080029417A (ko) 2006-09-29 2006-09-29 시맨틱 웹 어노테이션을 위한 웹 문서의 자동 의미정보추출 방법 및 그 시스템

Publications (1)

Publication Number Publication Date
KR20080029417A true KR20080029417A (ko) 2008-04-03

Family

ID=39531992

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060095510A KR20080029417A (ko) 2006-09-29 2006-09-29 시맨틱 웹 어노테이션을 위한 웹 문서의 자동 의미정보추출 방법 및 그 시스템

Country Status (1)

Country Link
KR (1) KR20080029417A (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102566572A (zh) * 2011-12-06 2012-07-11 山东交通学院 一种基于贝叶斯方法的多软件机器人演化定位方法
KR101286284B1 (ko) * 2011-12-30 2013-07-15 건국대학교 산학협력단 온 더 플라이 학습 기반 검색을 이용한 큐 오 에스 인식 웹 서비스 구성방법
KR101593371B1 (ko) * 2015-05-27 2016-02-16 중앙대학교 산학협력단 텍스트 데이터에 대한 성향 분류 장치 및 이를 이용한 의사 결정 지원 시스템
CN110968101A (zh) * 2019-12-19 2020-04-07 南京航空航天大学 基于本体和贝叶斯网络的无人驾驶车辆行为决策方法
JP2022122230A (ja) * 2021-02-09 2022-08-22 アウー インテリジェンス, インコーポレイテッド トレジャーキーワードの抽出及びトレジャーキーワードネットを形成する方法、並びに、そのシステム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102566572A (zh) * 2011-12-06 2012-07-11 山东交通学院 一种基于贝叶斯方法的多软件机器人演化定位方法
CN102566572B (zh) * 2011-12-06 2017-07-11 山东交通学院 一种基于贝叶斯方法的多软件机器人演化定位方法
KR101286284B1 (ko) * 2011-12-30 2013-07-15 건국대학교 산학협력단 온 더 플라이 학습 기반 검색을 이용한 큐 오 에스 인식 웹 서비스 구성방법
KR101593371B1 (ko) * 2015-05-27 2016-02-16 중앙대학교 산학협력단 텍스트 데이터에 대한 성향 분류 장치 및 이를 이용한 의사 결정 지원 시스템
CN110968101A (zh) * 2019-12-19 2020-04-07 南京航空航天大学 基于本体和贝叶斯网络的无人驾驶车辆行为决策方法
JP2022122230A (ja) * 2021-02-09 2022-08-22 アウー インテリジェンス, インコーポレイテッド トレジャーキーワードの抽出及びトレジャーキーワードネットを形成する方法、並びに、そのシステム

Similar Documents

Publication Publication Date Title
US9262406B1 (en) Semantic frame identification with distributed word representations
Antony et al. SVM based part of speech tagger for Malayalam
CN111950273A (zh) 基于情感信息抽取分析的网络舆情突发事件自动识别方法
Antony et al. Kernel based part of speech tagger for kannada
US11983501B2 (en) Apparatus and method for automatic generation of machine reading comprehension training data
CN111046656A (zh) 文本处理方法、装置、电子设备及可读存储介质
CN112541337B (zh) 一种基于递归神经网络语言模型的文档模板自动生成方法及系统
CN113221559B (zh) 利用语义特征的科技创新领域中文关键短语抽取方法及系统
CN115759071A (zh) 基于大数据的政务敏感信息识别系统和方法
KR20080029417A (ko) 시맨틱 웹 어노테이션을 위한 웹 문서의 자동 의미정보추출 방법 및 그 시스템
Zhao et al. Classification of natural language processing techniques for requirements engineering
CN112711666B (zh) 期货标签抽取方法及装置
Anbananthen et al. Evolution of opinion mining
Tadesse et al. Event extraction from unstructured amharic text
Li et al. Chinese frame identification using t-crf model
Bhardwaj et al. A machine learning approach to sentiment analysis on web based feedback
Pertsas et al. Ontology-driven information extraction from research publications
CN111680493A (zh) 英语文本分析方法、装置、可读存储介质及计算机设备
Sadek et al. Building a causation annotated corpus: the Salford Arabic Causal Bank-proclitics
Stoikov Using Conditional Probability for Discovering Semantic Relationships be-tween Named Entities in Cultural Heritage Data
SAMIR et al. AMAZIGH NAMED ENTITY RECOGNITION: A NOVEL APPROACH.
CN117150046B (zh) 基于上下文语义的任务自动分解方法和系统
Priya Sentiment Analysis for Online Movie Reviews using SVM
Gebeyehu et al. Information extraction model from Ge’ez texts
Boujelben et al. Enhancing machine learning results for semantic relation extraction

Legal Events

Date Code Title Description
WITN Withdrawal due to no request for examination