KR102464248B1 - Spo의 추출 방법, 장치, 전자기기 및 저장 매체 - Google Patents

Spo의 추출 방법, 장치, 전자기기 및 저장 매체 Download PDF

Info

Publication number
KR102464248B1
KR102464248B1 KR1020210006103A KR20210006103A KR102464248B1 KR 102464248 B1 KR102464248 B1 KR 102464248B1 KR 1020210006103 A KR1020210006103 A KR 1020210006103A KR 20210006103 A KR20210006103 A KR 20210006103A KR 102464248 B1 KR102464248 B1 KR 102464248B1
Authority
KR
South Korea
Prior art keywords
spo
extraction
training data
model
labeled training
Prior art date
Application number
KR1020210006103A
Other languages
English (en)
Other versions
KR20210092698A (ko
Inventor
웨이 허
솽제 리
야빙 스
예 장
양 쟝
용 주
Original Assignee
베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. filed Critical 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Publication of KR20210092698A publication Critical patent/KR20210092698A/ko
Application granted granted Critical
Publication of KR102464248B1 publication Critical patent/KR102464248B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 SPO의 추출 방법 및 장치, 전자기기 및 저장 매체를 개시하며, 인공 지능 기술 분야에 관한 것이다. 구체적인 구현방안은 라벨링된 트레이닝 데이터를 복수의 추출 모델에 각각 입력하고, 상기 라벨링된 트레이닝 데이터에서 각각의 추출 모델을 통해 정의된 관계를 만족하는 SPO를 예측하며; 각각의 추출 모델에 의해 예측된 SPO를 결합하고, 결합된 SPO로부터 식별 기준을 만족하는 SPO를 추출하며; 상기 식별 기준을 만족하는 SPO가 출력 조건을 만족하지 않는 경우, 상기 식별 기준을 만족하는 SPO에 따라 상기 라벨링된 트레이닝 데이터에서 라벨링 결실 SPO를 마이닝하며; 상기 라벨링 결실 SPO를 상기 라벨링된 트레이닝 데이터에 추가하고, 상기 식별 기준을 만족하는 SPO가 출력 조건을 만족할 때까지 상기 동작을 반복적으로 수행한다. 본 발명의 실시예는 [1] SPO의 조회율을 효과적으로 개선하고 인건비를 절감하고 추출 효율을 향상시킬 수 있다.

Description

SPO의 추출 방법, 장치, 전자기기 및 저장 매체{METHOD, APPARATUS, ELECTRONIC DEVICE, AND STORAGE MEDIUM FOR EXTRACTING SPO TRIPLES}
본 발명은 컴퓨터 처리 기술 분야에 관한 것으로, 구체적으로 인공 지능 기술 분야에 관한 것으로, 특히 트리플 SPO의 추출 방법, 장치, 전자기기 및 저장 매체에 관한 것이다.
관계 추출 시스템은 자연언어 텍스트로부터 엔티티 관계 데이터를 추출하는 것으로, SPO 트리플 데이터라고도 지칭되며, 엔티티 쌍(pair)(주체 S-객체 O 쌍)과 그들의 관계(P)에 의해 구성된 트리플 지식을 획득한다. 지식 추출 방법은 추출 기술을 통해 대량 인터넷 텍스트로부터 높은 신뢰도의 엔티티 관계 데이터를 마이닝하도록 의도된다.
지식 그래프 구축의 관점에서, 엔티티 관계는 엔티티 노드를 연관시키는 에지를 나타내며, 강한 스키마(schema) 지식에 속하고, 지식 그래프의 연결성을 개선하기 위해 사용될 수 있다. 제품 애플리케이션의 관점에서, 엔티티 관계 데이터는 엔티티의 가장 중요한 정보 중 하나이며, 이는 다른 엔티티와 연관된 브리지를 표시한다. 엔티티 관계 데이터는 엔티티 연관에 대한 사용자의 요구를 직접적으로 만족시킬 수 있고, 또한 엔티티에 대한 검색 및 브라우징의 효율을 효과적으로 향상시킬 수 있고, 사용자 경험을 개선하며, 전형적인 제품은 엔티티 문답, 엔티티 추천 등에 적용된다. 그러나, 일반적으로, 데이터 및 추출 모델을 트레이닝하기 위한 라벨링된 트레이닝 데이터 및 실제 장면에서의 테스트 데이터는 분포가 일치하지 않는 문제점이 있으며, 원격 감독과 크라우드소싱 주석(crowd sourcing annotation) 방법에 의해 구축된 트레이닝 데이터는 완전하지 않고, 누락이나 정확하지 않은 문제가 있어, 모델의 트레이닝 효과에 영향을 준다.
종래 기술에서, SPO 추출은 일반적으로 다음과 같은 두 가지 방법을 이용한다. (1) 마이닝 템플릿에 의한 추출; 이러한 방식은 주로 특정 수직 타입 웹사이트 또는 고정된 구문론적 규칙에 초점을 맞추고 있으며, 복수의 마이닝 템플릿을 인공적으로 배치하며, 예를 들어, 웹페이지 정규 템플릿, 구문론적 규칙 등을 정의하여 웹페이지 내의 고정 구조의 데이터에 대한 배향 추출을 수행한다. (2) 단일한 추출 모델에 의한 추출; 이러한 방식은 주로 문장 내의 단어, 단어 분할 및 품사와 같은 정보를 이용하고 단일한 딥 러닝 모델을 통해SPO 추출 기능을 구현한다.
본 발명을 구현하는데 있어서, 발명자는 적어도 하기 문제가 선행 기술에 존재한다는 것을 발견하였다.
상기 방식(1)에 있어서, 주요 단점은 인건비가 높은 것이고, 수동으로 타겟 템플릿을 배치할 필요가 있고, 실제 장면을 커버하는 모든 타겟을 커버하기 어려우며, 결과적으로 낮은 조회율을 초래한다. 상기 방식(2)에 있어서, 주요 단점은 추출 모델을 트레이닝하기 위한 라벨링된 트레이닝 데이터 및 실제 장면에서의 테스트 데이터의 분포가 일치하지 않을 때, 단일한 추출 모델에 의해 추출되면, 트레이닝 데이터 내의 모든 유효 특징이 잘 커버될 수 없고, 결과적으로 낮은 조회율을 초래한다.
이를 고려하여, 본 발명은SPO의 추출 방법 및 장치, 전자기기 및 저장 매체를 개시함으로써, SPO의 조회율을 효과적으로 개선하고 인건비를 절감하며 추출 효율을 향상시킬 수 있다.
제1 측면에 따르면, 본 발명의 실시예는 SPO의 추출 방법을 개시하며, 상기 방법은,
라벨링된 트레이닝 데이터를 복수의 추출 모델에 각각 입력하고, 상기 라벨링된 트레이닝 데이터에서 각각의 추출 모델을 통해 정의된 관계를 만족하는 SPO를 예측하는 단계;
각각의 추출 모델에 의해 예측된 SPO를 결합하고, 결합된 SPO로부터 식별 기준을 만족하는 SPO를 추출하는 단계;
상기 식별 기준을 만족하는 SPO가 출력 조건을 만족하지 않는 경우, 상기 식별 기준을 만족하는 SPO에 따라 상기 라벨링된 트레이닝 데이터에서 라벨링 결실 SPO를 마이닝하는 단계; 및
상기 라벨링 결실 SPO를 상기 라벨링된 트레이닝 데이터에 추가하고, 상기 식별 기준을 만족하는 SPO가 상기 출력 조건을 만족할 때까지 상기 동작을 반복적으로 수행하는 단계; 를 포함한다.
상기 실시예는 다음의 이점 또는 유익한 효과를 갖는다. 상기 실시예는 복수의 추출 모델을 통해 트레이닝 데이터를 예측할 수 있으며, 정의된 관계를 만족시키는 SPO는 단일한 추출 모델에 의해서만 트레이닝 데이터를 예측하는 것이 아니라, 트레이닝 데이터에서 예측되며; 식별 기준을 만족하는 SPO가 출력 조건을 만족하지 않는 경우, 마이닝된 라벨링 결실 SPO를 라벨링된 트레이닝 데이터에 추가하고 복수의 추출 모델을 통해 트레이닝 데이터를 예측함으로써, SPO의 조회율을 효과적으로 개선하고 인건비를 절감하고 추출 효율을 향상시킬 수 있다.
상기 실시예에서, 상기 결합된 SPO로부터 식별 기준을 만족하는 SPO를 추출하는 단계는,
상기 결합된 SPO내의 각각의 SPO가 각각의 추출 모델에 의해 예측된 횟수를 카운팅하며; 각각의 SPO가 각각의 추출 모델에 의해 예측된 횟수의 합이 미리 설정된 임계치를 초과하면, 당해 SPO가 상기 미리 설정된 식별 기준을 만족하는 SPO인 것으로 판단하는 단계; 또는
상기 결합된 SPO 내의 각각의 SPO를 분류 모델에 입력하고, 각각의 SPO를 상기 분류 모델을 통해 제 1 분류 또는 제 2 분류로 분할하며; 상기 제 1 분류 또는 상기 제 2 분류로 분할된 SPO가 상기 미리 설정된 식별 기준을 만족하는 SPO인 것으로 판단하는 단계; 를 포함한다.
상기 실시예는 다음의 이점 또는 유익한 효과를 갖는다. 상기 실시예에서 각각의 추출 모델은 상기 2 가지 방식으로 결합된 SPO에서 식별 기준을 만족하는 SPO를 각각 추출할 수 있고, 각각의 추출 모델은 그 자신의 요건에 따라 모드 중 하나를 선택할 수 있고, 또한 각각의 추출 모델에서 어느 하나의 선택 모드를 미리 설정할 수 있으며, 이에 한정되지 않는다.
상기 실시예에서, 상기 식별 기준을 만족하는 SPO에 따라, 상기 라벨링된 트레이닝 데이터에서 라벨링 결실 SPO를 마이닝하는 단계는,
상기 식별 기준을 만족하는 각각의 SPO를 식별하여 각각의 SPO에 대응하는 구문 특징 및 어휘 특징을 획득하는 단계;
각각의 SPO에 대응하는 구문 특징 및 어휘 특징에 따라, 적어도 하나의 마이닝 템플릿을 설정하는 단계; 및
상기 라벨링된 트레이닝 데이터에서 상기 적어도 하나의 마이닝 템플릿을 이용하여 라벨링 결실 SPO를 마이닝하는 단계; 를 포함한다.
상기 실시예는 다음의 이점 또는 유익한 효과를 갖는다. 상기 실시예는 SPO의 인식을 위해 적어도 하나의 마이닝 템플릿을 설정하고, 라벨링된 트레이닝 데이터에서 하나 또는 복수의 마이닝 템플릿을 통해 라벨링 결실 SPO를 마이닝하고, 라벨링 결실 SPO를 라벨링된 트레이닝 데이터에 추가할 수 있고, 트레이닝 데이터를 복수의 추출 모델을 통해 다시 예측함으로써, SPO의 조회율을 효과적으로 개선하고 인건비를 절감하고 추출 효율을 향상시킬 수 있다.
상기 실시예에서, 상기 각각의 추출 모델에 의해 출력된 SPO를 결합한 후, 식별 기준을 만족하는 SPO를 상기 결합된 SPO로부터 추출하기 전에, 상기 방법은,
미리 설정된 충돌 검증 방법을 사용하여, 상기 결합된 SPO 내의 각각의 SPO에 대한 충돌 검증을 수행하는 단계; 검증에 성공한 SPO로부터 상기 식별 기준을 만족하는 SPO를 추출하는 단계; 및 검증에 실패한 SPO를 삭제하는 단계; 를 더 포함한다.
상기 실시예는 다음의 이점 또는 유익한 효과를 갖는다. 상기 실시예는 미리 설정된 충돌 검증 방법을 통해 결합된 SPO 내의 각각의 SPO에 대한 충돌 검증을 수행함으로써, SPO의 정확도를 효과적으로 개선할 수 있다.
상기 실시예에서, 상기 라벨링 결실 SPO를 상기 라벨링된 트레이닝 데이터에 추가한 후, 상기 방법은,
각각의 추출 모델에 의해 예측된 SPO에 따라, 상기 라벨링된 트레이닝 데이터에서 추출 모델 중 어느 하나에 의해 예측되지 않는 SPO의 라벨링을 삭제하는 단계를 더 포함한다.
상기 실시예는 다음의 이점 또는 유익한 효과를 갖는다. 어느 SPO가 추출 모델 중 임의의 하나에 의해 예측되지 않으면, 당해 SPO가 부정확한 SPO이거나 또는 무효한 SPO이며, 이 경우에는, 당해 SPO의 라벨링을 트레이닝 데이터에서 삭제함으로써, SPO의 정확도를 향상시킨다.
제 2측면에 따르면, 본 발명은 SPO의 추출 장치를 개시하며, 상기 장치는 추출 모델 모듈, 멀티-모델 결합 모듈, 후처리 모듈, 데이터 증강 모듈을 포함한다.
상기 추출 모델 모듈은 라벨링된 트레이닝 데이터를 복수의 추출 모델에 각각 입력하고, 상기 라벨링된 트레이닝 데이터에서 각각의 추출 모델을 통해 정의된 관계를 만족하는 SPO를 예측한다.
상기 멀티-모델 결합 모듈은 각각의 추출 모델에 의해 예측된 SPO를 결합하고, 결합된 SPO로부터 식별 기준을 만족하는 SPO를 추출한다.
상기 후처리 모듈은 상기 식별 기준을 만족하는 SPO가 출력 조건을 만족하지 않는 경우, 상기 식별 기준을 만족하는 SPO에 따라 상기 라벨링된 트레이닝 데이터에서 라벨링 결실 SPO를 마이닝한다.
상기 데이터 증강 모듈은 상기 라벨링 결실 SPO를 상기 라벨링된 트레이닝 데이터에 추가하고, 상기 식별 기준을 만족하는 SPO가 상기 출력 조건을 만족할 때까지 상기 동작을 반복적으로 수행한다.
상기 실시예에서, 상기 멀티-모델 결합 모듈은 상기 결합된 SPO내의 각각의 SPO가 각각의 추출 모델에 의해 예측된 횟수를 카운팅하며; 각각의 SPO가 각각의 추출 모델에 의해 예측된 횟수의 합이 미리 설정된 임계치를 초과하면, 당해 SPO가 상기 미리 설정된 식별 기준을 만족하는 SPO인 것으로 판단하거나; 또는, 상기 결합된 SPO 내의 각각의 SPO를 분류 모델에 입력하고, 각각의 SPO를 상기 분류 모델을 통해 제 1 분류 또는 제 2 분류로 분할하며; 상기 제 1 분류 또는 상기 제 2 분류로 분할된 SPO가 상기 미리 설정된 식별 기준을 만족하는 SPO인 것으로 판단하도록 구성된다.
상기 실시예에서, 상기 후처리 모듈은 식별 서브모듈, 설정 서브모듈, 및 마이닝 서브모듈을 포함한다.
상기 식별 서브모듈은 상기 식별 기준을 만족하는 각각의 SPO를 식별하여 각각의 SPO에 대응하는 구문 특징 및 어휘 특징을 획득한다.
상기 설정 서브모듈은 각각의 SPO에 대응하는 구문 특징 및 어휘 특징에 따라 적어도 하나의 마이닝 템플릿을 설정한다.
상기 마이닝 서브모듈은 상기 라벨링된 트레이닝 데이터에서 상기 적어도 하나의 마이닝 템플릿을 이용하여 라벨링 결실 SPO를 마이닝한다.
상기 실시예에서, 상기 멀티-모델 결합 모듈은 미리 설정된 충돌 검증 방법을 사용하여, 상기 결합된 SPO 내의 각각의 SPO에 대한 충돌 검증을 수행하고, 검증에 성공한 SPO로부터 상기 식별 기준을 만족하는 SPO를 추출하고, 검증에 실패한 SPO를 삭제하도록 구성된다.
상기 실시예에서, 상기 데이터 증강 모듈은 각각의 추출 모델에 의해 예측된 SPO에 따라 상기 라벨링된 트레이닝 데이터에서 추출 모델 중 어느 하나에 의해 예측되지 않는 SPO의 라벨링을 삭제한다.
제 3 측면에 따른면, 본 발명의 실시예는 전자기기를 개시한다. 상기 전자기기는,
하나 또는 복수의 프로세서; 및
하나 또는 복수의 프로그램을 저장하는 메모리; 를 포함하고,
상기 하나 또는 복수의 프로그램이 상기 하나 또는 복수의 프로세서에 의해 실행될 때, 상기 하나 또는 복수의 프로세서가 본 발명의 임의의 실시예에 따른 SPO의 추출 방법을 구현한다.
제 4 측면에 따른면, 본 발명의 실시예는 컴퓨터 프로그램이 저장되어 있는 저장 매체를 개시하며, 상기 컴퓨터 명령이 실행될 경우, 본 출원의 임의의 실시예에 따른 SPO의 추출 방법이 실행된다.
제 5 측면에 따르면, 본 발명의 실시예는 컴퓨터 판독 가능 매체에 저장되어 있는 컴퓨터 프로그램을 개시하며, 상기 컴퓨터 프로그램의 명령이 실행될 경우, 본 출원의 임의의 실시예에 따른 SPO의 추출 방법이 실행된다.
상기 발명의 일실시예는 다음의 이점 또는 유익한 효과를 갖는다. 본 발명에 따른 SPO의 추출 방법, 장치, 전자기기 및 저장매체는 먼저 라벨링된 트레이닝 데이터를 복수의 추출 모델에 각각 입력하고, 라벨링된 트레이닝 데이터에서 각각의 추출 모델을 통해 정의된 관계를 만족하는 SPO를 예측하며; 각각의 추출 모델에 의해 예측된 SPO를 결합하고, 결합된 SPO로부터 식별 기준을 만족하는 SPO를 추출하며; 식별 기준을 만족하는 SPO가 출력 조건을 만족하지 않는 경우, 식별 기준을 만족하는 SPO에 따라 라벨링된 트레이닝 데이터에서 라벨링 결실 SPO를 마이닝하며; 라벨링 결실 SPO를 라벨링된 트레이닝 데이터에 추가하고, 식별 기준을 만족하는 SPO가 출력 조건을 만족할 때까지 상기 동작을 반복적으로 수행한다. 즉, 본 발명은 라벨링 결실 SPO를 라벨링된 트레이닝 데이터에 추가하고, 추가된 라벨링된 트레이닝 데이터를 복수의 추출 모델에 각각 입력하고, 식별 기준을 만족하는 SPO가 출력 조건을 만족할 때까지 상기 동작을 반복적으로 수행함으로써 상기 SPO의 조회율을 향상시킬 수 있도록 한다. 기존의 SPO 추출 방법에서, 추출이 마이닝 템플릿에 의해 또는 단일한 추출 모델에 의해 수행되는지 여부에 관계없이, 조회율이 낮다. 본 발명은 트레이닝 데이터를 예측하기 위해 복수의 추출 모델을 사용하고, 라벨링 결실 SPO를 트레이닝 데이터에 추가하는 기술수단을 채용하기 때문에, 조회율이 낮고 인건비가 높다는 기존의 기술적 문제점이 해결되어, SPO의 조회율을 효과적으로 개선하고 인건비를 절감하고 추출 효율을 향상시킬 수 있는 기술적 효과를 얻을 수 있으며, 본 발명의 실시예의 기술적 방안은 간단하고 편리하며 보급이 용이하며 적용 범위가 더욱 넓다.
전술한 선택적인 방식의 다른 효과는 이하 특정 실시예를 참조하여 설명될 것이다.
첨부된 도면은 본 발명을 보다 잘 이해하기 위해 사용되며, 본 발명을 제한하려 하지 않는다. 여기서,
도 1은 본 발명의 제 1 실시예에 따른 SPO의 추출 방법의 흐름도이다.
도 2는 본 발명의 제 2 실시예에 따른 SPO의 추출 방법의 흐름도이다.
도 3은 본 발명의 제 2 실시예에 따른 SPO의 추출 시스템의 구조도이다.
도 4는 본 발명의 제 3 실시예에 따른 SPO의 추출 장치의 구조도이다.
도 5는 본 발명의 제 3 실시예에 따른 후처리 모듈의 구조도이다.
도 6은 본 발명의 실시예에 따른 SPO의 추출 방법을 구현하기 위한 전자기기의 블록도이다.
이하, 첨부된 도면을 참조하여 본 발명의 예시적인 실시예를 설명하고, 이해를 돕기 위해 본 발명의 실시예의 각종 세부사항을 포함하지만 단지 예시적인 것으로 간주하여야 한다. 따라서, 당업자는 본 발명의 범위 및 사상으로부터 벗어나지 않고 본 명세서에 기술된 실시예들에 대한 다양한 변경 및 수정이 이루어질 수 있다는 것을 이해할 것이다. 또한, 잘 알려진 기능 및 구조에 대한 설명은 명확성과 간결성을 위해 다음의 설명에서 생략된다.
제 1 실시예
도 1은 본 발명의 제 1 실시예에 따른 SPO의 추출 방법의 흐름도이고, 당해 방법은 SPO의 추출 장치 또는 전자기기에 의해 수행될 수 있으며, 당해 장치 또는 전자기기는 소프트웨어 및/또는 하드웨어로 구현될 수 있고, 당해 장치 또는 전자기기는 네트워크 통신 기능을 갖는 임의의 스마트 디바이스에 통합될 수 있다. 도 1에 도시된 바와 같이, SPO의 추출 방법은 단계S101 내지 단계S106을 포함할 수 있다.
단계S101, 라벨링된 트레이닝 데이터를 복수의 추출 모델에 각각 입력하고, 라벨링된 트레이닝 데이터에서 각각의 추출 모델을 통해 정의된 관계를 만족하는 SPO를 예측한다.
본 발명의 구체적인 실시예에서, 전자기기는 라벨링된 트레이닝 데이터를 복수의 추출 모델에 각각 입력하고, 라벨링된 트레이닝 데이터에서 각각의 추출 모델을 통해 정의된 관계를 만족하는 SPO를 예측한다. 구체적으로는, 전자기기는 먼저 라벨링되지 않은 트레이닝 데이터에 대한 라벨링을 수행하고, 그 후 라벨링된 트레이닝 데이터를 복수의 추출 모델에 각각 입력한다. 본 발명에 따른 추출 모델이 N 개인 것으로 가정하면, 추출 모델(1), 추출 모델(2), …, 추출 모델(N)이 있으며, 이 중 N은 1보다 큰 자연수이다. 본 단계에서, 전자기기는 라벨링된 트레이닝 데이터를 추출 모델(1), 추출 모델(2), …, 추출 모델(N)에 각각 입력할 수 있다. 구체적으로, 추출 모델(1)은 라벨링된 트레이닝 데이터에서 추출 연산자(1)를 통해 정의된 관계를 만족하는 SPO를 예측하며, 추출 모델(2)은 라벨링된 트레이닝 데이터에서 추출 연산자(2)를 통해 정의된 관계를 만족하는 SPO를 예측한다.
단계S102, 각각의 추출 모델에 의해 예측된 SPO를 결합하고, 결합된 SPO로부터 식별 기준을 만족하는 SPO를 추출한다.
본 발명의 구체적인 실시예에서, 전자기기는 각각의 추출 모델에 의해 예측된 SPO를 결합하고, 결합된 SPO로부터 식별 기준을 만족하는 SPO를 추출할 수 있다. 구체적으로는, 각각의 추출 모델에 의해 예측된 SPO의 개수는 하나일 수도 있고 여러 개일 수도 있으며, 이에 한정되지 않는다. 추출 모델(1)에 의해 예측된 SPO가 제 1 서브세트를 구성하고, 추출 모델(2)에 의해 예측된 SPO가 제 2 서브세트를 구성하고, …, 추출 모델(N)에 의해 예측된 SPO가 제 N 서브세트를 구성한다고 가정한다. 당해 단계에서, 전자기기는 제 1 서브세트, 제 2 서브세트, …, 제 N 서브세트에서의 SPO를 하나의 SPO세트로 결합할 수 있으며, 즉 당해 SPO세트는 제 1 서브세트, 제 2 서브세트, …, 제 N 서브세트를 포함하며, SPO세트로부터 식별 기준을 만족하는 SPO를 추출한다.
바람직하게는, 본 발명의 구체적인 실시예에서, 전자기기는 결합된 SPO로부터 다음과 같은 두가지 방법을 통해 식별 기준을 만족하는 SPO를 추출할 수 있다. 첫 번째 방법은 투표 정책(voting strategy)으로: 결합된 SPO내의 각각의 SPO가 각각의 추출 모델에 의해 예측된 횟수를 카운팅하며; 각각의 SPO가 각각의 추출 모델에 의해 예측된 횟수의 합이 미리 설정된 임계치를 초과하면, 당해 SPO가 미리 설정된 식별 기준을 만족하는 SPO인 것으로 판단한다. 두 번째 방법은 분류 모델 정책으로, 결합된 SPO 내의 각각의 SPO를 분류 모델에 입력하고, 각각의 SPO를 분류 모델을 통해 제 1 분류 또는 제 2 분류로 분할하며; 제 1 분류 또는 제 2 분류로 분할된 SPO가 미리 설정된 식별 기준을 만족하는 SPO인 것으로 판단한다. 구체적으로는, 분류 모델 정책에서, 각각의 SPO는 분류 모델에 의해 정확한 분류 또는 부정확한 분류로 분할될 수 있고, 그 후 정확한 분류로 분할된 SPO가 미리 설정된 식별 기준을 만족하는 SPO인 것으로 판단한다.
단계S103, 식별 기준을 만족하는 SPO가 출력 조건을 만족하는지 여부를 판단한다. 식별 기준을 만족하는 SPO가 출력 조건을 만족하면, 단계S104를 수행하고; 식별 기준을 만족하는 SPO가 출력 조건을 만족하지 않으면, 단계S105를 수행한다.
본 발명의 구체적인 실시예에서, 전자기기는 식별 기준을 만족하는 SPO가 출력 조건을 만족하는지 여부를 판단할 수 있으며, 식별 기준을 만족하는 SPO가 출력 조건을 만족하면, 단계S104를 수행하며; 식별 기준을 만족하는 SPO가 출력 조건을 만족하지 않으면, 단계S105를 수행한다. 구체적으로는, 본 발명의 출력 조건은 라벨링된 트레이닝 데이터에서 SPO의 조회율이 미리 설정된 임계값보다 큰것인바, 즉, 라벨링된 트레이닝 데이터에서 추출된 SPO의 개수가 충분한 것이다.
단계S104, SPO의 추출 프로세스를 종료한다.
본 발명의 구체적인 실시예에서, 전자기기는 식별 기준을 만족하는 SPO가 출력 조건을 만족한다고 판단하면, 즉, 라벨링된 트레이닝 데이터에서 추출된 SPO의 개수가 충분하면, SPO의 추출 프로세스를 종료할 수 있다.
단계S105, 식별 기준을 만족하는 SPO에 따라, 라벨링된 트레이닝 데이터에서 라벨링 결실 SPO를 마이닝한다.
본 발명의 구체적인 실시예에서, 전자기기는 식별 기준을 만족하는 SPO가 출력 조건을 만족하지 않다고 판단하면, 즉, 라벨링된 트레이닝 데이터에서 추출된 SPO의 개수가 충분하지 않으면, 전자기기는 식별 기준을 만족하는 SPO에 따라, 트레이닝 데이터에서 라벨링 결실 SPO를 마이닝한다. 구체적으로는, 전자기기는 식별 기준을 만족하는 각각의 SPO를 식별하여 각각의 SPO에 대응하는 구문 특징 및 어휘 특징을 획득할 수 있으며; 각각의 SPO에 대응하는 구문 특징 및 어휘 특징에 따라 적어도 하나의 마이닝 템플릿을 설정하며; 라벨링된 트레이닝 데이터에서 적어도 하나의 마이닝 템플릿을 이용하여 라벨링 결실 SPO를 마이닝한다.
단계S106, 라벨링 결실 SPO를 라벨링된 트레이닝 데이터에 추가하고, 단계S101로 복귀한다.
본 발명의 구체적인 실시예에서, 전자기기는 라벨링 결실 SPO를 라벨링된 트레이닝 데이터에 추가하고, 단계S101로 복귀할 수 있다. 구체적으로는, 전자기기는 마이닝된 라벨링 결실 SPO를 트레이닝 데이터에 라벨링할 수 있다.
바람직하게는, 본 발명의 구체적인 실시예에서, 전자기기는 라벨링 결실 SPO를 라벨링된 트레이닝 데이터에 추가한 후, 각각의 추출 모델에 의해 예측된 SPO에 따라 라벨링된 트레이닝 데이터에서 추출 모델 중 어느 하나에 의해 예측되지 않는 SPO의 라벨링을 삭제할 수 있다. 구체적으로는, 트레이닝 데이터중 어느 SPO가 추출 모델 중 어느 하나에 의해 예측되지 않으면, 전자기기는 트레이닝 데이터에서 당해 SPO의 라벨링을 삭제할 수 있다.
본 발명의 실시예에 따른 SPO의 추출 방법은, 먼저 라벨링된 트레이닝 데이터를 복수의 추출 모델에 각각 입력하고, 라벨링된 트레이닝 데이터에서 각각의 추출 모델을 통해 정의된 관계를 만족하는 SPO를 예측하며; 각각의 추출 모델에 의해 예측된 SPO를 결합하고, 결합된 SPO로부터 식별 기준을 만족하는 SPO를 추출하며; 식별 기준을 만족하는 SPO가 출력 조건을 만족하지 않는 경우, 식별 기준을 만족하는 SPO에 따라 라벨링된 트레이닝 데이터에서 라벨링 결실 SPO를 마이닝하며; 라벨링 결실 SPO를 라벨링된 트레이닝 데이터에 추가하고, 식별 기준을 만족하는 SPO가 출력 조건을 만족할 때까지 단계S101 내지 단계S106의 동작(즉, 입력, 예측, 결합, 추출, 마이닝 및 추가하는 동작)을 반복적으로 수행한다. 즉, 본 발명은 라벨링 결실 SPO를 라벨링된 트레이닝 데이터에 추가하고, 추가된 라벨링된 트레이닝 데이터를 복수의 추출 모델에 각각 입력하고, 식별 기준을 만족하는 SPO가 출력 조건을 만족할 때까지 단계S101 내지 단계S106의 동작(즉, 입력, 예측, 결합, 추출, 마이닝 및 추가하는 동작)을 반복적으로 수행함으로써 상기 SPO의 조회율을 향상시킬 수 있도록 한다. 기존의 SPO 추출 방법에서, 추출이 마이닝 템플릿에 의해 또는 단일한 추출 모델에 의해 수행되는지 여부에 관계없이, 조회율이 낮다. 본 발명은 트레이닝 데이터를 예측하기 위해 복수의 추출 모델을 사용하고, 라벨링 결실 SPO를 트레이닝 데이터에 추가하는 기술수단을 채용하기 때문에, 조회율이 낮고 인건비가 높다는 기존의 기술적 문제점이 해결되어, SPO의 조회율을 효과적으로 개선하고 인건비를 절감하고 추출 효율을 향상시킬 수 있는 기술적 효과를 얻을 수 있으며, 본 발명의 실시예의 기술적 방안은 간단하고 편리하며 보급이 용이하며 적용 범위가 더욱 넓다.
제 2 실시예
도 2는 본 발명의 제 2 실시예에 따른 SPO의 추출 방법의 흐름도이다. 도 2에 도시된 바와 같이, SPO의 추출 방법은 단계S201 내지 단계S207을 포함할 수 있다.
단계S201, 라벨링된 트레이닝 데이터를 복수의 추출 모델에 각각 입력하고, 라벨링된 트레이닝 데이터에서 각각의 추출 모델을 통해 정의된 관계를 만족하는 SPO를 예측한다.
본 발명의 구체적인 실시예에서, 전자기기는 라벨링된 트레이닝 데이터를 복수의 추출 모델에 각각 입력하고, 라벨링된 트레이닝 데이터에서 각각의 추출 모델을 통해 정의된 관계를 만족하는 SPO를 예측한다. 구체적으로는, 전자기기는 먼저 라벨링되지 않은 트레이닝 데이터에 대한 라벨링을 수행하고, 그 후 라벨링된 트레이닝 데이터를 복수의 추출 모델에 각각 입력한다. 본 발명에 따른 추출 모델이 N 개인 것으로 가정하면, 추출 모델(1), 추출 모델(2), …, 추출 모델(N)이 있으며, 이 중 N은 1보다 큰 자연수이다. 본 단계에서, 전자기기는 라벨링된 트레이닝 데이터를 추출 모델(1), 추출 모델(2), …, 추출 모델(N)에 각각 입력할 수 있다. 구체적으로, 추출 모델(1)은 라벨링된 트레이닝 데이터에서 추출 연산자(1)를 통해 정의된 관계를 만족하는 SPO를 예측하며, 추출 모델(2)은 라벨링된 트레이닝 데이터에서 추출 연산자(2)를 통해 정의된 관계를 만족하는 SPO를 예측한다.
단계S202, 각각의 추출 모델에 의해 예측된 SPO를 결합한다.
본 발명의 구체적인 실시예에서, 전자기기는 각각의 추출 모델에 의해 예측된 SPO를 결합할 수 있다. 구체적으로는, 각각의 추출 모델에 의해 예측된 SPO의 개수는 하나일 수도 있고 여러 개일 수도 있으며, 이에 한정되지 않는다. 추출 모델(1)에 의해 예측된 SPO가 제 1 서브세트를 구성하고, 추출 모델(2)에 의해 예측된 SPO가 제 2 서브세트를 구성하고, …, 추출 모델(N)에 의해 예측된 SPO가 제 N 서브세트를 구성한다고 가정한다. 당해 단계에서, 전자기기는 제 1 서브세트, 제 2 서브세트, …, 제 N 서브세트에서의 SPO를 하나의 SPO세트로 결합할 수 있으며, 즉 당해 SPO세트는 제 1 서브세트, 제 2 서브세트, …, 제 N 서브세트의 모든 SPO를 포함한다.
단계S203, 미리 설정된 충돌 검증 방법을 사용하여, 결합된 SPO 내의 각각의 SPO에 대한 충돌 검증을 수행하고, 검증에 성공한 SPO로부터 식별 기준을 만족하는 SPO를 추출하고, 검증에 실패한 SPO를 삭제한다.
본 발명의 구체적인 실시예에서, 전자기기는 미리 설정된 충돌 검증 방법을 사용하여, 결합된 SPO 내의 각각의 SPO에 대한 충돌 검증을 수행하고, 검증에 성공한 SPO로부터 식별 기준을 만족하는 SPO를 추출하고, 검증에 실패한 SPO를 삭제한다. 구체적으로는, 충돌 검증에서, 스키마 검증, 관계형 충돌 검출, 및 정정 엔티티 경계 인식과 같은 정책을 포함하여, SPO의 정확도를 효과적으로 개선할 수 있다.
단계S204, 식별 기준을 만족하는 SPO가 출력 조건을 만족하는지 여부를 판단한다. 식별 기준을 만족하는 SPO가 출력 조건을 만족하면, 단계S205를 수행하고; 식별 기준을 만족하는 SPO가 출력 조건을 만족하지 않으면, 단계S206을 수행한다.
본 발명의 구체적인 실시예에서, 전자기기는 식별 기준을 만족하는 SPO가 출력 조건을 만족하는지 여부를 판단할 수 있으며, 식별 기준을 만족하는 SPO가 출력 조건을 만족하면, 단계S205를 수행하며; 식별 기준을 만족하는 SPO가 출력 조건을 만족하지 않으면, 단계S206을 수행한다. 구체적으로는, 본 발명의 출력 조건은 라벨링된 트레이닝 데이터에서 SPO의 조회율이 미리 설정된 임계값보다 큰것인바, 즉, 라벨링된 트레이닝 데이터에서 추출된 SPO의 개수가 충분한 것이다.
단계S205, SPO의 추출 프로세스를 종료한다.
본 발명의 구체적인 실시예에서, 전자기기는 식별 기준을 만족하는 SPO가 출력 조건을 만족한다고 판단하면, 즉, 라벨링된 트레이닝 데이터에서 추출된 SPO의 개수가 충분하면, SPO의 추출 프로세스를 종료할 수 있다.
단계S206, 식별 기준을 만족하는 SPO에 따라, 라벨링된 트레이닝 데이터에서 라벨링 결실 SPO를 마이닝한다.
본 발명의 구체적인 실시예에서, 전자기기는 식별 기준을 만족하는 SPO가 출력 조건을 만족하지 않다고 판단하면, 즉, 라벨링된 트레이닝 데이터에서 추출된 SPO의 개수가 충분하지 않으면, 식별 기준을 만족하는 SPO에 따라, 트레이닝 데이터에서 라벨링 결실 SPO를 마이닝한다. 구체적으로는, 전자기기는 식별 기준을 만족하는 각각의 SPO를 식별하여 각각의 SPO에 대응하는 구문 특징 및 어휘 특징을 획득할 수 있으며; 각각의 SPO에 대응하는 구문 특징 및 어휘 특징에 따라 적어도 하나의 마이닝 템플릿을 설정하며; 라벨링된 트레이닝 데이터에서 적어도 하나의 마이닝 템플릿을 이용하여 라벨링 결실 SPO를 마이닝한다.
단계S207, 라벨링 결실 SPO를 라벨링된 트레이닝 데이터에 추가하고, 단계S201로 복귀한다.
본 발명의 구체적인 실시예에서, 전자기기는 라벨링 결실 SPO를 라벨링된 트레이닝 데이터에 추가하고, 단계S201로 복귀할 수 있다. 구체적으로는, 전자기기는 마이닝된 라벨링 결실 SPO를 트레이닝 데이터에 라벨링할 수 있다.
도 3은 본 발명의 제 2 실시예에 따른 SPO의 추출 시스템의 구조도이다. 도면에 도시된 바와 같이, SPO의 추출 시스템은 입력모듈, 추출 모델 모듈, 멀티-모델 결합 모듈, 후처리 모듈, 데이터 증강 모듈, 출력 모듈 및 외부 디펜던시 모듈을 포함하고, 여기서, 각각의 모듈의 기능은 다음과 같다:
입력모듈은 라벨링된 트레이닝 데이터를 추출 모델에 입력한다.
추출 모델 모듈은 하나의 라벨링된 트레이닝 데이터가 입력될 때 라벨링된 트레이닝 데이터로부터 정의된 관계를 만족하는 SPO를 추출하며, 당해 모듈은 복수의 추출 연산자들을 추가하는 것, 즉 복수의 추출 모델을 통해 결과를 각각 획득하는 것을 지원하며, 연산자를 용이하게 확장한다. 현재, 추출 모델 모듈의 주요 방법은 다음과 같은 3 가지가 있다. 1) 파이프라인(pipeline) 구조 모델이 사용되고, biLSTM에 기초하여 다중-라벨 관계 분류를 수행하고, 관계 유형에 따라biLSTM-CRF시퀀스 라벨링 모델을 이용하여 S 및 O에 대한 엔티티 인수 라벨링을 수행한다. 2)확장 컨볼루셔널 뉴럴 네트워크에 기초하여 공동으로 라벨링된 반-포인터-반-라벨링 구조의 공동 추출로, 먼저 S를 예측한 후, S에 따라 O 및 P를 동시에 예측한다. 3) 계층적 강화 학습 모델에 기초한 공동 추출로, 추출 태스크를 2 개의 서브-태스크의 계층구조로 분해하며, 관계 검출의 하이-레벨(High-level) 계층이 문장 내의 복수의 관계를 식별하고, 그 후 엔티티-추출된 로우-레벨(Low-level) 계층을 트리거하여 각 관계의 관련 엔티티를 추출한다.
멀티-모델 결합 모듈은 각 트레이닝 데이터의 복수의 추출 모델이 예측한 모든 SPO에 대하여, 멀티-모델 결합 연산자를 호출하여 멀티-모델 결합 최우 선택을 한다. 당해 모델에서, 이전 모듈에서의 복수의 추출 연산자의 추출 결과를 확장하여 최우 선택에 참여하도록 용이하게 할 수 있고, 현재의 멀티-모델 결합 모듈의 공통 관행은 투표 및 분류 모델의 2 개의 정책이다. 여기서, 투표 정책은 SPO가 추출 모델에 의해 예측된 횟수를 카운팅하여 많은 투표 수를 받은 SPO를 최종 결과로 하며, 분류 모델 정책은 SPO를 출력할지 여부를 2분류 문제로 하여, 각각의 SPO가 식별 기준을 만족하는 SPO인지 여부를 예측한다.
후처리 모듈은 멀티-모델 결합 모듈에 의해 출력된 SPO에 대한 품질 제어를 수행하고, 충돌 검증 및 구문 기반 패턴(pattern) 마이닝 등 방식을 포함하며, 최종 SPO 출력의 정확도 및 조회율을 개선한다. 충돌 검증에서, 스키마 검증, 관계형 충돌 검출 및 정정 엔티티 인식 경계와 같은 정책의 목적은 추출 시스템의 정확도를 높이기 위한 것이다. 구문 기반 패턴 마이닝은 구문 및 어휘 특징을 식별하여 특정 패턴-마이닝 문장에서 SPO를 수동으로 설정함으로써 추출 시스템의 조회율을 높인다.
데이터 증강 모듈은 추출 모델이 트레이닝될 때, 트레이닝 세트의 품질이 모델의 효과에 영향을 미치므로 데이터 증강 방식으로 트레이닝 세트의 품질을 개선한다. 구체적으로는, 트레이닝된 모델을 이용하여 트레이닝 세트의 문장을 예측하고, 멀티-모델 결합 모듈 및 후처리 모듈을 통해 이전 트레이닝 샘플 내의 라벨링 결실 SPO를 출력하며, 당해 부분의 SPO를 트레이닝 샘플의 라벨링 결과에 추가함으로써, 트레이닝 샘플의 조회율이 개선된다. 또한, 트레이닝 샘플 내의 모든 모델에 의해 예측되지 않은 SPO를 삭제함으로써 트레이닝 세트의 정확도가 개선된다. 이러한 수정된 트레이닝 세트를 이용하여 모델에 대한 트레이닝 및 결합을 다시 수행함으로써, 추출 시스템의 효과가 효과적으로 개선될 수 있다.
출력 모듈은 식별 기준을 만족하는 SPO가 출력 조건을 만족하면, 출력 조건을 만족하는 SPO를 출력한다.
외부 디펜던시 모듈은 추출 모델 모듈에 대한 외부 지원을 제공하도록 구성되고, 다음과 같은 딥 러닝 프레임워크를 포함할 수 있다. 단어 분할 및 품사 태깅(word segmentation and part-of-speech tagging) 툴, 파이토치(Pytorch), 케라스(keras), 패들(Paddle)을 포함한다. 추출 모델 모듈은 전술한 딥 러닝 프레임워크를 사용하여 구현될 수 있다.
본 발명에 따른 불완전한 데이터 세트의 관계형 추출 시스템 프레임워크에 다양한 추출 모델, 멀티-모델 결합 및 데이터 증강을 도입하기 위한 방법에 있어서, 한편으로는, 패턴을 수동으로 설정하는 인건비가 감소될 수 있고, 딥 러닝 모델을 이용하여 모든 SPO관계에 대한 통합 모델링을 수행하며, 다른 한편으로는, 원본 데이터 세트에서의 다양한 유효 특징을 향상시킬 수 있고, 정확도가 보장되는 조건 하에서 전체 시스템 조회율이 개선될 수 있다.
본 발명의 실시예에 따른 SPO의 추출 방법은, 라벨링된 트레이닝 데이터를 복수의 추출 모델에 각각 입력하고, 라벨링된 트레이닝 데이터에서 각각의 추출 모델을 통해 정의된 관계를 만족하는 SPO를 예측하며; 각각의 추출 모델에 의해 예측된 SPO를 결합하고, 결합된 SPO로부터 식별 기준을 만족하는 SPO를 추출하며; 식별 기준을 만족하는 SPO가 출력 조건을 만족하지 않는 경우, 식별 기준을 만족하는 SPO에 따라 라벨링된 트레이닝 데이터에서 라벨링 결실 SPO를 마이닝하며; 라벨링 결실 SPO를 라벨링된 트레이닝 데이터에 추가하고, 식별 기준을 만족하는 SPO가 출력 조건을 만족할 때까지 상기 단계의 동작을 반복적으로 수행한다. 즉, 본 발명은 라벨링 결실 SPO를 라벨링된 트레이닝 데이터에 추가하고, 추가된 라벨링된 트레이닝 데이터를 복수의 추출 모델에 각각 입력하고, 식별 기준을 만족하는 SPO가 출력 조건을 만족할 때까지 상기 단계의 동작을 반복적으로 수행함으로써 상기 SPO의 조회율을 향상시킬 수 있도록 한다. 기존의 SPO 추출 방법에서, 추출이 마이닝 템플릿에 의해 또는 단일한 추출 모델에 의해 수행되는지 여부에 관계없이, 조회율이 낮다. 본 발명은 트레이닝 데이터를 예측하기 위해 복수의 추출 모델을 사용하고, 라벨링 결실 SPO를 트레이닝 데이터에 추가하는 기술수단을 채용하기 때문에, 조회율이 낮고 인건비가 높다는 기존의 기술적 문제점이 해결되어, SPO의 조회율을 효과적으로 개선하고 인건비를 절감하고 추출 효율을 향상시킬 수 있는 기술적 효과를 얻을 수 있으며, 본 발명의 실시예의 기술적 방안은 간단하고 편리하며 보급이 용이하며 적용 범위가 더욱 넓다.
제 3 실시예
도 4는 본 발명의 제 3 실시예에 따른 SPO의 추출 장치의 구조도이다. 도 4에 도시된 바와 같이, 상기 장치(400)는 추출 모델 모듈(401), 멀티-모델 결합 모듈(402), 후처리 모듈(403) 및 데이터 증강 모듈(404)을 포함한다.
상기 추출 모델 모듈(401)은 라벨링된 트레이닝 데이터를 복수의 추출 모델에 각각 입력하고, 상기 라벨링된 트레이닝 데이터에서 각각의 추출 모델을 통해 정의된 관계를 만족하는 SPO를 예측한다.
상기 멀티-모델 결합 모듈(402)은 각각의 추출 모델에 의해 예측된 SPO를 결합하고, 결합된 SPO로부터 식별 기준을 만족하는 SPO를 추출한다.
상기 후처리 모듈(403)은 상기 식별 기준을 만족하는 SPO가 출력 조건을 만족하지 않는 경우, 상기 식별 기준을 만족하는 SPO에 따라 상기 라벨링된 트레이닝 데이터에서 라벨링 결실 SPO를 마이닝한다.
상기 데이터 증강 모듈(404)은 상기 라벨링 결실 SPO를 상기 라벨링된 트레이닝 데이터에 추가하고, 상기 식별 기준을 만족하는 SPO가 상기 출력 조건을 만족할 때까지 상기 동작을 반복적으로 수행한다.
또한, 상기 멀티-모델 결합 모듈(402)은, 상기 결합된 SPO내의 각각의 SPO가 각각의 추출 모델에 의해 예측된 횟수를 카운팅하며; 각각의 SPO가 각각의 추출 모델에 의해 예측된 횟수의 합이 미리 설정된 임계치를 초과하면, 당해 SPO가 상기 미리 설정된 식별 기준을 만족하는 SPO인 것으로 판단한다. 또는, 상기 결합된 SPO 내의 각각의 SPO를 분류 모델에 입력하고, 각각의 SPO를 상기 분류 모델을 통해 제 1 분류 또는 제 2 분류로 분할하며; 상기 제 1 분류 또는 상기 제 2 분류로 분할된 SPO가 상기 미리 설정된 식별 기준을 만족하는 SPO인 것으로 판단하도록 구성된다.
도 5는 본 발명의 제 3 실시예에 따른 후처리 모듈의 구조도이다. 도 5에 도시된 바와 같이, 후처리 모듈(403)은 식별 서브모듈(4031), 설정 서브모듈(4032) 및 마이닝 서브모듈(4033)을 포함한다.
상기 식별 서브모듈(4031)은 상기 식별 기준을 만족하는 각각의 SPO를 식별하여 각각의 SPO에 대응하는 구문 특징 및 어휘 특징을 획득한다.
상기 설정 서브모듈(4032)은 각각의 SPO에 대응하는 구문 특징 및 어휘 특징에 따라 적어도 하나의 마이닝 템플릿을 설정한다.
상기 마이닝 서브모듈(4033)은 상기 라벨링된 트레이닝 데이터에서 상기 적어도 하나의 마이닝 템플릿을 이용하여 라벨링 결실 SPO를 마이닝한다.
또한, 상기 멀티-모델 결합 모듈(402)은 미리 설정된 충돌 검증 방법을 사용하여, 상기 결합된 SPO 내의 각각의 SPO에 대한 충돌 검증을 수행하고, 검증에 성공한 SPO로부터 상기 식별 기준을 만족하는 SPO를 추출하고, 검증에 실패한 SPO를 삭제하도록 구성된다.
또한, 상기 데이터 증강 모듈(404)은 각각의 추출 모델에 의해 예측된 SPO에 따라 상기 라벨링된 트레이닝 데이터에서 추출 모델 중 어느 하나에 의해 예측되지 않는 SPO의 라벨링을 삭제하도록 구성된다.
상기SPO의 추출 장치는 본 발명의 임의의 실시예에 따른 방법을 수행할 수 있고, 수행 방법에 대응하는 기능 모듈 및 유익한 효과를 가진다. 본 실시예에서 기술하지 않은 기술에 대한 세부 사항은 본 발명의 임의의 실시예에 따른 SPO의 추출 방법을 참조할 수 있다.
제 4 실시예
본 발명의 실시예를 따르면, 본 발명은 전자기기 및 판독가능 저장 매체를 개시한다.
도 6에 도시된 바와 같이, 도 6은 본 발명의 실시예에 따른 SPO의 추출 방법을 구현하기 위한 전자기기의 블록도이다. 전자기기는 랩탑 컴퓨터, 데스크탑 컴퓨터, 워크스테이션, 개인용 정보 단말기, 서버, 블레이드 서버, 메인프레임 컴퓨터, 및 다른 적절한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터를 나타내는 것이다. 전자 설비는 또한 개인 디지털 프로세싱, 셀룰러 전화기, 스마트 폰, 웨어러블 장치, 및 다른 유사한 컴퓨팅 장치와 같은 다양한 형태의 모바일 장치를 나타낼 수도 있다. 본 명세서에 나타낸 부품, 그들의 연결 및 관계, 및 그들의 기능은 단지 예시적인 것이며, 본 명세서에 설명 및/또는 청구된 본 발명의 구현을 제한하도록 의도되지 않는다.
도 6에 도시된 바와 같이, 당해 전자 설비는 하나 또는 복수의 프로세서(601), 메모리(602), 및 고속 인터페이스 및 저속 인터페이스를 포함하는 각 부품을 연결하기 위한 인터페이스를 포함한다. 각 부품은 상이한 버스를 이용하여 상호 연결되고, 공통 마더보드 상에 장착되거나 또는 원하는 대로 다른 방식으로 장착될 수도 있다. 프로세서는 전자기기 내에서 실행되는 명령을 프로세싱할 수 있고, 외부 입력/출력 장치(예를 들어, 인터페이스에 결합된 디스플레이 장치) 상에 GUI의 그래픽 정보를 디스플레이하기 위해 메모리 또는 메모리 상에 저장된 명령을 포함한다. 다른 실시예에서, 원한다면 복수의 프로세서 및/또는 복수의 버스은 복수의 메모리 및 복수의 메모리와 함께 사용될 수 있다. 또한, 복수의 전자기기는 필요한 동작의 일부를 제공하는 다양한 설비 (예를 들어, 서버 어레이, 블레이드 서버의 세트, 또는 멀티 프로세서 시스템)와 연결될 수 있다. 도 6에서는 하나의 프로세서(601)를 예로 든다.
메모리(602)는 본 발명에 따른 비일시적 컴퓨터 판독가능 저장 매체이다. 상기 메모리는 적어도 하나의 프로세서에 의해 실행될 수 있는 명령을 저장하여 적어도 하나의 프로세서에서 본 발명에 따른 SPO의 추출 방법을 수행하게 한다. 본 발명의 비일시적 컴퓨터 판독가능 저장 매체는 컴퓨터에서 본 발명에 따른 SPO의 추출 방법을 실행하게 하기 위한 컴퓨터 명령을 저장한다.
메모리(602)는 비일시적 컴퓨터 판독가능 저장 매체로서, 본 발명의 실시예에 따른 SPO의 추출 방법에 대응하는 프로그램 명령/모듈(예를 들어, 도 4에 도시된 추출 모델 모듈(401), 멀티-모델 결합 모듈(402), 후처리 모듈(403), 데이터 증강 모듈(404))과 같은 비일시적 소프트웨어 프로그램, 비일시적 컴퓨터 실행가능 프로그램 및 모듈을 저장하는데 사용될 수 있다. 프로세서(601)는 메모리(602)에 저장된 비일시적 소프트웨어 프로그램, 명령 및 모듈을 실행함으로써 서버의 다양한 기능 애플리케이션 및 데이터 처리를 실행하며, 즉 전술한 방법의 실시예에 따른 SPO의 추출 방법을 구현한다.
상기 메모리(602)는 프로그램 저장영역 및 데이터 저장영역을 포함할 수 있으며, 프로그램 저장영역은 운영 체제, 적어도 하나의 기능에 필요한 애플리케이션 프로그램을 저장할 수 있고, 데이터 저장영역은 SPO의 추출 방법에 따른 전자 설비의 사용에 의해 생성된 데이터 등을 저장할 수 있다. 또한, 메모리(602)는 고속 랜덤 액세스 메모리를 포함할 수 있고, 또한 적어도 하나의 자기 디스크 저장 장치, 플래시 메모리 장치, 또는 다른 비일시적 고체 메모리 장치와 같은 비일시적 메모리를 포함할 수도 있다. 일부 실시예에서, 메모리(602)는 선택적으로 프로세서(601)에 비해 원격으로 설치된 저장장치를 포함할 수 있고, 당해 원격 저장장치는 네트워크를 통해 SPO의 추출 방법에 따른 전자 설비에 연결될 수 있다. 이러한 네트워크의 예는 인터넷, 기업 인트라넷, 로컬 영역 네트워크, 이동 통신 네트워크, 및 이들의 조합을 포함하지만, 이에 제한되지 않는다.
SPO의 추출 방법에 따른 전자기기는 입력장치(603) 및 출력장치(604)를 더 포함할 수 있다. 프로세서(601), 메모리(602), 입력장치(603), 및 출력장치(604)는 버스 또는 다른 수단에 의해 접속될 수 있으며, 도 6에서 버스를 통한 연결이 예시되어 있다.
입력장치(603)는 입력된 숫자 또는 문자 정보를 수신할 수 있을 뿐만 아니라, SPO의 추출 방법에 따른 전자기기의 사용자 설정 및 기능제어에 관련된 키 신호 입력을 생성할 수 있으며, 예를 들어, 터치 스크린, 키패드, 마우스, 트랙패드, 터치패드, 포인팅 스틱, 하나 또는 복수의 마우스 버튼, 트랙볼, 조이스틱 등과 같은 입력장치이다. 출력장치(604)는 디스플레이 장치, 보조 조명 장치(예를 들어, LED), 및 햅틱 피드백 장치(예를 들어, 진동 모터)등을 포함할 수 있다. 당해 디스플레이 장치는 액정표시장치(LCD), 발광 다이오드(LED) 디스플레이, 및 플라즈마 디스플레이를 포함할 수 있지만, 이에 한정되지 않는다. 일부 실시방식에서, 디스플레이 장치는 터치 스크린일 수 있다.
본 출원의 실시예에 따르면, 컴퓨터 판독 가능 매체에 저장되어 있는 컴퓨터 프로그램을 더 제공한다. 당해 컴퓨터 프로그램의 명령이 실행될 경우, 본 출원 실시예의 SPO의 추출 방법이 실행된다.
본 명세서에 기술된 시스템 및 기술의 다양한 실시방식은 디지털 전자 회로 시스템, 집적 회로 시스템, 주문형 집적 회로 (ASIC), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합으로 구현될 수 있다. 이들 다양한 실시예는 하나 또는 복수의 컴퓨터 프로그램에서 구현하는 것을 포함할 수 있으며, 당해 하나 또는 복수의 컴퓨터 프로그램은 적어도 하나의 프로그램 가능 프로세서를 포함하는 프로그램 가능한 시스템에서 실행 및/또는 해석될 수 있고, 당해 프로그램 가능 프로세서는 전용 또는 범용 프로그램 가능 프로세서일 수 있으며, 저장 시스템, 적어도 하나의 입력장치, 및 적어도 하나의 출력장치로부터 데이터 및 명령을 수신하고, 데이터 및 명령을 당해 저장 시스템, 적어도 하나의 입력장치, 및 적어도 하나의 출력장치에 송신할 수 있다.
이들 컴퓨팅 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션, 또는 코드로 또한 지칭됨)은 프로그램 가능 프로세서의 기계 명령을 포함하며, 하이 레벨 절차 및/또는 객체 지향 프로그래밍 언어, 및/또는 어셈블리/기계 언어로 구현될 수 있다. 본 명세서에서 사용되는 바와 같이, "기계 판독가능 매체"및 "컴퓨터 판독가능 매체"라는 용어는 기계 명령 및/또는 데이터를 프로그램 가능 프로세서에 제공하기 위한 임의의 컴퓨터 프로그램 제품, 디바이스, 및/또는 장치(예를 들어, 자기 디스크, 광 디스크, 메모리, 프로그래머블 논리 소자(PLD))를 지칭하며, 기계 판독 가능 신호인 기계 명령을 수신하기 위한 기계 판독가능 매체를 포함한다. "기계 판독 가능 신호"라는 용어는 기계 명령 및/또는 데이터를 프로그램 가능 프로세서에 제공하는데 사용되는 임의의 신호를 지칭한다.
사용자와의 상호작용을 제공하기 위해, 본 명세서에 설명된 시스템 및 기술은 컴퓨터에서 구현될 수 있으며, 당해 컴퓨터는 사용자에게 정보를 디스플레이하기 위한 디스플레이 장치(예를 들어, 음극선관(CRT) 또는 액정표시장치(LCD) 모니터), 및 키보드 및 포인팅 장치(예를 들어, 마우스 또는 트랙볼)을 갖고, 사용자가 당해 키보드 및 당해 포인팅 장치를 통해 컴퓨터에 입력을 제공할 수 있다. 다른 종류의 장치가 사용자와의 상호작용을 제공하기 위해 사용될 수 있으며, 예를 들어, 사용자에게 제공되는 피드백은 임의의 형태의 감각 피드백(예를 들어, 시각적 피드백, 청각적 피드백, 또는 촉각적 피드백) 일 수 있고, 사용자로부터의 입력은 임의의 형태(음향 입력, 음성 입력, 또는 촉각 입력을 포함하는)로 수신될 수 있다.
본 명세서에 설명된 시스템 및 기술은 백그라운드 컴포넌트를 포함하는 컴퓨팅 시스템(예를 들어, 데이터 서버), 또는 미들웨어 컴포넌트를 포함하는 컴퓨팅 시스템 (예를 들어, 애플리케이션 서버), 또는 프론트-엔드 컴포넌트를 포함하는 컴퓨팅 시스템(예를 들어, 그래픽 사용자 인터페이스 또는 웹 브라우저를 갖는 사용자 컴퓨터이고, 사용자는 당해 그래픽 사용자 인터페이스 또는 웹 브라우저를 통해 본 명세서에 기술된 시스템 및 기술의 실시예와 상호작용할 수 있다), 또는 당해 백그라운드 컴포넌트, 미들웨어 컴포넌트 또는 프론트-엔드 컴포넌트를 포함하는 임의 조합의 컴퓨팅 시스템에서 구현될 수 있다. 시스템의 컴포넌트는 디지털 데이터 통신(예를 들어, 통신 네트워크)의 임의의 형태 또는 매체에 의해 상호접속될 수 있다. 통신 네트워크의 예는 근거리 통신망(LAN), 광대역통신망(WAN) 및 인터넷을 포함한다.
컴퓨터 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트 및 서버는 일반적으로 서로 떨어져 있으며, 통상적으로 통신 네트워크를 통해 상호 작용한다. 클라이언트와 서버 사이의 관계는 대응하는 컴퓨터에서 실행되고 서로 클라이언트-서버 관계를 갖는 컴퓨터 프로그램에 의해 생성된다.
본 발명의 실시예에 따른 기술방안은, 먼저 라벨링된 트레이닝 데이터를 복수의 추출 모델에 각각 입력하고, 라벨링된 트레이닝 데이터에서 각각의 추출 모델을 통해 정의된 관계를 만족하는 SPO를 예측하며; 각각의 추출 모델에 의해 예측된 SPO를 결합하고, 결합된 SPO로부터 식별 기준을 만족하는 SPO를 추출하며; 식별 기준을 만족하는 SPO가 출력 조건을 만족하지 않는 경우, 식별 기준을 만족하는 SPO에 따라 라벨링된 트레이닝 데이터에서 라벨링 결실 SPO를 마이닝하며; 라벨링 결실 SPO를 라벨링된 트레이닝 데이터에 추가하고, 식별 기준을 만족하는 SPO가 출력 조건을 만족할 때까지 상기 동작을 반복적으로 수행한다. 즉, 본 발명은 라벨링 결실 SPO를 라벨링된 트레이닝 데이터에 추가하고, 추가된 라벨링된 트레이닝 데이터를 복수의 추출 모델에 각각 입력하고, 식별 기준을 만족하는 SPO가 출력 조건을 만족할 때까지 상기 동작을 반복적으로 수행함으로써 SPO의 조회율을 향상시킬 수 있도록 한다. 기존의 SPO 추출 방법에서, 추출이 마이닝 템플릿에 의해 또는 단일한 추출 모델에 의해 수행되는지 여부에 관계없이, 조회율이 낮다. 본 발명은 트레이닝 데이터를 예측하기 위해 복수의 추출 모델을 사용하고, 라벨링 결실 SPO를 트레이닝 데이터에 추가하는 기술수단을 채용하기 때문에, 조회율이 낮고 인건비가 높다는 기존의 기술적 문제점이 해결되어, SPO의 조회율을 효과적으로 개선하고 인건비를 절감하고 추출 효율을 향상시킬 수 있는 기술적 효과를 얻을 수 있으며, 본 발명의 실시예의 기술적 방안은 간단하고 편리하며 보급이 용이하며 적용 범위가 더욱 넓다.
전술한 다양한 형태의 흐름, 재배열, 부가 또는 삭제 단계가 사용될 수 있다는 것을 이해해야 한다. 예를 들어, 본 발명에 기재된 각 단계는 본 발명에 개시된 기술방안의 원하는 결과를 구현할 수 있는 한, 병렬로 또는 순서로 또는 상이한 순서로 수행될 수 있으며, 이는 본 명세서에 제한되지 않는다.
상기 상세한 실시방식은 본 발명의 청구항을 제한하는 것으로 의도되지 않는다. 다양한 수정, 조합, 서브 조합, 및 대체가 설계 요건 및 다른 요인을 고려하여 이루어질 수 있다는 것이 당업자에게 명백할 것이다. 본 발명의 사상 및 원리 내에서 이루어진 임의의 수정, 등가물, 및 개선은 본 발명의 청구항 내에 포함되는 것으로 인정한다.

Claims (13)

  1. 추출 모델 모듈은 라벨링된 트레이닝 데이터를 복수의 추출 모델에 각각 입력하고, 상기 라벨링된 트레이닝 데이터에서 각각의 추출 모델을 통해 정의된 관계를 만족하는 SPO를 예측하는 단계;
    멀티-모델 결합 모듈은 각각의 추출 모델에 의해 예측된 SPO를 결합하고, 결합된 SPO로부터 식별 기준을 만족하는 SPO를 추출하는 단계;
    상기 식별 기준을 만족하는 SPO가 출력 조건을 만족하지 않는 경우, 후처리 모듈은 상기 식별 기준을 만족하는 SPO에 따라, 상기 라벨링된 트레이닝 데이터에서 라벨링 결실 SPO를 마이닝하는 단계; 및
    데이터 증강 모듈은 상기 라벨링 결실 SPO를 상기 라벨링된 트레이닝 데이터에 추가하고, 상기 식별 기준을 만족하는 SPO가 상기 출력 조건을 만족할 때까지 입력, 예측, 결합, 추출, 마이닝, 추가를 반복적으로 수행하는 단계;를 포함하고,
    상기 결합된 SPO로부터 식별 기준을 만족하는 SPO를 추출하는 단계는,
    상기 멀티-모델 결합모듈은 상기 결합된 SPO 내의 각각의 SPO를 분류 모델에 입력하고, 각각의 SPO를 상기 분류 모델을 통해 제 1 분류 또는 제 2 분류로 분할하며, 상기 제 1 분류 또는 상기 제 2 분류로 분할된 SPO가 상기 미리 설정된 식별 기준을 만족하는 SPO인 것으로 판단하는 단계;를 포함하는,
    것을 특징으로 하는 트리플 SPO의 추출 방법.
  2. 삭제
  3. 제1항에 있어서,
    상기 식별 기준을 만족하는 SPO에 따라, 상기 라벨링된 트레이닝 데이터에서 라벨링 결실 SPO를 마이닝하는 단계는,
    식별 서브모듈은 상기 식별 기준을 만족하는 각각의 SPO를 식별하여 각각의 SPO에 대응하는 구문 특징 및 어휘 특징을 획득하는 단계;
    설정 서브모듈은 각각의 SPO에 대응하는 구문 특징 및 어휘 특징에 따라, 적어도 하나의 마이닝 템플릿을 설정하는 단계; 및
    마이닝 서브모듈은 상기 라벨링된 트레이닝 데이터에서 상기 적어도 하나의 마이닝 템플릿을 이용하여 라벨링 결실 SPO를 마이닝하는 단계; 를 포함하는,
    것을 특징으로 하는 트리플 SPO의 추출 방법.
  4. 제1항에 있어서,
    상기 각각의 추출 모델에 의해 출력된 SPO를 결합한 후, 식별 기준을 만족하는 SPO를 상기 결합된 SPO로부터 추출하기 전에,
    상기 멀티-모델 결합 모듈은 미리 설정된 충돌 검증 방법을 사용하여, 상기 결합된 SPO 내의 각각의 SPO에 대한 충돌 검증을 수행하는 단계;
    상기 멀티-모델 결합 모듈은 검증에 성공한 SPO로부터 상기 식별 기준을 만족하는 SPO를 추출하는 단계; 및
    상기 멀티-모델 결합 모듈은 검증에 실패한 SPO를 삭제하는 단계; 를 더 포함하는,
    것을 특징으로 하는 트리플 SPO의 추출 방법.
  5. 제1항에 있어서,
    상기 라벨링 결실 SPO를 상기 라벨링된 트레이닝 데이터에 추가한 후,
    상기 데이터 증강 모듈은 각각의 추출 모델에 의해 예측된 SPO에 따라, 상기 라벨링된 트레이닝 데이터에서 추출 모델 중 어느 하나에 의해 예측되지 않는 SPO의 라벨링을 삭제하는 단계를 더 포함하는,
    것을 특징으로 하는 트리플 SPO의 추출 방법.
  6. 라벨링된 트레이닝 데이터를 복수의 추출 모델에 각각 입력하고, 상기 라벨링된 트레이닝 데이터에서 각각의 추출 모델을 통해 정의된 관계를 만족하는 SPO를 예측하는 추출 모델 모듈;
    각각의 추출 모델에 의해 예측된 SPO를 결합하고, 결합된 SPO로부터 식별 기준을 만족하는 SPO를 추출하는 멀티-모델 결합 모듈;
    상기 식별 기준을 만족하는 SPO가 출력 조건을 만족하지 않는 경우, 상기 식별 기준을 만족하는 SPO에 따라, 상기 라벨링된 트레이닝 데이터에서 라벨링 결실 SPO를 마이닝하는 후처리 모듈; 및
    상기 라벨링 결실 SPO를 상기 라벨링된 트레이닝 데이터에 추가하고, 상기 식별 기준을 만족하는 SPO가 상기 출력 조건을 만족할 때까지 입력, 예측, 결합, 추출, 마이닝, 추가를 반복적으로 수행하는 데이터 증강 모듈; 을 포함하고,
    상기 멀티-모델 결합 모듈은,
    상기 결합된 SPO 내의 각각의 SPO를 분류 모델에 입력하고, 각각의 SPO를 상기 분류 모델을 통해 제 1 분류 또는 제 2 분류로 분할하며, 상기 제 1 분류 또는 상기 제 2 분류로 분할된 SPO가 상기 미리 설정된 식별 기준을 만족하는 SPO인 것으로 판단하도록 구성되는,
    것을 특징으로 하는 SPO의 추출 장치.
  7. 삭제
  8. 제6항에 있어서,
    상기 후처리 모듈은,
    상기 식별 기준을 만족하는 각각의 SPO를 식별하여 각각의 SPO에 대응하는 구문 특징 및 어휘 특징을 획득하는 식별 서브모듈;
    각각의 SPO에 대응하는 구문 특징 및 어휘 특징에 따라 적어도 하나의 마이닝 템플릿을 설정하는 설정 서브모듈; 및
    상기 라벨링된 트레이닝 데이터에서 상기 적어도 하나의 마이닝 템플릿을 이용하여 라벨링 결실 SPO를 마이닝하는 마이닝 서브모듈; 을 포함하는,
    것을 특징으로 하는 SPO의 추출 장치.
  9. 제6항에 있어서,
    상기 멀티-모델 결합 모듈은,
    미리 설정된 충돌 검증 방법을 사용하여, 상기 결합된 SPO 내의 각각의 SPO에 대한 충돌 검증을 수행하고, 검증에 성공한 SPO로부터 상기 식별 기준을 만족하는 SPO를 추출하며, 검증에 실패한 SPO를 삭제하도록 구성되는,
    것을 특징으로 하는 SPO의 추출 장치.
  10. 제6항에 있어서,
    상기 데이터 증강 모듈은,
    각각의 추출 모델에 의해 예측된 SPO에 따라, 상기 라벨링된 트레이닝 데이터에서 추출 모델 중 어느 하나에 의해 예측되지 않는 SPO의 라벨링을 삭제하도록 구성되는,
    것을 특징으로 하는 SPO의 추출 장치.
  11. 적어도 하나의 프로세서; 및
    적어도 하나의 프로세서에 통신 가능하게 연결되는 메모리; 를 포함하고,
    상기 메모리는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령을 저장하며, 상기 명령이 상기 적어도 하나의 프로세서에 의해 실행될 경우, 상기 적어도 하나의 프로세서가 제1항, 제3항 내지 제5항 중 어느 한 항에 따른 방법을 수행하는,
    것을 특징으로 하는 전자기기.
  12. 컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독가능 저장 매체에 있어서,
    상기 컴퓨터 명령이 실행될 경우, 제1항. 제3항 내지 제5항 중 어느 한 항에 따른 방법이 수행되는,
    것을 특징으로 하는 컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독가능 저장 매체.
  13. 컴퓨터 판독 가능 매체에 저장되어 있는 컴퓨터 프로그램에 있어서,
    상기 컴퓨터 프로그램의 명령이 실행될 경우, 제1항, 제3항 내지 제5항 중 어느 한 항에 따른 방법이 수행되는,
    것을 특징으로 하는컴퓨터 판독 가능 매체에 저장되어 있는 컴퓨터 프로그램.
















KR1020210006103A 2020-01-15 2021-01-15 Spo의 추출 방법, 장치, 전자기기 및 저장 매체 KR102464248B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010042686.6 2020-01-15
CN202010042686.6A CN111274391B (zh) 2020-01-15 2020-01-15 一种spo的抽取方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
KR20210092698A KR20210092698A (ko) 2021-07-26
KR102464248B1 true KR102464248B1 (ko) 2022-11-07

Family

ID=70999036

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210006103A KR102464248B1 (ko) 2020-01-15 2021-01-15 Spo의 추출 방법, 장치, 전자기기 및 저장 매체

Country Status (5)

Country Link
US (1) US20210216819A1 (ko)
EP (1) EP3851977A1 (ko)
JP (1) JP7242719B2 (ko)
KR (1) KR102464248B1 (ko)
CN (1) CN111274391B (ko)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113360642A (zh) * 2021-05-25 2021-09-07 科沃斯商用机器人有限公司 文本数据处理方法及装置、存储介质和电子设备
CN113656590B (zh) * 2021-07-16 2023-12-15 北京百度网讯科技有限公司 行业图谱的构建方法、装置、电子设备及存储介质
CN113779260B (zh) * 2021-08-12 2023-07-18 华东师范大学 一种基于预训练模型的领域图谱实体和关系联合抽取方法及系统
CN113742592A (zh) * 2021-09-08 2021-12-03 平安信托有限责任公司 舆情信息推送方法、装置、设备及存储介质
CN114925693B (zh) * 2022-01-05 2023-04-07 华能贵诚信托有限公司 一种基于多模型融合的多元关系抽取方法和抽取系统
CN114566247B (zh) * 2022-04-20 2022-08-12 浙江太美医疗科技股份有限公司 Crf的自动生成方法和装置、电子设备和存储介质
CN115204120B (zh) * 2022-07-25 2023-05-30 平安科技(深圳)有限公司 保险领域三元组抽取方法、装置、电子设备及存储介质
CN115982352B (zh) * 2022-12-12 2024-04-02 北京百度网讯科技有限公司 文本分类方法、装置以及设备
CN116562299B (zh) * 2023-02-08 2023-11-14 中国科学院自动化研究所 文本信息的论元抽取方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011227688A (ja) * 2010-04-20 2011-11-10 Univ Of Tokyo テキストコーパスにおける2つのエンティティ間の関係抽出方法及び装置
US20190213258A1 (en) * 2018-01-10 2019-07-11 International Business Machines Corporation Machine Learning to Integrate Knowledge and Natural Language Processing
US20190294665A1 (en) * 2018-03-23 2019-09-26 Abbyy Production Llc Training information extraction classifiers

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7346601B2 (en) * 2002-06-03 2008-03-18 Microsoft Corporation Efficient evaluation of queries with mining predicates
RU2610241C2 (ru) * 2015-03-19 2017-02-08 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Способ и система синтеза текста на основе извлеченной информации в виде rdf-графа с использованием шаблонов
CN105868313B (zh) * 2016-03-25 2019-02-12 浙江大学 一种基于模板匹配技术的知识图谱问答系统及方法
JP6790905B2 (ja) 2017-02-20 2020-11-25 富士通株式会社 検出方法、検出装置および検出プログラム
RU2681356C1 (ru) * 2018-03-23 2019-03-06 Общество с ограниченной ответственностью "Аби Продакшн" Обучение классификаторов, используемых для извлечения информации из текстов на естественном языке
US10878296B2 (en) * 2018-04-12 2020-12-29 Discovery Communications, Llc Feature extraction and machine learning for automated metadata analysis
CN108549639A (zh) * 2018-04-20 2018-09-18 山东管理学院 基于多特征模板修正的中医医案命名识别方法及系统
CN110569494B (zh) 2018-06-05 2023-04-07 北京百度网讯科技有限公司 用于生成信息的方法、装置、电子设备及可读介质
CN109582799B (zh) * 2018-06-29 2020-09-22 北京百度网讯科技有限公司 知识样本数据集的确定方法、装置及电子设备
US11562133B2 (en) * 2018-12-04 2023-01-24 Foundation Of Soongsil Univ-Industry Cooperation System and method for detecting incorrect triple
CN110379520A (zh) * 2019-06-18 2019-10-25 北京百度网讯科技有限公司 医疗知识图谱的挖掘方法及装置、计算机设备及可读介质
CN110610193A (zh) * 2019-08-12 2019-12-24 大箴(杭州)科技有限公司 标注数据的处理方法及装置
CN110619053A (zh) * 2019-09-18 2019-12-27 北京百度网讯科技有限公司 实体关系抽取模型的训练方法和抽取实体关系的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011227688A (ja) * 2010-04-20 2011-11-10 Univ Of Tokyo テキストコーパスにおける2つのエンティティ間の関係抽出方法及び装置
US20190213258A1 (en) * 2018-01-10 2019-07-11 International Business Machines Corporation Machine Learning to Integrate Knowledge and Natural Language Processing
US20190294665A1 (en) * 2018-03-23 2019-09-26 Abbyy Production Llc Training information extraction classifiers

Also Published As

Publication number Publication date
KR20210092698A (ko) 2021-07-26
US20210216819A1 (en) 2021-07-15
JP7242719B2 (ja) 2023-03-20
CN111274391A (zh) 2020-06-12
JP2021111417A (ja) 2021-08-02
EP3851977A1 (en) 2021-07-21
CN111274391B (zh) 2023-09-01

Similar Documents

Publication Publication Date Title
KR102464248B1 (ko) Spo의 추출 방법, 장치, 전자기기 및 저장 매체
EP3933660A1 (en) Method and apparatus for extracting event from text, electronic device, and storage medium
US20220383190A1 (en) Method of training classification model, method of classifying sample, and device
CN107992585B (zh) 通用标签挖掘方法、装置、服务器及介质
US20210209446A1 (en) Method for generating user interactive information processing model and method for processing user interactive information
US11403468B2 (en) Method and apparatus for generating vector representation of text, and related computer device
JP2021190087A (ja) テキスト認識処理方法、装置、電子機器及び記憶媒体
US20210209416A1 (en) Method and apparatus for generating event theme
US20210200813A1 (en) Human-machine interaction method, electronic device, and storage medium
KR102521765B1 (ko) 인과 관계의 판별 방법, 장치, 전자 기기 및 저장 매체
US11537792B2 (en) Pre-training method for sentiment analysis model, and electronic device
US20220067439A1 (en) Entity linking method, electronic device and storage medium
KR102600018B1 (ko) 엔티티 관계 마이닝 방법, 장치, 전자 기기, 저장 매체 및 프로그램
KR102456535B1 (ko) 의료 사실 검증 방법, 장치, 전자 기기, 저장 매체 및 프로그램
US11182648B2 (en) End-to-end model training method and apparatus, and non-transitory computer-readable medium
US11321370B2 (en) Method for generating question answering robot and computer device
CN113641830B (zh) 模型预训练方法、装置、电子设备和存储介质
US11462039B2 (en) Method, device, and storage medium for obtaining document layout
US11468236B2 (en) Method and apparatus for performing word segmentation on text, device, and medium
CN111291192A (zh) 知识图谱中三元组置信度计算方法和装置
CN112417875B (zh) 配置信息的更新方法、装置、计算机设备及介质
CN113312451B (zh) 文本标签确定方法和装置
US20210280189A1 (en) Method and apparatus for generating conversation, electronic device, and storage medium
CN113971216B (zh) 数据处理方法、装置、电子设备和存储器
US20220028370A1 (en) Method and apparatus for recognizing speech, electronic device and storage medium

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant