KR20210040886A - 데이터 증강 방법, 장치, 기기 및 저장 매체 - Google Patents

데이터 증강 방법, 장치, 기기 및 저장 매체 Download PDF

Info

Publication number
KR20210040886A
KR20210040886A KR1020210038964A KR20210038964A KR20210040886A KR 20210040886 A KR20210040886 A KR 20210040886A KR 1020210038964 A KR1020210038964 A KR 1020210038964A KR 20210038964 A KR20210038964 A KR 20210038964A KR 20210040886 A KR20210040886 A KR 20210040886A
Authority
KR
South Korea
Prior art keywords
tuple
predicted
tuples
subject
relationship
Prior art date
Application number
KR1020210038964A
Other languages
English (en)
Inventor
핑핑 후앙
추안 왕
원빈 지앙
펑청 위안
Original Assignee
베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. filed Critical 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Publication of KR20210040886A publication Critical patent/KR20210040886A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Fuzzy Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

본 발명의 실시예는 지식 그래프 기술분야에 관한, 데이터 증강 방법, 장치, 기기 및 저장매체를 공개한다. 일 측면에 따른 데이터 증강 방법은, 지식 그래프에서 3-튜플을 획득하는 단계; 지식 그래프에서 3-튜플 중 관계에 해당하는 관계 경로를 마이닝하는 단계 - 관계 경로는 3-튜플 중 서브젝트와 오브젝트를 각각 시작점과 종점으로 함 -; 및 관계 경로에 기반하여, 3-튜플을 확장하여 확장 3-튜플을 생성하는 단계를 포함한다. 상기 실시 형태는 지식 그래프 중 3-튜플의 확장을 구현하고, 3-튜플 중 서브젝트와 오브젝트가 보다 큰 언어 환경에서의 연관성을 강화하여, 3-튜플 중 서브젝트와 오브젝트 사이의 연광성이 보다 전면적이 되도록 한다.

Description

데이터 증강 방법, 장치, 기기 및 저장 매체{A METHOD, A DEVICE, AN ELECTRONIC EQUIPMENT AND A STORAGE MEDIUM FOR AUGMENTING DATA}
본 발명의 실시예는 컴퓨터 기술분야에 관한 것으로, 구체적으로 지식 그래프 기술 분야에 관한 것이다.
지식 영역 가시화(Knowledge Domain Visualization) 또는 지식 영역 매핑 지도라고도 하는 지식 그래프는, 지식 발전 프로세스와 구조 관계를 보여주는 일련의 다양한 그래픽이고, 가시화 기술을 사용하여 지식 자원 및 그 매체를 설명하며, 지식과 이들 사이의 상호 연결을 마이닝(mining), 분석, 구축, 제작 및 표시한다.
지식 그래프는 세계 현실 지식을 설명하는 유향 그래프 구조의 지식 베이스이고, 그 기본 구성은 3-튜플(S, P, O)이다. 이 중 S(subject)와 O(object)는 지식 그래프 중 노드로서, 엔티티를 표시한다. S는 구체적으로 서브젝트를 표시하고, O는 구체적으로 오브젝트를 표시한다. P(predication)는 지식 그래프에서 두 개의 엔티티(S와 O)를 연결시키는 에지이고, 두 개의 엔티티 사이의 관계를 표시한다. 기존의 지식 그래프에서, 두 개의 엔티티 사이의 연관성은 모두 상기 두 개의 엔티티를 직접 연결하는 에지 P로 표현되고, 그 표시된 연관성은 비교적 국부적이다.
본 발명의 실시예는 데이터 증강 방법, 장치, 기기 및 저장 매체를 제공한다.
일 측면에 따른 데이터 증강 방법은, 지식 그래프에서 3-튜플(Three tuple)을 획득하는 단계; 지식 그래프에서 3-튜플 중 관계에 해당하는 관계 경로를 마이닝하는 단계 - 관계 경로는 3-튜플 중 서브젝트와 오브젝트를 각각 시작점과 종점으로 함 -; 및 관계 경로에 기반하여, 3-튜플을 확장하여 확장 3-튜플을 생성하는 단계;를 포함한다.
다른 측면에 따른 데이터 증강 장치는, 지식 그래프에서 3-튜플을 획득하는 제1 획득 모듈; 지식 그래프에서 3-튜플 중 관계에 해당하는 관계 경로를 마이닝하는 마이닝 모듈 - 관계 경로는 3-튜플 중 서브젝트와 오브젝트를 각각 시작점과 종점으로 함 -; 및 관계 경로에 기반하여, 3-튜플을 확장하여 확장 3-튜플을 생성하는 확장 모듈;을 포함한다.
또 다른 측면에 따른 전자 기기는, 적어도 하나의 프로세서; 및 적어도 하나의 프로세서와 통신 연결하는 메모리;를 포함하고, 메모리에는 적어도 하나의 프로세서에 실행 가능한 명령이 저장되며, 명령이 적어도 하나의 프로세서에 의해 실행되어, 적어도 하나의 프로세서가 상술한 방법을 수행할 수 있도록 한다.
또 다른 측면에 따른컴퓨터 명령이 저장된 비일시적 컴퓨터 판독 가능 저장 매체에서, 컴퓨터 명령은 컴퓨터가 상술한 방법을 수행하도록 한다.
또 다른 측면에 따른 컴퓨터 판독 가능한 저장 매체에 저장된 컴퓨터 프로그램에서, 컴퓨터 프로그램은 프로세서에 의해 실행될 경우 상술한 방법을 구현하도록 한다.
본 발명의 실시예에서 제공되는 데이터 증강 방법, 장치, 기기 저장 매체 및 컴퓨터 프로그램은, 우선, 지식 그래프에서 3-튜플을 획득하고, 다음, 지식 그래프에서 3-튜플 중 관계에 해당하는 관계 경로를 마이닝하며, 마지막으로, 관계 경로에 기반하여, 3-튜플을 확장하여 확장 3-튜플을 생성하한다. 지식 그래프 중 3-튜플의 확장을 구현하고, 3-튜플 중 서브젝트와 오브젝트가 보다 큰 언어 환경에서의 연관성을 강화하여, 3-튜플 중 서브젝트와 오브젝트 사이의 연광성이 보다 전면적이 되도록 한다.
본 부분에서 설명되는 내용은 본 발명의 실시예의 핵심적이거나 중요한 특징을 식별하기 위한 것이 아니며, 본 발명의 범위를 제한하려는 의도도 아님을 이해해야 한다. 본 발명의 기타 특징은 하기의 명세서에 의해 쉽게 이해될 것이다.
아래 첨부 도면에 도시된 비 제한적인 실시예의 상세한 설명에 대한 열독 및 참조를 통해 본 발명의 다른 특징, 목적 및 장점이 보다 명백해질 것이다.
도 1은 본 발명이 응용될 수 있는 예시적 시스템 아키텍처이다.
도 2는 본 발명에 따른 데이터 증강 방법의 일 실시예의 흐름도이다.
도 3은 본 발명의 실시예의 데이터 증강 방법을 구현할 수 있는 장면도이다.
도 4는 본 발명에 따른 데이터 증강 방법의 다른 실시예의 흐름도이다.
도 5는 본 발명에 따른 데이터 증강 장치의 일 실시예의 구조 모식도이다.
도 6은 본 발명의 실시예의 데이터 증강 방법을 구현하는데 사용되는 전자 기기의 블록도이다.
아래 도면과 결부시켜 본 발명의 예시적 실시예를 설명하되, 여기에 이해를 돕기 위한 본 발명의 실시예의 다양한 세부사항들이 포함되지만, 이들은 단지 예시적인 것으로 이해해야 한다. 따라서, 본 기술분야의 통상의 기술자는 본 발명의 범위 및 정신을 벗어나지 않는 전제 하에 여기서 설명된 실시예에 대해 다양한 변형 및 수정을 진행할 수 있음을 이해해야 한다. 마찬가지로, 명확 및 간략을 위해, 아래의 설명에서 공지 기능 및 구조에 대한 설명을 생략한다.
본 실시예들에서 사용되는 용어는 본 실시예들에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 부분에서 상세히 그 의미를 기재할 것이다. 따라서, 본 실시예들에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 실시예들 전반에 걸친 내용을 토대로 정의되어야 한다.
본 실시예들은 다양한 변경을 가할 수 있고 여러 가지 형태를 가질 수 있는바, 일부 실시예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 본 실시예들을 특정한 개시형태에 대해 한정하려는 것이 아니며, 본 실시예들의 사상 및 기술범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 본 명세서에서 사용한 용어들은 단지 실시예들의 설명을 위해 사용된 것으로, 본 실시예들을 한정하려는 의도가 아니다.
본 실시예들에 사용되는 용어들은 다르게 정의되지 않는 한, 본 실시예들이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미가 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 실시예들에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않아야 한다.
후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이러한 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 본 명세서에 기재되어 있는 특정 형상, 구조 및 특성은 본 발명의 정신과 범위를 벗어나지 않으면서 일 실시예로부터 다른 실시예로 변경되어 구현될 수 있다. 또한, 각각의 실시예 내의 개별 구성요소의 위치 또는 배치도 본 발명의 정신과 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 행하여지는 것이 아니며, 본 발명의 범위는 특허청구범위의 청구항들이 청구하는 범위 및 그와 균등한 모든 범위를 포괄하는 것으로 받아들여져야 한다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 구성요소를 나타낸다.
한편, 본 명세서에서 하나의 도면 내에서 개별적으로 설명되는 기술적 특징은 개별적으로 구현될 수도 있고, 동시에 구현될 수도 있다.
본 명세서에서, "~모듈(module)"은 프로세서 또는 회로와 같은 하드웨어 구성(hardware component), 및/또는 프로세서와 같은 하드웨어 구성에 의해 실행되는 소프트웨어 구성(software component)일 수 있다.
모순되지 않는 한 본 발명의 실시예 및 실시예의 특징은 서로 조합될 수 있음을 유의해야 한다. 아래 첨부 도면을 참조하고 실시예를 참조하여 본 발명을 상세히 설명하기로 한다.
도 1은 본 발명이 응용될 수 있는 예시적 시스템 아키텍처이다.
도 1에 도시된 바와 같이, 시스템 아키텍처(100)는 데이터베이스 서버(101), 네트워크(102) 및 서버(103)를 포함할 수 있다. 네트워크(102)는 데이터베이스 서버(101)와 서버(103) 사이에서 통신 링크의 매체를 제공한다. 네트워크(102)는 다양한 연결 타입을 포함할 수 있는 바, 예를 들면 유선, 무선 통신 링크 또는 광섬유 케이블 등이다.
데이터베이스 서버(101)는 지식 그래프를 저장하고, 네트워크(102)를 통해 서버(103)에 지식 그래프를 제공할 수 있다.
서버(103)는 다양한 서비스를 제공할 수 있다. 예를 들어, 서버(103)는 데이터베이스 서버(101)에서 획득한 지식 그래프 등 데이터에 대해 분석 등 처리를 진행하여 처리 결과(예를 들어 확장 3-튜플)를 생성할 수 있다.
서버(103)는 하드웨어일 수 있고 소프트웨어일 수도 있다. 서버(103)가 하드웨어인 경우, 복수의 서버로 구성된 분산형 서버 클러스터로 구현될 수 있고, 하나의 서버로 구현될 수도 있다. 서버(103)가 소프트웨어인 경우, 복수의 소프트웨어 또는 소프트웨어 모듈(예를 들면 분산형 서비스를 제공함)로 구현되거나, 하나의 소프트웨어 또는 소프트웨어 모듈로 구현될 수 있으며, 여기서는 구체적으로 한정하지 않는다.
본 발명의 실시예가 제공하는 데이터 증강 방법은 일반적으로 서버(103)에 의해 수행될 수 있고, 상응하게, 데이터 증강 장치는 일반적으로 서버(103)에 설치될 수 있다.
도 1 중 데이터베이스 서버(101), 네트워크(102) 및 서버(103)의 개수는 예시적인 것일 뿐이며, 실제 필요에 따라, 시스템 아키텍처(100)는 임의의 개수의 데이터베이스 서버(101), 네트워크(102) 및 서버(103)를 구비할 수 있다. 서버(103)에 지식 그래프가 저장되어 있는 경우, 시스템 아키텍처(100)는 데이터베이스 서버(101)와 네트워크(102)를 설치하지 않을 수 있다.
도 2는 본 발명에 따른 데이터 증강 방법의 일 실시예의 흐름도이다.
데이터 증강 방법은 하기와 같은 단계를 포함한다.
단계(201)에서, 지식 그래프에서 3-튜플(Three tuple)을 획득한다.
본 실시예에서, 데이터 증강 방법의 수행 주체(예를 들어, 도 1에 도시된 서버(103))는 지식 그래프에서 3-튜플을 획득할 수 있다. 여기서, 획득한 3-튜플은 지식 그래프 중 임의의 3-튜플일 수 있다.
일반적으로, 지식 그래프는 세계 현실 지식을 설명하는 유향 그래프 구조의 지식 베이스이고, 그 기본 구성은 3-튜플(S, P, O)이다. 이 중 S와 O는 지식 그래프 중 노드로서, 엔티티를 표시한다. S는 구체적으로 서브젝트를 표시하고, O는 구체적으로 오브젝트를 표시한다. P는 지식 그래프에서 두 개의 엔티티(S와 O)를 연결시키는 에지이고, 두 개의 엔티티 사이의 관계를 표시한다. 예를 들어, 3-튜플(A, 딸, B)에서, A가 서브젝트이고, B가 오브젝트이며, 딸이 A와 B 사이의 관계이면, B는 A의 딸을 표시한다.
단계(202)에서, 지식 그래프에서, 3-튜플 중 관계에 해당하는 관계 경로를 마이닝한다.
본 실시예에서, 상기 수행 주체는 지식 그래프에서, 3-튜플 중 관계에 해당하는 관계 경로를 마이닝할 수 있다. 여기서, 관계 경로는 지식 그래프 중 적어도 하나의 에지가 연결되어 형성된 경로일 수 있고, 관계 경로는 3-튜플 중 서브젝트와 오브젝트를 각각 시작점과 종점으로 한다.
일반적으로, 관계 경로는 다양한 마이닝 도구를 통해 마이닝될 수 있다. 예를 들어, 통계적으로 동시 발생에 기반한 규칙 마이닝 도구는 amiePlus(AMIE+)일 수 있다. 마이닝 과정은 구체적으로 하기와 같다. 우선 지식 그래프에서 3-튜플(S, P, O) 중 서브젝트S 및 오브젝트O와 통계적으로 동시 발생되는 다른 3-튜플 서열을 마이닝한 다음, 다른 3-튜플 서열 중 관계를 순서대로 조합하여 관계 경로path를 생성한다. 여기서, 다른 3-튜플 서열 중 관계에 대응되는 에지의 처음과 끝은 서로 연결되고, 다른 3-튜플 서열 중 첫 번째 다른 3-튜플 중 엔티티는 3-튜플(S, P, O) 중 서브젝트S를 포함하며, 마지막 다른 3-튜플 중 엔티티는 3-튜플(S, P, O) 중 오브젝트O를 포함한다. 예를 들어, 지식 그래프에 (A, 딸, B), (B, 엄마, C), (C, 남편, A)와 같은 다수의 그룹의 3-튜플이 존재한다. 여기서, (A, 딸, B)는 B가 A의 딸임을 표시하고, (B, 엄마, C)는 C가 B의 엄마임을 표시하며, (C, 남편, A)는 A가 C의 남편임을 표시한다. 3-튜플(A, 딸, B)의 경우, A 및 B와 통계적으로 동시 발생되는 3-튜플 서열은 (C, 남편, A)→(B, 엄마, C)이고, 관계 "딸”은 관계 경로 "남편-1→엄마-1"에 해당된다. 여기서, 윗첨자 "-1"가 있는 관계는 윗첨자 "-1"가 없는 관계의 방향과 서로 반대된다.
단계(203)에서, 관계 경로에 기반하여, 3-튜플을 확장하여 확장 3-튜플을 생성한다.
본 실시예에서, 상기 수행 주체는 관계 경로에 기반하여 3-튜플을 확장하여 확장 3-튜플을 생성할 수 있다. 일반적으로, 확장 3-튜플과 3-튜플 중 적어도 하나의 엔티티는 서로 동일하다. 예를 들어, 확장 3-튜플과 3-튜플 중 서브젝트는 서로 동일하다.
본 실시예의 일부 선택 가능한 구현 형태에서, 상기 수행 주체는 관계 경로path를 이용하여 3-튜플(S, P, O) 중 관계P를 대체하여, 확장 3-튜플(S, path, O)을 생성할 수 있다. 예를 들어, 관계 경로 “남편-1→엄마-1"를 이용하여 3-튜플(A, 딸, B) 중 관계 “딸”을 대체하여, 확장 3-튜플(A, 남편-1→엄마-1, B)을 생성한다.
본 실시예의 일부 선택 가능한 구현 형태에서, 상기 수행 주체는 우선 3-튜플(S, P, O) 중 서브젝트S를 시작점으로 하여 관계 경로path를 워킹하여, 3-튜플(S, P, O) 중 오브젝트O와 상이한 다른 오브젝트O′를 획득하고; 다음, 관계 경로path를 이용하여 3-튜플(S, P, O) 중 관계P를 대체하고, 다른 오브젝트O′를 이용하여 3-튜플(S, P, O) 중 오브젝트O를 대체하여, 확장 3-튜플(S, path, O′)을 생성할 수 있다. 예를 들어, 지식 그래프에 3-튜플(A, 딸, E), (E, 엄마, C)가 더 존재하면, 3-튜플(A, 딸, B) 중 서브젝트A를 시작점으로 하여 관계 경로 “남편-1→엄마-1"를 워킹할 때, 3-튜플(A, 딸, B) 중 오브젝트B와 상이한 다른 오브젝트E를 더 획득할 수 있다. 관계 경로 "남편-1→엄마-1"를 이용하여 3-튜플(A, 딸, B) 중 관계 “딸”을 대체하는 동시에, 오브젝트를 이용하여 3-튜플(A, 딸, B) 중 오브젝트B를 대체하여, 확장 3-튜플(A, 남편-1→엄마-1, E)을 생성한다.
본 발명의 실시예에서 제공되는 데이터 증강 방법, 장치, 기기 및 저장 매체는, 우선, 지식 그래프에서 3-튜플을 획득하고; 다음, 지식 그래프에서 3-튜플 중 관계에 해당하는 관계 경로를 마이닝하며, 마지막으로 관계 경로에 기반하여, 3-튜플을 확장하여 확장 3-튜플을 생성한다. 지식 그래프 중 3-튜플의 확장을 구현하고, 3-튜플 중 서브젝트와 오브젝트가 보다 큰 언어 환경에서의 연관성을 강화하여, 3-튜플 중 서브젝트와 오브젝트 사이의 연광성이 보다 전면적이 되도록 한다.
아래에서는 본 발명의 실시예의 데이터 증강 방법을 구현할 수 있는 장면를 제공한다.
도 3은 본 발명의 실시예의 데이터 증강 방법을 구현할 수 있는 장면도이다.
도 3에 도시된 바와 같이, 지식 그래프에 (A, 딸, B), (B, 엄마, C), (C, 남편, A), (D, 국왕, A), (D, 왕후, C)와 같은 다수의 그룹의 3-튜플이 존재한다. 여기서, (A, 딸, B)는 B가 A의 딸임을 표시하고, (B, 엄마, C)는 C가 B의 엄마임을 표시하며, (C, 남편, A)는 A가 C의 남편임을 표시하고, (D, 국왕, A)는 A가 D의 국왕임을 표시하며, (D, 왕후, C)는 C가 D의 왕후임을 표시한다. 3-튜플(C, 남편, A)의 경우, 관계 “남편”은 관계 경로 “엄마-1→딸-1"에 해당되고, 3-튜플(C, 남편, A)에 대응되는 확장 3-튜플은 (C, 엄마-1→딸-1, A)이다. 3-튜플(D, 왕후, C)의 경우, 관계 “왕후”는 관계 경로 “국왕→남편-1"에 해당되고, 3-튜플(D, 왕후, C)에 대응되는 확장 3-튜플은 (D, 국왕→남편-1, C)이다. 3-튜플(B, 엄마, C)의 경우, 관계 “엄마”는 관계 경로 “딸-1"에 해당되고, 3-튜플(B, 엄마, C)에 대응되는 확장 3-튜플은 (B, 딸-1, C)이다. 여기서, 윗첨자“-1"가 있는 관계는 윗첨자“-1"가 없는 관계의 방향과 서로 반대된다.
도 4는 본 발명에 따른 데이터 증강 방법의 다른 실시예의 흐름도이다.
데이터 증강 방법은 하기와 같은 단계를 포함한다.
단계(401)에서, 지식 그래프에서 3-튜플을 획득한다.
단계(402)에서, 지식 그래프에서, 3-튜플 중 관계에 해당하는 관계 경로를 마이닝한다.
단계(403)에서, 관계 경로에 기반하여, 3-튜플을 확장하여 확장 3-튜플을 생성한다.
본 실시예에서, 단계(401)내지 단계(403)의 구체적인 조작은 도 2에 도시된 실시예 중 단계(201)내지 단계(203)에서 이미 상세히 설명하였기에 여기서 더이상 설명하지 않는다.
단계(404) 3-튜플과 확장 3-튜플을 각각 트레이닝 샘플로서 트레이닝 샘플 세트에 추가한다.
본 실시예에서, 데이터 증강 방법의 수행 주체(예를들어, 도 1에 도시된 바와 같은 서버(103))는 지식 그래프 중 대부분의 3-튜플 및 대응되는 확장 3-튜플을 각각 트레이닝 샘플로서 트레이닝 샘플 세트에 추가할 수 있다. 여기서, 하나의 3-튜플은 하나의 트레이닝 샘플이고, 하나의 확장 3-튜플도 하나의 트레이닝 샘플이다. 지식 그래프 중의 3-튜플만 트레이닝 샘플로 사용하는 종래 기술에 비해, 트레이닝 샘플 세트 중 내용을 풍부하게 한다. 또한, 확장 3-튜플도 트레이닝 샘플로 사용하므로, 트레이닝 샘플 세트 중 관계 경로와 관계의 대응 관계를 강화시켜, 트레이닝 샘플 중 서브젝트와 오브젝트 사이의 연관성이 더욱 전면적이 되도록 한다.
단계(405) 트레이닝 샘플 세트 중 트레이닝 샘플에 대해, 서브젝트 또는 오브젝트가 결실된 상기 트레이닝 샘플을 입력으로 사용하고, 결실된 서브젝트 또는 오브젝트를 출력으로 사용하며, 지도 트레이닝을 통해 예측 모델을 획득한다.
본 실시예에서, 상기 수행 주체는 3-튜플도 포함하고 확장 3-튜플도 포함하는 트레이닝 샘플 세트를 이용하여, 트레이닝할 모델에 대해 지도 트레이닝을 진행하여, 예측 모델을 획득할 수 있다. 구체적으로, 트레이닝 샘플 세트 중 트레이닝 샘플에 있어서, 상기 수행 주체는 서브젝트 또는 오브젝트가 결실된 상기 트레이닝 샘플을 입력으로 사용하고, 결실된 서브젝트 또는 결실된 오브젝트를 출력으로 사용하며, 트레이닝할 모델에 지도 트레이닝을 진행하여, 예측 모델을 획득할 수 있다. 예를 들어, 트레이닝 샘플 세트 중 3-튜플(S, P, O)과 확장 3-튜플(S, path, O), (S, path, O′)에 있어서, (S, P, ?)을 입력으로 사용하고, O를 출력으로 사용하며, (S, path, ?)를 입력으로 사용하고, O 또는 O′를 출력으로 사용하며, (?, P, O), (?, path, O), (?, path, O′)를 입력으로 사용하고, S를 출력으로 사용하여, 트레이닝할 모델에 대해 지도 트레이닝을 진행하여 예측 모델을 생성한다. 여기서, 트레이닝할 모델은 여러가지 관계의 서열 데이터를 지원하는 임의의 모델일 수 있고, 예를 들어 pathRNN모델, CompTansE모델 등이 해당될 수 있다.
3-튜플과 확장 3-튜플을 이용하여 예측 모델을 트레이닝하여, 예측 모델이 표시 학습 진행시 관계와 관계 경로 사이의 대응 관계 및 비교적 먼 서브젝트S와 오브젝트O′사이가 보다 큰 문맥에서의 관련 관계를 학습할 수 있도록 강화시킨다.
단계(406)에서, 예측 3-튜플을 획득한다.
본 실시예에서, 상기 수행 주체는 예측 3-튜플을 획득할 수 있다. 여기서, 예측 3-튜플은 예를 들어 (S, P, ?) 또는 (?, P, O)와 같이 서브젝트 또는 오브젝트가 결실된다. 예측 3-튜플은 지식 그래프 중 작은 부분의 3-튜플일 수 있다. 일반적으로, 예측 3-튜플은 트레이닝 샘플 세트 중 3-튜플과 상이하다.
단계(407)에서, 지식 그래프에 기반하여, 예측 3-튜플에 대응되는 예측 확장 3-튜플을 결정한다.
본 실시예에서, 상기 수행 주체는 지식 그래프에 기반하여, 예측 3-튜플에 대응되는 예측 확장 3-튜플을 결정할 수 있다. 일반적으로, 예측 확장 3-튜플은 데이터 증강 방법을 통해 예측 3-튜플을 확장시켜 획득될 수도 있다. 예를 들어, 예측 3-튜플(S, P, ?) 또는 (?, P, O)의 경우, 이에 대응되는 예측 확장 3-튜플은 (S, path, ?) 또는 (?, path, O)일 수 있다.
단계(408)에서, 예측 3-튜플과 예측 확장 3-튜플을 각각 예측 모델에 입력하여, 예측 3-튜플과 예측 확장 3-튜플에 대응되는 예측 서브젝트 또는 예측 오브젝트의 신뢰도를 획득한다.
본 실시예에서, 상기 수행 주체는 예측 3-튜플과 예측 확장 3-튜플을 각각 예측 모델에 입력하여, 예측 3-튜플과 예측 확장 3-튜플에 대응되는 예측 서브젝트 또는 예측 오브젝트의 신뢰도를 획득할 수 있다. 일반적으로, 예측 3-튜플을 예측 모델에 입력하면, 예측 3-튜플에 대응되는 예측 서브젝트 또는 예측 오브젝트의 신뢰도를 출력할 수 있다. 즉, 예측 3-튜플 중 결실된 서브젝트 또는 오브젝트가 각 엔티티에 속하는 신뢰도이다. 마찬가지로, 예측 확장 3-튜플을 예측 모델에 입력하면, 예측 확장 3-튜플에 대응되는 예측 서브젝트 또는 예측 오브젝트의 신뢰도를 출력할 수 있다. 즉, 예측 확장 3-튜플 중 결실된 서브젝트 또는 오브젝트가 각 엔티티에 속하는 신뢰도이다.
단계(409)에서, 예측 3-튜플과 예측 확장 3-튜플에 대응되는 예측 서브젝트 또는 예측 오브젝트의 신뢰도의 평균값을 산출하여, 예측 3-튜플의 결실된 서브젝트 또는 오브젝트를 결정한다.
본 실시예에서, 상기 수행 주체는 예측 3-튜플과 예측 확장 3-튜플에 대응되는 예측 서브젝트 또는 예측 오브젝트의 신뢰도의 평균값을 산출하여, 예측 3-튜플의 결실된 서브젝트 또는 오브젝트를 결정할 수 있다. 일반적으로, 상기 수행 주체는 예측 3-튜플과 예측 확장 3-튜플 중 결실된 서브젝트 또는 오브젝트가 각 엔티티에 속하는 평균 신뢰도를 산출하여, 결실된 서브젝트 또는 오브젝트을 결정할 수 있다.
예측 모델의 트레이닝과 예측시 모두 지식 그래프가 증강된 데이터 세트를 사용한다. 선행 기술은, 하나의 3-튜플 (S, P, O) 입도의 모델 트레이닝에 기반하여, 판별 함수 f(S, P, O)의 최적화만을 타깃으로 하여, 모델이 (S, P, O)이 성립되는 사실(f(S, P, O)=1)인지 아니면 성립되지 않는 사실(f(S, P, O)=0)인지 판정할 수 있도록 하는데, 이러한 선행 기술에 비해, 예측 모델의 분류 결과가 보다 해석성을 소유하여, 관계 경로를 통해, 테스트 3-튜플 성립 여부의 추리의 중간 논리를 해석하기 편리하도록 한다. 예를 들어, 증강된 트레이닝 샘플 세트를 이용하여 트레이닝된 예측 모델은 3-튜플(S, P, O)의 성립 여부를 판정할 수 있을 뿐 만 아니라, 3-튜플(S, P, O) 중 관계P에 대응되는 관계 경로path에 기반하여 3-튜플(S, P, O)를 해석하기도 있다.
예측 모델의 트레이닝과 예측시, 이산 심볼로 표시된 3-튜플 또는 확장 3-튜플을 입력할 때, 예측 모델은 입력된 엔티티와 관계를 연속 벡터로 전환시켜 지식 그래프 표시를 획득할 수 있다. 예측 모델은 우선 엔티티에 대응되는 연속 벡터와 관계에 대응되는 연속 벡터에 기반하여, 결실된 엔티티의 연속 벡터를 예측하고; 다음 예측된 결실된 엔티티의 연속 벡터에 기반하여 결실된 엔티티를 결정할 수 있다. 여기서, 지식 그래프 표시는 지식 그래프 중 이산 심볼의 엔티티와 관계를 연속 벡터의 형식으로 표시하는 것이다. 연속 벡터 표시는 한편으로는 엔티티가 지식 그래프에서의 구조 방면의 관건적인 정보를 보류할 수 있고, 다른 한편으로는 다운 스트림 애플리케이션 태스크가 지식을 쉽게 이용할 수 있도록 한다. 현재, 정보 추출, 문답, 열독 이해 등 태스크에서, 지식 그래프는 모드 벡터 형식으로 응용되고 작용을 발휘한다. 확장 3-튜플을 이용하여 트레이닝 샘플 세트를 증강시켜, 지식 그래프가 학습을 표시하는 효과를 향상시키고, 예측 모델이 지식 그래프를 이용하기 유리하다.
도 4를 참조하면, 도 2에 대응되는 실시예에 비해, 본 실시예 중 데이터 증강 방법의 프로세스(400)는 모델 트레이닝과 모델 예측하는 단계를 추가하였다. 이로부터, 본 실시예에서 설명된 수단에서, 제1 양태에서, 확장 3-튜플을 이용하여 트레이닝 샘플 세트를 증강시켜, 트레이닝 샘플 세트 중 내용을 풍부하게 한다. 또한, 확장 3-튜플도 트레이닝 샘플로 사용하므로, 트레이닝 샘플 세트 중 관계 경로와 관계의 대응 관계를 강화시켜, 트레이닝 샘플 중 서브젝트와 오브젝트 사이의 연관성이 보더 전면적이 되게 한다. 제2 양태에서, 증강된 트레이닝 샘플 세트를 이용하여 예측 모델을 트레이닝시켜, 예측 모델이 표시 학습 진행시 관계와 관계 경로 사이의 대응 관계를 학습하도록 강화시켜, 복수 개의 관계 사이의 연관성이 더욱 강해지게 함으로써, 예측 모델의 효과를 향상시킨다. 제3 양태에서, 모델 테스트시, 테스트 3-튜플에 대해 상응한 관계 경로를 확장하고 분류 결과의 계산에 함계 참여하여, 예측 모델의 분류 결과가 보다 해석성이 있도록 하여, 관계 경로를 통해 테스트 3-튜플 성립 여부의 추리의 중간 논리를 해석하기 편리하도록 한다.
도 5는 본 발명에 따른 데이터 증강 장치의 일 실시예의 구조 모식도이다.
도 5를 참조하면, 상기 각 도면에 도시된 방법에 대한 구현으로서, 본 발명은 데이터 증강 장치의 일 실시예를 제공하고, 상기 장치 실시예는 도 2에 도시된 방법 실시예와 대응되며, 상기 장치는 구체적으로 다양한 전자 기기에 응용될 수 있다.
도 5에 도시된 바와 같이, 본 실시예의 데이터 증강 장치(500)는 제1 획득 모듈(501), 마이닝 모듈(502) 및 확장 모듈(503)을 포함할 수 있다. 여기서, 제1 획득 모듈(501)은 지식 그래프에서 3-튜플을 획득하고; 마이닝 모듈(502)은 지식 그래프에서 3-튜플 중 관계에 해당하는 관계 경로를 마이닝하며, 여기에서, 관계 경로는 3-튜플 중 서브젝트와 오브젝트를 각각 시작점과 종점으로 하고; 확장 모듈(503)은 관계 경로에 기반하여, 3-튜플을 확장하여 확장 3-튜플을 생성한다.
본 실시예에서, 데이터 증강 장치(500)에서, 제1 획득 모듈(501), 마이닝 모듈(502) 및 확장 모듈(503)의 구체적인 처리 및 이로 인한 기술적 효과는 도 2에 대응되는 실시예 중 단계(201) 내지 단계(203)의 관련 설명을 각각 참조할 수 있으므로, 여기서 더이상 설명하지 않는다.
본 실시예의 일부 선택 가능한 구현 형태에서, 마이닝 모듈(502)은, 지식 그래프에서 3-튜플 중 서브젝트 및 오브젝트와 통계적으로 동시 발생되는 다른 3-튜플 서열을 마이닝하고; 다른 3-튜플 서열 중 관계를 순서대로 조합하여 관계 경로를 생성한다.
본 실시예의 일부 선택 가능한 구현 형태에서, 확장 모듈(503)은, 관계 경로를 이용하여 3-튜플 중 관계를 대체하여 확장 3-튜플을 생성한다.
본 실시예의 일부 선택 가능한 구현 형태에서, 확장 모듈(503)은, 3-튜플 중 서브젝트를 시작점으로 하여 관계 경로를 워킹하여, 3-튜플 중 오브젝트와 상이한 다른 오브젝트를 획득하고; 관계 경로를 이용하여 3-튜플 중 관계를 대체하고, 다른 오브젝트를 이용하여 3-튜플 중 오브젝트를 대체하여, 확장 3-튜플을 생성한다.
본 실시예의 일부 선택 가능한 구현 형태에서, 데이터 증강 장치(500)는, 3-튜플과 확장 3-튜플을 각각 트레이닝 샘플로서 트레이닝 샘플 세트에 추가하는 추가 모듈(미도시); 및 트레이닝 샘플 세트 중 트레이닝 샘플에 대해, 서브젝트 또는 오브젝트가 결실된 상기 트레이닝 샘플을 입력으로 사용하고, 결실된 서브젝트 또는 오브젝트를 출력으로 사용하며, 지도 트레이닝을 통해 예측 모델을 획득하는 트레이닝 모듈(미도시)을 더 포함한다.
본 실시예의 일부 선택 가능한 구현 형태에서, 데이터 증강 장치(500)는, 예측 3-튜플을 획득하되, 여기에서, 예측 3-튜플은 서브젝트 또는 오브젝트가 결실되는 제2 획득 모듈(미도시); 지식 그래프에 기반하여 예측 3-튜플에 대응되는 예측 확장 3-튜플을 결정하는 결정 모듈(미도시); 예측 3-튜플과 예측 확장 3-튜플을 각각 예측 모델에 입력하여, 예측 3-튜플과 예측 확장 3-튜플에 대응되는 예측 서브젝트 또는 예측 오브젝트의 신뢰도를 획득하는 예측 모듈(미도시); 및 예측 3-튜플과 예측 확장 3-튜플에 대응되는 예측 서브젝트 또는 예측 오브젝트의 신뢰도의 평균값을 산출하여, 예측 3-튜플의 결실된 서브젝트 또는 오브젝트를 결정하는 산출 모듈(미도시)을 더 포함한다.
본 발명의 실시예에 따르면, 본 발명은 전자 기기와 판독 가능 저장 매체를 더 제공한다.
도 6은 본 발명의 실시예의 데이터 증강 방법을 구현하는데 사용되는 전자 기기의 블록도이다.
도 6에 도시된 바와 같이, 본 발명의 실시예에 따른 데이터 증강 방법의 전자 기기의 블록도이다. 전자 기기는 랩톱 컴퓨터, 데스크톱 컴퓨터, 운영 플랫폼, 개인 정보 단말기, 서버, 블레이드 서버, 대형 컴퓨터, 및 다른 적합한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터를 의미한다. 전자 기기는 개인 디지털 처리, 셀룰러폰, 스마트폰, 웨어러블 기기 및 다른 유사한 컴퓨팅 장치와 같은 다양한 형태의 이동 장치를 의미할 수도 있다. 본문에서 나타낸 부재, 이들의 연결과 관계, 및 이들의 기능은 단지 예시적인 것으로, 본문에서 설명 및/또는 요구된 본 발명의 구현을 한정하지 않는다.
도 6에 도시된 바와 같이, 상기 전자 기기는 하나 또는 다수의 프로세서(601), 메모리(602), 및 고속 인터페이스 및 저속 인터페이스를 포함하는 각 부재를 연결하기 위한 인터페이스를 포함한다. 각 부재는 상이한 버스를 이용하여 서로 연결되고, 공통 메인보드에 장착될 수 있거나 필요에 따라 다른 방식으로 장착될 수 있다. 프로세서는, 메모리에 저장되거나 메모리에서 외부 입력/출력 장치(예를 들어, 인터페이스에 커플링된 표시 기기)에 GUI의 그래픽 정보를 표시하는 명령을 포함하는 전자 기기 내에서 실행되는 명령을 처리할 수 있다. 다른 실시형태에서, 필요에 따라 다수의 프로세서 및/또는 다수의 버스를 다수의 메모리와 함께 사용할 수 있다. 마찬가지로, 다수의 전자 기기를 연결할 수 있고, 각 기기는 일부 필요한 동작(예를 들어, 서버 어레이, 한 그룹의 블레이드 서버, 또는 다중프로세서 시스템)을 제공한다. 도 6에서 하나의 프로세서(601)를 예로 든다.
메모리(602)는 본 발명에서 제공되는 비일시적 컴퓨터 판독 가능 저장 매체이다. 여기서, 상기 메모리(602)에는 적어도 하나의 프로세서(601)에 의해 실행 가능항 명령이 저장되어, 상기 적어도 하나의 프로세서(601)가 본 발명에서 제공되는 데이터 증강 방법을 수행하도록 한다. 본 발명의 비일시적 컴퓨터 판독 가능 저장 매체에는 컴퓨터 명령이 저장되고, 상기 컴퓨터 명령은 컴퓨터가 본 발명에서 제공되는 데이터 증강 방법을 수행하도록 한다.
메모리(602)는 비일시적 컴퓨터 판독 가능 저장 매체로서, 비일시적 소프트웨어 프로그램, 비일시적 컴퓨터 실행 가능한 프로그램, 및 본 발명의 실시예의 데이터 증강 방법에 대응되는 프로그램 명령/모듈(예를 들어, 도 5에 도시된 제1 획득 모듈(501), 마이닝 모듈(502) 및 확장 모듈(503))과 같은 모듈을 저장할 수 있다. 프로세서(601)는 메모리(602)에 저장된 비일시적 소프트웨어 프로그램, 명령 및 모듈을 실행함으로써, 서버의 다양한 기능 애플리케이션 및 데이터 처리를 수행하는데, 즉 상기 방법 실시예의 데이터 증강 방법을 구현한다.
메모리(602)는 프로그램 저장 영역 및 데이터 저장 영역을 포함할 수 있고, 여기서, 프로그램 저장 영역은 운영 체제, 적어도 하나의 기능에 필요한 응용 프로그램을 저장할 수 있으며; 데이터 저장 영역은 데이터 증강 방법의 전자 기기의 사용에 따라 구축된 데이터 등을 저장할 수 있다. 이 밖에, 메모리(602)는 고속 랜덤 액세스 메모리를 포함할 수 있고, 적어도 하나의 자기 디스크 메모리, 플래시 메모리, 또는 다른 비일시적 고체 상태 메모리와 같은 비일시적 메모리를 더 포함할 수 있다. 일부 실시예에서, 메모리(602)는 프로세서(601)에 대해 원격으로 설치된 메모리를 선택적으로 포함할 수 있고, 이러한 원격 메모리는 네트워크를 통해 데이터 증강 방법의 전자 기기에 연결될 수 있다. 상기 네트워크의 구현예로 인터넷, 인트라넷, 근거리 통신망, 이동 통신망 및 이들의 조합을 포함하지만 이에 한정되지 않는다.
데이터 증강 방법의 전자 기기는 입력 장치(603) 및 출력 장치(604)를 더 포함할 수 있다. 프로세서(601), 메모리(602), 입력 장치(603) 및 출력 장치(604)는 버스 또는 다른 방식을 통해 연결될 수 있고, 도 6에서 버스를 통해 연결되는 것을 예로 든다.
입력 장치(603)는 입력된 디지털 또는 문자 정보를 수신할 수 있고, 데이터 증강 방법의 전자 기기의 사용자 설정 및 기능 제어와 관련된 키 신호 입력을 발생할 수 있으며, 상기 입력 장치는, 예를 들어 터치스크린, 키패드, 마우스, 트랙 패널, 터치 패널, 지시 바, 하나 또는 다수의 마우스 버튼, 트랙 볼, 조이스틱 등 입력 장치이다. 출력 장치(604)는 표시 기기, 보조 조명 장치(예를 들어, LED) 및 촉각 피드백 장치(예를 들어, 진동 모터) 등을 포함할 수 있다. 상기 표시 기기는 액정 표시 장치(LCD), 발광 다이오드(LED) 표시 장치 및 플라스마 표시 장치를 포함할 수 있지만 이에 한정되지 않는다. 일부 실시형태에서, 표시 기기는 터치스크린일 수 있다.
여기서 설명된 시스템 및 기술의 다양한 실시형태는 디지털 전자 회로 시스템, 집적 회로 시스템, 전용 ASIC(전용 집적 회로), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합에서 구현될 수 있다. 이러한 다양한 실시형태는 하나 또는 다수의 컴퓨터 프로그램에서의 구현을 포함할 수 있고, 상기 하나 또는 다수의 컴퓨터 프로그램은 적어도 하나의 프로그램 가능 프로세서를 포함하는 프로그램 가능 시스템에서 실행 및/또는 해석될 수 있으며, 상기 프로그램 가능 프로세서는 전용 또는 범용 프로그램 가능 프로세서일 수 있고, 저장 시스템, 적어도 하나의 입력 장치, 및 적어도 하나의 출력 장치로부터 데이터 및 명령을 수신할 수 있으며, 데이터 및 명령을 상기 저장 시스템, 상기 적어도 하나의 입력 장치, 및 상기 적어도 하나의 출력 장치에 전송할 수 있다.
이러한 컴퓨팅 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션, 또는 코드라고도 함)은 프로그램 가능 프로세서의 기계 명령을 포함하고, 하이레벨 프로세스 및/또는 객체에 대한 프로그래밍 언어, 및/또는 어셈블리/기계 언어를 이용하여 이러한 컴퓨팅 프로그램을 실행할 수 있다. 본문에서 사용된 바와 같이, 용어 "기계 판독 가능한 매체” 및 "컴퓨터 판독 가능한 매체”는 기계 명령 및/또는 데이터를 프로그램 가능 프로세서에 제공하기 위한 임의의 컴퓨터 프로그램 제품, 기기, 및/또는 장치(예를 들어, 자기 디스크, 광 디스크, 메모리, 프로그램 가능 로직 장치(PLD))를 의미하고, 기계 판독 가능한 신호인 기계 명령을 수신하는 기계 판독 가능한 매체를 포함한다. 용어 "기계 판독 가능한 신호”는 기계 명령 및/또는 데이터를 프로그램 가능 프로세서에 제공하기 위한 임의의 신호를 의미한다.
사용자와의 인터랙션을 제공하기 위하여, 컴퓨터에서 여기서 설명된 시스템 및 기술을 실시할 수 있고, 상기 컴퓨터는 사용자에게 정보를 표시하기 위한 표시 장치(예를 들어, CRT(음극선관) 또는 LCD(액정 표시 장치) 모니터); 및 키보드 및 지향 장치(예를 들어, 마우스 또는 트랙 볼)를 구비하며, 사용자는 상기 키보드 및 상기 지향 장치를 통해 컴퓨터에 입력을 제공한다. 다른 타입의 장치는 또한 사용자와의 인터랙션을 제공할 수 있는데, 예를 들어, 사용자에게 제공된 피드백은 임의의 형태의 감지 피드백(예를 들어, 시각 피드백, 청각 피드백, 또는 촉각 피드백)일 수 있고; 임의의 형태(소리 입력, 음성 입력, 또는 촉각 입력)로 사용자로부터의 입력을 수신할 수 있다.
여기서 설명된 시스템 및 기술을 백그라운드 부재를 포함하는 컴퓨팅 시스템(예를 들어, 데이터 서버), 또는 미들웨어 부재를 포함하는 컴퓨팅 시스템(예를 들어, 응용 서버), 또는 프론트 엔드 부재를 포함하는 컴퓨팅 시스템(예를 들어, 그래픽 사용자 인터페이스 또는 웹 브라우저를 구비하는 사용자 컴퓨터이고, 사용자는 상기 그래픽 사용자 인터페이스 또는 웹 브라우저를 통해 여기서 설명된 시스템 및 기술의 실시형태와 인터랙션할 수 있음), 또는 이러한 백그라운드 부재, 미들웨어 부재, 또는 프론트 엔드 부재의 임의의 조합을 포함하는 컴퓨팅 시스템에서 실시할 수 있다. 임의의 형태 또는 매체의 디지털 데이터 통신(예를 들어, 통신 네트워크)을 통해 시스템의 부재를 서로 연결시킬 수 있다. 통신 네트워크의 예시로 근거리 통신망(LAN), 광역 통신망(WAN), 인터넷을 포함한다.
컴퓨터 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트 및 서버는 일반적으로 서로 멀리 떨어져 있고 일반적으로 통신 네트워크를 통해 서로 인터랙션한다. 대응되는 컴퓨터에서 실행되고 또한 서로 클라이언트-서버 관계를 가지는 컴퓨터 프로그램을 통해 클라이언트 및 서버의 관계를 생성한다.
본 발명의 기술적 해결수단에 따르면, 우선, 지식 그래프에서 3-튜플을 획득하고, 다음, 지식 그래프에서 3-튜플 중 관계에 해당하는 관계 경로를 마이닝하며, 마지막으로, 관계 경로에 기반하여, 3-튜플을 확장하여 확장 3-튜플을 생성한다. 지식 그래프 중 3-튜플의 확장을 구현하고, 3-튜플 중 서브젝트와 오브젝트가 보다 큰 언어 환경에서의 연관성을 강화하여, 3-튜플 중 서브젝트와 오브젝트 사이의 연광성이 보다 전면적이 되도록 한다.
위에서 설명한 다양한 형태의 프로세스를 사용하여, 단계를 재배열, 추가 또는 삭제할 수 있음을 이해해야 한다. 예를 들어, 본 발명에 기재된 각 단계는 동시에 수행될 수 있거나 순차적으로 수행될 수 있거나 상이한 순서로 수행될 수 있고, 본 발명에서 공개된 기술적 해결수단이 이루고자 하는 결과를 구현할 수만 있으면, 본문은 여기서 한정하지 않는다.
상기 구체적인 실시형태는 본 발명의 보호 범위를 한정하지 않는다. 본 기술분야의 통상의 기술자는 설계 요구 및 다른 요소에 따라 다양한 수정, 조합, 서브 조합 및 대체를 진해할 수 있음을 이해해야 한다. 본 발명의 정신 및 원칙 내에서 진행한 임의의 수정, 등가적 대체 및 개선 등은 모두 본 발명의 보호 범위 내에 속해야 한다.

Claims (15)

  1. 데이터 증강 방법으로서,
    지식 그래프에서 3-튜플(Three tuple)을 획득하는 단계;
    상기 지식 그래프에서, 상기 3-튜플 중 관계에 해당하는 관계 경로를 마이닝하는 단계 - 상기 관계 경로는 상기 3-튜플 중 서브젝트와 오브젝트를 각각 시작점과 종점으로 함 -; 및
    상기 관계 경로에 기반하여 상기 3-튜플을 확장하여 확장 3-튜플을 생성하는 단계;를 포함하는 방법.
  2. 제1항에 있어서,
    상기 마이닝하는 단계는,
    상기 지식 그래프에서, 상기 3-튜플 중 상기 서브젝트 및 상기 오브젝트와 통계적으로 동시 발생되는 다른 3-튜플 서열을 마이닝하는 단계; 및
    상기 다른 3-튜플 서열 중 관계를 순서대로 조합하여 상기 관계 경로를 생성하는 단계;를 포함하는 방법.
  3. 제1항에 있어서,
    상기 생성하는 단계는,
    상기 관계 경로를 이용하여 상기 3-튜플 중 관계를 대체하여 상기 확장 3-튜플을 생성하는 단계;를 포함하는 방법.
  4. 제1항에 있어서,
    상기 생성하는 단계는,
    상기 3-튜플 중 상기 서브젝트를 시작점으로 하여 상기 관계 경로를 워킹(walking)하여, 상기 3-튜플 중 상기 오브젝트와 상이한 다른 오브젝트를 획득하는 단계; 및
    상기 관계 경로를 이용하여 상기 3-튜플 중 관계를 대체하고, 상기 다른 오브젝트를 이용하여 상기 3-튜플 중 오브젝트를 대체하여, 상기 확장 3-튜플을 생성하는 단계;를 포함하는 방법.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서,
    상기 3-튜플과 상기 확장 3-튜플을 각각 트레이닝 샘플로서 트레이닝 샘플 세트에 추가하는 단계; 및
    상기 트레이닝 샘플 세트 중 트레이닝 샘플에 대해, 상기 서브젝트 또는 상기 오브젝트가 결실된 상기 트레이닝 샘플을 입력으로 사용하고, 상기 결실된 서브젝트 또는 상기 결실된 오브젝트를 출력으로 사용하며, 지도 트레이닝을 통해 예측 모델을 획득하는 단계;를 더 포함하는 방법.
  6. 제5항에 있어서,
    예측 3-튜플을 획득하는 단계 - 상기 예측 3-튜플은 상기서브젝트 또는 상기 오브젝트가 결실됨 -;
    상기 지식 그래프에 기반하여 상기 예측 3-튜플에 대응되는 예측 확장 3-튜플을 결정하는 단계;
    상기 예측 3-튜플과 상기 예측 확장 3-튜플을 각각 상기 예측 모델에 입력하여, 상기 예측 3-튜플과 상기 예측 확장 3-튜플에 대응되는 예측 서브젝트 또는 예측 오브젝트의 신뢰도를 획득하는 단계; 및
    상기 예측 3-튜플과 상기 예측 확장 3-튜플에 대응되는 상기 예측 서브젝트 또는 상기 예측 오브젝트의 신뢰도의 평균값을 산출하여, 상기 예측 3-튜플의 결실된 서브젝트 또는 오브젝트를 결정하는 단계;를 더 포함하는 방법.
  7. 데이터 증강 장치로서,
    지식 그래프에서 3-튜플을 획득하는 제1 획득 모듈;
    상기 지식 그래프에서, 상기 3-튜플 중 관계에 해당하는 관계 경로를 마이닝하는 마이닝 모듈 - 상기 관계 경로는 상기 3-튜플 중 서브젝트와 오브젝트를 각각 시작점과 종점으로 함 -; 및
    상기 관계 경로에 기반하여 상기 3-튜플을 확장하여 확장 3-튜플을 생성하는 확장 모듈;을 포함하는 장치.
  8. 제7항에 있어서,
    상기 마이닝 모듈은,
    상기 지식 그래프에서 상기 3-튜플 중 상기 서브젝트 및 상기 오브젝트와 통계적으로 동시 발생되는 다른 3-튜플 서열을 마이닝하고,
    상기 다른 3-튜플 서열 중 관계를 순서대로 조합하여 상기 관계 경로를 생성하는 장치.
  9. 제7항에 있어서,
    상기 확장 모듈은,
    상기 관계 경로를 이용하여 상기 3-튜플 중 관계를 대체하여 상기 확장 3-튜플을 생성하는 장치.
  10. 제7항에 있어서,
    상기 확장 모듈은,
    상기 3-튜플 중 상기 서브젝트를 시작점으로 하여 상기 관계 경로를 워킹하여, 상기 3-튜플 중 상기 오브젝트와 상이한 다른 오브젝트를 획득하고,
    상기 관계 경로를 이용하여 상기 3-튜플 중 관계를 대체하고, 상기 다른 오브젝트를 이용하여 상기 3-튜플 중 오브젝트를 대체하여, 상기 확장 3-튜플을 생성하는 장치.
  11. 제7항 내지 제10항 중 어느 한 항에 있어서,
    상기 3-튜플과 상기 확장 3-튜플을 각각 트레이닝 샘플로 트레이닝 샘플 세트에 추가하는 추가 모듈; 및
    상기 트레이닝 샘플 세트 중 트레이닝 샘플에 대해, 상기 서브젝트 또는 상기 오브젝트가 결실된 상기 트레이닝 샘플을 입력으로 사용하고, 상기 결실된 서브젝트 또는 상기 결실된 오브젝트를 출력으로 사용하며, 지도 트레이닝을 통해 예측 모델을 획득하는 트레이닝 모듈;을 더 포함하는 장치.
  12. 제11항에 있어서,
    예측 3-튜플을 획득하는 제2 획득 모듈 - 상기 예측 3-튜플은 상기 서브젝트 또는 상기 오브젝트가 결실됨 -;
    상기 지식 그래프에 기반하여 상기 예측 3-튜플에 대응되는 예측 확장 3-튜플을 결정하는 결정 모듈;
    상기 예측 3-튜플과 상기 예측 확장 3-튜플을 각각 상기 예측 모델에 입력하여, 상기 예측 3-튜플과 상기 예측 확장 3-튜플에 대응되는 예측 서브젝트 또는 예측 오브젝트의 신뢰도를 획득하는 예측 모듈; 및
    상기 예측 3-튜플과 상기 예측 확장 3-튜플에 대응되는 상기 예측 서브젝트 또는 상기 예측 오브젝트의 신뢰도의 평균값을 산출하여, 상기 예측 3-튜플의 결실된 서브젝트 또는 오브젝트를 결정하는 산출 모듈;을 더 포함하는 장치.
  13. 전자 기기로서,
    적어도 하나의 프로세서; 및
    상기 적어도 하나의 프로세서와 통신 연결하는 메모리;를 포함하고,
    상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되며, 상기 명령이 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서가 제1항 내지 제6항 중 어느 한 항에 따른 방법을 수행하는 전자 기기.
  14. 컴퓨터 명령이 저장된 비일시적 컴퓨터 판독 가능 저장 매체로서,
    상기 컴퓨터 명령은 상기 컴퓨터가 제1항 내지 제6항 중 어느 한 항에 따른 방법을 수행하도록 하는 비일시적 컴퓨터 판독 가능 저장 매체.
  15. 컴퓨터 판독 가능한 저장 매체에 저장된 컴퓨터 프로그램으로서,
    상기 컴퓨터 프로그램이 프로세서에 의해 실행될 경우 제1항 내지 제6항 중 어느 한 항에 따른 방법을 구현하도록 하는 컴퓨터 프로그램.
KR1020210038964A 2020-04-08 2021-03-25 데이터 증강 방법, 장치, 기기 및 저장 매체 KR20210040886A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010268590.1 2020-04-08
CN202010268590.1A CN111506623B (zh) 2020-04-08 2020-04-08 数据扩充方法、装置、设备以及存储介质

Publications (1)

Publication Number Publication Date
KR20210040886A true KR20210040886A (ko) 2021-04-14

Family

ID=71877523

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210038964A KR20210040886A (ko) 2020-04-08 2021-03-25 데이터 증강 방법, 장치, 기기 및 저장 매체

Country Status (5)

Country Link
US (1) US20210216885A1 (ko)
EP (1) EP3846050A3 (ko)
JP (1) JP7229291B2 (ko)
KR (1) KR20210040886A (ko)
CN (1) CN111506623B (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113204650B (zh) * 2021-05-14 2022-03-11 深圳市曙光信息技术有限公司 基于领域知识图谱的评价方法及系统
CN113779274B (zh) * 2021-09-18 2024-04-05 深圳平安医疗健康科技服务有限公司 指标模拟仿真方法、装置、计算机设备及存储介质
CN114925167A (zh) * 2022-05-20 2022-08-19 武汉众智数字技术有限公司 一种基于知识图谱的案件处理方法和系统

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4947245B2 (ja) 2010-05-14 2012-06-06 日本電気株式会社 情報検索装置、情報検索方法、コンピュータ・プログラムおよびデータ構造
US20160132501A1 (en) * 2014-11-07 2016-05-12 Google Inc. Determining answers to interrogative queries using web resources
CN109964224A (zh) * 2016-09-22 2019-07-02 恩芙润斯公司 用于语义信息可视化和指示生命科学实体之间显著关联的时间信号推断的系统、方法和计算机可读介质
CN106874380B (zh) * 2017-01-06 2020-01-14 北京航空航天大学 知识库三元组检验的方法与装置
US20180232443A1 (en) * 2017-02-16 2018-08-16 Globality, Inc. Intelligent matching system with ontology-aided relation extraction
JP6906419B2 (ja) 2017-10-13 2021-07-21 ヤフー株式会社 情報提供装置、情報提供方法、およびプログラム
US20190246122A1 (en) * 2018-02-08 2019-08-08 Qualcomm Incorporated Palette coding for video coding
US11080300B2 (en) * 2018-08-21 2021-08-03 International Business Machines Corporation Using relation suggestions to build a relational database
US20200074301A1 (en) * 2018-09-04 2020-03-05 Beijing Jingdong Shangke Information Technology Co., Ltd. End-to-end structure-aware convolutional networks for knowledge base completion
CN109960722B (zh) * 2019-03-31 2021-10-22 联想(北京)有限公司 一种信息处理方法及装置

Also Published As

Publication number Publication date
JP2021128779A (ja) 2021-09-02
EP3846050A3 (en) 2021-10-27
EP3846050A2 (en) 2021-07-07
CN111506623A (zh) 2020-08-07
JP7229291B2 (ja) 2023-02-27
US20210216885A1 (en) 2021-07-15
CN111506623B (zh) 2024-03-22

Similar Documents

Publication Publication Date Title
KR20210040886A (ko) 데이터 증강 방법, 장치, 기기 및 저장 매체
CN111539514B (zh) 用于生成神经网络的结构的方法和装置
KR102484617B1 (ko) 이종 그래프 노드를 표현하는 모델 생성 방법, 장치, 전자 기기, 저장 매체 및 프로그램
EP3923160A1 (en) Method, apparatus, device and storage medium for training model
JP7058304B2 (ja) 異種グラフにおけるノード表現の生成方法、装置及び電子機器
CN111079442B (zh) 文档的向量化表示方法、装置和计算机设备
US20210334669A1 (en) Method, apparatus, device and storage medium for constructing knowledge graph
JP7262571B2 (ja) 知識グラフのベクトル表現生成方法、装置及び電子機器
KR20210040885A (ko) 정보 생성 방법 및 장치
EP3869402B1 (en) Method and apparatus for positioning a key point, device, storage medium and computer program product
EP3859732A2 (en) Method and apparatus for recognizing voice
CN111582477B (zh) 神经网络模型的训练方法和装置
CN111241838B (zh) 文本实体的语义关系处理方法、装置及设备
CN110543558B (zh) 问题匹配方法、装置、设备和介质
JP2021108115A (ja) 機械読解モデルのトレーニング方法、装置、電子機器及び記憶媒体
JP7146006B2 (ja) データ処理方法、データ処理装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム
CN111709252A (zh) 基于预训练的语义模型的模型改进方法及装置
CN111291192B (zh) 知识图谱中三元组置信度计算方法和装置
KR20210122204A (ko) 대화 감정 스타일의 예측 방법, 장치, 전자 기기, 저장 매체 및 컴퓨터 프로그램 제품
CN111666077A (zh) 算子处理方法、装置、电子设备及存储介质
KR20210082399A (ko) 문제의 답안을 결정하는 방법, 장치, 기기 및 저장 매체
CN112560928B (zh) 负样本挖掘方法、装置、电子设备及存储介质
CN111324747B (zh) 三元组的生成方法、装置及电子设备
CN110673994A (zh) 数据库测试方法及装置
JP7256857B2 (ja) 対話処理方法、装置、電子機器及び記憶媒体

Legal Events

Date Code Title Description
E902 Notification of reason for refusal