KR20210040886A - 데이터 증강 방법, 장치, 기기 및 저장 매체 - Google Patents
데이터 증강 방법, 장치, 기기 및 저장 매체 Download PDFInfo
- Publication number
- KR20210040886A KR20210040886A KR1020210038964A KR20210038964A KR20210040886A KR 20210040886 A KR20210040886 A KR 20210040886A KR 1020210038964 A KR1020210038964 A KR 1020210038964A KR 20210038964 A KR20210038964 A KR 20210038964A KR 20210040886 A KR20210040886 A KR 20210040886A
- Authority
- KR
- South Korea
- Prior art keywords
- tuple
- predicted
- tuples
- subject
- relationship
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000003860 storage Methods 0.000 title claims abstract description 16
- 230000003190 augmentative effect Effects 0.000 title description 6
- 238000013434 data augmentation Methods 0.000 claims abstract description 35
- 238000005065 mining Methods 0.000 claims abstract description 21
- 238000012549 training Methods 0.000 claims description 56
- 230000015654 memory Effects 0.000 claims description 23
- 238000004590 computer program Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000037361 pathway Effects 0.000 claims description 3
- 230000003014 reinforcing effect Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 101150060239 MOM1 gene Proteins 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Fuzzy Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Animal Behavior & Ethology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
본 발명의 실시예는 지식 그래프 기술분야에 관한, 데이터 증강 방법, 장치, 기기 및 저장매체를 공개한다. 일 측면에 따른 데이터 증강 방법은, 지식 그래프에서 3-튜플을 획득하는 단계; 지식 그래프에서 3-튜플 중 관계에 해당하는 관계 경로를 마이닝하는 단계 - 관계 경로는 3-튜플 중 서브젝트와 오브젝트를 각각 시작점과 종점으로 함 -; 및 관계 경로에 기반하여, 3-튜플을 확장하여 확장 3-튜플을 생성하는 단계를 포함한다. 상기 실시 형태는 지식 그래프 중 3-튜플의 확장을 구현하고, 3-튜플 중 서브젝트와 오브젝트가 보다 큰 언어 환경에서의 연관성을 강화하여, 3-튜플 중 서브젝트와 오브젝트 사이의 연광성이 보다 전면적이 되도록 한다.
Description
본 발명의 실시예는 컴퓨터 기술분야에 관한 것으로, 구체적으로 지식 그래프 기술 분야에 관한 것이다.
지식 영역 가시화(Knowledge Domain Visualization) 또는 지식 영역 매핑 지도라고도 하는 지식 그래프는, 지식 발전 프로세스와 구조 관계를 보여주는 일련의 다양한 그래픽이고, 가시화 기술을 사용하여 지식 자원 및 그 매체를 설명하며, 지식과 이들 사이의 상호 연결을 마이닝(mining), 분석, 구축, 제작 및 표시한다.
지식 그래프는 세계 현실 지식을 설명하는 유향 그래프 구조의 지식 베이스이고, 그 기본 구성은 3-튜플(S, P, O)이다. 이 중 S(subject)와 O(object)는 지식 그래프 중 노드로서, 엔티티를 표시한다. S는 구체적으로 서브젝트를 표시하고, O는 구체적으로 오브젝트를 표시한다. P(predication)는 지식 그래프에서 두 개의 엔티티(S와 O)를 연결시키는 에지이고, 두 개의 엔티티 사이의 관계를 표시한다. 기존의 지식 그래프에서, 두 개의 엔티티 사이의 연관성은 모두 상기 두 개의 엔티티를 직접 연결하는 에지 P로 표현되고, 그 표시된 연관성은 비교적 국부적이다.
본 발명의 실시예는 데이터 증강 방법, 장치, 기기 및 저장 매체를 제공한다.
일 측면에 따른 데이터 증강 방법은, 지식 그래프에서 3-튜플(Three tuple)을 획득하는 단계; 지식 그래프에서 3-튜플 중 관계에 해당하는 관계 경로를 마이닝하는 단계 - 관계 경로는 3-튜플 중 서브젝트와 오브젝트를 각각 시작점과 종점으로 함 -; 및 관계 경로에 기반하여, 3-튜플을 확장하여 확장 3-튜플을 생성하는 단계;를 포함한다.
다른 측면에 따른 데이터 증강 장치는, 지식 그래프에서 3-튜플을 획득하는 제1 획득 모듈; 지식 그래프에서 3-튜플 중 관계에 해당하는 관계 경로를 마이닝하는 마이닝 모듈 - 관계 경로는 3-튜플 중 서브젝트와 오브젝트를 각각 시작점과 종점으로 함 -; 및 관계 경로에 기반하여, 3-튜플을 확장하여 확장 3-튜플을 생성하는 확장 모듈;을 포함한다.
또 다른 측면에 따른 전자 기기는, 적어도 하나의 프로세서; 및 적어도 하나의 프로세서와 통신 연결하는 메모리;를 포함하고, 메모리에는 적어도 하나의 프로세서에 실행 가능한 명령이 저장되며, 명령이 적어도 하나의 프로세서에 의해 실행되어, 적어도 하나의 프로세서가 상술한 방법을 수행할 수 있도록 한다.
또 다른 측면에 따른컴퓨터 명령이 저장된 비일시적 컴퓨터 판독 가능 저장 매체에서, 컴퓨터 명령은 컴퓨터가 상술한 방법을 수행하도록 한다.
또 다른 측면에 따른 컴퓨터 판독 가능한 저장 매체에 저장된 컴퓨터 프로그램에서, 컴퓨터 프로그램은 프로세서에 의해 실행될 경우 상술한 방법을 구현하도록 한다.
본 발명의 실시예에서 제공되는 데이터 증강 방법, 장치, 기기 저장 매체 및 컴퓨터 프로그램은, 우선, 지식 그래프에서 3-튜플을 획득하고, 다음, 지식 그래프에서 3-튜플 중 관계에 해당하는 관계 경로를 마이닝하며, 마지막으로, 관계 경로에 기반하여, 3-튜플을 확장하여 확장 3-튜플을 생성하한다. 지식 그래프 중 3-튜플의 확장을 구현하고, 3-튜플 중 서브젝트와 오브젝트가 보다 큰 언어 환경에서의 연관성을 강화하여, 3-튜플 중 서브젝트와 오브젝트 사이의 연광성이 보다 전면적이 되도록 한다.
본 부분에서 설명되는 내용은 본 발명의 실시예의 핵심적이거나 중요한 특징을 식별하기 위한 것이 아니며, 본 발명의 범위를 제한하려는 의도도 아님을 이해해야 한다. 본 발명의 기타 특징은 하기의 명세서에 의해 쉽게 이해될 것이다.
아래 첨부 도면에 도시된 비 제한적인 실시예의 상세한 설명에 대한 열독 및 참조를 통해 본 발명의 다른 특징, 목적 및 장점이 보다 명백해질 것이다.
도 1은 본 발명이 응용될 수 있는 예시적 시스템 아키텍처이다.
도 2는 본 발명에 따른 데이터 증강 방법의 일 실시예의 흐름도이다.
도 3은 본 발명의 실시예의 데이터 증강 방법을 구현할 수 있는 장면도이다.
도 4는 본 발명에 따른 데이터 증강 방법의 다른 실시예의 흐름도이다.
도 5는 본 발명에 따른 데이터 증강 장치의 일 실시예의 구조 모식도이다.
도 6은 본 발명의 실시예의 데이터 증강 방법을 구현하는데 사용되는 전자 기기의 블록도이다.
도 1은 본 발명이 응용될 수 있는 예시적 시스템 아키텍처이다.
도 2는 본 발명에 따른 데이터 증강 방법의 일 실시예의 흐름도이다.
도 3은 본 발명의 실시예의 데이터 증강 방법을 구현할 수 있는 장면도이다.
도 4는 본 발명에 따른 데이터 증강 방법의 다른 실시예의 흐름도이다.
도 5는 본 발명에 따른 데이터 증강 장치의 일 실시예의 구조 모식도이다.
도 6은 본 발명의 실시예의 데이터 증강 방법을 구현하는데 사용되는 전자 기기의 블록도이다.
아래 도면과 결부시켜 본 발명의 예시적 실시예를 설명하되, 여기에 이해를 돕기 위한 본 발명의 실시예의 다양한 세부사항들이 포함되지만, 이들은 단지 예시적인 것으로 이해해야 한다. 따라서, 본 기술분야의 통상의 기술자는 본 발명의 범위 및 정신을 벗어나지 않는 전제 하에 여기서 설명된 실시예에 대해 다양한 변형 및 수정을 진행할 수 있음을 이해해야 한다. 마찬가지로, 명확 및 간략을 위해, 아래의 설명에서 공지 기능 및 구조에 대한 설명을 생략한다.
본 실시예들에서 사용되는 용어는 본 실시예들에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 부분에서 상세히 그 의미를 기재할 것이다. 따라서, 본 실시예들에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 실시예들 전반에 걸친 내용을 토대로 정의되어야 한다.
본 실시예들은 다양한 변경을 가할 수 있고 여러 가지 형태를 가질 수 있는바, 일부 실시예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 본 실시예들을 특정한 개시형태에 대해 한정하려는 것이 아니며, 본 실시예들의 사상 및 기술범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 본 명세서에서 사용한 용어들은 단지 실시예들의 설명을 위해 사용된 것으로, 본 실시예들을 한정하려는 의도가 아니다.
본 실시예들에 사용되는 용어들은 다르게 정의되지 않는 한, 본 실시예들이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미가 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 실시예들에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않아야 한다.
후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이러한 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 본 명세서에 기재되어 있는 특정 형상, 구조 및 특성은 본 발명의 정신과 범위를 벗어나지 않으면서 일 실시예로부터 다른 실시예로 변경되어 구현될 수 있다. 또한, 각각의 실시예 내의 개별 구성요소의 위치 또는 배치도 본 발명의 정신과 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 행하여지는 것이 아니며, 본 발명의 범위는 특허청구범위의 청구항들이 청구하는 범위 및 그와 균등한 모든 범위를 포괄하는 것으로 받아들여져야 한다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 구성요소를 나타낸다.
한편, 본 명세서에서 하나의 도면 내에서 개별적으로 설명되는 기술적 특징은 개별적으로 구현될 수도 있고, 동시에 구현될 수도 있다.
본 명세서에서, "~모듈(module)"은 프로세서 또는 회로와 같은 하드웨어 구성(hardware component), 및/또는 프로세서와 같은 하드웨어 구성에 의해 실행되는 소프트웨어 구성(software component)일 수 있다.
모순되지 않는 한 본 발명의 실시예 및 실시예의 특징은 서로 조합될 수 있음을 유의해야 한다. 아래 첨부 도면을 참조하고 실시예를 참조하여 본 발명을 상세히 설명하기로 한다.
도 1은 본 발명이 응용될 수 있는 예시적 시스템 아키텍처이다.
도 1에 도시된 바와 같이, 시스템 아키텍처(100)는 데이터베이스 서버(101), 네트워크(102) 및 서버(103)를 포함할 수 있다. 네트워크(102)는 데이터베이스 서버(101)와 서버(103) 사이에서 통신 링크의 매체를 제공한다. 네트워크(102)는 다양한 연결 타입을 포함할 수 있는 바, 예를 들면 유선, 무선 통신 링크 또는 광섬유 케이블 등이다.
데이터베이스 서버(101)는 지식 그래프를 저장하고, 네트워크(102)를 통해 서버(103)에 지식 그래프를 제공할 수 있다.
서버(103)는 다양한 서비스를 제공할 수 있다. 예를 들어, 서버(103)는 데이터베이스 서버(101)에서 획득한 지식 그래프 등 데이터에 대해 분석 등 처리를 진행하여 처리 결과(예를 들어 확장 3-튜플)를 생성할 수 있다.
서버(103)는 하드웨어일 수 있고 소프트웨어일 수도 있다. 서버(103)가 하드웨어인 경우, 복수의 서버로 구성된 분산형 서버 클러스터로 구현될 수 있고, 하나의 서버로 구현될 수도 있다. 서버(103)가 소프트웨어인 경우, 복수의 소프트웨어 또는 소프트웨어 모듈(예를 들면 분산형 서비스를 제공함)로 구현되거나, 하나의 소프트웨어 또는 소프트웨어 모듈로 구현될 수 있으며, 여기서는 구체적으로 한정하지 않는다.
본 발명의 실시예가 제공하는 데이터 증강 방법은 일반적으로 서버(103)에 의해 수행될 수 있고, 상응하게, 데이터 증강 장치는 일반적으로 서버(103)에 설치될 수 있다.
도 1 중 데이터베이스 서버(101), 네트워크(102) 및 서버(103)의 개수는 예시적인 것일 뿐이며, 실제 필요에 따라, 시스템 아키텍처(100)는 임의의 개수의 데이터베이스 서버(101), 네트워크(102) 및 서버(103)를 구비할 수 있다. 서버(103)에 지식 그래프가 저장되어 있는 경우, 시스템 아키텍처(100)는 데이터베이스 서버(101)와 네트워크(102)를 설치하지 않을 수 있다.
도 2는 본 발명에 따른 데이터 증강 방법의 일 실시예의 흐름도이다.
데이터 증강 방법은 하기와 같은 단계를 포함한다.
단계(201)에서, 지식 그래프에서 3-튜플(Three tuple)을 획득한다.
본 실시예에서, 데이터 증강 방법의 수행 주체(예를 들어, 도 1에 도시된 서버(103))는 지식 그래프에서 3-튜플을 획득할 수 있다. 여기서, 획득한 3-튜플은 지식 그래프 중 임의의 3-튜플일 수 있다.
일반적으로, 지식 그래프는 세계 현실 지식을 설명하는 유향 그래프 구조의 지식 베이스이고, 그 기본 구성은 3-튜플(S, P, O)이다. 이 중 S와 O는 지식 그래프 중 노드로서, 엔티티를 표시한다. S는 구체적으로 서브젝트를 표시하고, O는 구체적으로 오브젝트를 표시한다. P는 지식 그래프에서 두 개의 엔티티(S와 O)를 연결시키는 에지이고, 두 개의 엔티티 사이의 관계를 표시한다. 예를 들어, 3-튜플(A, 딸, B)에서, A가 서브젝트이고, B가 오브젝트이며, 딸이 A와 B 사이의 관계이면, B는 A의 딸을 표시한다.
단계(202)에서, 지식 그래프에서, 3-튜플 중 관계에 해당하는 관계 경로를 마이닝한다.
본 실시예에서, 상기 수행 주체는 지식 그래프에서, 3-튜플 중 관계에 해당하는 관계 경로를 마이닝할 수 있다. 여기서, 관계 경로는 지식 그래프 중 적어도 하나의 에지가 연결되어 형성된 경로일 수 있고, 관계 경로는 3-튜플 중 서브젝트와 오브젝트를 각각 시작점과 종점으로 한다.
일반적으로, 관계 경로는 다양한 마이닝 도구를 통해 마이닝될 수 있다. 예를 들어, 통계적으로 동시 발생에 기반한 규칙 마이닝 도구는 amiePlus(AMIE+)일 수 있다. 마이닝 과정은 구체적으로 하기와 같다. 우선 지식 그래프에서 3-튜플(S, P, O) 중 서브젝트S 및 오브젝트O와 통계적으로 동시 발생되는 다른 3-튜플 서열을 마이닝한 다음, 다른 3-튜플 서열 중 관계를 순서대로 조합하여 관계 경로path를 생성한다. 여기서, 다른 3-튜플 서열 중 관계에 대응되는 에지의 처음과 끝은 서로 연결되고, 다른 3-튜플 서열 중 첫 번째 다른 3-튜플 중 엔티티는 3-튜플(S, P, O) 중 서브젝트S를 포함하며, 마지막 다른 3-튜플 중 엔티티는 3-튜플(S, P, O) 중 오브젝트O를 포함한다. 예를 들어, 지식 그래프에 (A, 딸, B), (B, 엄마, C), (C, 남편, A)와 같은 다수의 그룹의 3-튜플이 존재한다. 여기서, (A, 딸, B)는 B가 A의 딸임을 표시하고, (B, 엄마, C)는 C가 B의 엄마임을 표시하며, (C, 남편, A)는 A가 C의 남편임을 표시한다. 3-튜플(A, 딸, B)의 경우, A 및 B와 통계적으로 동시 발생되는 3-튜플 서열은 (C, 남편, A)→(B, 엄마, C)이고, 관계 "딸”은 관계 경로 "남편-1→엄마-1"에 해당된다. 여기서, 윗첨자 "-1"가 있는 관계는 윗첨자 "-1"가 없는 관계의 방향과 서로 반대된다.
단계(203)에서, 관계 경로에 기반하여, 3-튜플을 확장하여 확장 3-튜플을 생성한다.
본 실시예에서, 상기 수행 주체는 관계 경로에 기반하여 3-튜플을 확장하여 확장 3-튜플을 생성할 수 있다. 일반적으로, 확장 3-튜플과 3-튜플 중 적어도 하나의 엔티티는 서로 동일하다. 예를 들어, 확장 3-튜플과 3-튜플 중 서브젝트는 서로 동일하다.
본 실시예의 일부 선택 가능한 구현 형태에서, 상기 수행 주체는 관계 경로path를 이용하여 3-튜플(S, P, O) 중 관계P를 대체하여, 확장 3-튜플(S, path, O)을 생성할 수 있다. 예를 들어, 관계 경로 “남편-1→엄마-1"를 이용하여 3-튜플(A, 딸, B) 중 관계 “딸”을 대체하여, 확장 3-튜플(A, 남편-1→엄마-1, B)을 생성한다.
본 실시예의 일부 선택 가능한 구현 형태에서, 상기 수행 주체는 우선 3-튜플(S, P, O) 중 서브젝트S를 시작점으로 하여 관계 경로path를 워킹하여, 3-튜플(S, P, O) 중 오브젝트O와 상이한 다른 오브젝트O′를 획득하고; 다음, 관계 경로path를 이용하여 3-튜플(S, P, O) 중 관계P를 대체하고, 다른 오브젝트O′를 이용하여 3-튜플(S, P, O) 중 오브젝트O를 대체하여, 확장 3-튜플(S, path, O′)을 생성할 수 있다. 예를 들어, 지식 그래프에 3-튜플(A, 딸, E), (E, 엄마, C)가 더 존재하면, 3-튜플(A, 딸, B) 중 서브젝트A를 시작점으로 하여 관계 경로 “남편-1→엄마-1"를 워킹할 때, 3-튜플(A, 딸, B) 중 오브젝트B와 상이한 다른 오브젝트E를 더 획득할 수 있다. 관계 경로 "남편-1→엄마-1"를 이용하여 3-튜플(A, 딸, B) 중 관계 “딸”을 대체하는 동시에, 오브젝트를 이용하여 3-튜플(A, 딸, B) 중 오브젝트B를 대체하여, 확장 3-튜플(A, 남편-1→엄마-1, E)을 생성한다.
본 발명의 실시예에서 제공되는 데이터 증강 방법, 장치, 기기 및 저장 매체는, 우선, 지식 그래프에서 3-튜플을 획득하고; 다음, 지식 그래프에서 3-튜플 중 관계에 해당하는 관계 경로를 마이닝하며, 마지막으로 관계 경로에 기반하여, 3-튜플을 확장하여 확장 3-튜플을 생성한다. 지식 그래프 중 3-튜플의 확장을 구현하고, 3-튜플 중 서브젝트와 오브젝트가 보다 큰 언어 환경에서의 연관성을 강화하여, 3-튜플 중 서브젝트와 오브젝트 사이의 연광성이 보다 전면적이 되도록 한다.
아래에서는 본 발명의 실시예의 데이터 증강 방법을 구현할 수 있는 장면를 제공한다.
도 3은 본 발명의 실시예의 데이터 증강 방법을 구현할 수 있는 장면도이다.
도 3에 도시된 바와 같이, 지식 그래프에 (A, 딸, B), (B, 엄마, C), (C, 남편, A), (D, 국왕, A), (D, 왕후, C)와 같은 다수의 그룹의 3-튜플이 존재한다. 여기서, (A, 딸, B)는 B가 A의 딸임을 표시하고, (B, 엄마, C)는 C가 B의 엄마임을 표시하며, (C, 남편, A)는 A가 C의 남편임을 표시하고, (D, 국왕, A)는 A가 D의 국왕임을 표시하며, (D, 왕후, C)는 C가 D의 왕후임을 표시한다. 3-튜플(C, 남편, A)의 경우, 관계 “남편”은 관계 경로 “엄마-1→딸-1"에 해당되고, 3-튜플(C, 남편, A)에 대응되는 확장 3-튜플은 (C, 엄마-1→딸-1, A)이다. 3-튜플(D, 왕후, C)의 경우, 관계 “왕후”는 관계 경로 “국왕→남편-1"에 해당되고, 3-튜플(D, 왕후, C)에 대응되는 확장 3-튜플은 (D, 국왕→남편-1, C)이다. 3-튜플(B, 엄마, C)의 경우, 관계 “엄마”는 관계 경로 “딸-1"에 해당되고, 3-튜플(B, 엄마, C)에 대응되는 확장 3-튜플은 (B, 딸-1, C)이다. 여기서, 윗첨자“-1"가 있는 관계는 윗첨자“-1"가 없는 관계의 방향과 서로 반대된다.
도 4는 본 발명에 따른 데이터 증강 방법의 다른 실시예의 흐름도이다.
데이터 증강 방법은 하기와 같은 단계를 포함한다.
단계(401)에서, 지식 그래프에서 3-튜플을 획득한다.
단계(402)에서, 지식 그래프에서, 3-튜플 중 관계에 해당하는 관계 경로를 마이닝한다.
단계(403)에서, 관계 경로에 기반하여, 3-튜플을 확장하여 확장 3-튜플을 생성한다.
본 실시예에서, 단계(401)내지 단계(403)의 구체적인 조작은 도 2에 도시된 실시예 중 단계(201)내지 단계(203)에서 이미 상세히 설명하였기에 여기서 더이상 설명하지 않는다.
단계(404) 3-튜플과 확장 3-튜플을 각각 트레이닝 샘플로서 트레이닝 샘플 세트에 추가한다.
본 실시예에서, 데이터 증강 방법의 수행 주체(예를들어, 도 1에 도시된 바와 같은 서버(103))는 지식 그래프 중 대부분의 3-튜플 및 대응되는 확장 3-튜플을 각각 트레이닝 샘플로서 트레이닝 샘플 세트에 추가할 수 있다. 여기서, 하나의 3-튜플은 하나의 트레이닝 샘플이고, 하나의 확장 3-튜플도 하나의 트레이닝 샘플이다. 지식 그래프 중의 3-튜플만 트레이닝 샘플로 사용하는 종래 기술에 비해, 트레이닝 샘플 세트 중 내용을 풍부하게 한다. 또한, 확장 3-튜플도 트레이닝 샘플로 사용하므로, 트레이닝 샘플 세트 중 관계 경로와 관계의 대응 관계를 강화시켜, 트레이닝 샘플 중 서브젝트와 오브젝트 사이의 연관성이 더욱 전면적이 되도록 한다.
단계(405) 트레이닝 샘플 세트 중 트레이닝 샘플에 대해, 서브젝트 또는 오브젝트가 결실된 상기 트레이닝 샘플을 입력으로 사용하고, 결실된 서브젝트 또는 오브젝트를 출력으로 사용하며, 지도 트레이닝을 통해 예측 모델을 획득한다.
본 실시예에서, 상기 수행 주체는 3-튜플도 포함하고 확장 3-튜플도 포함하는 트레이닝 샘플 세트를 이용하여, 트레이닝할 모델에 대해 지도 트레이닝을 진행하여, 예측 모델을 획득할 수 있다. 구체적으로, 트레이닝 샘플 세트 중 트레이닝 샘플에 있어서, 상기 수행 주체는 서브젝트 또는 오브젝트가 결실된 상기 트레이닝 샘플을 입력으로 사용하고, 결실된 서브젝트 또는 결실된 오브젝트를 출력으로 사용하며, 트레이닝할 모델에 지도 트레이닝을 진행하여, 예측 모델을 획득할 수 있다. 예를 들어, 트레이닝 샘플 세트 중 3-튜플(S, P, O)과 확장 3-튜플(S, path, O), (S, path, O′)에 있어서, (S, P, ?)을 입력으로 사용하고, O를 출력으로 사용하며, (S, path, ?)를 입력으로 사용하고, O 또는 O′를 출력으로 사용하며, (?, P, O), (?, path, O), (?, path, O′)를 입력으로 사용하고, S를 출력으로 사용하여, 트레이닝할 모델에 대해 지도 트레이닝을 진행하여 예측 모델을 생성한다. 여기서, 트레이닝할 모델은 여러가지 관계의 서열 데이터를 지원하는 임의의 모델일 수 있고, 예를 들어 pathRNN모델, CompTansE모델 등이 해당될 수 있다.
3-튜플과 확장 3-튜플을 이용하여 예측 모델을 트레이닝하여, 예측 모델이 표시 학습 진행시 관계와 관계 경로 사이의 대응 관계 및 비교적 먼 서브젝트S와 오브젝트O′사이가 보다 큰 문맥에서의 관련 관계를 학습할 수 있도록 강화시킨다.
단계(406)에서, 예측 3-튜플을 획득한다.
본 실시예에서, 상기 수행 주체는 예측 3-튜플을 획득할 수 있다. 여기서, 예측 3-튜플은 예를 들어 (S, P, ?) 또는 (?, P, O)와 같이 서브젝트 또는 오브젝트가 결실된다. 예측 3-튜플은 지식 그래프 중 작은 부분의 3-튜플일 수 있다. 일반적으로, 예측 3-튜플은 트레이닝 샘플 세트 중 3-튜플과 상이하다.
단계(407)에서, 지식 그래프에 기반하여, 예측 3-튜플에 대응되는 예측 확장 3-튜플을 결정한다.
본 실시예에서, 상기 수행 주체는 지식 그래프에 기반하여, 예측 3-튜플에 대응되는 예측 확장 3-튜플을 결정할 수 있다. 일반적으로, 예측 확장 3-튜플은 데이터 증강 방법을 통해 예측 3-튜플을 확장시켜 획득될 수도 있다. 예를 들어, 예측 3-튜플(S, P, ?) 또는 (?, P, O)의 경우, 이에 대응되는 예측 확장 3-튜플은 (S, path, ?) 또는 (?, path, O)일 수 있다.
단계(408)에서, 예측 3-튜플과 예측 확장 3-튜플을 각각 예측 모델에 입력하여, 예측 3-튜플과 예측 확장 3-튜플에 대응되는 예측 서브젝트 또는 예측 오브젝트의 신뢰도를 획득한다.
본 실시예에서, 상기 수행 주체는 예측 3-튜플과 예측 확장 3-튜플을 각각 예측 모델에 입력하여, 예측 3-튜플과 예측 확장 3-튜플에 대응되는 예측 서브젝트 또는 예측 오브젝트의 신뢰도를 획득할 수 있다. 일반적으로, 예측 3-튜플을 예측 모델에 입력하면, 예측 3-튜플에 대응되는 예측 서브젝트 또는 예측 오브젝트의 신뢰도를 출력할 수 있다. 즉, 예측 3-튜플 중 결실된 서브젝트 또는 오브젝트가 각 엔티티에 속하는 신뢰도이다. 마찬가지로, 예측 확장 3-튜플을 예측 모델에 입력하면, 예측 확장 3-튜플에 대응되는 예측 서브젝트 또는 예측 오브젝트의 신뢰도를 출력할 수 있다. 즉, 예측 확장 3-튜플 중 결실된 서브젝트 또는 오브젝트가 각 엔티티에 속하는 신뢰도이다.
단계(409)에서, 예측 3-튜플과 예측 확장 3-튜플에 대응되는 예측 서브젝트 또는 예측 오브젝트의 신뢰도의 평균값을 산출하여, 예측 3-튜플의 결실된 서브젝트 또는 오브젝트를 결정한다.
본 실시예에서, 상기 수행 주체는 예측 3-튜플과 예측 확장 3-튜플에 대응되는 예측 서브젝트 또는 예측 오브젝트의 신뢰도의 평균값을 산출하여, 예측 3-튜플의 결실된 서브젝트 또는 오브젝트를 결정할 수 있다. 일반적으로, 상기 수행 주체는 예측 3-튜플과 예측 확장 3-튜플 중 결실된 서브젝트 또는 오브젝트가 각 엔티티에 속하는 평균 신뢰도를 산출하여, 결실된 서브젝트 또는 오브젝트을 결정할 수 있다.
예측 모델의 트레이닝과 예측시 모두 지식 그래프가 증강된 데이터 세트를 사용한다. 선행 기술은, 하나의 3-튜플 (S, P, O) 입도의 모델 트레이닝에 기반하여, 판별 함수 f(S, P, O)의 최적화만을 타깃으로 하여, 모델이 (S, P, O)이 성립되는 사실(f(S, P, O)=1)인지 아니면 성립되지 않는 사실(f(S, P, O)=0)인지 판정할 수 있도록 하는데, 이러한 선행 기술에 비해, 예측 모델의 분류 결과가 보다 해석성을 소유하여, 관계 경로를 통해, 테스트 3-튜플 성립 여부의 추리의 중간 논리를 해석하기 편리하도록 한다. 예를 들어, 증강된 트레이닝 샘플 세트를 이용하여 트레이닝된 예측 모델은 3-튜플(S, P, O)의 성립 여부를 판정할 수 있을 뿐 만 아니라, 3-튜플(S, P, O) 중 관계P에 대응되는 관계 경로path에 기반하여 3-튜플(S, P, O)를 해석하기도 있다.
예측 모델의 트레이닝과 예측시, 이산 심볼로 표시된 3-튜플 또는 확장 3-튜플을 입력할 때, 예측 모델은 입력된 엔티티와 관계를 연속 벡터로 전환시켜 지식 그래프 표시를 획득할 수 있다. 예측 모델은 우선 엔티티에 대응되는 연속 벡터와 관계에 대응되는 연속 벡터에 기반하여, 결실된 엔티티의 연속 벡터를 예측하고; 다음 예측된 결실된 엔티티의 연속 벡터에 기반하여 결실된 엔티티를 결정할 수 있다. 여기서, 지식 그래프 표시는 지식 그래프 중 이산 심볼의 엔티티와 관계를 연속 벡터의 형식으로 표시하는 것이다. 연속 벡터 표시는 한편으로는 엔티티가 지식 그래프에서의 구조 방면의 관건적인 정보를 보류할 수 있고, 다른 한편으로는 다운 스트림 애플리케이션 태스크가 지식을 쉽게 이용할 수 있도록 한다. 현재, 정보 추출, 문답, 열독 이해 등 태스크에서, 지식 그래프는 모드 벡터 형식으로 응용되고 작용을 발휘한다. 확장 3-튜플을 이용하여 트레이닝 샘플 세트를 증강시켜, 지식 그래프가 학습을 표시하는 효과를 향상시키고, 예측 모델이 지식 그래프를 이용하기 유리하다.
도 4를 참조하면, 도 2에 대응되는 실시예에 비해, 본 실시예 중 데이터 증강 방법의 프로세스(400)는 모델 트레이닝과 모델 예측하는 단계를 추가하였다. 이로부터, 본 실시예에서 설명된 수단에서, 제1 양태에서, 확장 3-튜플을 이용하여 트레이닝 샘플 세트를 증강시켜, 트레이닝 샘플 세트 중 내용을 풍부하게 한다. 또한, 확장 3-튜플도 트레이닝 샘플로 사용하므로, 트레이닝 샘플 세트 중 관계 경로와 관계의 대응 관계를 강화시켜, 트레이닝 샘플 중 서브젝트와 오브젝트 사이의 연관성이 보더 전면적이 되게 한다. 제2 양태에서, 증강된 트레이닝 샘플 세트를 이용하여 예측 모델을 트레이닝시켜, 예측 모델이 표시 학습 진행시 관계와 관계 경로 사이의 대응 관계를 학습하도록 강화시켜, 복수 개의 관계 사이의 연관성이 더욱 강해지게 함으로써, 예측 모델의 효과를 향상시킨다. 제3 양태에서, 모델 테스트시, 테스트 3-튜플에 대해 상응한 관계 경로를 확장하고 분류 결과의 계산에 함계 참여하여, 예측 모델의 분류 결과가 보다 해석성이 있도록 하여, 관계 경로를 통해 테스트 3-튜플 성립 여부의 추리의 중간 논리를 해석하기 편리하도록 한다.
도 5는 본 발명에 따른 데이터 증강 장치의 일 실시예의 구조 모식도이다.
도 5를 참조하면, 상기 각 도면에 도시된 방법에 대한 구현으로서, 본 발명은 데이터 증강 장치의 일 실시예를 제공하고, 상기 장치 실시예는 도 2에 도시된 방법 실시예와 대응되며, 상기 장치는 구체적으로 다양한 전자 기기에 응용될 수 있다.
도 5에 도시된 바와 같이, 본 실시예의 데이터 증강 장치(500)는 제1 획득 모듈(501), 마이닝 모듈(502) 및 확장 모듈(503)을 포함할 수 있다. 여기서, 제1 획득 모듈(501)은 지식 그래프에서 3-튜플을 획득하고; 마이닝 모듈(502)은 지식 그래프에서 3-튜플 중 관계에 해당하는 관계 경로를 마이닝하며, 여기에서, 관계 경로는 3-튜플 중 서브젝트와 오브젝트를 각각 시작점과 종점으로 하고; 확장 모듈(503)은 관계 경로에 기반하여, 3-튜플을 확장하여 확장 3-튜플을 생성한다.
본 실시예에서, 데이터 증강 장치(500)에서, 제1 획득 모듈(501), 마이닝 모듈(502) 및 확장 모듈(503)의 구체적인 처리 및 이로 인한 기술적 효과는 도 2에 대응되는 실시예 중 단계(201) 내지 단계(203)의 관련 설명을 각각 참조할 수 있으므로, 여기서 더이상 설명하지 않는다.
본 실시예의 일부 선택 가능한 구현 형태에서, 마이닝 모듈(502)은, 지식 그래프에서 3-튜플 중 서브젝트 및 오브젝트와 통계적으로 동시 발생되는 다른 3-튜플 서열을 마이닝하고; 다른 3-튜플 서열 중 관계를 순서대로 조합하여 관계 경로를 생성한다.
본 실시예의 일부 선택 가능한 구현 형태에서, 확장 모듈(503)은, 관계 경로를 이용하여 3-튜플 중 관계를 대체하여 확장 3-튜플을 생성한다.
본 실시예의 일부 선택 가능한 구현 형태에서, 확장 모듈(503)은, 3-튜플 중 서브젝트를 시작점으로 하여 관계 경로를 워킹하여, 3-튜플 중 오브젝트와 상이한 다른 오브젝트를 획득하고; 관계 경로를 이용하여 3-튜플 중 관계를 대체하고, 다른 오브젝트를 이용하여 3-튜플 중 오브젝트를 대체하여, 확장 3-튜플을 생성한다.
본 실시예의 일부 선택 가능한 구현 형태에서, 데이터 증강 장치(500)는, 3-튜플과 확장 3-튜플을 각각 트레이닝 샘플로서 트레이닝 샘플 세트에 추가하는 추가 모듈(미도시); 및 트레이닝 샘플 세트 중 트레이닝 샘플에 대해, 서브젝트 또는 오브젝트가 결실된 상기 트레이닝 샘플을 입력으로 사용하고, 결실된 서브젝트 또는 오브젝트를 출력으로 사용하며, 지도 트레이닝을 통해 예측 모델을 획득하는 트레이닝 모듈(미도시)을 더 포함한다.
본 실시예의 일부 선택 가능한 구현 형태에서, 데이터 증강 장치(500)는, 예측 3-튜플을 획득하되, 여기에서, 예측 3-튜플은 서브젝트 또는 오브젝트가 결실되는 제2 획득 모듈(미도시); 지식 그래프에 기반하여 예측 3-튜플에 대응되는 예측 확장 3-튜플을 결정하는 결정 모듈(미도시); 예측 3-튜플과 예측 확장 3-튜플을 각각 예측 모델에 입력하여, 예측 3-튜플과 예측 확장 3-튜플에 대응되는 예측 서브젝트 또는 예측 오브젝트의 신뢰도를 획득하는 예측 모듈(미도시); 및 예측 3-튜플과 예측 확장 3-튜플에 대응되는 예측 서브젝트 또는 예측 오브젝트의 신뢰도의 평균값을 산출하여, 예측 3-튜플의 결실된 서브젝트 또는 오브젝트를 결정하는 산출 모듈(미도시)을 더 포함한다.
본 발명의 실시예에 따르면, 본 발명은 전자 기기와 판독 가능 저장 매체를 더 제공한다.
도 6은 본 발명의 실시예의 데이터 증강 방법을 구현하는데 사용되는 전자 기기의 블록도이다.
도 6에 도시된 바와 같이, 본 발명의 실시예에 따른 데이터 증강 방법의 전자 기기의 블록도이다. 전자 기기는 랩톱 컴퓨터, 데스크톱 컴퓨터, 운영 플랫폼, 개인 정보 단말기, 서버, 블레이드 서버, 대형 컴퓨터, 및 다른 적합한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터를 의미한다. 전자 기기는 개인 디지털 처리, 셀룰러폰, 스마트폰, 웨어러블 기기 및 다른 유사한 컴퓨팅 장치와 같은 다양한 형태의 이동 장치를 의미할 수도 있다. 본문에서 나타낸 부재, 이들의 연결과 관계, 및 이들의 기능은 단지 예시적인 것으로, 본문에서 설명 및/또는 요구된 본 발명의 구현을 한정하지 않는다.
도 6에 도시된 바와 같이, 상기 전자 기기는 하나 또는 다수의 프로세서(601), 메모리(602), 및 고속 인터페이스 및 저속 인터페이스를 포함하는 각 부재를 연결하기 위한 인터페이스를 포함한다. 각 부재는 상이한 버스를 이용하여 서로 연결되고, 공통 메인보드에 장착될 수 있거나 필요에 따라 다른 방식으로 장착될 수 있다. 프로세서는, 메모리에 저장되거나 메모리에서 외부 입력/출력 장치(예를 들어, 인터페이스에 커플링된 표시 기기)에 GUI의 그래픽 정보를 표시하는 명령을 포함하는 전자 기기 내에서 실행되는 명령을 처리할 수 있다. 다른 실시형태에서, 필요에 따라 다수의 프로세서 및/또는 다수의 버스를 다수의 메모리와 함께 사용할 수 있다. 마찬가지로, 다수의 전자 기기를 연결할 수 있고, 각 기기는 일부 필요한 동작(예를 들어, 서버 어레이, 한 그룹의 블레이드 서버, 또는 다중프로세서 시스템)을 제공한다. 도 6에서 하나의 프로세서(601)를 예로 든다.
메모리(602)는 본 발명에서 제공되는 비일시적 컴퓨터 판독 가능 저장 매체이다. 여기서, 상기 메모리(602)에는 적어도 하나의 프로세서(601)에 의해 실행 가능항 명령이 저장되어, 상기 적어도 하나의 프로세서(601)가 본 발명에서 제공되는 데이터 증강 방법을 수행하도록 한다. 본 발명의 비일시적 컴퓨터 판독 가능 저장 매체에는 컴퓨터 명령이 저장되고, 상기 컴퓨터 명령은 컴퓨터가 본 발명에서 제공되는 데이터 증강 방법을 수행하도록 한다.
메모리(602)는 비일시적 컴퓨터 판독 가능 저장 매체로서, 비일시적 소프트웨어 프로그램, 비일시적 컴퓨터 실행 가능한 프로그램, 및 본 발명의 실시예의 데이터 증강 방법에 대응되는 프로그램 명령/모듈(예를 들어, 도 5에 도시된 제1 획득 모듈(501), 마이닝 모듈(502) 및 확장 모듈(503))과 같은 모듈을 저장할 수 있다. 프로세서(601)는 메모리(602)에 저장된 비일시적 소프트웨어 프로그램, 명령 및 모듈을 실행함으로써, 서버의 다양한 기능 애플리케이션 및 데이터 처리를 수행하는데, 즉 상기 방법 실시예의 데이터 증강 방법을 구현한다.
메모리(602)는 프로그램 저장 영역 및 데이터 저장 영역을 포함할 수 있고, 여기서, 프로그램 저장 영역은 운영 체제, 적어도 하나의 기능에 필요한 응용 프로그램을 저장할 수 있으며; 데이터 저장 영역은 데이터 증강 방법의 전자 기기의 사용에 따라 구축된 데이터 등을 저장할 수 있다. 이 밖에, 메모리(602)는 고속 랜덤 액세스 메모리를 포함할 수 있고, 적어도 하나의 자기 디스크 메모리, 플래시 메모리, 또는 다른 비일시적 고체 상태 메모리와 같은 비일시적 메모리를 더 포함할 수 있다. 일부 실시예에서, 메모리(602)는 프로세서(601)에 대해 원격으로 설치된 메모리를 선택적으로 포함할 수 있고, 이러한 원격 메모리는 네트워크를 통해 데이터 증강 방법의 전자 기기에 연결될 수 있다. 상기 네트워크의 구현예로 인터넷, 인트라넷, 근거리 통신망, 이동 통신망 및 이들의 조합을 포함하지만 이에 한정되지 않는다.
데이터 증강 방법의 전자 기기는 입력 장치(603) 및 출력 장치(604)를 더 포함할 수 있다. 프로세서(601), 메모리(602), 입력 장치(603) 및 출력 장치(604)는 버스 또는 다른 방식을 통해 연결될 수 있고, 도 6에서 버스를 통해 연결되는 것을 예로 든다.
입력 장치(603)는 입력된 디지털 또는 문자 정보를 수신할 수 있고, 데이터 증강 방법의 전자 기기의 사용자 설정 및 기능 제어와 관련된 키 신호 입력을 발생할 수 있으며, 상기 입력 장치는, 예를 들어 터치스크린, 키패드, 마우스, 트랙 패널, 터치 패널, 지시 바, 하나 또는 다수의 마우스 버튼, 트랙 볼, 조이스틱 등 입력 장치이다. 출력 장치(604)는 표시 기기, 보조 조명 장치(예를 들어, LED) 및 촉각 피드백 장치(예를 들어, 진동 모터) 등을 포함할 수 있다. 상기 표시 기기는 액정 표시 장치(LCD), 발광 다이오드(LED) 표시 장치 및 플라스마 표시 장치를 포함할 수 있지만 이에 한정되지 않는다. 일부 실시형태에서, 표시 기기는 터치스크린일 수 있다.
여기서 설명된 시스템 및 기술의 다양한 실시형태는 디지털 전자 회로 시스템, 집적 회로 시스템, 전용 ASIC(전용 집적 회로), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합에서 구현될 수 있다. 이러한 다양한 실시형태는 하나 또는 다수의 컴퓨터 프로그램에서의 구현을 포함할 수 있고, 상기 하나 또는 다수의 컴퓨터 프로그램은 적어도 하나의 프로그램 가능 프로세서를 포함하는 프로그램 가능 시스템에서 실행 및/또는 해석될 수 있으며, 상기 프로그램 가능 프로세서는 전용 또는 범용 프로그램 가능 프로세서일 수 있고, 저장 시스템, 적어도 하나의 입력 장치, 및 적어도 하나의 출력 장치로부터 데이터 및 명령을 수신할 수 있으며, 데이터 및 명령을 상기 저장 시스템, 상기 적어도 하나의 입력 장치, 및 상기 적어도 하나의 출력 장치에 전송할 수 있다.
이러한 컴퓨팅 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션, 또는 코드라고도 함)은 프로그램 가능 프로세서의 기계 명령을 포함하고, 하이레벨 프로세스 및/또는 객체에 대한 프로그래밍 언어, 및/또는 어셈블리/기계 언어를 이용하여 이러한 컴퓨팅 프로그램을 실행할 수 있다. 본문에서 사용된 바와 같이, 용어 "기계 판독 가능한 매체” 및 "컴퓨터 판독 가능한 매체”는 기계 명령 및/또는 데이터를 프로그램 가능 프로세서에 제공하기 위한 임의의 컴퓨터 프로그램 제품, 기기, 및/또는 장치(예를 들어, 자기 디스크, 광 디스크, 메모리, 프로그램 가능 로직 장치(PLD))를 의미하고, 기계 판독 가능한 신호인 기계 명령을 수신하는 기계 판독 가능한 매체를 포함한다. 용어 "기계 판독 가능한 신호”는 기계 명령 및/또는 데이터를 프로그램 가능 프로세서에 제공하기 위한 임의의 신호를 의미한다.
사용자와의 인터랙션을 제공하기 위하여, 컴퓨터에서 여기서 설명된 시스템 및 기술을 실시할 수 있고, 상기 컴퓨터는 사용자에게 정보를 표시하기 위한 표시 장치(예를 들어, CRT(음극선관) 또는 LCD(액정 표시 장치) 모니터); 및 키보드 및 지향 장치(예를 들어, 마우스 또는 트랙 볼)를 구비하며, 사용자는 상기 키보드 및 상기 지향 장치를 통해 컴퓨터에 입력을 제공한다. 다른 타입의 장치는 또한 사용자와의 인터랙션을 제공할 수 있는데, 예를 들어, 사용자에게 제공된 피드백은 임의의 형태의 감지 피드백(예를 들어, 시각 피드백, 청각 피드백, 또는 촉각 피드백)일 수 있고; 임의의 형태(소리 입력, 음성 입력, 또는 촉각 입력)로 사용자로부터의 입력을 수신할 수 있다.
여기서 설명된 시스템 및 기술을 백그라운드 부재를 포함하는 컴퓨팅 시스템(예를 들어, 데이터 서버), 또는 미들웨어 부재를 포함하는 컴퓨팅 시스템(예를 들어, 응용 서버), 또는 프론트 엔드 부재를 포함하는 컴퓨팅 시스템(예를 들어, 그래픽 사용자 인터페이스 또는 웹 브라우저를 구비하는 사용자 컴퓨터이고, 사용자는 상기 그래픽 사용자 인터페이스 또는 웹 브라우저를 통해 여기서 설명된 시스템 및 기술의 실시형태와 인터랙션할 수 있음), 또는 이러한 백그라운드 부재, 미들웨어 부재, 또는 프론트 엔드 부재의 임의의 조합을 포함하는 컴퓨팅 시스템에서 실시할 수 있다. 임의의 형태 또는 매체의 디지털 데이터 통신(예를 들어, 통신 네트워크)을 통해 시스템의 부재를 서로 연결시킬 수 있다. 통신 네트워크의 예시로 근거리 통신망(LAN), 광역 통신망(WAN), 인터넷을 포함한다.
컴퓨터 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트 및 서버는 일반적으로 서로 멀리 떨어져 있고 일반적으로 통신 네트워크를 통해 서로 인터랙션한다. 대응되는 컴퓨터에서 실행되고 또한 서로 클라이언트-서버 관계를 가지는 컴퓨터 프로그램을 통해 클라이언트 및 서버의 관계를 생성한다.
본 발명의 기술적 해결수단에 따르면, 우선, 지식 그래프에서 3-튜플을 획득하고, 다음, 지식 그래프에서 3-튜플 중 관계에 해당하는 관계 경로를 마이닝하며, 마지막으로, 관계 경로에 기반하여, 3-튜플을 확장하여 확장 3-튜플을 생성한다. 지식 그래프 중 3-튜플의 확장을 구현하고, 3-튜플 중 서브젝트와 오브젝트가 보다 큰 언어 환경에서의 연관성을 강화하여, 3-튜플 중 서브젝트와 오브젝트 사이의 연광성이 보다 전면적이 되도록 한다.
위에서 설명한 다양한 형태의 프로세스를 사용하여, 단계를 재배열, 추가 또는 삭제할 수 있음을 이해해야 한다. 예를 들어, 본 발명에 기재된 각 단계는 동시에 수행될 수 있거나 순차적으로 수행될 수 있거나 상이한 순서로 수행될 수 있고, 본 발명에서 공개된 기술적 해결수단이 이루고자 하는 결과를 구현할 수만 있으면, 본문은 여기서 한정하지 않는다.
상기 구체적인 실시형태는 본 발명의 보호 범위를 한정하지 않는다. 본 기술분야의 통상의 기술자는 설계 요구 및 다른 요소에 따라 다양한 수정, 조합, 서브 조합 및 대체를 진해할 수 있음을 이해해야 한다. 본 발명의 정신 및 원칙 내에서 진행한 임의의 수정, 등가적 대체 및 개선 등은 모두 본 발명의 보호 범위 내에 속해야 한다.
Claims (15)
- 데이터 증강 방법으로서,
지식 그래프에서 3-튜플(Three tuple)을 획득하는 단계;
상기 지식 그래프에서, 상기 3-튜플 중 관계에 해당하는 관계 경로를 마이닝하는 단계 - 상기 관계 경로는 상기 3-튜플 중 서브젝트와 오브젝트를 각각 시작점과 종점으로 함 -; 및
상기 관계 경로에 기반하여 상기 3-튜플을 확장하여 확장 3-튜플을 생성하는 단계;를 포함하는 방법. - 제1항에 있어서,
상기 마이닝하는 단계는,
상기 지식 그래프에서, 상기 3-튜플 중 상기 서브젝트 및 상기 오브젝트와 통계적으로 동시 발생되는 다른 3-튜플 서열을 마이닝하는 단계; 및
상기 다른 3-튜플 서열 중 관계를 순서대로 조합하여 상기 관계 경로를 생성하는 단계;를 포함하는 방법. - 제1항에 있어서,
상기 생성하는 단계는,
상기 관계 경로를 이용하여 상기 3-튜플 중 관계를 대체하여 상기 확장 3-튜플을 생성하는 단계;를 포함하는 방법. - 제1항에 있어서,
상기 생성하는 단계는,
상기 3-튜플 중 상기 서브젝트를 시작점으로 하여 상기 관계 경로를 워킹(walking)하여, 상기 3-튜플 중 상기 오브젝트와 상이한 다른 오브젝트를 획득하는 단계; 및
상기 관계 경로를 이용하여 상기 3-튜플 중 관계를 대체하고, 상기 다른 오브젝트를 이용하여 상기 3-튜플 중 오브젝트를 대체하여, 상기 확장 3-튜플을 생성하는 단계;를 포함하는 방법. - 제1항 내지 제4항 중 어느 한 항에 있어서,
상기 3-튜플과 상기 확장 3-튜플을 각각 트레이닝 샘플로서 트레이닝 샘플 세트에 추가하는 단계; 및
상기 트레이닝 샘플 세트 중 트레이닝 샘플에 대해, 상기 서브젝트 또는 상기 오브젝트가 결실된 상기 트레이닝 샘플을 입력으로 사용하고, 상기 결실된 서브젝트 또는 상기 결실된 오브젝트를 출력으로 사용하며, 지도 트레이닝을 통해 예측 모델을 획득하는 단계;를 더 포함하는 방법. - 제5항에 있어서,
예측 3-튜플을 획득하는 단계 - 상기 예측 3-튜플은 상기서브젝트 또는 상기 오브젝트가 결실됨 -;
상기 지식 그래프에 기반하여 상기 예측 3-튜플에 대응되는 예측 확장 3-튜플을 결정하는 단계;
상기 예측 3-튜플과 상기 예측 확장 3-튜플을 각각 상기 예측 모델에 입력하여, 상기 예측 3-튜플과 상기 예측 확장 3-튜플에 대응되는 예측 서브젝트 또는 예측 오브젝트의 신뢰도를 획득하는 단계; 및
상기 예측 3-튜플과 상기 예측 확장 3-튜플에 대응되는 상기 예측 서브젝트 또는 상기 예측 오브젝트의 신뢰도의 평균값을 산출하여, 상기 예측 3-튜플의 결실된 서브젝트 또는 오브젝트를 결정하는 단계;를 더 포함하는 방법. - 데이터 증강 장치로서,
지식 그래프에서 3-튜플을 획득하는 제1 획득 모듈;
상기 지식 그래프에서, 상기 3-튜플 중 관계에 해당하는 관계 경로를 마이닝하는 마이닝 모듈 - 상기 관계 경로는 상기 3-튜플 중 서브젝트와 오브젝트를 각각 시작점과 종점으로 함 -; 및
상기 관계 경로에 기반하여 상기 3-튜플을 확장하여 확장 3-튜플을 생성하는 확장 모듈;을 포함하는 장치. - 제7항에 있어서,
상기 마이닝 모듈은,
상기 지식 그래프에서 상기 3-튜플 중 상기 서브젝트 및 상기 오브젝트와 통계적으로 동시 발생되는 다른 3-튜플 서열을 마이닝하고,
상기 다른 3-튜플 서열 중 관계를 순서대로 조합하여 상기 관계 경로를 생성하는 장치. - 제7항에 있어서,
상기 확장 모듈은,
상기 관계 경로를 이용하여 상기 3-튜플 중 관계를 대체하여 상기 확장 3-튜플을 생성하는 장치. - 제7항에 있어서,
상기 확장 모듈은,
상기 3-튜플 중 상기 서브젝트를 시작점으로 하여 상기 관계 경로를 워킹하여, 상기 3-튜플 중 상기 오브젝트와 상이한 다른 오브젝트를 획득하고,
상기 관계 경로를 이용하여 상기 3-튜플 중 관계를 대체하고, 상기 다른 오브젝트를 이용하여 상기 3-튜플 중 오브젝트를 대체하여, 상기 확장 3-튜플을 생성하는 장치. - 제7항 내지 제10항 중 어느 한 항에 있어서,
상기 3-튜플과 상기 확장 3-튜플을 각각 트레이닝 샘플로서 트레이닝 샘플 세트에 추가하는 추가 모듈; 및
상기 트레이닝 샘플 세트 중 트레이닝 샘플에 대해, 상기 서브젝트 또는 상기 오브젝트가 결실된 상기 트레이닝 샘플을 입력으로 사용하고, 상기 결실된 서브젝트 또는 상기 결실된 오브젝트를 출력으로 사용하며, 지도 트레이닝을 통해 예측 모델을 획득하는 트레이닝 모듈;을 더 포함하는 장치. - 제11항에 있어서,
예측 3-튜플을 획득하는 제2 획득 모듈 - 상기 예측 3-튜플은 상기 서브젝트 또는 상기 오브젝트가 결실됨 -;
상기 지식 그래프에 기반하여 상기 예측 3-튜플에 대응되는 예측 확장 3-튜플을 결정하는 결정 모듈;
상기 예측 3-튜플과 상기 예측 확장 3-튜플을 각각 상기 예측 모델에 입력하여, 상기 예측 3-튜플과 상기 예측 확장 3-튜플에 대응되는 예측 서브젝트 또는 예측 오브젝트의 신뢰도를 획득하는 예측 모듈; 및
상기 예측 3-튜플과 상기 예측 확장 3-튜플에 대응되는 상기 예측 서브젝트 또는 상기 예측 오브젝트의 신뢰도의 평균값을 산출하여, 상기 예측 3-튜플의 결실된 서브젝트 또는 오브젝트를 결정하는 산출 모듈;을 더 포함하는 장치. - 전자 기기로서,
적어도 하나의 프로세서; 및
상기 적어도 하나의 프로세서와 통신 연결하는 메모리;를 포함하고,
상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되며, 상기 명령이 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서가 제1항 내지 제6항 중 어느 한 항에 따른 방법을 수행하는 전자 기기. - 컴퓨터 명령이 저장된 비일시적 컴퓨터 판독 가능 저장 매체로서,
상기 컴퓨터 명령은 상기 컴퓨터가 제1항 내지 제6항 중 어느 한 항에 따른 방법을 수행하도록 하는 비일시적 컴퓨터 판독 가능 저장 매체. - 컴퓨터 판독 가능한 저장 매체에 저장된 컴퓨터 프로그램으로서,
상기 컴퓨터 프로그램이 프로세서에 의해 실행될 경우 제1항 내지 제6항 중 어느 한 항에 따른 방법을 구현하도록 하는 컴퓨터 프로그램.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010268590.1A CN111506623B (zh) | 2020-04-08 | 2020-04-08 | 数据扩充方法、装置、设备以及存储介质 |
CN202010268590.1 | 2020-04-08 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20210040886A true KR20210040886A (ko) | 2021-04-14 |
KR102695111B1 KR102695111B1 (ko) | 2024-08-14 |
Family
ID=71877523
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020210038964A KR102695111B1 (ko) | 2020-04-08 | 2021-03-25 | 데이터 증강 방법, 장치, 기기 및 저장 매체 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20210216885A1 (ko) |
EP (1) | EP3846050A3 (ko) |
JP (1) | JP7229291B2 (ko) |
KR (1) | KR102695111B1 (ko) |
CN (1) | CN111506623B (ko) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113204650B (zh) * | 2021-05-14 | 2022-03-11 | 深圳市曙光信息技术有限公司 | 基于领域知识图谱的评价方法及系统 |
CN113779274B (zh) * | 2021-09-18 | 2024-04-05 | 深圳平安医疗健康科技服务有限公司 | 指标模拟仿真方法、装置、计算机设备及存储介质 |
CN114925167A (zh) * | 2022-05-20 | 2022-08-19 | 武汉众智数字技术有限公司 | 一种基于知识图谱的案件处理方法和系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011142134A1 (ja) * | 2010-05-14 | 2011-11-17 | 日本電気株式会社 | 情報検索装置、情報検索方法、コンピュータ・プログラムおよびデータ構造 |
JP2019074843A (ja) * | 2017-10-13 | 2019-05-16 | ヤフー株式会社 | 情報提供装置、情報提供方法、およびプログラム |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160132501A1 (en) * | 2014-11-07 | 2016-05-12 | Google Inc. | Determining answers to interrogative queries using web resources |
CN109964224A (zh) * | 2016-09-22 | 2019-07-02 | 恩芙润斯公司 | 用于语义信息可视化和指示生命科学实体之间显著关联的时间信号推断的系统、方法和计算机可读介质 |
CN106874380B (zh) * | 2017-01-06 | 2020-01-14 | 北京航空航天大学 | 知识库三元组检验的方法与装置 |
US20180232443A1 (en) * | 2017-02-16 | 2018-08-16 | Globality, Inc. | Intelligent matching system with ontology-aided relation extraction |
US20190246122A1 (en) * | 2018-02-08 | 2019-08-08 | Qualcomm Incorporated | Palette coding for video coding |
US11080300B2 (en) * | 2018-08-21 | 2021-08-03 | International Business Machines Corporation | Using relation suggestions to build a relational database |
US20200074301A1 (en) * | 2018-09-04 | 2020-03-05 | Beijing Jingdong Shangke Information Technology Co., Ltd. | End-to-end structure-aware convolutional networks for knowledge base completion |
CN109960722B (zh) * | 2019-03-31 | 2021-10-22 | 联想(北京)有限公司 | 一种信息处理方法及装置 |
-
2020
- 2020-04-08 CN CN202010268590.1A patent/CN111506623B/zh active Active
-
2021
- 2021-03-24 JP JP2021049353A patent/JP7229291B2/ja active Active
- 2021-03-25 KR KR1020210038964A patent/KR102695111B1/ko active IP Right Grant
- 2021-03-26 US US17/213,952 patent/US20210216885A1/en active Pending
- 2021-03-29 EP EP21165621.0A patent/EP3846050A3/en not_active Ceased
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011142134A1 (ja) * | 2010-05-14 | 2011-11-17 | 日本電気株式会社 | 情報検索装置、情報検索方法、コンピュータ・プログラムおよびデータ構造 |
JP2019074843A (ja) * | 2017-10-13 | 2019-05-16 | ヤフー株式会社 | 情報提供装置、情報提供方法、およびプログラム |
Non-Patent Citations (1)
Title |
---|
"Modeling Relation Paths for Representation Learning of Knowledge Bases", arXiv.org, 2015.* * |
Also Published As
Publication number | Publication date |
---|---|
EP3846050A3 (en) | 2021-10-27 |
US20210216885A1 (en) | 2021-07-15 |
JP7229291B2 (ja) | 2023-02-27 |
KR102695111B1 (ko) | 2024-08-14 |
CN111506623A (zh) | 2020-08-07 |
EP3846050A2 (en) | 2021-07-07 |
JP2021128779A (ja) | 2021-09-02 |
CN111506623B (zh) | 2024-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR20210040886A (ko) | 데이터 증강 방법, 장치, 기기 및 저장 매체 | |
KR102484617B1 (ko) | 이종 그래프 노드를 표현하는 모델 생성 방법, 장치, 전자 기기, 저장 매체 및 프로그램 | |
EP3923160A1 (en) | Method, apparatus, device and storage medium for training model | |
JP7058304B2 (ja) | 異種グラフにおけるノード表現の生成方法、装置及び電子機器 | |
US20210334669A1 (en) | Method, apparatus, device and storage medium for constructing knowledge graph | |
JP2021184237A (ja) | データセット処理方法、装置、電子機器及び記憶媒体 | |
CN111079442A (zh) | 文档的向量化表示方法、装置和计算机设备 | |
EP3869402B1 (en) | Method and apparatus for positioning a key point, device, storage medium and computer program product | |
CN112270399B (zh) | 基于深度学习的算子注册处理方法、装置及电子设备 | |
CN111582477B (zh) | 神经网络模型的训练方法和装置 | |
CN110543558B (zh) | 问题匹配方法、装置、设备和介质 | |
EP3859732A2 (en) | Method and apparatus for recognizing voice | |
JP7146006B2 (ja) | データ処理方法、データ処理装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム | |
CN111666077B (zh) | 算子处理方法、装置、电子设备及存储介质 | |
CN111709252A (zh) | 基于预训练的语义模型的模型改进方法及装置 | |
KR20210122204A (ko) | 대화 감정 스타일의 예측 방법, 장치, 전자 기기, 저장 매체 및 컴퓨터 프로그램 제품 | |
CN111640103A (zh) | 图像检测方法、装置、设备以及存储介质 | |
CN112417156A (zh) | 多任务学习方法、装置、设备以及存储介质 | |
CN112270169B (zh) | 对白角色预测方法、装置、电子设备及存储介质 | |
CN110673994B (zh) | 数据库测试方法及装置 | |
CN111538656A (zh) | 梯度检查的监控方法、装置、设备及存储介质 | |
CN111324747B (zh) | 三元组的生成方法、装置及电子设备 | |
JP7256857B2 (ja) | 対話処理方法、装置、電子機器及び記憶媒体 | |
CN111767988B (zh) | 神经网络的融合方法和装置 | |
CN112508163B (zh) | 神经网络模型中子图的展示方法、装置和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right |