KR102604959B1 - 지식 그래프의 벡터 표시 생성 방법, 장치 및 기기 - Google Patents
지식 그래프의 벡터 표시 생성 방법, 장치 및 기기 Download PDFInfo
- Publication number
- KR102604959B1 KR102604959B1 KR1020207036656A KR20207036656A KR102604959B1 KR 102604959 B1 KR102604959 B1 KR 102604959B1 KR 1020207036656 A KR1020207036656 A KR 1020207036656A KR 20207036656 A KR20207036656 A KR 20207036656A KR 102604959 B1 KR102604959 B1 KR 102604959B1
- Authority
- KR
- South Korea
- Prior art keywords
- language environment
- knowledge graph
- entity
- vector representation
- environment type
- Prior art date
Links
- 239000013598 vector Substances 0.000 title claims abstract description 183
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000012545 processing Methods 0.000 claims description 29
- 230000015654 memory Effects 0.000 claims description 22
- 238000012549 training Methods 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 15
- 239000011159 matrix material Substances 0.000 claims description 11
- 238000005070 sampling Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000004891 communication Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 9
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 10
- 230000000903 blocking effect Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 5
- 238000005457 optimization Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 241000699666 Mus <mouse, genus> Species 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 241000699670 Mus sp. Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 238000005295 random walk Methods 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9017—Indexing; Data structures therefor; Storage structures using directory or table look-up
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
본 출원은 인공 지능 기술 분야에 관한 지식 그래프의 벡터 표시 생성 방법, 장치 및 기기를 제공한다. 구체적인 구현 방안은 지식 그래프를 획득하고. 여기서, 지식 그래프는 여러 개의 엔티티 노드를 포함하고; 지식 그래프에 대응하는 언어 환경 유형과 언어 환경 데이터를 획득하고; 언어 환경 데이터와 언어 환경 유형에 따라 언어 환경 모델을 통해 어러 개의 엔티티 노드에 대응하는 벡터 표시를 생성한다. 이로하여, 엔티티가 언어 환경에서의 더 정교화한 어의 표시를 구현하고 지식 그래프 표시 학습의 정확성을 더 제고한다.
Description
본 출원은 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디가 2019년 10월 08일 제공하는 발명의 명칭이 "지식 그래프의 벡터 표시 생성 방법, 장치 및 기기"이고, 중국 특허 출원 번호가 "201910950874.6"인 우선권을 요구한다.
본 출원은 컴퓨터 기술 분야에 관한 것으로, 특히 인공 지능 기술 분야에 관한 것으로, 지식 그래프의 벡터 표시 생성 방법, 장치 및 기기를 제공한다.
지식 그래프는 세계 현실 지식의 방향성 그래프 구조를 설명하는 지식 베이스이고, 지식 그래프 표시 학습의 목적은 지식 그래프 중의 이산 부호의 엔티티/관계를 벡터로 표시하고, 벡터 표시는 한 면으로 엔티티가 지식 그래프 중의 구조방면의 관건적인 정보를 보류할 수 있고, 다른 한 면으로 응용 미션이 지식 그래프에 대한 이용에 있다. 현제 정보 추출, 문답, 열독이해 등의 미션에서 지식 그래프는 벡터의 형식으로 응용되고 작용을 발휘하고 있다.
관련 기술 중의 지식 그래프 표시 학습은, 그래프 원소(엔티티와 관계를 포함)에 대해 정적 및 고정적인 벡터 표시를 학습하고, 표시 능력이 제한되어 정확도를 제고할 필요가 있다.
본 출원은 적어도 관련 기술 중의 하나의 기술 문제를 어느 정도 해결하기 위한 것이다.
이로하여 본 출원의 제1 목적은 지식 그래프의 벡터 표시 생성 방법을 제공하여 엔티티가 언어 환경 중에서의 더 정교화한 어의 표시를 구현하여 지식 그래프 표시 학습의 정확성을 제고시켰다
본 출원의 제2 목적은 지식 그래프의 벡터 표시 생성 장치를 제공하는데 있다.
본 출원의 제3 목적은 전자 기기를 제공하려는 데에 있다.
본 출원의 제4 목적은 컴퓨터 판독 가능 저장 매체를 제공하려는 데에 있다.
본 출원의 제1 측면의 실시예는 하나의 지식 그래프의 벡터 표시 생성 방법을 제공한다. 여기에는,
여러 개의 엔티티 노드를 포함하는 지식 그래프를 획득하는 단계여러;
상기 지식 그래프에 대응하는 언어 환경 유형과 언어 환경 데이터를 획득하는 단계; 및
상기 언어 환경 데이터와 상기 언어 환경 유형에 따라 언어 환경 모델을 통해 상기 여러 개의 엔티티 노드에 대응하는 벡터 표시를 생성하는,방법을 포함한다.
본 출원의 제2 측면의 실시예는 지식 그래프의 벡터 표시 생성 방법을 제공한다. 여기에는,
여러 개의 엔티티 노드를 포함하는 지식 그래프를 획득하기 위한 획득 모듈;
프로세싱 모듈, 이는 상기 지식 그래프에 대응하는 언어 환경 유형과 언어 환경 데이터를 획득하는데 사용된다; 및
상기 언어 환경 데이터와 상기 언어 환경 유형에 따라 언어 환경 모델을 통해 상기 여러 개의 엔티티 노드에 대응하는 벡터 표시를 생성하기 위한 생성 모듈을 포함한다.
본 출원의 제3 측면의 실시예는 전자 기기를 제공한다. 여기에는 적어도 하나의 프로세서 및 상기 적어도 하나의 프로세서와 통신 연결되는 메모리를 포함하되; 여기서, 상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령을 저장한다. 상기 명령은 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서가 제1 측면의 실시예의 지식 그래프의 벡터 표시 생성 방법을 수행할 수 있게 한다.
본 출원의 제4 측면의 실시예는 컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독 가능 저장 매체를 제공한다. 상기 컴퓨터 명령은 상기 컴퓨터가 제1 측면의 실시예와 같은 지식 그래프의 벡터 표시 생성 방법을 수행하는데 사용된다.
본 출원의 제5 측면의 실시예는, 컴퓨터 판독 가능 매체에 저장되어 있는 컴퓨터 프로그램을 더 제공하는바, 상기 컴퓨터 프로그램의 명령이 실행될 경우, 본 출원의 실시예에 의해 공개되는 지식 그래프의 벡터 표시 생성 방법이 실행된다.
본 출원의 제5 측면의 실시예는, 컴퓨터 판독 가능 매체에 저장되어 있는 컴퓨터 프로그램을 더 제공하는바, 상기 컴퓨터 프로그램의 명령이 실행될 경우, 본 출원의 실시예에 의해 공개되는 지식 그래프의 벡터 표시 생성 방법이 실행된다.
상기 출원의 실시예는 하기와 같은 우점이나 유익한 효과를 구비한다. 지식 그래프를 획득하여 지식 그래프에 대응하는 언어 환경 유형과 언어 환경 데이터를 획득한다. 나아가, 언어 환경과 언어 유형에 따라 언어 환경 모델을 통해 여러 개의 엔티티 노드에 대응하는 벡터 표시를 생성한다. 이로하여, 엔티티 벡터 표시를 생성할 경우 엔티티가 처해 있는 언어 환경을 고려한다. 엔티티가 처해 있는 언어 환경이 다르면 획득한 벡터 표시가 다르고 벡터 표시가 복잡한 관계에 대한 모델링 능력을 제고하고, 표시 능력이 더 충분하고, 엔티티가 언어 환경에서의 정교화한 어의 표시를 구현하고 지식 그래프 표시 학습의 정확성을 더 제고한다.
상기 옵션 방식에 구비한 기타 효과는 하기의 글에서 구체적인 실시예와 결합하여 설명한다.
도면은 본 방안을 더 잘 이해하는데 사용되고 본 출원을 한정하려는 것은 아니다. 여기서,
도 1은 본 출원의 실시예에서 제공하는 지식 그래프의 벡터 표시 생성 방법의 흐름도이다.
도 2는 본 출원의 실시예에서 제공하는 다른 지식 그래프의 벡터 표시 생성 방법의 흐름도이다;
도 3은 본 출원의 실시예에서 제공하는 지식 그래프 개략도이다.
도 4는 본 출원의 실시예에서 제공하는 다른 지식 그래프 개략도이다.
도 5는 본 출원의 실시예에서 제공하는 다른 지식 그래프의 벡터 표시 생성 방법의 흐름도이다;
도 6은 본 출원의 실시예에서 제공하는 다른 지식 그래프의 개략도이다;
도 7은 본 출원 실세 예 제공하는 시퀀스 구조 언어 환경 모델을 트레이닝하는 흐름도이다.
도 8은 시퀀스 구조 언어 환경 모델 개략도이다.
도 9는 본 출원의 실시예에서 제공하는 서브 그래프 언어 환경 모델의 흐름도이다;
도 10은 서브 그래프 언어 환경 모델 개략도이다;
도11은 본 출원의 실시예에서 제공하는 지식 그래프의 벡터 표시 생성 장치의 구조 개략도이다.
도 12는 본 출원의 실시예에서 제공하는 다른 지식 그래프의 벡터 표시 생성 장치의 구조 개략도이다.
도 13은 본 출원의 실시예의 예시적 전자 기기을 구현하는데 적용되는 블록도를 도시한다.
도 1은 본 출원의 실시예에서 제공하는 지식 그래프의 벡터 표시 생성 방법의 흐름도이다.
도 2는 본 출원의 실시예에서 제공하는 다른 지식 그래프의 벡터 표시 생성 방법의 흐름도이다;
도 3은 본 출원의 실시예에서 제공하는 지식 그래프 개략도이다.
도 4는 본 출원의 실시예에서 제공하는 다른 지식 그래프 개략도이다.
도 5는 본 출원의 실시예에서 제공하는 다른 지식 그래프의 벡터 표시 생성 방법의 흐름도이다;
도 6은 본 출원의 실시예에서 제공하는 다른 지식 그래프의 개략도이다;
도 7은 본 출원 실세 예 제공하는 시퀀스 구조 언어 환경 모델을 트레이닝하는 흐름도이다.
도 8은 시퀀스 구조 언어 환경 모델 개략도이다.
도 9는 본 출원의 실시예에서 제공하는 서브 그래프 언어 환경 모델의 흐름도이다;
도 10은 서브 그래프 언어 환경 모델 개략도이다;
도11은 본 출원의 실시예에서 제공하는 지식 그래프의 벡터 표시 생성 장치의 구조 개략도이다.
도 12는 본 출원의 실시예에서 제공하는 다른 지식 그래프의 벡터 표시 생성 장치의 구조 개략도이다.
도 13은 본 출원의 실시예의 예시적 전자 기기을 구현하는데 적용되는 블록도를 도시한다.
하기의 도면과 결합하여 본 출원 예시적인 실시예를 설명한다. 여기에는 이해를 돕기 위해 본 출원의 실시예의 여러 세부 사항을 포함하고 실시예들은 단지 예시적인 것으로 간주되어야 한다. 때문에 이 발명에 속하는 기술 분야의 통상의 기술자는 본 출원의 범위 및 사상을 벗어나지 않고 실시예에 여러가지 변경과 수정을 할 수 있다는 것을 인식해야 한다. 동시에 정확성과 간결성을 위해 하기의의 설명에서는 공지 기능과 구조에 대한 설명은 생략한다.
도 1은 본 출원의 실시예에서 제공하는 지식 그래프의 벡터 표시 생성 방법의 흐름도이다. 도1에 도시한 바와 같이 당해 방법은, 하기의 단계를 포함한다.
단계101, 여러 개의 엔티티 노드를 포함하는 지식 그래프를 획득한다.
실제 응용 중, 지식 그래프로 학습을 표시할 경우, 지식 그래프의 벡터 표시를 획득해야 한다. 예를 들면, 지식 그래프 중 이산 부호의 엔티티/관계를 연속 벡터로 표시해야 한다. 본 출원의 실시예에서, 지식 그래프의 벡터 표시를 생성할 경우, 지식 그래프를 먼저 획득할 수 있다.
선택적으로, 지식 그래프는 여러 개의 엔티티 노드와 엔티티 노드 사이의 에지를 포함한다. 실시예로서, 지식 그래프는 엔티티 노드 "인물A"와 "직업B" 및 두개의 엔티티 노드를 연결하는 에지를 포함하고, 엔티티 사이에 "담당 직위"관계를 갖고 있음을 표시한다.
단계102, 지식 그래프에 대응하는 언어 환경 유형과 언어 환경 데이터를 획득한다.
본 실시예에서 지식 그래프에 대응하는 언어 환경 유형을 획득할 수 있고, 언어 환경 유형에 따라 지식 그래프의 언어 환경 데이터를 확정한다. 여기서, 언어 환경 유형은 시퀀스 구조의 언어 환경 유형, 서브 그래프 언어 환경을 포함한다.
하기의, 지식 그래프에 대응하는 언어 환경 유형의 획득에 대해 설명한다.
실시예로서, 지식 그래프의 여러 개의 엔티티 노드의 수를 획득하고; 만약, 지식 그래프에 두개의 엔티티 노드를 포함하면 지식 엔코더에 대응하는 언어 환경 유형이 시퀀스 구조 언어 환경 유형으로 판단되는 단계;; 만약, 지식 그래프에 2개의 엔티티 노드를 초과하면, 지식 그래프에 대응하는 언어 환경 유형이 서브 그래프 언어 환경 유형으로 판단된다.
본 출원의 실시예에서, 지식 그래프에 대응하는 언어 환경 유형을 확정한 후, 서로 다른 언어 환경 유형에 따라 대응하는 방식을 선택하여 지식 그래프의 언어 환경 데이터를 확정한다.
실시예로서, 시퀀스 구조 언어 환경 유형의 지식 그래프에 대해, 지식 그래프의 엔티티 노드 및 엔티티 노드 사이의 에지를 언어 환경 데이터에 첨가한다.
하나의 다른 실시예로서, 서브 그래프 언어 환경 유형의 지식 그래프에 있어서, 지식 그래프의 목적 엔티티 노드를 확정할 수 있고 지식 그래프의 목적 엔티티 노드를 중심으로, 미리 설정된 범위내의 엔티티 노드와 에지를 언어 환경 데이터에 첨가한다.
단계103, 언어 환경 데이터와 언어 환경 유형에 따라 언어 환경 모델을 통해 여러 개의 엔티티 노드에 대응하는 벡터 표시를 생성한다.
본 출원의 실시예에서 언어 환경 유형에 대응하는 언어 환경 모델을 미리 훈련할 수 있다. 여기서, 언어 환경 모델은 언어 환경 데이터로 입력되고 벡터 표시로 출력한다. 이로하여, 언어 환경 데이터를 언어 환경 모델에 입력하는 것을 통해 지식 그래프 중의 여러 개의 엔티티 노드에 대응하는 벡터 표시를 생성한다.
실시예로서, 만약 언어 환경 유형은 시퀀스 구조 언어 환경 유형이면, 시퀀스 구조 언어 환경 모델을 호출하여 언어 환경 데이터에 따라 여러 개의 엔티티 노드에 대응하는 벡터 표시를 생성한다; 만약 언어 환경 유형이 서브 그래프 언어 환경 유형이면, 서브 그래프 구조 언어 환경 모델을 호출하여 언어 환경 데이터에 따라 여러 개의 엔티티 노드에 대응하는 벡터 표시를 생성한다.
이해해야 할 것은, 관련 기술에서 그래프 원소(엔티티 노드와 에지를 포함)는 정적, 고정적인 벡터 표시를 학습한다. 예를 들면, 동일한 엔티티에 있어서, 이에 대응하는 벡터 표시는 같고, 그래프 원소의 언어 환경을 소홀한다. 여기서, 그래프 원소의 언어 환경은 당해 그래프 원소와 기타 그래프 원소가 구성된 연통된 구조를 가리킨다. 본 실시예에서 지식 그래프에 대응하는 언어 환경 유형과 언어 환경 데이터를 획득하고 언어 환경 데이터와 언어 환경 유형에 따라 언어 환경 모델을 통해 여러 개의 엔티티 노드에 대응하는 벡터 표시를 생성한다. 이로하여 동일한 엔티티에 있어서, 엔티티가 처해있는 언어 환경이 다르면 획득한 벡터 표시는 다르다. 예를 들면, 지식 그래프의 엔티티 인물A에 있어서, 서로 다른 환경에서 생성한 벡터 표시는 다르다. 이로하여, 지식 그래프의 여러 개의 엔티티 노드의 벡터 표시를 생성할 경우, 엔티티가 처해 있는 언어 환경를 고려하여 벡터 표시가 복잡한 관계(예를 들면, 1대다수, 다수대대수)에 대한 모델링 능력을 향상하고 표시 능력이 더 충분하다.
본 출원의 실시예의 지식 그래프의 벡터 표시 생성 방법은 지식 그래프의 획득을 통해 지식 그래프에 대응하는 언어 환경 유형과 언어 데이터를 획득한다. 나아가, 언어 데이터와 언어 환경 모델에 여러 개의 엔?K 노드에 대응하는 벡터 표시를 생성한다. 이로 하여, 엔티티의 벡터 표시를 생성할 경우, 엔티티가 처해 있는 언어 환경을 고려하고, 엔티티가 처해 있는 언어 환경이 다르면, 획득한 벡터 표시가 다르고, 벡터 표시가 복잡한 관계에 대한 모델링 능력을 제고하고, 표시 능력이 더 충분하여 엔티티가 언어 환경에서의 정교화한 어의 표시를 구현하고 지식 그래프 표시 학습의 정확성을 더 제고한다.
상기 실시예를 기반으로 하기의 시퀀스 구조 언어 환경 유형을 예로 설명한다.
도 2는 본 출원의 실시예에서 제공하는 다른 지식 그래프의 벡터 표시 생성 방법의 흐름도이다. 도2에 도시한 바와 같이 당해 방법은, 하기의 단계를 포함한다.
단계201, 여러 개의 엔티티 노드를 포함하는 지식 그래프를 획득한다.
단계202, 지식 그래프 중의 여러 개의 엔티티 노드의 수를 획득한다. 만약 지식 그래프 중에 두래의 엔티티 노드를 포함하면, 지식 그래프에 대응하는 언어 환경 유형이 시퀀스 구조 언어 환경 유형으로 판단된다.
본 출원의 실시예에서, 지식 그래프는 두개의 엔티티 노드를 포함한다. 즉 언어 환경 유형을 시퀀스 구조 언어 환경으로 확정한 후, 두개의 엔티티 노드 사이의 에지의 수를 확정할 수 있다. 선택적으로, 두개의 엔티티 노드 사이의 에지의 수를 획득하고 만약 두개의 엔티티 노드 사이의 에지의 수가 1이면, 지식 그래프에 대응하는 언어 환경 유형이 에지 구조 언어 환경 유형으로 판단되는 단계; 만약 두개의 엔티티 노드 사이의 수가 1보다 많으면, 지식 그래프에 대응하는 언어 환경 유형이 경로 구조 언어 환경 유형으로 판단된다.
실시예로서, 도3을 참조하면, 지식 그래프가 엔티티 노드 "인물A"와 "직업B" 및 두개의 엔티티 노드를 연결하는 에지 "담당 직위"를 포함하면, 언어 환경 유형이 에지 구조 언어 환경 유형으로 확정된다.
다른 실시예로, 도 4를 참조하면, 지식 그래프가 엔티티 노드 "인물A"와 "영어" 및 두개의 엔티티 노드를 차례로 연결하는 에지 "딸" , "생활 국가", "공용어"를 포함하면 언어 환경 유형을 경로 구조 언어 환경 유형으로 확정한다.
단계203, 지식 그래프에 대응하는 언어 환경 데이터를 획득한다.
본 출원 시시 예에서, 지식 그래프의 언어 환경 유형은 에지 구조 언어 환경 유형과 경로 구조 언어 환경 유형을 포함하고, 지식 그래프의 언어 환경 유형에 따라 지식 그래프에 대응하는 언어 환경 데이터를 획득한다.
실시예로서, 언어 환경 유형이 에지 구조 언어 환경 유형이면, 지식 그래프에 대응하는 트리플을 모두 언어 환경 데이터에 첨가한다. 예를 들면, 도 3에 도시한 지식 그래프는 대응하는 트리플(인물A, 담당 직위, 직업B)을 언어 환경 데이터에 첨가한한다.
다른 하나의 실시예로서, 언어 환경 유형은 경로 구조 언어 환경 유형이면 지식 그래프에 대응하는 경로를 획득하고, 경로 샘플링의 방식으로 경로의 경로 데이터를 획득하고 경로 데이터와 지식 그래프 중의 엔티티 노드를 언어 환경 데이터에 첨가한다. 예를 들면, 도4에 도시한 지식 그래프와 같이 경로 데이터 "딸", "생활 국가", "공용어"와 엔티티 노드 "인물A,", "영어"를 언어 환경 데이터에 첨가한다. 선택적으로 지식 그래프 중의 에지를 기반으로, 랜덤 워크 샘플링을 통해 대응하는 수의 경로 데이더를 획득한다.
단계204, 언어 환경 데이터에 따라 시퀀스 구조 언어 환경 모델을 통해 여러 개의 엔티티 노드에 대응하는 벡터 표시를 생성한다.
본 출원의 실시예에서, 지식 그래프에 대응하는 언어 환경 유형이 시퀀스 구조의 언어 환경 유형이고, 지식 그래프의 언어 환경 데이터를 획득한 후, 언어 환경 데이터를 미리 훈련한 시퀀스 구조 언어 환경 모델에 입력하고 처리하여 여러 개의 엔티티 노드에 대응하는 벡터 표시를 생성한다.
본 출원의 실시예의 지식 그래프의 벡터 표시 생성 방법은 시퀀스 구조 언어 환경 유형의 지식 그래프가 대응하는 언어 환경 데이터를 획득하여 언어 환경 데이터에 따라 지식 그래프 중의 여러 개의 엔티티 노드의 벡터 표시를 생성한다. 지식 그래프 중의 여러 개의 엔티티 노드의 벡터 표시를 생성할 경우, 엔티티가 처해 있는 언어 환경을 고려하고, 표시 능력이 더 충분하다.
상기 실시예를 기반으로, 하기의의 서브 그래프 언어 환경 유형을 예로 설명한다.
도 5는 본 출원의 실시예에서 제공하는 다른 하나의 지식 그래프의 벡터 표시 생성 방법의 흐름도이다. 도5에 도시한 바와 같이 당해 방법은, 하기의 단계를 포함한다.
단계501, 여러 개의 엔티티 노드를 포함하는 지식 그래프를 획득한다.
단계502, 지식 그래프 중의 여러 개의 엔티티 노드의 수를 획득하고 만약 지식 그래프 중에는 두개의 엔티티 노드를 초과하면 지식 그래프에 대응하는 언어 환경 유형이 자도서브 그래프 언어 환경 유형으로 판단된다..
실시예로서, 도6을 참조하면 지식 그래프가 엔티티 노드 "인물A", "인물B", "인물C", "인물D" 및 에지 "딸", "아내"를 포함하면 언어 환경 유형을 서브 그래프 언어 환경 유형으로 확정한다.
단계503, 지식 그래프에 대응하는 언어 환경 데이터를 획득한다.
본 출원의 실시예에서, 하기와 같은 방법으로 언어 환경 데이터를 획득한다.
S1, 지식 그래프에 대응하는 엔티티 노드 집합을 생성하고; S2, 엔티티 노드 집합에서 제1 초기 엔티티 노드를 추출하고, 워크 반경d를 생성하고; S3, 제1 초기 엔티티 노드를 중심으로, 워크 반경d가 지식 그래프 위에서의 워크로 제1 초기 엔티티 노드를 중심으로 하는 d계단 서브 그래프를 확정하고, 제1 초기 엔티티 노드를 중심으로 하는 d계단 서브 그래프를 언어 환경 데이터에 추가한다; S4, 엔티티 노드 집합의 엔티티 노드가 추출을 완성하기까지 단계S2와 S3을 반복적으로 실행한다.
선택적으로, 미리 설정된 범위(예를 들면1-Dmax)에서 랜덤 샘플링하는 방법을 통해 워크 반경d를 생성할 수 있다. 제1 초기 엔티티 노드를 중심으로 한 d계단 서브 그래프를 획득한 후, 당해 서브 그래프 중의 에지를 보완할 수도 있다.
단계504, 언어 환경 데이터에 따라 서브 그래프 언어 환경 유형을 통해 여러 개의 엔티티 노드에 대응하는 벡터 표시를 생성한다.
본 출원의 실시예에서 지식 그래프에 대응하는 언어 환경 유형이 서브 그래프 언어 환경 유형이고, 지식 그래프의 언어 환경 데이터를 획득한 후, 언어 환경 데이터를 미리 훈련한 서브 그래프 언어 환경 모델에 입력하여 처리하여 여러 개의 엔티티 노드에 대응하는 벡터 표시를 생성한다.
본 출원의 실시예의 지식 그래프의 벡터 표시는 서브 그래프 언어 환경 유형의 지식 그래프에 대해 대응하는 언어 환경 데이터를 획득할 수 있고, 언어 환경 데이터에 따라 지식 그래프 중의 여러 개의 엔티티 노드의 벡터 표시를 생성하고, 지식 그래프 중의 여러 개의 엔티티 노드의 벡터 표시를 생성할 경우, 엔티티가 처해 있는 언어 환경을 고려하고 표시 능력이 더 충분하다.
상기 실시예를 기반으로, 하기의에는 시퀀스 구조 언어 환경 모델을 훈련하는데에 대해 설명한다.
도7은 본 출원의 실시예에서 제공하는 하나의 시퀀스 구조 언어 환경 모델을 훈련하는 흐름도이다. 도7에 도시한 바와 같이, 하기의 단계를 포함한다.
단계701, 지식 그래프에는 엔티티 노드와 에지를 포함하는 지식 그래프를 획득한다.
본 출원의 실시예에서, 시퀀스 구조 언어 환경 모델을 훈련할 경우, 샘플 지식 그래프를 획득할 수 있다. 여기서, 샘플 지식 그래프은 엔티티 노드와 에지를 포함한다. 예를 들면, 언어 환경 유형이 시퀀스 구조 언어 환경인 지식 그래프를 획득하여 샘플 지식 그래프로 한다.
단계702, 테이블 검색 조작을 통해 샘플 지식 그래프 중의 엔티티 노드와 에지의 제1 벡터 표시 및 샘플 지식 그래프 중의 엔티티 노드와 에지의 위치 정보의 제2 벡터 표시를 획득한다.
본 출원의 실시예에서, 테이블 검색 조작을 통해 엔티티 노드의 벡터 표시 및 에지의 벡터 표시를 획득하여 제1 벡터 표시로 한다. 그리고 테이블 검색 조작을 통해 엔티티 노드가 시퀀스에서의 위치 정보에 대응하는 벡터 표시 및 에지가 시퀀스 중의 위치 정보에 대응하는 벡터 표시를 획득하여 제2 벡터 표시로 한다.
단계703, 제1 벡터 표시와 제2 벡터 표시를 미리 설정된 모델에 입력하고 처리하여 샘플 지식 그래프 중의 각 엔티티 노드에 대응하는 제3 벡터 표시를 획득한다.
본 출원 시시 예에서, 엔티티 노드와 에지를 모두 미리 설정된 모델의 입력으로 한다. 예를 들면, 엔티티 노드/에지에 대응하는 제1 벡터 표시와 제2 벡터 표시를 합하여 미리 설정된 모델의 입력으로 한다.
즉, , 여기서, 은 테이블 검색 조작을 통해 획득한 엔티티/에지의 벡터 표시(당해 테이블의 수치는 모델 훈련에서 부단히 최적화 및 업데이트될 수 있다.)이다. 는 테이블 검색 조작을 통해 획득한 엔티티/에지이 시퀀스에서의 위치 정보에 의해 얻은 벡터 표시이다. 는 i번째의 입력이다.
본 출원의 실시예에서, 미리 설정된 모델이 트래스 포머(Transformer)모델이고 를 미리 설정된 모델에 모두 입력하고 L층 트래스 포머 모델을 통해 처리하고 제L 층에서 출력한 벡터 표시에 따라 제3 벡터 표시를 확정한다. 즉 당해 언어 환경 중의 각 엔티티 노드의 제3 벡터 표시 는,
설명해야 할 것은 Transformer모델에 의해 계산하여 벡터 표시를획득하는 구체적인 구현 방식은 관련 기술에 의해 구현될 수 있고 여기서는 더이상 설명하지 않는다.
단계704, 제3 벡터 표시에 따라 엔티티 분류 예측을 하고 예측 결과에 따라 미리 설정된 모델의 처리 파라미터를 조정하고 시퀀스 구조 언어 환경 모델을 훈련한다.
본 출원의 실시예에서, 엔티티 노드의 제3 벡터 표시를 획득한 후, 피드-포워드 신경망(FFNN)와 softmax함수에 따라 제3 벡터 표시를 처리하고, 각 예측 효과의 확률 분포P(o)=softmax(FFNN())를 획득한다. 이로하여, 엔티티 노드에 대응하는 실제 결과 확률치를 최대화하여 모델의 파라미터 최적화를 수행한다.
실시예로서, 엔티티 노드가 "영어"이고 획득한 각 예측 결과에는 영어, 프랑스어, 일본어 등을 포함하고 모델 파라미터를 조정하는 것을 통해 예측 결과 중의 영어의 확률이 제일 크게 되어 시퀀스 구조 언어 환경 모델을 훈련한다.
실시예로서, 도 8을 참조하고 도 4에 도시한 지식 그래프를 예로, 엔티티 노드 "인물A", "영어" 및 에지 "딸", "생활 국가", "공용어"를 미리 설정된 모델의 입력으로 정하고, 차단 위치를 엔티티 노드 "영어"가 있는 곳으로 확정하고, L층 트레스 포머 모델을 통해 처리하고, 차단 위치에서 출력한 제3 벡터 표시를 획득하고 제3 벡터 표시에 따라 각 예측 결과의 확률 분포를 획득하고, 엔티티 노드에 대응하는 실제 결과의 확률치를 최대화하는 것을 통해 모델의 파라미터 최적화를 수행한다. 나아가, 차단 위치를 엔티티 노드 "인물A"가 있는 위치로 설정하여 훈련한다.
이로하여, 차단 언어 환경 중의 엔티티 노드를 통해 미리 설정된 모델을 통해 차단한 엔티티 노드를 예측하고, 예측 결과와 실제 결과를 비교하고, 비교한 결과에 따라 미리 설정된 모델의 파라미터를 예측 결과와 실제 결과가 일치할 때 까지 조정하여 시퀀스 구조 언어 환경 모델을 훈련하는 것을 구현한다.
본 출원의 실시예에서, 시퀀스 구조 언어 환경 모델을 훈련할 수 있어 시퀀스 구조 언어 환경 모델의 입력이 언어 환경 데이터이고 엔티티 노드에 대응하는 벡터 표시로 출력할 수 있다.
상기 실시예를 기반으로, 하기의에서는 서브 그래프 언어 환경 모델에 대해 설명한다. 도9에서 도시한 바와 같이 하기의 단계를 포함한다.
단계901, 엔티티 노드의 에지를 포함하는 샘플 지식 그래프를 획득한다.
본 출원의 실시예에서, 시퀀스 구조 언어 환경 모델을 훈련할 경우, 샘플 지식 그래프를 획득할 수 있다. 여기서 샘플 지식 그래프에는 엔티티 노드와 에지를 포함한다. 예를 들면, 언어 환경 유형이 서브 그래프 언어 환경 유형인 지식 그래프를 획득하여 샘플 지식 그래프로 정할 수 있다.
단계902, 테이블 검색 조작을 통해 샘플 지식 그래프 중의 엔티티 노드의 노드 벡터를 획득하고 노드 벡터를 미리 설정된 모델에 입력하여 처리하고, 샘플 지식 그래프 중의 각 엔티티 노드에 대응하는 제4 벡터 표시를 획득한다.
본 출원의 실시예에서 엔티티 노드를 미리 설정된 모델의 입력으로 하고, 즉, 테이블 검색 조작을 통해 샘플 지식 그래프 중의 엔티티 노드의 노드 벡터를 획득하고, 노드 벡터를 미리 설정된 모델에 입력하여 처리하고, 샘플 지식 그래프 중의 각 엔티티 노드에 대응하는 제4 벡터 표시를 획득한다.
즉, ,이 노드 벡터이고 가 i번째 입력이다. 설명해야 할 것은 상기 실시예 중의 제1 벡터 표시를 획득하는 해석 설명은 본 출원의 실시예에서 획득한 노드 벡터에도 적용하여 여기서 더는 설명하지 안는다.
본 출원의 실시예에서, 미리 설정된 모델이 트래스 포머(Transformer)모델이고 노드 벡터를 미리 설정된 모델에 모두 입력하고, L층 트래스 포머(Transformer) 모델을 통해 처리하고, 제L 층에서 출력한 벡터 표시에 따라 제4 벡터 표시를 확정한다. 즉 당해 언어 환경 중의 각 엔티티 노드의 제3 벡터 표시 는,
여기서, 엔티티 사이의 관련 행렬을 획득하고, 관련 행렬에 따라 각 엔티티 노드부터 기타 엔티티 노드까지의 어텐션 계산의 접근성을 제어한다. 이로하여, 서브 그래프 구조의 데이터를 지지할 수 있다.
실시예로서, 단계1: 모델head의 개수를 지식 그래프 중 관계 카테고리의 개수R로 설정하고, 각 에지 관계하의 벡터 표시 Query(Q)/Kery(K)/Value(V)를 획득한다.
여기서, l은 현재의 층수를 표시하고, r은 제r head를 표시하고, H는 당해 층의 입력 노드 벡터를 표시하며, ,와는 대응하는 가중 행렬이 제1 층의 제r head에서의 가중 파라미터이고, 상기 가중 파라미터는 모델에서 학습하여 획득할 수 있다.
단계2: 각 노드가 기타 노드에 대한 어텐션(attention)을 계산하고, attention을 계산할 경우, 특정 관계r하의 엔티티 노드 사이의 관련 행렬을 사용하여 각 노드부터 기타 엔티티 노드까지의 어텐션 계산의 접근성을 제어한다. 즉:
여기서, 는 어텐션 벡터의 차원 파라미터(예를 들면, 일반적인 값이64이다)이다. 는 관계r하에서 서브 그래프 중 각 엔티티 노드 사이의 관련 행렬이고, 각 원소의 값은0 또는1이고, =1은 서브 그래프 중, i번째 엔티티 노드가 관계r을 통해 제j 개 엔티티 노드에 연통된다. 즉(노드i, r, 노드j)트리플가 성립되고; 그렇지 않으면 =0이다.
단계903, 제4 벡터 표시에 따라 엔티티 분류 예측을 하고 예측 결과에 따라 미리 설정된 모델의 처리 파라미터를 조정하여 서브 그래프 구조 언어 환경 모델을 훈련한다.
본 출원의 실시예에서, 엔티티 노드의 제4 벡터 표시를 획득한 후, 피드-포워드 신경망(FFNN)와 softmax함수에 따라 제4 벡터 표시를 처리하고, 각 예측 결과의 확률 분포P(o)=softmax(FFNN())를 획득한다. 나아가, 엔티티 노드에 대응하는 실제 결과 확률치를 최대화하는 것을 통해 모델의 파라미터 최적화를 수행한다.
실시예로서, 엔티티 노드가 "영어"이고 획득한 각 예측 결과에는 영어, 프랑스어, 일본어 등을 포함하고, 모델 파라미터를 조정하여 예측 결과 중의 영어의 확률이 제일 크게 되어 시퀀스 구조 언어 환경 모델을 훈련한다.
실시예로서, 도 10을 참조하면, 도6에 도시한 지식 그래프를 예로 들어, 엔티티 노드 "인물A", "인물B", "인물C", "인물D"를 미리 설정된 모델의 입력으로 하고 차단 위치가 엔티티 노드 "인물A"가 있는 위치임을 확정하고 L층 트래스 포머 모델로 처리하고, 차단 위치가 출력한 제4 벡터 표시를 획득하고, 제4 벡터 표시에 따라 각 예측 결과의 확률 분포를 획득하고, 엔티티 노드에 대응하는 실제 결과의 확률치를 최대화하는 것을 통해 모델의 파라미터 최적화를 수행한다. 나아가 차단 위치를 엔티티 노드"인물B"가 있는 위치로 설정하여 훈련한다.
본 출원의 실시예에서, 서브 그래프 언어 환경 모델을 훈련할 수 있어 서브 그래프 언어 환경 모델의 입력이 언어 환경 데이터이고, 출력이 엔티티 노드에 대응하는 벡터 표시이며, 서브 그래프 구조의 데이터를 지지할 수 있다.
설명해야 할 것은 상기 시퀀스 구조 언어 환경 모델과 서브 그래프 언어 환경 모델은 테이블 검색 조직에 대응하는 테이블을 공유할 수 있다. 때문에 서로 다른 언어 환경 데이터는 엔티티 표시 학습에 대해 공동 영향을 미치므로 엔티티는 각종 언어 환경 데이터를 충분히 학습할 수 있다.
상기 실시예를 구현하기 위해 본 출원은 지식 그래프의 벡커 표시 생성 장치를 제공한다.
도 11은 본 출원의 실시예에서 제공하는 지식 그래프의 벡터 표시 생성 장치의 구조 개략도이다. 도 11에 도시한 바와 같이 당해 장치는, 획득 모듈(10), 프로세싱 모듈(20), 생성 모듈(30)을 포함한다.
여기서, 획득 모듈(10)은 여러 개의 엔티티 노드를 포함하는 지식 그래프를 획득하는데 사용된다.
프로세싱 모듈(20)은 지식 그래프에 대응하는 언어 환경 유형과 언어 환경 데이터를 획득하는데 사용된다.
생성 모듈(30)은 언어 환경 데이터와 언어 환경 유형에 따라 언어 환경 모듈을 통해 여러 개의 엔티티 노드에 대응하는 벡터 표시를 생성하는데 사용된다.
선택적으로, 프로세싱 모듈(20)은 구체적으로 지식 그래프 중의 상기 여러 개의 엔티티 노드의 수를 획득하고; 만약, 지식 그래프에 2개의 엔티티 노드를 포함하면 지식 엔코더에 대응하는 언어 환경 유형이 시퀀스 구조 언어 환경 유형으로 판단되고; 만약, 지식 그래프에 2개의 엔티티 노드를 초과하면 지식 그래프에 대응하는 언어 환경 유형이 자도서브 그래프 언어 환경 유형으로 판단된다.
선택적으로, 지식 그래프에 대응하는 언어 환경 유형은 서브 그래프 언러 환경 유형이면, 프로세싱 모듈(20)은 구체적으로, S1, 지식 그래프에 대응하는 엔티티 노드 집합을 생성하고; S2, 상기 엔티티 노드 집합에서 제1 초기 엔티티 노드를 추출하고, 워크 반경d를 생성한다; S3, 상기 제1 초기 엔티티 노드를 중심으로, 워크 반경d가 지식 그래프 위에서의 워크로 제1 초기 엔티티 노드를 중심으로 하는 d계단 서브 그래프를 확정하고, 제1 초기 엔티티 노드를 중심으로 하는 d계단 서브 그래프를 언어 환경 데이터에 추가한다; S4, 엔티티 노드 집합의 엔티티 노드가 추출을 완성하기까지 단계S2와 S3을 반복적으로 실행한다.
선택적으로, 지식 그래프에 대응하는 언어 환경 유형이 에지 구조 언어 환경 유형이면, 프로세싱 모듈(20)은 구체적으로, 지식 그래프에 대응하는 트리플을 모드 상기 언어 환경 데이터에 모두 첨가한다.
선택적으로, 지식 그래프에 대응하는 언어 환경 유형이 경로 구조 언어 환경 유형이면, 프로세싱 모듈(20)은 구체적으로, 지식 그래프에 대응하는 경로를 획득하고; 경로 샘플링의 방식으로 경로의 경로 데이터를 획득하고; 경로 데이터와 지식 그래프 중의 엔티티 노드를 언어 환경 데이터에 접입한다.
선택적으로, 언어 환경 모델은 시퀀스 구조 언어 환경 모델과 서브 그래프 구조 언어 환경 모델을 포함한다. 생성 모듈(30)은 구체적으로 만약 언어 환경 유형은 시퀀스 구조 언어 환경 유형이면, 시퀀스 구조 언어 환경 모델을 호출하여 언어 환경 데이터에 따라 여러 개의 엔티티 노드에 대응하는 벡터 표시를 생성한다; 만약 언어 환경 유형이 서브 그래프 언어 환경 유형이면, 서브 그래프 구조 언어 환경 모델을 호출하여 언어 환경 데이터에 따라 여러 개의 엔티티 노드에 대응하는 벡터 표시를 생성한다.
도 11을 기반으로 도 12에 도시한 장치는 판단 모듈(40), 제1 훈현 모듈(50), 제2 훈련 모듈(60)을 더 포함한다.
여기서, 판단 모듈(40)은 만약 판단하는 지식 그래프에 대응하는 언어 환경 유형이 시퀀스 구조 언어 환경 유형이면, 두개의 엔티티 노드 사이의 에지의 수를 획득하고; 만약 두개의 엔티티 노드 사이의 에지의 수가 1이면, 지식 그래프에 대응하는 언어 환경 유형이 에지 구조 언어 환경 유형으로 판단되고; 만약 두개의 엔티티 노드 사이의 수가 1보다 많으면, 지식 그래프에 대응하는 언어 환경 유형이 경로 구조 언어 환경 유형으로 판단된다.
제1 훈련 모듈(50)은 샘플 지식 그래프를 획득하는데 사용된다. 상기 샘플 지식 그래프는 엔티티 노드와 에지를 포함한다; 테이블 검색 조작을 통해 샘플 지식 그래프 중의 엔티티 노드와 에지의 제1 벡터 표시 및 샘플 지식 그래프 중의 엔티티 노드와 에지의 위치 정보의 제2 벡터 표시를 획득한다; 상기 제1 벡터 표시와 제2 벡터 표시를 미리 설정된 모델에 입력하여 처리하고, 상기 지식 그래프 중의 각 엔티티 노드에 대응하는 제3 벡터 표시를 획득하고; 제3 벡터 표시에 따라 엔티티 분류 예측을 하고 예측 결과에 따라 상기 미리 설정된 모델의 처리 파라미터를 조정하고 상기 시퀀스 구조 언어 환경 모델을 훈련한다.
제2 훈련 모듈(60)은 샘플 지식 그래프를 획득하는데 사용되고, 상기 샘플 지식 그래프에는 엔티티 노드와 에지를 포함하고; 테이블 검색 조작을 통해 샘플 지식 그래프 중의 엔티티 노드의 노드 벡터를 획득하고, 상기 노드 벡터를 미리 설정된 모델에 입력하여 처리하고 샘플 지식 그래프 중의 각 엔티티 노드에 대응하는 제4 벡터 표시를 획득한다. 여기서, 관련 행렬을 획득하고 관련 행렬에 따라 각 엔티티 노드부터 기타 엔티티 노드까지의 어텐션 계산의 접근성을 제어한다; 제4 벡터 표시에 따라 엔티티 분류 예측을 하고, 예측 결과에 따라 미리 설정된 모델의 처리 파라미터를 조정하여 서브 그래프 구조 언어 환경 모델을 훈련한다.
설명해야 할 것은, 상기 실시예에서 지식 그래프의 벡터 표시 생성 방법에 대한 해석 설명은 본 실시예의 지식 그래프의 벡터 표시 생성 장치에도 적용되어 여기서는 더 설명하지 않는다.
본 출원의 실시예의 지식 그래프의 벡터 표시 생성 장치는 지식 그래프를 획득하는 것을 통해 지식 그래프에 대응하는 언어 환경 유형과 언어 환경 데이터를 획득한다. 나아가, 언어 환경과 언어 유형에 따라 언어 환경 모델을 통해 여러 개의 엔티티 노드에 대응하는 벡터 표시를 생성한다. 이로하여, 엔티티 벡터 표시를 생성할 경우 엔티티가 처해 있는 언어 환경을 고려한다. 엔티티가 처해 있는 언어 환경을 고려하고 엔티티가 처해 있는 언어 환경이 다르면 획득한 벡터 표시가 다르고 벡터 표시가 복잡한 관계에 대한 모델링 능력을 제고하고 표시 능력이 더 충분하여 엔티티가 언어 환경에서의 정교화한 어의 표시를 구현하고 지식 그래프 표시 학습의 정확성을 더 제고한다.
상기 실시예를 구현하기 위해, 본 출원은 컴퓨터 프로그램 제품을 제공한다. 컴퓨터 프로그램 제품 중의 명령이 프로세서에 실행될 경우, 상기 임의의 실시예의 지식 그래프의 벡터 표시 생성 방법을 구현할 수 있다.
본 출원의 실시예에 의해 본 출원은 전자 기기와 판독 가능 저장 메체를 제공한다.
도 13에 도시한 바와 같이, 이는 본 출원의 실시예의 지식 그래프의 벡터 표시 생성 방법의 전자 기기 블록로이다. 전자 기기는 여러 형식의 티지털 컴퓨터를 나타내려 한다. 예를 들면, 랩톱 컴퓨터, 데스크톱 컴퓨터, 워크데스크, 개인 정보 단말(PAD), 서버, 블레이드 서버, 메인 프레임 및 기타 적합한 컴퓨터. 전자 기기는 여러 형식의 모바일 장치를 나타내려 한다. 예를 들면 개인 정보 단말(PAD), 휴대폰, 스마트 폰, 웨어러블 기기 및 기타 유사한 컴퓨팅 장치. 본 출원에 나타난 컴포넌트, 이들의 연결와 관계, 및 기능은 단지 예시적인 것 뿐이며 본 출원에 나타난 설명 을 한정/또는 본 출원의 구현을 요구하려는 것은 아니다.
도13에 도시한 바와 같이, 당해 전자 기기에는, 하나 또는 여러 개의 프로세서(1301), 메모리(1302) 및 각 컴포넌트를 연결하는 인터페이스, 고속 인터페이스와 저속 인터페이스을 포함한다. 각 컴포넌트는 서로 다른 모선을 이용하여 서로 연결하고 공동 메인보드에 설치될 수 있고 수요에 의해 기타 방식으로 설치될 수도 있다. 프로세서는 메모리에 저장된 명령 또는 프로세서 외부의 입력 / 출력 장치 (예를 들면, 인터페이스에 연결된 디스플레이 기기)에 GUI의 그래픽 정보를 나타내는 명령을 포함한 전자 기기 내에 실행한 명령을 처리할 수 있다. 기타 실시 방식 중, 필요하다면, 여러 프로세서 및/또는 여러 모선을 여러 메모리와 같이 사용할 수 있다. 마찬가지로, 여러 전자 기기를 연결할 수 있고 각각의 전자 기기는 필요 동작(예를 들면, 서버 어레이, 블레이드 서버 또는 여러 프로세서 시스템)을 제공하는다. 도13 중의 프로세서(1301)로 예를 든다.
메모리(1302)는 본 출원에서 제공하는 비일시적 컴퓨터 판독 가능 저장 매체이다. 여기서, 상기 메모리는 적어도 하나의 프로세서로 실행한 명령을 저장할 수 있어 상기 적어도 하나의 프로세서가 본 출원에서 제공하는 지식 그래프의 벡터 표시 생성 방법을 실행할 수 있게 한다. 본 출원의 비일시적 컴퓨터 판독 가능 저장 매체는 컴퓨터 명령이 저장되고, 당해 컴퓨터 명령은 컴퓨터로 하여 본 출원에서 제공하는 공유 엔코더 생성 방법을 실행하는데 사용된다.
메모리(1302)는 비일시적 컴퓨터 판독 가능 저장 매체로서, 비일시적 소프트웨어 프로그램을 저장하는데 사용되고 프로그램 및 모듈을 실행하는데 사용된다. 예를 들면, 본 출원의 실시예 중의 지식 그래프의 벡퍼 표시 생성 방법에 대응하는 프로그램 명령/모듈(예를 들면, 도면11에 도시한 바와 같은 획득 모듈[10], 처리 모듈[20], 생성 모듈[30]). 프로세서(1301)는 메모리(1302)에 저장한 비일시적 소프트웨어 프로그램, 명령 및 모듈을 통해 서버의 여러 기능 응용 및 데이터 처리를 실행한다. 즉 상기 방법 실시예의 지식 그래프의 벡터 표시 생성 방법을 구현한다.
메모리(1302)는 프로그램 저장 구역과 데이터 저장 구역을 포함할 수 있다. 여기서, 프로그램 저장 구역은 동작 시스템, 적어도 하나의 기능이 수요한 응용 프로그램을 저장할 수 있다; 데이터 저장 구역에는 공유 엔코더는 공유 엔코더 생성 방법에 의한 전자 기기의 사용에 창립한 데이터 등을 저장할 수 있다. 이 외에 메모리(1302)은 고속 랜덤 램을 포함할 수 있고 비일시적 메모리를 포함할 수도 있다. 예를 들면, 적어도 하나의 디스크 메모리, 플래시 메모리 컴포넌트 또는 기타 비일시적 고태 메모리 컴포넌트. 일부 실시예에서, 메모리(1302)는 프로세서(1301)에 원거리 설정을 한 메모리를 포함할 수 있다. 이 원거리 메모리들은 네트워크를 통해 공유 엔코더 생성 방법의 전자 기기에 연결할 수 있다. 상기 네트워크의 실시예는 인터넷, 인트라넷, 랜, 모바일 통신망 및 조합에 포함하나 한정되지 않는다.
지식 그래프의 벡터 표시 생성 방법의 전자 기기에는, 입력 장치(1303)와 출력 장치(1304)를 더 포함한다. 프로세서(1301), 메모리(1302), 입력 장치(1303)와 출력 장치(1304)는 모선 또는 기타 연결 방식으로 연결할 수 있다. 도13 중, 모선을 통해 연결한 것을 예로.
입력 장치(1303)은 입력한 수자 또는 문자 부호 정보 및 공유 엔코더를 생성 전자 기기의 사용사 설정 및 기능 제어에 관련되는 키 신호 입력을 접수할 수 있다. 예를 들면 터치 스크린, 키패드, 마우스, 트랙 패드, 터치 패드, 인디케이터, 하나 또는 여러개의 마우스 버튼, 트랙 볼, 조이스틱등 입력 장치. 출력 장치(1304)는 디스플레이 기기, 보조 조명 장치 (예를 들면, LED), 촉각 피드백 장치 (예를 들면, 진동 모터) 등을 포함 할 수 있다. 당해 디스플레이 기기는 액정 디스플레이 (LCD), 발광 다이오드 (LED) 디스플레이 및 플라즈마 디스플레이를 포함 할 수 있으나 이에 한정되지 않는다. 일부 실시예에서, 디스플레이 장치는 터치 스크린 일 수 있다.
본 출원의 실시예에 따르면, 컴퓨터 판독 가능 매체에 저장되어 있는 컴퓨터 프로그램을 더 제공한다. 당해 컴퓨터 프로그램의 명령이 실행될 경우, 상기 지식 그래프의 벡터 표시 생성 방법이 실행된다.
본 출원의 실시예에 따르면, 컴퓨터 판독 가능 매체에 저장되어 있는 컴퓨터 프로그램을 더 제공한다. 당해 컴퓨터 프로그램의 명령이 실행될 경우, 상기 지식 그래프의 벡터 표시 생성 방법이 실행된다.
여기서 설명한 시스템과 기술의 각 실시 방식은 디지털 전자 회로 시스템, 집적 회로 시스템, 전용 집적 회로(전용 ASIC), 컴퓨터의 하드웨어, 펌웨어, 소프트웨어 및/또는 그들의 조합으로 구현한다. 상기 실시 방식에는, 하나 또는 여러 컴퓨터 프로그램에 실시하고 당해 하나 또는 여러 개의 컴퓨터 프로그램은 적어도 하나의 프로그래밍 가능한 프로세서의 프로그래밍 가능한 시스템에서 실행 및/또는 해석하고 당해 프로그래밍 가능한 프로세서는 전용 또는 통용 프로그래밍 가능한 프로세서일 수 있으며 저장 시스템에서 적어도 하나의 입력 장치, 적어도 하나의 출력 장치에서 데이터와 지령을 접수할 수 있고 데이터와 명령을 당해 저장 시스템, 적어도 하나의 입력 장치, 적어도 하나의 출력 장치에 전송한다.
상기 컴퓨터 프로그램(프로그램, 어플리케이션 또는 코드라고 한다. )에는 프로그래밍 가능한 프로세서의 기계어 명령을 포함하고 고급 과정 및/또는 오버젝트에 향한 프로그래밍 언어 및/또는 어셈블리 언어/기계어를 이용하여 상기 컴퓨터 프로그햄을 실시할 수 있다. 분 출원에 사용한 바와 같이, 술어 "기계 판독 가능 매체"와 "컴퓨터 판독 가능 매체"는 기계 명령 및/또는 기계 데이터를 프로그래밍 가능한 프로세서의 임의의 컴퓨터 프로그램 제품, 기기 및/또는 장치(자기 디스크, 시디 롬, 메모리, 프로그래밍 가능한 장치[PLD])에 제공하는데 사용된다. 이는 기계 판독 가능 신호의 기계 명령을 접수하는 기계 판독 가능 매체를 포함한다. 술어 "기계 판독 가능 신호"는 기계 명령 및/또는 데이터를 프로그래밍 가능한 임의의 신호에 제공하는데 사용된다.
사용자와의 상효 작용을 제공하기 위해 컴퓨너에 상기 설명한 시스템과 기술을 실시할 수 있다. 상기 컴퓨터에는, 사용자에게 정보를 나타내는 디스플레이 장치(예를 들면, CRT[cathode ray tube])또는 LCD[액정 디스플레이]모니터); 및 키보드와 지향 장치(예를 들면 마우스 또는 트랙볼), 사용자는 당해 키보드롸 당해 지향 장치를 통해 입력을 컴퓨터에 제공하는다. 기타 종류의 장치는 사용자와의 상호 작용을 제공할 수 있다; 예를 들면, 사용자에게 제공하는 피드백은 임의의 형식의 감지 피드백(예를 들면, 시각 피드백, 청각 피드백 또는 촉각 피드백)일 수 있고; 임의의 형식(목소리 입력, 음성 입력 또는 촉각 입력)으로 사용자한테서 입력을 접수한다.
여기서 설명한 시스템과 기술을 백스테이지 컴포넌트의 컴퓨터 시스템(예를 들면, 데이터 서버), 또는 중간 컴포넌트의 컴퓨팅 시스템(예를 들면, 응용 서버), 또는 전단 컴포넌트의 컴퓨팅 시스템(예를 들면, 도형 사용자 인터페이스 또는 웹 브라우저를 구비한 사용자 컴퓨터, 사용자는 당해 도형 사용자 인터페이스 또는 당해 웹 브라우저를 통해 상기 설명한 시스템과 기술의 실시 방식에 상호 작용할 수 있다.) 또는 이런 백스테이지 컴포넌트, 중간 컴포넌트 또는 전단 컴포넌트의 임의의 조합을 포함한 컴퓨팅을 포함한 시스템에 실시할 수 있다. 임의의 형식 또는 매체의 디지털 데이터 통신(예를 들면, 통신 네트워크)으로 시스템의 컴포넌트를 상호 연결한다. 통신 네트워크의 예시에는, 랜(LAN), 광역 통신망(WAN)과 인터넷을 포함한다.
컴퓨터 시스템은 클라이언트와 서버를 포함할 수 있다. 클라이언트와 서버는 서로 멀리 있고 통상 통신 네트워크를 통해 상호 작용한다. 해당 컴퓨터를 통해 운행하고 클라이언트-서버 관계을 구비하고 있는 컴퓨터 프로그램으로 클라이언트와 서버의 관계를 생성한다.
본 출원의 실시예의 기술 방안에 의해 획득한 후보 프레임의 위치가 더 정확하여 밀집 장면 지식 그래프의 벡터 표시 생성, 후보 프레임을 획득하는 정확도을 제고해야 할 문제를 해결하여 지식 그래프의 벡터 표시 생성의 정확도를 제고한다.
이해해야 할 것은, 상기 여러 형식의 흐름에 의해, 단계를 재정열, 추가 또는 삭제할 수 있다. 예를 들면, 본 출원에 기재한 각 단계는 병행하여 실행할 수도 서로 다른 순서로 실행할 수도 있다. 본 출원 공개한 기술 방안이 원하는 결과만 구현할 수 있으면 본 출원에서는 이에 한정하지 않는다.
상기 구체적인 실기 방식은 본 출원의 보호 범위에 대한 한정을 구성하지 않습니다. 이 발명이 속하는 기술 분야의 통상의 기술자는 설계 요구 및 기타 요소에 의해 여러가지 수정, 조합, 서브 조합 및 대체가 이루어질 수 있음을 이해해야한다. 본 출원의 정신과 원칙 내에서 이루어진 모든 수정, 동등한 대체 및 개선은 본 출원 보호 범위에 포함된다.
Claims (21)
- 지식 그래프의 벡터 표시 생성 장치에 의해 실행되는 지식 그래프의 벡터 표시 생성 방법에 있어서,
여러 개의 엔티티 노드를 포함하는 지식 그래프를 획득하는 단계;
상기 지식 그래프에 대응하는 언어 환경 유형과 언어 환경 데이터를 획득하는 단계; 및
상기 언어 환경 데이터와 상기 언어 환경 유형에 따라 언어 환경 모델을 통해 상기 여러 개의 엔티티 노드에 대응하는 벡터 표시를 생성하는 단계;를 포함하고,
상기 지식 그래프에 대응하는 언어 환경 유형을 획득하는 단계는,
상기 지식 그래프 중의 상기 여러 개의 엔티티 노드의 수를 획득하는 단계;
상기 지식 그래프 중에 두개의 엔티티 노드를 포함하면, 상기 지식 그래프에 대응하는 언어 환경 유형이 시퀀스 구조 언어 환경 유형으로 판단되는 단계;
상기 지식 그래프 중에 엔티티 노드가 두개를 초과하면, 상기 지식 그래프에 대응하는 언어 환경 유형이 서브 그래프 언어 환경 유형으로 판단되는 단계를 포함하고,
상기 지식 그래프에 대응하는 언어 환경 유형이 서브 그래프 언어 환경 유형이고, 상기 지식 그래프에 대응하는 언어 환경 데이터를 획득하는 단계는,
S1, 상기 지식 그래프에 대응하는 엔티티 노드 집합을 생성하고;
S2, 상기 엔티티 노드 집합에서 제1 초기 엔티티 노드를 추출하고, 워크 반경d를 생성하고;
S3, 상기 제1 초기 엔티티 노드를 중심으로, 상기 워크 반경d가 지식 그래프 위에서의 워크로 제1 초기 엔티티 노드를 중심으로 하는 d계단 서브 그래프를 확정하고, 제1 초기 엔티티 노드를 중심으로 하는 d계단 서브 그래프를 언어 환경 데이터에 추가하며;
S4, 엔티티 노드 집합의 엔티티 노드가 추출을 완성하기까지 단계S2와 S3을 반복적으로 실행하는 단계를 포함하는
것을 특징으로 하는 지식 그래프의 벡터 표시 생성 방법. - 제1항에 있어서,
상기 지식 그래프에 대응하는 언어 환경 유형이 시퀀스 구조 언어 환경 유형으로 판단되면,
상기 두개의 엔티티 노드 사이의 에지의 수를 획득하는 단계;
상기 두개의 엔티티 노드 사이의 에지의 수가 1이면, 상기 지식 그래프에 대응하는 언어 환경 유형이 에지 구조 언어 환경 유형으로 판단되는 단계;
상기 두개의 엔티티 노드 사이의 에지의 수가 1보다 많으면, 상기 지식 그래프에 대응하는 언어 환경 유형이 경로 구조 언어 환경 유형으로 판단되는 단계를 더 포함하는
것을 특징으로 하는 지식 그래프의 벡터 표시 생성 방법. - 제2항에 있어서,
상기 지식 그래프에 대응하는 언어 환경 유형이 에지 구조 언어 환경 유형이고, 상기 지식 그래프에 대응하는 언어 환경 데이터를 획득하는 단계는,
상기 지식 그래프에 대응하는 트리플을 상기 언어 환경 데이터에 모두 첨가하는 단계를 포함하는
것을 특징으로 하는 지식 그래프의 벡터 표시 생성 방법. - 제2항에 있어서,
상기 지식 그래프에 대응하는 언어 환경 유형이 경로 구조 언어 환경 유형이고, 상기 지식 그래프에 대응하는 언어 환경 데이터를 획득하는 단계는,
상기 지식 그래프에 대응하는 경로를 획득하는 단계;
경로 샘플링의 방식으로 상기 경로의 경로 데이터를 획득하고 상기 경로 데이터와 지식 그래프 중의 엔티티 노드를 상기 언어 환경 데이터에 접입하는 단계를 포함하는
것을 특징으로 하는 지식 그래프의 벡터 표시 생성 방법. - 제1항에 있어서,
상기 언어 환경 모델이 시퀀스 구조 언어 환경 모델과 서브 그래프 구조 언어 환경 모델을 포함하고, 상기 언어 환경 데이터와 상기 언어 환경 유형에 따라 언어 환경 모델을 통해 상기 여러 개의 엔티티 노드에 대응하는 벡터 표시를 생성하는 단계는,
상기 언어 환경 유형이 시퀀스 구조 언어 환경 유형이면, 상기 시퀀스 구조 언어 환경 모델을 호출하여 상기 언어 환경 데이터에 따라 상기 여러 개의 엔티티 노드에 대응하는 벡터 표시를 생성하는 단계;
상기 언어 환경 유형이 서브 그래프 언어 환경 유형이면, 상기 서브 그래프 구조 언어 환경 모델을 호출하여 언어 환경 데이터에 따라 상기 여러 개의 엔티티 노드에 대응하는 벡터 표시를 생성하는 단계를 포함하는
것을 특징으로 하는 지식 그래프의 벡터 표시 생성 방법. - 제5항에 있어서,
상기 시퀀스 구조 언어 환경 모델은 하기의 단계로 훈련하여 획득하고, 상기 단계는,
엔티티 노드와 에지를 포함하는 샘플 지식 그래프를 획득하는 단계-;
테이블 검색 조작을 통해 상기 샘플 지식 그래프 중의 엔티티 노드와 에지의 제1 벡터 표시 및 샘플 지식 그래프 중의 엔티티 노드와 에지의 위치 정보의 제2 벡터 표시를 획득하는 단계;
상기 제1 벡터 표시와 상기 제2 벡터 표시를 미리 설정된 모델에 입력하여 처리하고, 상기 지식 그래프 중의 각 엔티티 노드에 대응하는 제3 벡터 표시를 획득하는 단계;
제3 벡터 표시에 따라 엔티티 분류 예측을 하고, 예측 결과에 따라 상기 미리 설정된 모델의 처리 파라미터를 조정하고, 상기 시퀀스 구조 언어 환경 모델을 훈련하는 단계인
것을 특징으로 하는 지식 그래프의 벡터 표시 생성 방법. - 제5항에 있어서,
상기 서브 그래프 구조 언어 환경 모델은 하기의 단계로 훈련하여 획득하고, 상기 단계는,
엔티티 노드와 에지를 포함하는 샘플 지식 그래프를 획득하는 단계;
테이블 검색 조작을 통해 상기 샘플 지식 그래프 중의 엔티티 노드의 노드 벡터를 획득하고, 상기 노드 벡터를 미리 설정된 모델에 입력하여 처리하고, 상기 샘플 지식 그래프 중의 각 엔티티 노드에 대응하는 제4 벡터 표시를 획득하는 단계 -
관련 행렬을 획득하고 관련 행렬에 따라 각 엔티티 노드부터 기타 엔티티 노드까지의 어텐션 계산의 접근성을 제어함 -;
제4 벡터 표시에 따라 엔티티 분류 예측을 하고, 예측 결과에 따라 상기 미리 설정된 모델의 처리 파라미터를 조정하여 서브 그래프 구조 언어 환경 모델을 훈련하는 단계인
것을 특징으로 하는 지식 그래프의 벡터 표시 생성 방법. - 지식 그래프의 벡터 표시 생성 장치에 있어서,
여러 개의 엔티티 노드를 포함하는 지식 그래프를 획득하기 위한 획득 모듈,;
상기 지식 그래프에 대응하는 언어 환경 유형과 언어 환경 데이터를 획득하기 위한 프로세싱 모듈; 및
상기 언어 환경 데이터와 상기 언어 환경 유형에 따라 언어 환경 모델을 통해 상기 여러 개의 엔티티 노드에 대응하는 벡터 표시를 생성하기 위한 생성 모듈을 포함하고,
상기 프로세싱 모듈은 구체적으로,
상기 지식 그래프 중의 여러 개의 엔티티 노드의 수를 획득하고;
상기 지식 그래프 중에 두개의 엔티티 노드를 포함하면, 상기 지식 그래프에 대응하는 언어 환경 유형이 시퀀스 구조 언어 환경 유형으로 판단되고;
상기 지식 그래프 중에 엔티티 노드가 두개를 초과하면, 상기 지식 그래프에 대응하는 언어 환경 유형이 서브 그래프 언어 환경 유형으로 판단되고,
상기 지식 그래프에 대응하는 언어 환경 유형이고, 상기 프로세싱 모듈은 구체적으로,
S1, 상기 지식 그래프에 대응하는 엔티티 노드 집합을 생성하고;
S2, 상기 엔티티 노드 집합에서 제1 초기 엔티티 노드를 추출하고, 워크 반경d를 생성하고;
S3, 상기 제1 초기 엔티티 노드를 중심으로, 워크 반경d가 지식 그래프 위에서의 워크로 제1 초기 엔티티 노드를 중심으로 하는 d계단 서브 그래프를 확정하고, 제1 초기 엔티티 노드를 중심으로 하는 d계단 서브 그래프를 언어 환경 데이터에 추가하며;
S4, 엔티티 노드 집합의 엔티티 노드가 추출을 완성하기까지 단계S2와 S3을 반복적으로 실행하는
것을 특징으로 하는 지식 그래프의 벡터 표시 생성 장치. - 제8항에 있어서,
지식 그래프에 대응하는 언어 환경 유형이 시퀀스 구조 언어 환경 유형으로 판단되면, 두개의 엔티티 노드 사이의 에지의 수를 획득하고;
두개의 엔티티 노드 사이의 에지의 수가 1이면, 지식 그래프에 대응하는 언어 환경 유형이 에지 구조 언어 환경 유형으로 판단되고;
두개의 엔티티 노드 사이의 에지의 수가 1보다 많으면, 지식 그래프에 대응하는 언어 환경 유형이 경로 구조 언어 환경 유형으로 판단되는 판단 모듈을 더 포함하는
것을 특징으로 하는 지식 그래프의 벡터 표시 생성 장치. - 제9항에 있어서,
상기 지식 그래프에 대응하는 언어 환경 유형이 에지 구조 언어 환경 유형이고, 상기 프로세싱 모듈은 구체적으로,
상기 지식 그래프에 대응하는 트리플을 상기 언어 환경 데이터에 모두 첨가하는
것을 특징으로 하는 지식 그래프의 벡터 표시 생성 장치. - 제9항에 있어서,
상기 지식 그래프에 대응하는 언어 환경 유형이 경로 구조 언어 환경 유형이면, 상기 프로세싱 모듈은 구체적으로,
상기 지식 그래프에 대응하는 경로를 획득하고;
경로 샘플링의 방식으로 상기 경로의 경로 데이터를 획득하고 상기 경로 데이터와 지식 그래프 중의 엔티티 노드를 상기 언어 환경 데이터에 접입하는
것을 특징으로 하는 지식 그래프의 벡터 표시 생성 장치. - 제8항에 있어서,
상기 언어 환경 모델은 시퀀스 구조 언어 환경 모델과 서브 그래프 구조 언어 환경 모델을 포함하고, 상기 생성 모듈은 구체적으로,
상기 언어 환경 유형이 시퀀스 구조 언어 환경 유형이면, 상기 시퀀스 구조 언어 환경 모델을 호출하여 상기 언어 환경 데이터에 따라 상기 여러 개의 엔티티 노드에 대응하는 벡터 표시를 생성하고;
상기 언어 환경 유형이 서브 그래프 언어 환경 유형이면, 상기 서브 그래프 구조 언어 환경 모델을 호출하여 언어 환경 데이터에 따라 여러 개의 엔티티 노드에 대응하는 벡터 표시를 생성하는
것을 특징으로 하는 지식 그래프의 벡터 표시 생성 장치. - 제12항에 있어서,
엔티티 노드와 에지를 포함하는 샘플 지식 그래프를 획득하고;
테이블 검색 조작을 통해 상기 샘플 지식 그래프 중의 엔티티 노드와 에지의 제1 벡터 표시 및 샘플 지식 그래프 중의 엔티티 노드와 에지의 위치 정보의 제2 벡터 표시를 획득하고;
상기 제1 벡터 표시와 상기 제2 벡터 표시를 미리 설정된 모델에 입력하여 처리하고, 상기 지식 그래프 중의 각 엔티티 노드에 대응하는 제3 벡터 표시를 획득하고;
제3 벡터 표시에 따라 엔티티 분류 예측을 하고 예측 결과에 따라 미리 설정된 모델의 처리 파라미터를 조정하고, 시퀀스 구조 언어 환경 모델을 훈련하기 위한 제1 훈련 모듈을 더 포함하는
것을 특징으로 하는 지식 그래프의 벡터 표시 생성 장치. - 제12항에 있어서,
엔티티 노드와 에지를 포함하는 샘플 지식 그래프를 획득하고;
테이블 검색 조작을 통해 상기 샘플 지식 그래프 중의 엔티티 노드의 노드 벡터를 획득하고, 상기 노드 벡터를 미리 설정된 모델에 입력하여 처리하고, 샘플 지식 그래프 중의 각 엔티티 노드에 대응하는 제4 벡터 표시를 획득하고;
관련 행렬을 획득하고 관련 행렬에 따라 각 엔티티 노드부터 기타 엔티티 노드까지의 어텐션 계산의 접근성을 제어하며;
제4 벡터 표시에 따라 엔티티 분류 예측을 하고, 예측 결과에 따라 상기 미리 설정된 모델의 처리 파라미터를 조정하여 서브 그래프 구조 언어 환경 모델을 훈련하기 위한 제2 훈련 모듈을 더 포함하는
것을 특징으로 하는 지식 그래프의 벡터 표시 생성 장치. - 전자 기기에 있어서,
적어도 하나의 프로세서; 및
상기 적어도 하나의 프로세서와 통신 연결되는 메모리를 포함하되,
상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되고, 상기 명령은 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서가 제1항 내지 제7항 중의 어느 한 항의 지식 그래프의 벡터 표시 생성 방법을 수행하도록 하는
것을 특징으로 하는 전자 기기. - 컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독 가능 저장 매체에 있어서,
상기 컴퓨터 명령은 상기 컴퓨터가 제1항 내지 제7항 중의 어느 한 항의 지식 그래프의 벡터 표시 생성 방법을 수행하도록 하는
것을 특징으로 하는 컴퓨터 명령의 비일시적 컴퓨터 판독 가능 저장 매체. - 컴퓨터 판독 가능 저장 매체에 저장되어 있는 컴퓨터 프로그램에 있어서,
상기 컴퓨터 프로그램의 명령이 실행될 경우, 제1항 내지 제7항 중 어느 한 항의 방법이 실행되는
것을 특징으로 하는 컴퓨터 판독 가능 저장 매체에 저장되어 있는 컴퓨터 프로그램. - 삭제
- 삭제
- 삭제
- 삭제
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910950874.6A CN110795569B (zh) | 2019-10-08 | 2019-10-08 | 知识图谱的向量表示生成方法、装置及设备 |
CN201910950874.6 | 2019-10-08 | ||
PCT/CN2020/083547 WO2021068468A1 (zh) | 2019-10-08 | 2020-04-07 | 知识图谱的向量表示生成方法、装置及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20210043493A KR20210043493A (ko) | 2021-04-21 |
KR102604959B1 true KR102604959B1 (ko) | 2023-11-22 |
Family
ID=69440099
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020207036656A KR102604959B1 (ko) | 2019-10-08 | 2020-04-07 | 지식 그래프의 벡터 표시 생성 방법, 장치 및 기기 |
Country Status (6)
Country | Link |
---|---|
US (1) | US11995560B2 (ko) |
EP (1) | EP4044045A4 (ko) |
JP (1) | JP7262571B2 (ko) |
KR (1) | KR102604959B1 (ko) |
CN (1) | CN110795569B (ko) |
WO (1) | WO2021068468A1 (ko) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110795569B (zh) | 2019-10-08 | 2021-06-15 | 北京百度网讯科技有限公司 | 知识图谱的向量表示生成方法、装置及设备 |
CN111626044B (zh) * | 2020-05-14 | 2023-06-30 | 北京字节跳动网络技术有限公司 | 文本生成方法、装置、电子设备及计算机可读存储介质 |
CN111737484A (zh) * | 2020-05-15 | 2020-10-02 | 浙江工业大学 | 一种基于联合学习的警情知识图谱构建方法 |
CN112052680B (zh) * | 2020-10-14 | 2023-01-10 | 腾讯科技(深圳)有限公司 | 问题生成方法、装置、设备及存储介质 |
CN112580716B (zh) * | 2020-12-16 | 2023-07-11 | 北京百度网讯科技有限公司 | 图谱中边类型的识别方法、装置、设备及存储介质 |
CN112948592A (zh) * | 2021-02-26 | 2021-06-11 | 平安科技(深圳)有限公司 | 基于人工智能的订单分级方法、装置、设备及存储介质 |
CN113590777B (zh) * | 2021-06-30 | 2024-09-06 | 北京百度网讯科技有限公司 | 文本信息处理方法、装置、电子设备和存储介质 |
CN113569773B (zh) * | 2021-08-02 | 2023-09-15 | 南京信息工程大学 | 基于知识图谱和Softmax回归的干扰信号识别方法 |
CN113673249B (zh) * | 2021-08-25 | 2022-08-16 | 北京三快在线科技有限公司 | 实体识别方法、装置、设备及存储介质 |
CN114817424A (zh) * | 2022-05-27 | 2022-07-29 | 中译语通信息科技(上海)有限公司 | 一种基于语境信息的图表征方法和系统 |
CN118132681B (zh) * | 2024-04-30 | 2024-09-13 | 支付宝(杭州)信息技术有限公司 | 医疗知识图谱查询中对多个查询结果的排序方法和装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110147414A (zh) | 2019-05-23 | 2019-08-20 | 北京金山数字娱乐科技有限公司 | 一种知识图谱的实体表征方法及装置 |
Family Cites Families (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5830784B2 (ja) * | 2011-06-23 | 2015-12-09 | サイバーアイ・エンタテインメント株式会社 | 画像認識システムを組込んだ関連性検索によるインタレスト・グラフ収集システム |
CN106339401A (zh) * | 2015-07-16 | 2017-01-18 | 富士通株式会社 | 确定实体之间的关系的方法和设备 |
CN106227794B (zh) * | 2016-07-20 | 2019-09-17 | 北京航空航天大学 | 时态图数据中动态属性数据的存储方法和装置 |
US10515400B2 (en) * | 2016-09-08 | 2019-12-24 | Adobe Inc. | Learning vector-space representations of items for recommendations using word embedding models |
US10482336B2 (en) * | 2016-10-07 | 2019-11-19 | Noblis, Inc. | Face recognition and image search system using sparse feature vectors, compact binary vectors, and sub-linear search |
US11176188B2 (en) * | 2017-01-11 | 2021-11-16 | Siemens Healthcare Gmbh | Visualization framework based on document representation learning |
KR101914853B1 (ko) * | 2017-02-08 | 2018-11-02 | 경북대학교 산학협력단 | 논리적 속성이 반영된 지식 그래프 임베딩 방법 및 시스템, 이를 수행하기 위한 기록매체 |
US20180232443A1 (en) * | 2017-02-16 | 2018-08-16 | Globality, Inc. | Intelligent matching system with ontology-aided relation extraction |
US11481603B1 (en) * | 2017-05-19 | 2022-10-25 | Wells Fargo Bank, N.A. | System for deep learning using knowledge graphs |
CN108959328B (zh) | 2017-05-27 | 2021-12-21 | 株式会社理光 | 知识图谱的处理方法、装置及电子设备 |
US11176325B2 (en) | 2017-06-26 | 2021-11-16 | International Business Machines Corporation | Adaptive evaluation of meta-relationships in semantic graphs |
CN108052625B (zh) * | 2017-12-18 | 2020-05-19 | 清华大学 | 一种实体精细分类方法 |
US11042922B2 (en) * | 2018-01-03 | 2021-06-22 | Nec Corporation | Method and system for multimodal recommendations |
CN108153901B (zh) * | 2018-01-16 | 2022-04-19 | 北京百度网讯科技有限公司 | 基于知识图谱的信息推送方法和装置 |
US11797838B2 (en) | 2018-03-13 | 2023-10-24 | Pinterest, Inc. | Efficient convolutional network for recommender systems |
CN108920527A (zh) * | 2018-06-07 | 2018-11-30 | 桂林电子科技大学 | 一种基于知识图谱的个性化推荐方法 |
CN109189882A (zh) * | 2018-08-08 | 2019-01-11 | 北京百度网讯科技有限公司 | 序列内容的回答类型识别方法、装置、服务器和存储介质 |
CN109165278B (zh) * | 2018-09-07 | 2021-11-09 | 桂林电子科技大学 | 一种基于实体和关系结构信息的知识图谱表示学习方法 |
CN109271516B (zh) * | 2018-09-26 | 2020-09-15 | 清华大学 | 一种知识图谱中实体类型分类方法及系统 |
CN112740238A (zh) | 2018-09-28 | 2021-04-30 | 三菱电机株式会社 | 推理装置、推理方法和推理程序 |
CN109739995B (zh) | 2018-12-21 | 2022-12-09 | 中国银联股份有限公司 | 一种信息处理方法及装置 |
CN109902145B (zh) * | 2019-01-18 | 2021-04-20 | 中国科学院信息工程研究所 | 一种基于注意力机制的实体关系联合抽取方法和系统 |
US10902203B2 (en) * | 2019-04-23 | 2021-01-26 | Oracle International Corporation | Named entity disambiguation using entity distance in a knowledge graph |
CN110795569B (zh) | 2019-10-08 | 2021-06-15 | 北京百度网讯科技有限公司 | 知识图谱的向量表示生成方法、装置及设备 |
-
2019
- 2019-10-08 CN CN201910950874.6A patent/CN110795569B/zh active Active
-
2020
- 2020-04-07 EP EP20767703.0A patent/EP4044045A4/en active Pending
- 2020-04-07 US US17/043,227 patent/US11995560B2/en active Active
- 2020-04-07 JP JP2021515601A patent/JP7262571B2/ja active Active
- 2020-04-07 KR KR1020207036656A patent/KR102604959B1/ko active IP Right Grant
- 2020-04-07 WO PCT/CN2020/083547 patent/WO2021068468A1/zh unknown
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110147414A (zh) | 2019-05-23 | 2019-08-20 | 北京金山数字娱乐科技有限公司 | 一种知识图谱的实体表征方法及装置 |
Non-Patent Citations (2)
Title |
---|
Feng et al. "GAKE: Graph aware knowledge embedding." Proceedings of the 26th International Conference on Computational Linguistics (COLING 2016): Technical Papers. 2016.* |
Wang et al. "Knowledge graph embedding: A survey of approaches and applications." IEEE Transactions on Knowledge and Data Engineering 29.12 (2017): 2724-2743.* |
Also Published As
Publication number | Publication date |
---|---|
CN110795569A (zh) | 2020-02-14 |
US11995560B2 (en) | 2024-05-28 |
KR20210043493A (ko) | 2021-04-21 |
WO2021068468A1 (zh) | 2021-04-15 |
JP2022505015A (ja) | 2022-01-14 |
JP7262571B2 (ja) | 2023-04-21 |
CN110795569B (zh) | 2021-06-15 |
EP4044045A4 (en) | 2023-07-19 |
EP4044045A1 (en) | 2022-08-17 |
US20230103430A1 (en) | 2023-04-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102604959B1 (ko) | 지식 그래프의 벡터 표시 생성 방법, 장치 및 기기 | |
KR102484617B1 (ko) | 이종 그래프 노드를 표현하는 모델 생성 방법, 장치, 전자 기기, 저장 매체 및 프로그램 | |
KR102677454B1 (ko) | 이벤트 아규먼트 추출 방법, 장치, 및 전자 기기 | |
CN111259671B (zh) | 文本实体的语义描述处理方法、装置及设备 | |
CN110619053A (zh) | 实体关系抽取模型的训练方法和抽取实体关系的方法 | |
KR20220002051A (ko) | 텍스트 내의 이벤트 추출 방법, 장치, 전자 기기, 및 저장 매체 | |
WO2022000802A1 (zh) | 深度学习模型的适配方法、装置及电子设备 | |
CN111582479B (zh) | 神经网络模型的蒸馏方法和装置 | |
US20210200813A1 (en) | Human-machine interaction method, electronic device, and storage medium | |
CN111563593B (zh) | 神经网络模型的训练方法和装置 | |
KR20200119873A (ko) | 시스템 강화 학습 방법 및 장치, 전자 기기, 컴퓨터 저장 매체 | |
CN111079945B (zh) | 端到端模型的训练方法及装置 | |
CN111144108A (zh) | 情感倾向性分析模型的建模方法、装置和电子设备 | |
US11216615B2 (en) | Method, device and storage medium for predicting punctuation in text | |
KR102606514B1 (ko) | 유사도 처리 방법, 장치, 서버, 저장 매체 및 컴퓨터 프로그램 | |
JP7262519B2 (ja) | 質問の答えの決定方法、装置、機器及び記憶媒体 | |
CN112507101A (zh) | 一种建立预训练语言模型的方法和装置 | |
CN111859995A (zh) | 机器翻译模型的训练方法、装置、电子设备及存储介质 | |
JP7241122B2 (ja) | スマート応答方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム | |
CN111325000B (zh) | 语言生成方法、装置及电子设备 | |
KR102683574B1 (ko) | 맵 상의 종착지를 결정하는 방법, 기기 및 저장매체 | |
KR20230006601A (ko) | 정렬 방법, 정렬 모델의 트레이닝 방법, 장치, 전자 기기 및 매체 | |
CN112580723B (zh) | 多模型融合方法、装置、电子设备和存储介质 | |
KR20210136140A (ko) | 얼굴 인식 모델의 훈련 방법, 장치, 전자설비 및 저장 매체 | |
EP3958183A1 (en) | Deep learning model adaptation method and apparatus and electronic device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
AMND | Amendment | ||
E902 | Notification of reason for refusal | ||
AMND | Amendment | ||
E601 | Decision to refuse application | ||
AMND | Amendment | ||
X701 | Decision to grant (after re-examination) | ||
GRNT | Written decision to grant |