KR20200096133A - 데이터 모델을 구축하는 방법, 장치, 기기 및 매체 - Google Patents

데이터 모델을 구축하는 방법, 장치, 기기 및 매체 Download PDF

Info

Publication number
KR20200096133A
KR20200096133A KR1020200007880A KR20200007880A KR20200096133A KR 20200096133 A KR20200096133 A KR 20200096133A KR 1020200007880 A KR1020200007880 A KR 1020200007880A KR 20200007880 A KR20200007880 A KR 20200007880A KR 20200096133 A KR20200096133 A KR 20200096133A
Authority
KR
South Korea
Prior art keywords
attribute
type
pair
data model
attribute pair
Prior art date
Application number
KR1020200007880A
Other languages
English (en)
Other versions
KR102354127B1 (ko
Inventor
자오유 왕
야빙 시
하이진 량
예 지앙
양 장
용 주
Original Assignee
베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. filed Critical 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Publication of KR20200096133A publication Critical patent/KR20200096133A/ko
Application granted granted Critical
Publication of KR102354127B1 publication Critical patent/KR102354127B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/231Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Animal Behavior & Ethology (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Algebra (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 개시의 실시예는 데이터 모델을 구축하는 방법, 장치, 기기 및 매체에 관한 것이다. 데이터 모델을 구축하는 방법은 엔티티 유형에 연관되는 제1 속성 집합을 획득하는 단계를 포함한다. 당해 방법은 제1 속성 집합중의 같은 의미를 가지는 복수의 속성을 동일한 속성으로 정렬함으로써, 당해 엔티티 유형에 연관되는 제2 속성 집합을 생성하는 단계 - 제2 속성 집합중의 2개의 속성은 서로 다른 의미를 가짐 - 를 더 포함한다. 당해 방법은 당해 엔티티 유형과 제2 속성 집합에 따라 당해 엔티티 유형에 연관되는 데이터 모델을 구축하는 단계를 더 포함한다. 본 개시의 실시예는 서로 다른 소스에서 오는 데이터에서 서로 다른 표현 방식을 가지는 같은 의미의 속성을 자동으로 인식할 수 있다. 같은 의미의 속성을 자동으로 정렬함으로써, 본 개시의 실시예는 인건 비용을 효과적으로 절감하면서 고효율적으로 데이터 모델을 구축할 수 있다.

Description

데이터 모델을 구축하는 방법, 장치, 기기 및 매체{METHOD, APPARATUS AND DEVICE FOR CONSTRUCTING DATA MODEL, AND MEDIUM}
본 개시의 실시예는 컴퓨터 분야에 관한 것으로, 더 구체적으로 데이터 모델을 구축하는 방법, 장치, 기기 및 컴퓨터 판독가능 저장 매체에 관한 것이다.
지식 그래프는 지식 베이스(knowledge base)라고도 하는데, 이는 현실 세계에 존재하는 다양한 엔티티(entity)와 개념, 그들 사이의 관계 및 그들 각각의 속성을 설명하는데 사용된다. 현재, 지식 그래프는 검색, 인공 지능, 딥러닝 등 분야에 광법위하게 응용되고 있다. 지식 그래프에서 schema를 사용하여 어느 한 분야를 설명하는 데이터 모델은, 당해 분야의 엔티티 유형, 당해 엔티티 유형에 연관되는 속성을 포함한다. 엔티티 유형 '인물'을 예로 드는 경우, 그 속성은 신장, 체중, 연령 등을 포함할 수 있다. 여기서 말하는 '속성'은 '서술어(predicate)'로 지칭될 수도 있다.
어느 한 분야의 schema를 구축하기 위하여서는, 부동한 소스의 데이터로부터 엔티티 유형에 연관되는 속성을 마이닝하고 귀납하는 것이 필요하다. 그러나, 데이터의 다중 원천성과 이질성 및 표현 방식의 다양성으로 인해, 마이닝된 속성의 표현 방식이 복잡해지고 다양해질 수 있다.
본 개시의 예시적인 실시예에 따르면, 데이터 모델을 구축하는 기술안이 제공된다.
본 개시의 제1 측면으로, 데이터 모델을 구축하는 방법이 구축된다. 당해 방법은 엔티티 유형에 연관되는 제1 속성 집합을 획득하는 단계를 포함한다. 당해 방법은 제1 속성 집합중의 같은 의미를 가지는 복수의 속성을 동일한 속성으로 정렬함으로써, 당해 엔티티 유형에 연관되는 제2 속성 집합을 생성하는 단계 - 제2 속성 집합중의 2개의 속성은 서로 다른 의미를 가짐 - 를 더 포함한다. 당해 방법은 당해 엔티티 유형과 제2 속성 집합에 따라 당해 엔티티 유형에 연관되는 데이터 모델을 구축하는 단계를 더 포함한다.
본 개시의 제2 측면으로, 데이터 모델을 구축하는 장치가 제공된다. 당해 장치는, 엔티티 유형에 연관되는 제1 속성 집합을 획득하도록 구성되는 속성 획득 모듈; 제1 속성 집합중의 같은 의미를 가지는 복수의 속성을 동일한 속성으로 정렬함으로써, 당해 엔티티 유형에 연관되는 제2 속성 집합을 생성하도록 구성되는 속성 정렬 모듈-제2 속성 집합중의 2개의 속성은 서로 다른 의미를 가짐-; 및 당해 엔티티 유형과 제2 속성 집합에 따라 당해 엔티티 유형에 연관되는 데이터 모델을 구축하도록 구성되는 모델 구축 모듈;을 포함한다.
본 개시의 제3 측면으로, 데이터 모델을 구축하는 기기를 제공한다. 당해 기기는 하나 또는 복수의 프로세서; 및 하나 또는 복수의 프로그램을 저장하는 저장 장치; 를 포함하는바, 당해 하나 또는 복수의 프로그램이 하나 또는 복수의 프로세서에 의해 실행될 경우, 당해 하나 또는 복수의 프로세서가 본 개시의 제1 측면의 방법을 구현한다.
본 개시의 제4 측면으로, 컴퓨터 프로그램이 저장되어 있는 컴퓨터 판독가능 저장 매체가 제공되는바, 당해 프로그램이 프로세서에 의해 실행될 경우, 본 개시의 제1 측면에 따른 방법을 구현한다.
발명 내용 부분에서 설명하는 내용은 본 개시의 실시예의 핵심 또는 중요 특징을 한정하기 위한 것이 아니며 본 개시의 범위를 제한하기 위한 것도 아님을 이해하여야 한다. 본 개시의 기타 특징은 이하의 설명을 통하여 이해하기 쉽게 될 것이다.
첨부 도면을 결부하고 이하 상세한 설명을 참조하면, 본 개시의 각 실시예의 상술한 및 기타의 특징, 이점 및 측면은 더욱 분명해질 것이다. 첨부 도면에서, 동일 또는 유사한 도면 부호는 동일 또는 유사한 요소를 표시한다.
도 1은 본 개시의 실시예에 따른 예시 시스템의 블록도를 나타낸다.
도 2는 본 개시의 실시예에 따른 데이터 모델을 구축하는 방법의 흐름도를 나타낸다.
도 3은 본 개시의 실시예에 따른 제1 유형 속성 쌍과 제2 유형 속성 쌍이 같은 의미를 가지는지 여부를 결정하는 예시 모듈의 블록도를 나타낸다.
도 4는 본 개시의 실시예에 따른 데이터 모델을 구축하는 장치의 블록도를 나타낸다.
도 5는 본 개시의 실시예를 실시 가능한 컴퓨팅 기기의 블록도를 나타낸다.
아래, 첨부 도면을 참조하여 본 개시의 실시예에 대해 더 상세하게 설명하고자 한다. 비록 첨부 도면에 본 개시의 어떤 실시예가 도시되었지만, 본 개시는 여러 가지 형식으로 구현 가능한 것으로, 여기서 서술하는 실시예에 한정되는 것으로 해석되어서는 안되고, 반대로, 이러한 실시예를 제공하는 것은 본 개시를 더욱 투철하게 그리고 완전하게 이해시키기 위한 것임을 이해하여야 한다. 본 개시의 첨부 도면 및 실시예는 예시적 작용을 위한 것으로, 본 개시의 보호 범위를 제한하기 위한 것이 아님을 이해하여야 한다.
본 개시의 실시예의 설명에서, 전문 용어 '포함' 및 그 유사 용어는 개방적 포괄, 즉, '포함하나, 이에 한정되지 않음'으로 이해하여야 한다. 전문 용어 '에 따라'는 '적어도 부분적으로 ...에 따라'로 이해하여야 한다. 전문 용어 '하나의 실시예' 또는 '당해 실시예'는 '적어도 하나의 실시예'로 이해하여야 한다. 전문 용어 '제1', '제2' 등은 부동한 또는 동일한 대상을 지칭할 수 있다. 후술은 또한, 기타의 명확한 및 묵시적인 정의를 포함할 수 있다.
상술한 바와 같이, 어느 한 분야의 지식 그래프를 구축하기 위해서는, 당해 분야에서의 schema의 구축이 필요한바, 따라서 부동한 소스의 데이터로부터 엔티티 유형에 연관되는 속성을 마이닝하고 귀납하는 것이 필요하다. 그러나, 데이터의 다중 원천성과 이질성 및 표현 방식의 다양성으로 인해 마이닝된 속성의 표현 방식이 복잡해지고 다양해질 수 있다.
일부 전통적인 해결안은 수동의 방식으로 schema 내의 엔티티 속성을 편집함으로써 schema의 구축을 구현한다. 당해 기술안은 효율이 낮으며 데이터 양이 방대하고, 표현 방식이 다양한 상황에는 적응이 불가능하다. 다른 전통적인 해결 기술안은 기계 학습 모델을 이용하여 빅데이터로부터 엔티티 유형에 연관되는 속성 집합을 마이닝하고 정제한다. 그러나 이러한 기술안에서 이용되는 특징은 통상적으로 보다 단일한바, 강건성이 저하되고 정확률도 낮다.
본 개시의 실시예에 따르면, 데이터 모델을 구축하는 기술안이 제공된다. 당해 기술안은 기계 학습 모델을 빌어 서로 다른 소스에서 오는 데이터에서 서로 다른 표현 방식을 가지는 같은 의미의 속성을 인식한다. 같은 의미의 속성을 판단하는 과정에서 풍부한 여러 가지 차원의 특징이 사용되므로, 당해 기술안은 보다 높은 정확률과 보다 높은 강건성을 구현할 수 있다. 같은 의미의 속성을 자동으로 정렬함으로써, 당해 기술안은 인건 비용을 효과적으로 절감하면서, 고효율적으로 데이터 모델을 구축할 수 있다.
아래 첨부 도면을 참조하여 본 개시의 실시예를 구체적으로 설명하고자 한다. 여기서 도 1은 본 개시의 실시예에 따른 예시 시스템(100)의 블록도를 나타낸다. 도 1에 도시한 바와 같이, 예시 시스템(100)은 전반적으로 모델 구축 장치(120)를 포함할 수 있다. 도 1은 단지 시스템(100)의 구조와 기능을 설명하기 위한 예시의 목적을 위한 것일 뿐, 본 개시의 범위에 대한 어떠한 한정을 암시하는 것이 아니라는 것을 이해하여야 한다. 본 개시의 실시예는 또한 부동한 구조 및/또는 기능을 구비하는 환경에 응용될 수 있다.
모델 구축 장치(120)는 복수의 데이터 소스로부터 엔티티 유형(111)에 연관되는 입력 데이터(110)를 획득할 수 있다. 도 1에 도시한 바와 같이, 입력 데이터(110)는 예를 들어 엔티티 유형(111), 엔티티 유형(111)에 연관되는 초기 속성 집합(112) 및 엔티티 유형(111)에 연관되는 한 그룹의 지식 항목(knowledge entry)(113)을 포함할 수 있다. 엔티티 유형(111)의 예시는 예를 들어 인물, 영화와 텔레비전, 전기 기구 또는 장소 등일 수 있다. 속성 집합(112)은 예를 들어 엔티티 유형(111)에 연관되는 분류나 처리를 거치지 않은 한 그룹의 속성을 포함할 수 있다. 엔티티 유형인물을 예로 들면, 이에 연관되는 분류나 처리를 거치지 않은 속성은 예를 들어 신장, 높이, 체중, 무게, 연령, 아내, 마누라 등을 포함할 수 있고, 여기에는 같은 의미를 가지는 복수의 속성(예를 들어 인물의 '신장'과 '높이', 인물의 '체중'과 '무게', 인물의 '아내'와 '마누라' 등)이 포함될 수 있다. 지식 항목(113)은 엔티티 유형(111)에 연관되면서 주어-서술어-목적어(SPO) 구조를 가지는 복수의 문장(이하에서는, SPO 구조를 가지는 지식 항목을 'SPO'로 약칭하기도 함)을 포함할 수 있는바, 예를 들면 '장산(張三)의 아내는 리쓰(李四)이다'(여기서, '장산(張三)'은 주어이고 '아내'는 서술어이고 '리쓰(李四)'는 목적어이다), '장산(張三)의 마누라는 리쓰(李四)이다'(여기서, '장산(張三)'은 주어이고 '마누라'는 서술어이고 '리쓰(李四)'는 목적어이다) 및 '왕우(王五)의 신장은 176cm이다'(여기서, '왕우(王五)'는 주어이고 '신장'은 서술어이고 '176cm'는 목적어이다)등이 있다.
비록 도 1에서는 입력 데이터(110)가 단지 하나의 엔티티 유형(111)에 연관되는 것으로 도시되었지만, 이는 단지 설명의 목적을 위한 것일 뿐, 본 개시의 범위를 한정하고자 하는 것이 아님을 이해하여야 한다. 일부 실시예에서, 모델 구축 장치(120)는 복수의 데이터 소스로부터 다양한 엔티티 유형에 연관되는 상응한 입력 데이터를 획득할 수 있다. 모델 구축 장치(120)는 획득되는 입력 데이터를 엔티티 유형에 따라 분할함으로써 각 엔티티 유형에 연관되는 입력 데이터를 획득할 수 있다.
도 1에 도시한 바와 같이, 모델 구축 장치(120)는 속성 집합(112) 내에서 같은 의미를 가지는 복수의 속성(예를 들어 '신장'과 '높이', 인물의 '체중'과 '무게', 인물의 '아내'와 '마누라' 등)을 인식할 수 있다. 속성 집합(112) 내에서 같은 의미를 가지는 복수의 속성을 동일한 속성(즉, 동일한 속성으로 같은 의미를 가지는 복수의 속성을 치환)으로 정렬함으로써, 모델 구축 장치(120)는 엔티티 유형(111)에 연관되는 속성 집합(131)을 생성함으로써, 속성 집합(131) 내의 임의의 2개의 속성이 서로 다른 의미를 가지도록 한다. 예를 들어 모델 구축 장치(120)는 속성 '신장'과 속성 '높이'를 동일한 속성인 '신장'으로 정렬할 수 있고 속성 '체중'과 속성 '무게'를 동일한 속성인 '체중'으로 정렬할 수 있고 속성 '아내'와 속성 '마누라'를 동일한 속성인 '아내'로 정렬할 수 있다. 모델 구축 장치(120)는 나아가 엔티티 유형(111)과 속성 집합(131) 내의 각 속성에 따라, 엔티티 유형(111)에 특정되는 데이터 모델(130)을 구축할 수 있다.
도 2는 본 개시의 실시예에 따른 데이터 모델을 구축하는 방법(200)의 흐름도를 나타낸다. 예를 들어 방법(200)은 도 1에 도시한 모델 구축 장치(120)에 의해 실행될 수 있다. 아래, 도 1에 결부하여 방법(200)에 대해 상세히 설명하고자 한다. 방법(200)에 있어서 미도시된 추가 단계가 더 포함되거나 및/또는 도시된 단계가 생략될 수도 있음을 이해하여야 한다. 본 개시의 범위는 이러한 측면에서 한정되지 않는다.
단계 210에서, 모델 구축 장치(120)는 엔티티 유형에 연관되는 제1 속성 집합을 획득한다.
일부 실시예에서, 제1 속성 집합은 예를 들어 도 1에 도시한 초기 속성 집합(112), 즉 복수의 데이터 소스로부터 수신되는 분류나 처리를 거치지 않은 속성 집합일 수 있다. 추가로 또는 대안으로, 일부 실시예에서, 모델 구축 장치(120)는 도 1에 도시된 초기 속성 집합(112)(본 실시예에서는 '제3 속성 집합'으로 지칭되기도 함)을 속성 유사도에 따라 복수의 서브 집합으로 분할하고, 복수의 서브 집합 중의 하나를 제1 속성 집합으로 할 수 있다.
일부 실시예에서, 모델 구축 장치(120)는 초기 속성 집합(112)을 클러스터링하여, 초기 속성 집합(112)을 복수의 서브 집합으로 분할할 수 있다. 예를 들어, 모델 구축 장치(120)는 마르코프 클러스터링 알고리즘과 같은 그래프 클러스터링 알고리즘을 이용하여, 초기 속성 집합(112)을 클러스터링할 수 있다. 전통적인 텍스트 클러스터링 알고리즘에 비하면, 그래프 클러스터링 알고리즘은 더 많은 차원의 유사도 특징을 이용하므로, 길이가 보다 짧은 문자열의 클러스터링 문제를 더 잘 해결할 수 있다. 추가로 또는 대안으로, 일부 실시예에서, 모델 구축 장치(120)는 예를 들어 계층적 클러스터링 알고리즘인 그래프 클러스터링 알고리즘으로 초기 속성 집합(112)을 클러스터링할 수 있다. 위에서는 단지 모델 구축 장치(120)에서 사용 가능한 클러스터링 알고리즘의 몇몇 예시만을 열거하였을 뿐이다. 모델 구축 장치(120)는 임의의 기존 방법 또는 개발될 방법을 사용하여 초기 속성 집합(112)을 복수의 서브 집합으로 분할할 수 있는 것으로, 위의 예시에만 한정되는 것이 아님을 이해하여야 한다.
단계 220에서, 모델 구축 장치(120)는 제1 속성 집합중의 같은 의미를 가지는 복수의 속성을 동일한 속성으로 정렬함으로써, 당해 엔티티 유형에 연관되는 제2 속성 집합을 생성하는바, 제2 속성 집합중의 2개의 속성은 서로 다른 의미를 가진다.
일부 실시예에서, 모델 구축 장치(120)는 엔티티 유형을 제1 속성 집합중의 각 속성과 결합함으로써, 복수의 유형 속성(type-predicate) 쌍을 생성할 수 있다. 엔티티 유형 '인물'을 예로 들면, 생성되는 유형 속성 쌍의 예시는 예를 들어 '인물-신장', '인물-높이', '인물-체중', '인물-무게' 등이다. 복수의 유형 속성 쌍 중의 임의의 2개의 유형 속성 쌍(본 실시예에서는 '제1 유형 속성 쌍'과 '제2 유형 속성 쌍'으로 지칭되기도 하는바, 예를 들어 '인물-체중'과 '인물-무게'가 있다)에 대해, 모델 구축 장치(120)는 제1 유형 속성 쌍과 제2 유형 속성 쌍이 같은 의미를 가지는지 여부를 결정할 수 있다.
도 3은 본 개시의 실시예에 따른 제1 유형 속성 쌍과 제2 유형 속성 쌍이 같은 의미를 가지는지 여부를 결정하는 예시 모듈(300)의 블록도를 나타낸다. 일부 실시예에서, 모듈(300)은 도 1에 도시한 모델 구축 장치(120)의 일부분으로 구현될 수 있다. 도 3에 도시한 바와 같이, 모듈(300)은 전반적으로 특징 추출 유닛(310)과 분류 모델(320)을 포함할 수 있다.
일부 실시예에서, 특징 추출 유닛(310)은 제1 유형 속성 쌍(301-1)과 제2 유형 속성 쌍(301-2)을 획득하고, 도 1에 도시한 SPO 구조를 가지는 지식 항목(113)으로부터 제1 유형 속성 쌍(301-1)에 연관되는 제1 그룹의 지식 항목(302-1) 및 제2 유형 속성 쌍(301-2)에 연관되는 제2 그룹의 지식 항목(302-2)을 획득할 수 있다. 제1 유형 속성 쌍(301-1)과 제2 유형 속성 쌍(301-2)이 같은 의미를 가지는지 여부를 결정하기 위하여, 특징 추출 유닛(310)은 제1 유형 속성 쌍(301-1)과 제2 유형 속성 쌍(301-2)의 복수의 유사도 특징(303)을 추출할 수 있다. 예를 들어 복수의 유사도 특징(303)은 제1 유형 속성 쌍(301-1)과 제2 유형 속성 쌍(301-2)의 텍스트 유사도를 나타내는 제1 유사도 특징(303-1); 제1 유형 속성 쌍(301-1)과 제2 유형 속성 쌍(301-2)이 의미 사전(Semantic Dictionary)에서 동의어인지 여부를 나타내는 제2 유사도 특징(303-2); 제1 유형 속성 쌍(301-1)과 제2 유형 속성 쌍(301-2)의 의미 유사도를 나타내는 제3 유사도 특징(303-3); 및 제1 유형 속성 쌍(301-1)에 연관되는 제1 그룹의 지식 항목 및 제2 유형 속성 쌍(301-2)에 연관되는 제2 그룹의 지식 항목을 통계하여 획득된 제4 유사도 특징(303-4); 중의 적어도 하나를 포함할 수 있다.
일부 실시예에서, 제1 유형 속성 쌍(301-1)과 제2 유형 속성 쌍(301-2)의 텍스트 유사도는 양자의 Jaccard 유사도 계수를 이용하여 측정될 수 있다. 예를 들어 Jaccard 계수 값이 클수록 양자의 유사도가 높다는 것을 나타낸다. 일부 실시예에서, 제2 유사도 특징(303-2)은, 예를 들어 제1 유형 속성 쌍(301-1)과 제2 유형 속성 쌍(301-2)이 하나 또는 복수의 의미 사전(예를 들어 wordnet 사전)에서 동의어인지 여부를 나타낼 수 있다.
제1 유형 속성 쌍(301-1)과 제2 유형 속성 쌍(301-2)의 의미 유사도는 다양한 방식으로 측정될 수 있다. 일부 실시예에서, 특징 추출 유닛(310)은 제1 유형 속성 쌍(301-1) 중의 제1 속성과 제2 유형 속성 쌍(301-2) 중의 제2 속성의 검색 유사도를 결정함으로써, 이를 제1 유형 속성 쌍(301-1)과 제2 유형 속성 쌍(301-2)의 의미 유사도를 측정하는 제3 유사도 특징(303-3)으로 할 수 있다. 예를 들어 특징 추출 유닛(310)은 제1 속성과 제2 속성을 검색 키워드로 하고, 양자의 검색 결과의 유사도를 결정함으로써, 제1 속성과 제2 속성의 검색 유사도를 결정할 수 있다. 추가로 또는 대안으로, 일부 실시예에서, 특징 추출 유닛(310)은 백 오브 워즈(bag of words) 모델을 이용하여 제1 유형 속성 쌍(301-1)과 제2 유형 속성 쌍(301-2)을 2개의 벡터로 변환하고, 2개 벡터의 코사인 거리를 계산함으로써, 양자의 의미 유사도를 결정할 수 있다. 추가로 또는 대안으로, 일부 실시예에서, 특징 추출 유닛(310)은 일반화된 회귀 신경망(General regression neural network, GRNN) 모델을 이용하여, 제1 유형 속성 쌍(301-1)과 제2 유형 속성 쌍(301-2)을 2개의 벡터로 변환하고, 2개 벡터의 코사인 거리를 계산함으로써 양자의 의미 유사도를 결정할 수 있다. 추가로 또는 대안으로, 일부 실시예에서, 특징 추출 유닛(310)은 제1 유형 속성 쌍(301-1) 중의 제1 속성에 연관되는 검색 클릭 특징 및 제2 유형 속성 쌍 중의 제2 속성에 연관되는 검색 클릭 특징에 따라 제1 유형 속성 쌍(301-1)과 제2 유형 속성 쌍(301-2)을 2개의 벡터로 변환하고, 2개의 벡터의 코사인 거리를 계산함으로써 양자의 의미 유사도를 결정할 수 있다. 추가로 또는 대안으로, 일부 실시예에서, 특징 추출 유닛(310)은 지도 학습 방법으로 트레이닝된 의미 분류 모델을 사용하여, 제1 유형 속성 쌍(301-1)과 제2 유형 속성 쌍(301-2)의 의미 유사도를 결정할 수 있다. 추가로 또는 대안으로, 일부 실시예에서, 특징 추출 유닛(310)은 Skip-Gram 모델을 이용하여 제1 유형 속성 쌍(301-1)과 제2 유형 속성 쌍(301-2)을 2개의 벡터로 변환하고, 2개의 벡터의 코사인 거리를 계산함으로써 양자의 의미 유사도를 결정할 수 있다.
위에서는 단지 제1 유형 속성 쌍(301-1)과 제2 유형 속성 쌍(301-2)의 의미 유사도를 나타내는 제3 유사도 특징(303-3)을 결정하는 몇몇 예시 방식만을 열거하였을 뿐이다. 특징 추출 유닛(310)은 임의의 기존 방법 또는 개발될 방법을 사용하여 제1 유형 속성 쌍(301-1)과 제2 유형 속성 쌍(301-2)의 의미 유사도를 나타내는 제3 유사도 특징(303-3)을 결정할 수 있는 것으로, 위의 예시에만 한정되는 것이 아님을 이해하여야 한다.
일부 실시예에서, 특징 추출 유닛(310)은 제1 유형 속성 쌍(301-1)에 연관되는 제1 그룹의 지식 항목(302-1) 및 제2 유형 속성 쌍(301-2)에 연관되는 제2 그룹의 지식 항목(302-2)을 통계함으로써, 제1 유형 속성 쌍(301-1)과 제2 유형 속성 쌍의 제4 유사도 특징(303-4)을 획득할 수 있다. 예를 들어 특징 추출 유닛(310)은 제1 유형 속성 쌍(301-1)에 연관되는 제1 그룹의 지식 항목(302-1) 및 제2 유형 속성 쌍(301-2)에 연관되는 제2 그룹의 지식 항목(302-2)에 따라 여러 가지 통계 정보를 결정할 수 있다. 통계 정보는 예를 들어, 주어-목적어 동시 출현 정보를 포함할 수 있다. 여기서 상기 '주어-목적어 동시 출현'은 2개의 SPO에서 주어(S)와 목적어(O)가 같은 것을 가리키는바, 예를 들면 '장산(張三)의 아내는 리쓰(李四)이다'와 '장산(張三)의 마누라는 리쓰(李四)이다'가 있다. 주어-목적어 동시 출현은 통상적으로 2개의 SPO에서의 2개의 서술어(즉, '아내'와 '마누라')가 같은 의미를 가지는 가능성이 보다 크다는 것을 나타낼 수 있다. 추가로 또는 대안으로, 통계 정보는 예를 들어 목적어 유형 정보를 포함할 수 있다. 여기서 상기 '목적어 유형'은 SPO에서의 목적어의 상위어를 지칭한다. 2개의 SPO에서의 목적어 유형이 같은 경우, 이러한 2개의 SPO에서의 2개의 서술어가 같은 의미를 가지는 가능성이 크다는 것을 나타낼 수 있다. 추가로 또는 대안으로, 통계 정보는 예를 들어 목적어 키워드 정보를 더 포함할 수 있다. 즉, 2개의 SPO에서의 상위화를 거치지 않은 목적어를 비교함으로써 획득되는 결과이다. 추가로 또는 대안으로, 통계 정보는 예를 들어 동일한 소스의 정보를 더 포함할 수 있다. 예를 들어 2개의 SPO가 같은 데이터 소스에서 오고 동일한 엔티티에 관련될 경우, 이러한 2개의 SPO에서의 2개의 서술어(P)가 서로 다른 의미를 가지는 가능성이 크다는 것을 나타낼 수 있다. 모델 구축 장치(120)는 이러한 통계 정보에 따라 제1 유형 속성 쌍(301-1)과 제2 유형 속성 쌍(301-2)의 제4 유사도 특징(303-4)을 결정할 수 있다.
위에서는 단지 제1 유형 속성 쌍과 제2 유형 속성 쌍의 SPO 통계 유사도를 나타내는 제4 유사도 특징(303-4)을 결정하는 몇몇 예시 방식만을 열거하였을 뿐이다. 모델 구축 장치(120)는 임의의 기존 방법 또는 개발될 방법을 사용하여 제1 유형 속성 쌍(301-1)과 제2 유형 속성 쌍(301-2)의 SPO 통계 유사도를 나타내는 제4 유사도 특징(303-4)을 결정할 수 있는 것으로, 위의 예시에만 한정되는 것이 아님을 이해하여야 한다.
일부 실시예에서, 추출되는 제1 유형 속성 쌍(301-1)과 제2 유형 속성 쌍(301-2)의 복수의 유사도 특징(303)은 트레이닝된 분류 모델(320)에 제공되어 제1 유형 속성 쌍(301-1)과 제2 유형 속성 쌍(301-2)이 같은 의미를 가지는지 여부를 결정할 수 있다. 예를 들어 분류 모델(320)은 서포트 벡터 머신(SVM) 모델일 수 있다.
일부 실시예에서, 제1 유형 속성 쌍(301-1)과 제2 유형 속성 쌍(301-2)이 같은 의미를 가지는지 여부를 결정하는 SVM 모델(320)은 미리 트레이닝되어 모델 구축 장치(120)에 제공될 수 있다. SVM 모델을 트레이닝하는 트레이닝 데이터세트는 클러스터링과 수동 레이블링을 결합하는 방식으로 획득될 수 있다. 예를 들어 몇몇 특정 엔티티 유형(예를 들어, 인물, 전기 기구, 장소 등)의 유형 속성 쌍을 선택하여 이를 SVM 모델을 트레이닝하는 트레이닝 데이터로 할 수 있다. 이러한 유형 속성 쌍을 수동으로 레이블링하기 전에, 클러스터링 알고리즘을 이용하여 이러한 유형 속성 쌍을 클러스터링할 수 있다. 수동으로 레이블링하는 경우, 클러스터링된 트레이닝 데이터세트를 복수의 레이블링 인원한테 각각 제공하여 그 중에서 같은 의미를 가지는 유형 속성 쌍을 레이블링할 수 있다. 이러한 방식으로, 복수의 레이블링 인원한테서 오는 레이블링 결과를 종합함으로써 레이블링의 정확성을 보장할 수 있다. SVM 모델을 트레이닝하는 경우, 선택되는 특징은 상술한 바와 같은 유사도 특징일 수 있는바, 이는 텍스트 유사도 특징, 동의어 특징, 의미 유사도 특징(검색 유사도, Bow 유사도, GRNN 유사도, 검색 클릭 유사도, 의미 유사도 모델에 의해 획득되는 의미 유사도, Skip-gram 유사도 등을 포함), 통계 유사도(SPO 데이터를 통계하여 획득됨) 등을 포함하나, 이에 한정되지 않는다.
이러한 방식으로, 트레이닝된 분류 모델(320)은, 제1 유형 속성 쌍(301-1)과 제2 유형 속성 쌍(301-2)의 복수의 유사도 특징(303)에 따라 제1 유형 속성 쌍(301-1)과 제2 유형 속성 쌍(301-2)이 같은 의미를 가지는지 여부를 결정할 수 있는바, 이는 도 3의 분류 결과(304)에 도시된 바와 같다.
추가로 또는 대안으로, 일부 실시예에서, 모델 구축 장치(120)는 나아가 소정 규칙에 따라 분류 모델(320)의 분류 결과(304)를 최적화할 수 있다. 예를 들어 분류 모델(320)에 의해 제1 유형 속성 쌍(301-1)과 제2 유형 속성 쌍(301-2)이 같은 의미를 가지는 것으로 결정될 경우, 모델 구축 장치(120)는 나아가 제1 유형 속성 쌍(301-1)과 제2 유형 속성 쌍(301-2)의 의미 유사도 점수(예를 들어 상술한 제3 유사도 특징이 나타내는 것)가 미리 설정된 역치를 초과하는지 여부를 결정할 수 있다. 분류 모델(320)에 의해 제1 유형 속성 쌍(301-1)과 제2 유형 속성 쌍(301-2)이 같은 의미를 가지고 양자의 의미 유사도 점수가 미리 설정된 역치를 초과하는 것으로 결정될 경우에, 모델 구축 장치(120)는 제1 유형 속성 쌍(301-1)과 제2 유형 속성 쌍(301-2)이 같은 의미를 가진다고 결정한다. 일부 실시예에서, 모델 구축 장치(120)는 하나 또는 복수의 소정 규칙의 결합에 따라 분류 결과(304)를 필터링함으로써 나아가 분류 결과의 정확률을 향상시킬 수 있다. 추가로 또는 대안으로, 일부 실시예에서, 모델 구축 장치(120)는 분류 결과(304)를 사용자한테 제공하여 검증시키고 사용자에 의해 피드백되는 검증 결과에 따라 분류 결과(304)를 최적화함으로써 나아가 분류 결과의 정확률을 향상시킬 수 있다.
일부 실시예에서, 제1 유형 속성 쌍과 제2 유형 속성 쌍이 같은 의미를 가지는 것으로 결정될 경우, 모델 구축 장치(120)는 제1 유형 속성 쌍(예를 들어 '인물-신장') 중의 제1 속성(즉, '신장')과 제2 유형 속성 쌍(예를 들어 '인물-높이') 중의 제2 속성(즉, '높이')을 동일한 속성으로 정렬할 수 있다. 예를 들어 모델 구축 장치(120)는 같은 의미를 가지는 제1 속성과 제2 속성을 제1 속성과 제2 속성 중 하나로 정렬할 수 있다. 대안으로, 모델 구축 장치(120)는 같은 의미를 가지는 제1 속성과 제2 속성을 소정의 다른 한 속성으로 정렬할 수도 있는바, 예를 들어 이는 제1 속성 및 제2 속성과 다를 수 있다. 이러한 방식으로, 모델 구축 장치(120)는 상기 엔티티 유형에 연관되는 제2 속성 집합(예를 들어 도 1에 도시한 속성 집합(131))을 생성함으로써, 제2 속성 집합중의 임의의 2개의 속성이 서로 다른 의미를 가지도록 보장할 수 있다.
도 2로 돌아가, 단계 230에서, 모델 구축 장치(120)는, 당해 엔티티 유형과 제2 속성 집합에 따라 당해 엔티티 유형에 연관되는 데이터 모델을 구축한다. 예를 들어, 모델 구축 장치(120)는 엔티티 유형과 제2 속성 집합중의 속성을 결합시켜, 상응한 유형 속성 쌍을 획득할 수 있는바, 여기서 각 유형 속성 쌍은 당해 엔티티 유형에 연관되는 schema에 대응된다.
상술한 설명으로부터 알수 있는바, 본 개시의 실시예는 기계 학습 모델을 빌어 서로 다른 소스에서 오는 데이터에서 서로 다른 표현 방식을 가지는 같은 의미의 속성을 인식한다. 같은 의미의 속성을 판단하는 과정에서 풍부한 여러 가지 차원의 특징이 사용되므로, 본 개시의 실시예는 보다 높은 정확률과 보다 높은 강건성을 구현할 수 있다. 같은 의미의 속성을 자동으로 정렬함으로써, 본 개시의 실시예는 인건 비용을 효과적으로 절감하면서 고효율적으로 데이터 모델을 구축할 수 있다.
도 4는 본 개시의 실시예에 따른 데이터 모델을 구축하는 장치(400)의 개략적인 블록도를 나타낸다. 당해 장치(400)는 도 1에 도시한 모델 구축 장치(120)를 구현할 수 있다. 도 4에 도시한 바와 같이, 장치(400)는 엔티티 유형에 연관되는 제1 속성 집합을 획득하도록 구성되는 속성 획득 모듈(410); 제1 속성 집합중의 같은 의미를 가지는 복수의 속성을 동일한 속성으로 정렬함으로써, 당해 엔티티 유형에 연관되는 제2 속성 집합을 생성하도록 구성되는 속성 정렬 모듈(420) - 제2 속성 집합중의 2개의 속성은 서로 다른 의미를 가짐-; 및 당해 엔티티 유형과 제2 속성 집합에 따라 당해 엔티티 유형에 연관되는 데이터 모델을 구축하도록 구성되는 모델 구축 모듈(430);을 포함할 수 있다.
일부 실시예에서, 속성 획득 모듈(410)은, 엔티티 유형에 연관되는 제3 속성 집합을 획득하도록 구성되는 속성 획득 유닛; 속성 유사도에 따라 제3 속성 집합을 복수의 서브 집합으로 분할하도록 구성되는 서브 집합 분할 유닛; 및 복수의 서브 집합 중의 하나를 제1 속성 집합으로 결정하도록 구성되는 제1 결정 유닛;을 포함한다.
일부 실시예에서, 서브 집합 분할 유닛은 또한, 제3 속성 집합을 클러스터링하여 제3 속성 집합을 복수의 서브 집합으로 분할하도록 구성된다.
일부 실시예에서, 속성 정렬 모듈(420)은, 엔티티 유형을 제1 속성 집합중의 제1 속성과 결합하여 제1 유형 속성 쌍을 획득하도록 구성되는 제1 결합 유닛; 엔티티 유형을 제1 속성 집합에서 제1 속성과는 다른 제2 속성과 결합하여 제2 유형 속성 쌍을 획득하도록 구성되는 제2 결합 유닛; 제1 유형 속성 쌍과 제2 유형 속성 쌍이 같은 의미를 가지는지 여부를 결정하도록 구성되는 제2 결정 유닛; 및 제1 유형 속성 쌍과 제2 유형 속성 쌍이 같은 의미를 가진다고 결정된 것에 응답하여, 제1 속성과 제2 속성을 동일한 속성으로 정렬하도록 구성되는 속성 정렬 유닛;을 포함한다.
일부 실시예에서, 제2 결정 유닛은 또한, 제1 유형 속성 쌍과 제2 유형 속성 쌍의 복수의 유사도 특징을 추출하고; 추출된 복수의 유사도 특징에 따라 제1 유형 속성 쌍과 제2 유형 속성 쌍이 같은 의미를 가지는지 여부를 결정하도록 구성된다.
일부 실시예에서, 복수의 유사도 특징은, 제1 유형 속성 쌍과 제2 유형 속성 쌍의 텍스트 유사도를 나타내는 제1 유사도 특징; 제1 유형 속성 쌍과 제2 유형 속성 쌍이 의미 사전에서 동의어인지 여부를 나타내는 제2 유사도 특징; 제1 유형 속성 쌍과 제2 유형 속성 쌍의 의미 유사도를 나타내는 제3 유사도 특징; 및 제1 유형 속성 쌍에 연관되는 제1 그룹의 지식 항목 및 제2 유형 속성 쌍에 연관되는 제2 그룹의 지식 항목을 통계하여 획득된 제4 유사도 특징; 중의 적어도 하나를 포함한다.
일부 실시예에서, 제2 결정 유닛은 또한, 트레이닝된 분류 모델을 이용하여 제1 유형 속성 쌍과 제2 유형 속성 쌍이 같은 의미를 가지는지 여부를 결정하도록 구성된다.
일부 실시예에서, 분류 모델은 서포트 벡터 머신(SVM) 모델이다.
장치(400)에 있어서 기재되는 각 모듈은, 각각 도 2를 참조하여 설명되는 방법(200) 중의 각각의 단계에 대응되고 방법(200) 중의 대응되는 조작 및 특징과 동일한 효과를 가진다는 것을 이해하여야 하는바, 구체적인 디테일에 대한 상세한 설명은 생략하기로 한다.
또한, 장치(400)에 포함되는 모듈 및/또는 유닛은 여러 가지 방식을 이용하여 구현할 수 있는바, 소프트웨어, 하드웨어, 펌웨어 또는 이들의 임의의 결합이 포함된다. 일부 실시예에서, 하나 또는 복수의 유닛은 소프트웨어 및/또는 펌웨어를 사용하여 구현할 수 있는바, 예를 들어 저장 매체에 저장되는 기계 실행 가능 명령어이다. 기계 실행 가능 명령어 이외에 또는 그 대안으로, 장치(400) 중의 일부 또는 전부의 유닛은 적어도 부분적으로 하나 또는 복수의 하드웨어 논리 컴포넌트로 구현될 수 있다. 제한이 아닌 예시로서, 사용 가능한 시범 유형의 하드웨어 논리 컴포넌트는 필드 프로그램 가능 게이트 어레이(FPGA), 주문형 집적 회로(ASIC), 특정 용도 표준 제품(ASSP), 시스템 온 칩(SOC), 복합 프로그래머블 논리 디바이스(CPLD) 등을 포함한다.
도 4에 도시한 이러한 모듈 및/또는 유닛은 일부 또는 전부가 하드웨어 모듈, 소프트웨어 모듈, 펌웨어 모듈 또는 이들의 임의 결합으로 구현될 수 있다. 특별히, 어떤 실시예에서, 상기에서 설명된 흐름, 방법 또는 과정은 저장 시스템 또는 저장 시스템에 대응되는 호스트 컴퓨터 또는 저장 시스템으로부터 독립되는 기타 컴퓨팅 기기 중의 하드웨어에 의해 구현될 수 있다.
도 5는 본 개시의 실시예를 구현 가능한 예시 기기(500)의 개략적 블록도를 나타낸다. 기기(500)는 도 1에 도시한 모델 구축 장치(120)를 구현할 수 있다. 도시한 바와 같이, 기기(500)는 중앙 프로세서 유닛(CPU)(501)을 포함하는바, 이는 읽기 전용 메모리(ROM)(502)에 저장된 컴퓨터 프로그램 명령어 또는 저장 유닛(508)로부터 랜덤 액세스 메모리(RAM)(503)에 로딩된 컴퓨터 프로그램 명령어에 따라 여러 가지 적당한 동작과 처리를 실행한다. RAM(503)에는 또한 기기(500) 조작에 필요한 여러 가지 프로그램과 데이터를 저장할 수 있다. CPU(501), ROM(502) 및 RAM(503)는 버스(504)를 통해 서로 연결된다. 입력/출력(I/O) 인터페이스(505)도 버스(504)에 연결된다.
기기(500) 중의 복수의 부품은 I/O 인터페이스(505)에 연결되는바, 입력 유닛(506), 예를 들어 키보드, 마우스 등; 출력 유닛(507), 예를 들어 여러 가지 유형의 디스플레이, 스피커 등; 저장 유닛(508), 예를 들어 자기 디스크, 광디스크 등; 및 통신 유닛(509), 예를 들어 네트워크 카드, 모뎀, 무선 통신 송수신기 등을 포함한다. 통신 유닛(509)은 기기(500)가 인터넷과 같은 컴퓨터 네트워크 및/또는 여러 가지 전기 통신 네트워크를 통하여 기타 기기와 정보/데이터를 교환하도록 허용한다.
프로세서 유닛(501)은 상기에서 설명된 각각의 방법 및 처리를 실행하는바, 예를 들어 방법(200)이다. 예를 들어, 일부 실시예에서, 방법(200)은 컴퓨터 소프트웨어 프로그램으로 구현될 수 있는바, 이는 기계 판독 가능 매체, 예를 들어 저장 유닛(508)에 유형적으로 포함된다. 일부 실시예에서, 컴퓨터 프로그램의 일부 또는 전부가 ROM(502) 및/또는 통신 유닛(509)을 통하여 기기(500)에 로딩 및/또는 설치될 수 있다. 컴퓨터 프로그램이 RAM(503)에 로딩되어 CPU(501)에 의해 실행될 시, 상기에서 설명된 방법(200)의 하나 또는 복수의 단계를 실행할 수 있다. 대안적으로, 기타 실시예에서, CPU(501)는 기타 임의의 적당한 방식을 통해(예를 들어, 펌웨어의 도움으로) 방법(200)을 실행하도록 구성될 수 있다.
본 명세서에서 위에서 설명된 기능은 적어도 일부가 하나 또는 복수의 하드웨어 논리 부품에 의하여 실행될 수 있다. 예를 들어,비한정적으로,사용 가능한 시범 유형의 하드웨어 논리 부품은 필드 프로그램 가능 게이트 어레이(FPGA), 주문형 집적 회로(ASIC), 특정 용도 표준 제품(ASSP), 시스템 온 칩(SOC), 복합 프로그래머블 논리 디바이스(CPLD) 등을 포함한다.
본 개시의 방법을 구현하기 위한 프로그램 코드는 하나 또는 복수의 프로그래밍 언어의 임의의 결합을 적용하여 작성될 수 있다. 이러한 프로그램 코드는 범용 컴퓨터, 전용 컴퓨터 또는 기타 프로그램 가능 데이터 처리 장치의 프로세서 또는 제어기에 제공되어 프로그램 코드가 프로세서 또는 제어기에 의해 실행될 시 흐름도 및/또는 블록도에 규정한 기능/조작이 구현되도록 할 수 있다. 프로그램 코드는 기계에서 전부 실행되거나, 기계에서 일부 실행되거나, 독립적인 소프트웨어 패키지로서 일부는 기계에서 실행되고 일부는 원격 기계에서 실행되거나, 혹은 원격 기계 또는 서버에서 전부 실행될 수 있다.
본 개시의 전반 서술에서, 기계 판독 가능 매체는 유형의 매체일 수 있는바, 이는, 명령어 실행 시스템, 장치 또는 기기에 사용하기 위한, 또는 명령어 실행 시스템, 장치 또는 기기와 결합하여 사용하기 위한 프로그램을 포함 또는 저장할 수 있다. 기계 판독 가능 매체는 기계 판독 가능 신호 매체 또는 기계 판독 가능 저장 매체일 수 있다. 기계 판독 가능 매체는 전자의, 자성의, 광학의, 전자기의, 적외선의 또는 반도체의 시스템, 장치 또는 기기, 또는 상술한 내용의 임의의 적합한 결합을 포함할 수 있으나, 이에 한정되지 않는다. 기계 판독 가능 저장 매체의 더 구체적인 예시는 하나 또는 복수의 선에 따른 전기 연결, 휴대형 컴퓨터 디스크, 하드 디스크, 랜덤 액세스 메모리(RAM), 읽기 전용 메모리(ROM), 소거 및 프로그램 가능 읽기 전용 메모리(EPROM 또는 플래시 메모리), 광섬유, 휴대용 콤팩트 디스크 읽기 전용 메모리(CD-ROM), 광학 저장 기기, 자기 저장 기기, 또는 상술한 내용의 임의의 적합한 결합을 포함하게 된다.
이 외에, 비록 각 조작을 묘사함에 있어서 특정 순서를 적용하였지만, 이러한 조작이 도시된 특정 순서로 또는 순차적 순서로 실행되어야 하거나, 또는 모든 도시한 조작이 실행되어야 하는 것으로, 이로써 기대하는 결과를 취득하기 위한 것임을 이해하여야 한다. 일정한 환경에서는, 다중 태스크 및 병렬 처리가 유익할 수 있다. 마찬가지로, 비록 위의 서술에는 약간의 구체 구현 디테일이 포함되지만, 이러한 것은 본 개시의 범위에 대한 제한으로 해석되어서는 안된다. 단독의 실시예의 전반 서술에서 설명되는 어떤 특징 또한, 결합 가능하게 하나의 구현에 구현될 수 있다. 반대로, 하나의 구현의 전반 서술에서 설명되는 여러 가지 특징도 단독으로 또는 임의의 적합한 서브결합의 방식으로 복수의 실시예에 의해 구현될 수 있다.
비록 이미 구조적 특징 및/또는 방법론적 동작에 특정된 언어를 적용하여 본 주제에 대해 설명하였지만, 첨부된 특허청구범위가 한정하는 주제는 위에서 설명한 특정 특징 또는 동작에 한정되는 것이 아님을 이해하여야 한다. 반대로, 위에서 설명한 특정 특징 및 동작은 단지 특허청구범위의 예시 형식을 구현하는 것일 뿐이다.

Claims (18)

  1. 데이터 모델을 구축하는 방법에 있어서,
    엔티티 유형에 연관되는 제1 속성 집합을 획득하는 단계;
    상기 제1 속성 집합중의 같은 의미를 가지는 복수의 속성을 동일한 속성으로 정렬함으로써, 상기 엔티티 유형에 연관되는 제2 속성 집합을 생성하는 단계 - 상기 제2 속성 집합중의 2개의 속성은 서로 다른 의미를 가짐 - ; 및
    상기 엔티티 유형과 상기 제2 속성 집합에 따라 상기 엔티티 유형에 연관되는 데이터 모델을 구축하는 단계; 를 포함하는 것,
    을 특징으로 하는 데이터 모델을 구축하는 방법.
  2. 제 1 항에 있어서,
    상기 엔티티 유형에 연관되는 상기 제1 속성 집합을 획득하는 단계는,
    상기 엔티티 유형에 연관되는 제3 속성 집합을 획득하는 단계;
    속성 유사도에 따라 상기 제3 속성 집합을 복수의 서브 집합으로 분할하는 단계; 및
    상기 복수의 서브 집합 중의 하나를 상기 제1 속성 집합으로 결정하는 단계; 를 포함하는 것,
    을 특징으로 하는 데이터 모델을 구축하는 방법.
  3. 제 2 항에 있어서,
    상기 제3 속성 집합을 상기 복수의 서브 집합으로 분할하는 단계는,
    상기 제3 속성 집합을 클러스터링하여 상기 제3 속성 집합을 상기 복수의 서브 집합으로 분할하는 단계를 포함하는 것,
    을 특징으로 하는 데이터 모델을 구축하는 방법.
  4. 제 1 항에 있어서,
    상기 제1 속성 집합중의 같은 의미를 가지는 복수의 속성을 정렬하는 단계는,
    상기 엔티티 유형을 상기 제1 속성 집합중의 제1 속성과 결합하여 제1 유형 속성 쌍을 획득하는 단계;
    상기 엔티티 유형을 상기 제1 속성 집합중의 상기 제1 속성과는 다른 제2 속성과 결합하여 제2 유형 속성 쌍을 획득하는 단계;
    상기 제1 유형 속성 쌍과 상기 제2 유형 속성 쌍이 같은 의미를 가지는지 여부를 결정하는 단계; 및
    상기 제1 유형 속성 쌍과 상기 제2 유형 속성 쌍이 같은 의미를 가진다고 결정된 것에 응답하여, 상기 제1 속성과 상기 제2 속성을 동일한 속성으로 정렬하는 단계; 를 포함하는 것,
    을 특징으로 하는 데이터 모델을 구축하는 방법.
  5. 제 4 항에 있어서,
    상기 제1 유형 속성 쌍과 상기 제2 유형 속성 쌍이 같은 의미를 가지는지 여부를 결정하는 단계는,
    상기 제1 유형 속성 쌍과 상기 제2 유형 속성 쌍의 복수의 유사도 특징을 추출하는 단계; 및
    추출된 상기 복수의 유사도 특징에 따라, 상기 제1 유형 속성 쌍과 상기 제2 유형 속성 쌍이 같은 의미를 가지는지 여부를 결정하는 단계; 를 포함하는 것,
    을 특징으로 하는 데이터 모델을 구축하는 방법.
  6. 제 5 항에 있어서,
    상기 복수의 유사도 특징은,
    상기 제1 유형 속성 쌍과 상기 제2 유형 속성 쌍의 텍스트 유사도를 나타내는 제1 유사도 특징;
    상기 제1 유형 속성 쌍과 상기 제2 유형 속성 쌍이 의미 사전에서 동의어인지 여부를 나타내는 제2 유사도 특징;
    상기 제1 유형 속성 쌍과 상기 제2 유형 속성 쌍의 의미 유사도를 나타내는 제3 유사도 특징; 및
    상기 제1 유형 속성 쌍에 연관되는 제1 그룹의 지식 항목 및 상기 제2 유형 속성 쌍에 연관되는 제2 그룹의 지식 항목을 통계하여 획득된 제4 유사도 특징;
    중의 적어도 하나를 포함하는 것,
    을 특징으로 하는 데이터 모델을 구축하는 방법.
  7. 제 4 항에 있어서,
    상기 제1 유형 속성 쌍과 상기 제2 유형 속성 쌍이 같은 의미를 가지는지 여부를 결정하는 단계는,
    트레이닝된 분류 모델을 이용하여, 상기 제1 유형 속성 쌍과 상기 제2 유형 속성 쌍이 같은 의미를 가지는지 여부를 결정하는 단계를 포함하는 것,
    을 특징으로 하는 데이터 모델을 구축하는 방법.
  8. 제 7 항에 있어서,
    상기 분류 모델은 서포트 벡터 머신(SVM) 모델인 것,
    을 특징으로 하는 데이터 모델을 구축하는 방법.
  9. 데이터 모델을 구축하는 장치에 있어서,
    엔티티 유형에 연관되는 제1 속성 집합을 획득하도록 구성되는 속성 획득 모듈;
    상기 제1 속성 집합중의 같은 의미를 가지는 복수의 속성을 동일한 속성으로 정렬함으로써, 상기 엔티티 유형에 연관되는 제2 속성 집합을 생성하도록 구성되는 속성 정렬 모듈 - 상기 제2 속성 집합중의 2개의 속성은 서로 다른 의미를 가짐-; 및
    상기 엔티티 유형과 상기 제2 속성 집합에 따라 상기 엔티티 유형에 연관되는 데이터 모델을 구축하도록 구성되는 모델 구축 모듈; 을 포함하는 것,
    을 특징으로 하는 데이터 모델을 구축하는 장치.
  10. 제 9 항에 있어서,
    상기 속성 획득 모듈은,
    상기 엔티티 유형에 연관되는 제3 속성 집합을 획득하도록 구성되는 속성 획득 유닛;
    속성 유사도에 따라 상기 제3 속성 집합을 복수의 서브 집합으로 분할하도록 구성되는 서브 집합 분할 유닛; 및
    상기 복수의 서브 집합 중의 하나를 상기 제1 속성 집합으로 결정하도록 구성되는 제1 결정 유닛; 을 포함하는 것,
    을 특징으로 하는 데이터 모델을 구축하는 장치.
  11. 제 10 항에 있어서,
    상기 서브 집합 분할 유닛은, 또한,
    상기 제3 속성 집합을 클러스터링하여 상기 제3 속성 집합을 상기 복수의 서브 집합으로 분할하도록 구성되는 것,
    을 특징으로 하는 데이터 모델을 구축하는 장치.
  12. 제 9 항에 있어서,
    상기 속성 정렬 모듈은,
    상기 엔티티 유형을 상기 제1 속성 집합중의 제1 속성과 결합하여 제1 유형 속성 쌍을 획득하도록 구성되는 제1 결합 유닛;
    상기 엔티티 유형을 상기 제1 속성 집합중의 상기 제1 속성과는 다른 제2 속성과 결합하여 제2 유형 속성 쌍을 획득하도록 구성되는 제2 결합 유닛;
    상기 제1 유형 속성 쌍과 상기 제2 유형 속성 쌍이 같은 의미를 가지는지 여부를 결정하도록 구성되는 제2 결정 유닛; 및
    상기 제1 유형 속성 쌍과 상기 제2 유형 속성 쌍이 같은 의미를 가진다고 결정된 것에 응답하여, 상기 제1 속성과 상기 제2 속성을 동일한 속성으로 정렬하도록 구성되는 속성 정렬 유닛; 을 포함하는 것,
    을 특징으로 하는 데이터 모델을 구축하는 장치.
  13. 제 12 항에 있어서,
    상기 제2 결정 유닛은, 또한,
    상기 제1 유형 속성 쌍과 상기 제2 유형 속성 쌍의 복수의 유사도 특징을 추출하고;
    추출된 상기 복수의 유사도 특징에 따라 상기 제1 유형 속성 쌍과 상기 제2 유형 속성 쌍이 같은 의미를 가지는지 여부를 결정하도록 구성되는 것,
    을 특징으로 하는 데이터 모델을 구축하는 장치.
  14. 제 13 항에 있어서,
    상기 복수의 유사도 특징은,
    상기 제1 유형 속성 쌍과 상기 제2 유형 속성 쌍의 텍스트 유사도를 나타내는 제1 유사도 특징;
    상기 제1 유형 속성 쌍과 상기 제2 유형 속성 쌍이 의미 사전에서 동의어인지 여부를 나타내는 제2 유사도 특징;
    상기 제1 유형 속성 쌍과 상기 제2 유형 속성 쌍의 의미 유사도를 나타내는 제3 유사도 특징; 및
    상기 제1 유형 속성 쌍에 연관되는 제1 그룹의 지식 항목 및 상기 제2 유형 속성 쌍에 연관되는 제2 그룹의 지식 항목을 통계하여 획득된 제4 유사도 특징;
    중의 적어도 하나를 포함하는 것,
    을 특징으로 하는 데이터 모델을 구축하는 장치.
  15. 제 12 항에 있어서,
    상기 제2 결정 유닛은, 또한,
    트레이닝된 분류 모델을 이용하여 상기 제1 유형 속성 쌍과 상기 제2 유형 속성 쌍이 같은 의미를 가지는지 여부를 결정하도록 구성되는 것,
    을 특징으로 하는 데이터 모델을 구축하는 장치.
  16. 제 15 항에 있어서,
    상기 분류 모델은 서포트 벡터 머신(SVM) 모델인 것,
    을 특징으로 하는 데이터 모델을 구축하는 장치.
  17. 데이터 모델을 구축하는 기기에 있어서,
    하나 또는 복수의 프로세서; 및
    하나 또는 복수의 프로그램을 저장하는 저장 장치; 를 포함하고,
    상기 하나 또는 복수의 프로그램이 상기 하나 또는 복수의 프로세서에 의해 실행될 경우, 상기 하나 또는 복수의 프로세서가 제1항 내지 제8항 중 어느 한 항의 방법을 구현하는 것,
    을 특징으로 하는 데이터 모델을 구축하는 기기.
  18. 컴퓨터 프로그램이 저장되어 있는 컴퓨터 판독가능 저장 매체에 있어서,
    상기 프로그램이 프로세서에 의해 실행될 경우, 제1항 내지 제8항 중 어느 한 항의 방법이 구현되는 것,
    을 특징으로 하는 컴퓨터 판독가능 저장 매체.
KR1020200007880A 2019-02-01 2020-01-21 데이터 모델을 구축하는 방법, 장치, 기기 및 매체 KR102354127B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910105197.8 2019-02-01
CN201910105197.8A CN109885697B (zh) 2019-02-01 2019-02-01 构建数据模型的方法、装置、设备和介质

Publications (2)

Publication Number Publication Date
KR20200096133A true KR20200096133A (ko) 2020-08-11
KR102354127B1 KR102354127B1 (ko) 2022-01-20

Family

ID=66927892

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200007880A KR102354127B1 (ko) 2019-02-01 2020-01-21 데이터 모델을 구축하는 방법, 장치, 기기 및 매체

Country Status (5)

Country Link
US (1) US20200250380A1 (ko)
EP (1) EP3690759A1 (ko)
JP (1) JP7076483B2 (ko)
KR (1) KR102354127B1 (ko)
CN (1) CN109885697B (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210125449A (ko) * 2021-02-19 2021-10-18 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 업계 텍스트를 증분하는 방법, 관련 장치 및 매체에 저장된 컴퓨터 프로그램

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11269502B2 (en) 2014-03-26 2022-03-08 Unanimous A. I., Inc. Interactive behavioral polling and machine learning for amplification of group intelligence
US12001667B2 (en) 2014-03-26 2024-06-04 Unanimous A. I., Inc. Real-time collaborative slider-swarm with deadbands for amplified collective intelligence
US11151460B2 (en) * 2014-03-26 2021-10-19 Unanimous A. I., Inc. Adaptive population optimization for amplifying the intelligence of crowds and swarms
CN110263342A (zh) * 2019-06-20 2019-09-20 北京百度网讯科技有限公司 实体的上下位关系的挖掘方法和装置、电子设备
US11263400B2 (en) * 2019-07-05 2022-03-01 Google Llc Identifying entity attribute relations
CN113987131B (zh) * 2021-11-11 2022-08-23 江苏天汇空间信息研究院有限公司 异构多源数据关联分析系统和方法
US11949638B1 (en) 2023-03-04 2024-04-02 Unanimous A. I., Inc. Methods and systems for hyperchat conversations among large networked populations with collective intelligence amplification

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017208015A (ja) * 2016-05-20 2017-11-24 ヤフー株式会社 更新装置、更新方法、及び更新プログラム
WO2018057945A1 (en) * 2016-09-22 2018-03-29 nference, inc. Systems, methods, and computer readable media for visualization of semantic information and inference of temporal signals indicating salient associations between life science entities

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8108204B2 (en) * 2006-06-16 2012-01-31 Evgeniy Gabrilovich Text categorization using external knowledge
US10075384B2 (en) * 2013-03-15 2018-09-11 Advanced Elemental Technologies, Inc. Purposeful computing
US10380187B2 (en) * 2015-10-30 2019-08-13 International Business Machines Corporation System, method, and recording medium for knowledge graph augmentation through schema extension
CN105574089B (zh) * 2015-12-10 2020-08-28 百度在线网络技术(北京)有限公司 知识图谱的生成方法及装置、对象对比方法及装置
CN105574098B (zh) * 2015-12-11 2019-02-12 百度在线网络技术(北京)有限公司 知识图谱的生成方法及装置、实体对比方法及装置
CN106202041B (zh) * 2016-07-01 2019-07-09 北京奇虎科技有限公司 一种解决知识图谱中的实体对齐问题的方法和装置
CN106447346A (zh) * 2016-08-29 2017-02-22 北京中电普华信息技术有限公司 一种智能电力客服系统的构建方法及系统
CN106897403B (zh) * 2017-02-14 2019-03-26 中国科学院电子学研究所 面向知识图谱构建的细粒度中文属性对齐方法
CN108268581A (zh) * 2017-07-14 2018-07-10 广东神马搜索科技有限公司 知识图谱的构建方法及装置
CN107665252B (zh) * 2017-09-27 2020-08-25 深圳证券信息有限公司 一种创建知识图谱的方法及装置
US11250042B2 (en) * 2018-06-06 2022-02-15 Microsoft Technology Licensing Llc Taxonomy enrichment using ensemble classifiers

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017208015A (ja) * 2016-05-20 2017-11-24 ヤフー株式会社 更新装置、更新方法、及び更新プログラム
WO2018057945A1 (en) * 2016-09-22 2018-03-29 nference, inc. Systems, methods, and computer readable media for visualization of semantic information and inference of temporal signals indicating salient associations between life science entities

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Qian Liu et al., Extracting Attributes and Synonymous Attributes from Online Encyclopedias. 2014 IEEE/WIC/ACM International Joint Conferences on Web Intelligence and Intelligent Agent Technologies. 2014.08.11. pp.290-296. 1부.* *
Yeye He et al., Automatic Discovery of Attribute Synonyms Using Query Logs and Table Corpora. in IW3C2, 2016.04.11. pp.1429-1439. 1부.* *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210125449A (ko) * 2021-02-19 2021-10-18 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 업계 텍스트를 증분하는 방법, 관련 장치 및 매체에 저장된 컴퓨터 프로그램

Also Published As

Publication number Publication date
CN109885697A (zh) 2019-06-14
CN109885697B (zh) 2022-02-18
KR102354127B1 (ko) 2022-01-20
JP2020126604A (ja) 2020-08-20
EP3690759A1 (en) 2020-08-05
US20200250380A1 (en) 2020-08-06
JP7076483B2 (ja) 2022-05-27

Similar Documents

Publication Publication Date Title
KR20200096133A (ko) 데이터 모델을 구축하는 방법, 장치, 기기 및 매체
US10963794B2 (en) Concept analysis operations utilizing accelerators
US11645517B2 (en) Information processing method and terminal, and computer storage medium
Khuc et al. Towards building large-scale distributed systems for twitter sentiment analysis
US20190377793A1 (en) Method and apparatus for establishing a hierarchical intent system
US20220318275A1 (en) Search method, electronic device and storage medium
WO2020005601A1 (en) Semantic parsing of natural language query
WO2017193685A1 (zh) 社交网络中数据的处理方法和装置
CN114780727A (zh) 基于强化学习的文本分类方法、装置、计算机设备及介质
CN112270196A (zh) 实体关系的识别方法、装置及电子设备
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN107992477A (zh) 文本主题确定方法、装置及电子设备
US20200175390A1 (en) Word embedding model parameter advisor
WO2014201109A1 (en) Search term clustering
KR20150041908A (ko) 정답 유형 자동 분류 방법 및 장치, 이를 이용한 질의 응답 시스템
CN110309252B (zh) 一种自然语言处理方法及装置
CN114116997A (zh) 知识问答方法、装置、电子设备及存储介质
CN117271884A (zh) 确定推荐内容的方法、装置、电子设备及存储介质
CN116467461A (zh) 应用于配电网的数据处理方法、装置、设备及介质
CN108733702B (zh) 用户查询上下位关系提取的方法、装置、电子设备和介质
CN112528644B (zh) 实体挂载的方法、装置、设备以及存储介质
CN114528378A (zh) 文本分类方法、装置、电子设备及存储介质
CN114357180A (zh) 知识图谱的更新方法及电子设备
CN112269877A (zh) 数据标注方法及装置
CN114925185B (zh) 交互方法、模型的训练方法、装置、设备及介质

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant