KR102497408B1 - 지식 베이스 구축 방법 - Google Patents

지식 베이스 구축 방법 Download PDF

Info

Publication number
KR102497408B1
KR102497408B1 KR1020210084739A KR20210084739A KR102497408B1 KR 102497408 B1 KR102497408 B1 KR 102497408B1 KR 1020210084739 A KR1020210084739 A KR 1020210084739A KR 20210084739 A KR20210084739 A KR 20210084739A KR 102497408 B1 KR102497408 B1 KR 102497408B1
Authority
KR
South Korea
Prior art keywords
graph
knowledge
entity
entities
knowledge base
Prior art date
Application number
KR1020210084739A
Other languages
English (en)
Other versions
KR20230001773A (ko
Inventor
김기창
김대한
정근형
정구익
Original Assignee
주식회사 티맥스에이아이
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 티맥스에이아이 filed Critical 주식회사 티맥스에이아이
Priority to KR1020210084739A priority Critical patent/KR102497408B1/ko
Publication of KR20230001773A publication Critical patent/KR20230001773A/ko
Priority to KR1020230011510A priority patent/KR20230019190A/ko
Application granted granted Critical
Publication of KR102497408B1 publication Critical patent/KR102497408B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 개시의 몇몇 실시예에 따른, 적어도 하나의 프로세서를 포함하는 컴퓨팅 장치에 의해 수행되는 지식 베이스 구축 방법이 개시된다. 상기 지식 베이스 구축 방법은 적어도 하나의 데이터 서버로부터 수신된 데이터들에 전처리를 수행하여, 복수의 개체 및 상기 복수의 개체 각각을 설명하는 디스크립션(description)을 추출하는 단계; 상기 디스크립션으로부터 상기 복수의 개체 간의 관계를 분석하여 웨이트(weight) 및 디렉션 스코어(direction score)를 결정하는 단계; 상기 웨이트 및 상기 디렉션 스코어에 기초하여 제 1 지식 그래프를 생성하는 단계; 및 상기 제 1 지식 그래프에 임베딩(embedding)을 수행한 임베디드 그래프를 데이터베이스에 입력함으로써 지식 베이스를 구축하는 단계를 포함할 수 있다

Description

지식 베이스 구축 방법{METHOD FOR CONSTRUCTING KNOWLEDGE BASE}
본 개시는 지식 베이스 구축 방법에 관한 것으로, 구체적으로 특정 지식에 대한 정보를 그래프화하여 지식 베이스를 구축하는 방법에 관한 것이다.
지식 베이스는 전문가 시스템의 구성 요소 중 하나로, 특정 분야의 전문가가 지적 활동과 경험을 통해서 축적한 전문 지식이나 문제 해결에 필요한 사실과 규칙 등이 저장되어 있는 데이터베이스를 의미할 수 있다. 이러한 지식 베이스는 문제 해결의 방법이 전문가에 따라 다른 것과 마찬가지로, 대상으로 하는 문제를 개별로 구축해야 했다.
그러나, 이러한 개별적 지식 뿐만 아니라, 다양한 소스로부터 지식을 축적하고 통합 과정을 통해 서로의 콘텐츠를 연결할 필요성이 논의됨에 따라, 다양한 컨텐츠를 연결할 수 있는 지식 그래프 기반 지식 베이스에 대한 기술이 탄생하였다.
이러한 지식 그래프 기반 지식 베이스는 일반 지식으로부터 관계 트리플을 기준으로 두 개체 사이에 어떤 단순관계가 있는지 표현하고, 다른 관계 트리플과 병합하여 정보량을 확장하는데 주목적이 있을 수 있다. 여기서, 관계 트리플은 가장 일반적인 지식 추출 형식으로 문장 내부의 지식 정보를 주어, 서술어, 목적어의 관계로 표현하는 형식일 수 있다. 그러나, 관계 트리플만 이용하는 종래의 지식 그래프 기반의 지식 베이스는 복잡한 지식의 엄밀성을 표현하기에 한계가 있을 수 있다.
따라서, 지식 그래프 기반 지식 베이스에 대한 개발이 필요하다.
대한민국 공개특허 10-2011-0064833
본 개시는 전술한 배경기술에 대응하여 안출된 것으로, 개체 간 유사도를 반영할 수 있는 그래프 임베딩 기술을 이용하여 지식 베이스를 구축하는 방법을 제공하고자 한다.
본 개시의 기술적 과제들은 이상에서 언급한 기술적 과제로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
전술한 바와 같은 과제를 해결하기 위한 본 개시의 일 실시예에 따라, 적어도 하나의 프로세서를 포함하는 컴퓨팅 장치에 의해 수행되는 지식 베이스 구축 방법이 개시된다. 상기 지식 베이스 구축 방법은 적어도 하나의 데이터 서버로부터 수신된 데이터들에 전처리를 수행하여, 복수의 개체 및 상기 복수의 개체 각각을 설명하는 디스크립션(description)을 추출하는 단계; 상기 디스크립션으로부터 상기 복수의 개체 간의 관계를 분석하여 웨이트(weight) 및 디렉션 스코어(direction score)를 결정하는 단계; 상기 웨이트 및 상기 디렉션 스코어에 기초하여 제 1 지식 그래프를 생성하는 단계; 및 상기 제 1 지식 그래프에 임베딩(embedding)을 수행한 임베디드 그래프를 데이터베이스에 입력함으로써 지식 베이스를 구축하는 단계; 를 포함할 수 있다.
또한, 적어도 하나의 데이터 서버로부터 수신된 데이터들에 전처리를 수행하여, 복수의 개체 및 상기 복수의 개체 각각을 설명하는 디스크립션(description)을 추출하는 단계는, 상기 데이터들에 포함된 텍스트를 문장 단위로 파싱(parsing)하여 복수의 문장을 추출하는 단계; 상기 복수의 문장을 단어 단위로 토큰화(tokenizing)하는 단계; 상기 토큰화를 통해 생성된 복수의 토큰 각각에 품사 정보를 태깅하는 단계; 및 상기 품사 정보에 기초하여, 복수의 개체 및 상기 복수의 개체 각각을 설명하는 디스크립션을 추출하는 단계; 를 포함할 수 있다.
또한, 상기 디스크립션으로부터 상기 복수의 개체 간의 관계를 분석하여 웨이트(weight) 및 디렉션 스코어(direction score)를 결정하는 단계는, 상기 디스크립션이 추출된 경우, 상기 복수의 개체를 포함하는 개체 리스트 및 상기 복수의 개체와 상기 디스크립션의 쌍으로 구성된 페어(pair) 리스트를 생성하는 단계; 를 포함할 수 있다.
또한, 상기 웨이트는, 상기 복수의 문장 및 상기 개체 리스트 중 적어도 하나에 기초하여 결정될 수 있다.
또한, 상기 웨이트는, 상기 개체 리스트에 포함된 상기 복수의 개체 중 서로 다른 두개의 개체 간의 유관한 정도에 의해 결정될 수 있다.
또한, 상기 유관한 정도는, 상기 서로 다른 두개의 개체가 상기 복수의 문장 중 서로 다른 문장 내에서 유사한 위치에 출현한 빈도에 기초하여 결정될 수 있다.
또한, 상기 디렉션 스코어는, 상기 복수의 문장, 상기 개체 리스트 및 상기 페어 리스트 중 적어도 하나에 기초하여 결정될 수 있다.
또한, 상기 디스크립션으로부터 상기 복수의 개체 간의 관계를 분석하여 웨이트(weight) 및 디렉션 스코어(direction score)를 결정하는 단계는, 상기 복수의 문장을 분석하여 제 1 개체 및 상기 제 1 개체의 바로 다음에 후속하여 등장하는 빈도가 기 설정된 값 이상인 제 2 개체를 결정하는 단계; 및 상기 페어 리스트를 분석하여 상기 제 1 개체의 디스크립션 내에 상기 제 2 개체가 존재하는 경우, 상기 제 1 개체와 상기 제 2 개체 간의 상기 디렉션 스코어를 결정하는 단계; 를 포함할 수 있다.
또한, 상기 웨이트 및 상기 디렉션 스코어에 기초하여 제 1 지식 그래프를 생성하는 단계는, 상기 제 1 개체 및 상기 제 2 개체 간의 상기 웨이트 및 상기 디렉션 스코어 각각이 기 설정된 임계치 이상인 경우 상기 제 1 개체와 상기 제 2 개체 사이에 엣지를 형성하여 상기 제 1 지식 그래프를 생성하는 단계; 를 포함할 수 있다.
또한, 상기 디스크립션으로부터 상기 복수의 개체 간의 관계를 분석하여 웨이트(weight) 및 디렉션 스코어(direction score)를 결정하는 단계는, 상기 페어 리스트를 분석하여 제 1 개체의 디스크립션 내에 제 2 개체가 존재하는 경우, 상기 제 1 개체와 상기 제 2 개체 간의 상기 디렉션 스코어를 결정하는 단계; 를 포함할 수 있다.
또한, 상기 웨이트 및 상기 디렉션 스코어에 기초하여 제 1 지식 그래프를 생성하는 단계는, 상기 제 1 개체 및 상기 제 2 개체 간의 상기 웨이트 및 상기 디렉션 스코어 각각이 기 설정된 임계치 이상인 경우 상기 제 1 개체와 상기 제 2 개체 사이에 엣지를 형성하여 상기 제 1 지식 그래프를 생성하는 단계; 를 포함할 수 있다.
또한, 상기 제 1 지식 그래프는, 상기 복수의 개체의 개수에 기초하여, 제 1 크기를 갖는 제 1 차원으로 생성되고, 상기 임베디드 그래프는, 상기 제 1 크기보다 작은 제 2 크기를 갖도록 상기 제 1 지식 그래프에 임베딩을 수행하여 제 2 차원으로 생성될 수 있다.
또한, 상기 임베디드 그래프가 생성된 경우, 상기 제 1 지식 그래프에 기초하여 상기 임베디드 그래프의 성능을 평가하는 단계; 를 더 포함할 수 있다.
또한, 상기 임베디드 그래프가 생성된 경우, 상기 제 1 지식 그래프에 기초하여 상기 임베디드 그래프의 성능을 평가하는 단계는, 상기 임베디드 그래프를 재구축하여 상기 제 1 지식 그래프의 상기 제 1 차원과 동일한 차원을 갖는 제 2 지식 그래프를 생성하는 단계; 및 상기 제 2 지식 그래프 및 상기 제 1 지식 그래프 간의 유사도를 비교하여, 상기 임베디드 그래프의 성능을 측정하는 단계; 를 포함할 수 있다.
또한, 컴퓨팅 장치로서, 적어도 하나의 데이터 서버로부터 수신된 데이터들에 전처리를 수행하여, 복수의 개체 및 상기 복수의 개체 각각을 설명하는 디스크립션(description)을 추출하는 지식 추출부; 및 상기 디스크립션으로부터 상기 복수의 개체 간의 관계를 분석하여 웨이트(weight) 및 디렉션 스코어(direction score)를 결정하는 그래프 임베딩부; 를 포함하고, 상기 그래프 임베딩부는, 상기 웨이트 및 상기 디렉션 스코어에 기초하여 제 1 지식 그래프를 생성하고, 상기 제 1 지식 그래프에 임베딩(embedding)을 수행한 임베디드 그래프를 데이터베이스에 입력함으로써 지식 베이스를 구축할 수 있다.
본 개시에서 얻을 수 있는 기술적 해결 수단은 이상에서 언급한 해결 수단들로 제한되지 않으며, 언급하지 않은 또 다른 해결 수단들은 아래의 기재로부터 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
본 개시의 몇몇 실시예에 따르면, 개체 간의 복잡한 관계가 타당하게 반영된 지식 베이스를 구축하는 방법을 제공할 수 있도록 한다.
본 개시에서 얻을 수 있는 효과는 이상에서 언급한 효과로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
다양한 양상들이 이제 도면들을 참조로 기재되며, 여기서 유사한 참조 번호들은 총괄적으로 유사한 구성요소들을 지칭하는데 이용된다. 이하의 실시예에서, 설명 목적을 위해, 다수의 특정 세부사항들이 하나 이상의 양상들의 총체적 이해를 제공하기 위해 제시된다. 그러나, 그러한 양상(들)이 이러한 특정 세부사항들 없이 실시될 수 있음은 명백할 것이다. 다른 예시들에서, 공지의 구조들 및 장치들이 하나 이상의 양상들의 기재를 용이하게 하기 위해 블록도 형태로 도시된다.
도 1은 본 개시의 몇몇 실시예에 따른 컴퓨팅 장치의 일례를 설명하기 위한 블록 구성도이다.
도 2는 본 개시의 몇몇 실시예에 따른 컴퓨팅 장치의 일례를 설명하기 위한 도면이다.
도 3은 본 개시의 몇몇 실시예에 따른 컴퓨팅 장치가 지식 베이스를 구축하는 방법의 일례를 설명하기 위한 흐름도이다.
도 4는 본 개시의 몇몇 실시예에 따른 컴퓨팅 장치가 데이터들에 전처리를 수행하는 방법의 일례를 설명하기 위한 흐름도이다.
도 5는 본 개시의 몇몇 실시예에 따른 지식 추출부의 일례를 설명하기 위한 도면이다.
도 6은 본 개시의 몇몇 실시예에 따른 컴퓨팅 장치가 지식 베이스를 구축하는 방법의 일례를 설명하기 위한 흐름도이다.
도 7은 본 개시의 몇몇 실시예에 따른 그래프 임베딩부의 일례를 설명하기 위한 도면이다.
도 8은 본 개시의 몇몇 실시예에 따른 컴퓨팅 장치가 임베디드 그래프의 성능을 평가하는 방법의 일례를 설명하기 위한 흐름도이다.
도 9는 본 개시의 몇몇 실시예에 따른 성능 평가부의 일례를 설명하기 위한 도면이다.
도 10은 본 개시내용의 실시예들이 구현될 수 있는 예시적인 컴퓨팅 환경에 대한 일반적인 개략도를 도시한다.
다양한 실시예들 및/또는 양상들이 이제 도면들을 참조하여 개시된다. 하기 설명에서는 설명을 목적으로, 하나 이상의 양상들의 전반적 이해를 돕기 위해 다수의 구체적인 세부사항들이 개시된다. 그러나, 이러한 양상(들)은 이러한 구체적인 세부사항들 없이도 실행될 수 있다는 점 또한 본 개시의 기술 분야에서 통상의 지식을 가진 자에게 감지될 수 있을 것이다. 이후의 기재 및 첨부된 도면들은 하나 이상의 양상들의 특정한 예시적인 양상들을 상세하게 기술한다. 하지만, 이러한 양상들은 예시적인 것이고 다양한 양상들의 원리들에서의 다양한 방법들 중 일부가 이용될 수 있으며, 기술되는 설명들은 그러한 양상들 및 그들의 균등물들을 모두 포함하고자 하는 의도이다. 구체적으로, 본 명세서에서 사용되는 "실시예", "예", "양상", "예시" 등은 기술되는 임의의 양상 또는 설계가 다른 양상 또는 설계들보다 양호하다거나, 이점이 있는 것으로 해석되지 않을 수도 있다.
이하, 도면 부호에 관계없이 동일하거나 유사한 구성 요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략한다. 또한, 본 명세서에 개시된 실시예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 실시예의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 명세서에 개시된 실시예를 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 명세서에 개시된 기술적 사상이 제한되지 않는다.
비록 제 1, 제 2 등이 다양한 소자나 구성요소들을 서술하기 위해서 사용되나, 이들 소자나 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 소자나 구성요소를 다른 소자나 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제 1 소자나 구성요소는 본 발명의 기술적 사상 내에서 제 2 소자나 구성요소 일 수도 있음은 물론이다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.
더불어, 용어 "또는"은 배타적 "또는"이 아니라 내포적 "또는"을 의미하는 것으로 의도된다. 즉, 달리 특정되지 않거나 문맥상 명확하지 않은 경우에, "X는 A 또는 B를 이용한다"는 자연적인 내포적 치환 중 하나를 의미하는 것으로 의도된다. 즉, X가 A를 이용하거나; X가 B를 이용하거나; 또는 X가 A 및 B 모두를 이용하는 경우, "X는 A 또는 B를 이용한다"가 이들 경우들 어느 것으로도 적용될 수 있다. 또한, 본 명세서에 사용된 "및/또는"이라는 용어는 열거된 관련 아이템들 중 하나 이상의 아이템의 가능한 모든 조합을 지칭하고 포함하는 것으로 이해되어야 한다.
또한, "포함한다" 및/또는 "포함하는"이라는 용어는, 해당 특징 및/또는 구성요소가 존재함을 의미하지만, 하나 이상의 다른 특징, 구성요소 및/또는 이들의 그룹의 존재 또는 추가를 배제하지 않는 것으로 이해되어야 한다. 또한, 달리 특정되지 않거나 단수 형태를 지시하는 것으로 문맥상 명확하지 않은 경우에, 본 명세서와 청구범위에서 단수는 일반적으로 "하나 또는 그 이상"을 의미하는 것으로 해석되어야 한다.
더불어, 본 명세서에서 사용되는 용어 "정보" 및 "데이터"는 종종 서로 상호교환 가능하도록 사용될 수 있다.
어떤 구성 요소가 다른 구성 요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성 요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성 요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성 요소가 다른 구성 요소에 "직접 연결되어" 있다거나 "직접 접속되어"있다고 언급된 때에는, 중간에 다른 구성 요소가 존재하지 않는 것으로 이해되어야 할 것이다.
이하의 설명에서 사용되는 구성 요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다.
본 개시의 목적 및 효과, 그리고 그것들을 달성하기 위한 기술적 구성들은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 본 개시를 설명하는데 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 개시의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 개시에서의 기능을 고려하여 정의된 용어들로써 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다.
그러나 본 개시는 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있다. 단지 본 실시예들은 본 개시가 완전하도록 하고, 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 개시의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 개시는 청구항의 범주에 의해 정의될 뿐이다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
본 개시에서 지식 베이스 구축 방법은 복수의 개체(entity) 간의 관계를 나타낼 수 있는 지식 그래프에 기반하여 구축될 수 있다. 구체적으로, 본 개시에 따른 컴퓨팅 장치는 데이터 서버와 같은 외부 서버로부터 백과사전, 교과서 또는 매뉴얼과 같은 텍스트 데이터를 수신할 수 있다. 그리고, 컴퓨팅 장치는 수신된 데이터들에 전처리를 수행하여, 복수의 개체 및 복수의 개체 각각을 설명하는 디스크립션(description)을 추출할 수 있다. 디스크립션이 추출된 경우, 컴퓨팅 장치는 복수의 개체 각각을 노드(node)로 표현하고, 복수의 개체 간의 관계를 엣지(edge)로 표현하는 지식 그래프를 생성할 수 있다. 그리고, 컴퓨팅 장치는 생성된 지식 그래프에 임베딩(embedding)을 수행한 후, 데이터베이스에 입력함으로써 지식 베이스를 구축할 수 있다. 이하, 도 1 내지 도 10을 통해 본 개시에 따른 지식 베이스 구축 방법에 대해 설명한다.
도 1은 본 개시의 몇몇 실시예에 따른 컴퓨팅 장치의 일례를 설명하기 위한 블록 구성도이다. 도 2는 본 개시의 몇몇 실시예에 따른 컴퓨팅 장치의 일례를 설명하기 위한 도면이다.
도 1을 참조하면, 컴퓨팅 장치(100)는 프로세서(110), 지식 추출부(120), 그래프 임베딩부(130), 데이터베이스(140) 및 성능 평가부(150)를 포함할 수 있다. 다만, 상술한 구성 요소들은 컴퓨팅 장치(100)를 구현하는데 있어서 필수적인 것은 아니어서, 컴퓨팅 장치(100)는 위에서 열거된 구성요소들 보다 많거나, 또는 적은 구성요소들을 가질 수 있다.
컴퓨팅 장치(100)는 마이크로프로세서, 메인프레임 컴퓨터, 디지털 프로세서, 휴대용 디바이스 및 디바이스 제어기 등과 같은 임의의 타입의 컴퓨터 시스템 또는 컴퓨터 디바이스를 포함할 수 있다. 다만, 이에 한정되는 것은 아니다.
본 개시에서, 컴퓨팅 장치(100)는 통신부(미도시)를 통해 적어도 하나의 데이터 서버로부터 데이터를 수신할 수 있다. 여기서, 컴퓨팅 장치(100)가 수신하는 데이터는 백과사전, 교과서 또는 매뉴얼 등과 같이 지식 베이스를 구축하기 위한 텍스트 형식의 데이터일 수 있다. 그리고, 컴퓨팅 장치(100)는 수신된 데이터들에 전처리를 수행하여, 복수의 개체 및 복수의 개체 각각을 설명하는 디스크립션(description)을 추출할 수 있다. 여기서, 개체는 표현하려는 유형, 무형의 실체로써 서로 구별되는 것을 의미할 수 있다. 그리고, 디스크립션은 개체를 설명하는 문장일 수 있다. 디스크립션이 추출된 경우, 컴퓨팅 장치는 복수의 개체 각각을 노드(node)로 표현하고, 복수의 개체 간의 관계를 엣지(edge)로 표현하는 제 1 지식 그래프를 생성할 수 있다. 여기서, 엣지는 복수의 개체 간의 관계를 표현하는 것으로서, 제 1 지식 그래프에서 선과 같이 표현될 수 있다. 그리고, 컴퓨팅 장치(100)는 생성된 제 1 지식 그래프에 임베딩(embedding)을 수행한 후, 데이터베이스에 입력함으로써 지식 베이스를 구축할 수 있다. 이하, 본 개시에 따른 컴퓨팅 장치(100)가 지식 베이스를 구축하는 방법의 일례는 도 3을 통해 설명한다.
한편, 컴퓨팅 장치(100)는 지식 베이스가 구축된 경우, 구축된 지식 베이스의 성능을 평가할 수 있다. 구체적으로, 컴퓨팅 장치(100)는 지식 베이스가 구축된 경우 또는 제 1 지식 그래프에 임베딩을 수행하여 임베디드 그래프가 생성된 경우, 임베디드 그래프의 성능을 평가함으로써 지식 베이스의 성능을 평가할 수 있다. 일례로, 컴퓨팅 장치(100)는 임베디드 그래프를 재구축한 제 2 지식 그래프와 기 생성된 제 1 지식 그래프를 비교함으로써, 임베디드 그래프의 성능을 평가할 수 있다. 그리고, 컴퓨팅 장치(100)는 임베디드 그래프의 성능을 평가함으로써, 지식 베이스의 성능을 평가할 수 있다. 환언하자면, 컴퓨팅 장치(100)는 제 1 지식 그래프의 임베딩이 올바르게 수행되었는지를 평가함으로써, 지식 베이스의 성능을 평가할 수 있다. 이하, 본 개시에 따른 컴퓨팅 장치(100)가 구축된 지식 베이스의 성능을 평가하는 방법의 일례는 도 8 및 도 9를 통해 설명한다.
한편, 프로세서(110)는 통상적으로 컴퓨팅 장치(100)의 전반적인 동작을 제어할 수 있다. 프로세서(110)는 위에서 살펴본 구성요소들을 통해 입력 또는 출력되는 신호, 데이터, 정보 등을 처리하거나 데이터베이스(140)에 저장된 응용 프로그램을 구동함으로써, 사용자에게 적절한 정보 또는 기능을 제공 또는 처리할 수 있다.
한편, 지식 추출부(120)는 통신부를 통해 적어도 하나의 데이터 서버로부터 수신된 데이터들에 전처리를 수행하여, 복수의 개체(entity) 및 복수의 개체 각각을 설명하는 디스크립션(description)을 추출할 수 있다. 여기서, 개체는 표현하려는 유형, 무형의 실체로써 서로 구별되는 것을 의미할 수 있다. 그리고, 디스크립션은 개체를 설명하는 문장일 수 있다.
예를 들어, '방정식이란 미지수에 따라 참이 되기도 하고 거짓이 되기도 하는 등식을 말한다.'라는 문장에서, '방정식', '미지수', '참', '거짓', '등식' 등은 개체일 수 있다. 그리고, '방정식'이라는 개체를 설명하는 '방정식이란 미지수에 따라 참이 되기도 하고 거짓이 되기도 하는 등식을 말한다.'는 문장은 디스크립션일 수 있다. 실시예에 따라, 백과사전, 교과서 또는 매뉴얼 등으로부터 추출된 문장에서 주어가 개체에 해당될 수 있다. 그리고, 주어 및 주어의 뒤에 위치하는 문장이 디스크립션에 해당될 수 있다. 다만, 이에 한정되는 것은 아니다.
한편, 도 2를 참조하면, 지식 추출부(Knowledge Extractor, 120)는 데이터 파서(Data Parser, 121), 개체 추출부(Entity Extractor, 122) 및 디스크립션 추출부(Description Extractor, 123)를 포함할 수 있다. 다만, 이에 한정되는 것은 아니다.
데이터 파서(121)는 적어도 하나의 데이터 서버(200)로부터 수신된 데이터들에 포함된 텍스트를 단락 또는 문장 단위로 파싱(parsing)할 수 있다. 예를 들어, 데이터 파서(121)는 '방정식이란 미지수에 따라 참이 되기도 하고 거짓이 되기도 하는 등식을 말한다. 여기서, 미지수란 방정식에서 구하려고 하는 수, 또는 그것을 나타내는 글자를 말한다.'와 같은 텍스트로부터 '방정식이란 미지수에 따라 참이 되기도 하고 거짓이 되기도 하는 등식을 말한다.'는 문장 및 '여기서, 미지수란 방정식에서 구하려고 하는 수, 또는 그것을 나타내는 글자를 말한다.'는 문장을 추출할 수 있다. 다만, 이에 한정되는 것은 아니다.
한편, 개체 추출부(122)는 데이터 파서(121)에 의해 추출된 복수의 문장을 단어 또는 형태소 단위로 토큰화(tokenizing)할 수 있다. 예를 들어, 개체 추출부(122)는 '방정식이란 미지수에 따라 참이 되기도 하고 거짓이 되기도 하는 등식을 말한다.'는 문장을 '방정식, 미지수, 참, 거짓 및 등식' 등의 단어 또는 형태소 단위로 토큰화할 수 있다. 다만, 이에 한정되는 것은 아니다.
한편, 디스크립션 추출부(123)는 토큰화를 통해 생성된 복수의 토큰 각각을 설명하는 디스크립션을 추출할 수 있다. 예를 들어, 디스크립션 추출부(123)는 '방정식이란 미지수에 따라 참이 되기도 하고 거짓이 되기도 하는 등식을 말한다.'라는 문장에서 '방정식' 개체를 설명하는 '방정식이란 미지수에 따라 참이 되기도 하고 거짓이 되기도 하는 등식을 말한다.'는 디스크립션을 추출할 수 있다. 다만, 이에 한정되는 것은 아니다.
한편, 본 개시의 몇몇 실시예에 따르면, 지식 추출부(120)는 개체 추출부(122)에 의해 생성된 복수의 토큰 각각에 품사 정보를 태깅할 수 있다. 이 경우, 디스크립션 추출부(123)는 품사 정보에 기초하여, 개체를 설명하는 디스크립션을 추출할 수 있다. 다만, 이에 한정되는 것은 아니다. 이하, 본 개시에 따른 지식 추출부(120)가 통신부를 통해 적어도 하나의 데이터 서버로부터 수신된 데이터들에 전처리를 수행하여, 복수의 개체 및 디스크립션을 추출하는 방법의 일례는 도 4 내지 도 6을 통해 설명한다.
한편, 다시 도 1을 참조하면, 그래프 임베딩부(130)는 지식 추출부(120)로부터 추출된 디스크립션으로부터, 복수의 개체 간의 관계를 분석할 수 있다. 실시예에 따라, 지식 추출부(120)는 데이터 파서(121)를 통해 복수의 문장을 추출할 수 있다. 그리고, 지식 추출부(120)는 개체 추출부(122)가 토큰화한 개체에 기초하여, 개체 리스트를 생성할 수 있다. 또한, 지식 추출부(120)는 디스크립션 추출부(123)가 디스크립션을 추출한 경우, 개체와 디스크립션의 쌍으로 구성된 페어(pair) 리스트를 생성할 수 있다. 이 경우, 그래프 임베딩부(130)는 복수의 문장, 개체 리스트 및 페어 리스트 중 적어도 하나에 기초하여 웨이트(weight) 및 디렉션 스코어(direction score)를 추출할 수 있다.
구체적으로, 도 2를 참조하면, 그래프 임베딩부(Graph Embedder, 130)는 웨이트 추출부(Weight Extractor, 131), 디렉션 스코어 추출부(Direction Score Extractor, 132) 및 그래프 임베딩 모듈(Graph Embedding Module, 133)을 포함할 수 있다. 다만, 이에 한정되는 것은 아니다.
웨이트 추출부(131)는 지식 추출부(120)에 의해 추출된 디스크립션으로부터 복수의 개체 간의 관계를 분석하여 웨이트를 결정할 수 있다. 여기서, 웨이트는 복수의 개체 중 서로 다른 두개의 개체 간의 유관한 정도에 의해 결정되는 결과 값일 수 있다. 예를 들어, '이차방정식의 해'를 설명하는 문장에서 '이차방정식' 개체와 '해' 개체가 함께 등장하는 경우가 많기 때문에 '이차방정식'과 '해'의 두 개체는 높은 웨이트를 가질 수 있다. 한편, 본 개시에서, 웨이트 추출부(131)는 복수의 문장, 개체 리스트 및 페어 리스트 중 적어도 하나에 기초하여 복수의 개체 간의 관계를 분석할 수도 있다. 그리고, 웨이트 추출부(131)는 분석 결과에 기초하여 웨이트를 결정할 수 있다. 다만, 이에 한정되는 것은 아니다.
한편, 디렉션 스코어 추출부(132)는 지식 추출부(120)에 의해 추출된 디스크립션으로부터 복수의 개체 간의 관계를 분석하여 디렉션 스코어를 결정할 수 있다. 여기서, 디렉션 스코어는 복수의 개체 간의 선후행관계를 나타내는 스코어일 수 있다. 선후행관계는 하나의 개체를 설명함에 있어서 필요한 이전 단계 지식에 해당되는 개체와의 관계를 의미할 수 있다. 예를 들어, '방정식이란 미지수에 따라 참이 되기도 하고 거짓이 되기도 하는 등식을 말한다.'라는 문장으로부터 '방정식'이라는 개체의 디스크립션에 등장하는 '등식'과 같은 개체가 이에 해당할 수 있다. 이 경우, '방정식' 개체는 '등식' 개체에 선행한다고 결정될 수 있다. 또한, '등식' 개체는 '방정식' 개체에 후행한다고 결정될 수 있다. 한편, 본 개시에서, 디렉션 스코어 추출부(132)는 복수의 문장, 개체 리스트, 페어 리스트 및 웨이트 중 적어도 하나에 기초하여 복수의 개체 간의 관계를 분석할 수도 있다. 그리고, 디렉션 스코어 추출부(132)는 분석 결과에 기초하여 디렉션 스코어를 추출할 수 있다. 다만, 이에 한정되는 것은 아니다.
한편, 그래프 임베딩 모듈(133)은 웨이트 추출부(131)를 통해 추출된 웨이트 및 디렉션 스코어 추출부(132)를 통해 추출된 디렉션 스코어에 기초하여 생성된 제 1 지식 그래프에 임베딩을 수행할 수 있다.
구체적으로, 그래프 임베딩부(130)는 웨이트 및 디렉션 스코어에 기초하여 제 1 지식 그래프를 생성할 수 있다. 실시예에 따라, 그래프 임베딩부(130)는 복수의 개체 각각을 노드로 표현하고, 디렉션 스코어를 엣지로 표현하는 제 1 지식 그래프를 생성할 수 있다. 이 경우, 제 1 지식 그래프의 차원은 복수의 개체의 개수에 대응될 수 있다. 그리고, 그래프 임베딩 모듈(133)은 제 1 지식 그래프에 임베딩을 수행하여 임베디드 그래프를 생성할 수 있다. 여기서, 제 1 지식 그래프에 수행되는 임베딩은 그래프를 벡터 또는 벡터 집합으로 변환해주는 것을 의미할 수 있다. 일례로, 도 7을 참조하면, 그래프 임베딩부(130)는 제 1 지식 그래프(1321)를 생성할 수 있다. 그리고, 그래프 임베딩 모듈(133)은 그래프 임베딩부(130)가 생성한 제 1 지식 그래프(1321)에 임베딩을 수행하여, 벡터 또는 벡터 집합으로 표현되는 임베디드 그래프(134)를 생성할 수 있다. 임베디드 그래프(134)는 제 1 지식 그래프(1321)와 같이 노드 및 엣지로 표현되는 일반적인 그래프에 비하여, 압축된 표현이 가능한 그래프일 수 있다. 예를 들어, 지식 그래프에서 노드의 개수를 N이라고 할 때, 인접행렬의 크기는 N X N일 수 있다. 반면, 임베디드 그래프의 경우, 노드의 개수를 N이라고 할 때, 인접행렬의 크기가 N X 차원 수 일 수 있다. 즉, 노드의 개수가 1만개인 그래프를 20차원에 임베딩한다고 가정하면, 지식 그래프의 인접행렬의 크기는 1억이고 임베디드 그래프의 인접행렬의 크기는 20만일 수 있다. 따라서, 본 발명에서는 지식 그래프가 아닌 임베디드 그래프를 이용하여 지식 베이스를 구축함으로써, 머신 러닝 또는 CNN과 같은 네트워크 모델이 더욱 편리하게 활용될 수 있도록 야기할 수 있다. 다만, 이에 한정되는 것은 아니다. 이하, 본 개시에 따른 그래프 임베딩부(130)가 제 1 지식 그래프(1321)에 임베딩을 수행하여 임베디드 그래프(134)를 생성하는 방법의 일례는 도 6 및 도 7을 통해 설명한다.
한편, 본 개시의 몇몇 실시예에 따르면, 그래프 임베딩부(130)의 그래프 임베딩 모듈(133)은 사용자로부터의 입력에 기초하여, 임베디드 그래프의 차원을 결정할 수 있다. 다른 실시예로, 그래프 임베딩 모듈(133)은 제 1 지식 그래프의 차원을 기 설정된 비율 또는 기 설정된 크기로 축소하여 임베디드 그래프의 차원을 결정할 수도 있다. 다만, 이에 한정되는 것은 아니다.
한편, 다시 도 1을 참조하면, 데이터베이스(140)는 메모리 및/또는 영구저장매체를 포함할 수 있다. 메모리는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(Random Access Memory, RAM), SRAM(Static Random Access Memory), 롬(Read-Only Memory, ROM), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다.
본 개시에서, 데이터베이스(140)는 프로세서(110)가 생성하거나 결정한 임의의 형태의 정보 및 통신부가 수신한 임의의 형태의 정보를 저장할 수 있다. 일례로, 프로세서(110)는 그래프 임베딩부(130)가 생성한 임베디드 그래프를 데이터베이스(140)에 입력함으로써 지식 베이스를 구축할 수 있다. 또는, 그래프 임베딩부(130)가 임베디드 그래프를 데이터베이스(140)에 입력함으로써 지식 베이스를 구축할 수도 있다. 다만, 이에 한정되는 것은 아니다.
한편, 성능 평가부(150)는 임베디드 그래프가 생성된 경우, 제 1 지식 그래프에 기초하여 임베디드 그래프의 성능을 평가할 수 있다. 여기서, 임베디드 그래프의 성능을 평가한다는 것은 임베딩이 제대로 수행되었는지를 확인하는 것일 수 있다. 그리고, 임베딩이 제대로 수행된 경우, 임베디드 그래프의 성능이 높게 평가될 수 있고, 이는 지식 베이스의 성능이 좋은 것으로 판단될 수 있다. 다만, 이에 한정되는 것은 아니다.
한편, 도 2를 참조하면 성능 평가부(Knowledge Graph Evaluator, 150)는 그래프 재구축부(Graph Reconstructor, 151) 및 그래프 유사성 평가부(Graph Similarity Evaluator, 152)를 포함할 수 있다. 다만, 이에 한정되는 것은 아니다.
그래프 재구축부(151)는 데이터베이스(140)에 저장된 임베디드 그래프를 임베딩 이전의 차원으로 재구축하여 제 2 지식 그래프를 생성할 수 있다. 일례로, 그래프 재구축부(151)는 제 1 지식 그래프와 동일한 차원을 갖도록 임베디드 그래프를 재구축하여 제 2 지식 그래프를 생성할 수 있다. 구체적으로, 제 1 지식 그래프의 차원은 개체 리스트에 포함된 복수의 개체 중 서로 관련이 있는 제 1 개체 및 제 2 개체의 수에 대응될 수 있다. 또한, 그래프 재구축부(151)는 임베디드 그래프를 재구축하여 제 2 지식 그래프를 생성함에 있어서, 제 2 지식 그래프의 차원을 제 1 지식 그래프의 차원에 대응하도록 결정할 수 있다. 따라서, 제 2 지식 그래프 및 제 1 지식 그래프의 차원은 동일할 수 있다. 반면, 임베딩이 수행되는 경우, 제 2 지식 그래프에 포함된 개체 간의 관계는 제 1 지식 그래프에 포함된 개체 간의 관계와 상이해질 수 있다. 실시예에 따라, 제 2 지식 그래프에 엣지로 표현된 제 2 디렉션 스코어는 제 1 지식 그래프에 엣지로 표현된 제 1 디렉션 스코어와 상이할 수 있다. 제 2 디렉션 스코어와 제 1 디렉션 스코어가 상이할수록, 그래프 임베딩부(130)의 그래프 임베딩 모듈(133)이 수행한 제 1 지식 그래프에 대한 임베딩이 제대로 수행되지 않은 것을 나타낼 수 있다. 따라서, 이를 검증하기 위하여 성능 평가부(150)의 그래프 유사성 평가부(152)는 제 1 지식 그래프 및 제 2 지식 그래프를 비교할 수 있다.
그래프 유사성 평가부(152)는 제 2 지식 그래프 및 제 1 지식 그래프 간의 유사도를 비교하여, 임베디드 그래프의 성능을 측정할 수 있다. 일례로, 그래프 유사성 평가부(152)는 유사도 측정 알고리즘 등을 이용하여, 제 2 지식 그래프 및 제 1 지식 그래프 간의 유사도를 비교할 수 있다.
구체적으로, 그래프 유사성 평가부(152)는 제 2 지식 그래프의 엣지를 표현하는 제 2 디렉션 스코어 및 제 1 지식 그래프의 엣지를 표현하는 제 1 디렉션 스코어를 비교하여, 임베디드 그래프의 성능을 측정할 수 있다. 그리고, 그래프 유사성 평가부(152)는 제 2 지식 그래프와 제 1 지식 그래프의 유사성에 비례하여, 임베디드 그래프의 성능을 평가할 수 있다. 환언하자면, 그래프 유사성 평가부(152)는 제 2 지식 그래프와 제 1 지식 그래프의 유사성이 높다고 결정된 경우, 임베디드 그래프의 성능이 좋다고 결정할 수 있다. 그리고, 성능 평가부(150)는 임베디드 그래프의 성능에 기초하여, 지식 베이스의 성능을 결정할 수 있다. 실시예에 따라, 성능 평가부(150)는 임베디드 그래프의 성능에 비례하여 지식 베이스의 성능을 결정할 수 있다. 다만, 이에 한정되는 것은 아니다. 이하, 본 개시에 따른 성능 평가부(150)가 임베디드 그래프의 성능을 평가하는 방법의 일례는 도 8 및 도 9를 통해 설명한다.
상술한 바와 같이, 본 개시에 따른 컴퓨팅 장치(100)는 외부 서버로부터 수신된 데이터를 개체 단위로 분석하여 세분화하고, 이를 통해 지식 베이스를 구축할 수 있다. 생성된 지식 베이스는 개체 간의 복잡한 관계가 반영된 지식 그래프에 기초하여 구축됨에 따라, 지식의 검색과 추론을 통한 질의응답 등에 활용될 수 있다. 뿐만 아니라, 성능 평가부(150)를 통해 임베딩 성능 평가 기능을 제공하기 때문에 컴퓨팅 장치(100) 또는 사용자는 복수의 개체 간의 복잡한 관계가 타당하게 성립된 것인지에 대해 판단할 수 있다. 더하여, 컴퓨팅 장치(100)는 데이터가 수시로 추가 또는 삭제되더라도 평가 결과를 기반으로 지식 베이스를 효율적으로 유지 보수할 수 있다.
도 3은 본 개시의 몇몇 실시예에 따른 컴퓨팅 장치가 지식 베이스를 구축하는 방법의 일례를 설명하기 위한 흐름도이다.
도 3을 참조하면, 컴퓨팅 장치(100)의 지식 추출부(120)는 적어도 하나의 데이터 서버로부터 수신된 데이터들에 전처리를 수행하여, 복수의 개체 및 복수의 개체 각각을 설명하는 디스크립션을 추출할 수 있다(S110).
구체적으로, 지식 추출부(120)는 통신부를 통해 적어도 하나의 데이터 서버로부터 수신된 데이터들에 전처리를 수행할 수 있다. 여기서, 전처리는 파싱, 토큰화 및 품사 정보 태깅 동작 등이 포함될 수 있다. 다만, 이에 한정되는 것은 아니다. 이하, 지식 추출부(120)가 수행하는 전처리에 대한 동작은 도 4를 통해 설명한다.
한편, 지식 추출부(120)는 수신된 데이터들에 전처리를 수행한 경우, 복수의 개체 및 복수의 개체 각각을 설명하는 디스크립션을 추출할 수 있다. 여기서, 복수의 개체는 표현하려는 유형, 무형의 실체로써 서로 구별되는 것을 의미할 수 있다. 그리고, 디스크립션은 개체를 설명하는 문장일 수 있다.
예를 들어, '방정식이란 미지수에 따라 참이 되기도 하고 거짓이 되기도 하는 등식을 말한다.'라는 문장에서, '방정식', '미지수', '참', '거짓', '등식' 등은 개체일 수 있다. 그리고, '방정식'이라는 개체를 설명하는 '방정식이란 미지수에 따라 참이 되기도 하고 거짓이 되기도 하는 등식을 말한다.'는 문장은 디스크립션일 수 있다. 다만, 이에 한정되는 것은 아니다.
한편, 본 개시에서는 지식 추출부(120)에 의해 복수의 개체 및 디스크립션이 추출되는 동작을 설명하였으나, 본 개시에 따른 동작은 전반적으로 프로세서(110)에 의해 수행될 수도 있다. 이하에서 설명할 동작들도 마찬가지로 "모듈" 또는 "부" 등의 구성 요소에 의해 수행되는 것으로 기재하였으나, 프로세서(110)에 의해 수행될 수 있음은 제한되지 않으며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
한편, 그래프 임베딩부(130)는 디스크립션으로부터 복수의 개체 간의 관계를 분석하여 웨이트 및 디렉션 스코어를 결정할 수 있다(S120).
본 개시의 몇몇 실시예에 따르면, 웨이트는 개체 리스트에 포함된 복수의 개체 중 서로 다른 두개의 개체 간의 유관한 정도에 의해 결정되는 결과 값일 수 있다. 여기서, 유관한 정도는 서로 다른 두개의 개체가 복수의 문장 중 서로 다른 문장 내에서 유사한 위치에 출현한 빈도에 기초하여 결정되는 것일 수 있다. 그리고, 유사한 위치에 출현한다는 의미는 비슷한 위치에 출현한다는 의미와 대응될 수 있다. 환언하자면, 그래프 임베딩부(130)는 개체 리스트에 포함된 복수의 개체 중 서로 다른 두개의 개체 간의 유관한 정도에 기초하여, 두 개체 간의 웨이트를 결정할 수 있다.
예를 들어, '이차방정식의 해'를 설명하는 문장에서 '이차방정식' 개체와 '해' 개체가 함께 등장하는 경우가 많기 때문에 '이차방정식'과 '해'의 두 개체는 높은 웨이트를 가질 수 있다. 다만, 이에 한정되는 것은 아니다.
한편, 개체 리스트는 외부 서버로부터 수신된 데이터에 포함된 모든 개체를 기록 또는 저장한 리스트일 수 있다.
구체적으로, 지식 추출부(120)는 수신된 데이터들에 전처리를 수행한 경우, 복수의 개체를 추출할 수 있고, 추출된 복수의 개체를 포함하는 개체 리스트를 생성할 수 있다. 또한, 지식 추출부(120)는 수신된 데이터들에 전처리를 수행하여 복수의 문장을 추출할 수 있다. 이 경우, 그래프 임베딩부(130)는 복수의 문장 및 개체 리스트 중 적어도 하나에 기초하여, 웨이트를 결정할 수 있다. 실시예에 따라, 지식 추출부(120)는 디스크립션이 추출된 경우, 복수의 개체와 디스크립션의 쌍으로 구성된 페어 리스트를 생성할 수 있다. 예를 들어, 지식 추출부(120)는 '방정식이란 미지수에 따라 참이 되기도 하고 거짓이 되기도 하는 등식을 말한다.'라는 문장으로부터, '방정식'이라는 개체를 추출할 수 있고, '방정식이란 미지수에 따라 참이 되기도 하고 거짓이 되기도 하는 등식을 말한다.'는 디스크립션을 추출할 수 있다. 이 경우, 지식 추출부(120)는 개체인 '방정식'과 디스크립션인 '방정식이란 미지수에 따라 참이 되기도 하고 거짓이 되기도 하는 등식을 말한다.'가 쌍을 이루도록 페어 리스트를 생성할 수 있다. 그리고, 그래프 임베딩부(130)는 복수의 문장, 개체 리스트 및 페어 리스트 중 적어도 하나에 기초하여, 웨이트를 결정할 수도 있다. 다만, 이에 한정되는 것은 아니다.
한편, 디렉션 스코어는 복수의 개체 간의 선후행관계를 나타내는 스코어 또는 결과값일 수 있다. 여기서, 선후행관계는 하나의 개체를 설명함에 있어서 필요한 이전 단계 지식에 해당되는 개체와의 관계를 의미할 수 있다. 예를 들어, '방정식이란 미지수에 따라 참이 되기도 하고 거짓이 되기도 하는 등식을 말한다.'라는 문장에서 '방정식'이라는 개체의 디스크립션에 등장하는 '미지수'와 같은 개체가 선후행관계에 해당할 수 있다. 이 경우, '방정식' 개체는 '미지수' 개체에 선행한다고 결정될 수 있다. 또한, '미지수' 개체는 '방정식' 개체에 후행한다고 결정될 수 있다. 한편, 그래프 임베딩부(130)는 복수의 문장, 개체 리스트, 페어 리스트 및 웨이트 중 적어도 하나에 기초하여 디렉션 스코어를 결정할 수 있다. 다만, 이에 한정되는 것은 아니다.
한편, 본 개시의 몇몇 실시예에 따르면, 그래프 임베딩부(130)는 복수의 문장을 분석하여 제 1 개체 및 제 1 개체의 바로 다음에 후속하여 등장하는 빈도가 기 설정된 값 이상인 제 2 개체를 결정할 수 있다. 그리고, 그래픽 임베딩부(130)는 복수의 문장, 개체 리스트 및 페어 리스트에 기초하여 제 1 개체와 제 2 개체 간의 디렉션 스코어를 결정할 수 있다. 즉, 그래프 임베딩부(130)는 제 1 개체와 제 2 개체를 우선적으로 선택하고, 제 1 개체와 제 2 개체 간의 디렉션 스코어를 결정할 수 있다.
일례로, 그래프 임베딩부(130)는 복수의 문장을 분석하여 복수의 문장 각각에서'방정식'이라는 개체가 존재하고 '방정식'이라는 개체 바로 다음에 '미지수'라는 개체가 기 설정된 값 이상의 빈도를 갖도록 후속하여 등장한다고 인식한 경우, '방정식'이라는 개체를 제 1 개체로, '미지수'라는 개체를 제 2 개체로 결정할 수 있다. 실시예에 따라, 제 1 개체 및 제 2 개체를 결정하는 동작은 두 개체 간의 웨이트를 결정하는 동작에 대응할 수 있다. 그리고, 그래프 임베딩부(130)는 페어 리스트를 분석하여 제 1 개체의 디스크립션 내에 제 2 개체가 존재하는 경우, 제 1 개체와 제 2 개체 간의 디렉션 스코어를 결정할 수 있다.
다른 실시예로, 그래프 임베딩부(130)는 개체 리스트 및 페어 리스트에 기초하여 디렉션 스코어를 결정할 수도 있다. 다만, 이에 한정되는 것은 아니다. 이하, 본 개시에 따른 그래프 임베딩부(130)가 디렉션 스코어를 결정하는 방법은 도 6을 통해 설명한다.
한편, 그래프 임베딩부(130)는 웨이트 및 디렉션 스코어에 기초하여 제 1 지식 그래프를 생성할 수 있다(S130). 여기서, 제 1 지식 그래프는 복수의 개체 각각이 노드로 표현되고, 디렉션 스코어가 엣지로 표현된 그래프일 수 있다.
구체적으로, 그래프 임베딩부(130)는 제 1 개체 및 제 2 개체 간의 웨이트 및 디렉션 스코어 각각이 기 설정된 임계치(threshold) 이상인 경우, 제 1 개체와 제 2 개체 사이에 엣지를 형성하여 제 1 지식 그래프를 생성할 수 있다. 즉, 그래프 임베딩부(130)는 두개의 간의 웨이트가 기 설정된 임계치 이상이고, 두개의 간의 디렉션 스코어도 기 설정된 임계치 이상인 경우, 두 개의 개체 사이에 엣지를 형성하여 제 1 지식 그래프를 생성할 수 있다. 이 경우, 엣지는 두개의 개체 간의 관계를 나타낼 수 있고, 예를 들어 엣지는 두 개의 개체 간의 디렉션 스코어를 나타낼 수 있다. 다만, 이에 한정되는 것은 아니다.
한편, 본 개시에서 제 1 지식 그래프는 복수의 개체의 개수에 기초하여, 제 1 크기를 갖는 제 1 차원으로 생성될 수 있다.
구체적으로, 그래프 임베딩부(130)는 제 1 개체 및 제 2 개체 간의 웨이트 및 디렉션 스코어 각각이 기 설정된 임계치 이상인 경우, 제 1 개체 및 제 2 개체의 개수에 기초하여, 제 1 크기를 갖는 제 1 차원으로 제 1 지식 그래프를 생성할 수 있다. 예를 들어, 그래프 임베딩부(130)는 제 1 개체 및 제 2 개체의 개수에 대응하는 제 1 크기를 갖도록 제 1 지식 그래프의 제 1 차원을 결정할 수 있다. 다만, 이에 한정되는 것은 아니다.
한편, 실시예에 따라, 그래프 임베딩부(130)는 제 1 지식 그래프를 생성함에 있어서, 개체 리스트에 포함된 개체의 개수에 기초하여, 제 1 지식 그래프의 제 1 차원을 결정할 수도 있다. 예를 들어, 그래프 임베딩부(130)는 개체 리스트에 포함된 개체의 개수에 대응하는 제 1 크기를 갖도록 제 1 지식 그래프의 제 1 차원을 결정할 수 있다. 다만, 이에 한정되는 것은 아니다.
한편, 그래프 임베딩부(130)는 제 1 지식 그래프에 임베딩(embedding)을 수행한 임베디드 그래프를 데이터베이스(140)에 입력함으로써 지식 베이스를 구축할 수 있다(S140). 여기서, 임베디드 그래프는 제 1 지식 그래프가 벡터 또는 벡터 집합으로 변환되어 표현된 그래프일 수 있다. 또한, 임베디드 그래프는 제 1 지식 그래프와 같이 노드 및 엣지로 표현되는 일반적인 그래프에 비하여, 압축된 표현이 가능한 그래프일 수 있다. 이 경우, 임베디드 그래프를 이용하여 구축된 지식 베이스는 머신 러닝 또는 DNN과 같은 네트워크 모델이 효율적으로 활용될 수 있다. 따라서, 그래프 임베딩부(130)는 제 1 지식 그래프에 임베딩을 수행한 임베디드 그래프를 데이터베이스(140)에 입력함으로써 지식 베이스를 구축할 수 있다. 다만, 이에 한정되는 것은 아니다.
한편, 본 개시의 몇몇 실시예에 따르면, 임베디드 그래프의 제 2 차원은 제 1 지식 그래프의 제 1 차원의 제 1 크기보다 작은 제 2 크기를 갖도록 제 1 지식 그래프에 임베딩을 수행하여 생성될 수 있다.
구체적으로, 그래프 임베딩부(130)는 사용자로부터의 입력에 기초하여, 제 2 차원의 크기가 제 1 크기보다 작은 제 2 크기를 갖도록 제 1 지식 그래프에 임베딩을 수행하여 임베디드 그래프를 생성할 수 있다. 다른 실시예로, 그래프 임베딩부(130)는 제 1 지식 그래프의 제 1 차원을 기 설정된 비율 또는 기 설정된 크기로 축소하여 임베디드 그래프의 제 2 차원을 결정할 수도 있다. 다만, 이에 한정되는 것은 아니다.
상술한 바와 같이, 본 개시에 따른 컴퓨팅 장치(100)는 임베디드 그래프를 데이터베이스(140)에 입력함으로써 지식 베이스를 구축할 수 있다. 이를 통해 컴퓨팅 장치(100)는 개체 간의 복잡한 관계가 반영된 지식 베이스를 구축할 수 있다. 따라서, 본 발명에 따른 지식 베이스 구축 방법에 의해 구축된 지식 베이스는 지식의 검색과 추론을 통한 질의응답에 있어서 탁월하게 활용될 수 있다.
한편, 본 개시의 몇몇 실시예에 따르면, 컴퓨팅 장치(100)의 지식 추출부(120)는 복수의 개체 및 복수의 개체 각각을 설명하는 디스크립션을 추출하기 위해 적어도 하나의 데이터 서버로부터 수신된 데이터들에 전처리를 수행할 수 있다. 이하, 도 4 및 도 5를 통해 본 개시에 따른 지식 추출부(120)가 수신된 데이터들에 전처리를 수행하는 방법의 일례를 설명한다.
도 4는 본 개시의 몇몇 실시예에 따른 컴퓨팅 장치가 데이터들에 전처리를 수행하는 방법의 일례를 설명하기 위한 흐름도이다. 도 5는 본 개시의 몇몇 실시예에 따른 지식 추출부의 일례를 설명하기 위한 도면이다.
도 4를 참조하면, 컴퓨팅 장치(100)의 지식 추출부(120)는 적어도 하나의 데이터 서버로부터 수신된 데이터들에 포함된 텍스트를 문장 단위로 파싱하여 복수의 문장을 추출할 수 있다(S111).
본 개시에서, 파싱은 텍스트를 문장 단위로 분리하는 동작을 의미할 수 있다.
일례로, 도 5를 참조하면, 지식 추출부(120)의 데이터 파서(121)는 통신부를 통해 적어도 하나의 데이터 서버(200)로부터 수신된 데이터들에 파싱을 수행할 수 있다.
예를 들어, 데이터 파서(121)는 '방정식이란 미지수에 따라 참이 되기도 하고 거짓이 되기도 하는 등식을 말한다. 여기서, 미지수란 방정식에서 구하려고 하는 수, 또는 그것을 나타내는 글자를 말한다.'와 같은 텍스트를 통신부를 통해 수신하거나, 또는 프로세서(110)에 의해 입력 받을 수 있다. 이 경우, 데이터 파서(121)는 '방정식이란 미지수에 따라 참이 되기도 하고 거짓이 되기도 하는 등식을 말한다.'는 문장 및 '여기서, 미지수란 방정식에서 구하려고 하는 수, 또는 그것을 나타내는 글자를 말한다.'는 문장으로 파싱하여 복수의 문장(Parsed data, 1211)을 추출할 수 있다. 다만, 이에 한정되는 것은 아니다.
한편, 다시 도 4를 참조하면, 컴퓨팅 장치(100)의 지식 추출부(120)는 추출된 복수의 문장(1211)을 단어 단위로 토큰화할 수 있다(S112).
본 개시에서, 토큰화는 문장을 단어 단위로 분리하는 동작을 의미할 수 있다.
예를 들어, 지식 추출부(120)는 '방정식이란 미지수에 따라 참이 되기도 하고 거짓이 되기도 하는 등식을 말한다.'는 문장을 '방정식, 미지수, 참, 거짓 및 등식' 등의 단어 또는 형태소 단위로 토큰화할 수 있다. 다만, 이에 한정되는 것은 아니다.
한편, 컴퓨팅 장치(100)의 지식 추출부(120)는 토큰화를 통해 생성된 복수의 토큰 각각에 품사 정보를 태깅(tagging)할 수 있다(S113). 여기서, 품사 정보는 복수의 토큰 각각의 품사를 나타내기 위한 정보일 수 있다.
예를 들어, '방정식, 미지수, 참, 거짓 및 등식' 등의 토큰은 명사일 수 있다. 따라서, 지식 추출부(120)는 '방정식'토큰에 명사라는 정보를 태깅할 수 있다. 일례로, 지식 추출부(120)는 품사 정보 태깅(POS Tagging) 기법을 활용하여 복수의 토큰 각각에 품사 정보를 태깅할 수 있다. 다만, 이에 한정되는 것은 아니다.
한편, 컴퓨팅 장치(100)의 지식 추출부(120)는 품사 정보에 기초하여, 복수의 개체 및 복수의 개체 각각을 설명하는 디스크립션을 추출할 수 있다(S114).
예를 들어, 지식 추출부(120)는 품사 정보에 기초하여 '방정식'은 명사라고 결정된 경우, '방정식'을 개체로 결정할 수 있다. 그리고, 지식 추출부(120)는 '방정식'을 설명하는 '방정식이란 미지수에 따라 참이 되기도 하고 거짓이 되기도 하는 등식을 말한다.'는 디스크립션을 추출할 수 있다. 다만, 이에 한정되는 것은 아니고, 지식 추출부(120)는 명사 뿐만 아니라 대명사, 수사, 조사, 동사, 형용사, 관형사, 부사 및 감탄사를 개체로 결정할 수도 있고, 영어의 8품사에 기초하여 개체를 결정할 수도 있다.
한편, 본 개시의 몇몇 실시예에 따르면 지식 추출부(120)는 복수의 개체가 추출된 경우, 복수의 개체를 포함하는 개체 리스트를 생성할 수 있다. 또한, 지식 추출부(120)는 복수의 개체 및 디스크립션이 추출된 경우, 복수의 개체와 디스크립션의 쌍으로 구성된 페어 리스트를 생성할 수 있다.
구체적으로, 도 5를 참조하면, 지식 추출부(120)의 개체 추출부(122)는 데이터 파서(121)에 의해 복수의 문장(1211)이 추출된 경우, 복수의 문장(1211)으로부터 복수의 개체를 추출할 수 있다. 그리고, 개체 추출부(122)는 추출된 복수의 개체를 포함하는 개체 리스트(Entity 리스트, 1221)를 생성할 수 있다.
예를 들어, 개체 추출부(122)는 '방정식, 미지수, 참, 거짓 및 등식'등의 개체가 추출된 경우, '방정식, 미지수, 참, 거짓 및 등식'을 포함하는 개체 리스트(1221)를 생성할 수 있다. 다만, 이에 한정되는 것은 아니다.
또한, 지식 추출부(120)의 디스크립션 추출부(123)는 데이터 파서(121)에 의해 복수의 문장(1211)이 추출된 경우, 복수의 문장(1211)으로부터 디스크립션을 추출할 수 있다. 그리고, 디스크립션 추출부(123)는 복수의 개체와 디스크립션의 쌍으로 구성된 페어 리스트(Entity-Description Pair, 1231)를 생성할 수 있다. 다만, 이에 한정되는 것은 아니다.
상술한 구성에 따르면, 컴퓨팅 장치(100)의 지식 추출부(120)는 적어도 하나의 데이터 서버(200)로부터 통신부를 통해 수신된 데이터들에 전처리를 수행할 수 있다. 그리고, 지식 추출부(120)는 전처리의 결과로 복수의 문장(1211)을 추출하고 또한, 개체 리스트(1221) 및 페어 리스트(1231)를 생성할 수 있다. 이 경우, 그래프 임베딩부(130)는 복수의 문장(1211), 개체 리스트(1221) 및 페어 리스트(1231) 중 적어도 하나에 기초하여 지식 베이스를 구축하기 위한 임베디드 그래프를 생성할 수 있다. 이하, 도 6 및 도 7을 통해 본 개시에 따른 그래프 임베딩부(130)가 지식 베이스를 구축하는 방법의 일례를 설명한다.
도 6은 본 개시의 몇몇 실시예에 따른 컴퓨팅 장치가 지식 베이스를 구축하는 방법의 일례를 설명하기 위한 흐름도이다. 도 7은 본 개시의 몇몇 실시예에 따른 그래프 임베딩부의 일례를 설명하기 위한 도면이다.
도 6을 참조하면, 컴퓨팅 장치(100)의 그래프 임베딩부(130)는 복수의 문장(1211)을 분석하여 제 1 개체 및 제 1 개체의 바로 다음에 후속하여 등장하는 빈도가 기 설정된 값 이상인 제 2 개체를 결정할 수 있다(S121).
일례로, 그래프 임베딩부(130)는 복수의 문장을 분석하여 복수의 문장 각각에서'방정식'이라는 개체가 존재하고 '방정식'이라는 개체 바로 다음에 '미지수'라는 개체가 기 설정된 값 이상의 빈도를 갖도록 후속하여 등장한다고 인식한 경우, '방정식'이라는 개체를 제 1 개체로, '미지수'라는 개체를 제 2 개체로 결정할 수 있다. 실시예에 따라, 제 1 개체 및 제 2 개체를 결정하는 동작은 두 개체 간의 웨이트를 결정하는 동작에 대응할 수 있다.
한편, 도 7을 참조하면, 그래프 임베딩부(130)의 웨이트 추출부(131)는 복수의 문장(1211)을 분석하여 제 1 개체 및 제 1 개체의 바로 다음에 후속하여 등장하는 빈도가 기 설정된 값 이상인 제 2 개체 간의 웨이트를 결정할 수 있다. 실시예에 따라, 웨이트 추출부(131)는 복수의 문장(1211), 개체 리스트(1221) 및 페어 리스트(1231) 중 적어도 하나에 기초하여 제 1 개체 및 제 2 개체 간의 웨이트를 결정할 수도 있다.
일례로, 복수의 문장(1211)에서 '방정식' 개체와 '미지수' 개체가 함께 등장하는 경우가 많기 때문에, 웨이트 추출부(131)는 '방정식'과 '미지수'의 두 개체가 높은 웨이트를 가진다고 결정할 수 있다. 실시예에 따르면, 웨이트는 서로 다른 두개의 개체 간의 유관한 정도에 의해 결정될 수 있다. 여기서, 유관한 정도는, 서로 다른 두개의 개체가 유사한 위치에 출현한 빈도에 기초하여 결정될 수 있다. 따라서, '방정식' 개체와 '미지수' 개체는 유관한 정도가 높다고 판단될 수 있고, '방정식' 개체와 '미지수' 개체는 높은 웨이트를 가진다고 결정될 수 있다. 다만, 이에 한정되는 것은 아니다.
한편, 다시 도 6을 참조하면, 컴퓨팅 장치(100)의 그래프 임베딩부(130)는 페어 리스트(1231)를 분석하여 제 1 개체의 디스크립션 내에 제 2 개체가 존재하는 경우, 제 1 개체와 제 2 개체 간의 디렉션 스코어를 결정할 수 있다(S122).
일례로, 그래프 임베딩부(130)는 페어리스트(1231)에 기초하여 '방정식' 개체는 '방정식이란 미지수에 따라 참이 되기도 하고 거짓이 되기도 하는 등식을 말한다.'라는 디스크립션과 쌍을 이룬다고 인식할 수 있다. 이 경우, 그래프 임베딩부(130)는 '방정식'이라는 제 1 개체의 디스크립션 내에 '미지수'라는 제 2 개체가 존재한다고 결정할 수 있다. 제 1 개체의 디스크립션 내에 제 2 개체가 존재한다고 결정된 경우, 그래프 임베딩부(130)는 제 1 개체와 제 2 개체 간의 디렉션 스코어를 결정할 수 있다.
한편, 본 개시의 몇몇 실시예에 따르면, 그래프 임베딩부(130)는 복수의 문장(1211), 개체 리스트(1221), 페어 리스트(1231) 및 웨이트 중 적어도 하나에 기초하여 제 1 개체 및 제 2 개체 간의 디렉션 스코어를 결정할 수도 있다.
일례로, 도 7을 참조하면, 그래프 임베딩부(130)의 디렉션 스코어 추출부(132)는 복수의 문장(1211), 개체 리스트(1221), 페어 리스트(1231) 및 웨이트 중 적어도 하나에 기초하여 제 1 개체 및 제 2 개체 간의 디렉션 스코어를 결정할 수도 있다. 다만, 이에 한정되는 것은 아니다.
한편, 본 개시의 몇몇 실시예에 따르면, 디렉션 스코어 추출부(132)는 단계(S121)를 생략하고, 제 1 개체와 제 2 개체 간의 디렉션 스코어를 결정할 수도 있다.
구체적으로, 디렉션 스코어 추출부(132)는 복수의 문장(1211)을 분석하여 제 1 개체 및 제 2 개체를 결정하지 않고, 페어 리스트(1231)만 분석할 수도 있다. 그리고, 디렉션 스코어 추출부(132)는 페어 리스트(1231)를 분석하여 제 1 개체의 디스크립션 내에 제 2 개체가 존재하는 경우, 제 1 개체와 제 2 개체 간의 디렉션 스코어를 결정할 수 있다. 다만, 이에 한정되는 것은 아니다.
한편, 그래프 임베딩부(130)는 웨이트 및 디렉션 스코어가 결정된 경우, 웨이트 및 디렉션 스코어에 기초하여 제 1 지식 그래프(1321)를 생성할 수 있다.
구체적으로, 그래프 임베딩부(130)는 제 1 개체 및 제 2 개체 간의 웨이트 및 디렉션 스코어 각각이 기 설정된 임계치 이상인 경우, 제 1 개체와 제 2 개체 사이에 엣지를 형성하여 제 1 지식 그래프(1321)를 생성할 수 있다.
예를 들어, 그래프 임베딩부(130)는 제 1 개체 및 제 2 개체를 노드로 표현하고, 제 1 개체 및 제 2 개체 사이의 관계를 엣지로 표현하는 제 1 지식 그래프(1321)를 생성할 수 있다. 이 경우, 엣지는 디렉션 스코어일 수 있다. 다만, 이에 한정되는 것은 아니다.
한편, 본 개시의 몇몇 실시예에 따르면, 제 1 지식 그래프(1321)의 제 1 차원은 복수의 개체의 개수에 기초하여 제 1 크기를 갖도록 생성될 수 있다.
구체적으로, 그래프 임베딩부(130)는 제 1 개체 및 제 2 개체 간의 웨이트 및 디렉션 스코어 각각이 기 설정된 임계치 이상인 경우, 제 1 개체 및 제 2 개체의 개수에 기초하여, 제 1 크기를 갖는 제 1 차원으로 제 1 지식 그래프(1321)를 생성할 수 있다. 예를 들어, 그래프 임베딩부(130)는 제 1 개체 및 제 2 개체의 개수에 대응하는 제 1 크기를 갖도록 제 1 지식 그래프(1321)의 제 1 차원을 결정할 수 있다. 다만, 이에 한정되는 것은 아니다.
한편, 본 개시의 몇몇 실시예에 따르면, 그래프 임베딩부(130)는 웨이트 및 디렉션 스코어 각각이 기 설정된 임계치 미만인 제 3 개체 및 제 4 개체는 제 1 지식 그래프(1321)에 포함시키지 않거나 또는 표현하지 않을 수 있다. 다만, 이에 한정되는 것은 아니다.
한편, 제 1 지식 그래프(1321)가 생성된 경우, 그래프 임베딩부(130)의 그래프 임베딩 모듈(133)은 제 1 지식 그래프(1321)에 임베딩을 수행하여 임베디드 그래프(134)를 생성할 수 있다. 실시예에 따라, 그래프 임베딩부(130)는 사용자로부터의 입력에 기초하여, 제 1 크기보다 작은 제 2 크기를 갖는 제 2 차원으로 생성되도록 제 1 지식 그래프에 임베딩을 수행하여 임베디드 그래프(134)를 생성할 수 있다. 다른 실시예로, 그래프 임베딩부(130)는 제 1 지식 그래프의 제 1 차원을 기 설정된 비율 또는 기 설정된 크기로 축소하여 임베디드 그래프(134)의 제 2 차원을 결정할 수도 있다. 그리고, 그래프 임베딩부(130)는 생성된 임베디드 그래프(134)를 데이터베이스(140)에 입력함으로써 지식 베이스를 구축할 수 있다. 다만, 이에 한정되는 것은 아니다.
상술한 구성에 따르면, 컴퓨팅 장치(100)는 복수의 개체 간의 관계를 분석하여, 지식 그래프를 생성하고, 지식 그래프를 임베딩한 임베디드 그래프를 이용하여 지식 베이스를 구축할 수 있다. 따라서, 본 개시에 따른 지식 베이스는 복수의 개체 간의 복잡한 관계가 반영되었기 때문에, 지식의 검색과 추론에 대한 질의응답 정확하고 신속하게 이루어질 수 있다.
한편, 본 개시의 몇몇 실시예에 따르면, 컴퓨팅 장치(100)는 임베디드 그래프(134)가 생성된 경우, 생성된 임베디드 그래프(134)의 성능을 평가할 수 있다. 그럼으로써, 컴퓨팅 장치(100)는 지식 베이스의 성능을 평가할 수도 있다. 이하, 도 8 및 도 9를 통해 본 개시에 따른 지식 추출부(120)가 수신된 데이터들에 전처리를 수행하는 방법의 일례를 설명한다.
도 8은 본 개시의 몇몇 실시예에 따른 컴퓨팅 장치가 임베디드 그래프의 성능을 평가하는 방법의 일례를 설명하기 위한 흐름도이다. 도 9는 본 개시의 몇몇 실시예에 따른 성능 평가부의 일례를 설명하기 위한 도면이다.
도 8을 참조하면, 컴퓨팅 장치(100)의 성능 평가부(150)는 임베디드 그래프(134)를 재구축하여 제 1 지식 그래프(1321)의 제 1 차원과 동일한 차원을 갖는 제 2 지식 그래프(1511)를 생성할 수 있다(S210).
구체적으로, 도 9를 참조하면, 성능 평가부(150)의 그래프 재구축부(151)는 데이터베이스(140)로부터 불러온 임베디드 그래프(134)를 재구축하여, 제 1 지식 그래프(1321)의 제 1 차원과 동일한 차원을 갖는 제 2 지식 그래프(1511)를 생성할 수 있다.
구체적으로, 그래프 재구축부(151)는 제 1 지식 그래프(1321)와 관련된 정보에 기초하여, 제 1 지식 그래프(1321)의 제 1 차원을 인식할 수 있다. 다만, 이에 한정되는 것은 아니고, 그래프 재구축부(151)는 제 1 지식 그래프(1321)가 생성될 당시의 제 1 개체 및 제 2 개체의 개수에 기초하여, 제 2 지식 그래프(1511)의 제 2 차원을 결정할 수도 있다.
한편, 다시 도 8을 참조하면, 컴퓨팅 장치(100)의 성능 평가부(150)는 제 2 지식 그래프(1511) 및 제 1 지식 그래프(1321) 간의 유사도를 비교하여, 임베디드 그래프(134)의 성능을 측정할 수 있다(S220). 여기서, 유사도는 제 2 지식 그래프(1511)와 제 1 지식 그래프(1321)가 유사한 정도를 나타내는 값일 수 있다. 일례로, 성능 평가부(150)는 유사도 측정 알고리즘 등을 이용하여, 제 2 지식 그래프(1511) 및 제 1 지식 그래프(1321) 간의 유사도를 비교할 수 있다.
구체적으로, 도 9를 참조하면, 그래프 유사성 평가부(152)는 제 2 지식 그래프(1511)의 엣지를 표현하는 제 2 디렉션 스코어 및 제 1 지식 그래프(1321)의 엣지를 표현하는 제 1 디렉션 스코어를 비교하여, 임베디드 그래프(134)의 성능을 측정할 수 있다. 실시예에 따라, 제 2 지식 그래프(1511)와 제 1 지식 그래프(1321)의 차원은 동일할 수 있다. 이는 제 2 지식 그래프(1511)의 차원은 제 1 지식 그래프(1321)의 제 1 차원에 기초하여 결정되었기 때문일 수 있다. 그러나, 그래프 재구축부(151)가 임베디드 그래프(134)를 재구축함에 따라, 임베디드 그래프(134)에 포함된 제 1 개체 및 제 2 개체 간의 관계가 재정립되어, 제 2 지식 그래프(1511)가 생성될 수 있다. 이 경우, 제 1 지식 그래프(1321)의 엣지와 제 2 지식 그래프(1511)의 엣지는 상이할 수 있고, 상이한 엣지의 수가 많을수록 제 1 지식 그래프(1321)에 수행된 임베딩의 성능이 좋지 못하였음을 나타낼 수 있다. 즉, 제 2 지식 그래프(1511)와 제 1 지식 그래프(1321)가 상이할수록 임베디드 그래프(134)의 성능이 좋지 못함을 나타낼 수 있고, 이는 지식 베이스가 제대로 구축되지 않았음을 나타낼 수 있다. 일례로, 도면을 참조하면, 제 2 지식 그래프(1511)의 제 1 엣지(e1)는 제 1 지식 그래프(1321)에서는 존재하지 않던 엣지일 수 있다. 다른 일례로, 제 1 지식 그래프(1321)에는 존재하던 제 2 엣지(e2)가 제 2 지식 그래프(1511)에는 존재하지 않을 수도 있다. 이와 같은 제 1 엣지(e1) 또는 제 2 엣지(e2)에 대응하여 제 2 지식 그래프(1511)에 존재했어야 하지만 존재하지 않는 엣지는 임베디드 그래프(134)의 성능을 하락시키는 요인일 수 있다. 이는 복수의 개체 간의 관계가 제대로 드러나지 않았기 때문일 수 있고, 이에 따라 지식 베이스의 성능에 저하를 일으킬 수 있다.
따라서, 성능 평가부(150)는 제 1 지식 그래프(1321) 및 제 2 지식 그래프(1511)의 유사도를 비교하여, 임베디드 그래프(134)의 성능을 측정한 결과를 점수(score) 등으로 나타낼 수 있다. 또는, 성능 평가부(150)에 의해 임베디드 그래프(134)의 성능을 측정한 결과가 도출된 경우, 그래프 임베딩부(130)는 도출된 결과에 기초하여, 임베디드 그래프(134)를 재생성할 수도 있다. 일례로, 그래프 임베딩부(130)는 성능 평가부(150)로부터 도출된 결과가 기 설정된 값 미만인 경우, 제 1 지식 그래프(1321)에 임베딩을 다시 수행하여 제 2 임베디드 그래프를 생성할 수도 있다. 다만, 이에 한정되는 것은 아니다.
상술한 바와 같이, 본 개시에 따른 컴퓨팅 장치(100)는 외부 서버로부터 수신된 데이터를 개체 단위로 분석하여 세분화하고, 이를 통해 지식 베이스를 구축할 수 있다. 생성된 지식 베이스는 개체 간의 관계가 반영된 지식 그래프를 통해 구축됨에 따라, 개체 간의 복잡성이 내포되어 있을 수 있다. 더하여, 컴퓨팅 장치(100)는 데이터가 수시로 추가 또는 삭제되더라도 임베디드 그래프의 성능 평가 결과를 기반으로 지식 베이스를 유지 보수할 수 있다.
도 10은 본 개시내용의 실시예들이 구현될 수 있는 예시적인 컴퓨팅 환경에 대한 일반적인 개략도를 도시한다.
본 개시내용이 일반적으로 하나 이상의 컴퓨터 상에서 실행될 수 있는 컴퓨터 실행가능 명령어와 관련하여 전술되었지만, 당업자라면 본 개시내용 기타 프로그램 모듈들과 결합되어 및/또는 하드웨어와 소프트웨어의 조합으로서 구현될 수 있다는 것을 잘 알 것이다.
일반적으로, 본 명세서에서의 모듈은 특정의 태스크를 수행하거나 특정의 추상 데이터 유형을 구현하는 루틴, 프로시져, 프로그램, 컴포넌트, 데이터 구조, 기타 등등을 포함한다. 또한, 당업자라면 본 개시의 방법이 단일-프로세서 또는 멀티프로세서 컴퓨터 시스템, 미니컴퓨터, 메인프레임 컴퓨터는 물론 퍼스널 컴퓨터, 핸드헬드 컴퓨팅 장치, 마이크로프로세서-기반 또는 프로그램가능 가전 제품, 기타 등등(이들 각각은 하나 이상의 연관된 장치와 연결되어 동작할 수 있음)을 비롯한 다른 컴퓨터 시스템 구성으로 실시될 수 있다는 것을 잘 알 것이다.
본 개시의 설명된 실시예들은 또한 어떤 태스크들이 통신 네트워크를 통해 연결되어 있는 원격 처리 장치들에 의해 수행되는 분산 컴퓨팅 환경에서 실시될 수 있다. 분산 컴퓨팅 환경에서, 프로그램 모듈은 로컬 및 원격 메모리 저장 장치 둘다에 위치할 수 있다.
컴퓨터는 통상적으로 다양한컴퓨터 판독가능 매체를 포함한다. 컴퓨터에 의해 액세스 가능한 매체 로서, 휘발성 및 비휘발성 매체, 일시적(transitory) 및 비일시적(non-transitory) 매체, 이동식 및 비-이동식 매체를 포함한다. 제한이 아닌 예로서, 컴퓨터 판독가능 매체는 컴퓨터 판독가능 저장 매체 및 컴퓨터 판독가능 전송 매체를 포함할 수 있다.
컴퓨터 판독가능 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보를 저장하는 임의의 방법 또는 기술로 구현되는 휘발성 및 비휘발성 매체, 일시적 및 비-일시적 매체, 이동식 및 비이동식 매체를 포함한다. 컴퓨터 판독가능 저장 매체는 RAM, ROM, EEPROM, 플래시 메모리 또는 기타 메모리 기술, CD-ROM, DVD(digital video disk) 또는 기타 광 디스크 저장 장치, 자기 카세트, 자기 테이프, 자기 디스크 저장 장치 또는 기타 자기 저장 장치, 또는 컴퓨터에 의해 액세스될 수 있고 원하는 정보를 저장하는 데 사용될 수 있는 임의의 기타 매체를 포함하지만, 이에 한정되지 않는다.
컴퓨터 판독가능 전송 매체는 통상적으로 반송파(carrier wave) 또는 기타 전송 메커니즘(transport mechanism)과 같은 피변조 데이터 신호(modulated data signal)에 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터등을 구현하고 모든 정보 전달 매체를 포함한다. 피변조 데이터 신호라는 용어는 신호 내에 정보를 인코딩하도록 그 신호의 특성들 중 하나 이상을 설정 또는 변경시킨 신호를 의미한다. 제한이 아닌 예로서, 컴퓨터 판독가능 전송 매체는 유선 네트워크 또는 직접 배선 접속(direct-wired connection)과 같은 유선 매체, 그리고 음향, RF, 적외선, 기타 무선 매체와 같은 무선 매체를 포함한다. 상술된 매체들 중 임의의 것의 조합도 역시 컴퓨터 판독가능 전송 매체의 범위 안에 포함되는 것으로 한다.
컴퓨터(1102)를 포함하는 본 개시의 여러가지 측면들을 구현하는 예시적인 환경(1100)이 나타내어져 있으며, 컴퓨터(1102)는 처리 장치(1104), 시스템 메모리(1106) 및 시스템 버스(1108)를 포함한다. 시스템 버스(1108)는 시스템 메모리(1106)(이에 한정되지 않음)를 비롯한 시스템 컴포넌트들을 처리 장치(1104)에 연결시킨다. 처리 장치(1104)는 다양한 상용 프로세서들 중 임의의 프로세서일 수 있다. 듀얼 프로세서 및 기타 멀티프로세서 아키텍처도 역시 처리 장치(1104)로서 이용될 수 있다.
시스템 버스(1108)는 메모리 버스, 주변장치 버스, 및 다양한 상용 버스 아키텍처 중 임의의 것을 사용하는 로컬 버스에 추가적으로 상호 연결될 수 있는 몇 가지 유형의 버스 구조 중 임의의 것일 수 있다. 시스템 메모리(1106)는 판독 전용 메모리(ROM)(1110) 및 랜덤 액세스 메모리(RAM)(1112)를 포함한다. 기본 입/출력 시스템(BIOS)은 ROM, EPROM, EEPROM 등의 비휘발성 메모리(1110)에 저장되며, 이 BIOS는 시동 중과 같은 때에 컴퓨터(1102) 내의 구성요소들 간에 정보를 전송하는 일을 돕는 기본적인 루틴을 포함한다. RAM(1112)은 또한 데이터를 캐싱하기 위한 정적 RAM 등의 고속 RAM을 포함할 수 있다.
컴퓨터(1102)는 또한 내장형 하드 디스크 드라이브(HDD)(1114)(예를 들어, EIDE, SATA)―이 내장형 하드 디스크 드라이브(1114)는 또한 적당한 섀시(도시 생략) 내에서 외장형 용도로 구성될 수 있음―, 자기 플로피 디스크 드라이브(FDD)(1116)(예를 들어, 이동식 디스켓(1118)으로부터 판독을 하거나 그에 기록을 하기 위한 것임), 및 광 디스크 드라이브(1120)(예를 들어, CD-ROM 디스크(1122)를 판독하거나 DVD 등의 기타 고용량 광 매체로부터 판독을 하거나 그에 기록을 하기 위한 것임)를 포함한다. 하드 디스크 드라이브(1114), 자기 디스크 드라이브(1116) 및 광 디스크 드라이브(1120)는 각각 하드 디스크 드라이브 인터페이스(1124), 자기 디스크 드라이브 인터페이스(1126) 및 광 드라이브 인터페이스(1128)에 의해 시스템 버스(1108)에 연결될 수 있다. 외장형 드라이브 구현을 위한 인터페이스(1124)는 예를 들어, USB(Universal Serial Bus) 및 IEEE 1394 인터페이스 기술 중 적어도 하나 또는 그 둘 다를 포함한다.
이들 드라이브 및 그와 연관된 컴퓨터 판독가능 매체는 데이터, 데이터 구조, 컴퓨터 실행가능 명령어, 기타 등등의 비휘발성 저장을 제공한다. 컴퓨터(1102)의 경우, 드라이브 및 매체는 임의의 데이터를 적당한 디지털 형식으로 저장하는 것에 대응한다. 상기에서의 컴퓨터 판독가능 저장 매체에 대한 설명이 HDD, 이동식 자기 디스크, 및 CD 또는 DVD 등의 이동식 광 매체를 언급하고 있지만, 당업자라면 집 드라이브(zip drive), 자기 카세트, 플래쉬 메모리 카드, 카트리지, 기타 등등의 컴퓨터에 의해 판독가능한 다른 유형의 저장 매체도 역시 예시적인 운영 환경에서 사용될 수 있으며 또 임의의 이러한 매체가 본 개시의 방법들을 수행하기 위한 컴퓨터 실행가능 명령어를 포함할 수 있다는 것을 잘 알 것이다.
운영 체제(1130), 하나 이상의 애플리케이션 프로그램(1132), 기타 프로그램 모듈(1134) 및 프로그램 데이터(1136)를 비롯한 다수의 프로그램 모듈이 드라이브 및 RAM(1112)에 저장될 수 있다. 운영 체제, 애플리케이션, 모듈 및/또는 데이터의 전부 또는 그 일부분이 또한 RAM(1112)에 캐싱될 수 있다. 본 개시가 여러가지 상업적으로 이용가능한 운영 체제 또는 운영 체제들의 조합에서 구현될 수 있다는 것을 잘 알 것이다.
사용자는 하나 이상의 유선/무선 입력 장치, 예를 들어, 키보드(1138) 및 마우스(1140) 등의 포인팅 장치를 통해 컴퓨터(1102)에 명령 및 정보를 입력할 수 있다. 기타 입력 장치(도시 생략)로는 마이크, IR 리모콘, 조이스틱, 게임 패드, 스타일러스 펜, 터치 스크린, 기타 등등이 있을 수 있다. 이들 및 기타 입력 장치가 종종 시스템 버스(1108)에 연결되어 있는 입력 장치 인터페이스(1142)를 통해 처리 장치(1104)에 연결되지만, 병렬 포트, IEEE 1394 직렬 포트, 게임 포트, USB 포트, IR 인터페이스, 기타 등등의 기타 인터페이스에 의해 연결될 수 있다.
모니터(1144) 또는 다른 유형의 디스플레이 장치도 역시 비디오 어댑터(1146) 등의 인터페이스를 통해 시스템 버스(1108)에 연결된다. 모니터(1144)에 부가하여, 컴퓨터는 일반적으로 스피커, 프린터, 기타 등등의 기타 주변 출력 장치(도시 생략)를 포함한다.
컴퓨터(1102)는 유선 및/또는 무선 통신을 통한 원격 컴퓨터(들)(1148) 등의 하나 이상의 원격 컴퓨터로의 논리적 연결을 사용하여 네트워크화된 환경에서 동작할 수 있다. 원격 컴퓨터(들)(1148)는 워크스테이션, 서버 컴퓨터, 라우터, 퍼스널 컴퓨터, 휴대용 컴퓨터, 마이크로프로세서-기반 오락 기기, 피어 장치 또는 기타 통상의 네트워크 노드일 수 있으며, 일반적으로 컴퓨터(1102)에 대해 기술된 구성요소들 중 다수 또는 그 전부를 포함하지만, 간략함을 위해, 메모리 저장 장치(1150)만이 도시되어 있다. 도시되어 있는 논리적 연결은 근거리 통신망(LAN)(1152) 및/또는 더 큰 네트워크, 예를 들어, 원거리 통신망(WAN)(1154)에의 유선/무선 연결을 포함한다. 이러한 LAN 및 WAN 네트워킹 환경은 사무실 및 회사에서 일반적인 것이며, 인트라넷 등의 전사적 컴퓨터 네트워크(enterprise-wide computer network)를 용이하게 해주며, 이들 모두는 전세계 컴퓨터 네트워크, 예를 들어, 인터넷에 연결될 수 있다.
LAN 네트워킹 환경에서 사용될 때, 컴퓨터(1102)는 유선 및/또는 무선 통신 네트워크 인터페이스 또는 어댑터(1156)를 통해 로컬 네트워크(1152)에 연결된다. 어댑터(1156)는 LAN(1152)에의 유선 또는 무선 통신을 용이하게 해줄 수 있으며, 이 LAN(1152)은 또한 무선 어댑터(1156)와 통신하기 위해 그에 설치되어 있는 무선 액세스 포인트를 포함하고 있다. WAN 네트워킹 환경에서 사용될 때, 컴퓨터(1102)는 모뎀(1158)을 포함할 수 있거나, WAN(1154) 상의 통신 서버에 연결되거나, 또는 인터넷을 통하는 등, WAN(1154)을 통해 통신을 설정하는 기타 수단을 갖는다. 내장형 또는 외장형 및 유선 또는 무선 장치일 수 있는 모뎀(1158)은 직렬 포트 인터페이스(1142)를 통해 시스템 버스(1108)에 연결된다. 네트워크화된 환경에서, 컴퓨터(1102)에 대해 설명된 프로그램 모듈들 또는 그의 일부분이 원격 메모리/저장 장치(1150)에 저장될 수 있다. 도시된 네트워크 연결이 예시적인 것이며 컴퓨터들 사이에 통신 링크를 설정하는 기타 수단이 사용될 수 있다는 것을 잘 알 것이다.
컴퓨터(1102)는 무선 통신으로 배치되어 동작하는 임의의 무선 장치 또는 개체, 예를 들어, 프린터, 스캐너, 데스크톱 및/또는 휴대용 컴퓨터, PDA(portable data assistant), 통신 위성, 무선 검출가능 태그와 연관된 임의의 장비 또는 장소, 및 전화와 통신을 하는 동작을 한다. 이것은 적어도 Wi-Fi 및 블루투스 무선 기술을 포함한다. 따라서, 통신은 종래의 네트워크에서와 같이 미리 정의된 구조이거나 단순하게 적어도 2개의 장치 사이의 애드혹 통신(ad hoc communication)일 수 있다.
Wi-Fi(Wireless Fidelity)는 유선 없이도 인터넷 등으로의 연결을 가능하게 해준다. Wi-Fi는 이러한 장치, 예를 들어, 컴퓨터가 실내에서 및 실외에서, 즉 기지국의 통화권 내의 아무 곳에서나 데이터를 전송 및 수신할 수 있게 해주는 셀 전화와 같은 무선 기술이다. Wi-Fi 네트워크는 안전하고 신뢰성 있으며 고속인 무선 연결을 제공하기 위해 IEEE 802.11(a,b,g, 기타)이라고 하는 무선 기술을 사용한다. 컴퓨터를 서로에, 인터넷에 및 유선 네트워크(IEEE 802.3 또는 이더넷을 사용함)에 연결시키기 위해 Wi-Fi가 사용될 수 있다. Wi-Fi 네트워크는 비인가 2.4 및 5 GHz 무선 대역에서, 예를 들어, 11Mbps(802.11a) 또는 54 Mbps(802.11b) 데이터 레이트로 동작하거나, 양 대역(듀얼 대역)을 포함하는 제품에서 동작할 수 있다.
본 개시의 기술 분야에서 통상의 지식을 가진 자는 여기에 개시된 실시예들과 관련하여 설명된 다양한 예시적인 논리 블록들, 모듈들, 프로세서들, 수단들, 회로들 및 알고리즘 단계들이 전자 하드웨어, (편의를 위해, 여기에서 "소프트웨어"로 지칭되는) 다양한 형태들의 프로그램 또는 설계 코드 또는 이들 모두의 결합에 의해 구현될 수 있다는 것을 이해할 것이다. 하드웨어 및 소프트웨어의 이러한 상호 호환성을 명확하게 설명하기 위해, 다양한 예시적인 컴포넌트들, 블록들, 모듈들, 회로들 및 단계들이 이들의 기능과 관련하여 위에서 일반적으로 설명되었다. 이러한 기능이 하드웨어 또는 소프트웨어로서 구현되는지 여부는 특정한 애플리케이션 및 전체 시스템에 대하여 부과되는 설계 제약들에 따라 좌우된다. 본 개시의 기술 분야에서 통상의 지식을 가진 자는 각각의 특정한 애플리케이션에 대하여 다양한 방식들로 설명된 기능을 구현할 수 있으나, 이러한 구현 결정들은 본 개시의 범위를 벗어나는 것으로 해석되어서는 안 될 것이다.
여기서 제시된 다양한 실시예들은 방법, 장치, 또는 표준 프로그래밍 및/또는 엔지니어링 기술을 사용한 제조 물품(article)으로 구현될 수 있다. 용어 "제조 물품"은 임의의 컴퓨터-판독가능 장치로부터 액세스 가능한 컴퓨터 프로그램 또는 매체(media)를 포함한다. 예를 들어, 컴퓨터-판독가능 저장 매체는 자기 저장 장치(예를 들면, 하드 디스크, 플로피 디스크, 자기 스트립, 등), 광학 디스크(예를 들면, CD, DVD, 등), 스마트 카드, 및 플래쉬 메모리 장치(예를 들면, EEPROM, 카드, 스틱, 키 드라이브, 등)를 포함하지만, 이들로 제한되는 것은 아니다. 용어 "기계-판독가능 매체"는 명령(들) 및/또는 데이터를 저장, 보유, 및/또는 전달할 수 있는 무선 채널 및 다양한 다른 매체를 포함하지만, 이들로 제한되는 것은 아니다.
제시된 실시예들에 대한 설명은 임의의 본 개시의 기술 분야에서 통상의 지식을 가진 자가 본 개시를 이용하거나 또는 실시할 수 있도록 제공된다. 이러한 실시예들에 대한 다양한 변형들은 본 개시의 기술 분야에서 통상의 지식을 가진 자에게 명백할 것이며, 여기에 정의된 일반적인 원리들은 본 개시의 범위를 벗어남이 없이 다른 실시예들에 적용될 수 있다. 그리하여, 본 개시는 여기에 제시된 실시예들로 한정되는 것이 아니라, 여기에 제시된 원리들 및 신규한 특징들과 일관되는 최광의의 범위에서 해석되어야 할 것이다.

Claims (15)

  1. 적어도 하나의 프로세서를 포함하는 컴퓨팅 장치에 의해 수행되는 지식 베이스 구축 방법으로서,
    적어도 하나의 데이터 서버로부터 수신된 데이터들에 전처리를 수행하여, 복수의 개체 및 상기 복수의 개체 각각을 설명하는 디스크립션(description)을 추출하는 단계;
    상기 디스크립션으로부터 상기 복수의 개체 간의 관계를 분석하여 웨이트(weight) 및 디렉션 스코어(direction score)를 결정하는 단계;
    상기 웨이트 및 상기 디렉션 스코어에 기초하여 제 1 지식 그래프를 생성하는 단계; 및
    상기 제 1 지식 그래프에 임베딩(embedding)을 수행한 임베디드 그래프를 데이터베이스에 입력함으로써 지식 베이스를 구축하는 단계;
    를 포함하고,
    상기 임베디드 그래프는,
    사용자의 입력 또는 기 설정된 비율이나 크기로 축소된 상기 제 1 지식 그래프의 차원 - 상기 제 1 지식 그래프의 차원은 상기 복수의 개체의 개수에 기초하여 결정됨 - 에 기초하여 결정되는 차원의 그래프인,
    지식 베이스 구축 방법.
  2. 제 1 항에 있어서,
    적어도 하나의 데이터 서버로부터 수신된 데이터들에 전처리를 수행하여, 복수의 개체 및 상기 복수의 개체 각각을 설명하는 디스크립션(description)을 추출하는 단계는,
    상기 데이터들에 포함된 텍스트를 문장 단위로 파싱(parsing)하여 복수의 문장을 추출하는 단계;
    상기 복수의 문장을 단어 단위로 토큰화(tokenizing)하는 단계;
    상기 토큰화를 통해 생성된 복수의 토큰 각각에 품사 정보를 태깅하는 단계; 및
    상기 품사 정보에 기초하여, 복수의 개체 및 상기 복수의 개체 각각을 설명하는 디스크립션을 추출하는 단계;
    를 포함하는,
    지식 베이스 구축 방법.
  3. 제 2 항에 있어서,
    상기 디스크립션으로부터 상기 복수의 개체 간의 관계를 분석하여 웨이트(weight) 및 디렉션 스코어(direction score)를 결정하는 단계는,
    상기 디스크립션이 추출된 경우, 상기 복수의 개체를 포함하는 개체 리스트 및 상기 복수의 개체와 상기 디스크립션의 쌍으로 구성된 페어(pair) 리스트를 생성하는 단계;
    를 포함하는,
    지식 베이스 구축 방법.
  4. 제 3 항에 있어서,
    상기 웨이트는,
    상기 복수의 문장 및 상기 개체 리스트 중 적어도 하나에 기초하여 결정되는,
    지식 베이스 구축 방법.
  5. 제 4 항에 있어서,
    상기 웨이트는,
    상기 개체 리스트에 포함된 상기 복수의 개체 중 서로 다른 두개의 개체 간의 유관한 정도에 의해 결정되는,
    지식 베이스 구축 방법.
  6. 제 5 항에 있어서,
    상기 유관한 정도는,
    상기 서로 다른 두개의 개체가 상기 복수의 문장 중 서로 다른 문장 내에서 사전결정된 위치 범위 이내의 위치에 출현한 빈도에 기초하여 결정되는,
    지식 베이스 구축 방법.
  7. 제 3 항에 있어서,
    상기 디렉션 스코어는,
    상기 복수의 문장, 상기 개체 리스트 및 상기 페어 리스트 중 적어도 하나에 기초하여 결정되는,
    지식 베이스 구축 방법.
  8. 제 3 항에 있어서,
    상기 디스크립션으로부터 상기 복수의 개체 간의 관계를 분석하여 웨이트(weight) 및 디렉션 스코어(direction score)를 결정하는 단계는,
    상기 복수의 문장을 분석하여 제 1 개체 및 상기 제 1 개체의 바로 다음에 후속하여 등장하는 빈도가 기 설정된 값 이상인 제 2 개체를 결정하는 단계; 및
    상기 페어 리스트를 분석하여 상기 제 1 개체의 디스크립션 내에 상기 제 2 개체가 존재하는 경우, 상기 제 1 개체와 상기 제 2 개체 간의 상기 디렉션 스코어를 결정하는 단계;
    를 포함하는,
    지식 베이스 구축 방법.
  9. 제 8 항에 있어서,
    상기 웨이트 및 상기 디렉션 스코어에 기초하여 제 1 지식 그래프를 생성하는 단계는,
    상기 제 1 개체 및 상기 제 2 개체 간의 상기 웨이트 및 상기 디렉션 스코어 각각이 기 설정된 임계치 이상인 경우 상기 제 1 개체와 상기 제 2 개체 사이에 엣지를 형성하여 상기 제 1 지식 그래프를 생성하는 단계;
    를 포함하는,
    지식 베이스 구축 방법.
  10. 제 3 항에 있어서,
    상기 디스크립션으로부터 상기 복수의 개체 간의 관계를 분석하여 웨이트(weight) 및 디렉션 스코어(direction score)를 결정하는 단계는,
    상기 페어 리스트를 분석하여 제 1 개체의 디스크립션 내에 제 2 개체가 존재하는 경우, 상기 제 1 개체와 상기 제 2 개체 간의 상기 디렉션 스코어를 결정하는 단계;
    를 포함하는,
    지식 베이스 구축 방법.
  11. 제 10 항에 있어서,
    상기 웨이트 및 상기 디렉션 스코어에 기초하여 제 1 지식 그래프를 생성하는 단계는,
    상기 제 1 개체 및 상기 제 2 개체 간의 상기 웨이트 및 상기 디렉션 스코어 각각이 기 설정된 임계치 이상인 경우 상기 제 1 개체와 상기 제 2 개체 사이에 엣지를 형성하여 상기 제 1 지식 그래프를 생성하는 단계;
    를 포함하는,
    지식 베이스 구축 방법.
  12. 제 1 항에 있어서,
    상기 제 1 지식 그래프는,
    상기 복수의 개체의 개수에 기초하여, 제 1 크기를 갖는 제 1 차원으로 생성되고,
    상기 임베디드 그래프는,
    상기 제 1 크기보다 작은 제 2 크기를 갖도록 상기 제 1 지식 그래프에 임베딩을 수행하여 제 2 차원으로 생성되는,
    지식 베이스 구축 방법.
  13. 제 12 항에 있어서,
    상기 임베디드 그래프가 생성된 경우, 상기 제 1 지식 그래프에 기초하여 상기 임베디드 그래프의 성능을 평가하는 단계;
    를 더 포함하는,
    지식 베이스 구축 방법.
  14. 제 12 항에 있어서,
    상기 임베디드 그래프가 생성된 경우, 상기 제 1 지식 그래프에 기초하여 상기 임베디드 그래프의 성능을 평가하는 단계는,
    상기 임베디드 그래프를 재구축하여 상기 제 1 지식 그래프의 상기 제 1 차원과 동일한 차원을 갖는 제 2 지식 그래프를 생성하는 단계; 및
    상기 제 2 지식 그래프 및 상기 제 1 지식 그래프 간의 유사도를 비교하여, 상기 임베디드 그래프의 성능을 측정하는 단계;
    를 포함하는,
    지식 베이스 구축 방법.
  15. 적어도 하나의 데이터 서버로부터 수신된 데이터들에 전처리를 수행하여, 복수의 개체 및 상기 복수의 개체 각각을 설명하는 디스크립션(description)을 추출하는 지식 추출부; 및
    상기 디스크립션으로부터 상기 복수의 개체 간의 관계를 분석하여 웨이트(weight) 및 디렉션 스코어(direction score)를 결정하는 그래프 임베딩부;
    를 포함하고,
    상기 그래프 임베딩부는,
    상기 웨이트 및 상기 디렉션 스코어에 기초하여 제 1 지식 그래프를 생성하고,
    상기 제 1 지식 그래프에 임베딩(embedding)을 수행한 임베디드 그래프를 데이터베이스에 입력함으로써 지식 베이스를 구축하고,
    상기 임베디드 그래프는,
    사용자의 입력 또는 기 설정된 비율이나 크기로 축소된 상기 제 1 지식 그래프의 차원 - 상기 제 1 지식 그래프의 차원은 상기 복수의 개체의 개수에 기초하여 결정됨 - 에 기초하여 결정되는 차원의 그래프인,
    컴퓨팅 장치.

KR1020210084739A 2021-06-29 2021-06-29 지식 베이스 구축 방법 KR102497408B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020210084739A KR102497408B1 (ko) 2021-06-29 2021-06-29 지식 베이스 구축 방법
KR1020230011510A KR20230019190A (ko) 2021-06-29 2023-01-30 지식 베이스 구축 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210084739A KR102497408B1 (ko) 2021-06-29 2021-06-29 지식 베이스 구축 방법

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020230011510A Division KR20230019190A (ko) 2021-06-29 2023-01-30 지식 베이스 구축 방법

Publications (2)

Publication Number Publication Date
KR20230001773A KR20230001773A (ko) 2023-01-05
KR102497408B1 true KR102497408B1 (ko) 2023-02-08

Family

ID=84925959

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020210084739A KR102497408B1 (ko) 2021-06-29 2021-06-29 지식 베이스 구축 방법
KR1020230011510A KR20230019190A (ko) 2021-06-29 2023-01-30 지식 베이스 구축 방법

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020230011510A KR20230019190A (ko) 2021-06-29 2023-01-30 지식 베이스 구축 방법

Country Status (1)

Country Link
KR (2) KR102497408B1 (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102244086B1 (ko) * 2019-12-05 2021-04-23 경기대학교 산학협력단 지식 그래프를 이용한 영상 기반 상식 추론 시스템

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101306667B1 (ko) 2009-12-09 2013-09-10 한국전자통신연구원 지식 그래프 정제 장치 및 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102244086B1 (ko) * 2019-12-05 2021-04-23 경기대학교 산학협력단 지식 그래프를 이용한 영상 기반 상식 추론 시스템

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
송광호, 김유성, 단어 동시출현관계로 구축한 계층적 그래프 모델을 활용한 자동 키워드 추출 방법, Journal of KIISE, Vol. 44, No. 5, pp. 522-536, 2017. 5.*

Also Published As

Publication number Publication date
KR20230001773A (ko) 2023-01-05
KR20230019190A (ko) 2023-02-07

Similar Documents

Publication Publication Date Title
EP2664997B1 (en) System and method for resolving named entity coreference
CN109635298B (zh) 团体状态识别方法、装置、计算机设备及存储介质
CN116775847B (zh) 一种基于知识图谱和大语言模型的问答方法和系统
KR102310487B1 (ko) 속성 단위 리뷰 분석 장치 및 방법
US20220366251A1 (en) Method of and system for training machine learning algorithm to generate text summary
US20190340949A1 (en) Automated determination of degree of item similarity in the generation of digitized examinations
Mills et al. Graph-based methods for natural language processing and understanding—A survey and analysis
CN111680159A (zh) 数据处理方法、装置及电子设备
CN111866004B (zh) 安全评估方法、装置、计算机系统和介质
Cecillon et al. Abusive language detection in online conversations by combining content-and graph-based features
CN111488742B (zh) 用于翻译的方法和装置
CN112579469A (zh) 一种源代码缺陷检测方法与装置
US11393141B1 (en) Graphical data display
US8224642B2 (en) Automated identification of documents as not belonging to any language
Li et al. Employing semantic context for sparse information extraction assessment
KR20220068462A (ko) 지식 그래프 생성 방법 및 장치
KR102497408B1 (ko) 지식 베이스 구축 방법
CN112307738A (zh) 用于处理文本的方法和装置
CN114722774B (zh) 数据压缩方法、装置、电子设备及存储介质
US10296585B2 (en) Assisted free form decision definition using rules vocabulary
CN104081720B (zh) 基于本体推理的伪消息识别
CN115687651A (zh) 知识图谱构建方法、装置、电子设备及存储介质
US20230042683A1 (en) Identifying and transforming text difficult to understand by user
Pu et al. BERT‐Embedding‐Based JSP Webshell Detection on Bytecode Level Using XGBoost
Wu et al. Big Data Management and Analytics in Scientific Programming: A Deep Learning‐Based Method for Aspect Category Classification of Question‐Answering‐Style Reviews

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
A107 Divisional application of patent