KR20200014047A - 시맨틱 트리플 기반의 지식 확장 시스템, 방법 및 컴퓨터 프로그램 - Google Patents

시맨틱 트리플 기반의 지식 확장 시스템, 방법 및 컴퓨터 프로그램 Download PDF

Info

Publication number
KR20200014047A
KR20200014047A KR1020180089423A KR20180089423A KR20200014047A KR 20200014047 A KR20200014047 A KR 20200014047A KR 1020180089423 A KR1020180089423 A KR 1020180089423A KR 20180089423 A KR20180089423 A KR 20180089423A KR 20200014047 A KR20200014047 A KR 20200014047A
Authority
KR
South Korea
Prior art keywords
query
semantic triple
semantic
data
answer
Prior art date
Application number
KR1020180089423A
Other languages
English (en)
Other versions
KR102090237B1 (ko
Inventor
김동환
권유경
성길제
Original Assignee
주식회사 포티투마루
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 포티투마루 filed Critical 주식회사 포티투마루
Priority to KR1020180089423A priority Critical patent/KR102090237B1/ko
Publication of KR20200014047A publication Critical patent/KR20200014047A/ko
Application granted granted Critical
Publication of KR102090237B1 publication Critical patent/KR102090237B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명의 일 실시예에 따르면, 기존재하는 시맨틱 트리플 데이터를 업데이트하는 데이터 업데이트부; 엔티티(Entity) 유의어, 어트리뷰트(attribute) 유의어를 활용 및 조합하여 질의문을 생성하는 질의문 생성 모듈; 사용자 로그에 기반한 실제 사용자 질의를 획득하는 실제 질의 획득부; 상기 질의문 생성 모듈에서 생성된 질의 혹은 상기 실제 사용자 질의문을 입력값으로 획득하여, 질의의 특성에 따라, 관련성이 존재하는 패시지(Passage) 후보군을 1차 선정하여 검색 대상 타겟팅을 시행하고 해당 질의와 관련 있는 Passage를 검색하며, 획득한 패시지 및 질의 데이터를 기반으로 유니크 인스턴트 응답을 도출하는 시맨틱 트리플 추출기; 정답인 유니크 인스턴트 응답(Unique Instant Answer) 및 질의를 엔티티, 어트리뷰트, 인스턴트 응답 형태인 시맨틱 트리플로 변환하는 시맨틱 트리플 변환 모듈; 을 포함하는, 시맨틱 트리플 기반의 지식 확장 시스템이 제공된다.

Description

시맨틱 트리플 기반의 지식 확장 시스템, 방법 및 컴퓨터 프로그램 {METHOD, SYSTEM AND COMPUTER PROGRAM FOR KNOWLEDGE EXTENSION BASED ON TRIPLE-SEMANTIC}
본 발명은 시맨틱 트리플 기반의 지식 확장 시스템, 방법 및 컴퓨터 프로그램에 관한 것으로, 보다 상세하게는 자연어 검색에 대해 정확도 높은 즉답을 제공할 수 있는 시맨틱 트리플 기반의 지식 확장 시스템, 방법 및 컴퓨터 프로그램에 관한 것이다.
사람의 언어는 풍부하고 복잡하며, 복잡한 문법 및 문맥 의미를 갖는 많은 어휘를 포함하고 있으나 하드웨어 또는 소프트웨어 애플리케이션은 일반적으로 특정 형식 또는 규칙에 따라 데이터를 입력할 것을 요구한다. 여기서, 자연어 입력은 사람과 상호작용하기 위한 거의 모든 소프트웨어 애플리케이션에서 이용될 수 있다. 최근에 자연어를 이용한 질의응답방식은 텍스트나 음성으로 구성된 언어적 입력(Lexical input)을 NLP(자연어 처리 프로세서, Natural Language Processor) 모듈이 입력받아 컴퓨터상에서 처리될 수 있는 형태로 처리해주고, 처리된 자연어의 컨텍스트(Context)를 분석하는 컨텍스트 분석기(Context Analyzer)를 지나서, 컨텍스트에 따라 답변 내용을 정하는 결정부(Decision Maker)에서 답변 내용을 분류하여 확정하고, 확정된 답변 내용에 따라 사용자에게 답변을 하는 응답부(Response Generator)를 통해 언어적 출력(Lexical output)이 나오게 되는 구조로 구성된다.
한편, 음성인식 스피커를 필두로 한 스마트 머신 보급 확대, 인공지능 기술의 발전에 따라 정보 검색 방식이 기존 키워드 입력 기반, 문서 리스트를 확인했던 기존의 검색 방법에서 자연어 기반의 문장 입력, 구체적인 응답 형태로 검색의 트렌드가 변화하고 있다.
KR 10-1851787 B1
본 발명은 정확성 높은 유니크 인스턴트 응답(Unique Instant Answer)을 제공하는 것을 일 목적으로 한다.
본 발명은 자동적으로 질의문 및 응답을 생성하여 엔티티(entity), 어트리뷰트(attribute), 인스턴트(instant) 응답 형태인 시맨틱 트리플로 변환할 수 있다.
본 발명의 일 관점에 따르면, 기존재하는 시맨틱 트리플 데이터를 업데이트하는 데이터 업데이트부; 엔티티(Entity) 유의어, 어트리뷰트(attribute) 유의어를 활용 및 조합하여 질의문을 생성하는 질의문 생성 모듈; 사용자 로그에 기반한 실제 사용자 질의를 획득하는 실제 질의 획득부; 상기 질의문 생성 모듈에서 생성된 질의 혹은 상기 실제 사용자 질의문을 입력값으로 획득하여, 질의의 특성에 따라, 관련성이 존재하는 패시지(Passage) 후보군을 1차 선정하여 검색 대상 타겟팅을 시행하고 해당 질의와 관련 있는 Passage를 검색하며, 획득한 패시지 및 질의 데이터를 기반으로 유니크 인스턴트 응답을 도출하는 시맨틱 트리플 추출기; 정답인 유니크 인스턴트 응답(Unique Instant Answer) 및 질의를 엔티티, 어트리뷰트, 인스턴트 응답 형태인 시맨틱 트리플로 변환하는 시맨틱 트리플 변환 모듈;을 포함하는, 시맨틱 트리플 기반의 지식 확장 시스템을 제공한다.
본 실시예에 있어서, 상기 질의문 생성 모듈은, 전체 시맨틱 트리플 데이터에서, 엔티티(entity) 필드와 어트리뷰트(attribute) 필드를 룩업(Lookup) 하여 조합하고, 특정 관계 카테고리 별로 엔티티 데이터베이스와 어트리뷰트 데이터베이스를 연계하며, 유의어 정보를 활용하여 생성될 질의문 수를 확장할 수 있다.
본 실시예에 있어서, 정답인 유니크 인스턴트 응답을 판별하는 스크리닝부를 더 포함하고, 상기 스크리닝부는, 질의 데이터 기반으로 다수의 유니크 인스턴트 응답 결과가 같게 나오거나, 자체 신뢰도가 특정 임계치 이상인 경우 정답으로 판단할 수 있다.
본 발명의 다른 관점에 따르면, 기존재하는 시맨틱 트리플 데이터를 업데이트하는 데이터 업데이트 단계; 엔티티(Entity) 유의어, 어트리뷰트(attribute) 유의어를 활용 및 조합하여 질의문을 생성하는 질의문 생성 단계; 사용자 로그에 기반한 실제 사용자 질의를 획득하는 실제 질의 획득 단계; 상기 질의문 생성 모듈에서 생성된 질의 혹은 상기 실제 사용자 질의문을 입력값으로 획득하여, 질의의 특성에 따라, 관련성이 존재하는 패시지(Passage) 후보군을 1차 선정하여 검색 대상 타겟팅을 시행하고 해당 질의와 관련 있는 Passage를 검색하며, 획득한 패시지 및 질의 데이터를 기반으로 유니크 인스턴트 응답을 도출하는 시맨틱 트리플 추출 단계; 정답인 유니크 인스턴트 응답(Unique Instant Answer) 및 질의를 엔티티, 어트리뷰트, 인스턴트 응답 형태인 시맨틱 트리플로 변환하는 시맨틱 트리플 변환 단계;를 포함하는, 시맨틱 트리플 기반의 지식 확장 방법이 제공된다.
본 실시예에 있어서, 상기 질의문 생성 단계는, 전체 시맨틱 트리플 데이터에서, 엔티티(entity) 필드와 어트리뷰트(attribute) 필드를 룩업(Lookup) 하여 조합하고, 특정 관계 카테고리 별로 엔티티 데이터베이스와 어트리뷰트 데이터베이스를 연계하며, 유의어 정보를 활용하여 생성될 질의문 수를 확장할 수 있다.
본 실시예에 있어서, 정답인 유니크 인스턴트 응답을 판별하는 스크리닝 단계를 더 포함하고, 상기 스크리닝 단계는, 질의 데이터 기반으로 다수의 유니크 인스턴트 응답 결과가 같게 나오거나, 자체 신뢰도가 특정 임계치 이상인 경우 정답으로 판단할 수 있다.
본 발명의 또 다른 관점에 따르면, 엔티티 유의어, 어트리뷰트 유의어를 활용 및 조합하여 질의문을 생성하는 질의문 생성 모듈; 상기 생성된 질의문에 대해 유니크 인스턴트 응답(Unique Instant Answer)을 도출하는 시맨틱 트리플 추출기; 상기 시맨틱 트리플 추출기의 결과를 판단하여 정답인 유니크 인스턴트 응답(Unique Instant Answer) 및 질의를 생성하는 스크리닝부; 상기 정답인 유니크 인스턴트 응답(Unique Instant Answer) 및 질의를 엔티티, 어트리뷰트, 인스턴트 응답 형태인 시맨틱 트리플로 변환하는 시맨틱 트리플 변환 모듈;을 포함하는 시맨틱 트리플 기반의 지식 확장 시스템이 제공된다.
본 실시예에 있어서, 상기 시맨틱 트리플 추출기는, 질의의 특성에 따라, 관련성이 존재하는 패시지(Passage) 후보군을 1차 선정하여 검색 대상 타겟팅을 시행하고, 해당 질의와 관련 있는 Passage를 검색하는 패시지 검색 모듈; 및 획득한 패시지 및 질의 데이터를 기반으로 유니크 인스턴트 응답을 도출하며, 상기 패시지 각가에 대하여 유니크 인스턴트 응답과 해당 응답의 신뢰도를 도출하는 기계독해 질의응답 모듈; 을 포함할 수 있다.
본 실시예에 있어서, 상기 질의문 생성 모듈은, 전체 시맨틱 트리플 데이터에서, 엔티티(entity) 필드와 어트리뷰트(attribute) 필드를 룩업(Lookup) 하여 조합하고, 특정 관계 카테고리 별로 엔티티 데이터베이스와 어트리뷰트 데이터베이스를 연계하며, 유의어 정보를 활용하여 생성될 질의문 수를 확장할 수 있다.
본 발명의 또 다른 관점에 따르면, 엔티티 유의어, 어트리뷰트 유의어를 활용 및 조합하여 질의문을 생성하는 질의문 생성 단계; 상기 생성된 질의문에 대해 유니크 인스턴트 응답(Unique Instant Answer)을 도출하는 시맨틱 트리플 추출 단계; 상기 시맨틱 트리플 추출기의 결과를 판단하여 정답인 유니크 인스턴트 응답(Unique Instant Answer) 및 질의를 생성하는 스크리닝 단계; 상기 정답인 유니크 인스턴트 응답(Unique Instant Answer) 및 질의를 엔티티, 어트리뷰트, 인스턴트 응답 형태인 시맨틱 트리플로 변환하는 시맨틱 트리플 변환 단계;을 포함하는 시맨틱 트리플 기반의 지식 확장 방법이 제공된다.
본 실시예에 있어서, 상기 시맨틱 트리플 추출 단계는, 질의의 특성에 따라, 관련성이 존재하는 패시지(Passage) 후보군을 1차 선정하여 검색 대상 타겟팅을 시행하고, 해당 질의와 관련 있는 Passage를 검색하는 패시지 검색 단계; 및 획득한 패시지 및 질의 데이터를 기반으로 유니크 인스턴트 응답을 도출하며, 상기 패시지 각가에 대하여 유니크 인스턴트 응답과 해당 응답의 신뢰도를 도출하는 기계독해 질의응답 단계; 를 포함할 수 있다.
본 실시예에 있어서, 상기 질의문 생성 단계는, 전체 시맨틱 트리플 데이터에서, 엔티티(entity) 필드와 어트리뷰트(attribute) 필드를 룩업(Lookup)하여 조합하고, 특정 관계 카테고리 별로 엔티티 데이터베이스와 어트리뷰트 데이터베이스를 연계하며, 유의어 정보를 활용하여 생성될 질의문 수를 확장할 수 있다.
본 발명의 또 다른 관점에 따르면, 엔티티(Entity) 유의어, 어트리뷰트(attribute) 유의어를 활용 및 조합하여 질의문을 생성하는 질의문 생성 모듈; 및 상기 질의문 생성 모듈에서 생성된 질의 혹은 상기 실제 사용자 질의문을 입력값으로 획득하여 생성된 질의문에 대해 유니크 인스턴트 응답을 도출하는 시맨틱 트리플 추출기; 를 포함하고, 상기 시맨틱 트리플 추출기는, 질의의 특성에 따라, 관련성이 존재하는 패시지(Passage) 후보군을 1차 선정하여 검색 대상 타겟팅을 시행하고, 해당 질의와 관련 있는 Passage를 검색하는 패시지 검색 모듈; 및 획득한 패시지 및 질의 데이터를 기반으로 유니크 인스턴트 응답을 도출하며, 상기 패시지 각가에 대하여 유니크 인스턴트 응답과 해당 응답의 신뢰도를 도출하는 기계독해 질의응답 모듈; 을 포함하는, 시맨틱 트리플 기반의 지식 확장 시스템이 제공된다.
본 실시예에 있어서, 상기 질의문 생성 모듈은, 전체 시맨틱 트리플 데이터에서, 엔티티(entity) 필드와 어트리뷰트(attribute) 필드를 룩업(Lookup) 하여 조합하고, 특정 관계 카테고리 별로 엔티티 데이터베이스와 어트리뷰트 데이터베이스를 연계하며, 유의어 정보를 활용하여 생성될 질의문 수를 확장할 수 있다.
본 실시예에 있어서, 정답인 유니크 인스턴트 응답을 판별하는 스크리닝부를 더 포함하고, 상기 스크리닝부는, 질의 데이터 기반으로 다수의 유니크 인스턴트 응답 결과가 같게 나오거나, 자체 신뢰도가 특정 임계치 이상인 경우 정답으로 판단할 수 있다.
본 발명의 또 다른 관점에 따르면, 상기 방법을 실행하기 위해 컴퓨터 판독 가능한 기록 매체에 기록된 컴퓨터 프로그램.
본 발명에 의하면, 정확성 높은 유니크 인스턴트 응답을 제공할 수 있다.
또한, 본 발명에 의하면 자동적으로 질의문 및 응답을 생성하여 엔티티(entity), 어트리뷰트(attribute), 인스턴트(instant) 응답 형태인 시맨틱 트리플로 변환하여 데이터베이스에 추가할 수 잇다.
도 1 은 본 발명의 일 실시예에 따른 네트워크 환경의 예를 도시한 도면이다.
도 2 는 본 발명의 일 실시예에 있어서, 사용자 단말 및 서버의 내부 구성을 설명하기 위한 블록도이다.
도 3 은 본 발명의 일 실시예에 따른 서버의 프로세서의 내부 구성을 나타낸 것이다.
도 4 및 도 5 는 본 발명의 일 실시예에 따른 시맨틱 트리플 기반의 지식 확장 방법을 시계열적으로 나타낸 도면이다.
도 6 은 본 발명의 일 실시예에 따른 시맨틱 트리플 기반의 지식 확장 시스템을 설명하기 위한 것이다.
도 7 은 본 발명의 일 실시예에 따른 시맨틱 트리플 기반의 지식 확장 방법을 설명하기 위한 도면이다.
도 8 은 본 발명의 일 실시예에 따른 질의문 생성 모듈의 동작을 시계열적으로 나타낸 것이다.
도 9 는 본 발명의 일 실시예에 따른 질의문 확장을 설명하기 위한 것이다.
후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이러한 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 본 명세서에 기재되어 있는 특정 형상, 구조 및 특성은 본 발명의 정신과 범위를 벗어나지 않으면서 일 실시예로부터 다른 실시예로 변경되어 구현될 수 있다. 또한, 각각의 실시예 내의 개별 구성요소의 위치 또는 배치도 본 발명의 정신과 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 행하여지는 것이 아니며, 본 발명의 범위는 특허청구범위의 청구항들이 청구하는 범위 및 그와 균등한 모든 범위를 포괄하는 것으로 받아들여져야 한다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 구성요소를 나타낸다.
도 1 은 본 발명의 일 실시예에 따른 네트워크 환경의 예를 도시한 도면이다.
도 1의 네트워크 환경은 복수의 사용자 단말들(110, 120, 130, 140), 서버(150) 및 네트워크(160)를 포함하는 예를 나타내고 있다. 이러한 도 1은 발명의 설명을 위한 일례로 사용자 단말의 수나 서버의 수가 도 1과 같이 한정되는 것은 아니다.
복수의 사용자 단말들(110, 120, 130, 140)은 컴퓨터 장치로 구현되는 고정형 단말이거나 이동형 단말일 수 있다. 복수의 사용자 단말들(110, 120, 130, 140)의 예를 들면, 스마트폰(smart phone), 휴대폰, 네비게이션, 컴퓨터, 노트북, 디지털방송용 단말, PDA(Personal Digital Assistants), PMP(Portable Multimedia Player), 태블릿 PC 등이 있다. 일례로 사용자 단말 1(110)은 무선 또는 유선 통신 방식을 이용하여 네트워크(160)를 통해 다른 사용자 단말들(120, 130, 140) 및/또는 서버(150)와 통신할 수 있다.
통신 방식은 제한되지 않으며, 네트워크(160)가 포함할 수 있는 통신망(일례로, 이동통신망, 유선 인터넷, 무선 인터넷, 방송망)을 활용하는 통신 방식뿐만 아니라 기기들간의 근거리 무선 통신 역시 포함될 수 있다. 예를 들어, 네트워크(160)는, PAN(personal area network), LAN(local area network), CAN(campus area network), MAN(metropolitan area network), WAN(wide area network), BBN(broadband network), 인터넷 등의 네트워크 중 하나 이상의 임의의 네트워크를 포함할 수 있다. 또한, 네트워크(160)는 버스 네트워크, 스타 네트워크, 링 네트워크, 메쉬 네트워크, 스타-버스 네트워크, 트리 또는 계층적(hierarchical) 네트워크 등을 포함하는 네트워크 토폴로지 중 임의의 하나 이상을 포함할 수 있으나, 이에 제한되지 않는다.
서버(150)는 복수의 사용자 단말들(110, 120, 130, 140)과 네트워크(160)를 통해 통신하여 명령, 코드, 파일, 컨텐츠, 서비스 등을 제공하는 컴퓨터 장치 또는 복수의 컴퓨터 장치들로 구현될 수 있다.
일례로, 서버(150)는 네트워크(160)를 통해 접속한 사용자 단말 1(110)로 어플리케이션의 설치를 위한 파일을 제공할 수 있다. 이 경우 사용자 단말 1(110)은 서버(150)로부터 제공된 파일을 이용하여 어플리케이션을 설치할 수 있다. 또한 사용자 단말 1(110)이 포함하는 운영체제(Operating System, OS) 및 적어도 하나의 프로그램(일례로 브라우저나 설치된 어플리케이션)의 제어에 따라 서버(150)에 접속하여 서버(150)가 제공하는 서비스나 컨텐츠를 제공받을 수 있다. 예를 들어, 사용자 단말1(110)이 어플리케이션의 제어에 따라 네트워크(160)를 통해 컨텐츠 열람을 서버(150)로 전송하면, 서버(150)는 시맨틱 트리플 기반의 지식 확장 시스템을 이용한 유니크 인스턴트 응답을 사용자 단말 1(110)로 전송할 수 있고, 사용자 단말 1(110)은 어플리케이션의 제어에 따라 유니크 인스턴트 응답을 표시할 수 있다. 다른 예로, 서버(150)는 데이터 송수신을 위한 통신 세션을 설정하고, 설정된 통신 세션을 통해 복수의 사용자 단말들(110, 120, 130, 140)간의 데이터 송수신을 라우팅할 수도 있다.
도 2 는 본 발명의 일 실시예에 있어서, 사용자 단말 및 서버의 내부 구성을 설명하기 위한 블록도이다.
도 2에서는 하나의 사용자 단말에 대한 예로서 사용자 단말 1(110), 그리고 하나의 서버에 대한 예로서 서버(150)의 내부 구성을 설명한다. 다른 사용자 단말들(120, 130, 140)들 역시 동일한 또는 유사한 내부 구성을 가질 수 있다.
사용자 단말 1(110)과 서버(150)는 메모리(211, 221), 프로세서(212, 222), 통신 모듈(213, 223) 그리고 입출력 인터페이스(214, 224)를 포함할 수 있다. 메모리(211, 221)는 컴퓨터에서 판독 가능한 기록 매체로서, RAM(random access memory), ROM(read only memory) 및 디스크 드라이브와 같은 비소멸성 대용량 기록장치(permanent mass storage device)를 포함할 수 있다. 또한, 메모리(211, 221)에는 운영체제와 적어도 하나의 프로그램 코드(일례로 사용자 단말 1(110)에 설치되어 구동되는 브라우저나 상술한 어플리케이션 등을 위한 코드)가 저장될 수 있다. 이러한 소프트웨어 구성요소들은 드라이브 메커니즘(drive mechanism)을 이용하여 메모리(211, 221)와는 별도의 컴퓨터에서 판독 가능한 기록 매체로부터 로딩될 수 있다. 이러한 별도의 컴퓨터에서 판독 가능한 기록 매체는 플로피 드라이브, 디스크, 테이프, DVD/CD-ROM 드라이브, 메모리 카드 등의 컴퓨터에서 판독 가능한 기록 매체를 포함할 수 있다. 다른 실시예에서 소프트웨어 구성요소들은 컴퓨터에서 판독 가능한 기록 매체가 아닌 통신 모듈(213, 223)을 통해 메모리(211, 221)에 로딩될 수도 있다. 예를 들어, 적어도 하나의 프로그램은 개발자들 또는 어플리케이션의 설치 파일을 배포하는 파일 배포 시스템(일례로 상술한 서버(150))이 네트워크(160)를 통해 제공하는 파일들에 의해 설치되는 프로그램(일례로 상술한 어플리케이션)에 기반하여 메모리(211, 221)에 로딩될 수 있다.
프로세서(212, 222)는 기본적인 산술, 로직 및 입출력 연산을 수행함으로써, 컴퓨터 프로그램의 명령을 처리하도록 구성될 수 있다. 명령은 메모리(211, 221) 또는 통신 모듈(213, 223)에 의해 프로세서(212, 222)로 제공될 수 있다. 예를 들어 프로세서(212, 222)는 메모리(211, 221)와 같은 기록 장치에 저장된 프로그램 코드에 따라 수신되는 명령을 실행하도록 구성될 수 있다.
통신 모듈(213, 223)은 네트워크(160)를 통해 사용자 단말 1(110)과 서버(150)가 서로 통신하기 위한 기능을 제공할 수 있으며, 다른 사용자 단말(일례로 사용자 단말 2(120)) 또는 다른 서버(일례로 서버(150))와 통신하기 위한 기능을 제공할 수 있다. 일례로, 사용자 단말 1(110)의 프로세서(212)가 메모리(211)와 같은 기록 장치에 저장된 프로그램 코드에 따라 생성한 요청이 통신 모듈(213)의 제어에 따라 네트워크(160)를 통해 서버(150)로 전달될 수 있다. 역으로, 서버(150)의 프로세서(222)의 제어에 따라 제공되는 제어 신호나 명령, 컨텐츠, 파일 등이 통신 모듈(223)과 네트워크(160)를 거쳐 사용자 단말 1(110)의 통신 모듈(213)을 통해 사용자 단말 1(110)로 수신될 수 있다. 예를 들어 통신 모듈(213)을 통해 수신된 서버(150)의 제어 신호나 명령 등은 프로세서(212)나 메모리(211)로 전달될 수 있고, 컨텐츠나 파일 등은 사용자 단말 1(110)이 더 포함할 수 있는 저장 매체로 저장될 수 있다.
입출력 인터페이스(214, 224)는 입출력 장치(215)와의 인터페이스를 위한 수단일 수 있다. 예를 들어, 입력 장치는 키보드 또는 마우스 등의 장치를, 그리고 출력 장치는 어플리케이션의 통신 세션을 표시하기 위한 디스플레이와 같은 장치를 포함할 수 있다. 다른 예로 입출력 인터페이스(214)는 터치스크린과 같이 입력과 출력을 위한 기능이 하나로 통합된 장치와의 인터페이스를 위한 수단일 수도 있다. 보다 구체적인 예로, 사용자 단말 1(110)의 프로세서(212)는 메모리(211)에 로딩된 컴퓨터 프로그램의 명령을 처리함에 있어서 서버(150)나 사용자 단말 2(120)가 제공하는 데이터를 이용하여 구성되는 서비스 화면이나 컨텐츠가 입출력 인터페이스(214)를 통해 디스플레이에 표시될 수 있다.
또한, 다른 실시예들에서 사용자 단말 1(110) 및 서버(150)는 도 2의 구성요소들보다 더 많은 구성요소들을 포함할 수도 있다. 그러나, 대부분의 종래기술적 구성요소들을 명확하게 도시할 필요성은 없다. 예를 들어, 사용자 단말 1(110)은 상술한 입출력 장치(215) 중 적어도 일부를 포함하도록 구현되거나 또는 트랜시버(transceiver), GPS(Global Positioning System) 모듈, 카메라, 각종 센서, 데이터베이스 등과 같은 다른 구성요소들을 더 포함할 수도 있다.
도 3 은 본 발명의 일 실시예에 따른 프로세서의 내부 구성을 나타낸 것이다.
프로세서(212)는 웹 페이지를 온라인으로부터 제공받아 출력할 수 있는 웹 브라우저(web browser) 또는 어플리케이션을 포함할 수 있다. 프로세서(212) 내에서 본 발명의 일 실시예에 따른 시맨틱 트리플 기반의 지식 확장 시스템의 구성은 도 3 에 도시된 바와 같이 데이터 업데이트부(310), 질의문 생성 모듈(320), 실제 질의 획득부(330), 시맨틱 트리플 추출기(340), 스크리닝부(350), 시맨틱 트리플 변환 모듈(360), 시맨틱 트리플 추가부(370)를 포함할 수 있다. 실시예에 따라 프로세서(212)의 구성요소들은 선택적으로 프로세서(212)에 포함되거나 제외될 수도 있다. 또한, 실시예에 따라 프로세서(212)의 구성요소들은 프로세서(212)의 기능의 표현을 위해 분리 또는 병합될 수도 있다.
여기서, 프로세서(212)의 구성요소들은 사용자 단말 1(110)에 저장된 프로그램 코드가 제공하는 명령(일례로, 사용자 단말 1(110)에서 구동된 웹 브라우저가 제공하는 명령)에 따라 프로세서(212)에 의해 수행되는 프로세서(212)의 서로 다른 기능들(different functions)의 표현들일 수 있다.
이러한 프로세서(212) 및 프로세서(212)의 구성요소들은 도 4 의 시맨틱 트리플 기반의 지식 확장 방법이 포함하는 단계들(S1 내지 S6)을 수행하도록 사용자 단말 1(110)을 제어할 수 있다. 예를 들어, 프로세서(212) 및 프로세서(212)의 구성요소들은 메모리(211)가 포함하는 운영체제의 코드와 적어도 하나의 프로그램의 코드에 따른 명령(instruction)을 실행하도록 구현될 수 있다.
도 4 및 도 5 는 본 발명의 일 실시예에 따른 시맨틱 트리플 기반의 지식 확장 방법을 시계열적으로 나타낸 도면이다. 이하의 명세서에서는, 도 3 및 도 4 를 함께 참조하여 본 발명의 시맨틱 트리플 기반의 지식 확장 방법, 시스템 및 컴퓨터 프로그램을 구체적으로 살펴보기로 한다.
이를 위해, 먼저 본 발명의 시맨틱 트리플 기반의 지식 확장 방법과 기존 검색 엔진과의 차이점을 살펴보기로 한다. 본 발명의 일 실시예에 따른 시맨틱 트리플 기반의 지식 확장 시스템은, 정확성 중심의 유니크 인스턴트 응답(Unique Instant Answer)을 제공할 수 있다. 본 발명의 시맨틴 트리플 기반의 지식 확장 방법은 검색 결과를 문서 형태가 아닌, 유니크 인스턴트 응답(Unique Instant Answer), 즉 즉답 형태로 제공한다는 점에서 기존의 검색 엔진과 차이점이 존재할 수 있다.
도 6 은 본 발명의 일 실시예에 따른 시맨틱 트리플 기반의 지식 확장 시스템을 설명하기 위한 것이다.
도 6 을 참조하면, 기존의 검색 엔진(As-Is, Searh)은 입력 방식이 키워드이고, 검색 결과로 문서리스트를 제공하고, 검색 플랫폼은 PC 혹은 모바일 에서 동작한다.
이에 반해, 본 발명의 시맨틱 트리플 기반의 지식 확장 시스템(To-Be, Question-Answering)은, 입력 방식이 자연어 기반의 문장이고, 검색 결과로서 구체적인 응답, 즉 인스턴트 유니크 응답을 제공할 수 있으며, 플랫폼은 PC 혹은 모바일에 한정되지 않고 어디서나 구현될 수 있다.
보다 상세히, 본 발명의 시맨틱 트리플 기반의 지식 확장 시스템은 기존 검색 엔진이 키워드를 입력하는데 반해 자연어 기반의 문장을 입력 가능하도록 함으로써, 사용자가 사람에게 질문하듯이 자연스럽게 정보를 탐색할 수 있도록 한다. 또한, 본 발명의 시맨틱 트리플 기반의 지식 확장 시스템은 검색 결과로 구체적인 응답을 제공함으로써, 기존의 검색 엔진이 제공하는 문서 리스트에서 사용자가 직접 검색 결과를 찾아야 하는 불편을 경감시키고 최적의 검색 결과를 제공할 수 있다. 또한, 본 발명의 시맨틱 트리플 기반의 지식 확장 시스템은 플랫폼으로서 PC 혹은 모바일에 한정되지 않고 스마트 머신 기반으로 어디서나 즉시 정보를 탐색할 수 있다는 장점이 존재한다. 이하에서는, 도 3 및 도 4 를 중심으로 본 발명의 시맨틱 트리플 기반의 지식 확장 시스템 및 방법의 세부적인 구성을 살펴보기로 한다.
먼저, 데이터 업데이트부(310)는 이전에 만들어진 시맨틱 트리플 형태의 데이터를 획득하고, 신규 데이터 혹은 사용자 질의가 발생하면 그에 대한 데이터를 업데이트한다(S1). 이때, 본 발명의 일 실시예에 따른 시맨틱 트리플 기반 지식 확장 방법은 기존의 데이터로서 시맨틱 트리플 형태의 데이터가 이미 만들어져 있다고 가정한다. 즉, 신규 데이터 및 사용자 질의 등의 데이터 업데이트가 발생하지 않으면, 본 발명의 데이터 업데이트 과정은 일어나지 않는다.
본 발명의 시맨틱 트리플 기반의 지식 확장 방법을 수행하게 하는 데이터 업데이트의 예시는 다양할 수 있다. 본 발명의 일 실시예에 따르면, 문서, 데이터베이스(Data Base, DB) 등의 신규 정보가 업데이트 되었을 때, 사용자들이 본 발명의 질의 응답 서비스를 이용하며 새로운 질문을 남겼을 때, 혹은 전체 데이터에 변동이 있는 경우, 데이터 업데이트부(310)는 데이터를 업데이트할 수 있다. 본 발명의 일 실시예에 따르면, 데이터 업데이트부(310)는 주기적으로 데이터 업데이트를 진행하거나, 혹은 사용자의 요청에 따라 데이터 업데이트를 진행할 수 있다.
다음으로, 질의문 생성 모듈(320)은 엔티티(Entity) 유의어, 어트리뷰트(attribute) 유의어를 활용 및 조합하여 질의문을 생성한다. 보다 상세히, 질의어 생성 모듈(320)은 본 발명의 일 실시예에 따른 시맨틱 트리플 기반의 지식 확장 방법을 수행 시 시맨틱 트리플 데이터를 기반으로 하여, 질의문을 생성한다. 본 발명의 시맨틱 트리플 기반의 지식 확장 시스템을 수행하는 것은 데이터 업데이트 시에도 가능하고, 주기적, 혹은 사용자의 요청에 의해서도 가능하다.
혹은, 후술하는 관리자 페이지에서 사용자가 질의문 생성에 대한 규칙(rule)을 추가하면, 해당 규칙 기반으로 질의문을 생성할 수 있다.
도 7 은 본 발명의 일 실시예에 따른 시맨틱 트리플 기반의 지식 확장 방법을 설명하기 위한 도면이다.
도 7 은 본 발명의 바람직한 일 실시예로서, 시맨틱 트리플 기반의 검색 수행의 일 예를 도시한다.
시맨틱 트리플 데이터베이스는 실제 사용자들의 질의문을 모사한 특수한 형태의 지식기반(Knowledge Base) 데이터베이스로 별도의 추론과정없이 유니크 인스턴트 응답(Unique instant answer)을 검색할 수 있다. 시맨틱 트리플 데이터베이스는 entity(732)-attribute(734) - instant answer(738)의 형태를 지닌다.
도 7 은 "백두산의 높이가 얼마야?"인 사용자 질의(710)를 수신한 경우, 사용자 질의를 분석하여(720), '백두산'과 '높이'라는 핵심단어를 추출한 후 백두산을 물어볼 대상으로 높이를 질문의 의도록 분석할 수 있다.
관리자설정부는 시맨틱 트리플 DB를 확인하여(730), entity = "백두산", attribute = "높이" 인 데이터를 검색하고, 해당하는 항목의 instant answer를 결과값으로 판단하여, 사용자에게 해당답변 2,744m을 제공한다(750). 상술한 바와 같은 시맨틱 트리플 데이터베이스는 최적 정답을 검색하는데 별도의 추론 과정 없이 최적의 답을 제공할 수 있다.
관리자설정부는 스크리닝부에서 판단한 최적정답값을 시맨틱 트리플 기반으로 저장하기 위해 사용자 질의와 유니크 인스턴트 응답의 형태를 확인하고, 사용자 질의를 entity(732) 및 attribute(734)로, 유니크 인스턴트 응답을 instant answer(738)로 변환한다. 이 때 질문 변환 과정은 자연어 이해 기술 및 기 시맨틱 트리플의 entity /attribute 데이터 검색 기술을 포함한다
시맨틱 트리플은 실제 사용자들의 질의문을 모사한, 특수 형태의 Knowledge Base로, 자사의 특징적인 DB 형태라 할 수 있다. 시맨틱 트리플 DB 형태는 entity - attribute -instant answer 형태를 띄고 있으며, 이 같은 형태 때문에 별도의 추론 과정 없이 Unique instant answer 검색이 가능하다.
예를 들어, 백두산의 높이가 얼마야? 라는 질문이 있을 때, 질의어 분석을 통해 백두산을 entity, 높이를 attribute로 우선 분석한다. 이후 시맨틱 트리플 DB를 Lookup하여, entity = “백두산”, attribute = “높이” 인 데이터를 검색하고, 해당하는 항목의 instant answer를 결과값으로 판단하여, 사용자에게 해당 답변을 제공할 수 있다.
보다 상세히, 질의문 생성 모듈(320)은 시맨틱 트리플 DB를 기반으로 하여 유의어 확장 기능을 추가하는 형태로 작동된다. 이하에서는, 질의문 생성 모듈(320)의 세부적인 작동 프로세스를 도 8 을 중심으로 살펴보기로 한다.
도 8 은 본 발명의 일 실시예에 따른 질의문 생성 모듈의 동작을 시계열적으로 나타낸 것이다.
도 8 을 참조하면, 먼저 질의문 생성 모듈(320)은 전체 시맨틱 트리플 데이터에서, 엔티티(entity) 필드와 어트리뷰트(attribute) 필드를 룩업(Lookup) 하여 조합한다(S21). 예를 들면, 백두산이 entity, 최종 분화일이 attribute라고 할 때, 해당 entity와 attribute를 조합하여 신규 질문 “백두산 최종분화일”을 생성한다. 이 때, 생길 수 있는 질문의 경우의 수는 entity DB(데이터베이스) 수량과 attribute DB 수량의 곱이 될 것이다.
다음으로, 질의문 생성 모듈(320)은 별도의 카테고리 정보를 통해 단순 entity DB 수량과 attribute DB 수량의 곱이 아닌, 특정 관계 카테고리 별로 entity DB와 attribute DB를 연계할 수 있다(S22). 본 발명의 일 실시예에 따르면, S22 단계는 S21 과정 진행 시 동시에 진행될 수 있다.
보다 상세히, 본 발명의 일 실시예에 따라 entity가 사람 이름일 경우, S21 단계와 같이 질문의 수가 entity DB 수량과 attribute DB 수량의 곱인 경우만을 가정하면, entity 및 attribute 데이터의 단순 곱으로 질의문을 생성하여 [entity : 이순신 / attribute : 발매일 / 생성된 질문 : 이순신 발매일] 와 같은 부적격 데이터가 생성될 수 있다. 이와 같이 부적격 데이터가 생성되는 것을 방지하기 위해, 본 발명의 일 실시예에 따른 질의문 생성 모듈(320)은 질문 생성 시 카테고리 정보를 활용하여 관련된 entity 및 attribute 정보만 활용하여, 질의문을 생성할 수 있다.
다음으로, 질의문 생성 모듈(320)은 entity 및 attribute 유의어 정보를 추가로 활용하여 생성될 질의문 수를 확장한다(S23). 이 때 전체 질의문 숫자는 관련 있는 카테고리별로 (entity + entity 유의어) * (attribute + attribute 유의어)가 될 수 있다.
도 9 는 본 발명의 일 실시예에 따른 질의문 확장을 설명하기 위한 것이다.
도 9 를 참조하면, entity 는 카테고리를 국가명으로 하는 [미국, 프랑스, 영국, 대한민국, ...] 인 경우, entity 유의어는 [USA, 한국, ...] 이 될 수 있다. 또한, attribute 는 카테고리를 국가정보로 하는 [공용어, 정부 형태, 수도, 최대 도시, 국왕 ...] 인 경우, attribute 유의어는 [여왕, 공화국, 주도, ?] 등이 될 수 있다. 이와 같이 유의어를 함께 고려함으로써, 질의문 수를 확장할 수 있다.
한편, 본 발명의 일 실시예에 따르면 질의문 생성 모듈(320)은 카테고리 구분이 아니라 전체 entity 및 attribute로 질의어를 생성할 수도 있다. 해당 부분이 관리자가 평가하였을 때, 적합성이 떨어지더라도 시맨틱 트리플 추출기 및 스크리닝 과정에서 걸러질 수 있다. 예를 들어, 생성 질의문에서 이미 유니크 인스턴트 응답이 존재하는 경우에는 해당 질의어를 시맨틱 트리플 추출기에 넣지 않을 수 있다.
또한, 실제 사용자 질의 획득부(330)는 사용자 로그에 기반한 실제 사용자 질의를 시맨틱 트리플 추출기(340)에 입력할 수 있다.
다음으로, 시맨틱 트리플 추출기(340)는 질의문 생성 모듈에서 생성된 질의, 혹은 실제 사용자 질의문을 입력값으로 획득하여, 생성된 질의문에 대해 유니크 인스턴트 응답을 도출한다(S3). 시맨틱 트리플 추출기(340)는 패시지 검색 모듈(333) 및 MRC QA 모듈(334)을 포함할 수 있다.
패시지 검색 모듈(341)은 질의의 특성에 따라, 관련성이 존재하는 패시지(Passage) 후보군을 1차 선정하여 검색 대상 타겟팅을 시행한다. 다음으로, 패시지 검색 모듈(341)은 해당 질의와 관련 있는 Passage를 검색하여 MRC(Machine Reading Comprehension) QA 모듈로 전달한다. 또한, 패시지 검색 모듈(341)은 하나의 문서에서 다수의 Passage를 추출할 수도 있고, 다수의 문서에서 다수의 Passage를 추출할 수도 있다. 또한, 패시지 검색 모듈(333)은 기존의 검색 엔진에서 흔히 사용하는 TF-IDF 알고리즘을 응용하여 Passage 를 도출할 수 있다. 또한, 패시지 검색 모듈(333)은 임의의 일정 Score 이상, Top N개의 결과를 MRC QA 모듈로 전달할 수 있다.
MRC QA 모듈(342)은 주어진 Passage 결과를 받아, Passage, Question 데이터를 기반으로 Unique Instant Answer를 도출할 수 있다. 또한, MRC QA 모듈(342)은 각 Passage 숫자대로, Unique Instant Answer와 해당 정답의 신뢰도를 도출할 수 있다. 또한, MRC QA 모듈(342)의 경우, 다수의 MRC QA Algorithm을 탑재할 수 있다.
최종적으로, 시맨틱 트리플 추출기(340)는 MRC QA 모듈(342) 에서 도출된 각각의 unique instant answer 와 신뢰도를 스크리닝부(350)에 전달한다.
다음으로, 스크리닝부(350)는 시맨틱 트리플 추출기(340)로부터 획득한 결과를 판단하여 정답인 유니크 인스턴트 응답 및 질의를 시맨틱 트리플 변환 모듈에 제공한다(S4). 보다 상세히, 스크리닝부(350)는 시맨틱 트리플 추출기(340)에서 받은 결과를 확인하여, 해당 결과가 정답인지를 판별할 수 있다. 스크리닝부(350)는 MRC QA 모듈(342)에서 나온 자체 신뢰도 및, Question 데이터 기반으로 다수의 결과가 같게 나왔을 때 정답으로 판단한다.
보다 상세히, 스크리닝부(350)는 자체 신뢰도가 특정 임계치 이상일 경우, 정답으로 판단한다. 본 발명의 일 실시예에 따르면, 특정 임계치의 경우 초기에는 기본값으로 설정되고, 후에 실제 정답 도출 이력및 질문 패턴을 고려하여 자동으로 변경될 수 있다. 구체적인 예를 들어, 초기값 특정 임계치를 90%로 선정했다 해도, 실제 정답 도출 이력을 확인하여 국가 관련 질문의 경우 85% 이상의 신뢰도임에도 정답으로 선정됐다면, 스크리닝부(350)는 자동으로 국가 관련 질문의 해당 임계치를 90%에서 85%로 갱신할 수 있다.
또한, 스크리닝부(350)는 Question 데이터 기반으로 다수의 unique instant answer 결과가 같게 나올 경우, 정답으로 판단할 수 있다. 또한, 스크리닝부(350)는 자체 신뢰도가 특정 임계치 이상인 경우와, 다수의 결과가 같게 나온 경우의 정답이 서로 다르다면, 우선적으로 다수의 결과가 같게 나온 경우를 정답으로 간주할 수 있다.
또한, 스크리닝부(350)는 MRC QA 알고리즘 자체 신뢰도가 특정 임계치 미만일 경우, unique instant answer 결과가 1개 이상 같게 나오지 않은 경우 및 Question 데이터에 기반한 같은 unique instant answer가 다수가 아닐 경우 오답으로 간주할 수 잇다.
스크리닝부(350)는 정답 및 오답을 판단한 후, 정답으로 판별한 데이터를 시맨틱 트리플 변환 모듈(360)로 전달한다. 시맨틱 트리플 변환모듈(360)이 획득하는 정보는, Question 데이터 및 unique instant answer 이다.
한편, 본 발명의 일 실시예에 따르면 스크리닝부(350)가 정답으로 판별한 결과 전체를 관리자 페이지에 전달하여 추후 사람이 수동 확인 후 시맨틱 트리플 데이터에 추가할 수 있도록 결과값을 저장한다. 이 때, 저장된 결과값은 Passage, Question, Unique Instant Answer, 신뢰도, 사용된 MRC QA 모듈 정보를 포함한다.
다음으로, 시맨틱 트리플 변환 모듈(360)은 유니크 인스턴트 응답 및 질의를 엔티티, 어트리뷰트, 인스턴트 응답 형태인 시맨틱 트리플로 변환할 수 있다. 보다 상세히, 시맨틱 트리플 변환 모듈(360)은 스크리닝부(350)가 정답으로 판별한 데이터를 획득하여, 해당 데이터를 Entity, Attribute, Unique Instant Answer 형태로 변환할 수 있다. 스크리닝부(350)가 제공하는 input 정보는 Question, Unique Instant Answer이며, 시맨틱 트리플 변환모듈은 이를 Entity, Attribute, Unique Instant Answer 형태로 변환할 수 있다. 변환을 위해, NLP(Natural Language Processing) 및 NLU(Natural Language Understanding)이 사용될 수 있다.
실제 시맨틱 트리플 기반 검색 서비스를 제공하듯이, 시맨틱 트리플 변환 모듈(360)은 Question을 분석하여 해당 정보를 Entity 및 Attribute로 분해한다. 보다 구체적인 예로, 도 6 의 예시처럼 “백두산 높이가 얼마야?” 라는 질문이 있다면, NLP(Natural Language Processing) 및 NLU(Natural Language Understanding) 기술을 사용하여 백두산을 entity로, 높이를 Attribute로 분해한다. 그리고 도출된 Unique Instant Answer를 해당 entity, attribute와 쌍을 이뤄 최종적으로 시맨틱 트리플 형태로 저장할 수 있다.
또한, 시맨틱 트리플 변환 모듈(360)이 사용하는 NLP(Natural Language Processing) 및 NLU(Natural Language Understanding) 기술 요소에는, 기본적인 자연어 이해에 필요한 형태소 분석 사전, Entity, Attribute DB Lookup, Rule 기반의 문장 구조 분석기, 딥러닝 기술을 활용한 워드 임베딩을 통한 유사 질의어 매핑 기술이 포함될 수 있다.
다음으로, 시맨틱 트리플 추가부(370)는 시맨틱 트리플 변환모듈(360)에서 Entity, Attribute, Unique Instant Answer를 생성하여 전달하면, 해당 부분 DB를 반영하여 신규/업데이트 된 시맨틱 트리플을 자동으로 DB에 추가할 수 있다.
한편, 본 발명의 시맨틱 트리플 기반의 지식 확장 시스템의 일 실시예에 따르면 관리자 페이지가 추가적으로 제공될 수 있다. 관리자는 관리자 페이지를 잉하여 시스템 전반을 관리하고 수동으로 시맨틱 트리플 수정/삭제/업데이트/추가할 수 있다. 보다 상세히, 관리자는 관리자 페이지를 이용하여 시맨틱 트리플 기반의 지식 확장 플랫폼 동작 주기 및 시행을 조정(주기별 업데이트, 시스템 수동 구동 가능)하고, 생성된 질의문 및 실제 사용자들의 질의 내용을 확인할 수 있으며, 질의문 생성 모듈에서, Rule 기반의 질의어 생성 규칙을 추가하여 다른 패턴의 질의문 생성이 가능하다. 또한, 관리자는 관리자 페이지를 이용하여 시맨틱 트리플 추출기(340)에서, Passage 검색 모듈의 TF-IDF 값 Score 지정 및 최대 Passage 전달 숫자, MRC QA Algorithm 을 추가/삭제할 수 있다. 또한, 관리자는 관리자 페이지를 이용하여 스크리닝부(350)의 초기 신뢰도를 설정하고, 전체 결과를 확인하여, 수동으로 시맨틱 트리플을 추가하며, 그 외 시스템 모니터링 정보 등을 확인할 수 있다.
본 발명의 일 실시예에 따른 시맨틱 트리플 기반의 지식 확장 시스템은, 정확성 높은 유니크 인스턴트 응답(Unique Instant Answer)을 제공할 수 있다. 본 발명의 시맨틱 트리플 기반의 지식 확장 방법은 검색 결과를 문서 형태가 아닌, 유니크 인스턴트 응답(Unique Instant Answer), 즉 즉답 형태로 제공한다는 점에서 기존의 검색 엔진과 차이점이 존재할 수 있다.
또한, 본 발명의 일 실시예에 따른 시맨틱 트리플 기반의 지식 확장 시스템은, 지식 확장을 위해, 시맨틱 트리플이라는 특수한 형태의 KB(Knowledge Base), 질문에 대한 답변을 문단 내에서 찾아주는 MRC(Machine Reading Comprehension) 기술 및 해당 문단을 전통적인 IR(Information Retrieval) 방식으로 찾아주는 자체 개발 기술을 조합하여, 시맨틱 트리플 기반의 지식 확장 플랫폼을 구축할 수 있다.
이상 설명된 본 발명에 따른 실시예는 컴퓨터 상에서 다양한 구성요소를 통하여 실행될 수 있는 컴퓨터 프로그램의 형태로 구현될 수 있으며, 이와 같은 컴퓨터 프로그램은 컴퓨터로 판독 가능한 매체에 기록될 수 있다. 이때, 매체는 컴퓨터로 실행 가능한 프로그램을 계속 저장하거나, 실행 또는 다운로드를 위해 저장하는 것일 수도 있다. 또한, 매체는 단일 또는 수개 하드웨어가 결합된 형태의 다양한 기록수단 또는 저장수단일 수 있는데, 어떤 컴퓨터 시스템에 직접 접속되는 매체에 한정되지 않고, 네트워크 상에 분산 존재하는 것일 수도 있다. 매체의 예시로는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등을 포함하여 프로그램 명령어가 저장되도록 구성된 것이 있을 수 있다. 또한, 다른 매체의 예시로, 애플리케이션을 유통하는 앱 스토어나 기타 다양한 소프트웨어를 공급 내지 유통하는 사이트, 서버 등에서 관리하는 기록매체 내지 저장매체도 들 수 있다.
이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항과 한정된 실시예 및 도면에 의하여 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위하여 제공된 것일 뿐, 본 발명이 상기 실시예에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정과 변경을 꾀할 수 있다.
따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 또는 이로부터 등가적으로 변경된 모든 범위는 본 발명의 사상의 범주에 속한다고 할 것이다.
110, 120, 130, 140: 복수의 사용자 단말들
150: 서버
160: 네트워크
211, 221: 메모리
212, 222: 프로세서
213, 223: 통신 모듈
214, 224: 입출력 인터페이스

Claims (16)

  1. 기존재하는 시맨틱 트리플 데이터를 업데이트하는 데이터 업데이트부;
    엔티티(Entity) 유의어, 어트리뷰트(attribute) 유의어를 활용 및 조합하여 질의문을 생성하는 질의문 생성 모듈;
    사용자 로그에 기반한 실제 사용자 질의를 획득하는 실제 질의 획득부;
    상기 질의문 생성 모듈에서 생성된 질의 혹은 상기 실제 사용자 질의문을 입력값으로 획득하여, 질의의 특성에 따라, 관련성이 존재하는 패시지(Passage) 후보군을 1차 선정하여 검색 대상 타겟팅을 시행하고 해당 질의와 관련 있는 Passage를 검색하며, 획득한 패시지 및 질의 데이터를 기반으로 유니크 인스턴트 응답을 도출하는 시맨틱 트리플 추출기;
    정답인 유니크 인스턴트 응답(Unique Instant Answer) 및 질의를 엔티티, 어트리뷰트, 인스턴트 응답 형태인 시맨틱 트리플로 변환하는 시맨틱 트리플 변환 모듈;
    을 포함하는, 시맨틱 트리플 기반의 지식 확장 시스템.
  2. 제 1 항에 있어서,
    상기 질의문 생성 모듈은,
    전체 시맨틱 트리플 데이터에서, 엔티티(entity) 필드와 어트리뷰트(attribute) 필드를 룩업(Lookup) 하여 조합하고, 특정 관계 카테고리 별로 엔티티 데이터베이스와 어트리뷰트 데이터베이스를 연계하며, 유의어 정보를 활용하여 생성될 질의문 수를 확장하는, 시맨틱 트리플 기반의 지식 확장 시스템.
  3. 제 1 항에 있어서,
    정답인 유니크 인스턴트 응답을 판별하는 스크리닝부를 더 포함하고,
    상기 스크리닝부는,
    질의 데이터 기반으로 다수의 유니크 인스턴트 응답 결과가 같게 나오거나, 자체 신뢰도가 특정 임계치 이상인 경우 정답으로 판단하는, 시맨틱 트리플 기반의 지식 확장 시스템.
  4. 기존재하는 시맨틱 트리플 데이터를 업데이트하는 데이터 업데이트 단계;
    엔티티(Entity) 유의어, 어트리뷰트(attribute) 유의어를 활용 및 조합하여 질의문을 생성하는 질의문 생성 단계;
    사용자 로그에 기반한 실제 사용자 질의를 획득하는 실제 질의 획득 단계;
    상기 질의문 생성 모듈에서 생성된 질의 혹은 상기 실제 사용자 질의문을 입력값으로 획득하여, 질의의 특성에 따라, 관련성이 존재하는 패시지(Passage) 후보군을 1차 선정하여 검색 대상 타겟팅을 시행하고 해당 질의와 관련 있는 Passage를 검색하며, 획득한 패시지 및 질의 데이터를 기반으로 유니크 인스턴트 응답을 도출하는 시맨틱 트리플 추출 단계;
    정답인 유니크 인스턴트 응답(Unique Instant Answer) 및 질의를 엔티티, 어트리뷰트, 인스턴트 응답 형태인 시맨틱 트리플로 변환하는 시맨틱 트리플 변환 단계;
    를 포함하는, 시맨틱 트리플 기반의 지식 확장 방법.
  5. 제 4 항에 있어서,
    상기 질의문 생성 단계는,
    전체 시맨틱 트리플 데이터에서, 엔티티(entity) 필드와 어트리뷰트(attribute) 필드를 룩업(Lookup) 하여 조합하고, 특정 관계 카테고리 별로 엔티티 데이터베이스와 어트리뷰트 데이터베이스를 연계하며, 유의어 정보를 활용하여 생성될 질의문 수를 확장하는, 시맨틱 트리플 기반의 지식 확장 방법.
  6. 제 4 항에 있어서,
    정답인 유니크 인스턴트 응답을 판별하는 스크리닝 단계를 더 포함하고,
    상기 스크리닝 단계는,
    질의 데이터 기반으로 다수의 유니크 인스턴트 응답 결과가 같게 나오거나, 자체 신뢰도가 특정 임계치 이상인 경우 정답으로 판단하는, 시맨틱 트리플 기반의 지식 확장 방법.
  7. 엔티티 유의어, 어트리뷰트 유의어를 활용 및 조합하여 질의문을 생성하는 질의문 생성 모듈;
    상기 생성된 질의문에 대해 유니크 인스턴트 응답(Unique Instant Answer)을 도출하는 시맨틱 트리플 추출기;
    상기 시맨틱 트리플 추출기의 결과를 판단하여 정답인 유니크 인스턴트 응답(Unique Instant Answer) 및 질의를 생성하는 스크리닝부;
    상기 정답인 유니크 인스턴트 응답(Unique Instant Answer) 및 질의를 엔티티, 어트리뷰트, 인스턴트 응답 형태인 시맨틱 트리플로 변환하는 시맨틱 트리플 변환 모듈;
    을 포함하는 시맨틱 트리플 기반의 지식 확장 시스템.
  8. 제 7 항에 있어서,
    상기 시맨틱 트리플 추출기는,
    질의의 특성에 따라, 관련성이 존재하는 패시지(Passage) 후보군을 1차 선정하여 검색 대상 타겟팅을 시행하고, 해당 질의와 관련 있는 Passage를 검색하는 패시지 검색 모듈; 및
    획득한 패시지 및 질의 데이터를 기반으로 유니크 인스턴트 응답을 도출하며, 상기 패시지 각가에 대하여 유니크 인스턴트 응답과 해당 응답의 신뢰도를 도출하는 기계독해 질의응답 모듈; 을 포함하는, 시맨틱 트리플 기반의 지식 확장 시스템.
  9. 제 7 항에 있어서,
    상기 질의문 생성 모듈은,
    전체 시맨틱 트리플 데이터에서, 엔티티(entity) 필드와 어트리뷰트(attribute) 필드를 룩업(Lookup) 하여 조합하고, 특정 관계 카테고리 별로 엔티티 데이터베이스와 어트리뷰트 데이터베이스를 연계하며, 유의어 정보를 활용하여 생성될 질의문 수를 확장하는, 시맨틱 트리플 기반의 지식 확장 시스템.
  10. 엔티티 유의어, 어트리뷰트 유의어를 활용 및 조합하여 질의문을 생성하는 질의문 생성 단계;
    상기 생성된 질의문에 대해 유니크 인스턴트 응답(Unique Instant Answer)을 도출하는 시맨틱 트리플 추출 단계;
    상기 시맨틱 트리플 추출기의 결과를 판단하여 정답인 유니크 인스턴트 응답(Unique Instant Answer) 및 질의를 생성하는 스크리닝 단계;
    상기 정답인 유니크 인스턴트 응답(Unique Instant Answer) 및 질의를 엔티티, 어트리뷰트, 인스턴트 응답 형태인 시맨틱 트리플로 변환하는 시맨틱 트리플 변환 단계;
    을 포함하는 시맨틱 트리플 기반의 지식 확장 방법.
  11. 제 10 항에 있어서,
    상기 시맨틱 트리플 추출 단계는,
    질의의 특성에 따라, 관련성이 존재하는 패시지(Passage) 후보군을 1차 선정하여 검색 대상 타겟팅을 시행하고, 해당 질의와 관련 있는 Passage를 검색하는 패시지 검색 단계; 및
    획득한 패시지 및 질의 데이터를 기반으로 유니크 인스턴트 응답을 도출하며, 상기 패시지 각가에 대하여 유니크 인스턴트 응답과 해당 응답의 신뢰도를 도출하는 기계독해 질의응답 단계; 를 포함하는, 시맨틱 트리플 기반의 지식 확장 방법.
  12. 제 10 항에 있어서,
    상기 질의문 생성 단계는,
    전체 시맨틱 트리플 데이터에서, 엔티티(entity) 필드와 어트리뷰트(attribute) 필드를 룩업(Lookup)하여 조합하고, 특정 관계 카테고리 별로 엔티티 데이터베이스와 어트리뷰트 데이터베이스를 연계하며, 유의어 정보를 활용하여 생성될 질의문 수를 확장하는, 시맨틱 트리플 기반의 지식 확장 방법.
  13. 엔티티(Entity) 유의어, 어트리뷰트(attribute) 유의어를 활용 및 조합하여 질의문을 생성하는 질의문 생성 모듈; 및
    상기 질의문 생성 모듈에서 생성된 질의 혹은 상기 실제 사용자 질의문을 입력값으로 획득하여 생성된 질의문에 대해 유니크 인스턴트 응답을 도출하는 시맨틱 트리플 추출기; 를 포함하고,
    상기 시맨틱 트리플 추출기는,
    질의의 특성에 따라, 관련성이 존재하는 패시지(Passage) 후보군을 1차 선정하여 검색 대상 타겟팅을 시행하고, 해당 질의와 관련 있는 Passage를 검색하는 패시지 검색 모듈; 및
    획득한 패시지 및 질의 데이터를 기반으로 유니크 인스턴트 응답을 도출하며, 상기 패시지 각가에 대하여 유니크 인스턴트 응답과 해당 응답의 신뢰도를 도출하는 기계독해 질의응답 모듈; 을 포함하는, 시맨틱 트리플 기반의 지식 확장 시스템.
  14. 제 13 항에 있어서,
    상기 질의문 생성 모듈은,
    전체 시맨틱 트리플 데이터에서, 엔티티(entity) 필드와 어트리뷰트(attribute) 필드를 룩업(Lookup) 하여 조합하고, 특정 관계 카테고리 별로 엔티티 데이터베이스와 어트리뷰트 데이터베이스를 연계하며, 유의어 정보를 활용하여 생성될 질의문 수를 확장하는, 시맨틱 트리플 기반의 지식 확장 시스템.
  15. 제 13 항에 있어서,
    정답인 유니크 인스턴트 응답을 판별하는 스크리닝부를 더 포함하고,
    상기 스크리닝부는,
    질의 데이터 기반으로 다수의 유니크 인스턴트 응답 결과가 같게 나오거나, 자체 신뢰도가 특정 임계치 이상인 경우 정답으로 판단하는, 시맨틱 트리플 기반의 지식 확장 시스템.
  16. 제4항 내지 제6항 및 제10항 내지 제13항 중 어느 한 항에 따른 방법을 실행하기 위해 컴퓨터 판독 가능한 기록 매체에 기록된 컴퓨터 프로그램.
KR1020180089423A 2018-07-31 2018-07-31 시맨틱 트리플 기반의 지식 확장 시스템, 방법 및 컴퓨터 프로그램 KR102090237B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180089423A KR102090237B1 (ko) 2018-07-31 2018-07-31 시맨틱 트리플 기반의 지식 확장 시스템, 방법 및 컴퓨터 프로그램

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180089423A KR102090237B1 (ko) 2018-07-31 2018-07-31 시맨틱 트리플 기반의 지식 확장 시스템, 방법 및 컴퓨터 프로그램

Publications (2)

Publication Number Publication Date
KR20200014047A true KR20200014047A (ko) 2020-02-10
KR102090237B1 KR102090237B1 (ko) 2020-03-17

Family

ID=69627617

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180089423A KR102090237B1 (ko) 2018-07-31 2018-07-31 시맨틱 트리플 기반의 지식 확장 시스템, 방법 및 컴퓨터 프로그램

Country Status (1)

Country Link
KR (1) KR102090237B1 (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111914134A (zh) * 2020-07-17 2020-11-10 海信视像科技股份有限公司 一种关联推荐方法、智能设备及服务设备
CN111949782A (zh) * 2020-08-07 2020-11-17 海信视像科技股份有限公司 一种信息推荐方法和服务设备
CN112231445A (zh) * 2020-03-27 2021-01-15 北京来也网络科技有限公司 结合rpa与ai的搜索方法、装置、设备及存储介质
CN112925883A (zh) * 2021-02-19 2021-06-08 北京百度网讯科技有限公司 搜索请求处理方法、装置、电子设备及可读存储介质
KR20220066554A (ko) * 2020-11-16 2022-05-24 주식회사 포티투마루 Qa 모델을 이용하여 지식 그래프를 구축하는 방법, 장치 및 컴퓨터 프로그램

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11811792B1 (en) * 2020-05-08 2023-11-07 Gen Digital Inc. Systems and methods for preventing social engineering attacks using distributed fact checking

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101678787B1 (ko) * 2015-07-15 2016-12-06 포항공과대학교 산학협력단 자동질의응답 방법 및 그 장치
KR20170101609A (ko) * 2016-02-29 2017-09-06 경기대학교 산학협력단 지식베이스 기반의 개념그래프 확장 시스템
KR20170107282A (ko) * 2016-03-15 2017-09-25 한국전자통신연구원 자연어 이해 및 질의응답 기반의 의사결정 지원 장치 및 방법
KR101851787B1 (ko) 2017-05-11 2018-04-24 주식회사 마인드셋 멀티 도메인 자연어 처리를 위한 도메인 매칭 장치 및 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101678787B1 (ko) * 2015-07-15 2016-12-06 포항공과대학교 산학협력단 자동질의응답 방법 및 그 장치
KR20170101609A (ko) * 2016-02-29 2017-09-06 경기대학교 산학협력단 지식베이스 기반의 개념그래프 확장 시스템
KR20170107282A (ko) * 2016-03-15 2017-09-25 한국전자통신연구원 자연어 이해 및 질의응답 기반의 의사결정 지원 장치 및 방법
KR101851787B1 (ko) 2017-05-11 2018-04-24 주식회사 마인드셋 멀티 도메인 자연어 처리를 위한 도메인 매칭 장치 및 방법

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112231445A (zh) * 2020-03-27 2021-01-15 北京来也网络科技有限公司 结合rpa与ai的搜索方法、装置、设备及存储介质
CN111914134A (zh) * 2020-07-17 2020-11-10 海信视像科技股份有限公司 一种关联推荐方法、智能设备及服务设备
CN111949782A (zh) * 2020-08-07 2020-11-17 海信视像科技股份有限公司 一种信息推荐方法和服务设备
KR20220066554A (ko) * 2020-11-16 2022-05-24 주식회사 포티투마루 Qa 모델을 이용하여 지식 그래프를 구축하는 방법, 장치 및 컴퓨터 프로그램
CN112925883A (zh) * 2021-02-19 2021-06-08 北京百度网讯科技有限公司 搜索请求处理方法、装置、电子设备及可读存储介质
CN112925883B (zh) * 2021-02-19 2024-01-19 北京百度网讯科技有限公司 搜索请求处理方法、装置、电子设备及可读存储介质

Also Published As

Publication number Publication date
KR102090237B1 (ko) 2020-03-17

Similar Documents

Publication Publication Date Title
US11822890B2 (en) Method, system, and computer program for artificial intelligence answer
KR102090237B1 (ko) 시맨틱 트리플 기반의 지식 확장 시스템, 방법 및 컴퓨터 프로그램
US9965547B2 (en) System and methods for automating trademark and service mark searches
US20130177893A1 (en) Method and Apparatus for Responding to an Inquiry
KR102261199B1 (ko) 인공 지능 질의 응답 시스템, 방법 및 컴퓨터 프로그램
JP2020191075A (ja) Web APIおよび関連エンドポイントの推薦
US11556573B2 (en) Semantic cluster formation in deep learning intelligent assistants
CN109710732B (zh) 信息查询方法、装置、存储介质和电子设备
US20220414463A1 (en) Automated troubleshooter
CN111553138B (zh) 用于规范内容结构文档的辅助写作方法及装置
GB2569858A (en) Constructing content based on multi-sentence compression of source content
KR20080041388A (ko) 문서 분류 시스템 및 문서 분류 방법
US11379527B2 (en) Sibling search queries
KR20200014046A (ko) 기계독해기반 질의응답방법 및 기기
US20210149900A1 (en) Method, system and computer program for semantic triple-based knowledge extension
JP2007207127A (ja) 質問応答システム、質問応答処理方法及び質問応答プログラム
EP3822817A1 (en) Method, system and computer program for semantic triple-based knowledge extension
KR20210032253A (ko) 자연어 질의를 통한 문서 검색 및 응답 제공 시스템 및 방법
CN113342944B (zh) 一种语料泛化方法、装置、设备及存储介质
CN110413735B (zh) 一种问答检索方法及其系统、计算机设备、可读存储介质
CN112732885A (zh) 用于问答系统的答案扩展方法、装置及电子设备
JP2019194759A (ja) 対話システム補強装置及びコンピュータプログラム
CN117688163B (zh) 基于指令微调和检索增强生成的在线智能问答方法及装置
WO2023119573A1 (ja) 情報処理装置、情報処理システム、情報処理方法、およびプログラム
WO2023175089A1 (en) Generating output sequences with inline evidence using language model neural networks

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant