KR20180052890A - 언어지능 모듈 실시간 분산처리 최적화 시스템 및 방법 - Google Patents

언어지능 모듈 실시간 분산처리 최적화 시스템 및 방법 Download PDF

Info

Publication number
KR20180052890A
KR20180052890A KR1020160150010A KR20160150010A KR20180052890A KR 20180052890 A KR20180052890 A KR 20180052890A KR 1020160150010 A KR1020160150010 A KR 1020160150010A KR 20160150010 A KR20160150010 A KR 20160150010A KR 20180052890 A KR20180052890 A KR 20180052890A
Authority
KR
South Korea
Prior art keywords
data
correct answer
simulation system
right answer
answer candidate
Prior art date
Application number
KR1020160150010A
Other languages
English (en)
Other versions
KR101870658B1 (ko
Inventor
박진영
최병은
Original Assignee
주식회사 나눔기술
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 나눔기술 filed Critical 주식회사 나눔기술
Priority to KR1020160150010A priority Critical patent/KR101870658B1/ko
Publication of KR20180052890A publication Critical patent/KR20180052890A/ko
Application granted granted Critical
Publication of KR101870658B1 publication Critical patent/KR101870658B1/ko

Links

Images

Classifications

    • G06F17/30979
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9038Presentation of query results
    • G06F17/30991

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 시뮬레이션 시스템과 연동하거나 시스템 성능 및 유저 인터페이스가 개선된 언어지능 모듈 실시간 분산처리 최적화 시스템 및 방법에 관한 것으로서, 비정형 형태로 질문 데이터를 생성하고 출력하는 시뮬레이션 시스템, 상기 시뮬레이션 시스템으로부터 입력되는 상기 질문 데이터를 분석하여 정형 데이터로 변환하고, 상기 변환된 정형 데이터에 포함된 색인 데이터들 중에서 검색용 데이터를 결정하는 질문분석 엔진부, 상기 결정된 검색용 데이터를 이용해서 지식베이스로부터 정답후보 데이터를 수집하는 KB(Knowledge Base) 연동부, 상기 수집된 정답후보 데이터에 대해 정답 타입 및 제약 추론을 통해 정답후보 데이터를 축소하는 정답후보 생성 엔진부, 상기 축소된 정답후보 데이터를 근거검색 및 검증처리 하고, 상기 근거검색 및 검증처리 결과에 기초하여 정답 신뢰도를 추론하는 최적정답 추론엔진부, 및 상기 추론된 정답 신뢰도를 반영하여 상기 축소된 정답후보 데이터를 상기 시뮬레이션 시스템으로 응답하는 응답 처리부를 포함할 수 있다.

Description

언어지능 모듈 실시간 분산처리 최적화 시스템 및 방법{SYSTEM AND METHOD FOR DISTRIBUTED REALTIME PROCESSING OF LINGUISTIC INTELLIGENCE MODUEL}
본 발명은 언어지능 모듈 실시간 분산처리 최적화 시스템 및 방법에 관한 것으로, 더욱 상세하게는 시뮬레이션 시스템과 연동하거나 시스템 성능 및 유저 인터페이스가 개선된 언어지능 모듈 실시간 분산처리 최적화 시스템 및 방법에 관한 것이다.
교호 네트워크 서비스(SNS: Social Network Service) 및 모바일 인터넷 서비스가 활성함에 따라 수많은 데이터가 인터넷 상에서 생성 및 유통되고, 최근 검색 엔진 및 웹 포탈을 운영하는 기업들 간에는 수많은 데이터를 수집 및 가공하여 인터넷 사용자에게 질의 응답을 제공하는 서비스를 실시하고 있다.
그러나, 기존의 데이터 질의 응답을 처리하는 서비스는 폭발적으로 증가하는 데이터를 실시간 처리하는데 어려움을 겪고 있다.
최근 들어, 폭발적으로 증가하는 데이터를 실시간 처리할 수 있는 대용량 데이터 분산 병렬 처리하는 기술에 대하여 많은 연구를 하고 있고, 대용량 데이터 분산 병렬 처리하는 기술 중에서 맵리듀스(Mapreduce) 모델을 이용한 분산 병렬 처리 기술이 주목을 받고 있는 추세이다.
그러나, 맵리듀스 모델을 이용한 분산 병렬 처리기 기술은 일회성 데이터를 처리하기 위한 목적으로 설계된 것으로, 맵(Map) 함수에 할당되는 데이터를 처음부터 끝까지 읽고 처리하는 방식이기 때문에, 매번 입력 데이터를 전체 스캔하는 방식으로 적용되어 성능 저하의 원인을 제공하는 기술이 될 수 있다.
따라서, 대용량의 데이터를 성능 저하 없이 효과적으로 처리 및 실시간으로 질의 응답을 처리할 수 있는 속도를 제공하는 시스템 및 방법을 제공해야 할 것이다.
또한, 인터넷 사용자들 간에는 교호 네트워크 서비스를 통하여 텍스트뿐만 아니라 이미지 음성 및 영상에 관련된 비정형 데이터를 공유 및 교류하지만, 정작 질의 응답을 처리하는 서비스는 텍스트 형태의 검색 질의를 분석하여 정답을 추출하는 방식이 중심일 수 있다. 따라서, 이미지 음성 및 영상에 관련된 비정형 데이터에 대한 질의를 효과적으로 분석할 수 있는 시스템 및 방법을 제공해야 할 것이다.
대한민국 등록특허 제101285078호(2013.07.05), "스트림 데이터에 대한 점진적인 맵리듀스 기반 분산 병렬 처리 시스템 및 방법" 대한민국 공개특허 제1020100117335호(2010.11.03). "검색어가 포함된 텍스트를 기초로 검색 사이트를 특정하여 검색 결과를 요청하는 검색 중계 서버 및 그 제어방법"
본 발명의 일실시예는 시스템 성능 및 유저인터페이스가 개선된 언어지능 모듈 실시간 분산처리 최적화 시스템 및 방법을 제공한다.
본 발명의 일실시예는 비정형 데이터를 처리하는 분석 모듈을 이용하여 비정형 데이터에 대한 질의를 효과적으로 분석하는 실시간 질의 및 정답을 위한 분산처리 시스템 및 방법을 제공한다.
본 발명의 일실시예는 질의에 응답하여 추출된 정답 데이터의 신뢰도 향상을 위해 필터링 수단을 이용하는 실시간 질의 및 정답을 위한 분산처리 시스템 및 방법을 제공한다.
일실시예에 따른 언어지능 모듈 실시간 분산처리 최적화 시스템은 비정형 형태로 질문 데이터를 생성하고 출력하는 시뮬레이션 시스템, 상기 시뮬레이션 시스템으로부터 입력되는 상기 질문 데이터를 분석하여 정형 데이터로 변환하고, 상기 변환된 정형 데이터에 포함된 색인 데이터들 중에서 검색용 데이터를 결정하는 질문분석 엔진부, 상기 결정된 검색용 데이터를 이용해서 지식베이스로부터 정답후보 데이터를 수집하는 KB(Knowledge Base) 연동부, 상기 수집된 정답후보 데이터에 대해 정답 타입 및 제약 추론을 통해 정답후보 데이터를 축소하는 정답후보 생성 엔진부, 상기 축소된 정답후보 데이터를 근거검색 및 검증처리 하고, 상기 근거검색 및 검증처리 결과에 기초하여 정답 신뢰도를 추론하는 최적정답 추론엔진부, 및 상기 추론된 정답 신뢰도를 반영하여 상기 축소된 정답후보 데이터를 상기 시뮬레이션 시스템으로 응답하는 응답 처리부를 포함할 수 있다.
일실시예에 따른 언어지능 모듈 실시간 분산처리 최적화 시스템은 성능 개선 처리부, 및 정답 순위 표시, 처리결과 가독성 향상 처리, 로그 페이징 처리를 수행하는 유저 인터페이스 처리부를 더 포함하고, 상기 성능 개선 처리부는 모듈 추가 분산 처리부, 동시 접속 처리부, 및 로그 백그라운드 처리부를 포함하고, 상기 모듈 추가 분산 처리부는 복수의 인스턴스들을 이용해서 정답 타입 및 제약 추론 모듈을 구동하여 정답후보 데이터의 축소를 서포트하며, 상기 동시 접속 처리부는 시스템 기동시 각 모듈을 n개 만큼 생성하여 풀에 저장해 놓고, 상기 시뮬레이션 시스템으로부터 질문 데이터에 대한 쿼리가 올때마다 사용하지 않는 모듈을 로드하여 사용하고 이를 다시 풀에 반납하고, 상기 로그 백그라운드 처리부는 기존 로그 저장시 동기 방식으로 로그를 기록하여 데이터베이스의 저장시 처리 시간만큼 지연이 되었던 것을 쓰레드를 이용하여 비동기식으로 변경할 수 있다.
일실시예에 따른 언어지능 모듈 실시간 분산처리 최적화 방법은 시뮬레이션 시스템에서, 비정형 형태로 질문 데이터를 생성하고 출력하는 단계, 질문분석 엔진부에서, 상기 시뮬레이션 시스템으로부터 입력되는 상기 질문 데이터를 분석하여 정형 데이터로 변환하고, 상기 변환된 정형 데이터에 포함된 색인 데이터들 중에서 검색용 데이터를 결정하는 단계, KB(Knowledge Base) 연동부에서, 상기 결정된 검색용 데이터를 이용해서 지식베이스로부터 정답후보 데이터를 수집하는 단계, 정답후보 생성 엔진부에서, 상기 수집된 정답후보 데이터에 대해 정답 타입 및 제약 추론을 통해 정답후보 데이터를 축소하는 단계, 최적정답 추론엔진부에서, 상기 축소된 정답후보 데이터를 근거검색 및 검증처리 하고, 상기 근거검색 및 검증처리 결과에 기초하여 정답 신뢰도를 추론하는 단계, 및 응답 처리부에서, 상기 추론된 정답 신뢰도를 반영하여 상기 축소된 정답후보 데이터를 상기 시뮬레이션 시스템으로 응답하는 단계를 포함할 수 있다.
본 발명에 따르면, 시스템 성능 및 유저인터페이스가 개선된 언어지능 모듈 실시간 분산처리 최적화 시스템 및 방법을 제공할 수 있다.
본 발명에 따르면, 비정형 데이터를 처리하는 분석 모듈을 이용하여 비정형 데이터에 대한 질의를 효과적으로 분석하는 실시간 질의 및 정답을 위한 분산처리 시스템 및 방법을 제공할 수 있다.
본 발명에 따르면, 질의에 응답하여 추출된 정답 데이터의 신뢰도 향상을 위해 필터링 수단을 이용하는 실시간 질의 및 정답을 위한 분산처리 시스템 및 방법을 제공할 수 있다.
도 1은 언어지능 모듈 실시간 분산처리 최적화 시스템을 이용하는 전체 시스템을 설명하는 도면이다.
도 2는 시스템 성능 및 유저인터페이스가 개선된 언어지능 모듈 실시간 분산처리 최적화 시스템을 보다 구체적으로 설명하는 도면이다.
도 3은 일실시예에 따른 성능 개선 처리부를 설명하는 도면이다.
도 4는 일실시예에 따른 모듈 추가 분산 처리부를 설명하는 도면이다.
도 5는 일실시예에 따른 동시 접속 처리부를 설명하는 도면이다.
도 6은 일실시예에 따른 로그 백그라운드 처리부를 설명하는 도면이다.
도 7은 시스템 성능 및 유저인터페이스가 개선된 언어지능 모듈 실시간 분산처리 최적화 방법을 보다 구체적으로 설명하는 도면이다.
본 명세서에 개시되어 있는 본 발명의 개념에 따른 실시예들에 대해서 특정한 구조적 또는 기능적 설명들은 단지 본 발명의 개념에 따른 실시예들을 설명하기 위한 목적으로 예시된 것으로서, 본 발명의 개념에 따른 실시예들은 다양한 형태로 실시될 수 있으며 본 명세서에 설명된 실시예들에 한정되지 않는다.
본 발명의 개념에 따른 실시예들은 다양한 변경들을 가할 수 있고 여러 가지 형태들을 가질 수 있으므로 실시예들을 도면에 예시하고 본 명세서에 상세하게 설명하고자 한다. 그러나, 이는 본 발명의 개념에 따른 실시예들을 특정한 개시형태들에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 변경, 균등물, 또는 대체물을 포함한다.
제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만, 예를 들어 본 발명의 개념에 따른 권리 범위로부터 이탈되지 않은 채, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성요소들 간의 관계를 설명하는 표현들, 예를 들어 "~사이에"와 "바로~사이에" 또는 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.
본 명세서에서 사용한 용어는 단지 특정한 실시예들을 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 그러나, 특허출원의 범위가 이러한 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.
도 1은 언어지능 모듈 실시간 분산처리 최적화 시스템을 이용하는 전체 시스템(100)을 설명하는 도면이다.
언어지능 모듈 실시간 분산처리 최적화 시스템을 이용하는 전체 시스템(100)은 단문/중문/복문 대상의 자연어 심층 이해 성능을 향상시킬 수 있다. 또한, 텍스트 빅데이터 기반의 언어지식을 추출 및 학습할 수 있고, 단문/중문/자연어 질문의 의도를 분석하고 이해하는데 성능을 향상시킬 수 있다. 뿐만 아니라, 단문/중문/질문-다답/나열형 정답 후보의 생성을 위한 다중 정보 색인/검색 기술을 제공할 수 있다.
또한, 언어지능 모듈 실시간 분산처리 최적화 시스템(110)은 지식 베이스 및 시뮬레이션 시스템과 연동하여, 고 성능의 실시간 질의 및 정답을 위한 분산처리가 가능하다.
구체적으로, 언어지능 모듈 실시간 분산처리 최적화 시스템(110)은 시스템 성능을 평가하고 분석하기 위해서 시뮬레이션 시스템으로부터 텍스트, 이미지, 음성 및 영상 중 어느 하나를 포함하는 비정형 데이터를 수신하고, 이에 포함된 비정형 데이터를 분석한다. 구체적으로, 언어지능 모듈 실시간 분산처리 최적화 시스템(110)은 텍스트, 이미지, 음성 및 영상 중 어느 하나에 대한 비정형 데이터의 종류를 판별하고, 비정형 데이터의 종류가 텍스트로 판별되는 경우 언어 패턴 인식을 이용하여 텍스트를 분석할 수 있다.
또한, 언어지능 모듈 실시간 분산처리 최적화 시스템(110)은 비정형 데이터의 종류가 이미지로 판별되는 경우, 이미지 패턴 인식을 이용하여 이미지를 분석할 수 있다. 만약, 비정형 데이터의 종류가 음성으로 판별되는 경우, 음성 패턴 인식을 이용하여 음성을 분석할 수 있고, 비정형 데이터의 종류가 영상으로 판별되는 경우, 이미지 패턴 인식 및 음성 패턴 인식이 포함된 영상 패턴 인식을 이용하여 영상을 분석할 수 있다.
언어지능 모듈 실시간 분산처리 최적화 시스템(110)은 변환된 정형 데이터에 대한 기 저장된 색인 데이터가 존재하는 경우, 기 저장된 색인 데이터에 대한 검색용 데이터를 생성할 수 있다. 또한, 언어지능 모듈 실시간 분산처리 최적화 시스템(110)은 변환된 정형 데이터에 대한 기 저장된 색인 데이터가 존재하지 않는 경우, 변환된 정형 데이터에 대한 색인 데이터를 생성하고, 생성된 색인 데이터에 대한 검색용 데이터를 생성할 수 있다. 언어지능 모듈 실시간 분산처리 최적화 시스템(110)은 생성된 검색용 데이터를 연관성 있는 연관 데이터로 분류하고, 분류된 연관 데이터를 정렬 및 병합하여 지식 베이스 기반의 정답후보 데이터로 분산 처리할 수 있다.
또한, 언어지능 모듈 실시간 분산처리 최적화 시스템(110)은 분산 처리된 정답후보 데이터를 사용자 선호도, 관련성 인자 및 검색 엔진 중 어느 하나를 기반으로 필터링하여 정답 데이터를 추출할 수 있다. 이때, 언어지능 모듈 실시간 분산처리 최적화 시스템(110)은 정답 타입 및 제약을 추론하는 과정을 통해 검색된 정답후보를 축소할 수 있다. 또한, 언어지능 모듈 실시간 분산처리 최적화 시스템(110)은 근거 검색 및 검증 과정을 통해 정답 신뢰도를 추론할 수 있다. 결국, 추론된 정답 신뢰도는 시뮬레이션 시스템으로 회신되고, 이를 수신한 시뮬레이션 시스템은 정답 신뢰도를 체크하여 시스템 성능을 평가할 수 있다.
한편, 언어지능 모듈 실시간 분산처리 최적화 시스템(110)은 개선된 UI를 제공할 수 있다.
구체적으로, 언어지능 모듈 실시간 분산처리 최적화 시스템(110)은 메뉴를 상단으로 변경하여 최대한의 너비를 데이터 표시에 사용할 수 있도록 수정하고, 상위 3개의 정답 순위를 신뢰도 수치에 따라 다른 색으로 표시 함으로써 개선된 UI를 제공할 수 있다.
뿐만 아니라, 언어지능 모듈 실시간 분산처리 최적화 시스템(110)은 질문의 결과를 처리가 끝난 후 바로 확인할 수 있도록 중요 데이터를 특정 색으로 표시하는 등의 가독성을 개선할 수 있다.
언어지능 모듈 실시간 분산처리 최적화 시스템(110)은 대량의 로그에도 성능이 저하되지 않도록 로그의 페이징 처리를 수행할 수 있다.
결국, 언어지능 모듈 실시간 분산처리 최적화 시스템(110)을 이용하면, QA 시스템의 성능이 향상되고 및 UI가 개선된 시스템을 제공할 수 있다.
시스템 성능 및 유저인터페이스가 개선된 언어지능 모듈 실시간 분산처리 최적화 시스템 및 방법을 제공할 수 있다. 또한, 비정형 데이터를 처리하는 분석 모듈을 이용하여 비정형 데이터에 대한 질의를 효과적으로 분석할 수 있고, 질의에 응답하여 추출된 정답 데이터의 신뢰도 향상을 위해 필터링 수단을 이용할 수 있다.
도 2는 시스템 성능 및 유저인터페이스가 개선된 언어지능 모듈 실시간 분산처리 최적화 시스템을 보다 구체적으로 설명하는 도면이다.
일실시예에 따른 전체 시스템(200)은 언어지능 모듈 실시간 분산처리 최적화 시스템(210)과 연동 모듈을 통해 이와 연동하는 시뮬레이션 시스템(220)을 포함한다.
일실시예에 따른 언어지능 모듈 실시간 분산처리 최적화 시스템(210)은 질문분석 엔진부(211), KB 연동부(212), 정답후보 생성 엔진부(213), 최적정답 추론엔진부(214), 응답 처리부(215), 성능 개선 처리부(216), 및 유저 인터페이스 처리부(217)를 포함한다.
일실시예에 따른 질문분석 엔진부(211)는 시뮬레이션 시스템(220)으로부터 입력되는 질문 데이터를 분석하여 정형 데이터로 변환하고, 변환된 정형 데이터에 포함된 색인 데이터들 중에서 검색용 데이터를 결정할 수 있다.
시뮬레이션 시스템(220)은 과거 및 차기 개편 문제유형을 적용할 수 있고, 기능 개선 및 고도화, 전략 및 개선 근거를 제공할 수 있다.
일실시예에 따른 KB 연동부(212)는 결정된 검색용 데이터를 이용해서 지식베이스(Knowledge Base)로부터 정답후보 데이터를 수집할 수 있다.
일실시예에 따른 정답후보 생성 엔진부(213)는 수집된 정답후보 데이터에 대해 정답 타입 및 제약 추론을 통해 정답후보 데이터를 축소할 수 있다.
일실시예에 따른 최적정답 추론엔진부(214)는 축소된 정답후보 데이터를 근거검색 및 검증처리 하고, 근거검색 및 검증처리 결과에 기초하여 정답 신뢰도를 추론할 수 있다.
구체적으로, 최적정답 추론엔진부(214)는 시스템에서 제공하는 정답에 대한 신뢰를 추론하는데, 이를 위해 기술적 신뢰도, 정답소스 신뢰도 등을 고려하여 평가식을 통해 내부 계산할 수 있다. 평가식은 정답을 생성하는데 있어 정답에 대한 신뢰도를 고려하고, 언어분석, 질문분석, 정답후보 생성, 정답추론 과정을 통해 성능의 평가 척도, 언어분석, 질문분석, 정답후보 생성의 과정을 통해 오류를 분석할 수 있다. 또한, 최적정답 추론엔진부(214)는 질문분석 정확도, 정답후보 생성 재현율, 정답추론 정확도 등을 통해 정답 추론의 정확도를 산출할 수 있다.
일실시예에 따른 응답 처리부(215)는 추론된 정답 신뢰도를 반영하여 상기 축소된 정답후보 데이터를 상기 시뮬레이션 시스템으로 응답할 수 있다.
또한, 일실시예에 따른 전체 시스템(200)은 일실시예에 따른 성능 개선 처리부(216)를 통해 시스템 성능을 향상시킬 수 있다.
성능 개선 처리부(216)는 이하 도 3을 통해서 보다 구체적으로 설명한다.
일실시예에 따른 유저 인터페이스 처리부(217)는 유저 인터페이스를 제공하거나, 유저 인터페이스의 성능 향상을 위한 관련 처리를 수행할 수 있다.
한편, 시뮬레이션 처리부(220)는 비정형 형태로 질문 데이터를 생성하고 출력할 수 있다. 특히, 시뮬레이션 처리부(220)는 시뮬레이션 유저인터페이스, 시나리오 관리, 결과 분석, 환경설정 등의 기능을 구현할 수 있고, 단답형/나열형/서술형 질문에 대한 성능평가와 대규모 실시간 시뮬레이션을 제공할 수 있다.
도 3은 일실시예에 따른 성능 개선 처리부(300)를 설명하는 도면이다.
일실시예에 따른 성능 개선 처리부(300)는 모듈 추가 분산 처리부(310), 동시 접속 처리부(320), 및 로그 백그라운드 처리부(330)를 포함할 수 있다.
구체적으로, 성능 개선 처리부(300)는 모듈 추가 분산 처리부(310), 동시 접속 처리부(320), 및 로그 백그라운드 처리부(330)를 통해서 시스템 성능을 향상시킬 수 있다.
일실시예에 따른 모듈 추가 분산 처리부(310)는 복수의 인스턴스들을 이용해서 정답 타입 및 제약 추론 모듈을 구동하여 정답후보 데이터의 축소를 서포트할 수 있다.
이를 위해, 일실시예에 따른 모듈 추가 분산 처리부(310)는 정답 타입에 대한 제약 추론 모듈을 포함할 수 있다.
일실시예에 따른 동시 접속 처리부(320)는 요청이 올 때마다 풀에서 객체를 꺼내 사용 후, 다시 풀에 반납하는 방식으로 동시에 접속할 수 있는 사용자의 수를 향상시킬 수 있다.
일실시예에 따른 로그 백그라운드 처리부(330)는 기존 로그 저장시 동기 방식으로 로그를 기록하여 데이터베이스의 저장시 처리 시간만큼 지연이 되었던 것을 쓰레드를 이용하여 비동기식으로 변경할 수 있다. 로그 백그라운드 처리부(330)는 쓰레드(Thread)를 이용하여 로그를 백(back)단에서 처리하기 때문에 전체적인 처리 성능에 영향을 주지 않는다.
결국, 성능 개선 처리부(300)를 통해 시스템 성능이 현저하게 향상될 수 있다.
도 4는 일실시예에 따른 모듈 추가 분산 처리부(400)를 설명하는 도면이다.
모듈 추가 분산 처리부(400)는 정답 타입에 대한 제약 추론 모듈을 포함할 수 있다. 또한, 모듈 추가 분산 처리부(400)는 해당 모듈을 통해 근거검색 및 검증을 수행할 수 있는데, 이를 위해 1 인스턴스를 9 인스턴스로 향상시키고, 8 인스턴스를 18 인스턴스로 향상시켜 시스템 성능을 높일 수 있다.
도 5는 일실시예에 따른 동시 접속 처리부(500)를 설명하는 도면이다.
일실시예에 따른 동시 접속 처리부(500)는 기존 로그 저장시 동기 방식으로 로그를 기록하여 데이터베이스의 저장시 처리 시간만큼 지연이 되었던 것을 쓰레드를 이용하여 비동기식으로 변경할 수 있다. 동시 접속 처리부(500)는 쓰레드(Thread)를 이용하여 로그를 백(back)단에서 처리하기 때문에 전체적인 처리 성능에 영향을 주지 않는다.
도 6은 일실시예에 따른 로그 백그라운드 처리부(600)를 설명하는 도면이다.
로그 백그라운드 처리부(600)는 시스템 기동시 각 모듈을 n개 만큼 생성하여 풀에 저장해 놓고, 시뮬레이션 시스템으로부터 질문 데이터에 대한 쿼리가 올 때 마다 사용하지 않는 모듈을 로드하여 사용하고 이를 다시 풀에 반납할 수 있다. 이로써, 로그 백그라운드 처리부(600)는 동시에 접속할 수 있는 사용자의 수를 향상시킬 수 있다. 즉, 로그 백그라운드 처리부(600)는 요청이 올 때마다 풀에서 객체를 꺼내 사용 후, 다시 풀에 반납하는 방식으로 동시에 접속할 수 있는 사용자의 수를 향상시킬 수 있다.
도 7은 시스템 성능 및 유저인터페이스가 개선된 언어지능 모듈 실시간 분산처리 최적화 방법을 보다 구체적으로 설명하는 도면이다.
일실시예에 따른 언어지능 모듈 실시간 분산처리 최적화 방법은 시스템 성능 및 유저인터페이스가 개선된 기능들을 제공할 수 있다.
이를 위해, 일실시예에 따른 언어지능 모듈 실시간 분산처리 최적화 방법은 정형 데이터에 포함된 색인 데이터들 중에서 검색용 데이터를 결정할 수 있다(단계 710).
즉, 시뮬레이션 시스템에서, 비정형 형태로 질문 데이터를 생성하고 출력하면, 질문분석 엔진부를 통해 시뮬레이션 시스템으로부터 입력되는 질문 데이터를 분석하여 정형 데이터로 변환하고, 변환된 정형 데이터에 포함된 색인 데이터들 중에서 검색용 데이터를 결정할 수 있다.
일실시예에 따른 언어지능 모듈 실시간 분산처리 최적화 방법은 결정된 검색용 데이터를 이용해서 지식베이스로부터 정답후보 데이터를 수집할 수 있다(단계 720). 이를 위해, 언어지능 모듈 실시간 분산처리 최적화 방법은 KB(Knowledge Base)에 서치를 위한 쿼리를 전송하고, 서치 결과로부터 정답후보 데이터를 추출할 수 있다.
일실시예에 따른 언어지능 모듈 실시간 분산처리 최적화 방법은 수집된 정답후보 데이터에 대해 정답 타입 및 제약 추론을 통해 정답후보 데이터를 축소할 수 있다(단계 730).
일실시예에 따른 언어지능 모듈 실시간 분산처리 최적화 방법은 근거검색 및 검증처리 결과에 기초하여 정답 신뢰도를 추론할 수 있다(단계 740). 즉, 축소된 정답후보 데이터를 근거검색 및 검증처리 하고, 상기 근거검색 및 검증처리 결과에 기초하여 정답 신뢰도를 추론할 수 있다.
일실시예에 따른 언어지능 모듈 실시간 분산처리 최적화 방법은 추론된 정답 신뢰도를 반영하여 축소된 정답후보 데이터를 시뮬레이션 시스템으로 응답할 수 있다(단계 750).
결국, 본 발명을 이용하면 시스템 성능 및 유저인터페이스가 개선된 언어지능 모듈 실시간 분산처리 최적화 시스템 및 방법을 제공할 수 있다. 또한, 비정형 데이터를 처리하는 분석 모듈을 이용하여 비정형 데이터에 대한 질의를 효과적으로 분석하는 실시간 질의 및 정답을 위한 분산처리 시스템 및 방법을 제공할 수 있다. 또한, 질의에 응답하여 추출된 정답 데이터의 신뢰도 향상을 위해 필터링 수단을 이용하는 실시간 질의 및 정답을 위한 분산처리 시스템 및 방법을 제공할 수 있다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.
210: 언어지능 모듈 실시간 분산처리 최적화 시스템
211: 질문분석 엔진부 212: KB 연동부
213: 정답후보 생성 엔진부 214: 최적정답 추론엔진부
215: 응답 처리부 216: 성능 개선 처리부
217: 유저 인터페이스 처리부 280: 시뮬레이션 시스템

Claims (3)

  1. 비정형 형태로 질문 데이터를 생성하고 출력하는 시뮬레이션 시스템;
    상기 시뮬레이션 시스템으로부터 입력되는 상기 질문 데이터를 분석하여 정형 데이터로 변환하고, 상기 변환된 정형 데이터에 포함된 색인 데이터들 중에서 검색용 데이터를 결정하는 질문분석 엔진부;
    상기 결정된 검색용 데이터를 이용해서 지식베이스로부터 정답후보 데이터를 수집하는 KB(Knowledge Base) 연동부;
    상기 수집된 정답후보 데이터에 대해 정답 타입 및 제약 추론을 통해 정답후보 데이터를 축소하는 정답후보 생성 엔진부;
    상기 축소된 정답후보 데이터를 근거검색 및 검증처리 하고, 상기 근거검색 및 검증처리 결과에 기초하여 정답 신뢰도를 추론하는 최적정답 추론엔진부; 및
    상기 추론된 정답 신뢰도를 반영하여 상기 축소된 정답후보 데이터를 상기 시뮬레이션 시스템으로 응답하는 응답 처리부
    를 포함하는 언어지능 모듈 실시간 분산처리 최적화 시스템.
  2. 제1항에 있어서,
    성능 개선 처리부; 및
    정답 순위 표시, 처리결과 가독성 향상 처리, 로그 페이징 처리를 수행하는 유저 인터페이스 처리부;
    를 더 포함하고,
    상기 성능 개선 처리부는 모듈 추가 분산 처리부, 동시 접속 처리부, 및 로그 백그라운드 처리부
    를 포함하고,
    상기 모듈 추가 분산 처리부는 복수의 인스턴스들을 이용해서 정답 타입 및 제약 추론 모듈을 구동하여 정답후보 데이터의 축소를 서포트하며,
    상기 동시 접속 처리부는 시스템 기동시 각 모듈을 n개 만큼 생성하여 풀에 저장해 놓고, 상기 시뮬레이션 시스템으로부터 질문 데이터에 대한 쿼리가 올때마다 사용하지 않는 모듈을 로드하여 사용하고 이를 다시 풀에 반납하고,
    상기 로그 백그라운드 처리부는 기존 로그 저장시 동기 방식으로 로그를 기록하여 데이터베이스의 저장시 처리 시간만큼 지연이 되었던 것을 쓰레드를 이용하여 비동기식으로 변경하는 것을 특징으로 하는 언어지능 모듈 실시간 분산처리 최적화 시스템.
  3. 시뮬레이션 시스템에서, 비정형 형태로 질문 데이터를 생성하고 출력하는 단계;
    질문분석 엔진부에서, 상기 시뮬레이션 시스템으로부터 입력되는 상기 질문 데이터를 분석하여 정형 데이터로 변환하고, 상기 변환된 정형 데이터에 포함된 색인 데이터들 중에서 검색용 데이터를 결정하는 단계;
    KB(Knowledge Base) 연동부에서, 상기 결정된 검색용 데이터를 이용해서 지식베이스로부터 정답후보 데이터를 수집하는 단계;
    정답후보 생성 엔진부에서, 상기 수집된 정답후보 데이터에 대해 정답 타입 및 제약 추론을 통해 정답후보 데이터를 축소하는 단계;
    최적정답 추론엔진부에서, 상기 축소된 정답후보 데이터를 근거검색 및 검증처리 하고, 상기 근거검색 및 검증처리 결과에 기초하여 정답 신뢰도를 추론하는 단계; 및
    응답 처리부에서, 상기 추론된 정답 신뢰도를 반영하여 상기 축소된 정답후보 데이터를 상기 시뮬레이션 시스템으로 응답하는 단계
    를 포함하는 언어지능 모듈 실시간 분산처리 최적화 시스템의 동작 방법.
KR1020160150010A 2016-11-11 2016-11-11 언어지능 모듈 실시간 분산처리 최적화 시스템 및 방법 KR101870658B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160150010A KR101870658B1 (ko) 2016-11-11 2016-11-11 언어지능 모듈 실시간 분산처리 최적화 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160150010A KR101870658B1 (ko) 2016-11-11 2016-11-11 언어지능 모듈 실시간 분산처리 최적화 시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20180052890A true KR20180052890A (ko) 2018-05-21
KR101870658B1 KR101870658B1 (ko) 2018-06-25

Family

ID=62453386

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160150010A KR101870658B1 (ko) 2016-11-11 2016-11-11 언어지능 모듈 실시간 분산처리 최적화 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR101870658B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021040101A1 (ko) * 2019-08-30 2021-03-04 주식회사 나눔기술 고성능 질의 및 응답을 위한 실시간 분산색인 시스템 및 방법
KR20210047626A (ko) 2019-10-22 2021-04-30 에스앤즈 주식회사 분산환경 패킷 전송 기반의 스트리밍 데이터 딥러닝 처리 가속화 시스템 및 이를 이용한 멀티 로케이션 멀티 스트리밍 이상상태 탐지 시스템

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021040101A1 (ko) * 2019-08-30 2021-03-04 주식회사 나눔기술 고성능 질의 및 응답을 위한 실시간 분산색인 시스템 및 방법
KR20210047626A (ko) 2019-10-22 2021-04-30 에스앤즈 주식회사 분산환경 패킷 전송 기반의 스트리밍 데이터 딥러닝 처리 가속화 시스템 및 이를 이용한 멀티 로케이션 멀티 스트리밍 이상상태 탐지 시스템

Also Published As

Publication number Publication date
KR101870658B1 (ko) 2018-06-25

Similar Documents

Publication Publication Date Title
US10789552B2 (en) Question answering system-based generation of distractors using machine learning
US11042794B2 (en) Extensible validation framework for question and answer systems
US9678946B2 (en) Automatic generation of N-grams and concept relations from linguistic input data
US10162817B2 (en) Computer messaging bot creation
CN112417090B (zh) 利用未提交的用户输入数据来提高任务性能
WO2019169858A1 (zh) 一种基于搜索引擎技术的数据分析方法及系统
US20200257679A1 (en) Natural language to structured query generation via paraphrasing
AU2022223275B2 (en) Auditing citations in a textual document
US11604794B1 (en) Interactive assistance for executing natural language queries to data sets
JP2021507350A (ja) 複雑な回答の補強証拠取り出し
US20200019643A1 (en) Dynamic modification of information presentation and linkage based on usage patterns and sentiments
US11907863B2 (en) Natural language enrichment using action explanations
EP4364044A1 (en) Automated troubleshooter
KR101870658B1 (ko) 언어지능 모듈 실시간 분산처리 최적화 시스템 및 방법
KR20230025102A (ko) 기계학습 기반의 지능형 법률 판례 검색 및 통합형 법률 서비스 방법 및 장치
WO2018058707A1 (zh) 任务处理方法和分布式计算框架
US11379507B2 (en) Enhanced item development using automated knowledgebase search
US20210406294A1 (en) Relevance approximation of passage evidence
KR20190043199A (ko) 언어지능 모듈을 이용한 분산처리 시스템 및 방법
CN118885575A (zh) 检索方法及计算设备

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant