KR20150112441A - Knowledge acquisition system based on un-structured data for never-ending and self-evolving - Google Patents

Knowledge acquisition system based on un-structured data for never-ending and self-evolving Download PDF

Info

Publication number
KR20150112441A
KR20150112441A KR1020140036622A KR20140036622A KR20150112441A KR 20150112441 A KR20150112441 A KR 20150112441A KR 1020140036622 A KR1020140036622 A KR 1020140036622A KR 20140036622 A KR20140036622 A KR 20140036622A KR 20150112441 A KR20150112441 A KR 20150112441A
Authority
KR
South Korea
Prior art keywords
knowledge
unit
analysis
data
analysis module
Prior art date
Application number
KR1020140036622A
Other languages
Korean (ko)
Other versions
KR101568346B1 (en
Inventor
이경일
이동훈
최윤재
Original Assignee
주식회사 솔트룩스
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 솔트룩스, 한국전자통신연구원 filed Critical 주식회사 솔트룩스
Priority to KR1020140036622A priority Critical patent/KR101568346B1/en
Publication of KR20150112441A publication Critical patent/KR20150112441A/en
Application granted granted Critical
Publication of KR101568346B1 publication Critical patent/KR101568346B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Provided is a knowledge acquisition system capable of self-learning and self-evolving. The knowledge acquisition system may include: a data collecting unit which collects unstructured data through a network; an analysis processor managing unit which selects an analysis module by analyzing the type of the data with respect to the unstructured data collected by the data collecting unit and configures the workflow which is an order of progressing the selected analysis modules; a knowledge analyzing unit which analyzes the unstructured data collected by the data collecting unit based on the configured workflow and the analysis modules selected by the analysis processor managing unit and maps the knowledge data; a knowledge verifying unit which performs a verification with respect to the knowledge data mapped by the knowledge analyzing unit; and a knowledge model managing unit which generates a knowledge model by storing the knowledge data verified by the knowledge verifying unit, wherein the knowledge analyzing unit maps the knowledge data by referring to the knowledge model generated by the knowledge verifying unit.

Description

비정형 데이터 기반 무한 진화형 자가 학습 지식 획득 시스템{Knowledge acquisition system based on un-structured data for never-ending and self-evolving}Technical Field [0002] The present invention relates to a knowledge acquisition system based on unstructured data,

본 발명은 비정형 데이터 기반 무한 지식 진화형 자가 학습 지식 획득 시스템에 관한 것으로, 특히, 비정형 데이터를 분석하여 지식을 획득하기 위하여, 자연어를 이해하고 지식을 무한 자가 학습하여 스스로 진화할 수 있는 지식 획득시스템에 관한 것이다. The present invention relates to an infinite knowledge-based evolutionary self-learning knowledge acquisition system based on unstructured data, and more particularly, to a knowledge acquisition system capable of self-learning by understanding self-knowledge and learning infinite knowledge in order to acquire knowledge by analyzing unstructured data .

본 발명은 미래창조과학부 SW컴퓨팅산업원천기술개발사업(SW)의 일환으로 한국전자통신연구원이 주관하고 (주)솔트룩스에서 연구하여 수행된 연구로부터 도출된 것이다.The present invention is derived from research conducted by Korea Electronics and Telecommunications Research Institute and Saltlux Co., Ltd. as a part of SW Computing Industry Source Technology Development Project (SW) of Future Creation Science Department.

[연구기간 : 2013. 05. 01 ~ 2014. 04. 30, 연구관리 전문기관 : 한국산업기술평가관리원, 연구과제명 : 휴먼 지식증강 서비스를 위한 지능진화형 Wise QA 플랫폼 기술 개발, 과제 고유번호 : 10044577][Research period: 2013. 05. 01 ~ 2014. 04. 30, Research institute: Korea Industrial Technology Evaluation & Management Service, Research title: Development of Intelligent Evolutionary Wise QA Platform Technology for Human Knowledge Enhancement Service, Assignment No.: 10044577 ]

비정형 데이터로부터 지식을 생성하기 위해서는 방대한 자연어들을 수집하여 그 내용으로부터 지식을 추출하여 획득하고 최적의 지식학습 방법의 해를 찾는 것이 중요하다. 이러한 지식증강 과정은 방대한 비정형 데이터를 필요로 하고 관리자와 같은 사람을 통한 자연어로부터 지식 매핑 작업과 최적의 지식 학습 알고리즘 선택 그리고 자연어 처리 분석 기술에 대해 종속됨으로 인해 최적의 해를 찾는데 한계가 있으며 과도한 비용이 발생하고 일반인의 접근이 어려운 한계가 있다.In order to generate knowledge from unstructured data, it is important to collect vast natural words, to extract and acquire knowledge from the contents, and to find the solution of the optimal knowledge learning method. This knowledge enhancement process requires a large amount of unstructured data and is limited in finding optimal solutions due to knowledge mapping from natural language through managers, selection of optimal knowledge learning algorithms, and natural language processing analysis techniques. And it is difficult to access the public.

본 발명의 기술적 과제는 상기한 문제점을 해결하기 위하여, 비정형 데이터로부터 지식을 생성하는 과정에서, 관리자와 같은 사람의 개입을 최소화함과 동시에 자가 학습 및 진화가 가능한 지식 획득시스템을 제공하는 데에 있다. SUMMARY OF THE INVENTION The present invention has been made in view of the above problems, and it is an object of the present invention to provide a knowledge acquisition system capable of self-learning and evolving while minimizing human intervention in a process of generating knowledge from unstructured data .

상기 기술적 과제를 해결하기 위하여, 자가 학습 및 진화가 가능한 지식 획득시스템을 제공한다. In order to solve the above technical problem, a knowledge acquisition system capable of self-learning and evolution is provided.

본 발명에 따른 지식 획득 시스템은, 네트워크를 통하여 비정형 데이터를 수집하는 데이터 수집부; 상기 데이터 수집부에서 수집된 비정형 데이터에 대한 데이터의 유형을 분석하여 분석 모듈을 선택하고 선택된 상기 분석 모듈들의 진행 순서인 워크플로우를 구성하는 분석 프로세서 관리부; 상기 분석 프로세서 관리부에서 선택된 분석 모듈과 구성된 워크플로우를 기반으로 상기 데이터 수집부에서 수집된 비정형 데이터를 분석하여 지식 데이터를 매핑하는 지식 분석부; 상기 지식 분석부에서 매핑된 상기 지식 데이터에 대한 검증을 수행하는 지식 검증부; 및 상기 지식 검증부에서 검증이 수행된 상기 지식 데이터를 저장하여 지식 모델을 생성하는 지식 모델 관리부;를 포함하되, 상기 지식 분석부는, 상기 지식 검증부에서 생성된 상기 지식 모델를 참조하여 상기 지식 데이터를 매핑한다. A knowledge acquisition system according to the present invention includes: a data collection unit for collecting irregular data through a network; An analysis processor managing unit for analyzing types of data of irregular data collected by the data collecting unit to select an analysis module and constructing a work flow that is a progress order of the selected analysis modules; A knowledge analysis unit for analyzing atypical data collected by the data collection unit and mapping knowledge data based on a workflow configured with the analysis module selected by the analysis processor management unit; A knowledge verification unit that verifies the knowledge data mapped by the knowledge analysis unit; And a knowledge model management unit for storing the knowledge data, which has been verified by the knowledge verification unit, to generate a knowledge model, wherein the knowledge analysis unit refers to the knowledge model generated by the knowledge verification unit, Mapping.

상기 지식 검증부는, 상기 지식 분석부에서 매핑된 상기 지식 데이터에 대하여 관리자가 검증을 수행할 수 있도록 유저 인터페이스를 제공하는 관리자 검증부; 및 상기 지식 모델을 기초로, 상기 지식 분석부에서 매핑된 상기 지식 데이터에 대한 오류 여부를 자동 검증하는 오류 자동 검증부;를 포함할 수 있다. Wherein the knowledge verification unit comprises: an administrator verification unit for providing a user interface so that an administrator can perform verification on the knowledge data mapped by the knowledge analysis unit; And an error automatic verification unit for automatically verifying whether or not an error has occurred in the knowledge data mapped by the knowledge analysis unit based on the knowledge model.

상기 데이터 수집부는, 수집된 상기 비정형 데이터 중 일부는 테스트 셋으로, 나머지는 학습 셋으로 선정하고, 상기 지식 검증부는, 상기 테스트 셋으로 선정된 비정형 데이터를 분석하여 매핑된 상기 지식 데이터에 대한 검증을 관리자 검증부에서 수행하도록 하고, 상기 학습 셋으로 선정된 비정형 데이터를 분석하여 매핑된 상기 지식 데이터에 대한 검증을 오류 자동 검증부에서 수행하도록 할 수 있다. Wherein the data collecting unit selects a part of the collected atypical data as a test set and the remainder as a learning set and the knowledge verifying unit analyzes the atypical data selected by the test set and verifies the mapped knowledge data The manager verification unit may be configured to perform the verification of the mapped knowledge data by analyzing the unstructured data selected by the learning set and to perform the verification of the mapped knowledge data in the error automatic verification unit.

상기 지식 모델을 기초로, 학습 모델을 생성하고 갱신하는 지식 학습부; 및 생성되고 갱신된 상기 학습 모델을 저장하는 학습 모델 관리부;를 더 포함하고, 상기 지식 분석부는, 상기 학습 모델 관리부에 저장된 상기 학습 모델을 기반으로 상기 지식 데이터를 매핑할 수 있다. A knowledge learning unit that generates and updates a learning model based on the knowledge model; And a learning model manager for storing the generated and updated learning models, wherein the knowledge analysis unit can map the knowledge data based on the learning models stored in the learning model management unit.

복수의 분석 모듈을 관리하는 분석 모듈 관리부;를 더 포함하며, 상기 분석 모듈 관리부는, 상기 복수의 분석 모듈 중 상기 학습 모델을 생성하고 갱신하기 위한 상기 지식 모델에 대한 분석에 사용되는 분석 모듈을 플러그-인 형태로 상기 지식 학습부에 제공할 수 있다. And an analysis module management unit that manages a plurality of analysis modules, wherein the analysis module management unit includes an analysis module used for analysis of the knowledge model for generating and updating the learning model among the plurality of analysis modules, - > to the knowledge learning unit.

상기 분석 프로세서 관리부에서 선택하기 위한 복수의 분석 모듈을 관리하는 분석 모듈 관리부;를 더 포함하며, 상기 분석 모듈 관리부는, 상기 수집된 비정형 데이터를 분석하도록 상기 복수의 분석 모듈 중 상기 분석 프로세서 관리부에서 선택된 분석 모듈을 플러그-인 형태로 상기 지식 분석부에 제공할 수 있다. And an analysis module management unit for managing the plurality of analysis modules to be selected by the analysis processor management unit, wherein the analysis module management unit is configured to analyze the atypical data collected by the analysis processor management unit, The analysis module can be provided to the knowledge analysis unit in a plug-in form.

상기 워크플로우 실행부는, 플러그-인 형태로 제공된 상기 분석 모듈을 통한 상기 지식 분석부에서의 분석 과정을 중에 오류가 발생하는 분석 모듈이 있는 경우, 상기 구성된 워크플로우를 중지하고, 관리자에게 알림을 발송할 수 있다. The workflow execution unit may stop the configured workflow and send a notification to the administrator when there is an analysis module in which an error occurs during the analysis process in the knowledge analysis unit through the analysis module provided in a plug-in form .

상기 분석 프로세서 관리부에서 분석하는 데이터의 유형은, 텍스트, 영상, 음원 또는 이미지이며, 상기 분석 모듈 관리부에서 관리하는 상기 복수의 분석 모듈은, 언어 분석 모듈, 영상 분석 모듈, 음원 분석 모듈, 또는 이미지 분석 모듈일 수 있다. Wherein the type of data analyzed by the analysis processor management unit is text, image, sound source, or image, and the plurality of analysis modules managed by the analysis module management unit include a language analysis module, an image analysis module, a sound source analysis module, Module.

상기 언어 분석 모듈, 상기 영상 분석 모듈, 상기 음원 분석 모듈, 및 상기 이미지 분석 모듈은 각각 하나 또는 복수의 서브 분석 모듈로 이루어질 수 있다. The language analysis module, the image analysis module, the sound source analysis module, and the image analysis module may each be composed of one or a plurality of sub-analysis modules.

상기 분석 프로세서 관리부는 상기 언어 분석 모듈, 상기 영상 분석 모듈, 상기 음원 분석 모듈, 및 상기 이미지 분석 모듈 중 하나 또는 복수의 분석 모듈로부터 서브 분석 모듈들을 선택하여, 상기 워크플로우를 구성할 수 있다. The analysis processor management unit may configure the workflow by selecting sub-analysis modules from one or more of the language analysis module, the image analysis module, the sound source analysis module, and the image analysis module.

본 발명에 따른 지식 획득 시스템은 각각 독립적으로 동작하는 분석 모듈을 선택하여 플러그-인(plug-in) 형태로 제공하고, 이들을 결합하고 순서를 정하는 워크플로우를 구성할 수 있어, 상대적으로 무한정에 가까운 개별 기능을 가지는 특정 분석기를 제공하는 것과 동일한 효과를 낼 수 있다. The knowledge acquisition system according to the present invention can select analysis modules operating independently of each other, provide them in the form of plug-ins, configure a workflow for combining and arranging them, The same effect can be achieved by providing a specific analyzer having individual functions.

또한 본 발명에 따른 지식 획득 시스템은 일정 수 이상의 테스트 셋으로 선정된 비정형 데이터에 대한 분석을 통하여 생성된 지식 모델과 학습 모델을 이용하여, 관리자의 개입이 없거나 개입을 최소화하여도, 지식 모델과 학습 모델에 대한 무한 자가 학습 및 진화가 가능할 수 있다. Further, the knowledge acquisition system according to the present invention uses a knowledge model and a learning model generated through analyzing atypical data selected by a set of test sets of a predetermined number or more, so that even if the manager does not intervene or minimizes the intervention, Infinite self-learning and evolution of the model may be possible.

도 1은 본 발명의 일 실시 예에 따른 지식 획득 시스템의 구성을 나타내는 개략도이다.
도 2는 테스트 셋으로 선정된 비정형 데이터에 대한 지식 획득 과장을 설명하기 위한 본 발명의 일 실시 예에 따른 지식 획득 시스템의 구성 및 동작을 나타내는 개략도이다.
도 3는 학습 셋으로 선정된 비정형 데이터에 대한 지식 획득 과장을 설명하기 위한 본 발명의 일 실시 예에 따른 지식 획득 시스템의 구성 및 동작을 나타내는 개략도이다.
도 4는 본 발명의 일 실시 예에 따른 지식 획득 시스템의 분석 프로세스 관리부의 요부를 나타내는 개략도이다.
도 5는 본 발명의 일 실시 예에 따른 지식 획득 시스템의 분석 모듈 관리부의 요부를 나타내는 개략도이다.
도 6은 본 발명의 일 실시 예에 따른 지식 획득 시스템의 워크플로우 실행부의 기능을 설명하기 위한 개념도이다.
도 7은 본 발명의 일 실시 예에 따른 지식 획득 시스템에서, 텍스트인 비정형 데이터로부터 지식을 획득하기 위한 워크플로우를 나타내는 개략도이다.
도 8은 본 발명의 일 실시 예에 따른 지식 획득 시스템에서, 이미지인 비정형 데이터로부터 지식을 획득하기 위한 워크플로우를 나타내는 개략도이다.
도 9는 본 발명의 일 실시 예에 따른 지식 획득 시스템에서, 음원인 비정형 데이터로부터 지식을 획득하기 위한 워크플로우를 나타내는 개략도이다.
1 is a schematic diagram showing a configuration of a knowledge acquisition system according to an embodiment of the present invention.
FIG. 2 is a schematic diagram illustrating a configuration and operation of a knowledge acquisition system according to an embodiment of the present invention for explaining knowledge acquirement for unstructured data selected by a test set. FIG.
FIG. 3 is a schematic diagram illustrating the construction and operation of a knowledge acquisition system according to an embodiment of the present invention for explaining knowledge acquirement for unstructured data selected by a learning set.
4 is a schematic diagram showing a main part of an analysis process management unit of a knowledge acquisition system according to an embodiment of the present invention.
5 is a schematic diagram showing a main part of an analysis module management unit of a knowledge acquisition system according to an embodiment of the present invention.
6 is a conceptual diagram for explaining a function of a workflow execution unit of a knowledge acquisition system according to an embodiment of the present invention.
7 is a schematic diagram showing a workflow for acquiring knowledge from unstructured data that is text in a knowledge acquisition system according to an embodiment of the present invention;
8 is a schematic diagram illustrating a workflow for acquiring knowledge from unstructured data that is an image in a knowledge acquisition system according to an embodiment of the present invention.
9 is a schematic diagram showing a workflow for acquiring knowledge from unstructured data that is a sound source in a knowledge acquisition system according to an embodiment of the present invention.

이하, 본 발명의 실시 예들에 따른 지식 획득 시스템을 첨부된 도면을 참조하여 상세하게 설명하지만, 본 발명이 하기의 실시 예들에 한정되는 것은 아니며, 해당 분야에서 통상의 지식을 가진 자라면 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 본 발명을 다양한 다른 형태로 구현할 수 있을 것이다. 즉, 특정한 구조적 내지 기능적 설명들은 단지 본 발명의 실시 예들을 설명하기 위한 목적으로 예시된 것으로, 본 발명의 실시 예들은 다양한 형태로 실시될 수 있으며 본문에 설명된 실시 예들에 한정되는 것으로 해석되어서는 아니된다. 본문에 설명된 실시 예들에 의해 한정되는 것이 아니므로 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. Hereinafter, a knowledge acquisition system according to embodiments of the present invention will be described in detail with reference to the accompanying drawings. However, the present invention is not limited to the following embodiments, The present invention may be embodied in various other forms without departing from the spirit of technical thought. That is, it is to be understood that the specific structural or functional descriptions are merely illustrative of the embodiments of the present invention, and that the embodiments of the present invention may be embodied in various forms and are construed as being limited to the embodiments described herein No. It is to be understood that the invention is intended to cover all modifications, equivalents, and alternatives falling within the spirit and scope of the invention, as defined by the following claims.

본 출원에서 사용한 용어는 단지 특정한 실시 예들을 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "구비하다" 등의 용어는 설시된 특징, 숫자, 단계, 동작, 구성 요소 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성 요소, 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해될 것이다.The terminology used herein is for the purpose of describing particular embodiments only and is not intended to be limiting of the invention. The singular expressions include plural expressions unless the context clearly dictates otherwise. In the present application, the terms "comprises ", or" comprising ", etc. are intended to specify the presence of stated features, integers, steps, operations, elements, or combinations thereof, But do not preclude the presence or addition of steps, operations, elements, or combinations thereof.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다. Unless defined otherwise, all terms used herein, including technical or scientific terms, have the same meaning as commonly understood by one of ordinary skill in the art to which this invention belongs. Terms such as those defined in commonly used dictionaries are to be interpreted as having a meaning consistent with the meaning in the context of the relevant art and are not to be construed as ideal or overly formal in meaning unless expressly defined in the present application .

본 발명의 명세서에서 특별한 언급이 없는 한, 관리자란 지식 획득 시스템을 통하여, 초기 지식 모델과 학습 모델들을 구축하거나, 매핑된 지식에 대한 검증을 하거나, 시스템 구동 중의 오류에 대한 알림을 받을 수 있도록, 지식 획득 시스템에 대한 접근 및 사용 권한이 있는 관리자 및 사용자를 모두 의미할 수 있다. Unless otherwise specified in the specification of the present invention, a manager is a person who, through a knowledge acquisition system, constructs an initial knowledge model and learning models, verifies the mapped knowledge, May refer to both administrators and users who have access and use rights to the knowledge acquisition system.

본 발명의 명세서에서 "지식 데이터"는 전문가 시스템의 구성 요소인 지식 베이스(knowledge base)에 축적된 "지식", 또는 "지식"을 구현하기 위하여 필요한 개체들 및 이들 사이의 관계를 가지고 있는 데이터를 의미한다. 여기에서 "지식"이란, 불특정 다수의 정보를 선택하고 조합하여 주어진 문제의 시간과 공간에 적합한 해결책으로 활용이 가능한 것을 의미한다. "지식 획득"이란, 비정형 데이터로부터 "지식 데이터"를 매핑하는 것을 의미한다. In the specification of the present invention, the term "knowledge data" refers to entities required to implement "knowledge" or "knowledge" accumulated in a knowledge base which is a component of an expert system, it means. The term "knowledge" means that a plurality of unspecified information can be selected and combined to be used as a solution suitable for the time and space of a given problem. "Knowledge acquisition" means mapping "knowledge data" from unstructured data.

본 발명의 명세서에서 특별히 구분해서 사용할 때는, 상대적으로 큰 분석 기능을 가지는 경우, 예를 들면 특정 데이터의 유형에 대한 분석 기능을 가지는 경우를 "분석 모듈", 상대적으로 작은 분석 기능을 가지는 경우, 예를 들면, 특정 데이터의 유형에 대한 세부 분석 기능을 가지는 경우를 "서브 분석 모듈"이라 지칭하나, "서브 분석 모듈"도 별도의 분석 모듈로 기능을 수행하므로, 구분하지 않고 사용할 경우에는 "분석 모듈"과 "서브 분석 모듈"을 모두 '분석 모듈'이라 호칭할 수 있다. In the specification of the present invention, for example, a case having a relatively large analysis function, for example, a case having an analysis function for a specific data type is referred to as an "analysis module", a case having a relatively small analysis function, For example, a case where the detailed analysis function for the specific data type is called a "sub-analysis module", and the "sub-analysis module" also functions as a separate analysis module. "And" sub-analysis module "may all be referred to as " analysis module ".

도 1은 본 발명의 일 실시 예에 따른 지식 획득 시스템의 구성을 나타내는 개략도이다. 1 is a schematic diagram showing a configuration of a knowledge acquisition system according to an embodiment of the present invention.

도 1을 참조하면, 지식 획득 시스템(10)은 데이터 수집부(1000), 데이터 학습/분석부(2000), 지식 검증부(3000) 및 모델 관리부(4000)를 포함한다. 1, the knowledge acquisition system 10 includes a data collection unit 1000, a data learning / analysis unit 2000, a knowledge verification unit 3000, and a model management unit 4000.

데이터 수집부(1000)는 네트워크(10)를 통하여 비정형 데이터(30)를 수집할 수 있다. The data collecting unit 1000 can collect the unstructured data 30 through the network 10. [

네트워크(10)는 유선 인터넷 서비스, 근거리 통신망(LAN), 광대역 통신망(WAN), 인트라넷, 무선 인터넷 서비스, 이동 컴퓨팅 서비스, 무선 데이터 통신 서비스, 무선 인터넷 접속 서비스, 위성 통신 서비스, 무선 랜, 블루투스 등 유/무선을 통하여 데이터를 주고 받을 수 있는 것을 모두 포함할 수 있다. 네트워크(10)가 스마트폰 또는 태블릿 등과 연결되는 경우, 네트워크(10)는 3G, LTE(long term evolution) 등의 무선 데이터 통신 서비스, 와이파이(Wi-Fi) 등의 무선 랜, 블루투스 등일 수 있다. The network 10 may be a wired Internet service, a local area network (LAN), a wide area network (WAN), an intranet, a wireless Internet service, a mobile computing service, a wireless data communication service, a wireless Internet access service, And can transmit / receive data through wire / wireless. When the network 10 is connected to a smart phone or a tablet, the network 10 may be a wireless data communication service such as 3G, long term evolution (LTE), wireless LAN such as Wi-Fi, Bluetooth,

비정형 데이터(un-structured data, 30)란 일정한 규격이나 형태를 지닌 숫자 데이터(numeric data)와 달리 이미지, 음원, 영상, 문서(텍스트)처럼 형태와 구조가 다른 구조화 되지 않은 데이터를 말한다. 비정형 데이터(30)는 예를 들면, 책, 잡지, 문서의료 기록, 음성 정보, 영상 정보와 같은 전통적인 데이터 이외에 이메일, 트위터, 블로그처럼 모바일 기기와 온라인에서 생성되는 데이터일 수 있다. Un-structured data (30) refers to unstructured data that is different in form and structure, such as image, sound source, image, and text (text), unlike numeric data having a certain standard or form. The unstructured data 30 may be, for example, data generated on-line with mobile devices, such as e-mail, Twitter, or blog, as well as traditional data such as books, magazines, medical records, voice information and video information.

특히 비정형 데이터(30)는 정보의 관점에서 유형이 불규칙하고 의미를 파악하기 모호해서 기존의 컴퓨터 처리 방식을 적용하기 어려운 데이터를 의미한다. 비정형 데이터(30)는 반정형 데이터(semi-structured data)를 포함할 수 있다. In particular, the unstructured data 30 refers to data that is irregular in type from the viewpoint of information and is ambiguous to grasp the meaning, and thus it is difficult to apply the conventional computer processing method. The unstructured data 30 may include semi-structured data.

데이터 학습/분석부(2000)는 데이터 수집부(1000)에서 수집된 비정형 데이터(30)를 분석하여 지식 데이터를 매핑할 수 있고, 분석 결과로부터 학습을 할 수 있다. 데이터 학습/분석부(200)는 분석 관리부(2100)과 데이터 처리부(2200)를 포함할 수 있다. The data learning / analyzing unit 2000 can analyze the irregular data 30 collected by the data collecting unit 1000, map knowledge data, and learn from analysis results. The data learning / analysis unit 200 may include an analysis management unit 2100 and a data processing unit 2200.

분석 관리부(2100)는 지식 데이터를 매핑하고, 분석 결과로부터 학습을 하는 과정을 관리할 수 있다. 분석 관리부(2100)는 수집된 비정형 데이터(30)에 대한 데이터의 유형을 분석하여 분석 모듈을 선택하고, 분석 모듈들의 진행 순서인 워크플로우를 구성할 수 있고, 선택을 하기 위한 복수의 분석 모듈을 관리하고, 데이터 처리부(2200)에 선택된 분석 모듈을 플러그-인(plug-in) 형태로 제공할 수 있다.The analysis management unit 2100 can manage the process of mapping the knowledge data and learning from the analysis result. The analysis management unit 2100 can analyze the types of data on the collected irregular data 30 to select an analysis module, configure a work flow, which is a procedure sequence of the analysis modules, and select a plurality of analysis modules And provide the selected analysis module to the data processing unit 2200 in the form of a plug-in.

분석 관리부(2100)는 분석 프로세스 관리부(2120) 및 분석 모듈 관리부(2140)를 포함할 수 있다. 분석 프로세서 관리부(2120)는 수집된 비정형 데이터(30)에 대한 데이터의 유형을 분석하여 분석 모듈을 선택하고, 분석 모듈들의 진행 순서인 워크플로우를 구성할 수 있다. 분석 모듈 관리부(2140)는 선택이 되기 위한 복수의 분석 모듈을 관리하고, 데이터 처리부(2200)에 사용되도록 선택된 분석 모듈을 플러그-인 형태로 제공할 수 있다. 분석 모듈 관리부(2140)는 복수의 분석 모듈을 직접 저장하여 가지고 있으면서 관리하거나, 하나 또는 그 이상의 외부의 시스템이 가지고 있는 분석 모듈들을 호출하여 제공할 수 있다. The analysis management unit 2100 may include an analysis process management unit 2120 and an analysis module management unit 2140. The analysis processor management unit 2120 can analyze the types of data on the collected irregular data 30 to select the analysis module, and configure the workflow, which is a procedure sequence of the analysis modules. The analysis module management unit 2140 manages a plurality of analysis modules to be selected and can provide the analysis modules selected for use in the data processing unit 2200 in a plug-in form. The analysis module management unit 2140 may directly store and manage a plurality of analysis modules, or may call and provide analysis modules held by one or more external systems.

데이터 처리부(2200)는 분석 프로세서 관리부(2120)에서 선택된 분석 모듈과 구성된 워크플로우를 기반으로 데이터 수집부(1000)에서 수집된 비정형 데이터(30)를 분석하여 지식 데이터를 매핑할 수 있다. 또한 데이터 처리부(2200)는 매핑된 지식 데이터에 대하여 지식 검증부(3000)에서 검증한 후에, 모델 관리부(4000)에서 생성된 지식 모델을 기초로 학습 모델을 생성하고 갱신할 수 있다. The data processing unit 2200 may analyze the irregular data 30 collected by the data collecting unit 1000 based on the workflow configured with the analysis module selected by the analysis processor managing unit 2120 to map the knowledge data. The data processing unit 2200 can generate and update a learning model based on the knowledge model generated by the model management unit 4000 after the knowledge verification unit 3000 verifies the mapped knowledge data.

데이터 처리부(2200)는 지식 학습부(2220) 및 지식 분석부(2240)를 포함할 수 있다. 지식 분석부(2240)는 분석 프로세서 관리부(2120)에서 선택된 분석 모듈과 구성된 워크플로우를 기반으로 데이터 수집부(1000)에서 수집된 비정형 데이터(30)를 분석하여 지식 데이터를 매핑할 수 있다. 지식 분석부(2240)는 지식 검증부(3000)에서 생성된 지식 모델를 참조하여 지식 데이터를 매핑할 수 있다. 지식 학습부(2220)는 매핑된 지식 데이터에 대하여 지식 검증부(3000)에서 검증한 후에, 모델 관리부(4000)에서 생성된 지식 모델을 기초로 학습 모델을 생성하고 갱신할 수 있다. The data processing unit 2200 may include a knowledge learning unit 2220 and a knowledge analysis unit 2240. The knowledge analysis unit 2240 analyzes the irregular data 30 collected by the data collection unit 1000 based on the workflow configured with the analysis module selected by the analysis processor management unit 2120 and maps the knowledge data. The knowledge analysis unit 2240 can map the knowledge data with reference to the knowledge model generated by the knowledge verification unit 3000. [ The knowledge learning unit 2220 can generate and update a learning model based on the knowledge model generated by the model management unit 4000 after the knowledge verification unit 3000 verifies the mapped knowledge data.

지식 검증부(3000)는 지식 분석부(2240)에서 매핑된 지식 데이터에 대한 검증을 수행할 수 있다. 지식 검증부(3000)는 관리자 검증부(3100) 및 오류 자동 검증부(3200)를 포함할 수 있다. The knowledge verification unit (3000) can perform verification of the mapped knowledge data in the knowledge analysis unit (2240). The knowledge verification unit 3000 may include an administrator verification unit 3100 and an error automatic verification unit 3200.

관리자 검증부(3100)는 지식 분석부(2240)에서 매핑된 지식 데이터에 대하여 관리자가 검증을 수행할 수 있도록 유저 인터페이스를 제공할 수 있다. 관리자(20)는 온라인 또는 오프라인으로, 관리자 검증부(3100)가 제공하는 유저 인터페이스를 통하여, 매핑된 지식 데이터에 대한 검증을 수행할 수 있다. 오류 자동 검증부(3200)는 지식 분석부(2240)에서 매핑된 지식 데이터에 대한 오류 여부를 자동 검증할 수 있다. 구체적으로 오류 자동 검증부(3200)는, 기구축되어 있거나, 관리자 검증부(3100)를 통하여 매핑된 지식 데이터에 대하여 검증을 수행한 후에 모델 관리부(4000)에서 생선된 지식 모델을 기초로, 지식 분석부(2240)에서 매핑된 지식 데이터에 대한 오류 여부를 자동 검증할 수 있다. 관리자 검증부(3100)에서의 검증과 오류 자동 검증부(3200)에서의 검증에 대해서는 도 2 및 도 3을 통하여 자세히 설명하도록 한다. The manager verification unit 3100 may provide a user interface for the manager to perform verification on the mapped knowledge data in the knowledge analysis unit 2240. [ The administrator 20 can perform verification of the mapped knowledge data, via the user interface provided by the administrator verification unit 3100, on-line or off-line. The error automatic verification unit 3200 can automatically verify whether there is an error in the knowledge data mapped by the knowledge analysis unit 2240. Specifically, the error automatic verification unit 3200 performs verification on the knowledge data that is pre-built or mapped through the administrator verification unit 3100, and then, based on the knowledge model generated in the model management unit 4000, The analyzer 2240 can automatically check whether or not the mapped knowledge data is erroneous. Verification in the administrator verification unit 3100 and verification in the error automatic verification unit 3200 will be described in detail with reference to FIG. 2 and FIG.

모델 관리부(4000)는 지식 데이터를 매핑하고, 분석 결과로부터 학습을 하는데 필요하며, 또한 그 결과인 학습 모델과 지식 모델을 관리할 수 있다. 모델 관리부(4000)는 학습 모델 관리부(4100) 및 지식 모델 관리부(4200)를 포함할 수 있다. 모델 관리부(4000)는 데이터 베이스를 더 포함하거나, 학습 모델 관리부(4100)와 지식 모델 관리부(4200) 내부에 각각 데이터 베이스를 포함할 수 있다. 상기 데이터 베이스는 NoSQL, 관계형 데이터베이스, 파일시스템 등 어떠한 형태로든 데이터를 저장할 수 있는 공간일 수 있다. 상기 데이터 베이스는 논리적으로 구분되는 하나의 저장 장치이거나, 하나 또는 복수의 저장 장치를 논리적으로 구분하는 구분 단위이거나 물리적으로 구분되는 하나의 저장 장치 또는 논리적으로 구분되는 하나의 구분 단위 중 일부일 수 있다. The model management unit 4000 can manage the learning model and the knowledge model, which are necessary for mapping knowledge data and learning from analysis results. The model management unit 4000 may include a learning model management unit 4100 and a knowledge model management unit 4200. The model management unit 4000 may further include a database or may include a database in the learning model management unit 4100 and the knowledge model management unit 4200, respectively. The database may be a space capable of storing data in any form such as NoSQL, relational database, file system, or the like. The database may be logically divided into one storage unit, or may be a division unit for logically dividing one or a plurality of storage units, or a storage unit physically divided or a logically divided division unit.

학습 모델 관리부(4100)는 학습 모델을 생성 및 갱신하여 저장 및 관리할 수 있다. 학습 모델은 지식 학습부(2220)에서 사용되는 언어분석기와 같은 분석 모듈의 기계학습 결과물로, 지식 분석부(2240)에서는 학습 모델을 기반으로 비정형 데이터(30)를 분석하여 지식 데이터를 매핑할 수 있다. 지식 모델 관리부(4200)는 지식 검증부(3000)에서 검증이 수행된 지식 데이터를 저장하고, 지식 모델을 생성할 수 있다. 지식 모델은 지식 분석부(2240)에서 사용되는 언어분석기와 같은 분석 모듈이 비정형 데이터에 의미를 부여하기 위한 의미 사전일 수 있다. 지식 모델은 지식 베이스와 같은 R-DB(Relation DataBase) 전체이거나, 지식 베이스를 구성하는 테이블 스키마일 수 있다. 지식 모델이 예를 들면, 지식 베이스를 구성하는 테이블 스키마인 경우, 지식베이스에 어떠한 질의를 하면, 지식 모델 구조에 따라서 추론을 하거나 데이터를 탐색하여 답변으로 데이터를 돌려줄 수 있다. The learning model management unit 4100 can create and update a learning model, and store and manage the learning model. The learning model is a machine learning result of an analysis module such as a language analyzer used in the knowledge learning unit 2220. In the knowledge analysis unit 2240, the knowledge data can be mapped by analyzing the irregular data 30 based on the learning model have. The knowledge model management unit 4200 can store the knowledge data that has been verified by the knowledge verification unit 3000 and generate a knowledge model. The knowledge model may be a semantic dictionary for analyzing modules such as a language analyzer used in the knowledge analyzer 2240 to give meaning to unstructured data. The knowledge model may be an entire R-DB (Relational Data Base) such as a knowledge base, or a table schema constituting a knowledge base. For example, if the knowledge model is a table schema that constitutes a knowledge base, any queries to the knowledge base may be inferred according to the knowledge model structure, or data may be searched to return data as answers.

지식 획득 시스템(1)은 기구축되어 있는 학습 모델과 지식 모델을 이용하거나, 관리자(20)에 의한 검증으로 생성되는 학습 모델과 지식 모델을 이용하여 수집된 비정형 데이터(30)에 대한 분석 및 처리를 하여 지식 모델과 학습 모델이 무한 자가 학습하여 스스로 진화할 수 있다. 이에 대해서는 도 2 및 도 3를 통하여 자세히 설명하도록 한다. The knowledge acquisition system 1 analyzes and processes the irregular data 30 collected using a learning model and a knowledge model that have been constructed or using a learning model and a knowledge model generated by the verification by the manager 20 The knowledge model and the learning model can evolve themselves by learning infinitely. This will be described in detail with reference to FIG. 2 and FIG.

도 2는 테스트 셋으로 선정된 비정형 데이터에 대한 지식 획득 과정을 설명하기 위한 본 발명의 일 실시 예에 따른 지식 획득 시스템의 구성 및 동작을 나타내는 개략도이다.FIG. 2 is a schematic diagram illustrating a configuration and operation of a knowledge acquisition system according to an embodiment of the present invention to explain a knowledge acquisition process for unstructured data selected as a test set.

도 2를 참조하면, 지식 획득 시스템(1)의 데이터 수집부(1000)는 네트워크(10)를 통하여 수집한 비정형 데이터(30) 중 일부를 테스트 셋으로 선정할 수 있다. 만일, 학습 모델 관리부(4100) 및/또는 지식 모델 관리부(4200)에 생성되거나 기구축된 학습 모델 및/또는 지식 모델이 없거나 그 양이 적은 경우에는 수집된 비정형 데이터(30) 모두를 테스트 셋으로 선정할 수 있다. 이후에는 테스트 셋으로 선정된 비정형 데이터(30)를 이용하는 지식 획득 시스템(1)의 동작을 설명한다.Referring to FIG. 2, the data collection unit 1000 of the knowledge acquisition system 1 may select a part of the irregular data 30 collected through the network 10 as a test set. If there are no learning models and / or knowledge models created or built in the learning model management unit 4100 and / or the knowledge model management unit 4200, the collected irregular data 30 are all set as a test set Can be selected. Hereinafter, the operation of the knowledge acquisition system 1 using the unstructured data 30 selected as the test set will be described.

테스트 셋으로 선정된 비정형 데이터(30)는 분석 관리부(2100)의 분석 프로세스 관리부(2120)에서 데이터의 유형이 분석된다. 예를 들면, 데이터의 유형은 텍스트, 영상, 음원 또는 이미지일 수 있으나, 이에 한정되지 않는다. The type of data is analyzed in the analysis process management unit 2120 of the analysis management unit 2100 in the unstructured data 30 selected as the test set. For example, the type of data may be text, image, sound source, or image, but is not limited thereto.

분석 프로세스 관리부(2120)는 분석된 데이터의 유형에 따라서, 분석 모듈 관리부(2140)에서 관리하는 분석 모듈을 선택하고, 선택된 분석 모듈들의 진행 순서인 워크플로우를 구성할 수 있다. 분석 프로세서 관리부(2120)는 지식 분석부(2240)에게 구성된 워크플로우를 기반으로 테스트 셋으로 선정된 비정형 데이터(30)에 대한 분석을 수행하도록 하여 지식 분석부(2240)는 지식 데이터를 매핑할 수 있다. 이때, 분석 모듈 관리부(2140)는 선택된 분석 모듈을 플러그-인 형태로 지식 분석부(2240)에 제공할 수 있다. The analysis process management unit 2120 may select an analysis module managed by the analysis module management unit 2140 according to the type of analyzed data, and may configure a workflow that is a process sequence of the selected analysis modules. The analysis processor management unit 2120 analyzes the irregular data 30 selected by the test set based on the workflow configured to the knowledge analysis unit 2240 so that the knowledge analysis unit 2240 can map the knowledge data have. At this time, the analysis module management unit 2140 can provide the selected analysis module to the knowledge analysis unit 2240 in a plug-in form.

분석 모듈 관리부(2140)가 선택된 분석 모듈을 플러그-인 형태로 지식 분석부(2240)에 제공한다는 것은, 지식 분석부(2240)에 선택된 분석 모듈을 플러그-인 형태로 결합되어, 분석할 비정형 데이터(30)에 대한 맞춤형 분석기의 기능을 할 수 있다는 것을 의미한다. The reason why the analysis module management unit 2140 provides the selected analysis module to the knowledge analysis unit 2240 in a plug-in form is that the analysis module selected in the knowledge analysis unit 2240 is combined into a plug- Which can function as a customized analyzer for the analyzer 30.

따라서, 지식 획득 시스템(1)은 수집된 비정형 데이터(30)의 데이터의 유형에 따른 별도의 분석기를 각각 제공하는 것이 아니고, 데이터의 유형에 따라서 지식 분석부(2240)에 분석 모듈을 플러그-인 형태로 결합할 수 있다. 따라서 지식 분석부(2240)는 범용 분석기를 위한 하나의 소 워크프레임으로 플러그-인 형태로 결합되는 분석 모듈에 따라서, 각각의 비정형 데이터(30)에 대한 맞춤형 분석기의 기능을 동시에 수행할 수 있다.Therefore, the knowledge acquisition system 1 does not provide a separate analyzer according to the type of data of the collected unstructured data 30, but rather provides the knowledge analysis unit 2240 with an analysis module as a plug- . ≪ / RTI > Therefore, the knowledge analysis unit 2240 can simultaneously perform the function of the customized analyzer for each irregular data 30, in accordance with the analysis module that is plugged in as a single work frame for the general purpose analyzer.

예를 들면, 수집된 비정형 데이터(30)의 데이터의 유형이 텍스트인 경우, 분석 프로세스 관리부(2120)는 언어를 분석하기 위한 분석 모듈들을 선택하고, 선택된 언어를 분석하기 위한 분석 모듈들의 진행 순서인 워크플로우를 구성한다. 이후, 지식 분석부(2240)는 분석 모듈 관리부(2140)에서 플러그-인 형태로 제공한 언어를 분석하기 위한 분석 모듈들이 결합되고, 분석 프로세스 관리부(2120)에서 구성한 워크플로우에 따라서 텍스트인 비정형 데이터(30)에 대한 분석을 수행할 수 있다. For example, if the type of data of the collected irregular data 30 is text, the analysis process management unit 2120 selects analysis modules for analyzing the language, Configure your workflow. Thereafter, the knowledge analysis unit 2240 combines the analysis modules for analyzing the language provided in the plug-in form in the analysis module management unit 2140, and generates the unstructured data, which is text, according to the workflow configured in the analysis process management unit 2120 (30). ≪ / RTI >

지식 분석부(2240)는 학습 모델 관리부(4100)에서 관리하는 학습 모델을 기반으로, 지식 모델 관리부(4200)에서 관리하는 지식 모델을 참조하여, 비정형 데이터(30)에 대한 분석을 수행하여 지식 데이터를 매핑할 수 있다. 만일, 학습 모델 관리부(4100) 및/또는 지식 모델 관리부(4200)에서 관리하는 학습 모델 및/또는 지식 모델이 생성되지 않은 경우에는, 지식 분석부(2240)는 단순 자연어 처리 수준으로 비정형 데이터(30)에 대한 분석을 수행하여 지식 데이터를 매핑할 수 있다. 또는 학습 모델 관리부(4100) 및/또는 지식 모델 관리부(4200)에서 관리하는 학습 모델 및/또는 지식 모델이 상대적으로 빈약할 경우에는, 지식 분석부(2240)는 비정형 데이터(30)에 대한 분석을 수행하여 상대적으로 정확도가 떨어지는 수준으로 지식 데이터를 매핑할 수 있다. The knowledge analysis unit 2240 refers to the knowledge model managed by the knowledge model management unit 4200 on the basis of the learning model managed by the learning model management unit 4100 and analyzes the unstructured data 30, Can be mapped. If the learning model and / or the knowledge model managed by the learning model managing unit 4100 and / or the knowledge model managing unit 4200 is not generated, the knowledge analyzing unit 2240 analyzes the irregular data 30 ) To map the knowledge data. Or knowledge model managed by the learning model management unit 4100 and / or the knowledge model management unit 4200 is relatively poor, the knowledge analysis unit 2240 analyzes the unstructured data 30 The knowledge data can be mapped to a level at which the accuracy is lowered.

이후, 지식 검증부(3000)의 관리자 검증부(3100)에서 제공하는 유저 인터페이스를 통하여, 관리자(20)는 지식 분석부(2240)에서 매핑된 지식 데이터에 대한 검증을 수행하고, 필요한 경우 매핑된 지식 데이터에 대한 보완을 할 수 있다. Thereafter, the manager 20 performs verification of the knowledge data mapped by the knowledge analysis unit 2240 through the user interface provided by the administrator verification unit 3100 of the knowledge verification unit 3000, and if necessary, The knowledge data can be supplemented.

지식 모델 관리부(4200)는 검증 및/또는 보완이 된 매핑된 지식 데이터로부터 지식 모델를 생성할 수 있다. 데이터 처리부(2200)의 지식 학습부(2220)는 지식 모델 관리부(4200)에서 생성된 지식 모델을 기초로 학습 모델을 생성하거나 갱신할 수 있다. 지식 학습부(2220)는 학습 모델을 생성하거나 갱신하기 위하여 예를 들면, CRF(Conditional Random Field), SVM(Support Vector Machine), 또는 Patterns와 같은 학습 알고리즘을 이용할 수 있다. Knowledge model manager 4200 may generate a knowledge model from mapped knowledge data that has been verified and / or supplemented. The knowledge learning unit 2220 of the data processing unit 2200 can create or update the learning model based on the knowledge model generated by the knowledge model management unit 4200. [ The knowledge learning unit 2220 can use a learning algorithm such as CRF (Conditional Random Field), SVM (Support Vector Machine), or Patterns to create or update a learning model.

이와 같은 과정을 반복하여, 일정 수 이상의 테스트 셋으로 선정된 비정형 데이터(30)에 대한 분석을 통하여 생성된 지식 모델과 학습 모델을 이용하여, 관리자(20)의 개입이 없이 지식 모델과 학습 모델에 대한 무한 자가 학습 및 진화가 가능해지며, 이에 대해서는 도 3에서 자세히 설명하도록 한다.By repeating the above process, the knowledge model and the learning model are generated without analyzing the intervention of the manager 20 by using the knowledge model and the learning model generated through analysis of the irregular data 30 selected by a predetermined number or more of the test sets. It is possible to learn and evolve infinite self, which will be described in detail in FIG.

도 3는 학습 셋으로 선정된 비정형 데이터에 대한 지식 획득 과정을 설명하기 위한 본 발명의 일 실시 예에 따른 지식 획득 시스템의 구성 및 동작을 나타내는 개략도이다. 도 3에 대한 설명 중, 도 2에 대한 설명과 동일한 부분은 생략될 수 있다. FIG. 3 is a schematic diagram illustrating a configuration and operation of a knowledge acquisition system according to an embodiment of the present invention for explaining a knowledge acquisition process for unstructured data selected as a learning set. In the description of FIG. 3, the same portions as those of FIG. 2 can be omitted.

도 3을 참조하면, 지식 획득 시스템(1)의 데이터 수집부(1000)는 네트워크(10)를 통하여 수집한 비정형 데이터(30) 중 테스트 셋으로 선정되지 않은 나머지를 학습 셋으로 선정할 수 있다. 만일, 학습 모델 관리부(4100) 및/또는 지식 모델 관리부(4200)에 구축된 학습 모델 및 지식 모델이 충분히 진화된 경우에는 수집된 비정형 데이터(30) 모두를 학습 셋으로 선정할 수 있다. 이후에는 학습 셋으로 선정된 비정형 데이터(30)를 이용하는 지식 획득 시스템(1)의 동작을 설명한다.3, the data collecting unit 1000 of the knowledge obtaining system 1 may select the remaining unregistered data 30 among the unstructured data 30 collected through the network 10 as a learning set. If the learning model and the knowledge model built in the learning model management unit 4100 and / or the knowledge model management unit 4200 are sufficiently evolved, all the collected irregular data 30 can be selected as the learning set. Hereinafter, the operation of the knowledge acquisition system 1 using the unstructured data 30 selected as the learning set will be described.

학습 셋으로 선정된 비정형 데이터(30)는 분석 관리부(2100)의 분석 프로세스 관리부(2120)에서 데이터의 유형이 분석된다. 분석 프로세스 관리부(2120)는 분석된 데이터의 유형에 따라서, 분석 모듈 관리부(2140)에서 관리하는 분석 모듈을 선택하고, 선택된 분석 모듈들의 진행 순서인 워크플로우를 구성할 수 있다. 분석 프로세서 관리부(2120)는 지식 분석부(2240)에게 구성된 워크플로우를 기반으로 테스트 셋으로 선정된 비정형 데이터(30)에 대한 분석을 수행하도록 하여 지식 분석부(2240)는 지식 데이터를 매핑할 수 있다. 이때, 분석 모듈 관리부(2140)는 선택된 분석 모듈을 플러그-인 형태로 지식 분석부(2240)에 제공할 수 있다. The type of data is analyzed in the analysis process management unit 2120 of the analysis management unit 2100 in the atypical data 30 selected as the learning set. The analysis process management unit 2120 may select an analysis module managed by the analysis module management unit 2140 according to the type of analyzed data, and may configure a workflow that is a process sequence of the selected analysis modules. The analysis processor management unit 2120 analyzes the irregular data 30 selected by the test set based on the workflow configured to the knowledge analysis unit 2240 so that the knowledge analysis unit 2240 can map the knowledge data have. At this time, the analysis module management unit 2140 can provide the selected analysis module to the knowledge analysis unit 2240 in a plug-in form.

지식 분석부(2240)는 학습 모델 관리부(4100)에서 관리하는 학습 모델을 기반으로, 지식 모델 관리부(4200)에서 관리하는 지식 모델을 참조하여, 비정형 데이터(30)에 대한 분석을 수행하여 지식 데이터를 매핑할 수 있다. The knowledge analysis unit 2240 refers to the knowledge model managed by the knowledge model management unit 4200 on the basis of the learning model managed by the learning model management unit 4100 and analyzes the unstructured data 30, Can be mapped.

이후, 지식 검증부(3000)의 오류 자동 검증부(3200)에서 자동으로 지식 분석부(2240)에서 매핑된 지식 데이터에 대한 검증을 수행하여 오류 여부를 자동 검증한다. 도시하지는 않았으나, 오류 자동 검증부(3200)는 기구축된 별도의 지식 베이스를 참조하여 매핑된 지식 데이터에 대한 오류 여부를 검증할 수 있다. Thereafter, the error automatic verification unit 3200 of the knowledge verification unit 3000 automatically verifies the mapped knowledge data in the knowledge analysis unit 2240, thereby automatically verifying whether or not an error has occurred. Although not shown, the error auto-verification unit 3200 can verify whether there is an error in the mapped knowledge data by referring to a previously constructed knowledge base.

지식 모델 관리부(4200)는 검증이 된 매핑된 지식 데이터로부터 지식 모델를 생성 및 갱신할 수 있다. 데이터 처리부(2200)의 지식 학습부(2220)는 지식 모델 관리부(4200)에서 생성 및 갱신된 지식 모델을 기초로 학습 모델을 갱신할 수 있다. The knowledge model management unit 4200 can create and update a knowledge model from the verified mapped knowledge data. The knowledge learning unit 2220 of the data processing unit 2200 can update the learning model based on the knowledge model generated and updated by the knowledge model management unit 4200. [

만일, 오류 자동 검증부(3200)가 매핑된 지식 데이터에 오류가 있다고 판정한 경우, 관리자 검증부(3100)에서 제공하는 유저 인터페이스를 통하여, 관리자(20)는 지식 분석부(2240)에서 매핑된 지식 데이터에 대한 검증을 수행하고, 필요한 경우 매핑된 지식 데이터에 대한 보완을 할 수 있다. If the error automatic verification unit 3200 determines that there is an error in the mapped knowledge data, the manager 20, through the user interface provided by the administrator verification unit 3100, Verification of the knowledge data can be performed, and the mapped knowledge data can be supplemented if necessary.

도 2 및 도 3에서는, 테스트 셋으로 선정된 비정형 데이터(30)에 대한 분석이 진행된 후에, 학습 셋으로 선정된 비정형 데이터(30)에 대한 분석이 진행되는 것과 같이 설명이 되었으나, 데이터 수집부(1000)에서 수집된 비정형 데이터(30) 중 일부는 테스트 셋으로 선정하고, 나머지는 학습 셋으로 선정하여 도 2에서 설명한 과정과 도 3에서 설명한 과정이 지속적으로 함께 수행될 수도 있다. In FIGS. 2 and 3, after the analysis of the atypical data 30 selected by the test set is performed, the analysis is performed as to the atypical data 30 selected by the learning set. However, 1000 may be selected as a test set, and the remainder may be selected as a learning set, so that the process described in FIG. 2 and the process illustrated in FIG. 3 may be continuously performed together.

도 4는 본 발명의 일 실시 예에 따른 지식 획득 시스템의 분석 프로세스 관리부의 요부를 나타내는 개략도이다. 도 4에 대한 설명 중, 도 1 내지 도 3에서 설명된 내용과 중복되는 내용은 생략될 수 있다. 4 is a schematic diagram showing a main part of an analysis process management unit of a knowledge acquisition system according to an embodiment of the present invention. In the description of FIG. 4, the contents overlapping with those described in FIGS. 1 to 3 may be omitted.

도 4를 참조하면, 분석 프로세스 관리부(2120)는 데이터 유형 인식부(2122), 분석 모듈 선택부(2124), 워크플로우 구성부(2126) 및 워크플로우 실행부(2128)를 포함할 수 있다. 4, the analysis process management unit 2120 may include a data type recognition unit 2122, an analysis module selection unit 2124, a workflow configuration unit 2126, and a workflow execution unit 2128.

데이터 유형 인식부(2122)는 데이터 수집부(1000)에서 수집된 비정형 데이터의 데이터의 유형을 인식할 수 있다. 예를 들면, 데이터의 유형은 텍스트, 영상, 음원 또는 이미지일 수 있으나, 이에 한정되지 않는다. The data type recognizing unit 2122 can recognize the type of data of the irregular data collected by the data collecting unit 1000. For example, the type of data may be text, image, sound source, or image, but is not limited thereto.

분석 모듈 선택부(2124)는 분석된 데이터의 유형에 따라서, 분석 모듈 관리부(2140)에서 관리하는 분석 모듈을 선택할 수 있다. 분석 모듈 선택부(2124)는 지식 획득 시스템(1)의 관리자 또는 사용자에 의하여 기정의된 분석 의도를 고려하여, 분석 모듈을 선택할 수 있다. The analysis module selection unit 2124 can select an analysis module managed by the analysis module management unit 2140 according to the type of analyzed data. The analysis module selection unit 2124 can select the analysis module in consideration of the intention of the analysis set by the administrator or the user of the knowledge acquisition system 1. [

워크플로우 구성부(2126)는 선택된 분석 모듈들의 진행 순서인 워크플로우를 구성할 수 있다. 워크플로우를 구성하는 선택된 분석 모듈들의 진행 순서는 지식 획득 시스템(1)의 관리자 또는 사용자에 의하여 기정의된 분석 의도를 고려하여 결정될 수 있다. 사용자에 의하여 기정의된 분석 의도는 예를 들면, XML(eXtensible Markup Language), JSON(JavaScript Object Notation) 등과 같은 표준 포맷으로 정의될 수 있다.The workflow configuration unit 2126 may configure a workflow that is a progression order of the selected analysis modules. The proceeding order of the selected analysis modules constituting the workflow can be determined in consideration of the analytical intent set by the manager or the user of the knowledge acquisition system 1. [ The user's intended analytical intent can be defined in standard formats such as XML (eXtensible Markup Language), JSON (JavaScript Object Notation), and the like.

워크플로우 실행부(2128)는 구성된 워크플로우를 기반으로 지식 분석부(2240)에게 비정형 데이터에 대한 분석을 수행하여 지식 데이터를 매핑하도록 한다. 이때 분석 모듈 관리부(2140)는 선택된 분석 모듈을 플러그-인 형태로 지식 분석부(2240)에 제공할 수 있다. 데이터 수집부(1000)에서 수집된 비정형 데이터는 워크플로우 실행부(2128)를 통하여 지식 분석부(2240)에 제공되거나, 데이터 수집부(1000)가 직접 지식 분석부(2240)에 제공할 수 있다. The workflow execution unit 2128 analyzes the unstructured data to map the knowledge data to the knowledge analysis unit 2240 based on the configured workflow. At this time, the analysis module management unit 2140 may provide the selected analysis module to the knowledge analysis unit 2240 in a plug-in form. The unstructured data collected by the data collecting unit 1000 may be provided to the knowledge analyzing unit 2240 through the workflow executing unit 2128 or may be directly provided to the knowledge analyzing unit 2240 by the data collecting unit 1000 .

분석 모듈 관리부(2140)는 선택된 분석 모듈 중 전부 또는 일부를 플러그-인 형태로 지식 학습부(2220)에 제공할 수 있다. 지식 학습부(2220)는 분석 모듈 선택부(2124)에서 선택한 분석 모듈과 워크플로우 구성부(2126)에서 구성한 워크플로우를 참조하여, 지식 모델을 기초로 학습 모델을 생성하고 갱신할 수 있다. The analysis module management unit 2140 may provide all or some of the selected analysis modules to the knowledge learning unit 2220 in a plug-in form. The knowledge learning unit 2220 can generate and update a learning model based on the knowledge model by referring to the analysis module selected by the analysis module selection unit 2124 and the workflow configured in the workflow organization unit 2126. [

예를 들면, 지식 학습부(2220)는 분석 모듈 선택부(2124)와 워크플로우 구성부(2126)에서 비정형 데이터에 대하여 선택한 분석 모듈 중 일부와 이들의 진행 순서를 이용하여, 해당 비정형 데이터에 대한 지식 모델을 기초로 학습 모델을 생성하고 갱신할 수 있다. 또는 지식 학습부(2220)는 분석 모듈 선택부(2124)와 워크플로우 구성부(2126)에서 비정형 데이터에 대하여 분석 모듈을 선택하고 워크플로우를 구성할 때, 학습 모델의 생성을 위하여 별도로 선택된 분석 모듈과 별도로 구성된 워크플로우를 이용하여, 해당 비정형 데이터에 대한 지식 모델을 기초로 학습 모델을 생성하고 갱신할 수 있다. For example, the knowledge learning unit 2220 uses a part of the analysis modules selected for the unstructured data in the analysis module selection unit 2124 and the workflow configuration unit 2126, The learning model can be created and updated based on the knowledge model. Or knowledge learning unit 2220 selects an analysis module for atypical data in the analysis module selection unit 2124 and the workflow configuration unit 2126 and selects an analysis module selected separately for generation of a learning model The learning model can be generated and updated based on the knowledge model for the corresponding unstructured data.

도 5는 본 발명의 일 실시 예에 따른 지식 획득 시스템의 분석 모듈 관리부의 요부를 나타내는 개략도이다.5 is a schematic diagram showing a main part of an analysis module management unit of a knowledge acquisition system according to an embodiment of the present invention.

도 5를 참조하면, 분석 관리부(2100)의 본석 모듈 관리부(2140)는 분석 모듈 인식부(2142) 및 분석 모듈 저장/호출부(2144)를 포함한다. 5, the main module managing unit 2140 of the analysis managing unit 2100 includes an analyzing module recognizing unit 2142 and an analyzing module storing / calling unit 2144.

분석 모듈 인식부(2142)는 분석 프로세스 관리부(2120)의 요청에 따라, 분석 모듈 저장/호출부(2144)에서 분석 모듈을 선택하고, 지식 학습부(2220) 및/또는 지식 분석부(2240)에 선택된 분석 모듈을 플러그-인 형태로 제공한다. The analysis module recognition unit 2142 selects an analysis module in the analysis module storage / call unit 2144 and requests the knowledge learning unit 2220 and / or the knowledge analysis unit 2240, according to a request from the analysis process management unit 2120. [ And provides the selected analysis module in a plug-in form.

분석 모듈 저장/호출부(2144)는 복수의 분석 모듈들을 저장하거나, 외부 시스템에 있는 분석 모듈을 호출할 수 있다. 분석 모듈 저장/호출부(2144)에서 저장하거나 호출할 수 있는 분석 모듈은 예를 들면, 언어 분석 모듈(LAM), 영상 분석 모듈(MAM), 음원 분석 모듈(SAM), 또는 이미지 분석 모듈(IAM)일 수 있으나, 이에 한정되지 않고, 분석하고자 하는 비정형 데이터의 데이터의 유형에 따라서 다양한 분석 모듈을 저장하거나 호출할 수 있다. 분석 모듈 저장/호출부(2144)에서 저장하거나 호출할 수 있는 분석 모듈, 예를 들면 언어 분석 모듈(LAM), 영상 분석 모듈(MAM), 음원 분석 모듈(SAM), 또는 이미지 분석 모듈(IAM)은 각각 하나 또는 복수의 서브 분석 모듈로 이루어질 수 있다.The analysis module storing / calling unit 2144 may store a plurality of analysis modules or may call an analysis module in an external system. The analysis module that can be stored or called by the analysis module storing / calling unit 2144 may be a language analysis module (LAM), an image analysis module (MAM), a sound source analysis module (SAM) However, the present invention is not limited thereto, and various analysis modules can be stored or called according to the type of data of the unstructured data to be analyzed. For example, a language analysis module (LAM), an image analysis module (MAM), a sound source analysis module (SAM), or an image analysis module (IAM), which can be stored or called by the analysis module storage / May each be comprised of one or a plurality of sub-analysis modules.

분석 프로세스 관리부(2120)에서는 언어 분석 모듈(LAM), 영상 분석 모듈(MAM), 음원 분석 모듈(SAM), 또는 이미지 분석 모듈(IAM) 전체를 선택하거나, 언어 분석 모듈(LAM), 영상 분석 모듈(MAM), 음원 분석 모듈(SAM), 및 이미지 분석 모듈(IAM) 중 하나 또는 복수의 분석 모듈로부터 이들을 이루는 하나 또는 복수의 서브 분석 모듈을 선택하고, 이들의 워크플로우를 구성할 수 있다. The analysis process management unit 2120 selects the entire language analysis module (LAM), the image analysis module (MAM), the sound source analysis module (SAM), or the image analysis module (IAM) (MAM), a sound source analysis module (SAM), and an image analysis module (IAM), and configure one or more sub analysis modules constituting them and configure their workflows.

예를 들면, 분석 프로세스 관리부(2120)에서 구성하는 워크플로우는 텍스트를 분석하기 위한 언어 분석 모듈(LAM) 또는 언어 분석 모듈(LAM)을 이루는 서브 분석 모듈만으로 이루어질 수도 있으나, 언어 분석 모듈(LAM) 또는 언어 분석 모듈(LAM)을 이루는 서브 분석 모듈과 영상 분석 모듈(MAM) 또는 영상 분석 모듈(MAM)을 이루는 서브 분석 모듈들로 이루어질 수 있다. 이에 대한 예시적인 실시 예는 도 7 내지 도 9를 통하여 자세히 설명하도록 한다. For example, the workflow constituted by the analysis process management unit 2120 may be a language analysis module (LAM) for analyzing text or a sub analysis module constituting a language analysis module (LAM) Or a sub-analysis module constituting a language analysis module (LAM) and sub-analysis modules constituting an image analysis module (MAM) or an image analysis module (MAM). An exemplary embodiment of this will be described in detail with reference to FIGS. 7 to 9. FIG.

도 6은 본 발명의 일 실시 예에 따른 지식 획득 시스템의 워크플로우 실행부의 기능을 설명하기 위한 개념도이다.6 is a conceptual diagram for explaining a function of a workflow execution unit of a knowledge acquisition system according to an embodiment of the present invention.

도 6을 참조하면, 분석 프로세스 관리부(2120)는 워크플로우 실행부(2128)를 통하여 지식 분석부(2240)의 동작 상태를 모니터링할 수 있다. 플러그-인 형태로 제공된 분석 모듈을 통한 지식 분석부(2240)에서의 분석 과정에 오류가 발생하는 분석 모듈이 있는 경우, 워크플로우 실행부(2128)는 구성된 워크플로우를 통한 지식 분석부(2240)의 동작을 중지하고, 관리자(20)에게 자동으로 알림을 발송할 수 있다. Referring to FIG. 6, the analysis process management unit 2120 can monitor the operation state of the knowledge analysis unit 2240 through the workflow execution unit 2128. When there is an analysis module in which an error occurs in the analysis process in the knowledge analysis unit 2240 through the analysis module provided in the form of a plug-in, the workflow execution unit 2128 analyzes the knowledge analysis unit 2240 through the configured workflow, And can automatically notify the manager 20 of the notification.

지식 분석부(2240)에 특정한 분석 모듈들이 플러그-인 형태로 제공되어 결합되고 워크플로우에 따라 동작을 하는 경우, 지식 분석부(2240)는 하나의 특정한 분석기로 기능을 할 수 있다. 따라서 개별 분석 모듈에서 오류가 발생하는 것은, 개별 분석 모듈 자체의 오류일 수도 있으나, 지식 분석부(2240)가 특정한 분석 모듈들이 플러그-인 형태로 제공되어 결합되고 워크플로우에 따라 동작하는 하나의 특정한 분석기로 기능을 할 때, 즉, 개별 분석 모듈 자체에는 오류가 없으나 워크플로우 구성에 따른 오류일 수 있다. 따라서 관리자(20)는 오류가 발생한 개별 분석 모듈에 대한 확인뿐만 아니라, 분석 프로세스 관리부(2120)에서 분석 모듈을 선택하고 워크플로우를 구성하는 동작에 대한 확인도 함께 진행할 수 있다. 또는 데이터의 유형이 잘못 인식된 경우에는, 선택된 분석 모듈에서 오류가 발생할 수 있으므로, 관리자(20)는 이에 대한 확인도 진행할 수 있다. When the analysis modules specific to the knowledge analysis module 2240 are provided in a plug-in form and are combined and operate according to the workflow, the knowledge analysis module 2240 can function as one specific analyzer. Therefore, although an error may occur in the individual analysis module itself, it may be an error of the individual analysis module itself. However, if the knowledge analysis module 2240 determines that a particular analysis module is provided in a plug- When functioning as an analyzer, that is, there is no error in the individual analysis module itself, but it may be an error due to the workflow configuration. Accordingly, the manager 20 can select an analysis module in the analysis process management unit 2120 and confirm the operation for configuring the workflow, as well as confirm the individual analysis modules in which an error occurs. Or if the type of data is erroneously recognized, an error may occur in the selected analysis module, so that the manager 20 can also confirm the type.

이러한 과정을 통하여, 도 1에 도시한 본 발명에 따른 지식 획득 시스템(1)은, 각각 독립적을 동작하는 분석 모듈들을 선택하고, 이들을 결합하고 순서를 정하여 워크플로우를 구성하는 할 수 있어, 상대적으로 무한정에 가까운 개별 기능을 가지는 특정 분석기를 가지는 것과 동일한 효과를 낼 수 있다. Through this process, the knowledge acquisition system 1 according to the present invention shown in FIG. 1 can select analytic modules that operate independently, combine and arrange the analytic modules and configure the workflow, The same effect as having a specific analyzer having individual functions close to infinite can be obtained.

도 7은 본 발명의 일 실시 예에 따른 지식 획득 시스템에서, 텍스트인 비정형 데이터로부터 지식을 획득하기 위한 워크플로우를 나타내는 개략도이다. 7 is a schematic diagram showing a workflow for acquiring knowledge from unstructured data that is text in a knowledge acquisition system according to an embodiment of the present invention;

도 7을 참조하면, 비정형 데이터의 데이터의 유형이 텍스트인 경우에 선택된 분석 모듈들(LAM1, LAM2, LAM3)과 이들로 포함하여 구성한 워크플로우인 언어 분석 플로우(LAM-F)를 나타낸다. 언어 분석 플로우(LAM-F)는 예를 들면, 선택된 분석 모듈들(LAM1, LAM2, LAM3)로 형태소 분석기(MA : Morphological Analyzer, LAM1), 개체명 분석기(NER : Named Entity Recognizer, LAM2), 의존성 분석기(DP : Dependency Parser, LAM3)를 가질 수 있다. 또한 언어 분석 플로우(LAM-F)는 형태소 분석기(LAM1)에서 텍스트의 형태소를 분석한 후 결과를 개체명 인식기(LAM2)로 전달하고, 개체명 인식 결과를 의존성 분석기(LAM3)로 전달하는 워크플로우를 구성할 수 있다. 따라서, 도 1 내지 도 3에 보인 지식 분석부(2240)은 언어 분석 플로우(LAM-F)가 결합되어, 비정형 데이터인 텍스트에서 형태소를 분석하고, 형태소에서 개체명을 인식한 후, 개체명 간의 관계를 분석하는 의존성 분석을 수행할 수 있다. 의존성 분석이란, 주어, 목적어, 수식어 등의 관계와 관계의 방향을 분석할 수 있다. Referring to FIG. 7, the analysis modules (LAM1, LAM2, and LAM3) selected when the type of data of the irregular data is text, and the language analysis flow (LAM-F), which is a workflow including them. The language analysis flow (LAM-F) includes, for example, a morphological analyzer (MA), a Named Entity Recognizer (LAM2), a dependency analyzer Analyzer (DP: Dependency Parser, LAM3). The language analysis flow (LAM-F) analyzes the morpheme of the text in the morpheme analyzer (LAM1), passes the result to the object name recognizer (LAM2), and transmits the object name recognition result to the dependency analyzer (LAM3) . Therefore, the knowledge analysis unit 2240 shown in FIGS. 1 to 3 analyzes the morpheme in the text, which is the unstructured data, and recognizes the object name in the morpheme, after the language analysis flow (LAM-F) You can perform dependency analysis to analyze relationships. Dependency analysis can analyze relationships and relationships between subject, object, modifier, and so on.

도 8은 본 발명의 일 실시 예에 따른 지식 획득 시스템에서, 이미지인 비정형 데이터로부터 지식을 획득하기 위한 워크플로우를 나타내는 개략도이다. 8 is a schematic diagram illustrating a workflow for acquiring knowledge from unstructured data that is an image in a knowledge acquisition system according to an embodiment of the present invention.

도 8을 참조하면, 비정형 데이터의 데이터의 유형이 이미지인 경우에 선택된 분석 모듈들(IAM1, IAM2, IAM3)과 이들로 포함하여 구성한 워크플로우인 이미지 분석 플로우(IAM-F)를 나타낸다. 이미지 분석 플로우(IAM-F)는 예를 들면, 선택된 분석 모듈들(IAM1, IAM2, IAM3, IAM4)로 이미지 주파수 분석기(IAM1), 에지 분석기(IAM2), 이미지 개체 인식기(IAM3), 사물/인물 분석기(IAM4)를 가질 수 있다. 또한 이미지 분석 플로우(IAM-F)는 이미지 주파수 분석기(IAM1)에서 이미지가 가지는 주파수를 분석한 후 결과를 에지 분석기(IAM2)로 전달하여 이미지에 포함된 에지를 분석하고, 이 결과를 이미지 개체 인식기(IAM3)에 전달하여, 이미지에 포함된 개체를 인식하고, 인식된 개체에 대한 결과를 사물/인물 분석기(IAM4)에 전달하여 이미지에 포함된 개체에 대한 정보, 즉, 사물, 인물들에 대한 정보를 얻을 수 있는 워크플로우를 구성할 수 있다. 또한, 도시하지는 않았으나 필요에 따라서 사물, 인물들에 대한 의존성 분석을 위한 분석 모듈이 더 선택되고, 이를 포함하는 워크플로우를 구성할 수도 있다. Referring to FIG. 8, there is shown an analysis module (IAM1, IAM2, IAM3) selected when the type of data of the irregular data is an image and an image analysis flow (IAM-F) which is a workflow including them. The image analysis flow (IAM-F) includes, for example, an image frequency analyzer IAM1, an edge analyzer IAM2, an image object recognizer IAM3, an object analyzer IAM1, Analyzer (IAM4). The image analysis flow (IAM-F) analyzes the frequency of the image in the image frequency analyzer (IAM1), passes the result to the edge analyzer (IAM2), analyzes the edge included in the image, (IAM3), recognizes the object included in the image, and transmits the result of the recognized object to the object / character analyzer IAM4 to acquire information about the object included in the image, that is, You can configure a workflow to get information. In addition, although not shown, an analysis module for analyzing the dependency of objects and characters may be further selected, and a workflow including the selected analysis modules may be configured.

이미지 개체 인식기(IAM3)에서 이미지 내에 포함된 개체에 문자가 있다는 결과를 얻는 경우, 추가적으로 그 결과를 문자 인식기(IAM5)에 전달하고, 이를 도 7에 보인 것과 같거나 유사한 언어 분석 플로우(LAM-F)로 전달하는 워크플로우를 구성할 수 있다. When the image object recognizer IAM3 obtains a result that there is a character in the object included in the image, it additionally delivers the result to the character recognizer IAM5 and converts it to a language analysis flow LAM-F ) Can be configured.

따라서, 도 1 내지 도 3에 보인 지식 분석부(2240)은 이미지 분석 플로우(IAM-F)가 결합되어, 비정형 데이터인 이미지에서 개체를 인식/분석하거나, 문자를 인식하여 언어 분석을 수행할 수 있다. Therefore, the knowledge analysis unit 2240 shown in FIGS. 1 to 3 can combine the image analysis flow (IAM-F) to recognize / analyze the object in the image, which is the unstructured data, have.

도 9는 본 발명의 일 실시 예에 따른 지식 획득 시스템에서, 음원인 비정형 데이터로부터 지식을 획득하기 위한 워크플로우를 나타내는 개략도이다. 9 is a schematic diagram showing a workflow for acquiring knowledge from unstructured data that is a sound source in a knowledge acquisition system according to an embodiment of the present invention.

도 9를 참조하면, 비정형 데이터의 데이터의 유형이 음원인 경우에 선택된 분석 모듈들(SAM1, SAM2, SAM3)과 이들로 포함하여 구성한 워크플로우인 음원 분석 플로우(SAM-F)를 나타낸다. 음원 분석 플로우(SAM-F)는 예를 들면, 선택된 분석 모듈들(SAM1, SAM2, SAM3)로 음원 주파수 분석기(SAM1), 음원 정보 검색기(SAM2), 음성 인식기(IAM3)를 가질 수 있다. 음원 주파수 분석기(SAM1)에서 음원이 가지는 주파수를 분석한 후 음악과 같은 음원으로 분석된 경우에는 결과를 음원 정보 검색기(SAM2)로 전달하여 음원에 포함된 음악에 대한 음원 정보를 검색할 수 있다. 9, the analysis modules SAM1, SAM2, and SAM3 selected when the type of the data of the atypical data is a sound source, and the sound source analysis flow SAM-F, which is a work flow including the analysis modules SAM1, SAM2, and SAM3. The sound source analysis flow (SAM-F) may have a sound source frequency analyzer (SAM1), sound source information detector (SAM2), and voice recognizer (IAM3), for example, as selected analysis modules (SAM1, SAM2, SAM3). After analyzing the frequency of the sound source in the sound source frequency analyzer (SAM1), the sound source analyzer (SAM2) analyzes the sound source information and transmits the result to the sound source information detector (SAM2).

음원 주파수 분석기(SAM1)에서 음원이 가지는 주파수를 분석한 후 언어를 가지는 음성과 같은 음원으로 분석된 경우에는 결과를 음성 인식기(SAM3)로 전달하여 음원에 포함된 음성을 인식할 수 있고, 추가적으로 그 결과를 도 7에 보인 것과 같거나 유사한 언어 분석 플로우(LAM-F)로 전달하는 워크플로우를 구성할 수 있다. If the sound source frequency analyzer (SAM1) analyzes the frequency of a sound source and analyzes the sound source such as a voice having a language, the result is transmitted to the voice recognizer (SAM3) to recognize the sound included in the sound source. The workflow for delivering the result to a language analysis flow (LAM-F) similar to or similar to that shown in Fig. 7 can be constructed.

예를 들어, 음원 정보 검색기(SAM2)와 같은 분석 모듈이 별도의 데이터베이스를 가지는 외부 시스템에서 구현되는 경우, 도 5에서 보인 분석 모듈 저장/호출부(2144)는 외부 시스템에서 구현되는 음원 정보 검색기(SAM2)를 호출할 수 있다. For example, when the analysis module such as the sound source information searcher (SAM2) is implemented in an external system having a separate database, the analysis module store / call unit 2144 shown in FIG. 5 may include a sound source information searcher SAM2).

따라서, 도 1 내지 도 3에 보인 지식 분석부(2240)은 음원 분석 플로우(SAM-F)가 결합되어, 비정형 데이터인 음원에서 음악과 같은 음원 정보를 식별/검색하거나, 언어를 가지는 음성에 대하여 언어 분석을 수행할 수 있다. Therefore, the knowledge analysis unit 2240 shown in FIGS. 1 to 3 may combine the sound source analysis flow (SAM-F) to identify / search sound source information such as music in a sound source which is an unstructured data, Language analysis can be performed.

도시하지는 않았으나, 비정형 데이터의 데이터의 유형이 영상인 경우에는, 도 7 내지 도 9에 보인 각 분석 모듈들을 결합하거나, 영상을 분석하기 위한 추가적은 분석 모듈을 선택하여 워크플로우를 구성할 수 있다. Although not shown, when the data type of the irregular data is a video, the workflow can be configured by combining the analysis modules shown in FIG. 7 to FIG. 9 or by selecting a few additional analysis modules for analyzing an image.

또한, 본 발명의 실시 예들은 컴퓨터 시스템에서 실행할 수 있는 프로그램으로 작성 가능하다. 또한, 상기 프로그램이 수록된 컴퓨터로 읽을 수 있는 기록 매체로부터 읽혀진 해당 프로그램은 디지털 컴퓨터 시스템에서 실행될 수 있다. Further, the embodiments of the present invention can be made into a program executable in a computer system. In addition, the program read from the computer-readable recording medium containing the program can be executed in the digital computer system.

컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, DVD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어, 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술 분야의 프로그래머들에 의해 용이하게 추론될 수 있다.Examples of the computer-readable recording medium include a ROM, a RAM, a CD-ROM, a DVD-ROM, a magnetic tape, a floppy disk, an optical data storage device and the like. Further, a carrier wave (for example, And the like. The computer readable recording medium may also be distributed over a networked computer system so that computer readable code can be stored and executed in a distributed manner. And functional programs, codes, and code segments for implementing the present invention can be easily inferred by programmers skilled in the art to which the present invention pertains.

1 : 지식 획득 시스템, 10 : 네트워크, 20 : 관리자, 30 : 비정형 데이터, 1000 : 데이터 수집부, 2000 : 데이터 학습/분석부, 2100 : 분석 관리부, 2120 : 분석 프로세스 관리부, 2122 : 데이터 유형 인식부, 2124 : 분석 모듈 선택부, 2126 : 워크플로우 구성부, 2128 : 워크플로우 실행부, 2140 : 분석 모듈 관리부, 2142 : 분석 모듈 인식부, 2144 : 분석 모듈 저장/호출부 : 2200 : 데이터 처리부, 2220 : 지식 학습부, 2240 : 지식 분석부, 3000 : 지식 검증부, 3100 : 관리자 검증부, 3200 : 오류 자동 검증부, 4000 : 모델 관리부, 4100 : 학습 모델 관리부, 4200 : 지식 모델 관리부2120: an analysis process management unit, 2122: a data type recognition unit, 217: a data acquisition unit, 217: a data acquisition unit, The analysis module selection unit 2124 includes a workflow configuration unit 2128 a workflow execution unit 2140 an analysis module management unit 2142 an analysis module recognition unit 2144 an analysis module storage and call unit 2200 a data processing unit 2220 : Knowledge Learning Section, 2240: Knowledge Analysis Section, 3000: Knowledge Verification Section, 3100: Manager Verification Section, 3200: Error Auto Verification Section, 4000: Model Management Section, 4100: Learning Model Management Section, 4200: Knowledge Model Management Section

Claims (10)

네트워크를 통하여 비정형 데이터를 수집하는 데이터 수집부;
상기 데이터 수집부에서 수집된 비정형 데이터에 대한 데이터의 유형을 분석하여 분석 모듈을 선택하고 선택된 상기 분석 모듈들의 진행 순서인 워크플로우를 구성하는 분석 프로세서 관리부;
상기 분석 프로세서 관리부에서 선택된 분석 모듈과 구성된 워크플로우를 기반으로 상기 데이터 수집부에서 수집된 비정형 데이터를 분석하여 지식 데이터를 매핑하는 지식 분석부;
상기 지식 분석부에서 매핑된 상기 지식 데이터에 대한 검증을 수행하는 지식 검증부; 및
상기 지식 검증부에서 검증이 수행된 상기 지식 데이터를 저장하여 지식 모델을 생성하는 지식 모델 관리부;를 포함하되,
상기 지식 분석부는, 상기 지식 검증부에서 생성된 상기 지식 모델를 참조하여 상기 지식 데이터를 매핑하는 것을 특징으로 하는 지식 획득 시스템.
A data collector for collecting unstructured data through a network;
An analysis processor managing unit for analyzing types of data of irregular data collected by the data collecting unit to select an analysis module and constructing a work flow that is a progress order of the selected analysis modules;
A knowledge analysis unit for analyzing atypical data collected by the data collection unit and mapping knowledge data based on a workflow configured with the analysis module selected by the analysis processor management unit;
A knowledge verification unit that verifies the knowledge data mapped by the knowledge analysis unit; And
And a knowledge model management unit for storing the knowledge data, which is verified by the knowledge verification unit, to generate a knowledge model,
Wherein the knowledge analysis unit maps the knowledge data with reference to the knowledge model generated by the knowledge verification unit.
제1 항에 있어서,
상기 지식 검증부는,
상기 지식 분석부에서 매핑된 상기 지식 데이터에 대하여 관리자가 검증을 수행할 수 있도록 유저 인터페이스를 제공하는 관리자 검증부; 및
상기 지식 모델을 기초로, 상기 지식 분석부에서 매핑된 상기 지식 데이터에 대한 오류 여부를 자동 검증하는 오류 자동 검증부;를 포함하는 것을 특징으로 하는 지식 획득 시스템.
The method according to claim 1,
Wherein the knowledge verification unit comprises:
An administrator verification unit for providing a user interface so that an administrator can perform verification on the knowledge data mapped by the knowledge analysis unit; And
And an error automatic verification unit for automatically verifying whether or not an error has occurred in the knowledge data mapped by the knowledge analysis unit based on the knowledge model.
제2 항에 있어서,
상기 데이터 수집부는, 수집된 상기 비정형 데이터 중 일부는 테스트 셋으로, 나머지는 학습 셋으로 선정하고,
상기 지식 검증부는, 상기 테스트 셋으로 선정된 비정형 데이터를 분석하여 매핑된 상기 지식 데이터에 대한 검증을 관리자 검증부에서 수행하도록 하고, 상기 학습 셋으로 선정된 비정형 데이터를 분석하여 매핑된 상기 지식 데이터에 대한 검증을 오류 자동 검증부에서 수행하도록 하는 것을 특징으로 하는 지식 획득 시스템.
3. The method of claim 2,
Wherein the data collection unit selects one of the collected atypical data as a test set and the other as a learning set,
Wherein the knowledge verification unit analyzes unstructured data selected by the test set and performs verification of the mapped knowledge data in an administrator verification unit, analyzes unstructured data selected by the learning set, And the verification is performed by the error automatic verification unit.
제1 항에 있어서,
상기 지식 모델을 기초로, 학습 모델을 생성하고 갱신하는 지식 학습부; 및
생성되고 갱신된 상기 학습 모델을 저장하는 학습 모델 관리부;를 더 포함하고,
상기 지식 분석부는, 상기 학습 모델 관리부에 저장된 상기 학습 모델을 기반으로 상기 지식 데이터를 매핑하는 것을 특징으로 하는 지식 획득 시스템.
The method according to claim 1,
A knowledge learning unit that generates and updates a learning model based on the knowledge model; And
And a learning model manager for storing the generated and updated learning models,
Wherein the knowledge analysis unit maps the knowledge data based on the learning model stored in the learning model management unit.
제4 항에 있어서,
복수의 분석 모듈을 관리하는 분석 모듈 관리부;를 더 포함하며,
상기 분석 모듈 관리부는, 상기 복수의 분석 모듈 중 상기 학습 모델을 생성하고 갱신하기 위한 상기 지식 모델에 대한 분석에 사용되는 분석 모듈을 플러그-인(plug-in) 형태로 상기 지식 학습부에 제공하는 것을 특징으로 하는 지식 획득 시스템.
5. The method of claim 4,
And an analysis module management unit for managing the plurality of analysis modules,
Wherein the analysis module management unit provides the analysis module used for analyzing the knowledge model for creating and updating the learning model among the plurality of analysis modules to the knowledge learning unit in the form of a plug- Wherein the knowledge acquisition system comprises:
제1 항에 있어서,
상기 분석 프로세서 관리부에서 선택하기 위한 복수의 분석 모듈을 관리하는 분석 모듈 관리부;를 더 포함하며,
상기 분석 모듈 관리부는, 상기 수집된 비정형 데이터를 분석하도록 상기 복수의 분석 모듈 중 상기 분석 프로세서 관리부에서 선택된 분석 모듈을 플러그-인 형태로 상기 지식 분석부에 제공하는 것을 특징으로 하는 지식 획득 시스템.
The method according to claim 1,
And an analysis module management unit for managing the plurality of analysis modules to be selected by the analysis processor management unit,
Wherein the analysis module management unit provides the analysis module selected by the analysis processor management unit of the plurality of analysis modules to the knowledge analysis unit in a plug-in form so as to analyze the collected atypical data.
제6 항에 있어서,
상기 워크플로우 실행부는,
플러그-인 형태로 제공된 상기 분석 모듈을 통한 상기 지식 분석부에서의 분석 과정을 중에 오류가 발생하는 분석 모듈이 있는 경우, 상기 구성된 워크플로우를 중지하고, 관리자에게 알림을 발송하는 것을 특징으로 하는 지식 획득 시스템.
The method according to claim 6,
The workflow execution unit,
Wherein when there is an analysis module in which an error occurs during the analysis process in the knowledge analysis module through the analysis module provided in a plug-in form, the configured workflow is stopped and a notification is sent to the manager Acquisition system.
제6 항에 있어서,
상기 분석 프로세서 관리부에서 분석하는 데이터의 유형은, 텍스트, 영상, 음원 또는 이미지이며,
상기 분석 모듈 관리부에서 관리하는 상기 복수의 분석 모듈은, 언어 분석 모듈, 영상 분석 모듈, 음원 분석 모듈, 또는 이미지 분석 모듈인 것을 특징으로 하는 지식 획득 시스템.
The method according to claim 6,
The type of data analyzed by the analysis processor management unit is text, image, sound source or image,
Wherein the plurality of analysis modules managed by the analysis module management unit are a language analysis module, an image analysis module, a sound source analysis module, or an image analysis module.
제8 항에 있어서,
상기 언어 분석 모듈, 상기 영상 분석 모듈, 상기 음원 분석 모듈, 및 상기 이미지 분석 모듈은 각각 하나 또는 복수의 서브 분석 모듈로 이루어지는 것을 특징으로 하는 지식 획득 시스템.
9. The method of claim 8,
Wherein the language analysis module, the image analysis module, the sound source analysis module, and the image analysis module each comprise one or a plurality of sub-analysis modules.
제9 항에 있어서,
상기 분석 프로세서 관리부는 상기 언어 분석 모듈, 상기 영상 분석 모듈, 상기 음원 분석 모듈, 및 상기 이미지 분석 모듈 중 하나 또는 복수의 분석 모듈로부터 서브 분석 모듈들을 선택하여, 상기 워크플로우를 구성하는 것을 특징으로 하는 지식 획득 시스템.
10. The method of claim 9,
Wherein the analysis processor management unit configures the workflow by selecting sub-analysis modules from one or more of the language analysis module, the image analysis module, the sound source analysis module, and the image analysis module Knowledge acquisition system.
KR1020140036622A 2014-03-28 2014-03-28 Knowledge acquisition system based on un-structured data for never-ending and self-evolving KR101568346B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140036622A KR101568346B1 (en) 2014-03-28 2014-03-28 Knowledge acquisition system based on un-structured data for never-ending and self-evolving

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140036622A KR101568346B1 (en) 2014-03-28 2014-03-28 Knowledge acquisition system based on un-structured data for never-ending and self-evolving

Publications (2)

Publication Number Publication Date
KR20150112441A true KR20150112441A (en) 2015-10-07
KR101568346B1 KR101568346B1 (en) 2015-11-12

Family

ID=54343694

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140036622A KR101568346B1 (en) 2014-03-28 2014-03-28 Knowledge acquisition system based on un-structured data for never-ending and self-evolving

Country Status (1)

Country Link
KR (1) KR101568346B1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190115303A (en) * 2018-04-02 2019-10-11 한양대학교 산학협력단 Storage device that performs machine learning and method thereof
WO2024080433A1 (en) * 2022-10-13 2024-04-18 주식회사 와이즈넛 System for using multi-purpose dark data based on user interface

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7849048B2 (en) 2005-07-05 2010-12-07 Clarabridge, Inc. System and method of making unstructured data available to structured data analysis tools
US9092789B2 (en) 2008-04-03 2015-07-28 Infosys Limited Method and system for semantic analysis of unstructured data
US9251180B2 (en) * 2012-05-29 2016-02-02 International Business Machines Corporation Supplementing structured information about entities with information from unstructured data sources
KR20140038206A (en) * 2012-09-20 2014-03-28 한국전자통신연구원 Apparatus and method for real-time event processing based on unstructured data

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190115303A (en) * 2018-04-02 2019-10-11 한양대학교 산학협력단 Storage device that performs machine learning and method thereof
WO2024080433A1 (en) * 2022-10-13 2024-04-18 주식회사 와이즈넛 System for using multi-purpose dark data based on user interface

Also Published As

Publication number Publication date
KR101568346B1 (en) 2015-11-12

Similar Documents

Publication Publication Date Title
US11615791B2 (en) Voice application platform
US11887597B2 (en) Voice application platform
US10235999B1 (en) Voice application platform
EP3671526B1 (en) Dependency graph based natural language processing
US20160293034A1 (en) Question answering system-based generation of distractors using machine learning
CN104462056B (en) For the method and information handling systems of knouledge-based information to be presented
US11636376B2 (en) Active learning for concept disambiguation
CN109637602B (en) Medical data storage and query method, device, storage medium and electronic equipment
US11437029B2 (en) Voice application platform
US11263208B2 (en) Context-sensitive cross-lingual searches
US20160306852A1 (en) Answering natural language table queries through semantic table representation
US11107470B2 (en) Platform selection for performing requested actions in audio-based computing environments
CN109684402A (en) One kind being based on big data platform metadata genetic connection implementation method
US20220413901A1 (en) Invoking functions of agents via digital assistant applications using address templates
US11694688B2 (en) Platform selection for performing requested actions in audio-based computing environments
KR101568346B1 (en) Knowledge acquisition system based on un-structured data for never-ending and self-evolving
KR101684579B1 (en) System and method for generating knowledge
CN112582073A (en) Medical information acquisition method, device, electronic equipment and medium
US11360738B2 (en) Rendering visual components on applications in response to voice commands
WO2019236444A1 (en) Voice application platform
US11687568B2 (en) Data catalog system for generating synthetic datasets
Wu et al. Implementing statistical agents on JADE platform
EP3944127A1 (en) Dependency graph based natural language processing
CN114625757B (en) Task execution method and device based on domain specific language, medium and equipment
US20230401385A1 (en) Hierarchical named entity recognition with multi-task setup

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20181205

Year of fee payment: 4