WO2024019225A1 - Method for processing structured data and unstructured data in a plurality of different databases, and data processing platform providing same method - Google Patents

Method for processing structured data and unstructured data in a plurality of different databases, and data processing platform providing same method Download PDF

Info

Publication number
WO2024019225A1
WO2024019225A1 PCT/KR2022/014150 KR2022014150W WO2024019225A1 WO 2024019225 A1 WO2024019225 A1 WO 2024019225A1 KR 2022014150 W KR2022014150 W KR 2022014150W WO 2024019225 A1 WO2024019225 A1 WO 2024019225A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
query
unstructured
structured
data processing
Prior art date
Application number
PCT/KR2022/014150
Other languages
French (fr)
Korean (ko)
Inventor
이상수
임정택
윤준영
Original Assignee
스마트마인드 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 스마트마인드 주식회사 filed Critical 스마트마인드 주식회사
Publication of WO2024019225A1 publication Critical patent/WO2024019225A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Definitions

  • the present invention relates to a method for processing structured and unstructured data on a plurality of different databases and a data processing platform that provides such method. More specifically, it relates to a method of processing unstructured data in a database that enables processing of unstructured data in a plurality of different databases by expanding the function of the existing database that only processes structured data, and a data processing platform that provides such method. .
  • the purpose of the present invention is to solve all of the above-mentioned problems.
  • the purpose of the present invention is to process structured data and unstructured data using one language based on extended SQL (structured query language) and one platform.
  • the present invention not only enables more accurate modeling of artificial intelligence models by having the operating platform and modeling platform on one platform, but also enables modeling of artificial intelligence models based on structured data and unstructured data without separate batch processing.
  • the purpose is to provide functionality.
  • a representative configuration of the present invention to achieve the above object is as follows.
  • a method of processing structured data and unstructured data on a plurality of different databases includes the steps of a data processing system receiving external data from an external database, the data processing system converting the external data. and the data processing system processing the converted external data.
  • the external data includes structured data and unstructured data
  • the data processing system processes the structured data and the unstructured data based on nested queries
  • the data processing system processes the unstructured data based on queries.
  • Processes unstructured data and the data processing system processes the structured data based on a structured data processing query, wherein the nested query is a query that mixes a first query for unstructured data and a second query for structured data.
  • the unstructured data processing query may be a query for processing only the unstructured data
  • the structured data processing query may be a query for processing only the structured data.
  • the data processing system creates a data table for the structured data and a data table for the unstructured data and processes them in one database, and the data processing system uses artificial intelligence based on the structured data and the unstructured data. Engine modeling can be supported on the single database.
  • a data processing system that processes structured data and unstructured data on a plurality of different databases receives external data from an external database, converts the external data, and processes the converted external data. It can be implemented to do so.
  • the external data includes structured data and unstructured data
  • the data processing system processes the structured data and the unstructured data based on a nested query
  • the data processing system processes the unstructured data based on a query.
  • Processes unstructured data and the data processing system processes the structured data based on a structured data processing query, wherein the nested query is a query that mixes a first query for unstructured data and a second query for structured data.
  • the unstructured data processing query may be a query for processing only the unstructured data
  • the structured data processing query may be a query for processing only the structured data.
  • the data processing system creates a data table for the structured data and a data table for the unstructured data and processes them in one database, and the data processing system uses artificial intelligence based on the structured data and the unstructured data. Engine modeling can be supported on the single database.
  • structured data and unstructured data can be processed using one language based on extended SQL (structured query language) and one platform.
  • extended SQL structured query language
  • the operating platform and modeling platform are located on one platform, which not only enables modeling of a more accurate artificial intelligence (AI) model, but also enables AI based on structured data and unstructured data without separate batch processing.
  • AI artificial intelligence
  • a modeling function of the model may be provided.
  • Figure 1 is a conceptual diagram showing an existing data processing system.
  • Figure 2 is a conceptual diagram showing a data processing system for processing structured data and unstructured data on one platform according to an embodiment of the present invention.
  • Figure 3 is a conceptual diagram showing a data processing system for processing structured data and unstructured data on one platform according to an embodiment of the present invention.
  • Figure 4 is a conceptual diagram showing the operation of a data processing system according to an embodiment of the present invention.
  • Figure 5 is a conceptual diagram showing the operation of a data processing system according to an embodiment of the present invention.
  • Figure 6 is a conceptual diagram showing a data processing method based on a data processing system according to an embodiment of the present invention.
  • Figure 1 is a conceptual diagram showing an existing data processing system.
  • a data processing method for structured data 100 and unstructured data 120 in an existing data processing system is disclosed.
  • Structured data 100 is data that is stored in tables according to schema and can be connected between tables through relationships. Structured data 100 can be displayed in rows and columns with an appropriately defined schema for the information it holds. Each column represents a different property, while each row contains data associated with a single instance of the property. Rows and columns can form a table that can be easily referenced, different tables can be linked, and a relational database 140 can be formed when several tables are sequentially linked.
  • Unstructured data 120 is the opposite of structured data 100, and is data whose meaning is difficult to easily understand because there are no set rules, and may include data such as voice, image, and video.
  • the existing data processing system could only query structured data (100) based on SQL (structured query language), and a NoSQL database without a specific schema was used to process unstructured data (120).
  • the existing data processing system was capable of real-time querying of structured data (100), but real-time querying of unstructured data (120) was not possible.
  • unstructured data 120 is processed through batch processing instead of real time processing. Because of this, real-time search for images, videos, and voices was impossible in existing data processing systems. More specifically, in existing data processing systems, it is difficult to analyze large amounts of unstructured data 120 in real time. Therefore, processing was performed based on the Lambda architecture (150), which combines a data table that can be acquired in real time and a batch table that has been calculated in advance at a fixed time, and structured data (100) and unstructured data (120) are separated. It was processed based on DMBS (database management system).
  • DMBS database management system
  • unstructured data 120 in the existing data processing system In order to learn about unstructured data 120 in the existing data processing system, artificial intelligence learning within the database was not possible.
  • the existing data processing system performed learning on structured data (100) based on an AI engine implemented in the database, but learning on unstructured data (120) was not processed based on SQL within the database, so unstructured data within the database AI engine modeling based on was impossible.
  • the existing data processing system when performing modeling for an AI engine, creates a sample table 160 through sampling from the parameter table of the operating system to perform modeling, and a modeling platform that performs modeling and actual operation are used to perform modeling.
  • the operating platforms are different. In this case, the problem of inaccurate modeling results occurs due to differences between the modeling platform and the operating platform.
  • parameter data can exist in various forms other than tables, it takes time to transform and extract the data, and a considerable amount of time is also required to preprocess the data for modeling.
  • sample data includes both structured and unstructured data
  • Lambda architecture must be applied to existing data processing systems. If you develop through Lambda architecture, you will use various platforms and languages, but you will waste a lot of time integrating them due to differences in characteristics and interoperability issues between platforms.
  • parameter data is managed in one form (table), and the process of extracting sample data is possible through a simple query statement and does not require a lambda architecture.
  • AI modeling for structured and unstructured data also has the advantage of being easy to process without any integration issues using one platform and one language.
  • the data processing platform can process structured data 100 and unstructured data 120 based on one language based on one platform.
  • the data processing platform not only enables more accurate modeling by having an operating platform and a modeling platform on one platform, but also enables structured data 100 and unstructured data 120 without separate batch processing. It can provide AI modeling functions based on .
  • Figure 2 is a conceptual diagram showing a data processing system for processing structured data and unstructured data on one platform according to an embodiment of the present invention.
  • the data processing system is capable of processing unstructured data 220 and structured data 210 on one platform.
  • a data processing syntax for processing unstructured data 220 together with structured data 210 on one platform is newly defined, and an extended SQL (extended SQL) that can use the newly defined data processing syntax is provided. 240) can be defined.
  • General queries for structured data 210 may be processed based on existing SQL such as PostgreSQL, and queries for unstructured data may be processed based on extended SQL 240 newly defined in the present invention.
  • An extended SQL engine 250 may be defined to process the newly defined data processing syntax on the extended SQL 240.
  • the extended SQL engine 250 may be an engine that enables processing of newly defined data processing syntax.
  • Nested query 230 is a mixed query for structured data 210 and unstructured data 220, enabling sequential or complex processing of structured data 210 and unstructured data 220 stored in the database. can do.
  • the structured data 210 and unstructured data 220 are processed on one platform. It is processed based on the extended SQL engine 250, and data processing for structured data 210 and unstructured data 220 is performed simultaneously on one database 260 based on nested query 230. It can be done. Based on this, AI modeling for structured data 210 and unstructured data 220 is also performed on the AI engine 270 of the data processing system.
  • the AI engine may be provided in advance with various AI engines such as classification models, regression models, recommendation models, and voice recognition models, or can be used without restrictions, such as models created by the user or AI engines provided as open source.
  • the data processing system of the present invention can process unstructured data 220 within one platform without separate batch processing, separate language, or separate platform.
  • the data processing system of the present invention is an integrated platform that allows both structured data 210 and unstructured data 220 to be queried using only SQL and enables AI modeling for structured data 210 and unstructured data 220. Therefore, since the modeling platform and the operating platform are the same, the problem of poor modeling accuracy due to different parameters can be reduced.
  • the data processing system of the present invention can apply the functions of RDB (relational database), AI, and big data platform in one platform, and can dramatically reduce inefficiencies that occur during AI-based digital transformation. Based on big data processing and distributed parallel processing technology, it enables data processing more than twice as fast as before.
  • RDB relational database
  • AI AI
  • big data platform in one platform, and can dramatically reduce inefficiencies that occur during AI-based digital transformation.
  • big data processing and distributed parallel processing technology it enables data processing more than twice as fast as before.
  • a method of processing structured data and unstructured data in a database includes the steps of a data processing system receiving a nested query and the data processing system performing processing on the nested query. can do.
  • a nested query may be a query that mixes a first query for unstructured data and a second query for structured data.
  • the step of performing nested query processing is a step in which the data processing system performs processing on unstructured data based on an extended SQL engine that processes extended SQL (extended structured query language), and the data processing system processes Postgre SQL. It may include processing structured data based on a general SQL engine that processes (extended structured query language).
  • the data processing system creates data tables for structured data and data tables for unstructured data and processes them in one database, and the data processing system supports artificial intelligence engine modeling based on structured data and unstructured data in one database. You can.
  • the data processing system may perform individual processing for each of structured data and unstructured data.
  • the data processing system may be implemented to receive unstructured data processing queries and structured data processing queries, and process the unstructured data processing queries and structured data processing queries.
  • An unstructured data processing query may be a query for processing only unstructured data
  • a structured data processing query may be a query for processing only structured data.
  • Unstructured data processing queries can be processed based on extended SQL and extended SQL engines, and structured data processing queries can be processed based on general SQL (Postgre SQL) and general SQL engines.
  • Figure 3 is a conceptual diagram showing a data processing system for processing structured data and unstructured data on one platform according to an embodiment of the present invention.
  • a nested query for processing unstructured data and structured data may be input as the input query 300.
  • a nested query may include a first query 310, a second query 320, and a third query 330, and the first query 310 and the third query 330 are extended queries. 350, and the second query 320 may be a general query 360.
  • the first query 310 may be PRINT IMAGE
  • the second query 320 may be SELECT
  • the third query 330 may be SEARCH IMAGE.
  • the first query 310, the second query 320, and the third query 330 may form an input query in a nested structure.
  • the input query 300 may be parsed through a parser. Based on the lexer, nested queries are divided into general queries (360) and extended queries (350), and the parser can split the general queries (360) and extended queries (350).
  • the first query 310, the second query 320, and the third query 330 may be interpreted and processed through cloud analysis and a query tree.
  • the third query 330, second query 320, and first query 310 may be processed in this order.
  • the first query 310 and the third query 330 are extended queries 350 and can be processed based on an extended SQL engine
  • the second query 320 is a general query, which is PostgreSQL, a SQL engine for general query processing. It can be processed based on the engine.
  • the standardized SQL engine and PostgreSQL engine can be connected to one database and process queries. Artificial intelligence learning based on structured and unstructured data is possible based on one database.
  • Figure 4 is a conceptual diagram showing the operation of a data processing system according to an embodiment of the present invention.
  • the query function for unstructured data can be performed based on the extended SQL below.
  • unstructured data images, audio, video, etc.
  • unstructured data can be created as an unstructured data table converted to a user-defined vector format based on a numerical algorithm.
  • Table 1 below is an example of create table syntax.
  • an image file that exists in a specific path can be created in the database as an unstructured data table using an attribute extraction artificial intelligence model.
  • an image file that exists in a specific path can be created on the database as a data table using an additional attribute extraction artificial intelligence model.
  • Search syntax can be used to search for content, meaning, or similarity in unstructured data.
  • Table 3 below is an example of a search statement.
  • a search statement can be used to search for similar images based on an image quantification artificial intelligence model.
  • the above query syntax is a newly defined syntax for SQL confirmed in the present invention.
  • search image data, audio data, and video data based on keywords or text based on an unstructured data table created based on the above query syntax.
  • search image data, audio data, and video data based on image data, audio data, and video data.
  • real-time search for the above unstructured data is possible in addition to real-time search for existing structured data.
  • nested queries which are a combination of queries on unstructured data and structured data, are also possible, making modeling using both unstructured and structured data possible.
  • Figure 5 is a conceptual diagram showing the operation of a data processing system according to an embodiment of the present invention.
  • ML functions for unstructured data can be performed based on extended SQL as shown below.
  • a user can use the "BUILD MODEL" syntax to create a movie recommendation model that recommends movies using an artificial intelligence model.
  • the "EVALUATE USING" statement can be used to evaluate the classification model that the user created in Learning a Model.
  • FIT MODEL a new model can be created that is trained using a newly added dataset to a model the user previously created.
  • data preprocessing used in an existing classification model can be applied to data preprocessing of a data set for learning another model.
  • Table 9 below is an example of the "PREDICT UDING" syntax.
  • the movie recommendation model that the user created in model training based on the "DELETE MODEL" statement may be deleted from the database.
  • AI modeling based on unstructured data and structured data can be performed on a single platform, a data processing system, without a separate batch process.
  • a pre-generated AI model and an AI model created by a user may be located.
  • various AI models such as classification models, regression models, recommendation systems, and voice recognition models can be created.
  • Figure 6 is a conceptual diagram showing a data processing method based on a data processing system according to an embodiment of the present invention.
  • processing of structured data and unstructured data may be performed based on the data processing system's own database.
  • users can use their own database and utilize the functions of the extended SQL and extended SQL engine provided by the data processing system based on the API.
  • the processing of structured and unstructured data based on the data processing system's own database can be expressed in the term internal data processing.
  • the processing of structured and unstructured data based on an external database rather than the data processing system's own database can be expressed in the term external data processing.
  • external data In order to use the data processing system according to an embodiment of the present invention from the outside for external data processing, external data must be stored and converted into the data processing system of the present invention using the provided 'API' or 'data transfer method'.
  • the data processing system of the present invention can be utilized using the API. That is, both the internal engine and the PostgreSQL engine can perform data processing by accessing the database according to the embodiment of the present invention rather than an external database.
  • users can perform learning based on separate unstructured data stored in the user's database based on the functions of extended SQL and extended SQL engine through API.
  • a specific user may be a security company and operate a user database that stores CCTV footage.
  • users can perform artificial intelligence learning on CCTV images based on data stored in the user database.
  • Structured data and unstructured data can be inserted from an external database into the database of the data processing system of the present invention based on a query statement for unstructured data for processing structured data and unstructured data defined in the present invention.
  • AI modeling for structured data and unstructured data input to the data processing system according to an embodiment of the present invention can be performed based on the AI engine of the data processing system according to an embodiment of the present invention.
  • the method of processing structured data and unstructured data on a plurality of different databases includes the steps of a data processing system receiving external data from an external database, the data processing system converting the external data, and the data processing system converting the external data. It may include processing the external data.
  • the external data includes structured data and unstructured data
  • the data processing system processes structured data and unstructured data based on nested queries
  • the nested query is the first query for unstructured data and the second query for structured data. It may be a mixed query of 2 queries.
  • a data processing system can process unstructured data based on unstructured data processing queries, and the data processing system can process structured data based on structured data processing queries.
  • a nested query is a query that combines a first query for unstructured data and a second query for structured data
  • an unstructured data processing query is a query for processing only the unstructured data
  • a structured data processing query is a query for processing only structured data. It could be a query for
  • the data processing system creates data tables for structured data and data tables for unstructured data and processes them in one database, and the data processing system supports artificial intelligence engine modeling based on structured data and unstructured data in one database. You can.
  • the embodiments according to the present invention described above can be implemented in the form of program instructions that can be executed through various computer components and recorded on a computer-readable recording medium.
  • the computer-readable recording medium may include program instructions, data files, data structures, etc., singly or in combination.
  • the program instructions recorded on the computer-readable recording medium may be specially designed and configured for the present invention or may be known and usable by those skilled in the computer software field.
  • Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks, and magnetic tapes, optical recording media such as CD-ROMs and DVDs, and magneto-optical media such as floptical disks. medium), and hardware devices specifically configured to store and execute program instructions, such as ROM, RAM, flash memory, etc.
  • Examples of program instructions include not only machine language code such as that created by a compiler, but also high-level language code that can be executed by a computer using an interpreter or the like.
  • a hardware device can be converted into one or more software modules to perform processing according to the invention and vice versa.

Abstract

The present invention relates to a method for processing structured data and unstructured data in a plurality of different databases, and a data processing platform providing the method. The method for processing structured data and unstructured data in a plurality of different databases may comprise: a step in which a data processing system receives external data from an external database; a step in which the data processing system converts the external data; and a step in which the data processing system processes the converted external data.

Description

복수의 서로 다른 데이터베이스 상의 정형 데이터와 비정형 데이터를 처리하는 방법 및 이러한 방법을 제공하는 데이터 처리 플랫폼Methods for processing structured and unstructured data on multiple different databases and a data processing platform that provides such methods
본 발명은 복수의 서로 다른 데이터베이스 상의 정형 데이터와 비정형 데이터를 처리하는 방법 및 이러한 방법을 제공하는 데이터 처리 플랫폼에 관한 것이다. 보다 상세하게는 기존에 정형 데이터만을 처리하는 데이터베이스의 기능을 확장하여 복수의 서로 다른 데이터베이스 상에서 비정형 데이터를 처리 가능하게 하는 데이터베이스 상에서 비정형 데이터를 처리하는 방법 및 이러한 방법을 제공하는 데이터 처리 플랫폼에 관한 것이다.The present invention relates to a method for processing structured and unstructured data on a plurality of different databases and a data processing platform that provides such method. More specifically, it relates to a method of processing unstructured data in a database that enables processing of unstructured data in a plurality of different databases by expanding the function of the existing database that only processes structured data, and a data processing platform that provides such method. .
급속한 비대면 환경과 모바일 우선 전략에 따라 해마다 많은 정형 데이터 및 비정형 데이터의 폭발적인 증가와 생성은 모든 분야에서 빅데이터를 활용한 새로운 의사 결정과 서비스를 요구하고 있다.Due to the rapid non-face-to-face environment and mobile-first strategy, the explosive increase and creation of structured and unstructured data every year is demanding new decisions and services utilizing big data in all fields.
이와 같이 데이터의 급격한 증가와 소비는 향후 더욱 가속화될 예정이며, 이러한 정형 데이터 뿐만 아니라, 비정형 데이터에 포함되어 있는 다양한 패턴들을 수집하고 정제하고 분석하여 미래의 성장동력을 찾는 것이 기업들의 새로운 비즈니스 모델이 되고 있다.As such, the rapid increase and consumption of data is expected to accelerate further in the future, and finding future growth engines by collecting, refining and analyzing various patterns contained in not only structured data but also unstructured data will become a new business model for companies. It is becoming.
기존 선행 기술로는 국내출원번호10-2014-0036626건이 있다.Existing prior art includes domestic application number 10-2014-0036626.
본 발명은 상술한 문제점을 모두 해결하는 것을 그 목적으로 한다.The purpose of the present invention is to solve all of the above-mentioned problems.
또한, 본 발명은, 확장된 SQL(structured query language) 및 하나의 플랫폼을 기반으로 하나의 언어를 사용하여 정형 데이터와 비정형 데이터를 처리하는 것을 목적으로 한다. Additionally, the purpose of the present invention is to process structured data and unstructured data using one language based on extended SQL (structured query language) and one platform.
또한, 본 발명은, 하나의 플랫폼 상에 운영 플랫폼과 모델링 플랫폼이 위치하여 보다 정확한 인공 지능 모델의 모델링이 가능할 뿐만 아니라, 별도의 배치 프로세싱 없이 정형 데이터 및 비정형 데이터를 기반으로 한 인공 지능 모델의 모델링 기능을 제공하는 것을 목적으로 한다.In addition, the present invention not only enables more accurate modeling of artificial intelligence models by having the operating platform and modeling platform on one platform, but also enables modeling of artificial intelligence models based on structured data and unstructured data without separate batch processing. The purpose is to provide functionality.
상기 목적을 달성하기 위한 본 발명의 대표적인 구성은 다음과 같다.A representative configuration of the present invention to achieve the above object is as follows.
본 발명의 일 실시예에 따르면, 복수의 서로 다른 데이터베이스 상의 정형 데이터와 비정형 데이터를 처리하는 방법은 데이터 처리 시스템이 외부 데이터베이스로부터 외부 데이터를 수신하는 단계, 상기 데이터 처리 시스템이 상기 외부 데이터를 변환하는 단계와 상기 데이터 처리 시스템이 변환된 상기 외부 데이터를 처리하는 단계를 포함할 수 있다.According to an embodiment of the present invention, a method of processing structured data and unstructured data on a plurality of different databases includes the steps of a data processing system receiving external data from an external database, the data processing system converting the external data. and the data processing system processing the converted external data.
한편, 상기 외부 데이터는 정형 데이터와 비정형 데이터를 포함하고, 상기 데이터 처리 시스템은 네스티드 쿼리를 기반으로 상기 정형 데이터 및 상기 비정형 데이터를 처리하고, 상기 데이터 처리 시스템은 비정형 데이터 처리 쿼리를 기반으로 상기 비정형 데이터를 처리하고, 상기 데이터 처리 시스템은 정형 데이터 처리 쿼리를 기반으로 상기 정형 데이터를 처리하고, 상기 네스티드 쿼리는 비정형 데이터에 대한 제1 쿼리 및 정형 데이터에 대한 제2 쿼리를 혼합한 쿼리이고, 상기 비정형 데이터 처리 쿼리는 상기 비정형 데이터만을 처리하기 위한 쿼리이고, 상기 정형 데이터 처리 쿼리는 상기 정형 데이터만을 처리하기 위한 쿼리일 수 있다.Meanwhile, the external data includes structured data and unstructured data, the data processing system processes the structured data and the unstructured data based on nested queries, and the data processing system processes the unstructured data based on queries. Processes unstructured data, and the data processing system processes the structured data based on a structured data processing query, wherein the nested query is a query that mixes a first query for unstructured data and a second query for structured data. , the unstructured data processing query may be a query for processing only the unstructured data, and the structured data processing query may be a query for processing only the structured data.
또한, 상기 데이터 처리 시스템은 상기 정형 데이터에 대한 데이터 테이블 및 상기 비정형 데이터에 대한 데이터 테이블을 생성하여 하나의 데이터베이스 상에서 처리하고, 상기 데이터 처리 시스템은 상기 정형 데이터 및 상기 비정형 데이터를 기반으로 한 인공 지능 엔진 모델링을 상기 하나의 데이터베이스 상에서 지원할 수 있다.In addition, the data processing system creates a data table for the structured data and a data table for the unstructured data and processes them in one database, and the data processing system uses artificial intelligence based on the structured data and the unstructured data. Engine modeling can be supported on the single database.
본 발명의 다른 실시예에 따르면, 복수의 서로 다른 데이터베이스 상의 정형 데이터와 비정형 데이터를 처리하는 데이터 처리 시스템은 외부 데이터베이스로부터 외부 데이터를 수신하고, 상기 외부 데이터를 변환하고, 변환된 상기 외부 데이터를 처리하도록 구현될 수 있다.According to another embodiment of the present invention, a data processing system that processes structured data and unstructured data on a plurality of different databases receives external data from an external database, converts the external data, and processes the converted external data. It can be implemented to do so.
한편, 상기 외부 데이터는 정형 데이터와 비정형 데이터를 포함하고, 상기 데이터 처리 시스템은 네스티드 쿼리를 기반으로 상기 정형 데이터 및 상기 비정형 데이터를 처리하고, 상기 데이터 처리 시스템은 비정형 데이터 처리 쿼리를 기반으로 상기 비정형 데이터를 처리하고, 상기 데이터 처리 시스템은 정형 데이터 처리 쿼리를 기반으로 상기 정형 데이터를 처리하고, 상기 네스티드 쿼리는 비정형 데이터에 대한 제1 쿼리 및 정형 데이터에 대한 제2 쿼리를 혼합한 쿼리이고, 상기 비정형 데이터 처리 쿼리는 상기 비정형 데이터만을 처리하기 위한 쿼리이고, 상기 정형 데이터 처리 쿼리는 상기 정형 데이터만을 처리하기 위한 쿼리일 수 있다.Meanwhile, the external data includes structured data and unstructured data, the data processing system processes the structured data and the unstructured data based on a nested query, and the data processing system processes the unstructured data based on a query. Processes unstructured data, and the data processing system processes the structured data based on a structured data processing query, wherein the nested query is a query that mixes a first query for unstructured data and a second query for structured data. , the unstructured data processing query may be a query for processing only the unstructured data, and the structured data processing query may be a query for processing only the structured data.
또한, 상기 데이터 처리 시스템은 상기 정형 데이터에 대한 데이터 테이블 및 상기 비정형 데이터에 대한 데이터 테이블을 생성하여 하나의 데이터베이스 상에서 처리하고, 상기 데이터 처리 시스템은 상기 정형 데이터 및 상기 비정형 데이터를 기반으로 한 인공 지능 엔진 모델링을 상기 하나의 데이터베이스 상에서 지원할 수 있다.In addition, the data processing system creates a data table for the structured data and a data table for the unstructured data and processes them in one database, and the data processing system uses artificial intelligence based on the structured data and the unstructured data. Engine modeling can be supported on the single database.
본 발명에 의하면, 확장된 SQL(structured query language) 및 하나의 플랫폼을 기반으로 하나의 언어를 사용하여 정형 데이터와 비정형 데이터가 처리될 수 있다.According to the present invention, structured data and unstructured data can be processed using one language based on extended SQL (structured query language) and one platform.
또한, 본 발명에 의하면, 하나의 플랫폼 상에 운영 플랫폼과 모델링 플랫폼이 위치하여 보다 정확한 AI(artificial intelligence) 모델의 모델링이 가능할 뿐만 아니라, 별도의 배치 프로세싱 없이 정형 데이터 및 비정형 데이터를 기반으로 한 AI 모델의 모델링 기능이 제공될 수 있다.In addition, according to the present invention, the operating platform and modeling platform are located on one platform, which not only enables modeling of a more accurate artificial intelligence (AI) model, but also enables AI based on structured data and unstructured data without separate batch processing. A modeling function of the model may be provided.
도 1은 기존 데이터 처리 시스템을 나타낸 개념도이다. Figure 1 is a conceptual diagram showing an existing data processing system.
도 2는 본 발명의 실시예에 따른 하나의 플랫폼 상에서 정형 데이터와 비정형 데이터를 처리하기 위한 데이터 처리 시스템을 나타낸 개념도이다.Figure 2 is a conceptual diagram showing a data processing system for processing structured data and unstructured data on one platform according to an embodiment of the present invention.
도 3은 본 발명의 실시예에 따른 하나의 플랫폼 상에서 정형 데이터와 비정형 데이터를 처리하기 위한 데이터 처리 시스템을 나타낸 개념도이다.Figure 3 is a conceptual diagram showing a data processing system for processing structured data and unstructured data on one platform according to an embodiment of the present invention.
도 4는 본 발명의 실시예에 따른 데이터 처리 시스템의 동작을 나타낸 개념도이다.Figure 4 is a conceptual diagram showing the operation of a data processing system according to an embodiment of the present invention.
도 5는 본 발명의 실시예에 따른 데이터 처리 시스템의 동작을 나타낸 개념도이다.Figure 5 is a conceptual diagram showing the operation of a data processing system according to an embodiment of the present invention.
도 6은 본 발명의 실시예에 따른 데이터 처리 시스템을 기반으로 한 데이터 처리 방법을 나타낸 개념도이다.Figure 6 is a conceptual diagram showing a data processing method based on a data processing system according to an embodiment of the present invention.
후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이러한 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 본 명세서에 기재되어 있는 특정 형상, 구조 및 특성은 본 발명의 정신과 범위를 벗어나지 않으면서 일 실시예로부터 다른 실시예로 변경되어 구현될 수 있다. 또한, 각각의 실시예 내의 개별 구성요소의 위치 또는 배치도 본 발명의 정신과 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 행하여 지는 것이 아니며, 본 발명의 범위는 특허청구범위의 청구항들이 청구하는 범위 및 그와 균등한 모든 범위를 포괄하는 것으로 받아들여져야 한다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 구성요소를 나타낸다.The detailed description of the present invention described below refers to the accompanying drawings, which show by way of example specific embodiments in which the present invention may be practiced. These embodiments are described in sufficient detail to enable those skilled in the art to practice the invention. It should be understood that the various embodiments of the invention are different from one another but are not necessarily mutually exclusive. For example, specific shapes, structures and characteristics described herein may be implemented with changes from one embodiment to another without departing from the spirit and scope of the invention. Additionally, it should be understood that the location or arrangement of individual components within each embodiment may be changed without departing from the spirit and scope of the present invention. Accordingly, the detailed description described below is not intended to be limited, and the scope of the present invention should be taken to encompass the scope claimed by the claims and all equivalents thereof. Like reference numbers in the drawings indicate identical or similar elements throughout various aspects.
이하에서는, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 여러 바람직한 실시예에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.Hereinafter, several preferred embodiments of the present invention will be described in detail with reference to the attached drawings in order to enable those skilled in the art to easily practice the present invention.
도 1은 기존 데이터 처리 시스템을 나타낸 개념도이다. Figure 1 is a conceptual diagram showing an existing data processing system.
도 1에서는 기존에 정형 데이터와 비정형 데이터를 처리하는 데이터 처리 시스템이 개시된다.In Figure 1, a data processing system that processes existing structured data and unstructured data is disclosed.
도 1을 참조하면, 기존 데이터 처리 시스템의 정형 데이터(100) 및 비정형 데이터(120)에 대한 데이터 처리 방식이 개시된다.Referring to FIG. 1, a data processing method for structured data 100 and unstructured data 120 in an existing data processing system is disclosed.
정형 데이터(100)는 스키마에 따라 테이블에 저장되고 관계를 통해 테이블 간에 연결이 가능한 데이터이다. 정형 데이터(100)는 보유하고 있는 정보에 대한 적절히 정의된 스키마를 가지고 행과 열로 표시될 수 있다. 각 열은 다른 속성을 나타내는 반면, 각 행에는 단일 인스턴스의 속성과 연결된 데이터가 있다. 행과 열은 쉽게 참조할 수 있는 테이블을 형성할 수 있고, 서로 다른 테이블들은 연결될 수 있고, 여러 테이블이 연속적으로 연결되어 있으면 관계형 데이터베이스(140)가 형성될 수 있다.Structured data 100 is data that is stored in tables according to schema and can be connected between tables through relationships. Structured data 100 can be displayed in rows and columns with an appropriately defined schema for the information it holds. Each column represents a different property, while each row contains data associated with a single instance of the property. Rows and columns can form a table that can be easily referenced, different tables can be linked, and a relational database 140 can be formed when several tables are sequentially linked.
비정형 데이터(120)는 정형 데이터(100)와 반대되는 데이터로서 정해진 규칙이 없어서 값의 의미를 쉽게 파악하기 힘든 데이터로서 음성, 이미지, 영상과 같은 데이터를 포함할 수 있다.Unstructured data 120 is the opposite of structured data 100, and is data whose meaning is difficult to easily understand because there are no set rules, and may include data such as voice, image, and video.
기존 데이터 처리 시스템은 SQL(structured query language)을 기반으로 정형 데이터(100)에 대한 쿼리만이 가능하였고, 비정형 데이터(120)에 대한 처리를 위해서는 특정 스키마가 없는 NoSQL 데이터베이스가 사용되었다.The existing data processing system could only query structured data (100) based on SQL (structured query language), and a NoSQL database without a specific schema was used to process unstructured data (120).
또한, 기존의 데이터 처리 시스템은 정형 데이터(100)에 대한 실시간 쿼리가 가능하였으나, 비정형 데이터(120)에 대한 실시간 쿼리가 불가능하였다. 기존 데이터베이스 처리 시스템에서 비정형 데이터(120)는 실시간 처리(real time processing) 대신 배치 처리(batch processing)을 통해 처리되었다. 이로 인해, 기존의 데이터 처리 시스템에서 이미지, 영상, 음성에 대한 실시간 검색이 불가하였다. 보다 구체적으로 기존의 데이터 처리 시스템에서 비정형 데이터(120)는 대량의 데이터를 실시간으로 분석하기 어렵다. 따라서, 실시간으로 획득이 가능한 데이터 테이블과 정해진 시간에 계산을 미리 해놓은 배치(Batch) 테이블을 결합하는 람다 아키텍처(150) 기반의 처리가 수행되었고, 정형 데이터(100)와 비정형 데이터(120)가 별도의 DMBS(database management system)를 기반으로 처리되었다.In addition, the existing data processing system was capable of real-time querying of structured data (100), but real-time querying of unstructured data (120) was not possible. In existing database processing systems, unstructured data 120 is processed through batch processing instead of real time processing. Because of this, real-time search for images, videos, and voices was impossible in existing data processing systems. More specifically, in existing data processing systems, it is difficult to analyze large amounts of unstructured data 120 in real time. Therefore, processing was performed based on the Lambda architecture (150), which combines a data table that can be acquired in real time and a batch table that has been calculated in advance at a fixed time, and structured data (100) and unstructured data (120) are separated. It was processed based on DMBS (database management system).
또한, 기존의 데이터 처리 시스템은 비정형 데이터(120)에 대한 배치 프로세싱을 위해 다양한 파이프라인, 다양한 프레임워크, 다양한 언어를 사용하였다. 따라서, 하나의 가버넌스를 기반으로 한 데이터의 처리가 불가능하였고, 개발 이후 유지 보수가 어려웠다.Additionally, existing data processing systems used various pipelines, various frameworks, and various languages for batch processing of unstructured data 120. Therefore, processing of data based on a single governance was impossible, and maintenance after development was difficult.
또한, 기존의 데이터 처리 시스템에서 비정형 데이터(120)에 대한 학습을 위해서는 데이터베이스 내에서의 인공 지능 학습이 불가하였다. 기존의 데이터 처리 시스템은 정형 데이터(100)에 대한 학습을 데이터베이스에 구현된 AI 엔진을 기반으로 수행하였으나, 비정형 데이터(120)에 대한 학습은 데이터베이스 내에서 SQL 기반으로 처리되지 않았기 때문에 데이터베이스 안에서 비정형 데이터를 기반으로 한 AI 엔진 모델링은 불가능하였다.Additionally, in order to learn about unstructured data 120 in the existing data processing system, artificial intelligence learning within the database was not possible. The existing data processing system performed learning on structured data (100) based on an AI engine implemented in the database, but learning on unstructured data (120) was not processed based on SQL within the database, so unstructured data within the database AI engine modeling based on was impossible.
또한, 기존의 데이터 처리 시스템은 AI 엔진에 대한 모델링을 수행시 운영계의 모수 테이블에서 샘플링을 통해 샘플 테이블(160)을 생성하여 모델링을 수행하게 되고, 모델링을 수행하는 모델링 플랫폼과 실제 운영을 수행하는 운영 플랫폼이 서로 상이하다. 이러한 경우, 모델링 플랫폼과 운영 플랫폼의 차이로 인해 모델링 결과가 정확하지 않은 문제점이 발생된다.In addition, when performing modeling for an AI engine, the existing data processing system creates a sample table 160 through sampling from the parameter table of the operating system to perform modeling, and a modeling platform that performs modeling and actual operation are used to perform modeling. The operating platforms are different. In this case, the problem of inaccurate modeling results occurs due to differences between the modeling platform and the operating platform.
기존 데이터 처리 시스템에서는 샘플 데이터를 활용하여 AI 모델링 하는데까지 정말 많은 시간이 소요된다.In existing data processing systems, it takes a lot of time to perform AI modeling using sample data.
기존 데이터 처리 시스템에서는 모수 테이블에서 샘플 데이터를 추출해오는 과정이 수행된다. 모수 데이터가 테이블 형태가 아닌 다양한 형태로 존재할 수 있기 때문에 데이터를 변형 및 추출해오는 과정에서 시간이 소요되고, 또 모델링 하기 위해 데이터를 전처리 하는 과정에서도 상당한 시간이 요구된다. In existing data processing systems, the process of extracting sample data from a parameter table is performed. Because parameter data can exist in various forms other than tables, it takes time to transform and extract the data, and a considerable amount of time is also required to preprocess the data for modeling.
또한, 기존 데이터 처리 시스템의 AI 모델링 과정에서 샘플 데이터는 정형과 비정형 데이터를 모두 포함하고 있고 정형/비정형 AI모델링을 하기 위해 기존 데이터 처리 시스템에서는 람다 아키텍처를 필수로 적용해야 한다. 람다 아키텍처를 통해서 개발을 하게 된다면 다양한 플랫폼과 언어를 사용하게 되는데 플랫폼 간의 특성 차이, 연동 문제 등으로 접목시키는데 시간을 많이 허비하게 된다. In addition, in the AI modeling process of existing data processing systems, sample data includes both structured and unstructured data, and in order to perform structured/unstructured AI modeling, Lambda architecture must be applied to existing data processing systems. If you develop through Lambda architecture, you will use various platforms and languages, but you will waste a lot of time integrating them due to differences in characteristics and interoperability issues between platforms.
이뿐만 아니라, 모수 테이블에서 데이터를 추출하고 람다 아키텍처 상에서 AI 모델링을 하는 동안 모수 테이블/데이터에 실시간으로 새로운 데이터들이 쌓이게 되는데 그렇게 되면 기존 데이터 처리 시스템에서 만들어진 AI 모델을 적용했을 때 예측 결과(모델의 결과 값)가 정확하지 않다는 문제점이 있다. 그렇다면 다시 한번 모델링을 하기 위해서 1번 프로세스와 2번 프로세스를 거치는 등 많은 시간이 소요된다.In addition, while extracting data from the parameter table and doing AI modeling on the Lambda architecture, new data is accumulated in the parameter table/data in real time. Then, when applying the AI model created in the existing data processing system, the prediction result (model's There is a problem that the result value is not accurate. In that case, it takes a lot of time to do modeling again, going through processes 1 and 2.
본 발명의 실시예에 따른 데이터 처리 시스템이 사용되는 경우, 모수 데이터가 하나의 형태(테이블)로 관리되고, 샘플 데이터를 추출해 오는 과정도 간단한 쿼리문을 통해 가능하고 람다 아키텍처를 필요로 하지 않기 때문에 정형 데이터 및 비정형 데이터에 대한 AI 모델링 또한 하나의 플랫폼과 하나의 언어를 사용하여 연동 문제없이 쉽게 프로세스 할 수 있다는 장점이 있다.When the data processing system according to the embodiment of the present invention is used, parameter data is managed in one form (table), and the process of extracting sample data is possible through a simple query statement and does not require a lambda architecture. AI modeling for structured and unstructured data also has the advantage of being easy to process without any integration issues using one platform and one language.
따라서, 본 발명의 실시예에 따른 데이터 처리 플랫폼은 하나의 플랫폼을 기반으로 하나의 언어를 기초로 정형 데이터(100)와 비정형 데이터(120)를 처리할 수 있다. Therefore, the data processing platform according to an embodiment of the present invention can process structured data 100 and unstructured data 120 based on one language based on one platform.
또한, 본 발명의 실시예에 따른 데이터 처리 플랫폼은 하나의 플랫폼 상에 운영 플랫폼과 모델링 플랫폼이 위치하여 보다 정확한 모델링이 가능할 뿐만 아니라, 별도의 배치 프로세싱 없이 정형 데이터(100) 및 비정형 데이터(120)를 기반으로 한 AI 모델링 기능을 제공할 수 있다.In addition, the data processing platform according to an embodiment of the present invention not only enables more accurate modeling by having an operating platform and a modeling platform on one platform, but also enables structured data 100 and unstructured data 120 without separate batch processing. It can provide AI modeling functions based on .
이하, 보다 구체적인 본 발명의 실시예에 따른 데이터 처리 플랫폼의 기능이 개시된다.Hereinafter, the functions of the data processing platform according to a more specific embodiment of the present invention are disclosed.
도 2는 본 발명의 실시예에 따른 하나의 플랫폼 상에서 정형 데이터와 비정형 데이터를 처리하기 위한 데이터 처리 시스템을 나타낸 개념도이다.Figure 2 is a conceptual diagram showing a data processing system for processing structured data and unstructured data on one platform according to an embodiment of the present invention.
도 2에서는 정형 데이터 및 비정형 데이터를 하나의 플랫폼 상에서 처리하기 위한 데이터 처리 시스템이 개시된다.In Figure 2, a data processing system for processing structured data and unstructured data on one platform is disclosed.
도 2를 참조하면, 데이터 처리 시스템은 비정형 데이터(220)와 정형 데이터(210)를 하나의 플랫폼 상에서 처리 가능하다. 본 발명에서는 비정형 데이터(220)를 정형 데이터(210)와 함께 하나의 플랫폼에서 처리하기 위한 데이터 처리 신택스(syntax)가 새롭게 정의되고, 새롭게 정의된 데이터 처리 신택스의 사용이 가능한 확장(extended) SQL(240)이 정의될 수 있다.Referring to FIG. 2, the data processing system is capable of processing unstructured data 220 and structured data 210 on one platform. In the present invention, a data processing syntax for processing unstructured data 220 together with structured data 210 on one platform is newly defined, and an extended SQL (extended SQL) that can use the newly defined data processing syntax is provided. 240) can be defined.
정형 데이터(210)에 대한 일반 쿼리는 PostgreSQL과 같은 기존의 SQL을 기반으로 처리되고 비정형 데이터에 대한 쿼리는 본 발명에서 새롭게 정의된 확장 SQL(240)을 기반으로 처리될 수 있다.General queries for structured data 210 may be processed based on existing SQL such as PostgreSQL, and queries for unstructured data may be processed based on extended SQL 240 newly defined in the present invention.
확장 SQL(240) 상에서 새롭게 정의된 데이터 처리 신택스를 처리하기 위한 확장 SQL 엔진(250)이 정의될 수 있다. 확장 SQL 엔진(250)은 새롭게 정의된 데이터 처리 신택스를 처리 가능하도록 하기 위한 엔진일 수 있다.An extended SQL engine 250 may be defined to process the newly defined data processing syntax on the extended SQL 240. The extended SQL engine 250 may be an engine that enables processing of newly defined data processing syntax.
기존의 데이터 처리 시스템과 다르게 확장 SQL 엔진(250)을 기반으로 네스티드 쿼리(nested query)(230)가 가능하다. 네스티드 쿼리(230)는 정형 데이터(210) 및 비정형 데이터(220)에 대한 혼합적인 쿼리로서 데이터베이스에 저장된 정형 데이터(210)와 비정형 데이터(220)에 대한 순차적인 처리 또는 복합적인 처리를 가능하게 할 수 있다.Unlike existing data processing systems, nested queries (230) are possible based on the extended SQL engine (250). Nested query 230 is a mixed query for structured data 210 and unstructured data 220, enabling sequential or complex processing of structured data 210 and unstructured data 220 stored in the database. can do.
즉, 기존에 정형 데이터(210)와 비정형 데이터(220)가 별도의 DMBS(database management system)를 기반으로 처리되는 것과 다르게 본 발명에서는 정형 데이터(210)와 비정형 데이터(220)가 하나의 플랫폼 상에서 확장 SQL 엔진(250)을 기반으로 처리되고, 네스티드 쿼리(nested query)(230)를 기반으로 정형 데이터(210)와 비정형 데이터(220)에 대한 데이터 프로세싱이 하나의 데이터 베이스(260) 상에서 동시에 이루어질 수 있다. 이를 기반으로 정형 데이터(210)와 비정형 데이터(220)에 대한 AI 모델링도 데이터 처리 시스템의 AI 엔진(270) 상에서 이루어진다.That is, unlike the existing structured data 210 and unstructured data 220 that are processed based on separate DMBS (database management system), in the present invention, the structured data 210 and unstructured data 220 are processed on one platform. It is processed based on the extended SQL engine 250, and data processing for structured data 210 and unstructured data 220 is performed simultaneously on one database 260 based on nested query 230. It can be done. Based on this, AI modeling for structured data 210 and unstructured data 220 is also performed on the AI engine 270 of the data processing system.
AI 엔진은 분류 모델, 회귀 모델, 추천 모델, 음성 인식 모델 등 다양한 AI 엔진이 미리 제공될 수도 있고, 사용자가 직접 생성한 모델, 오픈 소스로 제공되는 AI 엔진 등 제한 없이 사용될 수 있다.The AI engine may be provided in advance with various AI engines such as classification models, regression models, recommendation models, and voice recognition models, or can be used without restrictions, such as models created by the user or AI engines provided as open source.
본 발명의 데이터 처리 시스템은 비정형 데이터(220)에 대한 별도의 배치 프로세싱, 별도의 언어, 별도의 플랫폼 없이 하나의 플랫폼 내에서 처리 가능하다. 본 발명의 데이터 처리 시스템은 정형 데이터(210)와 비정형 데이터(220) 모두 SQL 만으로 쿼리 가능하고 정형 데이터(210)와 비정형 데이터(220)에 대한 AI 모델링을 가능하게 하는 통합 플랫폼이다. 따라서 모델링 플랫폼과 운영 플랫폼이 동일하므로 모수가 달라져서 모델링의 정확도가 떨어지는 문제도 줄어들 수 있다.The data processing system of the present invention can process unstructured data 220 within one platform without separate batch processing, separate language, or separate platform. The data processing system of the present invention is an integrated platform that allows both structured data 210 and unstructured data 220 to be queried using only SQL and enables AI modeling for structured data 210 and unstructured data 220. Therefore, since the modeling platform and the operating platform are the same, the problem of poor modeling accuracy due to different parameters can be reduced.
또한, 본 발명의 데이터 처리 시스템은 RDB(relational database), AI 그리고 빅데이터 플랫폼(big data platform)의 기능을 하나의 플랫폼에서 적용할 수 있으며 AI 기반의 디지털 전환시 발생하는 비효율성을 획기적으로 줄일 수 있고, 빅데이터 처리 및 분산 병렬 처리 기술을 기반으로 하여 기존 대비 2배 이상 빠른 데이터 처리를 가능하게 한다.In addition, the data processing system of the present invention can apply the functions of RDB (relational database), AI, and big data platform in one platform, and can dramatically reduce inefficiencies that occur during AI-based digital transformation. Based on big data processing and distributed parallel processing technology, it enables data processing more than twice as fast as before.
즉, 본 발명의 실시예에 따르면, 데이터베이스 상에서 정형 데이터와 비정형 데이터를 처리하는 방법은 데이터 처리 시스템이 네스티드 쿼리를 수신하는 단계와 데이터 처리 시스템이 네스티드 쿼리에 대한 처리를 수행하는 단계를 포함할 수 있다. 네스티드 쿼리는 비정형 데이터에 대한 제1 쿼리 및 정형 데이터에 대한 제2 쿼리를 혼합한 쿼리일 수 있다.That is, according to an embodiment of the present invention, a method of processing structured data and unstructured data in a database includes the steps of a data processing system receiving a nested query and the data processing system performing processing on the nested query. can do. A nested query may be a query that mixes a first query for unstructured data and a second query for structured data.
네스티드 쿼리에 대한 처리를 수행하는 단계는, 데이터 처리 시스템이 확장된 SQL(extended structured query language)을 처리하는 확장 SQL 엔진을 기반으로 비정형 데이터에 대한 처리를 수행하는 단계와 데이터 처리 시스템이 Postgre SQL(extended structured query language)을 처리하는 일반 SQL 엔진을 기반으로 정형 데이터에 대한 처리를 수행하는 단계를 포함할 수 있다.The step of performing nested query processing is a step in which the data processing system performs processing on unstructured data based on an extended SQL engine that processes extended SQL (extended structured query language), and the data processing system processes Postgre SQL. It may include processing structured data based on a general SQL engine that processes (extended structured query language).
데이터 처리 시스템은 정형 데이터에 대한 데이터 테이블 및 비정형 데이터에 대한 데이터 테이블을 생성하여 하나의 데이터베이스 상에서 처리하고, 데이터 처리 시스템은 정형 데이터 및 비정형 데이터를 기반으로 한 인공 지능 엔진 모델링을 하나의 데이터베이스 상에서 지원할 수 있다.The data processing system creates data tables for structured data and data tables for unstructured data and processes them in one database, and the data processing system supports artificial intelligence engine modeling based on structured data and unstructured data in one database. You can.
또한, 본 발명의 실시예에 따르면, 데이터 처리 시스템은 정형 데이터 및 비정형 데이터 각각에 대한 개별적인 처리를 수행할 수도 있다. 데이터 처리 시스템은 비정형 데이터 처리 쿼리 및 정형 데이터 처리 쿼리를 수신하고, 비정형 데이터 처리 쿼리 및 정형 데이터 처리 쿼리를 처리하도록 구현될 수 있다. 비정형 데이터 처리 쿼리는 비정형 데이터만을 처리하기 위한 쿼리이고, 정형 데이터 처리 쿼리는 정형 데이터만을 처리하기 위한 쿼리일 수 있다.Additionally, according to an embodiment of the present invention, the data processing system may perform individual processing for each of structured data and unstructured data. The data processing system may be implemented to receive unstructured data processing queries and structured data processing queries, and process the unstructured data processing queries and structured data processing queries. An unstructured data processing query may be a query for processing only unstructured data, and a structured data processing query may be a query for processing only structured data.
비정형 데이터 처리 쿼리는 확장 SQL 및 확장 SQL 엔진을 기반으로 처리 되고, 정형 데이터 처리 쿼리는 일반 SQL(Postgre SQL) 및 일반 SQL 엔진을 기반으로 처리될 수 있다.Unstructured data processing queries can be processed based on extended SQL and extended SQL engines, and structured data processing queries can be processed based on general SQL (Postgre SQL) and general SQL engines.
도 3은 본 발명의 실시예에 따른 하나의 플랫폼 상에서 정형 데이터와 비정형 데이터를 처리하기 위한 데이터 처리 시스템을 나타낸 개념도이다.Figure 3 is a conceptual diagram showing a data processing system for processing structured data and unstructured data on one platform according to an embodiment of the present invention.
도 3에서는 기존에 정의된 일반 쿼리와 비정형 데이터를 위해 확장된 SQL을 기반으로 정의된 확장 쿼리가 네스티드 쿼리를 형성하고, 네스티드 쿼리가 데이터 처리 시스템에서 처리되는 방법이 개시된다.In Figure 3, a previously defined general query and an extended query defined based on extended SQL for unstructured data form a nested query, and a method of processing the nested query in a data processing system is disclosed.
도 3을 참조하면, 입력 쿼리(300)로서 비정형 데이터 및 정형 데이터에 대한 처리를 위한 네스티드 쿼리가 입력될 수 있다.Referring to FIG. 3, a nested query for processing unstructured data and structured data may be input as the input query 300.
예를 들어, 네스티드 쿼리는 제1 쿼리(310), 제2 쿼리(320) 및 제3 쿼리(330)를 포함할 수 있고, 제1 쿼리(310) 및 제3 쿼리(330)는 확장 쿼리(350)이고, 제2 쿼리(320)는 일반 쿼리(360)일 수 있다.For example, a nested query may include a first query 310, a second query 320, and a third query 330, and the first query 310 and the third query 330 are extended queries. 350, and the second query 320 may be a general query 360.
제1 쿼리(310)는 PRINT IMAGE, 제2 쿼리(320)는 SELECT, 제3 쿼리(330)는 SEARCH IMAGE일 수 있다. 제1 쿼리(310), 제2 쿼리(320) 및 제3 쿼리(330)는 네스티드 구조로 입력 쿼리를 형성할 수 있다.The first query 310 may be PRINT IMAGE, the second query 320 may be SELECT, and the third query 330 may be SEARCH IMAGE. The first query 310, the second query 320, and the third query 330 may form an input query in a nested structure.
입력 쿼리(300)는 파서를 통해 파싱될 수 있다. 렉서(lexer)를 기반으로 네스티트 쿼리는 일반 쿼리(360)와 확장 쿼리(350)로 구분되고, 파서는 일반 쿼리(360)와 확장 쿼리(350)를 분할할 수 있다.The input query 300 may be parsed through a parser. Based on the lexer, nested queries are divided into general queries (360) and extended queries (350), and the parser can split the general queries (360) and extended queries (350).
제1 쿼리(310), 제2 쿼리(320) 및 제3 쿼리(330)는 클라우즈 아날라이즈(clause analyze) 및 쿼리 트리(query tree)를 통해 해석되어 처리될 수 있다. 제3 쿼리(330), 제2 쿼리(320) 및 제1 쿼리(310)의 순서로 처리될 수 있다. The first query 310, the second query 320, and the third query 330 may be interpreted and processed through cloud analysis and a query tree. The third query 330, second query 320, and first query 310 may be processed in this order.
제1 쿼리(310) 및 제3 쿼리(330)는 확장 쿼리(350)로서 확장 SQL 엔진을 기반으로 처리될 수 있고, 제2 쿼리(320)는 일반 쿼리로서 일반 쿼리 처리를 위한 SQL 엔진인 PostgreSQL 엔진을 기반으로 처리될 수 있다.The first query 310 and the third query 330 are extended queries 350 and can be processed based on an extended SQL engine, and the second query 320 is a general query, which is PostgreSQL, a SQL engine for general query processing. It can be processed based on the engine.
표준화 SQL 엔진과 PostgreSQL 엔진은 하나의 데이터베이스와 연결되어 쿼리를 처리할 수 있다. 하나의 데이터베이스를 기반으로 정형 데이터 및 비정형 데이터를 기반으로 한 인공 지능 학습이 가능하다.The standardized SQL engine and PostgreSQL engine can be connected to one database and process queries. Artificial intelligence learning based on structured and unstructured data is possible based on one database.
도 4는 본 발명의 실시예에 따른 데이터 처리 시스템의 동작을 나타낸 개념도이다.Figure 4 is a conceptual diagram showing the operation of a data processing system according to an embodiment of the present invention.
도 4에서는 하나의 플랫폼 상에서 정형 데이터와 비정형 데이터를 동시에 처리하기 위한 확장된 SQL 중 쿼리 기능이 개시된다.In Figure 4, an extended SQL query function for simultaneously processing structured data and unstructured data on one platform is disclosed.
도 4를 참조하면, 비정형 데이터에 대한 쿼리 기능은 아래와 같은 확장된 SQL을 기반으로 수행될 수 있다.Referring to FIG. 4, the query function for unstructured data can be performed based on the extended SQL below.
(1) 저장 모델 확인(LIST)(410)(1) Check storage model (LIST) (410)
사용자는 "LIST" 구문을 사용하여 비정형 데이터를 프로세싱하기 위한 비정형 데이터 테이블을 위해 미리 생성된 모델(pre-built model)과 사용자가 생성한 사용자 생성 모델을 확인할 수 있다.Users can use the "LIST" syntax to check pre-built models and user-created models for unstructured data tables for processing unstructured data.
예를 들어, LIST MODEL 기능을 통해 사용자에 의해 생성된 사용자 생성 모델에 대한 확인이 가능하고, LIST PREBUILT MODEL 기능을 사용하여 미리 생성된 모델에 대한 확인이 가능하다.For example, it is possible to check user-generated models created by users through the LIST MODEL function, and it is possible to check pre-created models using the LIST PREBUILT MODEL function.
(2) 비정형 데이터 변환(create table)(420)(2) Unstructured data conversion (create table) (420)
"create table" 구문을 사용하여 비정형 데이터(이미지, 오디오, 비디오 등)는 수치화 알고리즘을 기초로 사용자형 벡터 형식으로 변환한 비정형 데이터 테이블로 생성될 수 있다. Using the "create table" syntax, unstructured data (images, audio, video, etc.) can be created as an unstructured data table converted to a user-defined vector format based on a numerical algorithm.
아래의 표 1은 create table 구문의 예시이다Table 1 below is an example of create table syntax.
<표 1><Table 1>
CREATE TABLE [사용자 지정 데이터 테이블의 이름]CREATE TABLE [name of custom data table]
USING [사용할 인공지능 모델]USING [AI model to use]
AS [사용할 데이터 세트]AS [dataset to use]
예를 들어, create table 기능을 사용하여 특정 경로에 존재하는 이미지 파일을 속성 추출 인공지능 모델을 사용하여 비정형 데이터 테이블로서 데이터베이스 상에 생성할 수 있다 For example, using the create table function, an image file that exists in a specific path can be created in the database as an unstructured data table using an attribute extraction artificial intelligence model.
(3) 비정형 특성 추가(convert using)(430)(3) Add unstructured characteristics (convert using) (430)
사용자는 "convert using" 구문을 사용하여 이미지, 비디오, 음성 등 비정형 데이터의 정보를 이용해서 수치화 알고리즘을 사용하여 벡터 형식으로 변환하고 이값을 사용할 데이터 세트에 추가할 수 있다. Using the "convert using" statement, users can use information from unstructured data such as images, videos, and voices to convert it into vector format using a numerical algorithm and add this value to the data set to be used.
아래의 표 2는 convert using 구문의 예시이다Table 2 below is an example of the convert using statement.
<표 2><Table 2>
CONVERT USING [사용할 인공지능 모델]CONVERT USING [AI model to use]
OPTIONS(OPTIONS(
Table_name=[저장될 테이블명]Table_name=[table name to be saved]
))
ASAS
[사용할 데이터 세트][Dataset to use]
예를 들어, convert using 기능을 사용하여 특정 경로에 존재하는 이미지 파일을 추가적인 속성 추출 인공지능 모델을 사용하여 데이터 테이블로서 데이터베이스 상에 생성할 수 있다 For example, by using the convert using function, an image file that exists in a specific path can be created on the database as a data table using an additional attribute extraction artificial intelligence model.
(4) 비정형 데이터 검색(search)(440)(4) Unstructured data search (440)
Search 구문은 비정형 데이터에서 내용이나 의미 또는 유사도 등을 검색하기 위해 사용될 수 있다. Search syntax can be used to search for content, meaning, or similarity in unstructured data.
아래의 표 3은 search 구문의 예시이다.Table 3 below is an example of a search statement.
<표 3><Table 3>
SEARCH [사용자 지정 데이터 테이블 이름]SEARCH [custom data table name]
USING [사용할 인공지능 모델]USING [AI model to use]
AS [사용할 데이터 세트]AS [dataset to use]
예를 들어, 이미지 수치화 인공 지능 모델을 기반으로 유사 이미지에 대한 검색을 진행하기 위해 search 구문이 활용될 수 있다.For example, a search statement can be used to search for similar images based on an image quantification artificial intelligence model.
(5) 결과 출력(PRINT)(450)(5) Print result (PRINT) (450)
사용자는 "PRINT" 구문을 사용하여 이미지, 오디오 및 비디오 파일을 출력할 수 있다. 또한, 서브 쿼리를 사용하여 "PRINT" 구문을 통해 나온 결과를 바로 출력할 수 있다. Users can output image, audio, and video files using the "PRINT" syntax. Additionally, you can use a subquery to immediately output the results obtained through the "PRINT" statement.
아래의 표 4는 "PRINT" 구문의 예시이다.Table 4 below is an example of the "PRINT" syntax.
<표 4><Table 4>
PRINT IMAGE, AUDIO, VIDEOPRINT IMAGE, AUDIO, VIDEO
AS [출력할 데이터 세트]AS [data set to output]
예를 들어, PRINT 쿼리문을 사용하여 데이터 테이블에 있는 이미지 파일/비디오 파일/오디오파일들을 출력할 수 있다.For example, you can use the PRINT query statement to output image files/video files/audio files in a data table.
위의 쿼리 신택스(syntax)는 본 발명에서 확정된 SQL을 위해 새롭게 정의된 신택스이다.The above query syntax is a newly defined syntax for SQL confirmed in the present invention.
위와 같은 쿼리 신텍스를 기반으로 만들어진 비정형 데이터 테이블을 기반으로 키워드 또는 텍스트를 기반으로 한 이미지 데이터, 오디오 데이터, 비디오 데이터의 검색이 가능하다. 또한, 이미지 데이터, 오디오 데이터, 비디오 데이터를 기반으로 한 이미지 데이터, 오디오 데이터, 비디오 데이터의 검색도 가능하다.It is possible to search image data, audio data, and video data based on keywords or text based on an unstructured data table created based on the above query syntax. In addition, it is possible to search image data, audio data, and video data based on image data, audio data, and video data.
즉, 본 발명의 실시예에 따른 데이터 처리 시스템에서는 기존의 정형 데이터에 대한 실시간 검색에 추가하여 위와 같은 비정형 데이터에 대한 실시간 검색이 가능하다. 또한, 위와 같은 확장된SQL을 기반으로 비정형 데이터 및 정형 데이터에 대한 쿼리의 조합인 네스티드 쿼리(nested query)도 가능하여 비정형 데이터 및 정형 데이터를 모두 활용한 모델링도 가능하다.That is, in the data processing system according to an embodiment of the present invention, real-time search for the above unstructured data is possible in addition to real-time search for existing structured data. In addition, based on the above extended SQL, nested queries, which are a combination of queries on unstructured data and structured data, are also possible, making modeling using both unstructured and structured data possible.
도 5는 본 발명의 실시예에 따른 데이터 처리 시스템의 동작을 나타낸 개념도이다.Figure 5 is a conceptual diagram showing the operation of a data processing system according to an embodiment of the present invention.
도 5에서는 하나의 플랫폼 상에서 정형 데이터와 비정형 데이터를 동시에 처리하기 위한 확장된 SQL 중 ML(machine learning) 기능이 개시된다.In Figure 5, the ML (machine learning) function of extended SQL for simultaneously processing structured data and unstructured data on one platform is disclosed.
도 5를 참조하면, 비정형 데이터에 대한 ML 기능은 아래와 같은 확장된 SQL을 기반으로 수행될 수 있다.Referring to FIG. 5, ML functions for unstructured data can be performed based on extended SQL as shown below.
(1) 모델 학습(BUILD MODEL)(510)(1) Model learning (BUILD MODEL) (510)
사용자는 "BUILD MODEL" 구문을 사용하여 인공지능모델을 개발할 수 있다. Users can develop artificial intelligence models using the “BUILD MODEL” statement.
아래의 표 5는 "BUILD MODEL" 구문의 예시이다.Table 5 below is an example of the “BUILD MODEL” syntax.
<표 5><Table 5>
BUILD MODEL [사용자 지정 모델 이름]BUILD MODEL [custom model name]
USING [사용할 인공지능모델]USING [Artificial intelligence model to use]
OPTIONS([인공지능모델을 만들 때 필요한 옵션값])OPTIONS([Option values required when creating an artificial intelligence model])
AS [사용할 데이터 세트]AS [dataset to use]
예를 들어, 사용자는 "BUILD MODEL" 구문을 사용하여 인공지능모델을 사용하여 영화를 추천하는 영화추천모델을 만들 수 있다. For example, a user can use the "BUILD MODEL" syntax to create a movie recommendation model that recommends movies using an artificial intelligence model.
(2) 모델 평가(EVALUATE USING)(520)(2) EVALUATE USING (520)
사용자는 "EVALUATE USING" 구문을 사용하여 인공지능모델에 대한 성능 평가를 수행할 수 있다. Users can perform performance evaluation of artificial intelligence models using the “EVALUATE USING” statement.
아래의 표 6은 "EVALUATE USING" 구문의 예시이다.Table 6 below is an example of the "EVALUATE USING" statement.
<표 6><Table 6>
EVALUATE USING [기존 학습한 모델 이름]EVALUATE USING [Name of previously learned model]
OPTIONS ([모델별 평가시 필요한 옵션값])OPTIONS ([Option values required when evaluating each model])
ASAS
[사용할 데이터 세트][Dataset to use]
예를 들어, "EVALUATE USING" 구문을 사용하여 사용자가 모델 학습하기에서 만들었던 분류 모델에 대한 평가가 수행될 수 있다.For example, the "EVALUATE USING" statement can be used to evaluate the classification model that the user created in Learning a Model.
(3) 모델 재학습(FIT MODEL)(530)(3) Model retraining (FIT MODEL) (530)
사용자는 "FIT MODEL" 구문을 사용하여 모델에 새롭게 추가된 데이터세트를 기반으로 한 학습을 수행할 수 있다.Users can use the "FIT MODEL" syntax to perform training based on newly added datasets to the model.
아래의 표 7은 "FIT MODEL" 구문의 예시이다.Table 7 below is an example of the “FIT MODEL” syntax.
<표 7><Table 7>
FIT MODEL [사용자 지정 모델 이름]FIT MODEL [custom model name]
USING [기존 학습한 모델 이름 | 사전 학습된 인공지능모델 이름]USING [Name of previously learned model | Pre-trained artificial intelligence model name]
OPTIONS ([인공지능모델을 만들 때 필요한 옵션값])OPTIONS ([Option values required when creating an artificial intelligence model])
ASAS
[사용할 데이터세트][Dataset to use]
예를 들어, "FIT MODEL"을 사용하여 사용자가 이전에 만들었던 모델에 새롭게 추가된 데이터세트를 사용하여 학습한 새로운 모델이 생성될 수 있다.For example, using “FIT MODEL”, a new model can be created that is trained using a newly added dataset to a model the user previously created.
(4) 데이터 전처리(TRANSFORM USING)(540)(4) Data preprocessing (TRANSFORM USING) (540)
사용자는 "TRANSFORM USING" 구문을 사용하여 테스트 데이터 세트에 인공지능 모델 생성시 사용한 동일한 전처리 방법을 적용할 수 있다.Users can use the "TRANSFORM USING" statement to apply the same preprocessing method used to create the artificial intelligence model to the test data set.
아래의 표 8은 "TRANSFORM USING" 구문의 예시이다.Table 8 below is an example of the "TRANSFORM USING" syntax.
<표 8><Table 8>
TRANSFORM USING [기존 학습한 모델 이름]TRANSFORM USING [Name of previously learned model]
ASAS
[사용할 테스트 데이터 세트][Test dataset to use]
예를 들어, "TRANSFORM USING" 구문을 사용하여 모델 학습하기에서 기존에 생성된 분류 모델에서 사용한 데이터 전처리가 다른 모델의 학습을 위한 데이터 세트의 데이터 전처리에 적용될 수 있다.For example, in learning a model using the "TRANSFORM USING" syntax, data preprocessing used in an existing classification model can be applied to data preprocessing of a data set for learning another model.
(5) 모델 적용하기(PREDICT USING)(550)(5) Applying the model (PREDICT USING) (550)
사용자는 "PREDICT UDING" 구문을 사용하여 테스트 데이터 세트에 인공지능 모델을 적용하여 예측, 분류, 추천 등의 작업을 수행할 수 있다.Users can use the "PREDICT UDING" syntax to apply artificial intelligence models to test data sets to perform tasks such as prediction, classification, and recommendations.
아래의 표 9는 "PREDICT UDING" 구문의 예시이다.Table 9 below is an example of the "PREDICT UDING" syntax.
<표 9><Table 9>
PREDICT USING [기존 학습한 모델 이름]PREDICT USING [Previously learned model name]
OPTIONS ([모델별 추론시 필요한 옵션값])OPTIONS ([Option values required for inference for each model])
ASAS
[사용할 테스트 데이터 세트][Test dataset to use]
예를 들어, "PREDICT USING" 구문을 사용하여 기존에 모델 학습하기에서 만들어었던 기존 추천 모델을 사용하여 사용자 ID 31인 사용자가 좋아할만한 영화 목록에 대한 추천이 가능할 수 있다.For example, using the “PREDICT USING” syntax, it is possible to recommend a list of movies that the user with user ID 31 might like using the existing recommendation model created in the previous model training.
(6) 모델 삭제하기(DELETE MODEL)(560)(6) Deleting a model (DELETE MODEL) (560)
사용자는 "DELETE MODEL" 구문을 사용하여 데이터베이스에 만들어진 모델을 삭제할 수 있다.Users can delete models created in the database using the "DELETE MODEL" statement.
아래의 표 10은 "DELETE MODEL" 구문의 예시이다.Table 10 below is an example of the “DELETE MODEL” statement.
<표 10><Table 10>
DELETE MODEL [삭제할 모델 이름]DELETE MODEL [model name to delete]
예를 들어, "DELETE MODEL" 구문을 기반으로 사용자가 모델 학습하기에서 만들었던 영화추천모델이 데이터베이스에서 삭제될 수 있다.For example, the movie recommendation model that the user created in model training based on the "DELETE MODEL" statement may be deleted from the database.
위와 같은 확장된SQL을 기반으로 비정형 데이터 및 정형 데이터를 기반으로 한 AI 모델링이 별도의 배치 프로세스 없이 하나의 플랫폼인 데이터 처리 시스템 상에서 수행될 수 있다. Based on the above extended SQL, AI modeling based on unstructured data and structured data can be performed on a single platform, a data processing system, without a separate batch process.
데이터 처리 시스템 상에서는 미리 생성된 AI 모델 및 사용자에 의해 생성된 AI 모델이 위치할 수 있다. 이러한 AI 모델 생성을 통해 분류 모델, 회귀 모델, 추천 시스템, 음성 인식 모델 등 다양한 AI 모델에 대한 생성이 이루어질 수 있다.In the data processing system, a pre-generated AI model and an AI model created by a user may be located. Through this AI model creation, various AI models such as classification models, regression models, recommendation systems, and voice recognition models can be created.
도 6은 본 발명의 실시예에 따른 데이터 처리 시스템을 기반으로 한 데이터 처리 방법을 나타낸 개념도이다.Figure 6 is a conceptual diagram showing a data processing method based on a data processing system according to an embodiment of the present invention.
도 6에서는 전술한 데이터 처리 시스템을 기반으로 한 별도의 데이터베이스 상의 데이터 처리 방법이 개시된다. In Figure 6, a method of processing data on a separate database based on the data processing system described above is disclosed.
도 6를 참조하면, 도 1에서 도 5에서 전술한 바와 같이 데이터 처리 시스템 자체 데이터베이스를 기반으로 한 정형 데이터 및 비정형 데이터의 처리가 수행될 수도 있다. 하지만, 사용자는 사용자의 데이터베이스를 사용하되, 데이터 처리 시스템에서 제공하는 확장 SQL 및 확장 SQL 엔진의 기능을 API를 기반으로 활용할 수 있다.Referring to FIG. 6, as described above with reference to FIGS. 1 to 5, processing of structured data and unstructured data may be performed based on the data processing system's own database. However, users can use their own database and utilize the functions of the extended SQL and extended SQL engine provided by the data processing system based on the API.
데이터 처리 시스템의 자체 데이터베이스를 기반으로 한 정형 데이터 및 비정형 데이터의 처리는 내부 데이터 처리라는 용어로 표현될 수 있다. 데이터 처리 시스템의 자체 데이터베이스가 아닌 외부 데이터베이스를 기반으로 한 정형 데이터 및 비정형 데이터의 처리는 외부 데이터 처리라는 용어로 표현될 수 있다. The processing of structured and unstructured data based on the data processing system's own database can be expressed in the term internal data processing. The processing of structured and unstructured data based on an external database rather than the data processing system's own database can be expressed in the term external data processing.
내부 데이터 처리의 경우 전술한 도 1 내지 도 5에서 개시된 프로세스를 기반으로 처리될 수 있다.In the case of internal data processing, it can be processed based on the process disclosed in FIGS. 1 to 5 described above.
외부 데이터 처리를 위해 외부에서 본 발명의 실시예에 따른 데이터 처리 시스템을 사용하기 위해서는 제공된 'API' 또는 '데이터 이전 방법'을 사용하여 외부 데이터를 본 발명의 데이터 처리 시스템에 저장 및 변환시켜줘야 한다. 저장 및 변환이 완료된 데이터들에 대해서는 API를 사용하여 본 발명의 데이터 처리 시스템을 활용할 수 있다. 즉, 자체 엔진과 PostgreSQL 엔진 모두 외부 데이터베이스가 아닌 본 발명의 실시예에 따른 데이터베이스를 액세스하여 데이터 처리를 수행할 수 있다.In order to use the data processing system according to an embodiment of the present invention from the outside for external data processing, external data must be stored and converted into the data processing system of the present invention using the provided 'API' or 'data transfer method'. For data that has been stored and converted, the data processing system of the present invention can be utilized using the API. That is, both the internal engine and the PostgreSQL engine can perform data processing by accessing the database according to the embodiment of the present invention rather than an external database.
외부 데이터 처리의 경우, 사용자는 사용자의 데이터베이스에 저장된 별도의 비정형 데이터를 기반으로 한 학습을 API를 통해 확장된 SQL 및 확장 SQL 엔진의 기능을 기반으로 수행할 수 있다.In the case of external data processing, users can perform learning based on separate unstructured data stored in the user's database based on the functions of extended SQL and extended SQL engine through API.
예를 들어, 특정 사용자는 보안 업체로서 CCTV 영상을 저장하는 사용자 데이터베이스를 운영할 수 있다. 사용자는 본 발명의 데이터 처리 시스템의 확장된 SQL을 기반으로 CCTV 영상에 대한 인공지능학습을 사용자 데이터베이스에 저장된 데이터를 기반으로 수행할 수 있다. 외부 데이터베이스에서 본 발명의 데이터 처리 시스템의 데이터베이스로 정형 데이터 및 본 발명에서 정의된 비정형 데이터를 처리하기 위한 비정형 데이터에 대한 쿼리문을 기반으로 정형 데이터와 비정형 데이터가 삽입될 수 있다. 본 발명의 실시예에 따른 데이터 처리 시스템에 입력된 정형 데이터와 비정형 데이터에 대한 AI 모델링이 본 발명의 실시예에 따른 데이터 처리 시스템의 AI 엔진을 기반으로 수행될 수 있다.For example, a specific user may be a security company and operate a user database that stores CCTV footage. Based on the extended SQL of the data processing system of the present invention, users can perform artificial intelligence learning on CCTV images based on data stored in the user database. Structured data and unstructured data can be inserted from an external database into the database of the data processing system of the present invention based on a query statement for unstructured data for processing structured data and unstructured data defined in the present invention. AI modeling for structured data and unstructured data input to the data processing system according to an embodiment of the present invention can be performed based on the AI engine of the data processing system according to an embodiment of the present invention.
즉, 복수의 서로 다른 데이터베이스 상의 정형 데이터와 비정형 데이터를 처리하는 방법은 데이터 처리 시스템이 외부 데이터베이스로부터 외부 데이터를 수신하는 단계, 상기 데이터 처리 시스템이 상기 외부 데이터를 변환하는 단계와 데이터 처리 시스템이 변환된 상기 외부 데이터를 처리하는 단계를 포함할 수 있다.That is, the method of processing structured data and unstructured data on a plurality of different databases includes the steps of a data processing system receiving external data from an external database, the data processing system converting the external data, and the data processing system converting the external data. It may include processing the external data.
이때, 외부 데이터는 정형 데이터와 비정형 데이터를 포함하고, 데이터 처리 시스템은 네스티드 쿼리를 기반으로 정형 데이터 및 비정형 데이터를 처리하고, 네스티드 쿼리는 비정형 데이터에 대한 제1 쿼리 및 정형 데이터에 대한 제2 쿼리를 혼합한 쿼리일 수 있다.At this time, the external data includes structured data and unstructured data, the data processing system processes structured data and unstructured data based on nested queries, and the nested query is the first query for unstructured data and the second query for structured data. It may be a mixed query of 2 queries.
데이터 처리 시스템은 비정형 데이터 처리 쿼리를 기반으로 비정형 데이터를 처리하고, 데이터 처리 시스템은 정형 데이터 처리 쿼리를 기반으로 정형 데이터를 처리할 수 있다.A data processing system can process unstructured data based on unstructured data processing queries, and the data processing system can process structured data based on structured data processing queries.
네스티드 쿼리는 비정형 데이터에 대한 제1 쿼리 및 정형 데이터에 대한 제2 쿼리를 혼합한 쿼리이고, 비정형 데이터 처리 쿼리는 상기 비정형 데이터만을 처리하기 위한 쿼리이고, 정형 데이터 처리 쿼리는 정형 데이터만을 처리하기 위한 쿼리일 수 있다.A nested query is a query that combines a first query for unstructured data and a second query for structured data, an unstructured data processing query is a query for processing only the unstructured data, and a structured data processing query is a query for processing only structured data. It could be a query for
데이터 처리 시스템은 정형 데이터에 대한 데이터 테이블 및 비정형 데이터에 대한 데이터 테이블을 생성하여 하나의 데이터베이스 상에서 처리하고, 데이터 처리 시스템은 정형 데이터 및 비정형 데이터를 기반으로 한 인공 지능 엔진 모델링을 하나의 데이터베이스 상에서 지원할 수 있다.The data processing system creates data tables for structured data and data tables for unstructured data and processes them in one database, and the data processing system supports artificial intelligence engine modeling based on structured data and unstructured data in one database. You can.
이상 설명된 본 발명에 따른 실시예는 다양한 컴퓨터 구성요소를 통하여 실행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수 있다. 컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등과 같은, 프로그램 명령어를 저장하고 실행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의하여 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용하여 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위하여 하나 이상의 소프트웨어 모듈로 변경될 수 있으며, 그 역도 마찬가지이다.The embodiments according to the present invention described above can be implemented in the form of program instructions that can be executed through various computer components and recorded on a computer-readable recording medium. The computer-readable recording medium may include program instructions, data files, data structures, etc., singly or in combination. The program instructions recorded on the computer-readable recording medium may be specially designed and configured for the present invention or may be known and usable by those skilled in the computer software field. Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks, and magnetic tapes, optical recording media such as CD-ROMs and DVDs, and magneto-optical media such as floptical disks. medium), and hardware devices specifically configured to store and execute program instructions, such as ROM, RAM, flash memory, etc. Examples of program instructions include not only machine language code such as that created by a compiler, but also high-level language code that can be executed by a computer using an interpreter or the like. A hardware device can be converted into one or more software modules to perform processing according to the invention and vice versa.
이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항과 한정된 실시예 및 도면에 의하여 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위하여 제공된 것일 뿐, 본 발명이 상기 실시예에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정과 변경을 꾀할 수 있다.In the above, the present invention has been described in terms of specific details, such as specific components, and limited embodiments and drawings, but this is only provided to facilitate a more general understanding of the present invention, and the present invention is not limited to the above embodiments. Anyone with ordinary knowledge in the technical field to which the invention pertains can make various modifications and changes from this description.
따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 또는 이로부터 등가적으로 변경된 모든 범위는 본 발명의 사상의 범주에 속한다고 할 것이다.Therefore, the spirit of the present invention should not be limited to the above-described embodiments, and the scope of the patent claims described below as well as all scopes equivalent to or equivalently changed from the scope of the claims are within the scope of the spirit of the present invention. It will be said to belong to

Claims (6)

  1. 복수의 서로 다른 데이터베이스 상의 정형 데이터와 비정형 데이터를 처리하는 방법은, Methods for processing structured and unstructured data on multiple different databases include:
    데이터 처리 시스템이 외부 데이터베이스로부터 외부 데이터를 수신하는 단계;A data processing system receiving external data from an external database;
    상기 데이터 처리 시스템이 상기 외부 데이터를 변환하는 단계;converting the external data by the data processing system;
    상기 데이터 처리 시스템이 변환된 상기 외부 데이터를 처리하는 단계를 포함하는 것을 특징으로 하는 방법.and processing the converted external data by the data processing system.
  2. 제1항에 있어서, According to paragraph 1,
    상기 외부 데이터는 정형 데이터와 비정형 데이터를 포함하고, The external data includes structured data and unstructured data,
    상기 데이터 처리 시스템은 네스티드 쿼리를 기반으로 상기 정형 데이터 및 상기 비정형 데이터를 처리하고, The data processing system processes the structured data and the unstructured data based on nested queries,
    상기 데이터 처리 시스템은 비정형 데이터 처리 쿼리를 기반으로 상기 비정형 데이터를 처리하고, The data processing system processes the unstructured data based on an unstructured data processing query,
    상기 데이터 처리 시스템은 정형 데이터 처리 쿼리를 기반으로 상기 정형 데이터를 처리하고, The data processing system processes the structured data based on a structured data processing query,
    상기 네스티드 쿼리는 비정형 데이터에 대한 제1 쿼리 및 정형 데이터에 대한 제2 쿼리를 혼합한 쿼리이고, The nested query is a query that mixes a first query for unstructured data and a second query for structured data,
    상기 비정형 데이터 처리 쿼리는 상기 비정형 데이터만을 처리하기 위한 쿼리이고,The unstructured data processing query is a query for processing only the unstructured data,
    상기 정형 데이터 처리 쿼리는 상기 정형 데이터만을 처리하기 위한 쿼리인 것을 특징으로 하는 방법.The structured data processing query is a query for processing only the structured data.
  3. 제2 항에 있어서, According to clause 2,
    상기 데이터 처리 시스템은 상기 정형 데이터에 대한 데이터 테이블 및 상기 비정형 데이터에 대한 데이터 테이블을 생성하여 하나의 데이터베이스 상에서 처리하고, The data processing system creates a data table for the structured data and a data table for the unstructured data and processes them in one database,
    상기 데이터 처리 시스템은 상기 정형 데이터 및 상기 비정형 데이터를 기반으로 한 인공 지능 엔진 모델링을 상기 하나의 데이터베이스 상에서 지원하는 것을 특징으로 하는 방법.The data processing system supports artificial intelligence engine modeling based on the structured data and the unstructured data on the one database.
  4. 복수의 서로 다른 데이터베이스 상의 정형 데이터와 비정형 데이터를 처리하는 데이터 처리 시스템은, A data processing system that processes structured and unstructured data on multiple different databases,
    외부 데이터베이스로부터 외부 데이터를 수신하고,Receive external data from an external database,
    상기 외부 데이터를 변환하고,Convert the external data,
    변환된 상기 외부 데이터를 처리하도록 구현되는 것을 특징으로 하는 데이터 처리 시스템.A data processing system characterized in that it is implemented to process the converted external data.
  5. 제4항에 있어서, According to clause 4,
    상기 외부 데이터는 정형 데이터와 비정형 데이터를 포함하고, The external data includes structured data and unstructured data,
    상기 데이터 처리 시스템은 네스티드 쿼리를 기반으로 상기 정형 데이터 및 상기 비정형 데이터를 처리하고, The data processing system processes the structured data and the unstructured data based on nested queries,
    상기 데이터 처리 시스템은 비정형 데이터 처리 쿼리를 기반으로 상기 비정형 데이터를 처리하고, The data processing system processes the unstructured data based on an unstructured data processing query,
    상기 데이터 처리 시스템은 정형 데이터 처리 쿼리를 기반으로 상기 정형 데이터를 처리하고, The data processing system processes the structured data based on a structured data processing query,
    상기 네스티드 쿼리는 비정형 데이터에 대한 제1 쿼리 및 정형 데이터에 대한 제2 쿼리를 혼합한 쿼리이고, The nested query is a query that mixes a first query for unstructured data and a second query for structured data,
    상기 비정형 데이터 처리 쿼리는 상기 비정형 데이터만을 처리하기 위한 쿼리이고,The unstructured data processing query is a query for processing only the unstructured data,
    상기 정형 데이터 처리 쿼리는 상기 정형 데이터만을 처리하기 위한 쿼리인 것을 특징으로 하는 데이터 처리 시스템.A data processing system, characterized in that the structured data processing query is a query for processing only the structured data.
  6. 제5항에 있어서,According to clause 5,
    상기 데이터 처리 시스템은 상기 정형 데이터에 대한 데이터 테이블 및 상기 비정형 데이터에 대한 데이터 테이블을 생성하여 하나의 데이터베이스 상에서 처리하고, The data processing system creates a data table for the structured data and a data table for the unstructured data and processes them in one database,
    상기 데이터 처리 시스템은 상기 정형 데이터 및 상기 비정형 데이터를 기반으로 한 인공 지능 엔진 모델링을 상기 하나의 데이터베이스 상에서 지원하는 것을 특징으로 하는 데이터 처리 시스템.The data processing system supports artificial intelligence engine modeling based on the structured data and the unstructured data on the one database.
PCT/KR2022/014150 2022-07-21 2022-09-22 Method for processing structured data and unstructured data in a plurality of different databases, and data processing platform providing same method WO2024019225A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020220090270A KR102605931B1 (en) 2022-07-21 2022-07-21 Method for processing structured data and unstructured data on a plurality of databases and data processing platform providing the method
KR10-2022-0090270 2022-07-21

Publications (1)

Publication Number Publication Date
WO2024019225A1 true WO2024019225A1 (en) 2024-01-25

Family

ID=88968315

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2022/014150 WO2024019225A1 (en) 2022-07-21 2022-09-22 Method for processing structured data and unstructured data in a plurality of different databases, and data processing platform providing same method

Country Status (2)

Country Link
KR (1) KR102605931B1 (en)
WO (1) WO2024019225A1 (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101542195B1 (en) * 2014-03-28 2015-08-05 주식회사 솔트룩스 System And Method For Building Knowledge Base Using Extracting Property Of Informal Data
KR20160096258A (en) * 2015-02-04 2016-08-16 주식회사 유누스 Method for integration managing database system
KR20210023149A (en) * 2019-08-22 2021-03-04 하권목 Apparatus and method for associating data between internal system and external system
KR20210153561A (en) * 2020-06-10 2021-12-17 주식회사 퓨쳐누리 Making decision supporting system based on big data

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101542195B1 (en) * 2014-03-28 2015-08-05 주식회사 솔트룩스 System And Method For Building Knowledge Base Using Extracting Property Of Informal Data
KR20160096258A (en) * 2015-02-04 2016-08-16 주식회사 유누스 Method for integration managing database system
KR20210023149A (en) * 2019-08-22 2021-03-04 하권목 Apparatus and method for associating data between internal system and external system
KR20210153561A (en) * 2020-06-10 2021-12-17 주식회사 퓨쳐누리 Making decision supporting system based on big data

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
OLAWOYIN ANIFAT M.; LEUNG CARSON K.; CUZZOCREA ALFREDO: "Open Data Lake to Support Machine Learning on Arctic Big Data", 2021 IEEE INTERNATIONAL CONFERENCE ON BIG DATA (BIG DATA), IEEE, 15 December 2021 (2021-12-15), pages 5215 - 5224, XP034065455, DOI: 10.1109/BigData52589.2021.9671453 *

Also Published As

Publication number Publication date
KR102605931B1 (en) 2023-11-30

Similar Documents

Publication Publication Date Title
WO2010123168A1 (en) Database management method and system
WO2010087566A1 (en) Document analysis system
WO2012070840A2 (en) Apparatus and method for consensus search
WO2012050252A1 (en) System and method for automatically generating a mass classifier using a dynamic combination of classifiers
WO2010137814A2 (en) Method of providing by-viewpoint patent map and system thereof
WO2019107804A1 (en) Method for predicting drug-drug or drug-food interaction by using structural information of drug
WO2017146338A1 (en) Database-archiving method and apparatus that generate index information, and method and apparatus for searching archived database comprising index information
WO2011162444A1 (en) Named entity dictionary combined with ontology schema and device and method for renewing named entity dictionary or mining rule database using mining rule
WO2022030670A1 (en) Framework deep learning system and method using query
WO2012046906A1 (en) Device and method for providing resource search information on marked correlations between research subjects using a knowledge base from a combination of multiple resources
WO2022050551A1 (en) Legal service provision system and method therefor
WO2024019225A1 (en) Method for processing structured data and unstructured data in a plurality of different databases, and data processing platform providing same method
WO2011068315A4 (en) Apparatus for selecting optimum database using maximal concept-strength recognition technique and method thereof
WO2020199599A1 (en) Information presentation method and apparatus for work queue, and computer device and storage medium
WO2024019224A1 (en) Method for processing structured data and unstructured data in database, and data processing platform for providing method
WO2022035074A1 (en) Method for extracting relation between disease-related factors from document data, and system constructed using same
WO2024071504A1 (en) Method for processing structured data and unstructured data by assigning resources of different processes, and data processing system for providing method
WO2013008978A1 (en) Object identification result searching system and method
WO2017191877A1 (en) Compression device and method for managing provenance
WO2017159906A1 (en) Data structure for determining translation order of words included in source language text, program for generating data structure, and computer-readable storage medium storing same
WO2011136413A1 (en) Apparatus and method for configuring a comprehensive intellectual property rights star network by detecting patent similarity
WO2024071505A1 (en) Multi-query scheduler-based multi-query processing method, and data processing system for implementing same method
WO2023229094A1 (en) Method and apparatus for predicting actions
WO2022145503A1 (en) Method for providing semantic rest api
WO2024019226A1 (en) Method for detecting malicious urls

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22952074

Country of ref document: EP

Kind code of ref document: A1