WO2021040101A1 - Real-time distributed indexing system and method for high-performance query and response - Google Patents

Real-time distributed indexing system and method for high-performance query and response Download PDF

Info

Publication number
WO2021040101A1
WO2021040101A1 PCT/KR2019/011163 KR2019011163W WO2021040101A1 WO 2021040101 A1 WO2021040101 A1 WO 2021040101A1 KR 2019011163 W KR2019011163 W KR 2019011163W WO 2021040101 A1 WO2021040101 A1 WO 2021040101A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
image
unit
real
correct answer
Prior art date
Application number
PCT/KR2019/011163
Other languages
French (fr)
Korean (ko)
Inventor
박진영
최병은
Original Assignee
주식회사 나눔기술
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 나눔기술 filed Critical 주식회사 나눔기술
Priority to PCT/KR2019/011163 priority Critical patent/WO2021040101A1/en
Publication of WO2021040101A1 publication Critical patent/WO2021040101A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Definitions

  • the present invention relates to a real-time distributed index system and method for high-performance query and response, and more particularly, to a real-time distributed index system and method for high-performance query and response based on one or more analysis modules and MapReduce modules configured in parallel. It is about.
  • the distributed parallel processor technology using the MapReduce model is designed for the purpose of processing one-time data.Because it is a method that reads and processes the data allocated to the Map function from start to finish, it scans the entire input data every time. It can be a technology that is applied in a way that provides a cause of performance degradation.
  • An embodiment of the present invention provides a real-time distributed indexing system and method for high-performance inquiries and responses that provide speed to process query responses in real time by performing indexing when processing queries using a MapReduce module. do.
  • An embodiment of the present invention provides a real-time distributed indexing system and method for high-performance query and response that effectively analyzes queries on unstructured data using an analysis module that processes unstructured data.
  • An embodiment of the present invention provides a real-time distributed indexing system and method for high-performance queries and responses using filtering means to improve reliability of correct answer data extracted in response to a query.
  • a real-time distributed indexing system for high-performance query and response is a conversion unit that analyzes and converts unstructured data including any one of text, image, voice, and video into structured data, and the converted structured data
  • an index unit for generating search data for the pre-stored index data classifies the generated search data as related related data, and sorts the classified related data
  • a parallel processing unit for merging and distributing processing the correct answer candidate data and an extracting unit for extracting correct answer data by filtering the distributed correct answer candidate data based on any one of a user preference, a relevance factor, and a search engine.
  • the conversion unit determines the type of unstructured data for any one of the text, the image, the voice, and the video, and when the type of the unstructured data is determined as the text, the text is A linguistic pattern analysis unit that analyzes, when the type of the unstructured data is determined to be the image, an image pattern analysis unit that analyzes the image using image pattern recognition, and the type of the unstructured data is determined to be the voice, When the type of the unstructured data and the voice pattern analysis unit that analyzes the voice using voice pattern recognition is determined as the image, the image is analyzed using image pattern recognition including the image pattern recognition and the voice pattern recognition. It may include an image pattern analysis unit to analyze.
  • the index unit may generate index data for the converted structured data and may generate search data for the generated index data.
  • the real-time distributed index system for high-performance query and response may further include a storage unit for storing the generated index data and the pre-stored index data.
  • the parallel processing unit may include a map processing unit for classifying the search data into the relevant related data, and a reduce processing unit for distributing the correct answer candidate data by sorting and merging the related data.
  • the real-time distributed indexing method for high-performance query and response comprises the steps of analyzing unstructured data including any one of text, image, voice, and video and converting it into structured data. If there is pre-stored index data, generating search data for the pre-stored index data, classifying the generated search data as related related data, and sorting and merging the classified related data Distributing-processing the distributed-processed correct answer candidate data, and filtering the distributed-processed correct answer candidate data based on any one of a user preference, a relevance factor, and a search engine to extract correct answer data.
  • an index operation when processing a query using the MapReduce module, an index operation may be performed to provide a speed capable of processing a query response in real time.
  • a query for unstructured data can be effectively analyzed using an analysis module that processes unstructured data.
  • a filtering means may be used to improve the reliability of correct answer data extracted in response to a query.
  • FIG. 1 is a block diagram of a real-time distributed indexing system for high performance query and response according to an embodiment of the present invention.
  • FIG. 2 is a block diagram showing the configuration of a conversion unit.
  • FIG. 3 is a block diagram showing the configuration of a parallel processing unit.
  • FIG. 5 is a flowchart illustrating a real-time distributed indexing method for high-performance query and response according to an embodiment of the present invention.
  • FIG. 1 is a block diagram of a real-time distributed indexing system for high performance query and response according to an embodiment of the present invention.
  • a real-time distributed indexing system 100 for high performance query and response includes a conversion unit 110, an index unit 120, a parallel processing unit 130, and an extraction unit 140.
  • the conversion unit 110 analyzes unstructured data including any one of text, image, audio, and video and converts it into structured data.
  • the conversion unit 110 for analyzing unstructured data and converting it into structured data will be described in detail with reference to FIG. 2.
  • the conversion unit 110 includes a determination unit 210, a language pattern analysis unit 220, an image pattern analysis unit 230, a voice pattern analysis unit 240, and an image pattern analysis unit 250.
  • the real-time distributed indexing system 100 for high-performance query and response comprises one or more conversion units 110 in parallel to analyze and convert unstructured data in real time, Data can be acquired.
  • the determination unit 210 may determine the type of unstructured data for any one of text, image, audio, and video.
  • the unstructured data may be unstructured data such as text, image, voice, and video unlike numeric data having a certain standard or form.
  • unstructured data may be books, magazines, documents, audio information, video information and data, and data generated from an alternate network service including e-mail, Twitter, and blog.
  • the language pattern analysis unit 220 may analyze the text using language pattern recognition.
  • the language pattern analysis unit 220 may analyze text using language pattern recognition.
  • Language pattern recognition can detect text as a national language, and analyze the text by decomposing it into keyword units. For example, the text "When did Korea president meet the mayor of Seoul?" In this case, the language pattern analysis unit 220 may detect a country-specific language configured in an English form, decompose the text into keyword units, and analyze it in a form such as "Time, Korea president, Meet, Mayor of Seoul".
  • the image pattern analysis unit 230 may analyze the image using image pattern recognition.
  • the image pattern analysis unit 230 may analyze characteristics of an image based on statistical information and a priori knowledge extracted from identified patterns in the image.
  • image pattern recognition may be pattern recognition capable of discriminating shades, color relationships, shapes, and the like displayed on an image.
  • the speech pattern analysis unit 240 may analyze speech using speech pattern recognition.
  • the speech pattern analysis unit 240 may analyze and match a speech pattern closest to the coded speech by comparing the coded speech encoding the speech with the selected standard pattern speech.
  • the speech pattern recognition may be any one of a keyword unit of a voice, a phoneme unit of a voice, and a sentence unit of a voice.
  • the image pattern analysis unit 250 may analyze an image using image pattern recognition including image pattern recognition and voice pattern recognition.
  • the index unit 120 when pre-stored index data for the converted structured data exists, the index unit 120 generates search data for pre-stored index data.
  • index data for structured data may be generated in a binary format.
  • the index data may be expressed as a number of binary bits rather than text or characters to express the contents of the unstructured data, and the index data may be data including an index generated from a specific record of the structured data.
  • the index unit 120 may generate index data for the converted structured data and may generate search data for the generated index data.
  • the structured data may become search data.
  • the real-time distributed indexing system 100 for high-performance query and response may further include a storage unit 150 for storing generated index data and pre-stored index data.
  • the storage unit 150 may store search data in block units, and the storage unit 150 may be applied in a Hadoop Distributed File System (HDFS) structure.
  • HDFS Hadoop Distributed File System
  • the Hadoop distributed file system provides quick access to the generated index data, pre-stored index data, and search data by distributing and storing the generated index data, pre-stored index data, and search data.
  • the parallel processing unit 130 classifies the generated search data into related related data, sorts and merges the classified related data, and distributes the data as correct answer candidate data.
  • the parallel processing unit 130 will be described in detail with reference to FIGS. 3 and 4.
  • the parallel processing unit 130 may include a map processing unit 310 and a reduce processing unit 320.
  • the real-time distributed indexing system 100 for high-performance query and response classifies the search data generated by distributing one or more parallel processing units 130 as related data in real time, and By sorting and merging related data, it is possible to obtain correct answer candidate data at high processing speed.
  • the map processing unit 310 may classify the search data into related related data. More specifically, the map processing unit 310 classifies or divides the search data into related related data based on an intermediate key and value for the search data to improve processing speed and load the system. Can be reduced.
  • the reduce processing unit 320 may sort and merge related data to distribute the data as correct answer candidate data.
  • the reduce processing unit 320 may sort and merge the related data based on an intermediate key and a value for the related data to distribute the data as correct answer candidate data.
  • the parallel processing unit 130 may include one or more map processing units 310 configured in parallel and one or more reduce processing units 320 configured in parallel.
  • the parallel processing unit 130 may include a map processing unit 310 and a reduce processing unit 320 composed of one or more, and has high program portability, such as Java, Ruby, and Python. (Python) and C++ programming languages.
  • the extraction unit 140 extracts correct answer data by filtering the distributed-processed correct answer candidate data based on any one of a user preference, a relevance factor, and a search engine.
  • the extraction unit 140 may extract correct answer data by filtering based on user preference based on historical data related to user feedback on previous correct answer candidate data, and the relevance of the correct answer candidate data.
  • the correct answer data can be extracted by filtering based on the relevance factor that is sequentially rendered according to, and search engines built in advance on the web (e.g., Google, Yahoo, Naver ( The correct answer data can be extracted by filtering based on (a portal site including Naver) and Daum).
  • FIG. 5 is a flowchart illustrating a real-time distributed indexing method for high-performance query and response according to an embodiment of the present invention.
  • step 510 unstructured data including any one of text, image, voice, and video is analyzed and converted into structured data.
  • step 510 is a step of determining the type of unstructured data for any one of text, image, voice, and video, and when the type of unstructured data is determined to be text, the text is recognized using language pattern recognition. Analyzing, when the type of unstructured data is determined to be the image, analyzing the image using image pattern recognition, and when the type of unstructured data is determined to be speech, analyzing the speech using speech pattern recognition And when the type of unstructured data is determined as an image, analyzing the image using image pattern recognition including image pattern recognition and voice pattern recognition.
  • search data for pre-stored index data is generated.
  • the real-time distributed indexing method for high-performance query and response of the present invention generates index data for the converted structured data when there is no pre-stored index data for the converted structured data, and generates You can create search data for indexed data.
  • the search data generated in step 530 is classified as related related data, sorted and merged the classified related data, and distributedly processed into correct answer candidate data, step 540
  • the correct answer data is extracted by filtering the correct answer candidate data distributedly processed by the user based on any one of user preference, relevance factor, and search engine.
  • the method according to the embodiment may be implemented in the form of program instructions that can be executed through various computer means and recorded in a computer-readable medium.
  • the computer-readable medium may include program instructions, data files, data structures, and the like alone or in combination.
  • the program instructions recorded on the medium may be specially designed and configured for the embodiment, or may be known and usable to those skilled in computer software.
  • Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks, and magnetic tapes, optical media such as CD-ROMs and DVDs, and magnetic media such as floptical disks.
  • -A hardware device specially configured to store and execute program instructions such as magneto-optical media, and ROM, RAM, flash memory, and the like.
  • Examples of program instructions include not only machine language codes such as those produced by a compiler, but also high-level language codes that can be executed by a computer using an interpreter or the like.
  • the hardware device described above may be configured to operate as one or more software modules to perform the operation of the embodiment, and vice versa.

Abstract

Disclosed are a real-time distributed indexing system and method for high-performance query and response, the system comprising: a conversion unit which analyzes unstructured data including any one of text, an image, audio, and video, and converts the unstructured data into structured data; an index unit which, when pre-stored index data for the converted structured data exists, generates search data for the pre-stored index data; a parallel processing unit which classifies the generated search data as relevant data having relevancy, sorts and merges the classified relevant data, and processes the classified relevant data as correct answer candidate data in a distributed manner; and an extraction unit which filters the correct answer candidate data, that has been processed in a distributed manner, on the basis of any one of a user preference, a relevancy factor, and a search engine, and extracts correct answer data.

Description

고성능 질의 및 응답을 위한 실시간 분산색인 시스템 및 방법Real-time distributed indexing system and method for high-performance query and response
본 발명은 고성능 질의 및 응답을 위한 실시간 분산색인 시스템 및 방법에 관한 것으로, 더욱 상세하게는 병렬적으로 구성된 하나 이상의 분석 모듈 및 맵리듀스 모듈을 기반으로 고성능 질의 및 응답을 위한 실시간 분산색인 시스템 및 방법에 관한 것이다.The present invention relates to a real-time distributed index system and method for high-performance query and response, and more particularly, to a real-time distributed index system and method for high-performance query and response based on one or more analysis modules and MapReduce modules configured in parallel. It is about.
교호 네트워크 서비스(SNS: Social Network Service) 및 모바일 인터넷 서비스가 활성함에 따라 수많은 데이터가 인터넷 상에서 생성 및 유통되고, 최근 검색 엔진 및 웹 포탈을 운영하는 기업들 간에는 수많은 데이터를 수집 및 가공하여 인터넷 사용자에게 질의 응답을 제공하는 서비스를 실시하고 있다.As the social network service (SNS) and mobile Internet service are active, a lot of data is created and distributed on the Internet, and a large number of data is collected and processed among companies that operate search engines and web portals to provide Internet users. We have a service that provides Q&A.
그러나, 기존의 데이터 질의 응답을 처리하는 서비스는 폭발적으로 증가하는 데이터를 실시간 처리하는데 어려움을 겪고 있다.However, the existing service that handles data query and response has difficulty in real-time processing of explosively increasing data.
최근 들어, 폭발적으로 증가하는 데이터를 실시간 처리할 수 있는 대용량 데이터 분산 병렬 처리하는 기술에 대하여 많은 연구를 하고 있고, 대용량 데이터 분산 병렬 처리하는 기술 중에서 맵리듀스(Mapreduce) 모델을 이용한 분산 병렬 처리 기술이 주목을 받고 있는 추세이다.Recently, a lot of research has been conducted on a technology for distributed parallel processing of large-capacity data that can process explosively increasing data in real time. It is a trend that is attracting attention.
그러나, 맵리듀스 모델을 이용한 분산 병렬 처리기 기술은 일회성 데이터를 처리하기 위한 목적으로 설계된 것으로, 맵(Map) 함수에 할당되는 데이터를 처음부터 끝까지 읽고 처리하는 방식이기 때문에, 매번 입력 데이터를 전체 스캔하는 방식으로 적용되어 성능 저하의 원인을 제공하는 기술이 될 수 있다.However, the distributed parallel processor technology using the MapReduce model is designed for the purpose of processing one-time data.Because it is a method that reads and processes the data allocated to the Map function from start to finish, it scans the entire input data every time. It can be a technology that is applied in a way that provides a cause of performance degradation.
따라서, 대용량의 데이터를 성능 저하 없이 효과적으로 처리 및 실시간으로 질의 응답을 처리할 수 있는 속도를 제공하는 시스템 및 방법을 제공해야 할 것이다.Therefore, it is necessary to provide a system and method that provides a speed capable of effectively processing a large amount of data without deteriorating performance and processing a query response in real time.
또한, 인터넷 사용자들 간에는 교호 네트워크 서비스를 통하여 텍스트뿐만 아니라 이미지 음성 및 영상에 관련된 비정형 데이터를 공유 및 교류하지만, 정작 질의 응답을 처리하는 서비스는 텍스트 형태의 검색 질의를 분석하여 정답을 추출하는 방식이 중심일 수 있다. 따라서, 이미지 음성 및 영상에 관련된 비정형 데이터에 대한 질의를 효과적으로 분석할 수 있는 시스템 및 방법을 제공해야 할 것이다.In addition, Internet users share and exchange unstructured data related to not only text, but also images, audio and video through an alternating network service. It can be central. Therefore, it is necessary to provide a system and method capable of effectively analyzing queries on unstructured data related to image, audio and video.
본 발명의 일실시예는 맵리듀스 모듈을 이용하여 질의를 처리 시, 색인 작업을 수행하여 실시간으로 질의 응답을 처리할 수 있는 속도를 제공하는 고성능 질의 및 응답을 위한 실시간 분산색인 시스템 및 방법을 제공한다.An embodiment of the present invention provides a real-time distributed indexing system and method for high-performance inquiries and responses that provide speed to process query responses in real time by performing indexing when processing queries using a MapReduce module. do.
본 발명의 일실시예는 비정형 데이터를 처리하는 분석 모듈을 이용하여 비정형 데이터에 대한 질의를 효과적으로 분석하는 고성능 질의 및 응답을 위한 실시간 분산색인 시스템 및 방법을 제공한다.An embodiment of the present invention provides a real-time distributed indexing system and method for high-performance query and response that effectively analyzes queries on unstructured data using an analysis module that processes unstructured data.
본 발명의 일실시예는 질의에 응답하여 추출된 정답 데이터의 신뢰도 향상을 위해 필터링 수단을 이용하는 고성능 질의 및 응답을 위한 실시간 분산색인 시스템 및 방법을 제공한다.An embodiment of the present invention provides a real-time distributed indexing system and method for high-performance queries and responses using filtering means to improve reliability of correct answer data extracted in response to a query.
본 발명의 일실시예에 따른 고성능 질의 및 응답을 위한 실시간 분산색인 시스템은 텍스트, 이미지, 음성 및 영상 중 어느 하나를 포함하는 비정형 데이터를 분석하여 정형 데이터로 변환하는 변환부, 상기 변환된 정형 데이터에 대한 기 저장된 색인 데이터가 존재하는 경우, 상기 기 저장된 색인 데이터에 대한 검색용 데이터를 생성하는 색인부, 상기 생성된 검색용 데이터를 연관성 있는 연관 데이터로 분류하고, 상기 분류된 연관 데이터를 정렬 및 병합하여 정답후보 데이터로 분산 처리하는 병렬 처리부 및 상기 분산 처리된 정답후보 데이터를 사용자 선호도, 관련성 인자 및 검색 엔진 중 어느 하나를 기반으로 필터링하여 정답 데이터를 추출하는 추출부를 포함한다.A real-time distributed indexing system for high-performance query and response according to an embodiment of the present invention is a conversion unit that analyzes and converts unstructured data including any one of text, image, voice, and video into structured data, and the converted structured data When pre-stored index data for is present, an index unit for generating search data for the pre-stored index data, classifies the generated search data as related related data, and sorts the classified related data And a parallel processing unit for merging and distributing processing the correct answer candidate data, and an extracting unit for extracting correct answer data by filtering the distributed correct answer candidate data based on any one of a user preference, a relevance factor, and a search engine.
상기 변환부는 상기 텍스트, 상기 이미지, 상기 음성 및 상기 영상 중 어느 하나에 대한 비정형 데이터의 종류를 판별하는 판별부, 상기 비정형 데이터의 종류가 상기 텍스트로 판별되는 경우, 언어 패턴 인식을 이용하여 상기 텍스트를 분석하는 언어 패턴 분석부, 상기 비정형 데이터의 종류가 상기 이미지로 판별되는 경우, 이미지 패턴 인식을 이용하여 상기 이미지를 분석하는 이미지 패턴 분석부, 상기 비정형 데이터의 종류가 상기 음성으로 판별되는 경우, 음성 패턴 인식을 이용하여 상기 음성을 분석하는 음성 패턴 분석부 및 상기 비정형 데이터의 종류가 상기 영상으로 판별되는 경우, 상기 이미지 패턴 인식 및 상기 음성 패턴 인식이 포함된 영상 패턴 인식을 이용하여 상기 영상을 분석하는 영상 패턴 분석부를 포함할 수 있다.The conversion unit determines the type of unstructured data for any one of the text, the image, the voice, and the video, and when the type of the unstructured data is determined as the text, the text is A linguistic pattern analysis unit that analyzes, when the type of the unstructured data is determined to be the image, an image pattern analysis unit that analyzes the image using image pattern recognition, and the type of the unstructured data is determined to be the voice, When the type of the unstructured data and the voice pattern analysis unit that analyzes the voice using voice pattern recognition is determined as the image, the image is analyzed using image pattern recognition including the image pattern recognition and the voice pattern recognition. It may include an image pattern analysis unit to analyze.
상기 색인부는 상기 변환된 정형 데이터에 대한 기 저장된 색인 데이터가 존재하지 않는 경우, 상기 변환된 정형 데이터에 대한 색인 데이터를 생성하고, 상기 생성된 색인 데이터에 대한 검색용 데이터를 생성할 수 있다.When there is no pre-stored index data for the converted structured data, the index unit may generate index data for the converted structured data and may generate search data for the generated index data.
본 발명의 일실시예에 따른 고성능 질의 및 응답을 위한 실시간 분산색인 시스템은 상기 생성된 색인 데이터 및 상기 기 저장된 색인 데이터를 저장하는 저장부를 더 포함할 수 있다.The real-time distributed index system for high-performance query and response according to an embodiment of the present invention may further include a storage unit for storing the generated index data and the pre-stored index data.
상기 병렬 처리부는 상기 검색용 데이터를 연관성 있는 상기 연관 데이터로 분류하는 맵 처리부 및 상기 연관 데이터를 정렬 및 병합하여 상기 정답후보 데이터를 분산 처리하는 리듀스 처리부를 포함할 수 있다.The parallel processing unit may include a map processing unit for classifying the search data into the relevant related data, and a reduce processing unit for distributing the correct answer candidate data by sorting and merging the related data.
본 발명의 일실시예에 따른 고성능 질의 및 응답을 위한 실시간 분산색인 방법은 텍스트, 이미지, 음성 및 영상 중 어느 하나를 포함하는 비정형 데이터를 분석하여 정형 데이터로 변환하는 단계, 상기 변환된 정형 데이터에 대한 기 저장된 색인 데이터가 존재하는 경우, 상기 기 저장된 색인 데이터에 대한 검색용 데이터를 생성하는 단계, 상기 생성된 검색용 데이터를 연관성 있는 연관 데이터로 분류하고, 상기 분류된 연관 데이터를 정렬 및 병합하여 정답후보 데이터로 분산 처리하는 단계 및 상기 분산 처리된 정답후보 데이터를 사용자 선호도, 관련성 인자 및 검색 엔진 중 어느 하나를 기반으로 필터링하여 정답 데이터를 추출하는 단계를 포함한다.The real-time distributed indexing method for high-performance query and response according to an embodiment of the present invention comprises the steps of analyzing unstructured data including any one of text, image, voice, and video and converting it into structured data. If there is pre-stored index data, generating search data for the pre-stored index data, classifying the generated search data as related related data, and sorting and merging the classified related data Distributing-processing the distributed-processed correct answer candidate data, and filtering the distributed-processed correct answer candidate data based on any one of a user preference, a relevance factor, and a search engine to extract correct answer data.
본 발명의 일실시예는 맵리듀스 모듈을 이용하여 질의를 처리 시, 색인 작업을 수행하여 실시간으로 질의 응답을 처리할 수 있는 속도를 제공할 수 있다.According to an embodiment of the present invention, when processing a query using the MapReduce module, an index operation may be performed to provide a speed capable of processing a query response in real time.
본 발명의 일실시예는 비정형 데이터를 처리하는 분석 모듈을 이용하여 비정형 데이터에 대한 질의를 효과적으로 분석할 수 있다.According to an embodiment of the present invention, a query for unstructured data can be effectively analyzed using an analysis module that processes unstructured data.
본 발명의 일실시예는 질의에 응답하여 추출된 정답 데이터의 신뢰도 향상을 위해 필터링 수단을 이용할 수 있다.According to an embodiment of the present invention, a filtering means may be used to improve the reliability of correct answer data extracted in response to a query.
도 1은 본 발명의 일실시예에 따른 고성능 질의 및 응답을 위한 실시간 분산색인 시스템의 블록도이다.1 is a block diagram of a real-time distributed indexing system for high performance query and response according to an embodiment of the present invention.
도 2는 변환부의 구성을 도시한 블록도이다.2 is a block diagram showing the configuration of a conversion unit.
도 3은 병렬 처리부의 구성을 도시한 블록도이다.3 is a block diagram showing the configuration of a parallel processing unit.
도 4는 병렬 처리부의 구성 도시한 예이다.4 is an example of a configuration of a parallel processing unit.
도 5는 본 발명의 일실시예에 따른 고성능 질의 및 응답을 위한 실시간 분산색인 방법을 도시한 흐름도이다.5 is a flowchart illustrating a real-time distributed indexing method for high-performance query and response according to an embodiment of the present invention.
이하 첨부 도면들 및 첨부 도면들에 기재된 내용들을 참조하여 본 발명의 실시예를 상세하게 설명하지만, 본 발명이 실시예에 의해 제한되거나 한정되는 것은 아니다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings and contents described in the accompanying drawings, but the present invention is not limited or limited by the embodiments.
한편, 본 발명을 설명함에 있어서, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는, 그 상세한 설명을 생략할 것이다. 그리고, 본 명세서에서 사용되는 용어(terminology)들은 본 발명의 실시예를 적절히 표현하기 위해 사용된 용어들로서, 이는 사용자, 운용자의 의도 또는 본 발명이 속하는 분야의 관례 등에 따라 달라질 수 있다. 따라서, 본 용어들에 대한 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.Meanwhile, in describing the present invention, when it is determined that a detailed description of a related known function or configuration may unnecessarily obscure the subject matter of the present invention, a detailed description thereof will be omitted. In addition, terms used in the present specification are terms used to properly express an embodiment of the present invention, which may vary depending on the intention of users or operators, or customs in the field to which the present invention belongs. Therefore, definitions of these terms should be made based on the contents throughout the present specification.
도 1은 본 발명의 일실시예에 따른 고성능 질의 및 응답을 위한 실시간 분산색인 시스템의 블록도이다.1 is a block diagram of a real-time distributed indexing system for high performance query and response according to an embodiment of the present invention.
도 1을 참조하면, 본 발명의 고성능 질의 및 응답을 위한 실시간 분산색인 시스템(100)은 변환부(110), 색인부(120), 병렬 처리부(130) 및 추출부(140)를 포함한다.Referring to FIG. 1, a real-time distributed indexing system 100 for high performance query and response according to the present invention includes a conversion unit 110, an index unit 120, a parallel processing unit 130, and an extraction unit 140.
변환부(110)는 텍스트, 이미지, 음성 및 영상 중 어느 하나를 포함하는 비정형 데이터를 분석하여 정형 데이터로 변환한다. 이하에서는 도 2를 참조하여 비정형 데이터를 분석하여 정형 데이터로 변환하는 변환부(110)를 상세히 설명하기로 한다.The conversion unit 110 analyzes unstructured data including any one of text, image, audio, and video and converts it into structured data. Hereinafter, the conversion unit 110 for analyzing unstructured data and converting it into structured data will be described in detail with reference to FIG. 2.
도 2는 변환부의 구성을 도시한 블록도이다. 도 2를 참조하면, 변환부(110)는 판별부(210), 언어 패턴 분석부(220), 이미지 패턴 분석부(230), 음성 패턴 분석부(240) 및 영상 패턴 분석부(250)를 포함할 수 있다.2 is a block diagram showing the configuration of a conversion unit. Referring to FIG. 2, the conversion unit 110 includes a determination unit 210, a language pattern analysis unit 220, an image pattern analysis unit 230, a voice pattern analysis unit 240, and an image pattern analysis unit 250. Can include.
본 발명의 일측에 따르면, 고성능 질의 및 응답을 위한 실시간 분산색인 시스템(100)은 하나 이상의 변환부(110)를 병렬적으로 구성하여 비정형 데이터를 실시간으로 분석 및 변환하여 빠른 처리 속도로 변환된 정형 데이터를 획득할 수 있다.According to one aspect of the present invention, the real-time distributed indexing system 100 for high-performance query and response comprises one or more conversion units 110 in parallel to analyze and convert unstructured data in real time, Data can be acquired.
판별부(210)는 텍스트, 이미지, 음성 및 영상 중 어느 하나에 대한 비정형 데이터의 종류를 판별할 수 있다.The determination unit 210 may determine the type of unstructured data for any one of text, image, audio, and video.
예를 들어, 비정형 데이터는 일정한 규격이나 형태를 지닌 숫자 데이터와 달리 텍스트, 이미지, 음성 및 영상 등 구조화 되지 않은 데이터일 수 있다. 예를 들어, 비정형 데이터는 책, 잡지, 문서, 음성 정보, 영상 정보와 데이터일 수 있고, 이메일(E-mail), 트위터(Twitter), 블로그(Blog)를 포함하는 교호 네트워크 서비스에서 생성된 데이터일 수 있다.For example, the unstructured data may be unstructured data such as text, image, voice, and video unlike numeric data having a certain standard or form. For example, unstructured data may be books, magazines, documents, audio information, video information and data, and data generated from an alternate network service including e-mail, Twitter, and blog. Can be
언어 패턴 분석부(220)는 비정형 데이터의 종류가 텍스트로 판별되는 경우, 언어 패턴 인식을 이용하여 텍스트를 분석할 수 있다.When the type of unstructured data is determined as text, the language pattern analysis unit 220 may analyze the text using language pattern recognition.
보다 상세하게는, 언어 패턴 분석부(220)는 언어 패턴 인식을 이용하여 텍스트를 분석할 수 있다. 언어 패턴 인식은 텍스트를 국가별 언어로 감지할 수 있고, 텍스트를 키워드 단위로 분해하여 분석할 수 있다. 예를 들어, 텍스트가 "When did Korea president meet the mayor of Seoul?" 일 경우, 언어 패턴 분석부(220)는 영어 형태로 구성된 국가별 언어를 감지하고, 텍스트를 키워드 단위로 분해하여 "Time, Korea president, Meet, Mayor of Seoul" 과 같은 형태로 분석할 수 있다.In more detail, the language pattern analysis unit 220 may analyze text using language pattern recognition. Language pattern recognition can detect text as a national language, and analyze the text by decomposing it into keyword units. For example, the text "When did Korea president meet the mayor of Seoul?" In this case, the language pattern analysis unit 220 may detect a country-specific language configured in an English form, decompose the text into keyword units, and analyze it in a form such as "Time, Korea president, Meet, Mayor of Seoul".
이미지 패턴 분석부(230)는 비정형 데이터의 종류가 이미지로 판별되는 경우, 이미지 패턴 인식을 이용하여 이미지를 분석할 수 있다.When the type of unstructured data is determined as an image, the image pattern analysis unit 230 may analyze the image using image pattern recognition.
보다 상세하게는, 이미지 패턴 분석부(230)는 이미지 내의 식별된 패턴들로부터 추출되는 통계적 정보 및 선험적 지식을 기반으로 이미지의 특징을 분석할 수 있다. 예를 들어, 이미지 패턴 인식은 이미지에 나타내는 음영, 컬러 관계, 형상 및 기타 등을 식별할 수 있는 패턴 인식일 수 있다.In more detail, the image pattern analysis unit 230 may analyze characteristics of an image based on statistical information and a priori knowledge extracted from identified patterns in the image. For example, image pattern recognition may be pattern recognition capable of discriminating shades, color relationships, shapes, and the like displayed on an image.
음성 패턴 분석부(240)는 비정형 데이터의 종류가 음성으로 판별되는 경우, 음성 패턴 인식을 이용하여 음성을 분석할 수 있다.When the type of unstructured data is determined to be speech, the speech pattern analysis unit 240 may analyze speech using speech pattern recognition.
보다 상세하게는, 음성 패턴 분석부(240)는 음성을 부호화한 부호화 음성과 선정된 표준 패턴 음성을 비교하여 부호화 음성에 가장 가까운 음성 패턴을 분석하여 매칭할 수 있다. 예를 들어, 음성 패턴 인식은 음성의 키워드 단위, 음성의 음소 단위 및 음성의 문장 단위 등 중 어느 하나의 패턴 인식일 수 있다.In more detail, the speech pattern analysis unit 240 may analyze and match a speech pattern closest to the coded speech by comparing the coded speech encoding the speech with the selected standard pattern speech. For example, the speech pattern recognition may be any one of a keyword unit of a voice, a phoneme unit of a voice, and a sentence unit of a voice.
영상 패턴 분석부(250)는 이미지 패턴 인식 및 음성 패턴 인식이 포함된 영상 패턴 인식을 이용하여 영상을 분석할 수 있다.The image pattern analysis unit 250 may analyze an image using image pattern recognition including image pattern recognition and voice pattern recognition.
다시 도 1을 참조하면, 색인부(120)는 변환된 정형 데이터에 대한 기 저장된 색인 데이터가 존재하는 경우, 기 저장된 색인 데이터에 대한 검색용 데이터를 생성한다.Referring back to FIG. 1, when pre-stored index data for the converted structured data exists, the index unit 120 generates search data for pre-stored index data.
일반적으로 정형 데이터에 대한 색인 데이터는 바이너리(binary) 형태로 생성될 수 있다. 보다 상세하게는 색인 데이터는 비정형 데이터의 내용을 표현하기 위해 텍스트 또는 문자가 아닌 2진 비트의 수로 나타낼 수 있고, 색인 데이터는 정형 데이터의 특정 레코드에서 생성된 색인을 포함하는 데이터일 수 있다.In general, index data for structured data may be generated in a binary format. In more detail, the index data may be expressed as a number of binary bits rather than text or characters to express the contents of the unstructured data, and the index data may be data including an index generated from a specific record of the structured data.
색인부(120)는 변환된 정형 데이터에 대한 기 저장된 색인 데이터가 존재하지 않는 경우, 변환된 정형 데이터에 대한 색인 데이터를 생성하고, 생성된 색인 데이터에 대한 검색용 데이터를 생성할 수 있다.When there is no pre-stored index data for the converted structured data, the index unit 120 may generate index data for the converted structured data and may generate search data for the generated index data.
본 발병의 일측에 따르면, 기 저장된 색인 데이터가 존재하지 않는 경우에는 색인 데이터를 생성 시, 변환된 정형 데이터에 존재하는 레코드를 한 번씩 읽어야 하기 때문에, 정형 데이터가 검색용 데이터가 될 수 있다.According to one side of the outbreak, if pre-stored index data does not exist, when generating index data, since a record existing in the converted structured data must be read once, the structured data may become search data.
본 발명의 고성능 질의 및 응답을 위한 실시간 분산색인 시스템(100)은 생성된 색인 데이터 및 기 저장된 색인 데이터를 저장하는 저장부(150)를 더 포함할 수 있다.The real-time distributed indexing system 100 for high-performance query and response according to the present invention may further include a storage unit 150 for storing generated index data and pre-stored index data.
저장부(150)는 검색용 데이터를 블록 단위로 저장할 수 있고, 저장부(150)는 하둡 분산 파일 시스템(HDFS: Hadoop Distributed File System) 구조로 적용될 수 있다.The storage unit 150 may store search data in block units, and the storage unit 150 may be applied in a Hadoop Distributed File System (HDFS) structure.
하둡 분산 파일 시스템은 생성된 색인 데이터, 기 저장된 색인 데이터 및 검색용 데이터를 분산되게 저장하여 생성된 색인 데이터, 기 저장된 색인 데이터 및 검색용 데이터를 빠르게 접근할 수 있다.The Hadoop distributed file system provides quick access to the generated index data, pre-stored index data, and search data by distributing and storing the generated index data, pre-stored index data, and search data.
병렬 처리부(130)는 생성된 검색용 데이터를 연관성 있는 연관 데이터로 분류하고, 분류된 연관 데이터를 정렬 및 병합하여 정답후보 데이터로 분산 처리한다. 이하에서는 도 3및 도 4를 참조하여 병렬 처리부(130)를 상세히 설명하기로 한다.The parallel processing unit 130 classifies the generated search data into related related data, sorts and merges the classified related data, and distributes the data as correct answer candidate data. Hereinafter, the parallel processing unit 130 will be described in detail with reference to FIGS. 3 and 4.
도 3은 병렬 처리부의 구성을 도시한 블록도이다. 도 3을 참조하면, 병렬 처리부(130)는 맵 처리부(310) 및 리듀스 처리부(320)를 포함할 수 있다.3 is a block diagram showing the configuration of a parallel processing unit. Referring to FIG. 3, the parallel processing unit 130 may include a map processing unit 310 and a reduce processing unit 320.
본 발명의 일측에 따르면, 고성능 질의 및 응답을 위한 실시간 분산색인 시스템(100)은 하나 이상의 병렬 처리부(130)를 분산적으로 구성하여 생성된 검색용 데이터를 실시간으로 연관 데이터로 분류하고, 실시간으로 연관 데이터를 정렬 및 병합하여 빠른 처리 속도로 정답후보 데이터를 획득할 수 있다.According to one aspect of the present invention, the real-time distributed indexing system 100 for high-performance query and response classifies the search data generated by distributing one or more parallel processing units 130 as related data in real time, and By sorting and merging related data, it is possible to obtain correct answer candidate data at high processing speed.
맵 처리부(310)는 검색용 데이터를 연관성 있는 연관 데이터로 분류할 수 있다. 보다 상세하게는, 맵 처리부(310)는 검색용 데이터를 검색용 데이터에 대한 중간 키(key) 및 밸류(value)를 기반으로 연관성 있는 연관 데이터로 분류 또는 분할하여 처리 속도 개선 및 시스템에 대한 부하를 줄일 수 있다.The map processing unit 310 may classify the search data into related related data. More specifically, the map processing unit 310 classifies or divides the search data into related related data based on an intermediate key and value for the search data to improve processing speed and load the system. Can be reduced.
리듀스 처리부(320)는 연관 데이터를 정렬 및 병합하여 정답후보 데이터로 분산 처리할 수 있다. 보다 상세하게는, 리듀스 처리부(320)는 연관 데이터를 연관 데이터에 대한 중간 키 및 밸류를 기반으로 정렬 및 병합하여 정답후보 데이터로 분산 처리할 수 있다.The reduce processing unit 320 may sort and merge related data to distribute the data as correct answer candidate data. In more detail, the reduce processing unit 320 may sort and merge the related data based on an intermediate key and a value for the related data to distribute the data as correct answer candidate data.
도 4는 병렬 처리부의 구성 도시한 예이다. 도 4를 참조하면, 병렬 처리부(130)는 하나 이상의 병렬적으로 구성된 맵 처리부(310)와 하나 이상의 병렬적으로 구성된 리듀스 처리부(320)를 포함할 수 있다.4 is an example of a configuration of a parallel processing unit. Referring to FIG. 4, the parallel processing unit 130 may include one or more map processing units 310 configured in parallel and one or more reduce processing units 320 configured in parallel.
본 발명의 일측에 따르면, 병렬 처리부(130)는 하나 이상으로 구성된 맵 처리부(310) 및 리듀스 처리부(320)를 포함할 수 있고, 프로그램 이식성이 높은 자바(Java), 루비(Ruby), 파이썬(Python) 및 C++ 프로그래밍 언어로 구현될 수 있다.According to one aspect of the present invention, the parallel processing unit 130 may include a map processing unit 310 and a reduce processing unit 320 composed of one or more, and has high program portability, such as Java, Ruby, and Python. (Python) and C++ programming languages.
다시 도 1을 참조하면, 추출부(140)는 분산 처리된 정답후보 데이터를 사용자 선호도, 관련성 인자 및 검색 엔진 중 어느 하나를 기반으로 필터링하여 정답 데이터를 추출한다.Referring back to FIG. 1, the extraction unit 140 extracts correct answer data by filtering the distributed-processed correct answer candidate data based on any one of a user preference, a relevance factor, and a search engine.
보다 상세하게는, 추출부(140)는 이전의 정답후보 데이터들에 대한 사용자 피드백과 관련된 이력 데이터에 기초한 사용자 선호도를 기반으로 필터링(Filtering)하여 정답 데이터를 추출할 수 있고, 정답후보 데이터의 관련성에 따라 순서적으로 랜더링(Rendering)되는 관련성 인자를 기반으로 필터링하여 정답 데이터를 추출할 수 있으며, 웹 상에 미리 구축된 검색 엔진(예를 들어, 구글(Google), 야후(Yahoo), 네이버(Naver) 및 다움(Daum) 등을 포함하는 포털 사이트)을 기반으로 필터링하여 정답 데이터를 추출할 수 있다.More specifically, the extraction unit 140 may extract correct answer data by filtering based on user preference based on historical data related to user feedback on previous correct answer candidate data, and the relevance of the correct answer candidate data. The correct answer data can be extracted by filtering based on the relevance factor that is sequentially rendered according to, and search engines built in advance on the web (e.g., Google, Yahoo, Naver ( The correct answer data can be extracted by filtering based on (a portal site including Naver) and Daum).
도 5는 본 발명의 일실시예에 따른 고성능 질의 및 응답을 위한 실시간 분산색인 방법을 도시한 흐름도이다.5 is a flowchart illustrating a real-time distributed indexing method for high-performance query and response according to an embodiment of the present invention.
도 5를 참조하면, 본 발명의 고성능 질의 및 응답을 위한 실시간 분산색인 방법은 단계 510에서 텍스트, 이미지, 음성 및 영상 중 어느 하나를 포함하는 비정형 데이터를 분석하여 정형 데이터로 변환한다.Referring to FIG. 5, in the real-time distributed indexing method for high-performance query and response according to the present invention, in step 510, unstructured data including any one of text, image, voice, and video is analyzed and converted into structured data.
본 발명의 일측에 따르면, 단계 510은 텍스트, 이미지, 음성 및 영상 중 어느 하나에 대한 비정형 데이터의 종류를 판별하는 단계, 비정형 데이터의 종류가 텍스트로 판별되는 경우, 언어 패턴 인식을 이용하여 텍스트를 분석하는 단계, 비정형 데이터의 종류가 상기 이미지로 판별되는 경우, 이미지 패턴 인식을 이용하여 이미지를 분석하는 단계, 비정형 데이터의 종류가 음성으로 판별되는 경우, 음성 패턴 인식을 이용하여 음성을 분석하는 단계 및 비정형 데이터의 종류가 영상으로 판별되는 경우, 이미지 패턴 인식 및 음성 패턴 인식이 포함된 영상 패턴 인식을 이용하여 영상을 분석하는 단계를 포함할 수 있다.According to one aspect of the present invention, step 510 is a step of determining the type of unstructured data for any one of text, image, voice, and video, and when the type of unstructured data is determined to be text, the text is recognized using language pattern recognition. Analyzing, when the type of unstructured data is determined to be the image, analyzing the image using image pattern recognition, and when the type of unstructured data is determined to be speech, analyzing the speech using speech pattern recognition And when the type of unstructured data is determined as an image, analyzing the image using image pattern recognition including image pattern recognition and voice pattern recognition.
본 발명의 고성능 질의 및 응답을 위한 실시간 분산색인 방법은 단계 520에서 변환된 정형 데이터에 대한 기 저장된 색인 데이터가 존재하는 경우, 기 저장된 색인 데이터에 대한 검색용 데이터를 생성한다.In the real-time distributed indexing method for high-performance query and response of the present invention, when pre-stored index data for the structured data converted in step 520 exists, search data for pre-stored index data is generated.
본 발명의 일측에 따르면, 본 발명의 고성능 질의 및 응답을 위한 실시간 분산색인 방법은 변환된 정형 데이터에 대한 기 저장된 색인 데이터가 존재하지 않는 경우, 변환된 정형 데이터에 대한 색인 데이터를 생성하고, 생성된 색인 데이터에 대한 검색용 데이터를 생성할 수 있다.According to one aspect of the present invention, the real-time distributed indexing method for high-performance query and response of the present invention generates index data for the converted structured data when there is no pre-stored index data for the converted structured data, and generates You can create search data for indexed data.
본 발명의 고성능 질의 및 응답을 위한 실시간 분산색인 방법은 단계 530에서 생성된 검색용 데이터를 연관성 있는 연관 데이터로 분류하고, 분류된 연관 데이터를 정렬 및 병합하여 정답후보 데이터로 분산 처리하고, 단계 540에서 분산 처리된 정답후보 데이터를 사용자 선호도, 관련성 인자 및 검색 엔진 중 어느 하나를 기반으로 필터링하여 정답 데이터를 추출한다.In the real-time distributed indexing method for high-performance query and response of the present invention, the search data generated in step 530 is classified as related related data, sorted and merged the classified related data, and distributedly processed into correct answer candidate data, step 540 The correct answer data is extracted by filtering the correct answer candidate data distributedly processed by the user based on any one of user preference, relevance factor, and search engine.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.The method according to the embodiment may be implemented in the form of program instructions that can be executed through various computer means and recorded in a computer-readable medium. The computer-readable medium may include program instructions, data files, data structures, and the like alone or in combination. The program instructions recorded on the medium may be specially designed and configured for the embodiment, or may be known and usable to those skilled in computer software. Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks, and magnetic tapes, optical media such as CD-ROMs and DVDs, and magnetic media such as floptical disks. -A hardware device specially configured to store and execute program instructions such as magneto-optical media, and ROM, RAM, flash memory, and the like. Examples of program instructions include not only machine language codes such as those produced by a compiler, but also high-level language codes that can be executed by a computer using an interpreter or the like. The hardware device described above may be configured to operate as one or more software modules to perform the operation of the embodiment, and vice versa.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.Although the embodiments have been described by the limited embodiments and drawings as described above, various modifications and variations can be made from the above description to those of ordinary skill in the art. For example, the described techniques are performed in a different order from the described method, and/or components such as systems, structures, devices, circuits, etc. described are combined or combined in a form different from the described method, or other components Alternatively, even if substituted or substituted by an equivalent, an appropriate result can be achieved.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.Therefore, other implementations, other embodiments, and those equivalent to the claims also fall within the scope of the claims to be described later.

Claims (6)

  1. 텍스트, 이미지, 음성 및 영상 중 어느 하나를 포함하는 비정형 데이터를 분석하여 정형 데이터로 변환하는 변환부;A conversion unit that analyzes unstructured data including any one of text, image, audio, and video and converts it into structured data;
    상기 변환된 정형 데이터에 대한 기 저장된 색인 데이터가 존재하는 경우, 상기 기 저장된 색인 데이터에 대한 검색용 데이터를 생성하는 색인부;An index unit for generating search data for the pre-stored index data when pre-stored index data for the converted structured data exists;
    상기 생성된 검색용 데이터를 연관성 있는 연관 데이터로 분류하고, 상기 분류된 연관 데이터를 정렬 및 병합하여 정답후보 데이터로 분산 처리하는 병렬 처리부; 및A parallel processing unit for classifying the generated search data as related related data, sorting and merging the classified related data, and performing distributed processing as correct answer candidate data; And
    상기 분산 처리된 정답후보 데이터를 사용자 선호도, 관련성 인자 및 검색 엔진 중 어느 하나를 기반으로 필터링하여 정답 데이터를 추출하는 추출부Extraction unit for extracting correct answer data by filtering the distributedly processed correct answer candidate data based on any one of user preference, relevance factor, and search engine
    를 포함하는 고성능 질의 및 응답을 위한 실시간 분산색인 시스템.Real-time distributed indexing system for high-performance inquiries and responses, including.
  2. 제1항에 있어서,The method of claim 1,
    상기 변환부는The conversion unit
    상기 텍스트, 상기 이미지, 상기 음성 및 상기 영상 중 어느 하나에 대한 비정형 데이터의 종류를 판별하는 판별부;A determination unit for determining a type of unstructured data for any one of the text, the image, the audio, and the video;
    상기 비정형 데이터의 종류가 상기 텍스트로 판별되는 경우, 언어 패턴 인식을 이용하여 상기 텍스트를 분석하는 언어 패턴 분석부;A language pattern analysis unit that analyzes the text using language pattern recognition when the type of the unstructured data is determined as the text;
    상기 비정형 데이터의 종류가 상기 이미지로 판별되는 경우, 이미지 패턴 인식을 이용하여 상기 이미지를 분석하는 이미지 패턴 분석부;An image pattern analysis unit that analyzes the image using image pattern recognition when the type of the unstructured data is determined as the image;
    상기 비정형 데이터의 종류가 상기 음성으로 판별되는 경우, 음성 패턴 인식을 이용하여 상기 음성을 분석하는 음성 패턴 분석부; 및A speech pattern analysis unit that analyzes the speech using speech pattern recognition when the type of the unstructured data is determined as the speech; And
    상기 비정형 데이터의 종류가 상기 영상으로 판별되는 경우, 상기 이미지 패턴 인식 및 상기 음성 패턴 인식이 포함된 영상 패턴 인식을 이용하여 상기 영상을 분석하는 영상 패턴 분석부When the type of the unstructured data is determined as the image, an image pattern analysis unit that analyzes the image using image pattern recognition including the image pattern recognition and the voice pattern recognition
    를 포함하는 고성능 질의 및 응답을 위한 실시간 분산색인 시스템.Real-time distributed indexing system for high-performance inquiries and responses, including.
  3. 제1항에 있어서,The method of claim 1,
    상기 색인부는The index part
    상기 변환된 정형 데이터에 대한 기 저장된 색인 데이터가 존재하지 않는 경우, 상기 변환된 정형 데이터에 대한 색인 데이터를 생성하고, 상기 생성된 색인 데이터에 대한 검색용 데이터를 생성하는 고성능 질의 및 응답을 위한 실시간 분산색인 시스템.Real-time for high-performance query and response for generating index data for the converted structured data and generating search data for the generated index data when pre-stored index data for the converted structured data does not exist Distributed indexing system.
  4. 제3항에 있어서,The method of claim 3,
    상기 생성된 색인 데이터 및 상기 기 저장된 색인 데이터를 저장하는 저장부A storage unit for storing the generated index data and the pre-stored index data
    를 더 포함하는 고성능 질의 및 응답을 위한 실시간 분산색인 시스템.Real-time distributed indexing system for high-performance query and response further comprising a.
  5. 제1항에 있어서,The method of claim 1,
    상기 병렬 처리부는The parallel processing unit
    상기 검색용 데이터를 연관성 있는 상기 연관 데이터로 분류하는 맵 처리부; 및A map processing unit for classifying the search data into the relevant related data; And
    상기 연관 데이터를 정렬 및 병합하여 상기 정답후보 데이터로 분산 처리하는 리듀스 처리부A reduce processing unit that sorts and merges the related data and distributes them to the correct answer candidate data
    를 포함하는 고성능 질의 및 응답을 위한 실시간 분산색인 시스템.Real-time distributed indexing system for high-performance query and response, including.
  6. 텍스트, 이미지, 음성 및 영상 중 어느 하나를 포함하는 비정형 데이터를 분석하여 정형 데이터로 변환하는 단계;Analyzing unstructured data including any one of text, image, audio, and video and converting it into structured data;
    상기 변환된 정형 데이터에 대한 기 저장된 색인 데이터가 존재하는 경우, 상기 기 저장된 색인 데이터에 대한 검색용 데이터를 생성하는 단계;If pre-stored index data for the converted structured data exists, generating search data for the pre-stored index data;
    상기 생성된 검색용 데이터를 연관성 있는 연관 데이터로 분류하고, 상기 분류된 연관 데이터를 정렬 및 병합하여 정답후보 데이터로 분산 처리하는 단계; 및Classifying the generated search data as related related data, sorting and merging the classified related data, and distributing processing the classified data as candidate answer data; And
    상기 분산 처리된 정답후보 데이터를 사용자 선호도, 관련성 인자 및 검색 엔진 중 어느 하나를 기반으로 필터링하여 정답 데이터를 추출하는 단계Extracting correct answer data by filtering the distributedly processed correct answer candidate data based on any one of a user preference, a relevance factor, and a search engine
    를 포함하는 고성능 질의 및 응답을 위한 실시간 분산색인 방법.Real-time distributed indexing method for high-performance query and response including a.
PCT/KR2019/011163 2019-08-30 2019-08-30 Real-time distributed indexing system and method for high-performance query and response WO2021040101A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/KR2019/011163 WO2021040101A1 (en) 2019-08-30 2019-08-30 Real-time distributed indexing system and method for high-performance query and response

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/KR2019/011163 WO2021040101A1 (en) 2019-08-30 2019-08-30 Real-time distributed indexing system and method for high-performance query and response

Publications (1)

Publication Number Publication Date
WO2021040101A1 true WO2021040101A1 (en) 2021-03-04

Family

ID=74684225

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2019/011163 WO2021040101A1 (en) 2019-08-30 2019-08-30 Real-time distributed indexing system and method for high-performance query and response

Country Status (1)

Country Link
WO (1) WO2021040101A1 (en)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150122855A (en) * 2014-04-23 2015-11-03 주식회사 나눔기술 Distributed processing system and method for real time question and answer
KR20180052890A (en) * 2016-11-11 2018-05-21 주식회사 나눔기술 System and method for distributed realtime processing of linguistic intelligence moduel
KR101855479B1 (en) * 2016-06-01 2018-06-26 주식회사 두두원 Method for recommending konwledge contents based on big data and system at the same
KR101873926B1 (en) * 2017-11-22 2018-07-04 김광호 Method for providing medical counseling service between insurance organization and specialist based on bigdata
KR20180126792A (en) * 2017-05-18 2018-11-28 주식회사 알티베이스 System and Method for processing complex stream data using distributed in-memory

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150122855A (en) * 2014-04-23 2015-11-03 주식회사 나눔기술 Distributed processing system and method for real time question and answer
KR101855479B1 (en) * 2016-06-01 2018-06-26 주식회사 두두원 Method for recommending konwledge contents based on big data and system at the same
KR20180052890A (en) * 2016-11-11 2018-05-21 주식회사 나눔기술 System and method for distributed realtime processing of linguistic intelligence moduel
KR20180126792A (en) * 2017-05-18 2018-11-28 주식회사 알티베이스 System and Method for processing complex stream data using distributed in-memory
KR101873926B1 (en) * 2017-11-22 2018-07-04 김광호 Method for providing medical counseling service between insurance organization and specialist based on bigdata

Similar Documents

Publication Publication Date Title
CN106156365B (en) A kind of generation method and device of knowledge mapping
US11514235B2 (en) Information extraction from open-ended schema-less tables
KR101737887B1 (en) Apparatus and Method for Topic Category Classification of Social Media Text based on Cross-Media Analysis
US20170286832A1 (en) Analyzing Concepts Over Time
KR101130444B1 (en) System for identifying paraphrases using machine translation techniques
CN108595708A (en) A kind of exception information file classification method of knowledge based collection of illustrative plates
US7937338B2 (en) System and method for identifying document structure and associated metainformation
CN104504150A (en) News public opinion monitoring system
CN110297988A (en) Hot topic detection method based on weighting LDA and improvement Single-Pass clustering algorithm
Hakak et al. Digital Hadith authentication: Recent advances, open challenges, and future directions
WO2018101506A1 (en) Document multi-classification device and document multi-classification method for classifying one document into plurality of categories by using lexico-semantic pattern obtained by reconfiguring semantic category of words constituting sentence
US7359896B2 (en) Information retrieving system, information retrieving method, and information retrieving program
CN110096599B (en) Knowledge graph generation method and device
CN114896305A (en) Smart internet security platform based on big data technology
CN109800418A (en) Text handling method, device and storage medium
US20040122660A1 (en) Creating taxonomies and training data in multiple languages
CN111209753B (en) Entity naming identification method and device
CN112347339A (en) Search result processing method and device
Aguiar et al. Text classification in legal documents extracted from lawsuits in Brazilian courts
Fharook et al. Are you a hero or a villain? A semantic role labelling approach for detecting harmful memes.
KR20150122855A (en) Distributed processing system and method for real time question and answer
CN117216214A (en) Question and answer extraction generation method, device, equipment and medium
WO2021040101A1 (en) Real-time distributed indexing system and method for high-performance query and response
Abeje et al. Comparative analysis of deep learning models for aspect level amharic news sentiment analysis
CN107291952B (en) Method and device for extracting meaningful strings

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19942679

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19942679

Country of ref document: EP

Kind code of ref document: A1