WO2017096941A1

WO2017096941A1 - Procédé de rafraîchissement d'arrière-plan basé sur une plateforme de traitement de données volumineuses spark-sql

Info

Publication number: WO2017096941A1
Application number: PCT/CN2016/095361
Authority: WO
Inventors: 王成; 冯骏
Original assignee: 深圳市华讯方舟软件技术有限公司; 华讯方舟科技有限公司
Priority date: 2015-12-11
Filing date: 2016-08-15
Publication date: 2017-06-15
Also published as: CN105550293A; CN105550293B

Abstract

La présente invention concerne un procédé de rafraîchissement d'arrière-plan basé sur une plateforme de traitement de données volumineuses Spark-SQL. Un nouveau processus est créé et un mécanisme de rafraîchissement temporisé est réglé dans une fonction d'entrée de Spark-SQL, et une structure de répertoire de fichier d'espace de table spécifiée d'un système de fichier distribué Hadoop (HDFS) est balayée périodiquement. Des éléments de configuration sont ajoutés dans un hive-site.xml sous un dossier conf d'un répertoire d'installation Spark, et ainsi, le point de savoir d'ouvrir ou non un processus de rafraîchissement, un intervalle de rafraîchissement et un ensemble d'espaces de table de données volumineuses à rafraîchir peuvent être configurés d'une manière personnalisée. Dans la présente invention, sous l'arrière-plan de données volumineuses, un premier temps d'interrogation de la plateforme de traitement de données volumineuses Spark-SQL est fortement réduit; en prenant des données 20T en tant qu'exemple, une table de données volumineuses est partitionnée en 25 régions dans une manière prenant une heure en tant que première sous-région, est partitionnée en 1001 régions dans une manière prenant trois premiers chiffres d'un numéro de téléphone mobile en tant que seconde sous-région, et est soumise à un stockage compressé selon un format PARQUET; pour l'interrogation demandant une quantité totale de toutes les données d'une certaine section de numéro d'une certaine période de temps, le premier temps d'interrogation d'origine est approximativement de 20 minutes, et au moyen du procédé de rafraîchissement d'arrière-plan optimisé par la présente invention, le temps de la première interrogation est réduit à approximativement 45 secondes.