KR101974455B1

KR101974455B1 - 사회적 사물 인터넷을 기반으로 빅 데이터의 특징 선택 모델링 최적화 장치 및 방법

Info

Publication number: KR101974455B1
Application number: KR1020170178105A
Authority: KR
Inventors: 전광길
Original assignee: 인천대학교 산학협력단
Priority date: 2017-12-22
Filing date: 2017-12-22
Publication date: 2019-05-03

Abstract

본 발명은 사회적 사물 인터넷을 기반으로 빅 데이터의 특징 선택 모델링 최적화 장치 및 방법에 관한 것이다.
또한, 본 발명에 따르면, 다양한 객체를 통해 데이터 생성을 처리한 다음 해당 데이터를 수집하고 집계하는 데이터 수집 계층; 다양한 장치에 대한 종단 간 연결을 제공하는 통신 계층; ABC 알고리즘을 사용하여 특징을 추출하고, 맵리듀스(MapReduce)를 사용하여 데이터 분석을 수행하는 특징 선택 및 처리층; 및 객체 및 사람에 대한 서드 파티(third party) 인터페이스를 통합하는 서비스 계층을 포함하는 사회적 사물 인터넷을 기반으로 빅 데이터의 특징 선택 모델링 최적화 장치 및 방법이 제공된다.

Description

사회적 사물 인터넷을 기반으로 빅 데이터의 특징 선택 모델링 최적화 장치 및 방법{Apparatus for Modeling and Optimization of Features Selection in Big Data based Social Internet of Things and method thereof}

본 발명은 사회적 사물 인터넷을 기반으로 빅 데이터의 특징 선택 모델링 최적화 장치 및 방법에 관한 것이다.

물리적 세계와 사이버 세계 사이의 간격을 채우는 가장 중요한 패러다임은 사회적 사물 인터넷(SIoT, Social Internet of Things )이다. IoT 분야의 최근 발전으로 새로운 응용 및 서비스의 구성이 요구되는 물리적 세계의 디지털화가 이루어졌다. 이러한 발전을 위해 인터넷의 도움을 받아 정보를 공유하기 위해 다양한 것들이 그룹화된다.

RFID(Radio Frequency IDentification) 태그, 센서, 액추에이터, 모바일 장비, 컴퓨터, 의료 센서 등이 포함되며 유선 또는 무선으로 서로 연결된다.

SIoT에서 진화한 것들은 물리적 환경을 감지하고, 데이터를 수집하고, 데이터를 전송하거나 보급하고, 적절한 애플리케이션을 위해 데이터를 처리하고, 다른 것들과 통신할 수 있다. 따라서 SIoT는 물리적 세계를 이해하고 외부 자극에 반응하는 데 도움이 되는 전력 기술을 제안했다. 따라서 현실 세계에 대한 통찰력을 실시간으로 제공하는 궁극적인 솔루션이다.

외관상으로는, SIoT 분야에서의 진보는 구현과 관련하여 새로운 도전을 한다 [1]. SIoT는 이질적인 것들이 혼합되어 있기 때문에 전통적인 네트워크와는 완전히 다른 것으로서, 확장성 때문에 [2] 더 복잡해진다. 결과적으로, 진화된 것들은 직접적으로 SIoT에 적용될 수 없다. 또한 SIoT의 복잡하고 이질적인 성격을 감안할 때, 서로 통신하는 다양한 것들은 많은 양의 메모리, 처리 능력 및 높은 대역폭을 소비한다. 따라서 SIoT는 대용량 데이터를 생성하는 방대한 양의 데이터를 생성하는 경향이 있다. 빅 데이터(Big Data)라는 용어는 웹뿐만 아니라 기술적인 계산 응용 프로그램의 데이터 계층에 있는 형태없는 데이터를 포함하는 특정 유형의 데이터 집합으로 분류된다. 대용량 데이터는 볼륨(데이터 세트의 크기라고도 함), 속도 (고속 처리 및 분석이라고 함) 및 다양성(서로 다른 데이터 소스, 즉 이기종 네트워크라고 함)과 같은 3V로 구성된다.

이러한 제약에 대처하기위한 이상적인 솔루션은 그린 SIoT이다. SIoT는 전력 소비뿐 아니라 운영 비용을 줄이기 위해 사용되는 환경 감시를 이용하여 배출 및 오염을 최소화할 수 있다 [1, 3-6]. 따라서 가장 중요한 과제는 SIoT의 사물의 비용뿐만 아니라 전력 소비를 효과적으로 줄이는 방법이다.

또한 빅 데이터(Big Data)의 현재 시나리오에서는 관계형 데이터베이스 공급 업체가 다양한 표준 및 플랫폼을 도입했다. 이들은 데이터 집계 및 데이터 분석에 사용된다. 이 플랫폼은 소프트웨어이거나 단순히 분석 서비스(일반적으로 제 3 자 서버에서 실행)를 제공한다. 이러한 기술은 빅 데이터에서 관련 기능을 선택할 수 없다.

따라서 빅 데이터 분석에 대한 위의 설명을 토대로 특징 선택은 이 기술의 핵심 이슈 중 하나이다. 특징 선택은 이미지 분류, 클러스터 분석, 데이터 마이닝, 패턴 인식, 이미지 검색 등을 포함한다. 그러나 특징 선택은 빅 데이터를 효율적으로 분석하기 위한 매우 중요한 기술이다. 빅 데이터의 한 하위 집합과 관련없는 노이즈 및 중복 특징이 제거된다. 더욱이, 언급된 과제는 계산 복잡성과 비용을 최소화하면서 데이터 분석의 정확성을 향상시킨다.

특징 선택 알고리즘 중에서 필터 접근법 [8-13]과 래퍼 접근법 [14-17]의 두 가지 범주로 분류되는 다양한 기법이 제안되었다. 필터 기반 기술에서, 분류 프로세스 전에 분류 알고리즘의 사용의 독립적인 특성 때문에 [17] 필터링 프로세스가 수행된다. 또한 이 방법에서는 가중치가 각 지형지물에 대해 계산되므로 더 나은 값을 가진 지형지물을 선택하여 원래의 빅 데이터 세트를 나타낼 수 있다.

분명히 래퍼 기술은 특징의 하위 집합을 구성하기 위해 특징을 변경(추가 및 제거)하여 후보 특징 집합을 생성한다. 이후 정확도는 특징 집합의 결과를 평가하는 데 사용된다. 후자의 기법은 그 결과에서 필터 기법을 능가한다.

또한 Ant Colony Optimization (ACO) [9, 11, 18], PSO (Particle Swarm Optimization) [19], Bat Algorithm [20], Art Bee Colony (ABC) [21]과 같은 계산 효율을 높이는 다양한 방법이 있다.

명백하게, 과학적 적용을 위한 입/출력(I / O) 병목 현상 문제를 해결하는 액티브 스토리지 시스템에서도 다른 전통적인 메커니즘이 나타났다. 이러한 잠재력은 데이터에 대한 수요가 증가함에 따라 증가한다. 비록 액티브 스토리지 [23-24]의 프로토 타입이지만, 주로 읽기 집중적인 작업에 중점을 둔다. 여러 가지 데이터 분석 방법 중 일반적인 작업(예 : 조회)을 쉽게 식별할 수 있는 방법을 제공하기 때문에 커널 분석은 라이브러리에서 미리 정의되며 처리 커널로 알려져 있다[24]. 다른 한편으로, 쓰기 집중적인 어플리케이션을 위한 다양한 기술은 과학 분야뿐만 아니라 특징 선택에서도 공통적으로 다루어지지 않는다. 출력 크기의 급속한 발전으로 인해 쓰기 성능 연산 I / O 시스템이 더욱 중요 해지고 있다[25]. 또한, 이 과학적 응용 프로그램의 놀라운 성장으로 인해 몇 가지 다른 문제가 발견되었다. 이러한 과제에는 엄청난 양의 데이터 및 메모리 할당을 이 애플리케이션에 저장하고, 지능형 기술 없이 이러한 데이터를 처리 및 분석하는 것이 포함된다.

프로토 타입 축소 (PR)와 같은 몇 가지 다른 기술은 클래스 배포를 위한 유용한 치료법 중 하나이다. 프로토 타입 축소는 원본 데이터를 여러 하위 집합으로 나눠서 개별적으로 처리할 수 있다. 그 후 PR은 각 컴팩트 세트를 글로벌 솔루션으로 결합한다. 또한, 이벤트 데이터는 컴퓨터의 네트워크에 분산되어야하는 대규모 마이닝 알고리즘을 필요로 하는 다양한 데이터베이스에 분산되어 있어야한다. 그러나 기존 액티브 스토리지 및 기능 선택 알고리즘의 설계에는 i) 실시간 연속 데이터로 피쳐를 추출하기 어렵다는 점, ii) 커널 디자인 패턴을 처리하는 것이 쓰기 작업에 적합하지 않은 점, ii) 일반적으로 쓰기 작업은 읽기 작업보다 더 많은 계산 능력이 필요한다는 점, 그리고 ⅲ) 방대한 양의 데이터를 처리하는 것은 때로는 기존의 인텔리전스 및 처리 도구를 사용하여 프로세스가 어렵다는 점등이 있다.

한편, 현실 세계에서 인터넷, 3G / 4G, 무선 LAN 등을 통해 다양한 기기들이 다른 기기 및 사물과 연결된다.이를 통해 다양한 것들을 연결하는 것을 목표로 하는 사물의 인터넷을 위한 풍부한 인프라를 구현할 수 있으며(예 : 휴대폰, 무선 바디 영역 네트워크, Wi-Fi, 액세스 포인트 등), 이러한 사물의 인터넷은 고유한 주소로 지정하고 이들 장치가 효율적인 방식으로 서로 상호 작용할 수 있게 하여 빅 데이터를 생성한다. 따라서 주요 목표는 인터넷을 통해 빅 데이터를 통신하는 동안 SIoT와 관련된 에너지 소비를 줄이기 위해 SIoT 빅 데이터에서 최상의 최적의 특징을 선택하는 것이다.

공개번호 10-2016-0081231호 등록번호 10-1255060호

[1] Awais Ahmad, Anand Paul, and M. Mazhar Rathore. "An efficient divide-and-conquer approach for big data analytics in machine-to-machine communication." Neurocomputing 174 (2016): 439-453. [2] NOAA. Overview of Current Atmospheric Reanalysis. http://reanalyses.org/atmosphere/overview-current-reanalyses, June 2016. [3] Awais Ahmad, Anand Paul, Mazhar Rathore, and Hangbae Chang. "An efficient multidimensional big data fusion approach in machine-to-machine communication." ACM Transactions on Embedded Computing Systems (TECS) 15, no. 2 (2016): 39. [4] Rathore, Muhammad Mazhar Ullah, Anand Paul, Awais Ahmad, Bo-Wei Chen, Bormin Huang, and Wen Ji. "Real-time big data analytical architecture for remote sensing application." IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing 8, no. 10 (2015): 4610-4621. [5] Haderer, Nicolas, Romain Rouvoy, and Lionel Seinturier. "Dynamic deployment of sensing experiments in the wild using smartphones." InIFIP International Conference on Distributed Applications and Interoperable Systems, pp. 43-56. Springer Berlin Heidelberg, 2013. [6] Mosser, Sebastien, Franck Fleurey, Brice Morin, Franck Chauvel, Arnor Solberg, and Iokanaan Goutier. "Sensapp as a reference platform to support cloud experiments: From the internet of things to the internet of services." In Symbolic and Numeric Algorithms for Scientific Computing (SYNASC), 2012 14th International Symposium on, pp. 400-406. IEEE, 2012. [7] Schiezaro, Mauricio, and Helio Pedrini. "Data feature selection based on Artificial Bee Colony algorithm." EURASIP Journal on Image and Video Processing 2013, no. 1 (2013): 1. [8] Jiang, Yi, and Jiangtao Ren. "Eigenvector sensitive feature selection for spectral clustering." In Joint European Conference on Machine Learning and Knowledge Discovery in Databases, pp. 114-129. Springer Berlin Heidelberg, 2011. [9] Zhang, Chunkai, and Hong Hu. "Ant colony optimization combining with mutual information for feature selection in support vector machines." InAustralasian Joint Conference on Artificial Intelligence, pp. 918-921. Springer Berlin Heidelberg, 2005. [10] Dash, Manoranjan, Kiseok Choi, Peter Scheuermann, and Huan Liu. "Feature selection for clustering-a filter solution." In Data Mining, 2002. ICDM 2003. Proceedings. 2002 IEEE International Conference on, pp. 115-122. IEEE, 2002. [11] Hall, Mark A. "Correlation-based feature selection of discrete and numeric class machine learning." (2000). [12] Liu, Huan, and Rudy Setiono. "A probabilistic approach to feature selection-a filter solution." In ICML, vol. 96, pp. 319-327. 1996. [13] Yu, Lei, and Huan Liu. "Feature selection for high-dimensional data: A fast correlation-based filter solution." In ICML, vol. 3, pp. 856-863. 2003. [14] Hruschka, Eduardo R., and Thiago F. Covoes. "Feature selection for cluster analysis: an approach based on the simplified Silhouette criterion." In International Conference on Computational Intelligence for Modelling, Control and Automation and International Conference on Intelligent Agents, Web Technologies and Internet Commerce (CIMCA-IAWTIC'06), vol. 1, pp. 32-38. IEEE, 2005. [15] Caruana, Rich, and Dayne Freitag. "Greedy Attribute Selection." In ICML, pp. 28-36. 1994. [16] Dy, Jennifer G., and Carla E. Brodley. "Feature subset selection and order identification for unsupervised learning." In ICML, pp. 247-254. 2000. [17] Xue, Bing, Liam Cervante, Lin Shang, and Mengjie Zhang. "A particle swarm optimisation based multi-objective filter approach to feature selection for classification." In Pacific Rim International Conference on Artificial Intelligence, pp. 673-685. Springer Berlin Heidelberg, 2012. [18] Dorigo, Marco, and Christian Blum. "Ant colony optimization theory: A survey." Theoretical computer science 344, no. 2 (2005): 243-278. [19] Kennedy, James. "Particle swarm optimization." In Encyclopedia of machine learning, pp. 760-766. Springer US, 2011. [20] Nakamura, Rodrigo YM, Luis AM Pereira, K. A. Costa, Douglas Rodrigues, Joao P. Papa, and X-S. Yang. "BBA: a binary bat algorithm for feature selection." In 2012 25th SIBGRAPI Conference on Graphics, Patterns and Images, pp. 291-297. IEEE, 2012. [21] Akay, Bahriye, and Dervis Karaboga. "A modified artificial bee colony algorithm for real-parameter optimization." Information Sciences 192 (2012): 120-142. [22] Karaboga, Dervis, Beyza Gorkemli, Celal Ozturk, and Nurhan Karaboga. "A comprehensive survey: artificial bee colony (ABC) algorithm and applications." Artificial Intelligence Review 42, no. 1 (2014): 21-57. [23] Felix, Evan J., Kevin Fox, Kevin Regimbal, and Jarek Nieplocha. "Active storage processing in a parallel file system." In In Proc. of the 6th LCI International Conference on Linux Clusters: The HPC Revolution, p. 85. 2006. [24] Thakur, Rajeev, William Gropp, and Ewing Lusk. "Data sieving and collective I/O in ROMIO." In Frontiers of Massively Parallel Computation, 1999. Frontiers' 99. The Seventh Symposium on the, pp. 182-189. IEEE, 1999. [25] Chen, Chao, Michael Lang, and Yong Chen. "Multilevel Active Storage for big data applications in high performance computing." In Big Data, 2013 IEEE International Conference on, pp. 169-174. IEEE, 2013. [26] Suguna, Nambiraj, and Keppana G. Thanushkodi. "An independent rough set approach hybrid with artificial bee colony algorithm for dimensionality reduction." American Journal of Applied Sciences 8, no. 3 (2011): 261. [27] Shvachko, Konstantin, Hairong Kuang, Sanjay Radia, and Robert Chansler. "The hadoop distributed file system." In 2010 IEEE 26th symposium on mass storage systems and technologies (MSST), pp. 1-10. IEEE, 2010. [28] Stampede at TACC, http://www.tacc.utexas.edu/resources/hpc/stampede. [29] Gordon at San Diego Supercomputer Center, http://www.sdsc.edu/us/resources/gordon/. [30] Gropp, W., E. Lusk, and T. Sterling. "Enabling Technologies in Beowulf Cluster Computing with Linux." The MIT Press Cambridge, Massachusetts London, England, second edition edition 3 (2003): 14 [31] T. L. Sterling, J. Salmon, D. J. Becker, and D. F. Savarese, "How to Build a Beowulf: A Guide to the Implementation and Application of PC Clusters,"in MIT Press, Cambridge, MA, 1999. [32] Engelmann, Christian, Hong Ong, and Stephen L. Scott. "Middleware in modern high performance computing system architectures." InInternational Conference on Computational Science, pp. 784-791. Springer Berlin Heidelberg, 2007. [33] Wasi-ur-Rahman, Md, Nusrat Sharmin Islam, Xiaoyi Lu, Jithin Jose, Hari Subramoni, Hao Wang, and Dhabaleswar K. DK Panda. "High-performance RDMA-based design of Hadoop MapReduce over InfiniBand." In Parallel and Distributed Processing Symposium Workshops & PhD Forum (IPDPSW), 2013 IEEE 27th International, pp. 1908-1917. IEEE, 2013. [34] Rahman, Md Wasi-ur, Xiaoyi Lu, Nusrat Sharmin Islam, and Dhabaleswar K. Panda. "HOMR: a hybrid approach to Dean exploit maximum overlapping in MapReduce over high performance interconnects." In Proceedings of the 28th ACM international conference on Supercomputing, pp. 33-42. ACM, 2014. [35] Lu, X., Islam, N.S., Wasi-Ur-Rahman, M., Jose, J., Subramoni, H., Wang, H. and Panda, D.K., 2013, October. High-performance design of Hadoop RPC with RDMA over InfiniBand. In 2013 42nd International Conference on Parallel Processing (pp. 641-650). IEEE. [36] Dean, Jeffrey, and Sanjay Ghemawat. "MapReduce: simplified data processing on large clusters." Communications of the ACM 51, no. 1 (2008): 107-113. [37] Ghemawat, Sanjay, Howard Gobioff, and Shun-Tak Leung. "The Google file system." In ACM SIGOPS operating systems review, vol. 37, no. 5, pp. 29-43. ACM, 2003. [38] Ranger, Colby, Ramanan Raghuraman, Arun Penmetsa, Gary Bradski, and Christos Kozyrakis. "Evaluating mapreduce for multi-core and multiprocessor systems." In 2007 IEEE 13th International Symposium on High Performance Computer Architecture, pp. 13-24. Ieee, 2007. [39] Yoo, Richard M., Anthony Romano, and Christos Kozyrakis. "Phoenix rebirth: Scalable MapReduce on a large-scale shared-memory system." InWorkload Characterization, 2009. IISWC 2009. IEEE International Symposium on, pp. 198-207. IEEE, 2009. [40] Rafique, M. Mustafa, Benjamin Rose, Ali R. Butt, and Dimitrios S. Nikolopoulos. "Supporting MapReduce on large-scale asymmetric multi-core clusters." ACM SIGOPS Operating Systems Review 43, no. 2 (2009): 25-34. [41] Lee, K.H., Lee, Y.J., Choi, H., Chung, Y.D. and Moon, B., 2012. Parallel data processing with MapReduce: a survey. AcM sIGMoD Record, 40(4), pp.11-20. [42] Shim, Kyuseok. "MapReduce algorithms for big data analysis."Proceedings of the VLDB Endowment 5, no. 12 (2012): 2016-2017. [43] Zhao, Jing, Chongzhao Han, Bin Wei, Qi Zhao, Peng Xiao, and Kedai Zhang. "Feature selection based on particle swarm optimal with multiple evolutionary strategies." In Information Fusion (FUSION), 2012 15th International Conference on, pp. 963-968. IEEE, 2012. [44] Liu, Yuanning, Gang Wang, Huiling Chen, Hao Dong, Xiaodong Zhu, and Sujing Wang. "An improved particle swarm optimization for feature selection." Journal of Bionic Engineering 8, no. 2 (2011): 191-200. [45] Unler, Alper, and Alper Murat. "A discrete particle swarm optimization method for feature selection in binary classification problems." European Journal of Operational Research 206, no. 3 (2010): 528-539. [46] R. Wenge, X. Zhang, C. Dave, L. Chao and S. Hao, "Smart city architecture: A technology guide for implementation and design challenges," China Communications, vol. 11, no. 3, pp. 56-69, 2014. [47] L. Sanchez, L. Munoz, J. Galache, P. Sotres, J. Santana, V. Gutierrez, R. Ramdhany, A. Gluhak, S. Krco, E. Theodoridis and D. Pfisterer, "SmartSantander: IoT experimentation over a smart city testbed," Computer Networks, vol. 61, no. 2014, pp. 217-238, 2013. [48] D. Simon, "Kalman filtering with state constraints: a survey of linear and nonlinear algorithms," IET Control Theory & Applications, vol. 4, no. 8, pp. 1303 - 1318, 2010. [49] L. Kleeman, "Understanding and Applying," [Online]. Available: http://biorobotics.ri.cmu.edu/papers/sbp_papers/integrated3/kleeman_kalman_basics.pdf. [Accessed April 2016]. [50] D. Li, S. Kar, J. M. F. Moura, H. V. Poor and S. Cui, "Distributed Kalman Filtering Over Massive Data Sets: Analysis Through Large Deviations of Random Riccati Equations," IEEE Transactions on Information Theory, vol. 61, no. 3, pp. 1351 - 1372, 2015. [51] Bao, Li, and Jian-chao Zeng. "Comparison and analysis of the selection mechanism in the artificial bee colony algorithm." In Hybrid Intelligent Systems, 2009. HIS'09. Ninth International Conference on, vol. 1, pp. 411-416. IEEE, 2009. [52] Chen, Bolun, Ling Chen, and Yixin Chen. "Efficient ant colony optimization for image feature selection." Signal processing 93, no. 6 (2013): 1566-1576. [53] Machine Learning Repository," University of California, 1987. [Online]. Available: https://archive.ics.uci.edu/ml/index.html. [Accessed 12 4 2016]. [54] "ibsvm," [Online]. Available: http://www.csie.ntu.edu.tw/~cjlin/libsvm/. [Accessed 17 3 2016]. [55] S. Aksoy and R. Haralick, "Feature normalization and likelihood-based similarity measures for image retrieval," Pattern Recognition Letters, vol. 5, no. 22, pp. 563-582, 2001. [56] Awais Ahmad, Anand Paul, M. Mazhar Rathore, and Hangbae Chang. "Smart cyber society: Integration of capillary devices with high usability based on Cyber-physical System." Future Generation Computer Systems 56 (2016): 493-503. [57] Razzaq Malik, Kaleem, Masood Habib, Shehzad Khalid, Farhan Ullah, Muhammad Umar, Taimur Sajjad, and Awais Ahmad. "Data Compatibility to Enhance Sustainable Capabilities for Autonomous Analytics in IoT." Sustainability 9, no. 6 (2017): 877. [58] Ahmad, Awais, Anand Paul, Sadia Din, M. Mazhar Rathore, Gyu Sang Choi, and Gwanggil Jeon. "Multilevel Data Processing Using Parallel Algorithms for Analyzing Big Data in High-Performance Computing." International Journal of Parallel Programming (2017): 1-20. [59] Paul, Anand, Awais Ahmad, M. Mazhar Rathore, and Sohail Jabbar. "Smartbuddy: defining human behaviors using big data analytics in social internet of things." IEEE Wireless Communications 23, no. 5 (2016): 68-74. [60] Chifor, Bogdan-Cosmin, Ion Bica, Victor-Valeriu Patriciu, and Florin Pop. "A security authorization scheme for smart home Internet of Things devices." Future Generation Computer Systems (2017). [61] Knepper, Richard, and Matthew Standish. "Forward observer system for radar data workflows: Big data management in the field." Future Generation Computer Systems (2017).

상기와 같은 필요를 충족하기 위한 본 발명은 ABC 알고리즘을 사용하여 특징을 추출하고, 맵리듀스(MapReduce)를 사용하여 데이터 분석을 수행하는 사회적 사물 인터넷을 기반으로 빅 데이터의 특징 선택 모델링 최적화 장치 및 방법을 제공하는 데 있다.

본 발명에서는 특징 선택을 목표로 SIoT 빅데이터에 중점을 두고 SIoT에 대한 다양한 기술을 제시한다.

특히 SIoT에서 빅데이터를 모델링하고 최적화하는 새로운 패러다임인 스마트 시티, 스마트 홈, 트래픽 관리, 의료 시스템과 같은 다양한 애플리케이션에 IoT를 활용하는 시스템 아키텍처를 제안한다.

시스템 아키텍처는 빅 데이터를 집계하고, 특징 선택 알고리즘을 활용하여 데이터를 하둡 생태계로 전달하는 데 사용된다.

또한, SIoT 기반 빅 데이터 아키텍처는 특징 선택을 기반으로 한다. 따라서, 컨볼루션 (convolution) 방법을 사용하여 빅 데이터에서 특징 선택이 고려된다.

이러한 특징 선택 측면은 최적화 문제에 맞서 있다. 개미 집단 최적화(Ant Colony Optimization, ACO) 기법을 고려하여 최적화된 특징 선택 문제를 해결한다. 궁극적으로 향후 5G 네트워크의 SIoT에 대한 향후 방향 및 도전 과제에 대해 논의한다.

제안된 기법은 4 계층 아키텍처 모델을 기반으로 데이터를 집계하고 오류 또는 중복 데이터를 제거하며 효율적으로 특징을 선택하므로 고성능 컴퓨팅을 제공하는 하둡(Hadoop) 서버를 사용하여 계산 기능을 향상시키는 데 유용하다.

전체 시스템은 향상된 MapReduce를 사용하여 ABC 알고리즘의 기능을 사용하여 특징을 선택하고 빅 데이터 세트를 처리한다.

MapReduce는 하둡 생태계로 다른 데이터를 처리하여 효율성과 실시간 처리를 구현한다. 결과는 Hadoop 생태계에서 ABC를 사용하면 전체 시스템의 효율성을 극적으로 높여 기능을 선택한다는 것을 입증했다.

도 1은 현대의 HPC 클러스터에서 뤼스트르(Lustre) 시스템을 배치하고 얀 맵리듀스(YARN MapReduce)를 작동시키는 시나리오의 예를 보여준다.
도 2는 본 발명의 바람직한 일 실시예에 따른 사회적 사물 인터넷을 기반으로 빅 데이터의 특징 선택 모델링 최적화 장치의 계층도이다.
도 3은 본 발명의 바람직한 일 실시예에 따른 사회적 사물 인터넷을 기반으로 빅 데이터의 특징 선택 모델링 최적화 장치의 구성도이다.
도 4는 도 3의 칼만 필터에서 사용하는 알고리즘을 나타내는 도면이다.
도 5는 도 3의 특징 선택부에서 사용하는 ABC 알고리즘을 나타내는 도면이다.
도 6은 본 발명의 바람직한 일 실시예에 따른 사회적 사물 인터넷을 기반으로 빅 데이터의 특징 선택 모델링 최적화 방법의 흐름도이다.
도 7은 처리 시간 분석을 보여준다.
도 8은 처리량의 컨텍스트에서 시스템의 효율성을 보여주는 도면이다.
도 9는 본 발명의 처리량을 보여주는 도면이다.
도 10은 건강 관리 데이터베이스의 처리 시간을 보여주는 도면이다.
도 11은 본 발명의 처리량을 보여주는 도면이다.

본 발명은 다양한 변환을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 이하에서는 특정 실시예들을 첨부된 도면을 기초로 상세히 설명하고자 한다.

이하의 실시예는 본 명세서에서 기술된 방법, 장치 및/또는 시스템에 대한 포괄적인 이해를 돕기 위해 제공된다. 그러나 이는 예시에 불과하며 본 발명은 이에 제한되지 않는다.

본 발명의 실시예들을 설명함에 있어서, 본 발명과 관련된 공지기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다. 그리고, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다. 상세한 설명에서 사용되는 용어는 단지 본 발명의 실시 예들을 기술하기 위한 것이며, 결코 제한적이어서는 안 된다. 명확하게 달리 사용되지 않는 한, 단수 형태의 표현은 복수 형태의 의미를 포함한다. 본 설명에서, "포함" 또는 "구비"와 같은 표현은 어떤 특성들, 숫자들, 단계들, 동작들, 요소들, 이들의 일부 또는 조합을 가리키기 위한 것이며, 기술된 것 이외에 하나 또는 그 이상의 다른 특성, 숫자, 단계, 동작, 요소, 이들의 일부 또는 조합의 존재 또는 가능성을 배제하도록 해석되어서는 안 된다.

또한, 제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되는 것은 아니며, 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.

I. 배경 및 관련 연구

특징 선택은 특징의 하위 집합 선출을 담당하는 프로세스이다. 이것들은 모든 공간이 횡단되는 전체 검색 기술이 적용될 수 있는 상태 공간으로의 검색으로 분류될 수 있다. 이 접근법은 다수의 특징을 식별하는데 비실용적인 것처럼 보인다. 휴리스틱 접근법이 평가를 위해 각 반복에서 선택할 수 없는 특징을 고려하는 관련 기술 중 일부이다. 반면, 무작위 검색은 검색 공간에서 임의의 부분 집합을 생성한다. 생물에 영감을 얻은 몇 가지 방법이 있으며 유전자 알고리즘은 그러한 기술을 사용한다 [17, 18, 19].

여러 가지 진화 방법이 특징 선택에 사용되며, 집단 지성(Swarm Intelligence) 기술이 특징 선택을 위해 발견될 수 있다. ABC 알고리즘 [26]과 함께 대략적인 접근 방법을 기반으로 한 계획들이 다양한 의료 데이터 세트의 차원을 줄이기 위해 사용된다. 분명히 동일한 알고리즘이 신경망을 사용하는 특징 선택에 사용된다. 위의 두 가지 기술의 주요 단점은 계산 효율성과 비용이다. 데이터 세트가 증가하면 계산 효율이 떨어지고 비용이 증가한다.

하둡(Hadoop) 생태계를 사용하는 기존의 방법을 사용하려면 일반적으로 하둡 맵리듀스(Hadoop MapReduce)의 프레임 워크가 하둡(Hadoop) 분산 파일 서버(Hadoop Distributed File Server,HDFS)를 통해 실행되는데, 이는 더 나은 데이터 지역성을 제공하는 컴퓨터 노드에 여러 개의 로컬 디스크가 있다는 장점이 있다[27].

그러나 HPC 클러스터의 대다수는 전통적인 베어울프(Beowulf) 아키텍처를 따르곤 했다 [30, 31]. 이러한 시스템에서 컴퓨터 노드에는 매우 가벼운 운영 체제가 제공되거나 때로는 로컬 스토리지의 용량이 제한적이다[32]. 동시에 그들은 모두 뤼스트르(Lustre)라고 하는 병렬 파일 시스템에 연결된다. 뤼스트르(Lustre)는 효율적이고 확장 가능한 데이터 저장 기능을 제공한다. 도 1은 현대의 HPC 클러스터에서 뤼스트르(Lustre) 시스템을 배치하고 얀 맵리듀스(YARN MapReduce)를 작동시키는 시나리오의 예를 보여준다.

이 아키텍처의 주요 단점은 대규모 데이터 세트에서 MapReduce의 작동을 금지하기 때문에 로컬 디스크의 용량이 제한된다는 것이다. 이러한 불일치는 HPC 클러스터에서 실행되는 MapReduce의 감쇠로 이어진다. 또한, 최근의 연구는 MapReduce가 HPC 클러스터와 결합할 때 중요한 결과를 제공하지 않음을 확인한다 [10] [31, 32]. 이러한 제한으로 인해 Lustre를 사용하는 스토리지 시스템이 MapReduce를 용이하게 하는 로컬 스토리지 기능을 제공하는지 여부에 대한 의문이 생겨 HPC 클러스터에서 효율적인 결과를 얻을 수 있다.

Lustre를 로컬 스토리지로 사용하여 HPC 클러스터에 설치된 Lustre 시스템의 대부분이 로컬 저장소의 전통적인 MapReduce 기능을 위한 것으로, 이 기능은 읽기 및 쓰기 작업의 두 단계로 완료할 수 있다. 이러한 작업은 읽기 및 쓰기가 Lustre 시스템에서 높은 처리량을 갖기 때문에 고속 데이터 셔플 경로를 제공한다. 그러나 Lustre 내부의 전송에 필요한 시간은 클러스터의 상호 연결, 데이터 로드 및 기타 변형 등과 같은 여러 요인에 따라 달라진다. 이러한 요소를 결합하면 기존 MapReduce 기능[27]에 오버 헤드가 발생한다. 또한 MapReduce의 기능을 향상시키기 위한 최근의 연구도 제안되었다 [33,34,35]. 그러나 이러한 시스템은 로컬 메모리와 관련된 몇 가지 다른 한계에 직면해 있으며 큰 데이터 세트를 처리하고 맵 작업을 분할하며 기능을 줄이며 실시간 시나리오에 저장한다.

MapReduce 프로그래밍 패러다임은 실제 작업의 광범위한 다양성을 책임지는 많은 데이터 세트를 생산한다[36]. MapReduce는 입력 데이터를 병렬 방식으로 완전히 처리하는 작은 독립적인 청크로 분할한다.

MapReduce 아키텍처는 맵 출력을 분류하고 줄이기 작업으로 보낸다. 태스크의 입력 및 출력은 파일 시스템에 보관된다. MapReduce는 병렬 프로그래밍 모델로, 단순성, 로드 밸런싱 및 내결함성과 같은 세 가지 주요 작업을 동시에 수행한다. 일반적으로 YARN MapReduce 모델에서 영감을 얻은 Google File System (GFS)은 대용량 데이터베이스 애플리케이션[37]에 필요한 데이터 저장의 신뢰성과 효율성을 제공한다.

기능 언어에 의해 동기 부여된 MapReduce 모델은 기능적 언어에는 지도가 있으며 기능적 언어에서는 기본 요소가 줄어든다. 프레임 워크 요구 사항에 따라 MapReduce 플랫폼에서 많은 실행이 가능하다.

최근에는 문헌 연구에 거의 집행되지 않았다. 네트워크 머신 클러스터링[36], 공유 메모리 멀티 코어 시스템 기술 [38, 39], 그래픽 프로세서와 비대칭 멀티 코어 프로세서 접근 [40] 등이 있다.

Google은 스위치 이더넷을 통해 조인된 수많은 컴퓨터 클러스터를 이용하는 가장 유명한 구현 중 하나를 시작했다. Google MapReduce 체계는 광범위한 분산 응용 프로그램을 위한 기계 클러스터 비용을 줄인다. MapReduce 접근법은 설치 프로세스를보다 간단하고 쉽게 만든다. 이것은 실시간 실행을 기반으로 하며 노드의 사전 계획 실행 스케줄링을 정의하지 않는다[41]. MapReduce 패러다임은 분산 노드에서 병렬 실행을 수행할 수 있다. MapReduce 모델의 핵심 목적은 저비용 클러스터 시스템은 물론 거대한 데이터 구현을 명확히 하는 것이다. 또한 장애 허용 및 클러스터별 로드 밸런싱을 통해 운영자가 이 작업을 더 간단하고 쉽게 수행할 수 있다. 맵 및 리듀스는 MapReduce 모델의 두 가지 기본 항목이다. Google은 토착 MapReduce의 소유자이므로 공개용으로 사용하지 않는다[41]. MapReduce의 개념은 단순히 분산 컴퓨팅 시스템을 기본으로 한다. 원래 MapReduce 구조는 필수적이고 효율적인 성능을 얻기 위해 매우 중요하다[42]. Google의 MapReduce 구조는 원래 데이터 위치 및 액세스 가능성을 식별하는 파일 시스템을 분산시켰다 [36].

그 외에도 Particle Swarm Optimization 기술은 대형 데이터 세트의 특징 선택 및 처리에 사용되는 또 다른 해결 방법이다. 이 기법은 필터 방법 [17] 또는 래퍼 방법 [43-42]으로서 특징 선택을 위해 제안된다. 래퍼 방법은 OPF 분류자를 가진 BAT 알고리즘을 기반으로 제안된다. 위의 기술을 사용하면 시스템의 복잡성과 효율성이 증가한다는 문제가 줄어든다. 또한 대형 데이터 세트에서 특징을 추출하는 데 더 많은 시간이 소요된다. 때로는 노이즈 알고리즘 제거가 원래 데이터 세트에 영향을 미치고 부적절한 데이터가 특징 선택에 고려되는 경우가 있다. 또한, 관심있는 독자는 [56-61]에서 SIoT 및 관련 기술과 관련된 기사를 찾을 수 있다. 따라서 컨볼루션 방법 및 전통적인 하둡 기술의 관련 기술을 기반으로 시스템 아키텍처가 필요하다. 엄청난 양의 데이터를 위해 본 발명에서는 Hadoop 생태계에서 ACO 알고리즘을 기반으로 하는 기법을 제안한다. ACO 알고리즘은 최상의 최적의 기능을 효율적으로 선택하는 반면 Hadoop 생태계 시스템은 ACO와 결합하여 최상의 결과를 효율적으로 생성한다.

II. 제안된 방안

본 발명은 Hadoop 생태계에 기반한 ABC 알고리즘을 지원하는 IV-Tier 계층 구조로 구성된다.

A. IV 계층 계층화된 아키텍처

빅 데이터에서 특징을 추출하는 다단계 액티브 저장 및 처리를 목표로 한다. 시스템 아키텍처는 4 개의 계층으로 구성된다. 각 레이어는 다양한 기능으로 지원되므로 읽기 및 쓰기 작업을 효율적으로 수행 할 수 있다. 먼저 특징 추출을 위한 완벽한 시스템 디자인을 지원하는 계층화된 아키텍처를 소개한다.

빅 데이터를 분석해야하는 필요성에 따라 도 2와 같은 IV-Tier 아키텍처 모델을 제안한다.

설계된 모델은 서로 다른 객체가 공유 매체를 사용하여 상호 작용하도록 지원한다. 제안된 아키텍처 모델은 차등 적용으로 생성된 다양한 데이터를 동일한 도메인, 즉 사물 인터넷에서 통합하여 사물의 인터넷이 연구 커뮤니티를 지원하여 보안, 의료, 노약자 및 어린이, 교통 시스템, 기계 대 기계 네트워크, 무선 센서 네트워크, 차량 네트워크 등의 경우 국내 사용자를 도울 수 있는 일반화된 프레임 워크 및 아키텍처를 제공한다.

도 2에서 제안된 IV-Tier 아키텍처 모델은 4 개의 레이어로 구성되어 있다.

데이터 수집 계층(10)(계층 1) : 데이터 수집 계층(10)은 다양한 개체를 통해 데이터 생성을 처리한 다음 해당 데이터를 수집하고 집계한다. 데이터를 생성하는 데는 다른 수의 객체가 필요하기 때문이다. 따라서 다양한 형식, 다른 출처 및 주기성으로 엄청난 수의 이기종 데이터가 생성된다. 또한 다양한 데이터에는 보안, 개인 정보 보호 및 품질 요구 사항이 있다. 또한 센서의 데이터에서 메타 데이터는 항상 실제 측정값보다 크다. 따라서 초기 등록 및 필터링 기술이 이 레이어에 적용된다.이 레이어는 불필요한 메타 데이터와 중복 데이터를 필터링하여 버린다.

통신 계층(20)(계층 2): 통신 계층은 다양한 장치에 대한 종단 간 연결을 제공합니다. 또한, 이 시점에서 데이터가 서로 다른 장치에서 생성되고 적절한 형식으로 정렬된다.

특징 선택 및 처리 계층(30)(계층 3) : 특징 선택 및 처리 계층(30)은 특징 선택 및 데이터 처리를 처리하는 전체 시스템 아키텍처의 기본 계층이다. 실시간 데이터 스트림과 오프라인 데이터 분석이 필요하기 때문에 따라서 처리 서버와 결합하여 실시간 구현을 제공하는 서드 파티(third party) 실시간 도구가 필요하다.

실시간 구현을 제공하기 위해 Strom, Spark, VoltDb 및 Hupa를 사용할 수 있다. 예를 들어, 데이터 분석의 경우 매우 구체적이기 때문에 구현 부분은 MapReduce를 사용하여 얻을 수 있지만 반면에 특징 추출의 경우 ABC 알고리즘을 통합하면 큰 데이터 세트의 특징을 더 잘 획득하는 데 도움이 된다. 이 레이어에서는 MapReduce와 HDFS의 동일한 구조가 사용됩니다. 이 시스템을 통해 기록 정보를 저장하기 위해 데이터베이스(메모리 내 또는 오프라인)를 관리하기 위한 HIVE, HBASE 및 SQL를 사용한다.

서비스 계층(40)(계층 4) : 서비스 계층(40)은 객체 및 사람에 대한 서드 파티(third party) 인터페이스를 통합하는 책임이 있는 최하위 계층이다. 이 계층은 자발적으로 단일 사이트로 사용되거나 다른 위치와 병합되거나 클라우드 인터페이스에 배포될 수 있다. 다른 여러 기능이 있다. 예를 들어, 고유한 전역 ID 관리는 응용 프로그램 계층의 핵심 요소로, 유니버스 전체에서 개체 식별을 처리한다. 공급 업체 제어는 다른 개체가 정식으로 수행한 활동의 정의를 다루는 또 다른 기능이다. 제안된 아키텍처 계층에는 인간과 상호 작용할 인텔리젠트 파워가 필요한 다양한 객체가 포함된다. 이러한 이유로, 효율적이고 효과적으로 인간과 상호 작용할 수 있는 스마트 알고리즘이 애플리케이션 레벨에서 필요하다. 요청 생성자, 세션 시작, 통신 규칙 설정, 이기종 객체와의 상호 작용 및 세션 종료와 같은 다양한 기능이 이러한 기능에 의해 수행될 수 있다.

B. HABC : Hadoop 기반의 SIoT를 위한 ABC 알고리즘

제안된 시스템 구조의 아키텍처를 정교화하기 위해 서비스 시나리오를 도 3에 나타내었다. 도 3에서 SIoT 개발부(140)는 스마트 커뮤니티 개발 부서, 스마트 교통 제어 부서, 스마트 기상 예측 부서, 스마트 병원 및 보건 부서를 포함하며, 위의 구성 요소는 SIoT 네트워크 내의 이기종 데이터 수집에 대한 책임이 있다.

따라서 제안된 프레임 워크의 최하위 수준의 역할을 한다. 이러한 구성 요소는 GSM, Wi-Fi, 3G 및 4G와 같은 이기종 액세스 기술을 통해 스마트 의사 결정 및 제어 시스템과 더욱 연결된다. 자율적인 의사 결정은 제안된 계획의 신뢰성과 실행 가능성을 향상시킨다. 수집된 데이터를 수신하면 지능형 의사 결정은 스마트 시티 프레임 워크의 중간 수준에 위치한 스마트 의사 결정 및 제어 시스템에 의해 수행된다. 또한, 중간 수준은 만들어진 결정에 부합하는 사건을 규제한다. 이벤트 생성은 자율적인 결정을 받으면 최상위 수준(응용 프로그램 수준)에서 수행된다.

현실적인 SIoT 환경은 엄청난 양의 데이터뿐만 아니라 복잡하고 포괄적인 계산 및 다중 애플리케이션 도메인을 포함한다. SIoT 시스템 구현의 실현은 모든 형태의 데이터 그것들의 필수성 때문에 계산이 필요하다[46]. 스마트 환경 개념은 주거 자원을 최적화하고, 교통 혼잡을 줄이며, 효율적인 의료 서비스를 제공하고, 수자원 관리를 수행하는 것을 목표로 한다. 앞선 목적을 달성하기 위해서는 일상적인 운영 활동과 관련된 데이터를 수집하는 것이 중요하다. 그러나 사람이나 다른 연결된 장치로 대량의 데이터가 만들어지기 때문에 데이터 수집은 지루하고 어려워졌다. 더 나아가서는 현실 세계의 관심이 감지되고 확인된다. 따라서 디지털 데이터로 변환하면 다양한 메커니즘이 사용된다. 저비용 및 에너지 효율적인 센서(100)는 이기종 데이터를 수집하는 유망한 메커니즘이 되었다. 도시는 연결 장치의 수의 확장과 함께 더 스마트해진다[47]. 따라서 제안된 스마트 도시 아키텍처의 실현은 도시 외곽 지역에 이종 센서(100)를 광범위하게 배치한다. 이 센서(100)는 주변 환경의 실시간 데이터 수집에 대한 책임이 있다. 배치된 상황은 수집된 데이터의 타입, 즉 차량 운송 시스템, 스마트 홈, 스마트 시티, 건강 관리 시스템 등을 포함한다.

스마트 홈의 주요 관심사는 주거용 건물의 에너지 이용을 향상시키는 것이다. 가전 제품에는 실시간 에너지 소비를 결정한 후 나중에 중간층으로 전달하는 센서가 장착되어 있다.

데이터 처리 계층은 특정 가정의 에너지 소비에 대한 임계값을 정의한다. 데이터 필터링 프로세스는 데이터 집계 기술에 의해 수행되어 임계값을 초과하는 값을 결정하므로 추가 처리가 최적화된다. 결과적으로 중간 단계에서 내려진 결정은 특정 가정의 에너지 소비를 각 거주자에게 알리는 적용 수준의 스마트한 지역 사회 개발로 진행된다. 그 사이에, 그것은 주거 건물의 에너지 사용법 주 문화를 강화한다.

차량 운송 시스템의 주요 목적은 도시의 교통 정체를 줄이는 것이다. 데이터 처리 레벨은 명시된 두 지점 사이를 이동하는 데 걸리는 평균 시간을 정의한다. 도로변에 이식된 센서는 두 지점 사이의 차량 진입 및 이탈을 수집한다. 내장된 집계 기법은 정의된 평균 시간을 초과하는 명시된 위치의 현재 이동 시간을 분석하여 혼잡이 있는 도로를 결정한다. 그런 다음 자발적으로 대안 경로를 생성하고 응용 프로그램 수준을 통해 여행자에게 알린다. 기상 부서의 최대 목표는 기상 조건 및 기타 환경 변수를 확인하는 것이다. 예를 들어, 특정 위치에 이식된 센서는 도시의 일산화탄소 (CO) 농도를 결정한다. 이 센서는 수집된 데이터를 중간 단계로 전달하여 의사 결정 및 이벤트 생성을 용이하게 하기 위해 필터링 및 처리한다.

제안된 아키텍처는 다중 통신 기술을 이용한다. 센서(100)는 ZigBee, Bluetooth, Wi-Fi, 데이터 및 셀룰러 네트워크를 통해 감지된 데이터를 데이터 관리 및 처리 수준으로 전송한다.

데이터 관리 및 처리 수준은 데이터 수집 및 응용 프로그램 수준 간의 조정자 역할을 한다.

소중한 데이터 필터링, 분석, 처리, 저장, 의사 결정 및 이벤트 생성과 같은 중요한 프로세스가 이 계층에서 수행되므로, 제안된 프레임 워크의 두뇌로 간주된다. 위의 작업을 수행하려면 여러 가지 양식이 이 레이어에 포함된다. 처음에는 엄청난 양의 감지된 데이터가 집계 메커니즘에 의해 필터링되어 귀중한 실시간 및 오프라인 데이터를 얻는다. MapReduce 패러다임은 데이터 분석에 사용되며, 조작 및 저장은 하둡 분산 파일 시스템 (HDFS), HBASE 및 HIVE에 의해 수행된다. 집계 기술은 데이터 필터링을 적용하여 데이터 처리 효율성을 향상시킨다. 칼만 필터(Kalman Filter, KF)(110)는 제안된 틀[48]에서 데이터 필터링을 수행하는 데 사용된다. 칼만 필터(110)는 감지된 데이터에서 노이즈를 제거하는 최적의 추정기이다[49-50].

도 4의 알고리즘 I은 센서 데이터 필터링을 위한 여러 단계에서 칼만 필터(110)의 작동 메커니즘을 보여준다.

처음에는 현재 상태 f_k가 이전 상태 f_k _-1에서 진화되었다고 가정한다. 현재 상태를 h_k로 표시한다.

은 시간 k에서 f의 추정을 나타내는 반면, 추정 정확도는 G_k _|k-1로 표시된다. 간접적인 데이터와 불확실한 데이터로부터 귀중한 데이터를 추론한다. 칼만 필터(110)는 재귀적으로 작동하기 때문에 도착 데이터를 처리한다. 따라서 스마트 시티의 실시간 운영을 보장한다. 또한 최소 메모리 소비로 즉각적인 처리가 가능하다. 칼만 필터(110)가 데이터에서 노이즈를 제거함에 따라 데이터 처리 수준은 더 큰 실시간 데이터 세트의 최상의 추정치를 추론할 수 있는 기능을 활용한다. 그 후, 칼만 필터(110)는 미리 정의된 임계값에 대응하는 귀중한 데이터를 결정하도록 조작된다. 예를 들어, 도로 및 도로의 길가 센서는 엄청난 양의 도시 교통 정보를 생성한다. 그럼에도 불구하고 거리에 상관없이 거리 데이터를 처리하는 것은 불필요한 작업이다. 그런 다음 칼만 필터(110)는 사전 정의된 임계값에 따라 가장 잘 맞는 센싱 데이터를 결정한다. 궁극적으로, 그것은 쓸데없는 데이터의 양을 줄여 신속한 분석을 가능하게 한다.

제안된 기법은 Hadoop 프레임 워크에 데이터를 저장하고 처리한다. 따라서 데이터 분석부(130)가 필터링된 데이터를 분석하기 위한 메커니즘으로 MapReduce를 사용한다. MapReduce는 두 단계로 작동한다.

첫 번째는 필터링된 데이터 세트가 다른 데이터 세트로 변환되는 매핑 프로세스이다. 다음은 매핑 프로세스에서 생성된 데이터와 양이 줄어든 결과값을 결합하는 축소 프로세스이다.

데이터 저장 및 처리는 스마트 도시의 실현에 중요한 역할을 한다. 도 3에 도시된 바와 같이, 제안 된 프레임 워크는 상기 요구를 용이하게 하기 위해 HDFS, HBASE, HIVE 등의 여러 기술을 이용한다. 제안 된 스마트 도시의 스토리지 수요는 Hadoop의 기본 스토리지인 HDFS에 의해 촉진된다. HDFS의 저장소가 배포되었으므로 그것은 더 큰 데이터 클러스터의 더 작은 부분 집합에서 MapReduce 실행을 보강한다. 또한 HDFS는 빅 데이터 처리의 확장성 요구를 지원한다. 자율적 의사 결정을 선호하려면 전체 클러스터에 대한 실시간 읽기 / 쓰기 기능이 필수적이다. 따라서 HBASE는 실시간 조회, 메모리 캐싱 및 서버 측 프로그래밍을 제공하므로 Hadoop의 처리 속도를 향상시키는 데 사용된다. 또한 유용성과 내결함성을 향상시킨다.

HIVE는 Hadoop 클러스터에 있는 많은 양의 데이터에 대해 질의 및 관리 기능을 제공한다. SQL은 HIVE에서 쿼리하는 데 사용할 수 없으므로 HiveQL을 사용하여 Hadoop 클러스터의 데이터를 쿼리했다. 마지막으로 파생된 지능형 의사 결정이 프레임 워크의 응용 프로그램 수준으로 전송된다.

한편, 특징 선택부(120)는 SIoT 네트워크에 의해 생성된 대용량 데이터 세트의 특징 선택에 ABC 알고리즘을 사용하며, 이를 여기에서는 Hadoop 기반의 SIoT를 위한 ABC 알고리즘(HABC)라고 부른다.

ABC 알고리즘은 식품 공급원, 종업원 벌, 실업자 벌[51]의 세 단계로 구성된다. 이들은 다음과 같이 설명된다.

식품 공급원은 주어진 문제의 해를 나타낸다.

종업원 벌은 여러 가지 식품 공급원을 찾아내는 데 사용된다. 또한 정보의 품질을 저장하고 이 정보를 벌집의 다른 벌과 공유하는 데 사용된다.

마지막으로, 실업자 벌은 구경꾼과 스카우트 꿀벌의 두 가지 유형으로 분류된다. 구경꾼 꿀벌은 보다 나은 품질의 식품 공급원을 찾는 데 사용되는 종업원 벌로부터 공유된 정보를 받는다. 스카우트 꿀벌은 종업원 벌이 식품 공급원이 고갈 될 때 스카우트 꿀벌로 변했다. 그들은 새로운 식량 공급원을 찾으려고 노력하는 벌이다. ABC의 의사 코드는 알고리즘 II [52]에 주어져 있다.

다양한 문제에 대한 해답이 벡터에 의해 실제 값과 함께 표현되는 최적화 알고리즘의 반대인 경우, 특징 선택 제약 조건에 대한 참가자 솔루션은 비트 벡터(bit vector)로 표시된다. 주어진 HABC 시나리오에서, 각 식품 공급원은 비트 벡터(크기 N, N은 전체 특징 수)와 연결된다. 벡터의 위치는 평가해야 하는 전체 특징 수와 일치한다. 이 경우 합의된 특징이 1인 경우 이 조건은 특징이 평가된 하위 집합의 일부임을 나타낸다. 그러나 합의된 특징이 0인 경우 이 조건은 특징이 평가된 하위 집합의 일부가 아니라는 것을 나타낸다. 또한, 식품 공급원은 품질(즉, 적합도)을 저장한다. 이것은 비트 벡터에 의해 지정된 특징 하위 집합을 사용하는 분류기의 정확도에 의해 주어진다. 특징 선택을 위해 제안된 HABC의 단계는 다음과 같다.

(1) Hadoop 처리 시스템에서 칼만 필터를 사용하여 데이터 세트에서 노이즈가 제거되면 특징의 최고수와 최저수를 찾는다. 이러한 이유로, 제안된 시스템은 순방향 검색 전략[7]을 이용한다. 이 기법에는 N 개의 특징을 포함하는 총 N 개의 식품 공급원이 있다. 이것은 크기 N의 비트 벡터를 할당하는 동일한 기술을 따른다 (각각의 하위 집합은 유일한 1 개의 특징을 포함할 것이다).

(2) 이후 각 식량 공급원의 특징 하위 집합이 분류기에 할당되며, 분류기의 정확도는 적합성 값으로 사용된다(정확도는 식량 공급원의 적합도에 저장됨).

(3) 이제 분류기가 지정되었으므로 이제는 선택한 식품 공급원에 대한 인접 지역(인접 식품 공급원)을 결정해야 한다. 종업원 벌이 각 식품 공급원을 방문하고 수정 비율(MR, modification rate) 파라미터를 이용하여 인접 지역을 결정한다. 특징을 추출하기 위해, 인접 지역은 초기 식량 공급원의 비트 벡터로부터 생성된다. HABC에서 인접 지역은 MR [7]을 사용하여 수학식 2를 사용하여 수행된다. 비트 벡터의 각 위치에 대해 임의의 균일한 숫자R_i(범위 : 0 및 1)가 생성된다. 이 값이 수정 비율 파라미터 MR보다 작으면, 그 특징은 부분 집합에 포함된다. 명백하게, 벡터는 수학식 5를 사용하여 수정되지 않는다. 따라서 하위 집합의 특징을 분류기에게 제출하고 정확도 적합성을 사용한다.

(수학식 5)

(4) 새로 발견된 식품 공급원의 품질이 탐색 식품 공급원의 품질보다 우수하다면, 인접 식품 공급원은 최신 식품 공급원으로 간주된다. 이 정보는 다른 벌들과 공유된다. HABC에서는 데이터 크기가 기하 급수적으로 증가하므로 이 프로세스는 Hadoop에서 최상의 특징을 선택할 때까지 계속된다.

(5) 구경꾼의 꿀벌은 종업원의 꿀벌이 방문하는 식품 공급원의 적합성/정확성에 대한 정보를 수집하는 데 사용된다. 그들의 임무는 더 나은 확률 탐색 또는 더 나은 적합성/정확성의 두 가지 매개 변수를 기반으로 식량 공급원을 선택하는 것이다. 따라서 최상의 적합성 값을 저장해야 한다.

(6) 마지막으로, 무제한 식품 공급원을 위해 스카우트 꿀벌(scout bee)이 생성되며, 여기서 N 개의 특징이 무작위로 생성되어 분류기에 제출되는 새로운 식품 공급원이 생성된다. 따라서 새로 발견된 식품 공급원은 스카우트 꿀벌에게 배정되고 종업원 꿀벌은 다시 일을 수행한다.

도 6은 본 발명의 바람직한 일 실시예에 따른 사회적 사물 인터넷을 기반으로 빅 데이터의 특징 선택 모델링 최적화 방법의 흐름도이다.

도 6을 참조하면, 본 발명의 바람직한 일 실시예에 따른 사회적 사물 인터넷을 기반으로 빅 데이터의 특징 선택 모델링 최적화 방법은 다수의 센서를 사용하여 주변 환경의 실시간 데이터 수집하는 단계(S100); 칼만 필터를 사용하여 상기 다수의 센서에서 수집된 실시간 데이터에 대한 필터링을 수행하는 단계(S110); 특징 선택부가 상기 칼만 필터에서 필터링된 데이터에서 ABC 최적화 기법을 사용하여 특징을 선택하는 단계(S120); 및 데이터 분석부가 상기 특징 선택부에서 선택된 특징들을 맵리듀스(MapReduce)를 사용하여 분석처리하는 단계(S130)를 포함하며, 그 상세한 과정은 위에서 설명된 바와 같다.

Ⅲ. 실험 결과

제안된 아키텍처는 ACO(Ant Colony Optimization), PSO(Particle Swarm Optimization) 및 GA(Genetic Algorithms)와 같은 잘 알려진 득실 거리 최적화 접근법에 대해 정확성, 특징 수 등의 측면에서 테스트되었다.

또한 ABC 메커니즘에서 사용하는 데이터 및 매개 변수의 분류는 다음 섹션에서 설명한다.

또한, 분류 성능은 표준 정확도 메트릭을 기반으로 분석된다. 각 접근 방식으로 얻은 기능은 동일한 데이터 세트에서 테스트를 10 번 반복하여 테스트한다. 마지막으로, 얻어진 결과는 모든 10 개의 실험의 평균으로 취해진다.

A.데이터 집합

제안된 최적화 및 특징 선택은 UCI 기계 학습 저장소[10]의 10 개 데이터 집합에서 테스트된다. 각 데이터 세트는 다중 클러스터 Hadoop 시스템을 사용하여 각 학습 알고리즘에 대해 테스트된다. 분석에 사용된 각 데이터 세트에 대한 설명은 표 1에 나와 있다.

(표 1)

속성(특징), 인스턴스 및 클래스 수. 각 데이터 세트는 주로 특징 수에 따라 분석된다. 즉, 1) 특징을 계산하고 다양한 임계값에 대한 결정 메커니즘을 적용하고 2) 데이터를 테스트하고 관심 있는 특징을 추출하는 두 가지 주요 관심사가 있기 때문이다. 더욱이, 데이터 세트는 다양한 소스의 높은 신뢰성과 신뢰성을 갖춘 UCT 기계 학습 저장소에서 얻는다[53]. 그들은 저장소를 매우 조심스럽게 관리하고 있으며, 지금까지 다양한 출처와 분야의 351 개 데이터 세트를 보유하고 있다. 그러나 스마트 홈, 도시 등과 같은 SIoT 기반 환경에서 아스키, 텍스트 등과 같은 다양한 형식의 데이터 세트가 여전히 필요하다. 하둡은 텍스트 및 숫자 형식으로 데이터를 분석했으므로 제시해야한다. Hadoop을 사용하여 데이터를 쉽게 테스트할 수 있었다.

B. 실험 환경

모든 실험은 Core i5 3.4 GHz 프로세서와 8GB RAM이 있는 우분투 14.04 LTS에 설치된 다중 클러스터 Hadoop에서 수행된다. 제안된 특징 선택 알고리즘은 Java 프로그래밍 언어로 구현된다. 또한 데이터 분류는 WEKA[54] 및 LibSVM [55] 라이브러리와 함께 Java로 수행된다.

C. 분류 성능

ABC 메커니즘에 기반한 제안된 특징 선택의 성능 평가와 정확도는 K 개의 다른 파티션의 파티셔닝 메커니즘을 이용한 10 배 교차 검증을 통해 얻어진다. 집합 중 하나는 주 파티션으로 사용되고 나머지 K-1은 학습 집합으로 사용된다. 그러나이 과정은 10 번 반복되며 집합 중 하나가 기본 집합이 되고 나머지 집합이 학습 집합이 될 때마다 결과는 각 테스트 후에 누적되고 최종 결과는 모든 10 개의 파티션의 평균을 취함으로써 얻어진다. 또한, 일부 테스트에서 설정된 특징은 Z- 점수 매커니즘 [55]을 사용하여 정규화되며, 이는 각 특징 세트의 평균값을 뺀 후 세트의 표준 편차로 나눈다. 각 알고리즘의 나머지 매개 변수는 표 2에 나와 있다.

(표 2)

이 매개 변수는 모두 일부 표준 값으로 설정되므로 각 경우의 성능에 영향을 미치지 않는다.

D. 결과에 대한 토론

UCI 데이터 세트는 다양한 기능과 클래스를 제공한다. 이러한 다양한 기능과 클래스는 특징 선택 알고리즘의 성능과 정확성에 광범위하게 영향을 미친다. 선택한 특징 수와 전체 특징 세트의 정확도 컨텍스트에서의 성능 분석은 표 2에 나와 있다. 표 3에서 볼 수 있듯이 선택한 특징은 다른 원래 특징 목록보다 훨씬 작다.

(표 3)

그러나 시스템의 정확성은 모든 데이터의 원래 데이터 특징보다 우수하다. 다른 데이터 세트와 비교하여, 제안된 특징 선택은 정확도의 맥락에서 우수하다. 대기질, 3D 네트워크 트래픽 및 구름과 같은 일부 데이터 세트에서는 정확도가 최악인 반면 GPS 궤도 및 아랍어 감정 분석을 위한 Twitter 데이터 세트에서는 정확도가 다른 방법과 거의 동일하다. 그러나, 제안된 기법의 정확도는 모든 경우에 상당히 좋다.

보다 현실적인 방법으로 ABC 최적화 알고리즘을 기반으로 제안된 시스템을 도 7과 같이 단일 노드 Hadoop 및 Java 쿼리 기반 시스템과 비교한다. 단일 노드 Hadoop에서 최적화 시스템 없이 데이터를 처리할 때마다 테스트되고, 반면에 Java 쿼리 기반 시스템은 다른 모든 집단 접근법과 함께 테스트된다. 마찬가지로 필터 시스템을 사용하여 Hadoop 생태계로 전달하기 전에 데이터에서 노이즈를 제거한다.

점진적으로 데이터 크기를 늘리고 제안된 시스템, 다른 집단 접근이 없는 Hadoop 기반 시스템 및 다른 집단 접근 방식의 Java 쿼리 시스템에 미치는 영향을 관찰한다. 이러한 시스템의 구현은 빅 데이터를 실시간으로 처리하는 데 도움이된다. 이로써 실시간 이벤트 생성으로 의사 결정 시스템이 향상된다. 제안된 시스템은 실시간으로 데이터를 효율적으로 처리하고 시민이 실시간으로 결정을 내리는 데 도움이 되는 결과를 생성한다. 예를 들어, 실시간으로 환경 데이터를 처리할 때 시민들은 오염이 심한 곳으로 가지 않도록 한다. 처음에는 단일 Hadoop 노드와 Java 쿼리 기반 시스템을 사용하여 도 8과 비슷한 속도로 데이터를 처리했다. 그러나 데이터 세트 크기가 커짐에 따라 처리 속도가 크게 저하되었다. 그러나 제안된 기법의 효율은 단일 노드 Hadoop 및 Java 질의 기반 시스템에 비해 상당히 높다.

또한, 데이터 세트의 크기를 증가시킴으로써 제안된 시스템의 처리량을 평가한다. 도 9에서 보듯이 처리량은 데이터 세트의 크기에 직접 비례한다. 데이터 세트의 크기가 증가하면 처리량도 증가하므로 시스템 충분성이 증가한다. 다양한 다른 데이터 세트를 테스트하고 검증하기 위해 도 10과 11에서와 같이 의료 데이터 세트에서 처리 시간을 양호한 처리량으로 측정했다. 도면에서 제안된 구성표는 GB의 데이터를 처리하는 데 몇 초가 걸린다. 보다 구체적으로, 병렬 프로세서의 단일 노드에서 2GB 데이터를 처리하는 데 70 초가 소요된다. 또한 제안된 시스템의 특성으로 인해 처리량이 최대화되는 데이터 세트의 크기를 늘리는 경우 따라서 시스템의 병렬 처리기를 사용하는 제안된 시스템은 일반적인 단순 처리 도구보다 매우 효율적인 결과를 제공한다는 결론을 얻었다.

IV. 결론

결론적으로, 과학적 발견 및 최신 혁신은 대용량 집계 데이터 및 시뮬레이션 된 데이터의 이점을 크게 누릴 수 있다. 또한 데이터 과학자들은 통찰력을 얻고 데이터 뒤에 있는 특이점을 보다 효율적으로 파악할 수 있다. 그러나 설계된 특징 선택 알고리즘이 효과적이고 효율적인 결과를 제공할 수 있다는 가정을 기반으로 한다. 이전의 연구에서, SIoT를 보다 효과적으로 만들기 위해 다양한 특징이 선택되었으므로 많은 양의 결과가 제공된다.

그러나 여전히 이전 시스템에는 특징이 부족하다. 따라서 본 발명에서는 Big Data Integration에서의 특징 선택을 위한 시스템 아키텍처에 대해 제안한다.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서 본 발명에 기재된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상이 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의해서 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

10 : 데이터 수집 계층 20 : 통신 계층
30 : 특징 선택 및 처리 계층 40 : 서비스 계층
100 : 센서 110 : 칼만 필터
120 : 특징 선택부 130 : 데이터 분석부
140 : SIoT 개발부

Claims

삭제
삭제
삭제
삭제
주변 환경의 실시간 데이터 수집하는 다수의 센서;
상기 다수의 센서에서 수집된 실시간 데이터에서 ABC 최적화 기법을 사용하여 특징을 선택하는 특징 선택부; 및
상기 특징 선택부에서 선택된 특징들을 맵리듀스(MapReduce)를 사용하여 분석처리하는 데이터 분석부를 포함하며,
상기 다수의 센서는 차량 운송 시스템, 스마트 홈, 스마트 시티 및 건강 관리 시스템에 산재해 있고,
상기 특징 선택부에서 특징 선택 제약 조건에 대한 참가자 솔루션은 비트 벡터(bit vector)로 표시되며, ABC 최적화 기법에서 각 식량 공급원은 비트 벡터(크기 N, N은 전체 특징 수)와 연결되고, 벡터의 위치는 평가해야 하는 전체 특징 수와 일치하는 사회적 사물 인터넷을 기반으로 빅 데이터의 특징 선택 모델링 최적화 장치.
삭제
청구항 5항에 있어서,
상기 다수의 센서에서 수집된 실시간 데이터에 대한 필터링을 수행하는 칼만 필터를 더 포함하는 사회적 사물 인터넷을 기반으로 빅 데이터의 특징 선택 모델링 최적화 장치.
삭제
청구항 5항에 있어서,
상기 특징 선택부에서 합의된 특징이 1인 경우 이 조건은 특징이 평가된 하위 집합의 일부임을 나타내며, 합의된 특징이 0인 경우 이 조건은 특징이 평가된 하위 집합의 일부가 아니라는 것을 나타내는 사회적 사물 인터넷을 기반으로 빅 데이터의 특징 선택 모델링 최적화 장치.
청구항 9항에 있어서,
상기 특징 선택부는 비트 벡터에 의해 지정된 특징 하위 집합을 사용하는 분류기의 정확도에 의해 식량 공급원의 적합성을 저장하는 사회적 사물 인터넷을 기반으로 빅 데이터의 특징 선택 모델링 최적화 장치.
청구항 7항에 있어서,
상기 데이터 분석부의 맵리듀스 기법은 상기 칼만 필터에서 필터링된 데이터 세트를 다른 데이터 세트로 변환하는 매핑 프로세스와, 매핑 프로세스에서 생성된 데이터와 양이 줄어든 결과값을 결합하는 축소 프로세스를 포함하는 빅 데이터의 특징 선택 모델링 최적화 장치.
삭제
삭제
삭제
삭제
삭제
삭제
삭제