KR102411743B1

KR102411743B1 - 상업시설 영업시간 예측모델 생성 장치 및 방법

Info

Publication number: KR102411743B1
Application number: KR1020200123712A
Authority: KR
Inventors: 최문석; 김충효; 장민해
Original assignee: 한국전력공사
Priority date: 2020-09-24
Filing date: 2020-09-24
Publication date: 2022-06-24
Also published as: KR20220041273A

Abstract

상업시설 영업시간 예측모델 생성 장치 및 방법이 개시된다. 본 발명의 일 측면에 따른 상업시설 영업시간 예측모델 생성 장치는, 상업시설의 전력사용량 데이터를 수집하는 전력사용정보 수집부, 상기 상업시설의 영업정보에 대한 사용자 피드백 데이터를 수집하는 피드백 수집부, 기 설정된 일정기간동안 누적된 사용자 피드백 데이터를 이용하여 상기 상업시설의 영업여부를 의미하는 레이블 데이터를 생성하는 레이블 데이터 생성부, 및 상기 레이블 데이터와 전력사용량 데이터를 이용하여 상업시설 영업시간 예측모델을 생성하는 학습부를 포함한다.

Description

상업시설 영업시간 예측모델 생성 장치 및 방법{APPARATUS AND METHOD FOR PREDICTING OPERATING HOURS OF A NEIGHBORHOOD LIVING FACILITY}

본 발명은 상업시설 영업시간 예측모델 생성 장치 및 방법에 관한 것으로서, 보다 상세하게는 상업시설 영업예측 서비스를 이용하는 사용자의 피드백 데이터를 이용하여 상업시설 영업시간 예측모델의 학습에 사용되는 레이블 데이터를 자동으로 생성할 수 있도록 하는 상업시설 영업시간 예측모델 생성 장치 및 방법에 관한 것이다.

일반적으로 근린생활시설(상업시설)이란 주택가와 인접해 주민들의 생활에 편의를 줄 수 있는 시설물로, 그 범위는 건축법 시행령에서 규정하고 있다. 예컨대, 슈퍼마켓, 대중음식점, 미용실, 세탁소, 한의원, 헬스클럽, 금융업소, 당구장, 독서실 등을 포함할 수 있다.

포털 사이트에서 근린생활시설에 대한 영업현황 정보(실시간 영업여부, 향후 개폐점 시각 등)를 제공하고 있다. 그러나 이 정보는 휴가, 임시 휴일 등 다양한 변수를 반영하지 못하는 고정 정보로 실제 영업현황과는 차이가 있다. 특히, 최근 코로나와 같은 대외변수에 의해 포털 사이트에서 제공하는 정보의 정확도가 매우 낮아진 상태로 소비자들이 이 데이터에 대해 신뢰하지 않고 있다. 따라서 전화문의나 방문 등의 이차적인 검증 작업을 수행해야 하는 불편함이 있다.

한편, 다양한 현상을 예측하고 분류하는데 머신러닝 모델을 활용한 기계학습 연구가 활발히 진행되고 있다. 상가의 영업여부는 전력사용량과 상당한 상관관계를 가지고 있어 전력사용 데이터(AMI 데이터)에 머신러닝 기법을 적용하면 상가의 실시간 영업여부를 예측할 수 있다. 따라서 상기에 언급한 문제점(전화, 방문 등 2차 확인 작업을 위한 시간소요 및 이동 등의 불편함)을 해결할 수 있다.

머신러닝 기법은 머신러닝 모델을 학습시키기 위해 학습데이터를 이용하는데, 영업예측 문제의 경우 학습 데이터는 전력사용데이터(스마트미터의 LP 계량 데이터)와 레이블 데이터(실제 상가의 영업여부(On/Off) 정보)로 구성된다. 레이블 데이터는 머신러닝 학습 문제의 결과에 해당하는 데이터로 머신러닝 모델을 정확하게 학습시키기 위해서 반드시 필요한 데이터이다.

그러나 머신러닝 기법은 충분한 량의 레이블 데이터가 확보되지 않을 경우 인공지능 학습에 어려움을 겪을 수 있고, 예측 정확도가 저하되는 문제점이 있다

또한, 현재로서는 숙달된 전문가들이 레이블 데이터를 생성하고 있어 레이블 데이터를 생성하는데 많은 인력이 소모되며, 레이블 데이터 생성 자동화가 어려운 문제가 있다.

본 발명의 배경기술로는 대한민국 공개특허공보 제10-2018-0031650호(공개일 : 2018.03.28.공개)인 "사용자의 위치와 관련된 키워드를 근린 생활 키워드로서 추출하는 키워드 추출 시스템 및 방법"이 있다.

본 발명은 전술한 문제점을 개선하기 위하여 안출된 것으로, 본 발명의 목적은 상업시설 영업예측 서비스를 이용하는 사용자의 피드백 데이터를 이용하여 상업시설 영업시간 예측모델의 학습에 사용되는 레이블 데이터를 자동으로 생성할 수 있도록 하는 상업시설 영업시간 예측모델 생성 장치 및 방법을 제공하는 것이다.

본 발명이 해결하고자 하는 과제는 이상에서 언급한 과제(들)로 제한되지 않으며, 언급되지 않은 또 다른 과제(들)은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

본 발명의 일 측면에 따른 상업시설 영업시간 예측모델 생성 장치는, 상업시설의 전력사용량 데이터를 수집하는 전력사용정보 수집부, 상기 상업시설의 영업정보에 대한 사용자 피드백 데이터를 수집하는 피드백 수집부, 기 설정된 일정기간동안 누적된 사용자 피드백 데이터를 이용하여 상기 상업시설의 영업여부를 의미하는 레이블 데이터를 생성하는 레이블 데이터 생성부, 및 상기 레이블 데이터와 전력사용량 데이터를 이용하여 상업시설 영업시간 예측모델을 생성하는 학습부를 포함한다.

본 발명은 상기 상업시설 영업시간 예측모델의 예측 정확도를 산출하고, 상기 예측 정확도에 기초하여 상기 상업시설 영업시간 예측모델을 검증하는 검증부를 더 포함할 수 있다.

본 발명에서 상기 레이블 데이터 생성부는, 상기 사용자 피드백 데이터의 오염 여부를 판정하는 오염 데이터 판정부, 상기 오염되지 않은 사용자 피드백 데이터에 대해 유효성을 판정하는 유효성 판정부, 유효한 사용자 피드백 데이터를 이용하여 레이블 데이터를 생성하는 레이블 생성부를 포함할 수 있다.

본 발명에서 상기 오염 데이터 판정부는, 상기 누적된 사용자 피드백 데이터를 특정 주기의 사용자 피드백 데이터 셋으로 분류하고, 상기 분류된 각 사용자 피드백 데이터 셋에 대해, 단위시간당 사용자 피드백 데이터 발생 분포, 기 설정된 시간동안 동일 IP에서 발생한 사용자 피드백 데이터 횟수, 및 기 설정된 시간동안 사용자 피드백 데이터 발생 지역의 개수 중 적어도 하나에 기초하여 오염 데이터 여부를 판정할 수 있다.

본 발명에서 상기 유효성 판정부는, 오염되지 않은 사용자 피드백 데이터 셋에 대해 주기성 데이터인지를 판단하고, 주기성 데이터인 경우 노이즈성 데이터인지를 식별할 수 있다.

본 발명에서 상기 유효성 판정부는, 상기 오염되지 않은 각 사용자 피드백 데이터 셋에 FFT를 적용하여 주파수 도메인의 사용자 피드백 데이터로 변환하고, 상기 주파수 도메인의 사용자 피드백 데이터의 우세 주파수(Dominat Frequency)의 크기, Peak의 개수 및 임계값 초과 주파수 성분의 비율 중 적어도 하나를 이용하여 상기 사용자 피드백 데이터 셋이 주기성 데이터인지를 판단할 수 있다.

본 발명에서 상기 유효성 판정부는, 상기 주기성을 갖는 사용자 피드백 데이터 셋에 대해 같은 값을 갖는 데이터의 비율, 및 전력사용량과 사용자 피드백 데이터의 부합률에 기초하여 노이즈 데이터를 식별할 수 있다.

본 발명에서 상기 학습부는, 학습에 필요한 하이퍼파라미터를 최적화하고, 상기 최적화된 하이퍼파라미터, 레이블 데이터 및 상기 전력사용량 데이터를 이용하여 상기 상업시설 영업시간 예측모델을 생성할 수 있다.

본 발명은 상기 상업시설의 실시간 전력사용량 데이터를 입력받아, 상기 실시간 전력사용량 데이터를 상기 학습부에서 생성된 상업시설 영업시간 예측모델에 반영하여 상업시설의 영업시간을 예측하고, 상기 예측한 상업시설의 영업시간 및 피드백 데이터 요청 정보를 포함하는 상업시설의 영업 정보를 외부에 제공하는 영업정보 제공부, 상기 피드백 데이터 요청 정보를 통해 사용자 피드백 데이터를 수신하는 피드백 데이터 수신 처리부를 더 포함할 수 있다.

본 발명의 다른 측면에 따른 상업시설 영업시간 예측모델 생성 방법은, 전력사용정보 수집부가 상업시설의 전력사용량 데이터를 수집하는 단계, 피드백 수집부가 상기 상업시설의 영업정보에 대한 사용자 피드백 데이터를 수집하는 단계, 레이블 데이터 생성부가 기 설정된 일정기간동안 누적된 사용자 피드백 데이터를 이용하여 상기 상업시설의 영업여부를 의미하는 레이블 데이터를 생성하는 단계, 학습부가 상기 레이블 데이터와 전력사용량 데이터를 이용하여 상업시설 영업시간 예측모델을 생성하는 단계를 포함한다.

본 발명은 검증부가 상기 상업시설 영업시간 예측모델의 예측 정확도를 산출하고, 상기 예측 정확도에 기초하여 상기 상업시설 영업시간 예측모델을 검증하는 단계를 더 포함할 수 있다.

본 발명에서 상기 레이블 데이터를 생성하는 단계는, 오염 데이터 판정부가 상기 사용자 피드백 데이터의 오염 여부를 판정하는 단계, 유효성 판정부가 상기 오염되지 않은 사용자 피드백 데이터에 대해 유효성을 판정하는 단계, 및 레이블 생성부가 유효한 사용자 피드백 데이터를 이용하여 레이블 데이터를 생성하는 단계를 포함할 수 있다.

본 발명은 상기 사용자 피드백 데이터의 오염 여부를 판정하는 단계에서, 상기 오염 데이터 판정부는, 상기 누적된 사용자 피드백 데이터를 특정 주기의 사용자 피드백 데이터 셋으로 분류하고, 상기 분류된 각 사용자 피드백 데이터 셋에 대해, 단위시간당 사용자 피드백 데이터 발생 분포, 기 설정된 시간동안 동일 IP에서 발생한 사용자 피드백 데이터 횟수, 및 기 설정된 시간동안 사용자 피드백 데이터 발생 지역의 개수 중 적어도 하나에 기초하여 오염 데이터 여부를 판정할 수 있다.

본 발명은 상기 유효성을 판정하는 단계에서, 상기 유효성 판정부는, 오염되지 않은 사용자 피드백 데이터 셋에 대해 주기성 데이터인지를 판단하고, 주기성 데이터인 경우 노이즈성 데이터인지를 식별할 수 있다.

본 발명은 상기 상업시설 영업시간 예측모델을 생성하는 단계에서, 상기 학습부는, 학습에 필요한 하이퍼파라미터를 최적화하고, 상기 최적화된 하이퍼파라미터, 레이블 데이터 및 상기 전력사용량 데이터를 이용하여 상기 상업시설 영업시간 예측모델을 생성할 수 있다.

본 발명은 영업정보 제공부가 상기 상업시설의 실시간 전력사용량 데이터를 입력받아, 상기 실시간 전력사용량 데이터를 상기 학습부에서 생성된 상업시설 영업시간 예측모델에 반영하여 상업시설의 영업시간을 예측하고, 상기 예측한 상업시설의 영업시간 및 피드백 데이터 요청 정보를 포함하는 상업시설의 영업 정보를 외부에 제공하는 단계, 피드백 데이터 수신 처리부가 상기 피드백 데이터 요청 정보를 통해 사용자 피드백 데이터를 수신하는 단계를 더 포함할 수 있다.

본 발명의 일 실시예에 따른 상업시설 영업시간 예측모델 생성 장치 및 방법은, 영업예측 서비스를 이용하는 사용자의 피드백 데이터를 이용하여 상업시설 영업시간 예측모델의 학습에 사용되는 레이블 데이터를 자동으로 생성함으로써, 상업시설 영업시간 예측모델의 학습을 자동화할 수 있으며, 학습의 자동화를 통해 상업시설 영업시간 예측모델의 예측 정확도를 향상시킬 수 있다.

본 발명의 일 실시예에 따른 상업시설 영업시간 예측모델 생성 장치 및 방법은, 학습에 도움이 되지 않거나, 머신러닝 모델의 오동작을 유도하는 오염된 데이터를 식별함으로써, 불필요한 학습 데이터를 제거할 수 있고, 이로 인해 예측 정확도를 향상시킬 수 있다.

본 발명의 일 실시예에 따른 상업시설 영업시간 예측모델 생성 장치 및 방법은, 사용자 피드백 데이터의 주기성과 노이즈 포함 여부를 판단하여 머신러닝 학습의 효율성을 향상시키고 오버 및 언더 피팅을 회피할 수 있다.

본 발명의 일 실시예에 따른 상업시설 영업시간 예측모델 생성 장치 및 방법은, 레이블 데이터와 하이퍼파라미터 조합을 이용하여 학습된 모델의 학습 정확도를 향상시킬 수 있다.

한편, 본 발명의 효과는 이상에서 언급한 효과들로 제한되지 않으며, 이하에서 설명할 내용으로부터 통상의 기술자에게 자명한 범위 내에서 다양한 효과들이 포함될 수 있다.

도 1은 본 발명의 일 실시예에 따른 상업시설 영업시간 예측 시스템을 나타낸 도면이다.
도 2는 본 발명의 일 일실시예에 따른 영업정보 제공 서버의 구성을 개략적으로 나타낸 블록도이다.
도 3은 본 발명의 일 실시예에 따른 사용자 피드백 기능을 설명하기 위한 예시도이다.
도 4는 본 발명의 일 실시예에 따른 영업시간 예측모델 생성 장치를 나타낸 블록도이다.
도 5는 도 4에 도시된 레이블 데이터 생성부를 설명하기 위한 블록도이다.
도 6은 본 발명의 일 실시예에 따른 상업시설 영업시간 예측모델 생성 방법을 설명하기 위한 도면이다.
도 7은 본 발명의 일 실시예에 따른 상업시설 영업시간 예측모델 생성 방법을 설명하기 위한 흐름도이다.
도 8은 본 발명의 일 실시예에 따른 사용자 피드백 데이터의 오염 여부를 판단하는 방법을 설명하기 위한 흐름도이다.
도 9는 본 발명의 일 실시예에 따른 유효성 판정부가 오염되지 않은 사용자 피드백 데이터에 대해 유효성을 판정하는 방법을 설명하기 위한 흐름도이다.
도 10은 본 발명의 일 실시예에 따른 유효성 판정부가 사용자 피드백 데이터의 주기성을 판정하는 방법을 설명하기 위한 흐름도이다.
도 11은 본 발명의 일 실시예에 따른 우세 주파수의 크기를 이용하여 주기성을 판정하는 방법을 설명하기 위한 예시도이다.
도 12는 본 발명의 일 실시예에 따른 피크의 개수를 이용하여 주기성을 판정하는 방법을 설명하기 위한 예시도이다.
도 13은 본 발명의 일 실시예에 따른 주파수 성분의 비율을 이용하여 주기성을 판정하는 방법을 설명하기 위한 예시도이다.
도 14는 본 발명의 일 실시예에 따른 사용자 피드백 데이터의 노이즈 포함 여부를 판정하는 방법을 설명하기 위한 흐름도이다.

이하, 첨부된 도면들을 참조하여 본 발명의 일 실시예에 따른 상업시설 영업시간 예측모델 생성 장치 및 방법을 설명한다. 이 과정에서 도면에 도시된 선들의 두께나 구성요소의 크기 등은 설명의 명료성과 편의상 과장되게 도시되어 있을 수 있다.

또한, 본 명세서에서 설명된 구현은, 예컨대, 방법 또는 프로세스, 장치, 소프트웨어 프로그램, 데이터 스트림 또는 신호로 구현될 수 있다. 단일 형태의 구현의 맥락에서만 논의(예컨대, 방법으로서만 논의)되었더라도, 논의된 특징의 구현은 또한 다른 형태(예컨대, 장치 또는 프로그램)로도 구현될 수 있다. 장치는 적절한 하드웨어, 소프트웨어 및 펌웨어 등으로 구현될 수 있다. 방법은, 예컨대, 컴퓨터, 마이크로프로세서, 집적 회로 또는 프로그래밍 가능한 로직 디바이스 등을 포함하는 프로세싱 디바이스를 일반적으로 지칭하는 프로세서 등과 같은 장치에서 구현될 수 있다. 프로세서는 또한 최종-사용자 사이에 정보의 통신을 용이하게 하는 컴퓨터, 셀 폰, 휴대용/개인용 정보 단말기(personal digital assistant: "PDA") 및 다른 디바이스 등과 같은 통신 디바이스를 포함한다.

또한, 본 명세서에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다. 제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.

이하, 본 발명에 따른 실시 예들을 첨부된 도면을 참조하여 상세히 설명하기로 하며, 첨부 도면을 참조하여 설명함에 있어, 동일하거나 대응하는 구성 요소는 동일한 도면번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.

도 1은 본 발명의 일 실시예에 따른 상업시설 영업시간 예측 시스템을 나타낸 도면, 도 2는 본 발명의 일 일실시예에 따른 영업정보 제공 서버의 구성을 개략적으로 나타낸 블록도, 도 3은 본 발명의 일 실시예에 따른 사용자 피드백 기능을 설명하기 위한 예시도이다.

도 1을 참조하면, 본 발명의 일 실시예에 따른 상업시설 영업시간 예측 시스템은 영업정보 제공 서버(100) 및 상업시설 영업시간 예측모델 생성 장치(이하, 예측모델 생성 장치로 칭함, 200)를 포함할 수 있다.

영업정보 제공 서버(100)는 상업시설의 영업시간을 포함하는 상업시설 영업 정보를 외부에 제공하는 것으로, 외부서비스(WAS/WEB)용 서버 및 외부 응용 서버를 포함할 수 있다. 즉 영업정보 제공 서버(100)는 사용자의 요청에 의하여 서비스를 제공할 수 있다.

영업정보 제공 서버(100)는 상업시설 영업예측 서비스를 이용하는 사용자의 피드백 데이터를 수신할 수 있다. 즉, 영업정보 제공 서버(100)는 상업시설 영업정보 제공 시, 사용자 피드백 데이터를 요청하는 사용자 피드백 데이터 요청 정보를 전송할 수 있고, 사용자 피드백 데이터 요청 정보를 통해 사용자 피드백 데이터를 수신할 수 있다.

예를 들면, 상업시설 영업예측 서비스를 이용하는 사용자의 단말기(미도시)는 도 2와 같은 상업시설 영업예측 서비스 화면을 디스플레이할 수 있다. 상업시설 영업예측 서비스 화면은 사용자 피드백 데이터 요청 화면을 포함할 수 있다. 사용자 피드백 데이터 요청 화면은 팝업창으로 디스플레이될 수 있고, 사용자는 피드백 데이터 요청 화면을 통해 사용자 피드백 데이터를 입력할 수 있다. 사용자 피드백 데이터 요청 화면은 상업시설 명칭, 주소, 영업시간, 예측 신뢰도를 표시하는 confidence 레벨, 및 사용자가 예측 결과에 대한 피드백을 줄 수 있는 회신 버튼 등을 포함할 수 있다. 회신 버튼은 예측 결과가 맞을 경우 "맞아요", 결과가 맞지 않을 경우 "틀려요"를 클릭할 수 있도록 하는 버튼일 수 있다.

영업정보 제공 서버(100)는 상업시설 영업예측 서비스를 이용하는 사용자들로부터 피드백 데이터를 수신하여 누적 관리하고, 새로운 학습을 하기에 충분한 피드백 데이터가 확보되면, 사용자 피드백 데이터를 예측모델 생성 장치(200)로 전송할 수 있다.

이러한 영업정보 제공 서버(100)는 도 3에 도시된 바와 같이 영업 정보 제공부(110) 및 피드백 데이터 수신 처리부(120)를 포함할 수 있다.

영업정보 제공부(110)는 상업시설의 실시간 전력사용량 데이터를 입력받고, 그 실시간 전력사용량 데이터를 예측모델 생성 장치(200)에서 생성된 상업시설 영업시간 예측모델에 반영하여 상업시설의 영업시간을 예측하며, 예측한 상업시설의 영업시간 및 사용자 피드백 데이터 요청 정보를 포함하는 상업시설의 영업 정보를 외부에 제공할 수 있다.

피드백 데이터 수신 처리부(120)는 사용자 피드백 데이터 요청 정보를 통해 사용자 피드백 데이터를 수신할 수 있다.

예측모델 생성 장치(200)는 영업정보 제공 서버(100)로부터 사용자 피드백 데이터를 수신하고, 수신한 사용자 피드백 데이터를 이용하여 레이블 데이터를 자동으로 생성하며, 그 레이블 데이터를 이용하여 상업시설 영업시간 예측모델을 모델을 재학습함으로써 예측정확도가 향상된 신규모델을 생성할 수 있다.

예측모델 생성 장치(200)에 대한 상세한 설명은 도 4를 참조하기로 한다.

도 4는 본 발명의 일 실시예에 따른 영업시간 예측모델 생성 장치를 나타낸 블록도, 도 5는 도 4에 도시된 레이블 데이터 생성부를 설명하기 위한 블록도이다.

도 4를 참조하면, 본 발명의 일 실시예에 따른 영업시간 예측모델 생성 장치(200)는 데이터베이스(210), 전력사용정보 수집부(215), 피드백 수집부(220), 레이블 데이터 생성부(230), 학습부(240), 검증부(250) 및 제어부(260)를 포함할 수 있다.

데이터베이스(210)는 상업시설의 전력사용량 데이터 및 사용자 피드백 데이터 등을 저장할 수 있다.

전력사용정보 수집부(215)는 상업시설의 전력사용량 데이터를 수집할 수 있다. 즉 전력사용정보 수집부(215)는 스마트미터, DCU(데이터집중장치) 등 AMI 미터 및 통신 인프라를 통해 전송되는 실시간 전력사용량 데이터를 취득하여, 과금 및 대외 서비스용으로 데이터를 분류하여 전달할 수 있다. 이때 전력사용정보 수집부(215)는 과금용으로 데이터를 분류한 경우 과금용 DB(미도시)에 전력사용량 데이터를 전달하고, 기계학습 등의 대외 서비스용으로 데이터를 분류한 경우 학습부(240)에 전력사용량 데이터를 전달할 수 있다.

피드백 수집부(220)는 상업시설의 영업정보에 대한 사용자 피드백 데이터를 수집하고, 수집된 사용자 피드백 데이터를 데이터베이스(210)에 저장할 수 있다.

레이블 데이터 생성부(230)는 기 설정된 일정기간동안 누적된 사용자 피드백 데이터를 이용하여 상업시설의 영업여부를 의미하는 레이블 데이터를 생성할 수 있다.

레이블 데이터 생성부(230)는 오염 데이터 판정부(232), 유효성 판정부(234) 및 레이블 생성부(236)를 포함할 수 있다.

오염 데이터 판정부(232)는 사용자 피드백 데이터의 오염 여부를 판정할 수 있다.

최근 인공지능이 널리 활용되면서 인공지능 모델을 대상으로 하는 사이버 공격이 증가하고 있다. Data poisoning은 대표적인 인공지능 공격기법 중의 하나로 오염된 데이터를 통해 공격대상 모델이 잘못된 판단을 하도록 유도하는 기법이다. 사용자 피드백 데이터를 활용하여 레이블 데이터를 생성할 경우 data poisoning attack에 취약한 문제가 있기 때문에, 사용자 피드백 데이터가 오염된 데이터인지 여부를 확인하여 레이블 데이터를 생성해야 한다.

이에, 오염 데이터 판정부(232)는, 사용자 피드백 데이터가 상업시설 영업시간 예측모델의 성능 저하를 유도하는 data poisoning attack에 의해 오염된 데이터인지를 판단하고, 오염된 데이터인 경우 레이블 데이터 생성에서 제외할 수 있다.

오염 데이터 판정부(232)는 누적된 사용자 피드백 데이터를 특정 주기의 사용자 피드백 데이터 셋으로 분류하고, 분류된 각 사용자 피드백 데이터 셋에 대해, 단위시간당 사용자 피드백 데이터 발생 분포, 기 설정된 시간동안 동일 IP에서 발생한 사용자 피드백 데이터 횟수, 및 사용자 피드백 데이터 발생 지역의 개수 중 적어도 하나에 기초하여 오염 데이터 여부를 판정할 수 있다. 예를 들면, 오염 데이터 판정부(232)는 평균적으로 수신되는 사용자 피드백 데이터가 아닌 대량의 사용자 피드백 데이터가 수신되는 경우, 해당 사용자 피드백 데이터를 오염된 데이터로 판정할 수 있다. 또한, 오염 데이터 판정부(232)는 일정 시간동안 특정 IP에서 대량의 사용자 피드백 데이터를 수신한 경우를 해당 사용자 피드백 데이터를 오염된 데이터로 판정할 수 있다.

유효성 판정부(234)는 오염되지 않은 사용자 피드백 데이터 셋에 대해 유효성을 판정할 수 있다.

유효성 판정부(234)는 오염 데이터 판정부(232)에서 정상적인 데이터로 확인된 사용자 피드백 데이터에 대해 노이즈가 적게 포함되어 머신러닝 학습에 도움이 되는지 결정할 수 있다. 이때, 유효성 판정부(234)는 사용자 피드백 데이터에 대해 불확실성을 산출하고, 산출한 불확실성을 바탕으로 사용자 피드백 데이터가 학습에 유용한지 결정할 수 있다. 주기성이 떨어지는 사용자 피드백 데이터를 학습할 경우 특정 상업시설에 과적합(Overfitting)된 예측모델을 만들 수 있고, 이로 인해 불확실성이 높아질 수 있으므로 학습에 사용하는 사용자 피드백 데이터는 주기성이 낮은 데이터를 제거해야 한다. 또한, 사용자 피드백 데이터의 불확실성은 사용자 피드백 데이터에 포함되어 있는 노이즈로 인하여 발생할 수도 있다. 학습에 사용되는 사용자 피드백 데이터 셋의 10%가 노이즈를 포함할 경우, 예측정확도가 20% 이상 저하되는 특징이 있으므로, 노이즈가 포함된 사용자 피드백 데이터를 제거함으로써 머신러닝 모델의 성능을 향상시킬 수 있다.

이에, 유효성 판정부(234)는 예측모델 학습 효율을 위해 오염되지 않은 사용자 피드백 데이터 셋에 대해 주기성 데이터인지를 먼저 판별하고, 주기성 데이터인 경우 예측모델의 성능에 악영향을 줄 수 있는 노이즈성 데이터인지를 식별할 수 있다. 이때, 유효성 판정부(234)는 오염되지 않은 각 사용자 피드백 데이터 셋에 FFT를 적용하여 주파수 도메인의 사용자 피드백 데이터로 변환하고, 주파수 도메인의 사용자 피드백 데이터의 우세 주파수(Dominat Frequency)의 크기, Peak의 개수 및 임계값 초과 주파수 성분의 비율 중 적어도 하나를 이용하여 사용자 피드백 데이터가 주기성 데이터인지를 판단할 수 있다. 이때, 유효성 판정부(234)는 비주기성의 사용자 피드백 데이터를 제거할 수 있다.

한편, 오염된 사용자 피드백 데이터의 제거를 위해 레이블 데이터가 생성된 시점의 정보를 확인하여 특정시간내 집중적으로 생성된 오염 데이터를 제거할 수 있지만, 오랜 기간에 걸쳐 수신된 노이즈 데이터를 식별하긴 어렵다. 이에, 유효성 판정부(234)는 주기성을 갖는 사용자 피드백 데이터 셋에 대해 같은 값을 갖는 데이터의 비율, 및 전력사용량과 사용자 피드백 데이터의 부합률에 기초하여 노이즈 데이터를 식별할 수 있다. 이때, 유효성 판정부(234)는 노이즈 데이터로 판단된 사용자 피드백 데이터를 제거할 수 있다. 이처럼, 유효성 판정부(234)는 같은 값을 갖는 데이터의 비율, 및 전력사용량과 사용자 피드백의 부합률을 검증하여 노이즈 데이터를 식별하고 이를 학습에서 제외함으로써 머신러닝 예측 정확도를 유지할 수 있다.

레이블 생성부(236)는 유효한 사용자 피드백 데이터를 이용하여 레이블 데이터를 생성할 수 있다. 즉, 레이블 생성부(236)는 유효한 사용자 피드백 데이터를 이용하여 영업여부를 의미하는 레이블 데이터를 생성할 수 있다. 영업여부를 의미하는 레이블 데이터는 이진수로 표현할 수 있으며, 영업 중일 때 1, 영업하지 않을 때 0으로 구분할 수 있다.

학습부(240)는 레이블 데이터와 전력사용량 데이터를 이용하여 상업시설 영업시간 예측모델을 생성할 수 있다. 이때, 학습부(240)는 학습에 필요한 하이퍼파라미터(hyperparameter)를 최적화하고, 최적화된 하이퍼파라미터와 레이블 데이터 및 전력사용량 데이터를 이용하여 상업시설 영업시간 예측모델을 생성할 수 있다. 여기서, 학습에 필요한 하이퍼 파라미터는 예컨대, 머신러닝 모델이 학습과 관련된 learning rate, batch size, 및 초기화 함수 등의 파라미터를 포함할 수 있다.

검증부(250)는 학습부(240)에서 생성한 상업시설 영업시간 예측모델의 예측 정확도를 산출하고, 예측 정확도에 기초하여 상업시설 영업시간 예측모델을 검증할 수 있다.여기서, 예측 정확도는 다양한 예측 알고리즘을 이용하여 산출할 수 있다.

예컨대, 검증부(250)는 학습부(240)에서 생성한 상업시설 영업시간 예측모델을 이용하여 영업시간을 예측하고, 그 예측한 영업시간을 사용자 피드백 정보와 비교하여 학습부(240)에서 생성한 상업시설 영업시간 예측모델을 검증할 수 있다.

한편, 전력사용정보 수집부(215), 피드백 수집부(220), 레이블 데이터 생성부(230), 학습부(240), 및 검증부(250)는 컴퓨팅 장치상에서 프로그램을 실행하기 위해 필요한 프로세서 등에 의해 각각 구현될 수 있다. 이처럼 전력사용정보 수집부(215), 피드백 수집부(220), 레이블 데이터 생성부(230), 학습부(240), 및 검증부(250)는 물리적으로 독립된 각각의 구성에 의해 구현될 수도 있고, 하나의 프로세서 내에서 기능적으로 구분되는 형태로 구현될 수도 있다.

제어부(260)는 데이터베이스(210), 전력사용정보 수집부(215), 피드백 수집부(220), 레이블 데이터 생성부(230), 학습부(240), 검증부(250)를 포함하는 예측모델 생성장치의 다양한 구성부들의 동작을 제어하는 구성으로, 적어도 하나의 연산 장치를 포함할 수 있는데, 여기서 상기 연산 장치는 범용적인 중앙연산장치(CPU), 특정 목적에 적합하게 구현된 프로그래머블 디바이스 소자(CPLD, FPGA), 주문형 반도체 연산장치(ASIC) 또는 마이크로 컨트롤러 칩일 수 있다.

한편, 본 발명의 실시예에서는 예측모델 생성 장치(200)가 상업시설 영업시간 예측모델을 생성하는 것으로 설명하였으나, 예측모델 생성 장치(200)는 상업시설 영업시간 예측 서비스를 제공할 수 있고, 상업시설 영업시간 예측 서비스를 이용하는 사용자의 피드백 데이터를 수신할 수도 있다. 이에, 예측모델 생성 장치(200)는 영업정보 제공부(미도시) 및 피드백 데이터 수신 처리부(미도시)를 더 포함할 수 있다.

영업정보 제공부는 상업시설의 실시간 전력사용량 데이터를 입력받고, 그 실시간 전력사용량 데이터를 예측모델 생성 장치(200)에서 생성된 상업시설 영업시간 예측모델에 반영하여 상업시설의 영업시간을 예측하며, 예측한 상업시설의 영업시간 및 피드백 데이터 요청 정보를 포함하는 상업시설의 영업 정보를 외부에 제공할 수 있다.

피드백 데이터 수신 처리부는 피드백 데이터 요청 정보를 통해 사용자 피드백 데이터를 수신할 수 있다.

또한, 본 발명의 실시예에 따른 예측모델 생성 장치(200)는 외부데이터 입력부(미도시)를 더 포함할 수 있다. 외부데이터 입력부는 영업시간 예측 정확도를 향상시키기 위하여 기계학습 입력으로 추가되는 데이터(날짜, 요일, 날씨 등)를 관리할 수 있다. 이 경우 학습부(240)는 외부데이터 입력부로부터 입력된 외부데이터를 반영하여 기계학습을 수행할 수 있다. 즉, 학습부(240)는 외부데이터 입력부로부터 외부데이터를 입력받아 외부데이터를 반영하여 기계학습을 수행할 수 있다. 즉, 학습부(240)는 날짜정보, 시간정보, 계절정보, 요일정보, 날씨정보 및 기온정보 중 적어도 하나 이상을 반영하여 기계학습을 수행할 수 있다. 즉, 기계학습 입력 데이터에 날씨나 기타 전력사용량에 영향을 줄 수 있는 요인을 부가하여 예측하고자 하는 시점의 날씨와 외부 요인을 반영한 결과를 추출할 수 있다.

또한, 학습부(240)는 상업시설의 구분자(ID), 상업시설의 업종별 분류(CAT, category), 과거 특정 시간, 특정 시간의 전력사용량 데이터, 특정 시간의 영업여부 및 특정 시간의 외부 데이터 중 적어도 하나 이상을 포함하는 데이터를 입력으로 하고, 상업시설의 구분자(ID), 상업시설의 업종별 분류(CAT), 미래 또는 현재 특정 시간, 특정 시간의 전력사용량 데이터 및 특정 시간의 영업여부 중 적어도 하나 이상을 포함하는 데이터를 출력으로 하여 기계학습을 수행할 수 있다.

그리고 학습부(240)는 상업시설의 전력사용량 데이터와 상업시설의의 영업여부 데이터(레이블 데이터)을 입력으로 하여, 기계학습 알고리즘의 하이퍼파라미터를 산출하고, 그 결과를 통해 영업시간 예측모델을 생성하고 업데이트할 수 있다. 이때 학습부(240)는 1차로 상업시설 영업시간 예측모델을 생성하고, 과거 누적된 전력사용량 데이터로 추출한 시간별 전력사용량이 실측 데이터와 차이가 나는 경우, 전력사용량 데이터와 레이블 데이터를 재구성하여 2차 상업시설 영업시간 예측모델을 생성할 수 있다.

즉, 본 실시예에서는 출력 데이터(결과)의 정확도를 높이기 위하여 파라미터들의 수정이 필요하다고 판단될 경우, 학습부(240)는 입력 데이터와 레이블 데이터를 재구성하여 기계학습을 다시 시행할 수 있다.

또한, 학습부(240)는 기 설정된 주기마다 상업시설 영업시간 예측모델을 업데이트할 수 있다.

한편, 본 발명의 실시예에서는 여러 가지 실험결과 머신러닝 정확도 향상을 위한 입력 데이터량, 우세주파수 값, 주파수 성분의 크기, 주파수 성분의 비율 등을 예시로 들어 설명하였지만, 실제 상업시설의 특성에 따라 다른 값을 사용할 수 있다.

도 6은 본 발명의 일 실시예에 따른 상업시설 영업시간 예측모델 생성 방법을 설명하기 위한 도면이다.

도 6을 참조하면, 영업정보 제공 서버(100)는 사용자 단말기로부터 상업시설 영업정보 요청이 수신되면(S610), 해당 상업시설의 영업시간 및 피드백 데이터 요청 정보를 포함하는 상업시설 영업 정보를 사용자 단말기에 제공한다(S620). 이때, 사용자는 피드백 데이터 요청 정보를 통해 피드백 데이터를 입력할 수 있다.

S620 단계가 수행되면, 영업정보 제공 서버(100)는 사용자 단말기로부터 사용자 피드백 데이터를 수신하고, 사용자 피드백 데이터를 누적하여 관리하며(S630), 새로운 학습을 하기에 충분한 사용자 피드백 데이터가 확보되면, 사용자 피드백 데이터를 예측모델 생성 장치(200)로 전송한다(S640).

예측모델 생성 장치(200)는 영업정보 제공 서버(100)로부터 사용자 피드백 데이터를 수신하고, 수신한 사용자 피드백 데이터를 이용하여 레이블 데이터를 자동으로 생성한다(S650).

그런 후, 예측모델 생성 장치(200)는 레이블 데이터 및 전력사용량 데이터를 이용하여 상업시설 영업시간 예측모델을 학습한다(S660).

예측모델 생성 장치(200)가 레이블 데이터를 생성하고, 상업시설 영업시간 예측 모델을 생성하는 방법에 대한 상세한 설명은 도 7을 참조하기로 한다.

도 7은 본 발명의 일 실시예에 따른 상업시설 영업시간 예측모델 생성 방법을 설명하기 위한 흐름도이다.

도 7을 참조하면, 사용자 피드백 데이터가 수신되면(S702), 예측모델 생성 장치(200)는 사용자 피드백 데이터를 특정 주기의 사용자 피드백 데이터 셋으로 분류하고, 분류된 각 사용자 피드백 데이터 셋의 오염 여부를 판단한다(S704). 즉, 예측모델 생성 장치(200)는 사용자 피드백 데이터 셋이 상업시설 영업시간 예측모델의 성능 저하를 유도하는 data poisoning attack에 의해 오염된 데이터인지를 판단하고, 오염된 데이터인 경우 레이블 데이터 생성에서 제외할 수 있다.

예측모델 생성 장치(200)가 사용자 피드백 데이터의 오염 여부를 판단하는 방법에 대한 상세한 설명은 도 8을 참조하기로 한다.

S704 단계의 판단결과, 오염된 데이터가 아니면, 예측모델 생성 장치(200)는 오염되지 않은 데이터로 확인된 사용자 피드백 데이터 셋에 대해서 노이즈가 적게 포함되어 영업시간 예측모델 학습에 도움이 되는지를 판단한다(S706). 즉, 예측모델 생성 장치(200)는 오염되지 않은 사용자 피드백 데이터 셋에 대해 유효성을 판정할 수 있다. 예측모델 생성 장치(200)가 사용자 피드백 데이터에 대해 유효성을 판정하는 방법에 대한 상세한 설명은 도 9를 참조하기로 한다.

S706 단계의 판단결과, 영업시간 예측모델 학습에 도움이 되는 사용자 피드백 데이터 셋이면, 예측모델 생성 장치(200)는 학습이 도움이 되는 사용자 피드백 데이터 셋으로부터 레이블 데이터를 생성한다(S708). 즉, 예측모델 생성 장치(200)는 유효한 사용자 피드백 데이터 셋을 이용하여 영업여부를 의미하는 레이블 데이터를 생성할 수 있다. 이때, 레이블 데이터는 이진수로 표현할 수 있으며, 영업 중일 때 1, 영업하지 않을 때 0으로 구분할 수 있다.

S708 단계가 수행되면, 예측모델 생성 장치(200)는 학습에 필요한 하이퍼파라미터의 조합을 결정하고(S710), S708 단계에서 생성된 레이블 데이터와 하이퍼파라미터를 이용하여 영업시간 예측모델을 학습시켜 영업시간 예측모델의 정확도를 계산하며(S712), 영업시간 예측모델의 정확도가 최고 레벨인지를 판단한다(S714). 즉, 예측모델 생성 장치(200)는 상업시설의 전력사용량 데이터와 상업시설의 레이블 데이터를 입력으로 하여, 기계학습 알고리즘의 하이퍼파라미터를 산출할 수 있고, 그 결과를 통해 영업시간 예측모델을 생성할 수 있다. 예측모델 생성 장치(200)는 영업시간 예측모델의 정확도가 최고 레벨에 도달할 때까지 S710 단계부터 S714 단계를 반복할 수 있다.

S714 단계의 판단결과, 영업시간 예측모델의 정확도가 최고 레벨이면, 예측모델 생성 장치(200)는 해당 하이퍼파라미터를 적용한 영업시간 예측모델을 생성한다(S716).

만약, S706 단계의 판단결과, 영업시간 예측모델 학습에 도움이 되지 않은 사용자 피드백 데이터 셋이면, 예측모델 생성 장치(200)는 해당 사용자 피드백 데이터 셋을 비학습 데이터로 분류한다(S718). 예측모델 생성 장치(200)는 비학습 데이터로 분류된 사용자 피드백 데이터 셋을 영업시간 예측모델 학습에서 제외시킬 수 있다.

도 8은 본 발명의 일 실시예에 따른 사용자 피드백 데이터의 오염 여부를 판단하는 방법을 설명하기 위한 흐름도이다.

도 8을 참조하면, 오염 데이터 판정부(232)는 누적된 사용자 피드백 데이터 셋을 특정 시간범위(예컨대, 1시간) 단위로 나눈다(S802). 즉, 오염 데이터 판정부(232)는 사용자 피드백 데이터 셋을 특정 주기로 분류할 수 있다.

S802 단계가 수행되면, 오염 데이터 판정부(232)는 단위시간당(예컨대, 1분) 사용자 피드백 데이터 셋의 발생분포가 기 설정된 기준 발생분포 이하인지를 판단한다(S804). 즉, 오염 데이터 판정부(232)는 평균적으로 수신되는 사용자 피드백 데이터가 아닌 대량의 사용자 피드백 데이터가 수신되는지를 판단할 수 있다. 이때, 오염 데이터 판정부(232)는 기준 발생분포 이하의 발생분포를 갖는 사용자 피드백 데이터를 오염되지 않은 데이터로 판정할 수 있다.

S804 단계의 판단결과, 기준 발생분포 이하의 사용자 피드백 데이터 셋이 존재하면, 오염 데이터 판정부(232)는 오염되지 않은 데이터에 대해 동일 IP의 사용자 피드백 데이터 셋이 특정 시간범위(예컨대, 15분)내에서 기 설정된 기준 횟수보다 많이 발생하는지를 판단한다(S806).

S806 단계의 판단결과, 기준 횟수보다 많이 발생한 사용자 피드백 데이터 셋이 존재하면, 오염 데이터 판정부(232)는 동일 IP의 사용자 피드백 데이터 셋이 특정 시간범위(예컨대, 15분)내에서 기준 지역 수(상업시설 수)를 초과하는 지역(상업시설)에서 발생하는지를 판단한다(S808).

S808 단계의 판단결과, 기준 지역 수(상업시설 수)를 초과하는 지역(상업시설)에서 발생하는 사용자 피드백 데이터 셋이 존재하면, 오염 데이터 판정부(232)는 해당 사용자 피드백 데이터 셋을 오염 데이터로 분류한다(S810).

만약, S808 단계의 판단결과, 기준 지역 수(상업시설 수)를 초과하는 지역(상업시설)에서 발생하는 사용자 피드백 데이터 셋이 아니면, 오염 데이터 판정부(232)는 해당 사용자 피드백 데이터 셋을 비오염 데이터로 분류한다(S812).

S806 단계의 판단결과, 기준 횟수보다 많이 발생하지 않은 사용자 피드백 데이터 셋이면, 오염 데이터 판정부(232)는 해당 사용자 피드백 데이터 셋을 비오염 데이터로 분류한다(S812).

비오염 데이터로 분류된 사용자 피드백 데이터 셋은 유효성 판정의 대상이 될 수 있다. 오염 데이터로 분류된 사용자 피드백 데이터 셋은 영업시간 예측모델 학습에서 제외시킬 수 있다.

도 9는 본 발명의 일 실시예에 따른 유효성 판정부(234)가 오염되지 않은 사용자 피드백 데이터에 대해 유효성을 판정하는 방법을 설명하기 위한 흐름도이다.

도 9를 참조하면, 유효성 판정부(234)는 오염되지 않은 각 사용자 피드백 데이터 셋에 FFT를 적용하여 주파수 도메인의 사용자 피드백 데이터 셋으로 변환하고(S902), 주파수 도메인의 사용자 피드백 데이터 셋이 주기성 데이터인지를 판단한다(S904). 이때, 유효성 판정부(234)는 주파수 도메인의 사용자 피드백 데이터의 우세 주파수(Dominat Frequency)의 크기, Peak의 개수 및 임계값 초과 주파수 성분의 비율 중 적어도 하나를 이용하여 사용자 피드백 데이터가 주기성 데이터인지를 판단할 수 있다. 유효성 판정부(234)가 주기성 데이터인지를 판단하는 방법에 대한 상세한 설명은 도 10을 참조하기로 한다.

S904 단계의 판단결과, 주기성 데이터이면, 유효성 판정부(234)는 해당 사용자 피드백 데이터 셋이 예측모델의 성능에 악영향을 줄 수 있는 노이즈성 데이터인지를 판단한다(S906). 이때 유효성 판정부(234)는 주기성을 갖는 사용자 피드백 데이터 셋에 대해 같은 값을 갖는 데이터의 비율 및 전력사용량과 사용자 피드백 데이터의 부합률에 기초하여 노이즈 데이터를 식별할 수 있다.

S906 단계의 판단결과, 노이즈 데이터이면, 유효성 판정부(234)는 해당 사용자 피드백 데이터 셋을 비학습 데이터로 분류한다(S908).

만약 S906 단계의 판단결과, 노이즈 데이터가 아니면, 유효성 판정부(234)는 해당 사용자 피드백 데이터 셋을 유효한 데이터로 분류한다(S910).

도 10은 본 발명의 일 실시예에 따른 유효성 판정부(234)가 사용자 피드백 데이터의 주기성을 판정하는 방법을 설명하기 위한 흐름도, 도 11은 본 발명의 일 실시예에 따른 우세 주파수의 크기를 이용하여 주기성을 판정하는 방법을 설명하기 위한 예시도, 도 12는 본 발명의 일 실시예에 따른 피크의 개수를 이용하여 주기성을 판정하는 방법을 설명하기 위한 예시도, 도 13은 본 발명의 일 실시예에 따른 주파수 성분의 비율을 이용하여 주기성을 판정하는 방법을 설명하기 위한 예시도이다.

도 10을 참조하면, 유효성 판정부(234)는 오염되지 않은 각 사용자 피드백 데이터 셋에 사용자 피드백 데이터에 FFT를 적용하여 주파수 도메인의 사용자 피드백 데이터로 변환하고(S1002), 주파수 도메인의 사용자 피드백 데이터 셋의 우세 주파수(Dominat Frequency)의 크기가 기준 주파수 크기를 초과하는지를 판단한다(S1004). 이때, 유효성 판정부(234)는 우세 주파수 성분이 기준 주파수 크기를 초과하지 않은 사용자 피드백 데이터 셋을 비주기성 데이터로 분류할 수 있다.

예를 들어, 우세 주파수의 크기를 이용하여 주기성을 판정하는 방법에 대해 도 11을 참조하여 설명하기로 한다. 도 11을 참조하면, (a)는 전력 사용량 패턴, (b)는 사용자 피드백 데이터, (c)는 사용자 피드백 데이터의 FFT 변환 결과를 나타낸다. 도 11의 상업시설과 같이 일정한 영업패턴(5일 영업, 2일 휴식하는 7일 영업패턴의 반복)을 가지고 있는 6주 분량의 사용자 피드백 데이터 셋을 FFT하게 되면 (c)와 같이 42Hz(6주X7일)가 우세 주파수가 되고, 이 성분의 크기가 기준 주파수 크기(예컨대, 상위 10% 주파수 성분의 평균값)보다 크기 때문에 주기성 데이터로 판단할 수 있다. 여기에서는 우세 주파수를 42Hz로 설정하였지만 해당 상업시설의 특성(예컨대, 브레이크 타임이 있는 식당)에 따라 우세주파수는 변경될 수 있다.

S1004 단계의 판단결과, 우세 주파수의 크기가 기준 주파수 크기를 초과하면, 유효성 판정부(234)는 해당 사용자 피드백 데이터 셋에 대해 전체 주파수 성분 중 Peak의 개수가 기준 피크 개수 미만인지를 판단한다(S1006). 이때 유효성 판정부(234)는 피크의 개수가 기준 피크 개수 이상인 사용자 피드백 데이터 셋을 비주기성 데이터로 판단하여 비학습 데이터로 분류할 수 있다.

예를 들어, 피크의 개수를 이용하여 주기성을 판정하는 방법에 대해 도 12를 참조하면, 상업시설의 2차년도 사용자 피드백 데이터는 Peak의 개수가 기준 피크 개수(예컨대, 8개)보다 많기 때문에 비주기성 데이터로 분류될 수 있고, 1차년도 사용자 피드백 데이터는 Peak의 개수가 기준 피크 개수보다 적기 때문에 주기성 데이터로 분류될 수 있다.

S1006 단계의 판단결과, 피크의 개수가 기준 피크 개수 미만인 사용자 피드백 데이터 셋이면, 유효성 판정부(234)는 임계값(threshold) 초과 주파수 성분의 비율이 기준 비율 미만인지를 판단한다(S1008).

이때, 임계값(threshold) 초과 주파수 성분의 비율이 기준 비율 미만이 아니면, 유효성 판정부(234)는 해당 사용자 피드백 데이터 셋을 비주기성 데이터로 판단하여 비학습 데이터로 분류할 수 있다.

예를 들어, 주파수 성분의 비율을 이용하여 주기성을 판정하는 방법에 대해 도 13을 참조하면, 상업시설의 사용자 피드백 데이터는 threshold(예컨대, 0.2)보다 주파수 성분의 비중이 기준 비율(예컨대, 0.1)보다 크기 때문에 비주기성 데이터로 분류할 수 있다.

S1008 단계의 판단결과, 임계값(threshold) 초과 주파수 성분의 비율이 기준 비율 미만인 사용자 피드백 데이터 셋이면, 유효성 판정부(234)는 해당 사용자 피드백 데이터 셋을 주기성 데이터로 분류한다(S1010).

만약, S1008 단계의 판단결과, 임계값(threshold) 초과 주파수 성분의 비율이 기준 비율 미만인 사용자 피드백 데이터 셋이 아니면, 유효성 판정부(234)는 해당 사용자 피드백 데이터 셋을 비주기성 데이터로 분류한다(S1012).

만약, S1004 단계의 판단결과, 피크의 개수가 기준 피크 개수 이상이 아닌 사용자 피드백 데이터 셋이면, 유효성 판정부(234)는 해당 사용자 피드백 데이터 셋을 비주기성 데이터로 판단하여 비학습 데이터로 분류할 수 있다.

또한, S1006 단계의 판단결과, 임계값 초과 주파수 성분의 비율이 기준 비율 미만이 아닌 사용자 피드백 데이터 셋이면, 유효성 판정부(234)는 해당 사용자 피드백 데이터 셋을 비주기성 데이터로 판단하여 비학습 데이터로 분류할 수 있다.

도 14는 본 발명의 일 실시예에 따른 사용자 피드백 데이터의 노이즈 포함 여부를 판정하는 방법을 설명하기 위한 흐름도이다.

도 14를 참조하면, 유효성 판정부(234)는 주기성을 갖는 사용자 피드백 데이터 셋에 대해 같은 값을 갖는 데이터의 비율이 기 설정된 기준 비율 미만인지를 판단한다(S1402).

S1402 단계의 판단결과, 같은 값을 갖는 데이터의 비율이 기 설정된 기준 비율 미만이면, 유효성 판정부(234)는 해당 사용자 피드백 데이터 셋을 전력사용데이터와 비교하여(S1404), 사용자 피드백 데이터와 전력사용데이터의 부합률이 기준 부합률을 초과하는지를 판단한다(S1406). 즉, 유효성 판정부(234)는 사용자 피드백 데이터 셋과 전력사용데이터의 패턴(예컨대, 사용량의 변화, 임계값 등)을 비교하여, 사용자 피드백 데이터와 전력사용데이터가 얼마나 잘 맞는지를 나타내는 부합률을 확인할 수 있다.

S1406 단계의 판단결과 부합률이 기준 부합률을 초과하면, 유효성 판정부(234)는 해당 사용자 피드백 데이터 셋을 학습 데이터로 분류한다(S1408).

만약, S1406 단계의 판단결과 부합률이 기준 부합률을 초과하지 않으면, 유효성 판정부(234)는 해당 사용자 피드백 데이터 셋을 비학습 데이터로 분류한다(S1408). 즉, 사용자 피드백 데이터와 전력사용데이터의 부합률이 기준 부합률을 초과하지 않으면, 유효성 판정부(234)는 해당 사용자 피드백 데이터 셋이 노이즈를 많이 포함하고 있어 학습에 적합하지 않다고 판단하여 비학습 데이터로 분류할 수 있다.

상술한 바와 같이 본 발명의 일 실시예에 따른 상업시설 영업시간 예측모델 생성 장치 및 방법은, 영업예측 서비스를 이용하는 사용자의 피드백 데이터를 이용하여 상업시설 영업시간 예측모델의 학습에 사용되는 레이블 데이터를 자동으로 생성함으로써, 상업시설 영업시간 예측모델의 학습을 자동화할 수 있으며, 학습의 자동화를 통해 상업시설 영업시간 예측모델의 예측 정확도를 향상시킬 수 있다.

본 발명은 도면에 도시된 실시예를 참고로 하여 설명되었으나, 이는 예시적인 것에 불과하며, 당해 기술이 속하는 분야에서 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서 본 발명의 진정한 기술적 보호범위는 아래의 특허청구범위에 의해서 정하여져야 할 것이다.

100 : 영업정보 제공 서버
110 : 영업정보 제공부
120 : 피드백 데이터 수신 처리부
200 : 상업시설 영업시간 예측모델 생성 장치
210 : 데이터베이스
215 : 전력사용정보 수집부
220 : 피드백 수집부
230 : 레이블 데이터 생성부
240 : 학습부
250 : 검증부
260 : 제어부

Claims

상업시설의 전력사용량 데이터를 수집하는 전력사용정보 수집부;
상기 상업시설의 영업정보에 대한 사용자 피드백 데이터를 수집하는 피드백 수집부;
기 설정된 일정기간동안 누적된 사용자 피드백 데이터를 이용하여 상기 상업시설의 영업여부를 의미하는 레이블 데이터를 생성하는 레이블 데이터 생성부; 및
상기 레이블 데이터와 전력사용량 데이터를 이용하여 상업시설 영업시간 예측모델을 생성하는 학습부를 포함하되,
상기 레이블 데이터 생성부는,
오염되지 않은 사용자 피드백 데이터에 대해 유효성을 판정하는 유효성 판정부를 포함하고,
상기 유효성 판정부는,
상기 오염되지 않은 사용자 피드백 데이터 셋에 대해 주기성 데이터인지를 판단하고, 주기성 데이터인 경우 노이즈성 데이터인지를 식별하되,
상기 유효성 판정부는,
오염되지 않은 각 사용자 피드백 데이터 셋에 FFT를 적용하여 주파수 도메인의 사용자 피드백 데이터로 변환하고, 상기 주파수 도메인의 사용자 피드백 데이터의 우세 주파수(Dominat Frequency)의 크기, Peak의 개수 및 임계값 초과 주파수 성분의 비율 중 적어도 하나를 이용하여 상기 사용자 피드백 데이터 셋이 주기성 데이터인지를 판단하는 것을 특징으로 하는 상업시설 영업시간 예측모델 생성 장치.
제1항에 있어서,
상기 상업시설 영업시간 예측모델의 예측 정확도를 산출하고, 상기 예측 정확도에 기초하여 상기 상업시설 영업시간 예측모델을 검증하는 검증부를 더 포함하는 것을 특징으로 하는 상업시설 영업시간 예측모델 생성 장치.
제1항에 있어서,
상기 레이블 데이터 생성부는,
상기 사용자 피드백 데이터의 오염 여부를 판정하는 오염 데이터 판정부; 및
유효한 사용자 피드백 데이터를 이용하여 레이블 데이터를 생성하는 레이블 생성부를 더 포함하는 것을 특징으로 하는 상업시설 영업시간 예측모델 생성 장치.
제3항에 있어서,
상기 오염 데이터 판정부는,
상기 누적된 사용자 피드백 데이터를 특정 주기의 사용자 피드백 데이터 셋으로 분류하고, 상기 분류된 각 사용자 피드백 데이터 셋에 대해, 단위시간당 사용자 피드백 데이터 발생 분포, 기 설정된 시간동안 동일 IP에서 발생한 사용자 피드백 데이터 횟수, 및 기 설정된 시간동안 사용자 피드백 데이터 발생 지역의 개수 중 적어도 하나에 기초하여 오염 데이터 여부를 판정하는 것을 특징으로 하는 상업시설 영업시간 예측모델 생성 장치.
삭제
삭제
제1항에 있어서,
상기 유효성 판정부는,
상기 주기성을 갖는 사용자 피드백 데이터 셋에 대해 같은 값을 갖는 데이터의 비율, 및 전력사용량과 사용자 피드백 데이터의 부합률에 기초하여 노이즈 데이터를 식별하는 것을 특징으로 하는 상업시설 영업시간 예측모델 생성 장치.
제1항에 있어서,
상기 학습부는,
학습에 필요한 하이퍼파라미터를 최적화하고, 상기 최적화된 하이퍼파라미터, 레이블 데이터 및 상기 전력사용량 데이터를 이용하여 상기 상업시설 영업시간 예측모델을 생성하는 것을 특징으로 하는 상업시설 영업시간 예측모델 생성 장치.
제1항에 있어서,
상기 상업시설의 실시간 전력사용량 데이터를 입력받아, 상기 실시간 전력사용량 데이터를 상기 학습부에서 생성된 상업시설 영업시간 예측모델에 반영하여 상업시설의 영업시간을 예측하고, 상기 예측한 상업시설의 영업시간 및 피드백 데이터 요청 정보를 포함하는 상업시설의 영업 정보를 외부에 제공하는 영업정보 제공부; 및
상기 피드백 데이터 요청 정보를 통해 사용자 피드백 데이터를 수신하는 피드백 데이터 수신 처리부를 더 포함하는 것을 특징으로 하는 상업시설 영업시간 예측모델 생성 장치.
전력사용정보 수집부가 상업시설의 전력사용량 데이터를 수집하는 단계;
피드백 수집부가 상기 상업시설의 영업정보에 대한 사용자 피드백 데이터를 수집하는 단계;
레이블 데이터 생성부가 기 설정된 일정기간동안 누적된 사용자 피드백 데이터를 이용하여 상기 상업시설의 영업여부를 의미하는 레이블 데이터를 생성하는 단계; 및
학습부가 상기 레이블 데이터와 전력사용량 데이터를 이용하여 상업시설 영업시간 예측모델을 생성하는 단계를 포함하되,
상기 레이블 데이터를 생성하는 단계는,
오염 데이터 판정부가 상기 사용자 피드백 데이터의 오염 여부를 판정하는 단계;
유효성 판정부가 오염되지 않은 사용자 피드백 데이터에 대해 유효성을 판정하는 단계; 및
레이블 생성부가 유효한 사용자 피드백 데이터를 이용하여 레이블 데이터를 생성하는 단계를 포함하고,
상기 유효성을 판정하는 단계에서,
상기 유효성 판정부는, 오염되지 않은 사용자 피드백 데이터 셋에 대해 주기성 데이터인지를 판단하고, 주기성 데이터인 경우 노이즈성 데이터인지를 식별하되,
상기 유효성 판정부는, 상기 오염되지 않은 각 사용자 피드백 데이터 셋에 FFT를 적용하여 주파수 도메인의 사용자 피드백 데이터로 변환하고, 상기 주파수 도메인의 사용자 피드백 데이터의 우세 주파수(Dominat Frequency)의 크기, Peak의 개수 및 임계값 초과 주파수 성분의 비율 중 적어도 하나를 이용하여 상기 사용자 피드백 데이터 셋이 주기성 데이터인지를 판단하는 것을 특징으로 하는 상업시설 영업시간 예측모델 생성 방법.
제10항에 있어서,
검증부가 상기 상업시설 영업시간 예측모델의 예측 정확도를 산출하고, 상기 예측 정확도에 기초하여 상기 상업시설 영업시간 예측모델을 검증하는 단계를 더 포함하는 것을 특징으로 하는 상업시설 영업시간 예측모델 생성 방법.
삭제
제10항에 있어서,
상기 사용자 피드백 데이터의 오염 여부를 판정하는 단계에서,
상기 오염 데이터 판정부는, 상기 누적된 사용자 피드백 데이터를 특정 주기의 사용자 피드백 데이터 셋으로 분류하고, 상기 분류된 각 사용자 피드백 데이터 셋에 대해, 단위시간당 사용자 피드백 데이터 발생 분포, 기 설정된 시간동안 동일 IP에서 발생한 사용자 피드백 데이터 횟수, 및 기 설정된 시간동안 사용자 피드백 데이터 발생 지역의 개수 중 적어도 하나에 기초하여 오염 데이터 여부를 판정하는 것을 특징으로 하는 상업시설 영업시간 예측모델 생성 방법.
삭제
삭제
제10항에 있어서,
상기 유효성 판정부는, 상기 주기성을 갖는 사용자 피드백 데이터 셋에 대해 같은 값을 갖는 데이터의 비율, 및 전력사용량과 사용자 피드백 데이터의 부합률에 기초하여 노이즈 데이터를 식별하는 것을 특징으로 하는 상업시설 영업시간 예측모델 생성 방법.
제10항에 있어서,
상기 상업시설 영업시간 예측모델을 생성하는 단계에서,
상기 학습부는, 학습에 필요한 하이퍼파라미터를 최적화하고, 상기 최적화된 하이퍼파라미터, 레이블 데이터 및 상기 전력사용량 데이터를 이용하여 상기 상업시설 영업시간 예측모델을 생성하는 것을 특징으로 하는 상업시설 영업시간 예측모델 생성 방법.
제10항에 있어서,
영업정보 제공부가 상기 상업시설의 실시간 전력사용량 데이터를 입력받아, 상기 실시간 전력사용량 데이터를 상기 학습부에서 생성된 상업시설 영업시간 예측모델에 반영하여 상업시설의 영업시간을 예측하고, 상기 예측한 상업시설의 영업시간 및 피드백 데이터 요청 정보를 포함하는 상업시설의 영업 정보를 외부에 제공하는 단계; 및
피드백 데이터 수신 처리부가 상기 피드백 데이터 요청 정보를 통해 사용자 피드백 데이터를 수신하는 단계를 더 포함하는 것을 특징으로 하는 상업시설 영업시간 예측모델 생성 방법.