WO2023106608A1

WO2023106608A1 - 개인정보 침해를 방지하기 위한 빅데이터 분석 장치, 동작 방법 및 비-일시적 컴퓨터 판독가능 저장 매체

Info

Publication number: WO2023106608A1
Application number: PCT/KR2022/015745
Authority: WO
Inventors: 박재석; 김중근; 박동건; 이민규
Original assignee: 삼성전자 주식회사
Priority date: 2021-12-06
Filing date: 2022-10-17
Publication date: 2023-06-15

Abstract

일(an) 실시예에 따른 빅데이터 분석 장치의 동작 방법은, 사용자 쿼리를 수신하는 동작과, 상기 수신된 사용자 쿼리를 복수의 서브 쿼리들로 분해하는 동작과, 상기 복수의 서브 쿼리들 중 개인 정보를 참조하도록 구성되는 제1 서브 쿼리들을 식별하는 동작과, 상기 개인 정보에 접근 가능한 컴포넌트에 기반하여, 상기 제1 서브 쿼리들을 상기 개인 정보에 독립적인 제2 서브 쿼리들로 재구성하는 동작과, 상기 제2 서브 쿼리들과, 상기 복수의 서브 쿼리들 중 상기 개인 정보를 참조하도록 구성된 상기 제1 서브 쿼리들을 제외한 나머지 서브 쿼리들을 병합하여 재구성 쿼리를 생성하는 동작을 포함할 수 있다.

Description

개인정보 침해를 방지하기 위한 빅데이터 분석 장치, 동작 방법 및 비-일시적 컴퓨터 판독가능 저장 매체

아래의 설명들은 개인정보 침해를 방지하기 위한 빅데이터 분석 장치, 동작 방법 및 비-일시적 컴퓨터 판독가능 저장 매체에 관한 것이다.

O2O(online to offline), 메타버스(metaverse)를 포함하는 비대면(contactless) 서비스 상에서 유저들의 온라인 활동이 날로 증가하고 있다. 증가된 온라인 활동에 따라, 방대한 개인정보들이 클라우드 환경을 통해 수집되고 있다.

한편, 수집된 개인정보에 대한 유출, 오남용 및 불법 유통의 우려를 해소하기 위하여, 국가별로 개인정보에 대한 규제를 강화하는 노력이 심화되고 있다. 예를 들어, 한국의 경우 데이터 3법(개인정보보호법, 정보통신망법, 신용정보법)을 제정하였으며, 유럽 연합의 경우 GDPR(general data protection regulation), 미국의 경우 CCPA(California customer privacy act)를 제정하는 등 국가별로 개인정보 보호를 위한 규제들이 작동하고 있다.

법률로 강제되는 수준의 개인정보 보호 장치를 갖춘 망분리된 환경에서 유저들에 대한 빅데이터를 분석하는 플랫폼의 이용 주체인 사용자는 다양한 기능을 포함하는 대화형 분석 인터페이스를 제공받을 수 없다. 이에 따라, 빅데이터 분석 장치를 포함하는 플랫폼의 사용은 소원해졌으며, 데이터 기반의 조직 문화를 구축하는데 방해가 되고 있다. 망분리된 환경은, 유저 데이터 분석을 위한 다양한 기능들의 활용을 원천적으로 차단하여 유저 인사이트 발굴을 어렵게 하거나 데이터 분석을 시간 소모적인 작업으로 만듦으로써 생산성에 악영향을 끼치고 있다.

또한, 유저가 사용하는 다양한 서비스로부터 수집된 데이터를 결합하여 분석하기 위하여, 서비스 각각의 약관과 법률 검토 내용을 숙지하고 이를 데이터 분석 로직에 반영하는 노력이 요구된다. 하지만 개인정보 보호를 강화하기 위한 잦은 법률 개정 등을 고려하면, 개인정보 보호를 완벽히 준수하는 데이터 분석 로직을 만들어내는 데는 사용자의 많은 비용 및 시간이 소요되며, 이에 대한 검증도 쉽지 않아 개인정보 보호 침해의 위험 역시 존재하는 단점이 있다.

본 문서에서 이루고자 하는 기술적 과제는 상술한 기술적 과제로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

일(an) 실시예에 따른 빅데이터 분석 장치의 동작 방법은, 사용자 쿼리를 수신하는 동작을 포함할 수 있다. 상기 방법은, 상기 수신된 사용자 쿼리를 복수의 서브 쿼리들로 분해하는 동작을 포함할 수 있다. 상기 방법은 상기 복수의 서브 쿼리들 중 개인 정보를 참조하도록 구성되는 제1 서브 쿼리들을 식별하는 동작을 포함할 수 있다. 상기 방법은 상기 개인 정보에 접근 가능한 컴포넌트에 기반하여, 상기 제1 서브 쿼리들을 상기 개인 정보에 독립적인 제2 서브 쿼리들로 재구성하는 동작을 포함할 수 있다. 상기 방법은 상기 제2 서브 쿼리들과, 상기 복수의 서브 쿼리들 중 상기 개인 정보를 참조하도록 구성된 상기 제1 서브 쿼리들을 제외한 나머지 서브 쿼리들을 병합하여 재구성 쿼리를 생성하는 동작을 포함할 수 있다.

일 실시예에 따른 빅데이터 분석 장치는, 사용자 입력을 수신하기 위한 쿼리 인터페이스와, 쿼리를 서브 쿼리들로 분해하거나, 서브 쿼리들을 병합하기 위한 쿼리 재구성 모듈과, 요청된 쿼리에 대한 연산을 수행하여 결과 데이터를 출력하기 위한 쿼리 엔진과, 서브 쿼리들에 사용될 필터링 조건들을 생성하는 자연어 해석 모듈을 포함할 수 있다. 상기 빅데이터 분석 장치는, 상기 쿼리 인터페이스를 통해, 사용자 쿼리를 수신하도록 구성될 수 있다. 상기 빅데이터 분석 장치는, 상기 수신된 사용자 쿼리를 복수의 서브 쿼리들로 분해하도록 구성될 수 있다. 상기 빅데이터 분석 장치는, 상기 쿼리 재구성 모듈을 통해, 상기 복수의 서브 쿼리들 중 개인 정보를 참조하도록 구성되는 제1 서브 쿼리들을 식별하도록 구성될 수 있다. 상기 빅데이터 분석 장치는, 상기 쿼리 재구성 모듈을 통해, 상기 개인 정보에 접근 가능한 컴포넌트에 기반하여, 상기 제1 서브 쿼리들을 상기 개인 정보에 독립적인 제2 서브 쿼리들로 재구성하도록 구성될 수 있다. 상기 빅데이터 분석 장치는, 상기 쿼리 재구성 모듈을 통해, 상기 제2 서브 쿼리들과, 상기 복수의 서브 쿼리들 중 상기 개인 정보를 참조하도록 구성된 상기 제1 서브 쿼리들을 제외한 나머지 서브 쿼리들을 병합하여 재구성 쿼리를 생성하도록 구성될 수 있다.

일 실시예에 따른 비일시적 컴퓨터 판독가능 저장 매체(non-transitory computer readable storage medium)는, 하나 이상의 프로그램들을 저장할 수 있다. 상기 하나 이상의 프로그램들은, 쿼리 인터페이스, 쿼리 재구성 모듈, 쿼리 엔진, 및 자연어 해석 모듈을 실행하기 위한 인스트럭션들을 저장하도록 구성된 적어도 하나의 메모리를 가지는(with) 전자 장치의 프로세서에 의해 실행될 시, 상기 쿼리 인터페이스를 통해, 사용자 쿼리를 수신하도록 구성될 수 있다. 상기 하나 이상의 프로그램들은, 상기 프로세서에 의해 실행될 시, 상기 쿼리 재구성 모듈을 통해, 상기 수신된 사용자 쿼리를 복수의 서브 쿼리들로 분해하고, 상기 쿼리 재구성 모듈을 통해, 상기 복수의 서브 쿼리들 중 개인 정보를 참조하도록 구성되는 제1 서브 쿼리들을 식별하도록 구성될 수 있다. 상기 하나 이상의 프로그램들은, 상기 프로세서에 의해 실행될 시, 상기 쿼리 재구성 모듈을 통해, 상기 개인 정보에 접근 가능한 컴포넌트에 기반하여, 상기 제1 서브 쿼리들을 상기 개인 정보에 독립적인 제2 서브 쿼리들로 재구성하도록 구성될 수 있다. 상기 하나 이상의 프로그램들은, 상기 프로세서에 의해 실행될 시, 상기 쿼리 재구성 모듈을 통해, 상기 제2 서브 쿼리들과, 상기 복수의 서브 쿼리들 중 상기 개인 정보를 참조하도록 구성된 상기 제1 서브 쿼리들을 제외한 나머지 서브 쿼리들을 병합하여 재구성 쿼리를 생성하도록 구성될 수 있다.

일 실시예에 따른, 개인정보 보호 위반에 강건한 빅데이터 분석 장치, 동작 방법 및 비-일시적 컴퓨터 판독가능 기록 매체는, 보안과 개인정보 보호의 관점에서 활용의 한계를 내재한 기존 플랫폼을 개선하여, 유저들의 개인정보에 대한 침해의 우려 없이 효율적인 분석을 수행하도록 할 수 있다. 이에 따라, 방대한 개인정보에 대한 분석 생산성을 높여, 데이터 기반의 빠른 의사결정을 가능케 하여 빠르게 변화하는 시장 상황에 대응하기 위한 솔루션을 제공할 수 있다.

본 개시에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

도 1은 다양한 실시예들에 따른, 네트워크 환경 내의 전자 장치의 블록도이다.

도 2는 다양한 실시예들에 따른, 전자 장치와 서버 장치를 포함하는 시스템의 예를 도시한다.

도 3은 다양한 실시예들에 따른, 데이터베이스 저장 장치의 간소화된(simplified) 블록도(block diagram)이다.

도 4는 다양한 실시예들에 따른 빅데이터 분석 장치의 간략화된 블록도이다.

도 5는 다양한 실시예들에 따른, 빅데이터 분석 장치의 동작 방법을 나타내는 순서도이다.

도 6은 다양한 실시예들에 따른, 빅데이터 분석 장치의 동작 방법을 나타내는 순서도이다.

도 7은 다양한 실시예들에 따른, 제2 서브 쿼리들을 재구성하는 쿼리 재구성 모듈의 동작 방법을 나타내는 순서도이다.

도 1은 다양한 실시예들에 따른, 네트워크 환경(100) 내의 전자 장치(101)의 일 예를 도시한다.

도 1을 참조하면, 네트워크 환경(100)에서 전자 장치(101)는 서버 장치(202)에게 액세스할 수 있다. 예를 들어, 전자 장치(101)는 데이터베이스에 저장된 유저 데이터를 이용한 데이터 분석을 수행하기 위하여 서버 장치(202)에게 액세스를 요청할 수 있다.

일 실시예에 따라, 전자 장치(101)는 SBC(server based computing) 접속망(110)을 통해 서버 장치(202)에게 액세스할 수도 있고, 일반 접속망(120)을 통해 서버 장치(202)에게 액세스할 수도 있다. 예를 들어, 전자 장치(101)는 SBC 접속망(110)을 통해 서버 장치(202)에 액세스할 수 있다. 이 때, 전자 장치(101)는 서버 장치(202)의 데이터베이스에 저장된 유저 데이터들 중 개인정보 속성을 갖는 데이터에 액세스할 수 있는 권한을 가질 수 있다. 예를 들어, SBC 접속망(110)을 경유하는 전자 장치(101)는 개인정보 리더 역할(reader role)을 획득할 수 있다.

일 실시예에 따라, 전자 장치(101)는 일반 접속망(120)을 통해 서버 장치(202)에 액세스할 수 있다. 이 때, 전자 장치(101)는 서버 장치(202)의 데이터베이스에 저장된 유저 데이터들 중 개인정보 속성을 갖는 데이터에 액세스할 수 있는 권한을 가질 수 없다. 일반 접속망(120)를 경유하는 전자 장치(101)가 개인정보 속성을 갖는 데이터의 조회를 요청하는 경우, 상기 요청은 거절(reject)될 수 있다. 따라서, 개인정보 속성을 포함하는 유저 데이터를 이용한 데이터 분석을 수행하고자 하는 전자 장치(101)는 SBC 접속망(110)을 경유하도록 강제될 수 있다.

전술한 실시예에서는, 전자 장치(101)는 서버 장치(202)에게 SBC 접속망(110) 및 일반 접속망(120)을 이용한 SBC 방식의 논리적 망분리에 기반하여 액세스하는 것을 기준으로 도시되었으나, 이에 제한되는 것은 아니다. 다양한 실시예들에 따라, 전자 장치(101)는 전자 장치(101)의 내부에 서버 장치(202)의 데이터베이스에 저장된 유저 데이터 중 개인정보 속성에 상응하는 데이터에 액세스 가능한 로컬 접속망을 구동하는 제1 OS(operating system), 서버 장치(202)의 데이터베이스에 저장된 유저 데이터 중 개인정보 속성에 상응하는 데이터를 제외한 나머지 데이터들에 액세스 가능한 외부 접속망을 구동하는 제2 OS를 분리할 수 있다. 즉, 전자 장치(101)는 CBC(client based computing) 방식에 기반한 논리적 망분리를 이용할 수도 있다.

도 2는 다양한 실시예들에 따른, 전자 장치(201)와 서버 장치(202) 및 유저 서비스 서버 장치(203)를 포함하는 시스템(200)의 예를 도시한다.

도 2를 참조하면, 시스템(200)은 전자 장치(201), 서버 장치(202) 및 유저 서비스 서버 장치(203)를 포함할 수 있다. 전자 장치(201)는 도 1의 전자 장치(101)에 상응할 수 있다. 서버 장치(202)는 도 1의 서버(108)에 상응할 수 있다.

일 실시예에 따라, 전자 장치(201)는 서버 장치(202)에게 사용자 쿼리를 송신할 수 있다. 상기 사용자 쿼리는, 서버 장치(202)에 저장된 데이터 중 클라이언트(예를 들어, 전자 장치(201))가 원하는 조건의 특정 데이터를 요청하는 언어의 집합을 지칭할 수 있다. 예를 들어, 사용자 쿼리는 데이터베이스 시스템(database system, DBMS)에서 자료를 관리 및 처리하기 위한 구조적 질의 언어(structured query language, SQL)에 기반할 수 있다.

일 실시예에 따라, 서버 장치(202)는 상기 사용자 쿼리를 처리하여 결과 데이터 셋(set)을 출력할 수 있다. 상기 결과 데이터 셋은, 데이터베이스에 저장된 데이터 중 상기 클라이언트가 원하는 조건을 만족하는 데이터의 집합에 상응할 수 있다.

일 실시예에 따라, 서버 장치(202)는 데이터베이스 저장 장치(210)를 포함할 수 있다. 데이터베이스 저장 장치(210)는 서비스 제공 과정에서 획득한 유저 데이터에 대한 로우(raw) 데이터 및 상기 로우 데이터를 공통의 형식으로 변환하여 관리하는 데이터베이스를 포함할 수 있다. 또한, 데이터베이스 저장 장치(210)는 개인정보 보호를 준수하기 위한 데이터를 포함할 수 있다. 예를 들어, 데이터베이스 저장 장치(210)는 개인정보 처리에 관련된 법률 약관의 개정 이력에 대한 정보를 포함할 수 있다. 데이터베이스 저장 장치(210)는 상기 법률 약관에 대한 검토 결과에 대한 정보를 포함할 수 있다. 상기 법률 약관의 개정 이력에 대한 정보 또는 상기 검토 결과에 대한 정보는 메타데이터로 저장될 수 있다.

일 실시예에 따라, 서버 장치(202)는 빅데이터 분석 장치(220)를 포함할 수 있다. 빅데이터 분석 장치(220)는 상기 사용자 쿼리를 수신하여, 상기 사용자 쿼리의 개인정보 보호 위반의 가능성이 있는지 판단할 수 있다. 예를 들어, 빅데이터 분석 장치(220)는 상기 사용자 쿼리를 복수의 서브 쿼리들로 분해하고, 상기 서브 쿼리들의 참조 인자에 기반하여 개인정보 보호 위반의 가능성을 판단할 수 있다. 빅데이터 분석 장치(220)는 상기 서브 쿼리들 중 적어도 하나의 서브 쿼리가 개인정보 보호를 위반할 가능성이 식별되는 경우, 상기 사용자 쿼리를 개인정보에 독립적인(independent) 재구성 쿼리로 변환할 수 있다. 예를 들어, 서브 쿼리들 중 개인정보에 상응하는 컬럼(column)을 파티셔닝(partitioning)의 키(key)로 사용하는 분석 함수를 포함하는 서브 쿼리가 존재하는 경우, 빅데이터 분석 장치(220)는 상기 개인정보에 상응하는 컬럼에 따라 역정규화(denormalization)하여 재구조화된 중첩 구조 테이블(nested structure table)을 참조하도록 서브 쿼리를 재구성할 수 있다. 다른 예를 들어, 빅데이터 분석 장치(220)는 상기 복수의 서브 쿼리들 중 상기 개인정보에 상응하는 컬럼을 조회(select)하거나, 상기 개인정보에 상응하는 컬럼을 차원(dimension)으로 사용하는 집계 함수를 포함하는 서브 쿼리를 식별할 수 있다. 이 경우, 빅데이터 분석 장치(220)는 상기 개인정보에 상응하는 컬럼에 액세스할 권한을 갖는 집계 함수를 생성하여 집계 연산을 대행(delegation)하도록 제어할 수 있다. 상기 액세스할 권한을 갖는 집계 함수는, 허가된(authorized) 집계 함수로 지칭될 수 있다. 서버 장치(202)에 포함되는 데이터베이스 저장 장치(210) 및 빅데이터 분석 장치(220)의 세부 구성은 후술하기로 한다.

일 실시예에 따라, 유저 서비스 서버 장치(203)는 서버 장치(202)에게 유저 서비스와 관련된 정보를 제공할 수 있다. 상기 유저 서비스는, CS 상담 서비스, 유저 맞춤 광고 서비스를 적어도 포함할 수 있다. 일 실시예에 따라, 상기 유저 서비스와 관련된 정보는, 상기 유저 서비스를 제공하는 과정에서 획득된 유저 데이터를 포함할 수 있다. 예를 들어, 상기 유저 서비스를 제공하는 과정에서 획득된 유저 데이터는, CS 상담을 요청한 유저를 식별하기 위한 정보를 포함할 수 있다. 상기 유저를 식별하기 위한 정보는, 장치 식별자(DEVICE_ID), 유저 식별자(USER_ID)를 적어도 포함할 수 있다. 다른 예를 들어, 상기 유저 서비스를 제공하는 과정에서 획득된 유저 데이터는 유저 맞춤 광고 서비스를 제공하기 위한 정보를 포함할 수 있다. 상기 유저 맞춤 광고 서비스를 제공하기 위한 정보는, 유저 식별자(USER_ID), 구매 상품(BUY_PRODUCT), 구매 업종(BUSINESS_CATEGORY), 구매 이력(BUY_HISTORY)을 적어도 포함할 수 있다. 즉, 유저 서비스 서버 장치(203)는, 상기 유저 서비스를 제공하는 과정에서 획득된 상기 유저 데이터를 서버 장치(202)에게 제공할 수 있다. 상기 유저 데이터는, 데이터베이스 저장 장치(210)에 저장되어 빅데이터 분석 장치(220)에 의해 유저 데이터를 분석하는 데에 사용될 수 있다.

일 실시예에 따라, 상기 유저 서비스와 관련된 정보는, 상기 유저 서비스에 대한 약관 정보 및 법률 검토의견 정보를 포함할 수 있다. 예를 들어, 상기 약관 정보는, 유저가 CS 상담 서비스를 제공받는 것을 동의한 약관에 대한 내용, 유저가 유저 맞춤 광고 서비스를 제공받는 것을 동의한 약관 내용을 포함할 수 있다. 유저 서비스 서버 장치(203)는 유저에게 제공할 수 있는 복수의 서비스들 각각에 대한 약관 정보를 서버 장치(202)에게 제공할 수 있다. 법률 검토의견 정보는, 개인정보 보호 법률을 위반을 방지하기 위한 정보를 포함할 수 있다. 예를 들어, 빅데이터 분석 장치(220)는 서로 다른 유저 서비스를 통해 각각 획득된 유저 데이터를 결합하여 분석할 수 있다. 법률 검토의견에 기반하지 않은 유저 데이터의 결합 및 분석은, 개인정보 보호 법률 위반의 여지가 있다. 예를 들어, 유저 맞춤 광고 서비스와 CS 상담 서비스를 통해 각각 획득된 유저 데이터를 결합 분석하는 경우, CS 상담 서비스를 통해 획득된 유저 데이터 중 전화번호는 상기 결합 분석에 이용할 수 있으나, 장치 식별자(DEVICE_ID)는 상기 결합 분석에 이용하는 것이 법률 위반을 야기할 수 있다. 이 경우, 법률 검토의견 정보는, CS 상담 서비스와 유저 맞춤 광고 서비스를 결합 시, 유저 데이터 중 장치 식별자(DEVICE_ID)는 이용 가능한 정보에서 제외할 것을 지시하기 위한 정보를 포함할 수 있다. 즉, 유저 서비스 서버 장치(203)는, 상기 유저 서비스를 제공하는 과정에서 획득된 상기 유저 데이터를 서버 장치(202)에게 제공할 수 있다. 상기 유저 데이터는, 데이터베이스 저장 장치(210)에 저장되어 빅데이터 분석 장치(220)에 의해 유저 데이터를 분석하는 데에 사용될 수 있다.

도 3은 다양한 실시예들에 따른, 데이터베이스 저장 장치(210)의 간소화된(simplified) 블록도(block diagram)이다.

도 3을 참조하면, 데이터베이스 저장 장치(210)는 PN(privacy notice) 저장소(212), UR(user right) 저장소(214), 중첩 구조 테이블 저장소(216) 및 데이터 웨어하우스(218)를 포함할 수 있다.

일 실시예에 따라, PN 저장소(212)는 개인정보 보호를 준수하기 위한 약관에 대한 정보, 상기 약관의 개정 히스토리에 대한 정보, 개인정보 보호의 법률에 대한 정보, 상기 법률에 대한 법리적 검토 의견에 대한 정보를 적어도 포함할 수 있다. 예를 들어, PN 저장소(212)는 서비스 종류별로 유저에게 고지된 개인정보 처리방침의 이력을 관리하는 히스토리 정보를 포함할 수 있다. 일 실시예에 따라, PN 저장소(212)는 상기 정보들을 메타데이터로 저장할 수 있다. 예를 들어, PN 저장소(212)는 서비스 종류별 개인정보 보호를 준수하기 위한 약관들, 상기 약관들 각각에 대한 법리적 검토 의견들을 메타데이터로 저장할 수 있다.

일 실시예에 따라, UR 저장소(214)는 서비스별로 요청된 유저 권리를 관리하기 위한 메타데이터를 저장할 수 있다. 예를 들어, UR 저장소(214)는 제1 서비스에 대하여 요청된 유저 권리를 제1 권리 정보로 저장할 수 있다. UR 저장소(214)는 제2 서비스에 대하여 요청된 유저 권리를 제2 권리 정보로 저장할 수 있다. 일 실시예에 따라, 상기 제1 권리 정보는 상기 제2 권리 정보와 서로 상이할 수 있다. 예를 들어, 유저는 제1 서비스에 대하여 처리제한권을 요청할 수 있고, 제2 서비스에 대하서 상기 처리제한권을 요청하지 않을 수 있다. 상기 처리제한권은, 개인정보의 정확성, 처리의 합법성 등에 대하여 증빙을 위해 보존 필요성이 있는 경우, 이용을 제한하되 삭제를 보류할 수 있도록 요구할 수 있는 권리일 수 있다. 즉, UR 저장소(214)는 각각의 서비스별로 유저가 요청한 개인정보에 대한 권리를 메타데이터로 저장할 수 있다.

일 실시예에 따라, 데이터베이스 저장 장치(210)는 중첩 구조 테이블 저장소(216)를 포함할 수 있다. 중첩 구조 테이블 저장소(216)는 유저 데이터들을 포함하는 복수의 테이블들을, 미리 지정된 컬럼을 기준으로 재구조화한 테이블을 지칭할 수 있다. 미리 지정된 컬럼은, 개인정보 속성을 가지는 복수의 컬럼들 중 적어도 하나의 컬럼을 지칭할 수 있다. 예를 들어, 중첩 구조 테이블 저장소(216)는 상기 로우 데이터를 유저 아이디(USER_ID)를 기준으로 재구조화한 테이블을 저장할 수 있고, 상기 로우 데이터를 장치 식별자(DEVICE_ID)에 따라 재구조화한 테이블을 저장할 수도 있다. 상기 장치 식별자(DEVICE_ID)는, IMEI(international mobile equipment identity), MEID(mobile equipment identifier), ESN(electronic serial number), pESM(pseudo ESN), 시리얼 넘버(serial number), MAC(media access control) 주소, 및 UUID(universally unique identifier) 중 적어도 하나를 포함할 수 있다. 또한, 중첩 구조 테이블 저장소(216)는 상기 로우 데이터를 유저 아이디(USER_ID)에 따라 재구조화한 이후, 다시 장치 식별자(DEVICE_ID)에 따라 다시 재구조화한 테이블을 저장할 수도 있다.

일 실시예에 따라, 데이터베이스 저장 장치(210)는 데이터 웨어하우스(218)를 포함할 수 있다. 데이터 웨어하우스(218)는 유저 데이터를 포함하는 로우 데이터를 가공하여 데이터 분석에 사용되는 특별한 유형의 데이터베이스를 저장할 수 있다. 예를 들어, 데이터 웨어하우스(218)는 개인정보 속성 태그 관리 모듈(미도시)을 더 포함할 수 있다. 데이터 웨어하우스(218)는 수집된 유저 데이터를 개인정보 속성에 상응하는 컬럼들에 따라 태그할 수 있다.

도 4는 다양한 실시예들에 따른 빅데이터 분석 장치(220)의 간략화된 블록도이다.

도 4를 참조하면, 빅데이터 분석 장치(220)는 쿼리 엔진(222), 쿼리 재구성 모듈(224), 자연어 해석 모듈(226), 및 기능 통합 모듈(228)을 포함할 수 있다.

일 실시예에 따라, 쿼리 엔진(222)은 쿼리 재구성 모듈(224)에 의해 사용자 쿼리로부터 변환된 최종 쿼리를 수행할 수 있다. 쿼리 엔진(222)은 상기 최종 쿼리에 대한 수행 결과로서, 결과 데이터 셋(set)을 출력할 수 있다. 상기 결과 데이터 셋은, 사용자 쿼리가 요청한 조건의 데이터를 포함할 수 있다. 일 실시예에 따른 쿼리 엔진(222)은 쿼리 재구성 모듈(224)로부터 개인정보의 침해 우려가 없도록 재구성된 최종 쿼리를 수행할 수 있다.

일 실시예에 따라, 쿼리 재구성 모듈(224)은 사용자 쿼리를 변환할 수 있다. 쿼리 재구성 모듈(224)은 상기 사용자 쿼리가 개인정보 속성의 컬럼을 조회하거나, 개인정보 속성의 컬럼을 차원으로 하는 집계 함수를 포함하거나, 개인정보 속성의 컬럼을 파티셔닝의 키로 사용하는 분석 함수를 포함하는 것을 식별함에 응답하여, 상기 사용자 쿼리의 변환을 결정할 수 있다. 예를 들어, 쿼리 재구성 모듈(224)은 사용자 쿼리를 복수의 서브 쿼리들로 분해하고, 상기 분해된 서브 쿼리들 중 분석 함수를 포함하는 적어도 하나의 서브 쿼리를 식별할 수 있다. 상기 적어도 하나의 서브 쿼리에 포함되는 분석 함수가 개인정보 속성을 갖는 컬럼을 기준으로 파티셔닝하는 분석 함수에 상응하는 경우, 쿼리 재구성 모듈(224)은 중첩 구조 테이블 저장소(216)으로부터 중첩 구조 테이블을 참조하도록 서브 쿼리를 재구성할 수 있다. 상기 중첩 구조 테이블은 상기 분석 함수가 파티셔닝의 키로 설정한 개인정보 속성에 상응하는 컬럼을 기준으로 재조직된 테이블일 수 있다. 다른 예를 들어, 쿼리 재구성 모듈(224)은 사용자 쿼리를 복수의 서브 쿼리들로 분해하고, 상기 분해된 서브 쿼리들 중 집계 함수를 포함하는 적어도 하나의 서브 쿼리를 식별할 수 있다. 상기 적어도 하나의 서브 쿼리에 포함되는 집계 함수가 개인정보 속성을 갖는 컬럼을 참조 인자로 하는 함수인 경우, 쿼리 재구성 모듈(224)은 기능 통합 모듈(228)을 통해 허가 집계 함수를 생성하고, 상기 허가 집계 함수에게 실행을 위임할 수 있다.

자연어 해석 모듈(226)은 법률 약관과 약관의 법률 검토 의견에 대한 메타데이터에 기반하여, 필터링 조건들을 위한 서브 쿼리들을 생성할 수 있다. 미 도시되었으나, 자연어 해석 모듈(226)은 PN 저장소(212) 및 UR 저장소(214)로부터 메타데이터를 수신하고, 상기 메타데이터에 기반하여 규칙(rule)을 생성하는 PN 인터프리터(미도시) 및 UR 인터프리터(미도시)를 더 포함할 수 있다. 자연어 해석 모듈(226)은 상기 PN 인터프리터(미도시) 및 UR 인터프리터(미도시)를 통해 생성된 규칙으로부터 쿼리에 조건(predicate)을 생성하는 조건 생성기(미도시)를 더 포함할 수 있다. 예를 들어, 서비스 제공을 위한 약관(consent_version)은 타 서비스와의 결합 분석에 동의하는 내용을 추가하도록 개정될 수 있다. 개정 이전의 약관은 'version1'이고, 개정 이후의 약관은 'version2'일 수 있다. 자연어 해석 모듈(226)은 개정 이후의 약관에 동의한 유저에 한하여 타 서비스와의 결합 분석을 수행해야 하므로, 필터링 조건을 수행하는 WHERE 절에 상응하는 조건문을 생성할 수 있다. 상기 WHERE 절은 재구성 쿼리에 주입되는 조건문으로서, 상기 필터링 조건을 나타낼 수 있다. 자연어 해석 모듈(226)은 유저 권리의 범위에 대한 메타데이터에 기반하여, 필터링 조건들을 위한 서브 쿼리들을 생성할 수 있다. 예를 들어, 자연어 해석 모듈(226)은 UR 저장소(214)로부터 유저의 처리제한권이 활성화되어 있음을 지시하는 메타데이터를 수신한 경우, 유저 데이터의 변경을 방지하기 위한 필터링 조건의 서브 쿼리들을 생성할 수 있다.

기능 통합 모듈(228)은, 개인정보 속성을 참조하는 집계 함수의 연산을 대신 수행하는 함수를 생성하기 위한 모듈일 수 있다. 상기 연산을 대신 수행하는 함수는, 허가 집계 함수로 지칭될 수 있다. 상기 허가 집계 함수는, 개인정보 속성에 상응하는 컬럼에 대한 액세스 권한을 가질 수 있다. 빅데이터 분석 장치(220)는 기능 통합 모듈(228)을 통해 생성된 허가 집계 함수를 통해 집계 연산을 대신 수행하고, 수행 결과를 서브 쿼리의 형태로 획득하여 개인정보 속성을 직접 참조하는 것을 방지할 수 있다. 예를 들어, 상기 허가 집계 함수는, 유닉스 계열의 운영체제(예를 들어, 리눅스)에서 특수 권한을 부여하는 setuid와 유사할 수 있다. 다양한 실시예들에 따라, 기능 통합 모듈(228)은 신경망 네트워크에 기반하여 자연어 처리를 수행할 수 있다. 상기 신경망 네트워크는, GoogleNet, AlexNet, VGG Network 등과 같은 CNN(Convolution Neural Network), R-CNN(Region with Convolution Neural Network), RPN(Region Proposal Network), RNN(Recurrent Neural Network), S-DNN(Stacking-based deep Neural Network), S-SDNN(State-Space Dynamic Neural Network), Deconvolution Network, DBN(Deep Belief Network), RBM(Restricted Boltzman Machine), Fully Convolutional Network, 등 다양한 종류의 모델들을 포함할 수 있으나 이에 제한되지는 않는다.

도 5는 다양한 실시예들에 따른, 빅데이터 분석 장치(220)의 동작 방법을 나타내는 순서도이다.

도 5를 참조하면, 동작 500에서, 빅데이터 분석 장치(220)는 수집된 유저 데이터에 기반하여 개인정보 속성의 컬럼들을 포함하는 테이블들을 개인정보 속성에 따라 재구조화한 중첩 구조 테이블들을 생성 및 저장할 수 있다. 도 2를 함께 참조하면, 빅데이터 분석 장치(220)는 유저 서비스 서버 장치(203)로부터 유저 서비스를 제공하는 과정에서 획득된 유저 데이터를 수신할 수 있다. 상기 유저 데이터는, 개인정보 속성에 상응하는 데이터와 개인정보 속성에 상응하지 않는 데이터를 모두 포함하는 테이블일 수 있다. 빅데이터 분석 장치(220)는 개인정보 속성에 상응하는 데이터를 포함하는 유저 데이터의 테이블을 수신함에 응답하여, 상기 테이블을 중첩 구조 테이블로 재구조화할 수 있다. 예를 들어, 분석 함수의 파티셔닝의 키가 개인정보 속성에 상응하는 컬럼을 직접 참고하는 경우, 상기 파티셔닝의 키에 따라 상기 테이블을 재구조화한 중첩 구조 테이블을 생성하여 중첩 구조 테이블 저장소(216)에 저장할 수 있다. 구체적으로, 빅데이터 분석 장치(220)는 중첩 구조 테이블을 참조하도록 서브 쿼리를 변환함으로써 개인정보 속성을 갖지 않는 분석 함수에 의한 집계를 수행할 수 있도록 상기 수신된 유저 데이터의 테이블 구조를 개인정보 속성에 상응하는 컬럼들을 기준으로 역정규화함으로써 재구조화된 중첩 구조 테이블을 생성하고 관리할 수 있다. 상기 중첩 구조 테이블은, 뷰(view)의 형태로 제공될 수도 있다.

동작 505에서, 빅데이터 분석 장치(220)는 수집된 약관에 대한 정보 및 법률 검토의견에 대한 정보를 자연어 분석을 통해 서브 쿼리에 주입될 조건문을 생성하기 위한 메타데이터로 변환 및 저장할 수 있다. 도 2를 함께 참조하면, 빅데이터 분석 장치(220)는 빅데이터 분석 장치(220)는 유저 서비스 서버 장치(203)로부터 기 제공된 유저 서비스에 대한 약관 정보 및 상기 약관에 대한 법률 검토의견 정보를 제공받을 수 있다. 빅데이터 분석 장치(220)는, 자연어 해석 모듈(226)을 이용하여, 상기 약관 정보 및 상기 법률 검토의견 정보를 메타데이터로 변환할 수 있다. 상기 메타데이터는, 재구성 쿼리에 주입될 조건문을 생성하기 위해 이용될 수 있다.

동작 510에서, 빅데이터 분석 장치(220)는 전자 장치(201)로부터 사용자 쿼리를 수신할 수 있다. 전자 장치(201)는 도 1의 전자 장치(101)에 상응할 수 있다. 빅데이터 분석 장치(220)는 상기 사용자 쿼리가 개인정보 속성의 컬럼에 기반하는지 여부를 판단하기 위하여, 빅데이터 분석 장치(220)의 쿼리 재구성 모듈(224)에게 상기 사용자 쿼리를 제공할 수 있다. 예를 들어, 쿼리 재구성 모듈(224)이 수신한 상기 사용자 쿼리는 아래의 표에 상응할 수 있다.

SELECT cnt AS dvc_cnt, COUNT(*) cnt FROM (
SELECT guid, category, COUNT(DISTINCT device_id) AS cnt
FROM customer_service_table1 t1
JOIN customer_service_table2 t2
ON t1.guid = t2.guid
GROUP BY guid

동작 520에서, 빅데이터 분석 장치(220)는 사용자 쿼리를 복수의 서브 쿼리들로 분해할 수 있다. 상기 개인정보 속성의 컬럼에 적어도 기반하는 상기 사용자 쿼리를 쿼리 엔진(222)으로 제출(submit) 및 실행되는 경우, 개인정보 보호 위반이 야기될 수 있다. 쿼리 재구성 모듈(224)은 상기 사용자 쿼리를 복수의 서브 쿼리들로 분해할 수 있다. 예를 들어, 복수의 서브 쿼리들은, 분석 함수를 포함하는 서브 쿼리들 및 집계 함수를 포함하는 서브 쿼리들 중 적어도 일부를 포함할 수 있다. 상기 표 1을 참조하면, 쿼리 재구성 모듈(224)은 상기 사용자 쿼리를 분석하여 개인정보 속성에 상응하는 컬럼인 guid와 device_id를 직접적으로 참조하고 있음을 식별하고, 서브 쿼리들로 분해할 것을 식별할 수 있다.동작 530에서, 빅데이터 분석 장치(220)는 복수의 서브 쿼리들 중 개인정보를 참조하는 제1 서브 쿼리들을 식별할 수 있다. 일 실시예에 따라, 복수의 서브 쿼리들은, 분석 함수를 포함하는 서브 쿼리들을 포함할 수 있다. 쿼리 재구성 모듈(224)은 분석 함수의 파티셔닝의 기준(예: 키)이 되는 컬럼을 식별할 수 있다. 상기 분석 함수의 파티셔닝의 기준이 되는 컬럼은 개인정보 속성을 가질 수 있다. 예를 들어, 파티셔닝의 기준이 되는 컬럼이 유저를 식별할 수 있는 정보(예: 주민등록번호, 이름, 거주 관할 구역, 유저 아이디 등등)에 상응하는 경우, 상기 개인정보 속성을 가지는 컬럼을 직접(direct) 참조하게 되므로, 개인정보 보호를 위한 법률을 위반할 수 있다. 일 실시예에 따라, 복수의 서브 쿼리들은, 집계 함수를 포함하는 서브 쿼리들을 포함할 수 있다. 예를 들어, SELECT 절의 집계 함수를 포함하는 서브 쿼리의 참조 인자 또는 GROUP BY 절의 집계 함수를 포함하는 서브 쿼리의 참조 인자가 개인정보 속성을 가지는 컬럼에 상응하는 경우, 상기 서브 쿼리의 결과는 여전히 참조 인자에 상응하는 개인정보 속성을 갖기 때문에 개인정보 보호를 위한 법률을 위반할 수 있다. 따라서, 쿼리 재구성 모듈(224)은 복수의 서브 쿼리들 중 개인정보를 참조하는 제1 서브 쿼리들을 식별할 수 있다.

동작 540에서, 빅데이터 분석 장치(220)는 제1 서브 쿼리들을 개인정보에 독립적인 제2 서브 쿼리들로 변환할 수 있다. 쿼리 재구성 모듈(224)은 상기 제1 서브 쿼리들을 상기 개인정보에 접근 가능한 컴포넌트에 기반하여 상기 제2 서브 쿼리들로 재작성(re-write)할 수 있다. 일 실시예에 따라, 상기 제1 서브 쿼리들은 분석 함수를 포함하는 서브 쿼리들에 상응할 수 있다. 상기 분석 함수가 파티셔닝하는 기준의 컬럼이 개인정보 속성을 갖는 것에 기반하여 상기 법률 위반이 야기될 수 있다. 따라서, 쿼리 재구성 모듈(224)은 데이터베이스 저장 장치(210)에게 상기 개인정보의 속성을 갖는 컬럼에 따라 재조직된 중첩 구조 테이블을 요청할 수 있다. 예를 들어, 상기 분석 함수가 파티셔닝 하는 컬럼은 유저 등급의 컬럼일 수 있다. 상기 유저 등급에 대한 정보는, 개인정보 속성에 상응할 수 있다. 쿼리 재구성 모듈(224)은 유저 등급의 컬럼에 따라 재조직된 중첩 구조 테이블을 데이터베이스 저장 장치(210)에게 요청하고, 유저 등급의 컬럼에 따라 재조직된 중첩 구조 테이블을 참조할 수 있다. 이 경우, 빅데이터 분석 장치(220)는 상기 유저 등급의 컬럼을 직접적으로 참조하여 그룹핑(grouping)하지 않으므로, 개인정보 보호 위반의 가능성을 제거할 수 있다. 일 실시예에 따라, 상기 제1 서브 쿼리들은 집계 함수를 포함하는 서브 쿼리들에 상응할 수 있다. 상기 집계 함수의 참조 인자가 개인정보 속성을 갖는 컬럼인 경우, 개인정보 보호를 위한 법률 위반이 야기될 수 있다. 따라서, 쿼리 재구성 모듈(224)은 기능 통합 모듈(228)을 이용하여 허가 집계 함수(authorized aggregation function)를 포함하는 서브 쿼리를 생성할 수 있다. 예를 들어, 상기 집계 함수의 참조 인자가 유저 등급의 컬럼일 수 있다. 쿼리 재구성 모듈(224)은 유저 등급의 컬럼을 참조하는 집계 함수를 포함하는 서브 쿼리는, 서브 쿼리의 결과가 유저 등급에 대한 정보를 포함하기 때문에, 이를 회피하기 위하여 기능 통합 모듈(228)을 통해 허가 집계 함수를 생성할 수 있다. 상기 허가 집계 함수는, 유저 등급의 컬럼을 참조 인자로 하는 집계 함수의 수행을 대행(delegation)하기 위한 함수일 수 있다. 쿼리 재구성 모듈(224)은 개인정보 속성의 컬럼을 직접 참조하지 않고, 상기 허가 집계 함수를 포함하는 서브 쿼리가 집계의 수행에 필요한 컨텍스트만 제공할 수 있다.

동작 550에서, 빅데이터 분석 장치(220)는 복수의 서브 쿼리들 중 제1 서브 쿼리들을 제외한 나머지 서브 쿼리들과 제2 서브 쿼리들을 병합하여 재구성 쿼리를 생성할 수 있다. 상기 복수의 서브 쿼리들 중 제1 서브 쿼리들을 제외한 나머지 서브 쿼리들은, 개인정보 속성에 상응하는 컬럼에 독립적인 서브 쿼리들일 수 있다. 따라서, 빅데이터 분석 장치(220)가 생성한 상기 재구성 쿼리는, 개인정보에 상응하는 컬럼에 독립적인 상기 나머지 서브 쿼리들과 개인정보에 상응하는 컬럼을 간접적으로 참조하는 상기 제2 서브 쿼리들이 병합된 것이므로, 개인정보 보호에 대한 법률 위반의 가능성을 차단할 수 있다.

도 6은 다양한 실시예들에 따른, 빅데이터 분석 장치(220)의 동작 방법을 나타내는 순서도이다.

도 6을 참조하면, 동작 610에서, 빅데이터 분석 장치(220)는 데이터베이스 저장 장치(210)의 PN 저장소(212) 및 UR 저장소(214)로부터 메타데이터를 획득할 수 있다. 예를 들어, PN 저장소(212)는 개인정보 처리에 관련된 법률 약관의 개정 이력 및 검토 의견에 대한 메타데이터를 포함할 수 있다. UR 저장소(214)는 서비스별로 요청된 유저 권리를 관리하기 위한 메타데이터를 저장할 수 있다.

동작 620에서, 빅데이터 분석 장치(220)는 자연어 해석 모듈(226)에 기반하여 상기 획득된 메타데이터에 상응하는 필터링 조건문들을 획득할 수 있다. 상기 조건문들은 재구성 쿼리에 주입되어 상기 필터링을 수행하도록 구성될 수 있다. 자연어 해석 모듈(226)은 PN 저장소(212) 및 UR 저장소(214)로부터 수신된 메타데이터에 기반하여, 필터링 조건들을 위한 서브 쿼리들을 생성할 수 있다. 예를 들어, 서비스 제공을 위한 약관(consent_version)은 타 서비스와의 결합 분석에 동의하는 내용을 추가하도록 개정될 수 있다. 개정 이전의 약관은 'version1'이고, 개정 이후의 약관은 'version2'일 수 있다. 자연어 해석 모듈(226)은 개정 이후의 약관에 동의한 유저에 한하여 타 서비스와의 결합 분석을 수행해야 하므로, 필터링 조건을 수행하는 WHERE 절의 조건문을 생성할 수 있다. 다른 예를 들어, 전자 장치(101)의 사용자가 기존 서비스와 타 서비스(예를 들어, 고객 상담 서비스)와 결합 분석을 수행하고자 할 때, 상기 타 서비스의 제공 국가들 중 하나인 A 국가의 법률은 201B년 이후에 제공된 상담 이력 정보만 활용 가능하며, 유저 정보를 조회할 때에 전화번호 및 전자메일 주소만 활용 가능하도록 변경될 수 있다. 이 경우, 자연어 해석 모듈(226)은 제1 필터링 조건으로 상담 이력 정보의 생성 시점은 201B년 이후, 제2 필터링 조건으로 조회 가능한 정보는 전화번호 및 전자메일에 한정하기 위한 서브 쿼리들을 생성할 수 있다.

동작 630에서, 빅데이터 분석 장치(220)는 재구성 쿼리에 상기 필터링을 위한 상기 WHERE 절의 조건문을 주입하여 최종 쿼리를 생성할 수 있다. 예를 들어, 쿼리 재구성 모듈(224)에 의해 생성되는 최종 쿼리는 하기의 표와 같을 수 있다.

SELECT cnt AS dvc_cnt, COUNT(*) cnt FROM (
SELECT authorized_count(
'COUNT_DISTINCT', -- aggregation function
['guid', 'category'], -- dimension
'device_id' -- metric
FROM customer_service_table1_table_2_nested
WHERE consent_version = 'version2'
)

상기 표 2를 참조하면, 자연어 해석 모듈(226)은 개정 이후의 약관에 동의한 유저들로 한정하기 위하여, WHERE 절의 조건문을 생성하고, 상기 생성된 조건문을 재구성 쿼리의 마지막에 주입(injection)(또는 추가)하는 것을 알 수 있다. 상기 최종 쿼리는, 서비스 제공을 위한 약관(consent_version)이 개정 이후의 약관(version2)인 경우에 한정하고 있으므로, 개정 이전의 약관(version1)의 유저에 대한 결합 분석을 수행함으로써 개인정보 보호의 위반이 발생할 가능성을 차단할 수 있다.동작 640에서, 빅데이터 분석 장치(220)는 상기 최종 쿼리를 쿼리 엔진(222)에 주입하여 사용자 쿼리에 대한 결과 데이터 셋을 획득할 수 있다. 도 5 및 도 6을 참조하면, 쿼리 재구성 모듈(224)은 개인정보의 속성을 갖는 컬럼에 적어도 기반하는 서브 쿼리들을 상기 컬럼을 직접적으로 참조하지 않는 동치(equivalent)의 서브 쿼리들로 변환하여 재구성 쿼리를 생성함으로써 개인정보 보호를 위한 법률 위반의 가능성을 차단할 수 있다. 또한, 쿼리 재구성 모듈(224)은 UR 저장소(214) 및 PN 저장소(212)에 기반한 필터링을 수행하기 위한 조건문을 생성하고, 상기 생성된 조건문을 상기 재구성 쿼리에 주입하여 최종 쿼리를 생성함으로써, 약관 내용의 변경이나, 법률의 개정으로 인해 발생할 수 있는 개인정보 보호 위반의 가능성 또한 차단할 수 있다. 예를 들어, 타 서비스와 결합 분석을 위해, 타 서비스의 테이블을 결합하는 과정에서 상기 WHERE 절이 필터링 조건으로서 자동적으로 주입(Injection)되므로, 사용자는 데이터 분석 과정에서 별도의 노력 없이도 개인정보의 침해 우려 없는 결과 데이터 셋을 획득할 수 있다.

도 7은 다양한 실시예들에 따른, 제2 서브 쿼리들을 재구성하는 쿼리 재구성 모듈(224)의 동작 방법을 나타내는 순서도이다.

도 7을 참조하면, 동작 710에서, 쿼리 재구성 모듈(224)은 제1 서브 쿼리들 중 분석 쿼리들을 식별할 수 있다. 상기 분석 쿼리는, 분석 함수를 포함하는 서브 쿼리를 지칭할 수 있다.

동작 720에서, 쿼리 재구성 모듈(224)은 분석 쿼리들이 개인정보에 기반한 파티셔닝을 이용하는지 식별할 수 있다. 쿼리 재구성 모듈(224)은 분석 함수에 대한 파티셔닝의 키에 상응하는 컬럼의 속성을 식별할 수 있다. 일 실시예에 따라, 분석 쿼리에 대한 파티셔닝의 키에 상응하는 컬럼이 개인정보 속성에 상응하지 않는 경우, 개인정보 속성을 참조 인자로 하는 집계 쿼리의 존재를 판단할 수 있다. 상기 집계 쿼리는, 집계 함수를 포함하는 서브 쿼리를 지칭할 수 있다. 분석 쿼리들 각각에 대한 파티셔닝 키가 모두 개인정보 속성에 상응하지 않는 경우, 상기 분석 쿼리들의 결과는 마찬가지로 개인정보 속성에 상응하지 않는다. 따라서, 집계 쿼리의 참조 인자에 대한 판단만 수행하도록 동작 750을 수행할 수 있다. 일 실시예에 따라, 분석 쿼리에 대한 파티셔닝 키에 상응하는 컬럼이 개인정보 속성에 상응하는 경우(예를 들어, 파티셔닝 키가 유저 아이디(USER_ID)), 쿼리 엔진(222)을 통해 상기 분석 쿼리를 수행하는 경우, 분석 쿼리들의 결과는 개인정보 속성을 그대로 포함할 수 있다.

동작 730에서, 쿼리 재구성 모듈(224)은 개인정보에 기반한 파티셔닝이 완료된 중첩 구조 테이블을 참조하도록 분석 쿼리들을 집계 쿼리들로 변환하고, 동작 740에서 변환된 집계 쿼리들과 제1 서브 쿼리들 중 식별된 분석 쿼리를 제외한 나머지 서브 쿼리를 병합할 수 있다. 예를 들어, 상기 표 1을 다시 참조하면, 사용자 쿼리는 개인정보 속성에 상응하는 컬럼인 guid와 device_id를 직접적으로 참조할 수 있다. 쿼리 재구성 모듈(224)은, 동일한 컬럼을 참조하는 guid를 GROUP BY 절에 기반하여 결합할 수 있다.

비교 예에 따라, 데이터베이스 저장 장치(210)는 GROUP BY 절에 따라 동일한 컬럼(guid)을 결합하기 위하여 JOIN 절을 통한 제1 서비스의 테이블 1과 제2 서비스의 테이블 2를 결합하여 역정규화(denormalization)할 수 있다. 역정규화 테이블은 아래의 표에 상응할 수 있다.

guid	device_id	device_type
abc123	111111	Mobile
abc123	222222	Mobile
abc123	333333	Airconditioner
xyz987	444444	Mobile
xyz987	555555	TV
xyz987	666666	TV

비교 예에 따라, 쿼리 재구성 모듈(224)이 상기 역정규화 테이블을 참조하는 경우, GROUP BY 절을 실행하면서 guid 컬럼의 내용을 비교하여 동일한 guid 값을 가지는 행(row)들을 그룹으로 생성할 수 있다. 다만, 이를 위해서는 개인정보 속성을 갖는 guid 컬럼이 참조되므로 개인정보 보호를 위한 법률은 위반될 수 있다.일 실시예에 따라, 데이터베이스 저장 장치(210)는 guid 컬럼에 기반한 중첩 구조 테이블을 생성 및 저장할 수 있다. guid에 기반한 중첩 구조 테이블을 아래의 표에 상응할 수 있다.

guid	device_id	device_type
abc123	111111	Mobile
	222222	Mobile
	333333	Airconditioner
xyz987	444444	Mobile
	555555	TV
	666666	TV

쿼리 재구성 모듈(224)은 guid 컬럼에 기반한 중첩 구조 테이블을 참조하는 경우, GROUP BY 절이 없더라도 guid를 기준으로 그룹이 구분되어 있음을 추정할 수 있으므로, GROUP BY 절을 삭제할 수 있다.표 1을 다시 참조하면, JOIN 절의 경우 ON 절에서 테이블 1 및 테이블 2의 파티셔닝 키에 해당하는 guid 컬럼 값을 비교하고 있음을 식별할 수 있다. 다만, guid 컬럼 값의 비교를 위해 guid 컬럼 값을 참조하는 경우, 개인정보 보호를 위한 법률 위반이 발생할 수 있다. 일 실시예에 따라, JOIN 절에 의한 결합은, 상기 guid 컬럼의 GROUP BY 절과 마찬가지로, 중첩 구조 테이블을 참조함으로써 제거될 수 있다. 이 경우, 생성되는 중첩 구조 테이블은 허가된 뷰(authorized view)의 형태를 가질 수 있고, 따라서, 상기 중첩 구조 테이블을 생성하는데 추가적인 오버헤드는 발생하지 않을 수 있다. 동작 730 내지 동작 740을 통해 개인정보 속성에 상응하는 컬럼을 참조하는 서브 쿼리들을 제거한 결과는 아래의 표에 상응할 수 있다.

SELECT cnt AS dvc_cnt, COUNT(*) AS cnt FROM (
SELECT guid, category, COUNT(DISTINCT device_id) AS cnt
FROM customer_service_table1_table_2_nested

상기 표 5를 참조하면, GROUP BY 절에서 guid 컬럼을 참조하는 JOIN 절 및 ON 절은 중첩 구조 테이블(customer_service_table1_table2_nested)을 참조함으로써 제거될 수 있다.동작 750에서, 쿼리 재구성 모듈(224)은 병합된 집계 쿼리들 중 개인정보를 참조하는 집계 쿼리가 존재하는지 식별할 수 있다. 상기 표 5를 다시 참조하면, 쿼리 재구성 모듈(224)은 SELECT 절을 포함하는 집계 함수마다 참조 인자를 식별할 수 있다. 상기 표 5에서 guid 컬럼과 device_id 컬럼을 직접 참조하는 SELECT 절을 포함하는 집계 함수는 개인정보 보호의 법률 위반을 야기할 수 있다. 따라서, 쿼리 재구성 모듈(224)은 개인정보를 참조하는 집계 쿼리가 존재하는 것으로 판단할 수 있다.

동작 760에서, 쿼리 재구성 모듈(224)은 기능 통합 모듈(228)을 통해 참조하는 개인정보에 대한 권한을 갖는 허가 집계 쿼리를 포함하여 재구성 쿼리를 생성할 수 있다. 일 실시예에 따라, 기능 통합 모듈(228)은 쿼리 재구성 모듈(224)로부터 요청에 응답하여 상기 허가 집계 쿼리를 생성할 수 있다. 상기 허가 집계 쿼리는, 개인정보 속성에 상응하는 컬럼에 대한 액세스 권한을 가지는 집계 함수를 포함하는 서브 쿼리일 수 있다. 표 5를 참조하면, guid 컬럼 및 device_id 컬럼을 직접적으로 참조하는 SELECT 절을 포함하는 집계 함수는, 상기 허가 집계 쿼리에게 질의를 위임하여 개인정보 위반 가능성을 회피할 수 있다. 예를 들어, 상기 허가 집계 쿼리는, 개인정보 속성에 상응하는 guid 컬럼 및 카테고리의 차원에 따라 개인정보 속성에 상응하는 device_id 컬럼을 기준(metric)으로 집계를 수행할 수 있다. 동작 760을 통해 생성된 재구성 쿼리는 아래의 표에 상응할 수 있다.

SELECT cnt AS dvc_cnt, COUNT(*) cnt FROM (
SELECT authorized_count(
'COUNT_DISTINCT',
['guid', 'category'],
'device_id'
FROM customer_service_table1_table_2_nested

상기 표 6을 참조하면, 허가 집계 함수를 사용하도록 변경된 서브 쿼리는 개인정보 속성을 갖는 guid 컬럼 및 device_id 컬럼을 직접적으로 참조하지 않고 동적으로 생성된 상기 허가 집계 함수에게 실행을 위임할 수 있다. 상기 변경된 서브 쿼리는, 상기 허가 집계 함수로부터 결과를 서브 쿼리의 형태로 수신할 수 있다. 상술한 바와 같은 일(an) 실시예에 따른 빅데이터 분석 장치의 동작 방법은, 사용자 쿼리를 수신하는 동작과, 상기 수신된 사용자 쿼리를 복수의 서브 쿼리들로 분해하는 동작과, 상기 복수의 서브 쿼리들 중 개인 정보를 참조하도록 구성되는 제1 서브 쿼리들을 식별하는 동작과, 상기 개인 정보에 접근 가능한 컴포넌트에 기반하여, 상기 제1 서브 쿼리들을 상기 개인 정보에 독립적인 제2 서브 쿼리들로 재구성하는 동작과, 상기 제2 서브 쿼리들과, 상기 복수의 서브 쿼리들 중 상기 개인 정보를 참조하도록 구성된 상기 제1 서브 쿼리들을 제외한 나머지 서브 쿼리들을 병합하여 재구성 쿼리를 생성하는 동작을 포함할 수 있다.

일 실시예에 따른, 상기 빅데이터 분석 장치의 동작 방법은, 상기 개인 정보와 관련된 필터링 조건들을 생성하는 동작과, 상기 생성된 필터링 조건들을 상기 재구성 쿼리에 추가하여 최종 쿼리를 생성하는 동작과, 상기 최종 쿼리를 쿼리 엔진에 주입하여 빅데이터에 대한 분석 결과에 대한 데이터를 획득하는 동작을 더 포함할 수 있다.

일 실시예에 따른, 상기 필터링 조건들은, 상기 개인 정보와 관련된 법률 위반을 방지하기 위한 조건들 및 상기 개인 정보와 관련된 유저의 동의 범위를 벗어나지 않기 위한 조건들을 포함할 수 있다.

일 실시예에 따른, 상기 제1 서브 쿼리들은, 상기 개인 정보에 기반하여 파티셔닝(partitioning)을 포함하는 분석 함수를 이용하는 분석 쿼리들, 및 상기 개인 정보에 기반하여 파티셔닝을 포함하지 않는 집계 함수를 이용하는 집계 쿼리들을 포함할 수 있다.

일 실시예에 따른, 상기 제2 서브 쿼리들로 재구성하는 동작은, 상기 제1 서브 쿼리들 중 상기 분석 쿼리들을 식별하는 동작과, 상기 개인 정보에 기반하여 미리 파티셔닝된 데이터를 포함하는 중첩(nested) 테이블을 참조하여 상기 분석 쿼리들을 변환하는 동작을 더 포함할 수 있고, 상기 개인 정보에 접근 가능한 컴포넌트는, 상기 중첩 테이블에 상응할 수 있다.

일 실시예에 따른, 상기 제2 서브 쿼리들로 재구성하는 동작은, 상기 변환된 분석 쿼리들 및 상기 집계 쿼리들 중 상기 개인 정보를 참조하는 서브 쿼리들을 식별하는 동작과, 상기 식별된 서브 쿼리들의 수행을 대행(delegate)하는 허가된 집계 함수(authorized aggregation function)를 통해 상기 개인 정보에 대한 컨텍스트(context)를 제공하는 서브 쿼리들로 변환하는 동작과, 상기 컨텍스트를 제공하도록 변환된 상기 서브 쿼리들과 상기 복수의 서브 쿼리들 중 개인 정보를 참조하도록 구성되는 상기 제1 서브 쿼리들을 제외한 나머지 서브 쿼리들을 병합하는 동작을 더 포함할 수 있고, 상기 개인 정보에 접근 가능한 컴포넌트는, 상기 허가된 집계 함수에 상응할 수 있다.

일 실시예에 따른, 상기 필터링 조건들은, 상기 개인 정보와 관련된 법률에 대한 정보 및 상기 개인 정보와 관련된 유저의 동의 범위에 대한 정보를 나타내는 자연어를 AI(artificial intelligence) 모델에 기반하여 변환한 서브 쿼리들을 포함할 수 있다.

일 실시예에 따른, 상기 개인 정보는, 상기 빅데이터 분석 장치가 연결되는 네트워크와 구별되는 별도의 네트워크를 통해 액세스 가능한 정보에 상응할 수 있다.

일 실시예에 따른, 상기 중첩 테이블은, 상기 빅데이터 중 상기 개인 정보의 속성을 나타내는 데이터 각각을 기준으로 상기 빅데이터를 포함하는 테이블을 재구조화한 테이블에 상응할 수 있다.

상술한 바와 같은 일 실시예에 따른 빅데이터 분석 장치는, 사용자 입력을 수신하기 위한 쿼리 인터페이스와, 쿼리를 서브 쿼리들로 분해하거나, 서브 쿼리들을 병합하기 위한 쿼리 재구성 모듈과, 요청된 쿼리에 대한 연산을 수행하여 결과 데이터를 출력하기 위한 쿼리 엔진과, 필터링 조건들을 위한 서브 쿼리들을 생성하는 자연어 해석 모듈을 포함하고, 상기 빅데이터 분석 장치는, 상기 쿼리 인터페이스를 통해, 사용자 쿼리를 수신하고, 상기 수신된 사용자 쿼리를 복수의 서브 쿼리들로 분해하고, 상기 쿼리 재구성 모듈을 통해, 상기 복수의 서브 쿼리들 중 개인 정보를 참조하도록 구성되는 제1 서브 쿼리들을 식별하고, 상기 쿼리 재구성 모듈을 통해, 상기 개인 정보에 접근 가능한 컴포넌트에 기반하여, 상기 제1 서브 쿼리들을 상기 개인 정보에 독립적인 제2 서브 쿼리들로 재구성하고, 상기 쿼리 재구성 모듈을 통해, 상기 제2 서브 쿼리들과, 상기 복수의 서브 쿼리들 중 상기 개인 정보를 참조하도록 구성된 상기 제1 서브 쿼리들을 제외한 나머지 서브 쿼리들을 병합하여 재구성 쿼리를 생성하도록 구성될 수 있다.

일 실시예에 따른, 상기 빅데이터 분석 장치는, 자연어 해석 모듈을 통해, 상기 개인 정보와 관련된 필터링 조건들을 생성하여 상기 생성된 조건들을 상기 쿼리 재구성 모듈에게 제공하고, 상기 쿼리 재구성 모듈을 통해, 상기 생성된 필터링 조건들을 상기 재구성 쿼리에 추가하여 최종 쿼리를 생성하고, 상기 쿼리 엔진을 통해, 상기 최종 쿼리에 상응하는 분석 결과에 대한 데이터를 획득하도록 구성될 수 있다.

일 실시예에 따른, 상기 제1 서브 쿼리들은, 상기 개인 정보에 기반하여 파티셔닝을 포함하는 분석 함수를 이용하는 분석 쿼리들, 및 상기 개인 정보에 기반하여 파티셔닝을 포함하지 않는 집계 함수를 이용하는 집계 쿼리들을 포함할 수 있다.

일 실시예에 따른, 상기 쿼리 재구성 모듈은, 상기 제1 서브 쿼리들 중 상기 분석 쿼리들을 식별하고, 상기 개인 정보에 기반하여 미리 재구조화된 데이터를 포함하는 중첩(nested) 구조 테이블을 참조하도록 상기 분석 쿼리들을 변환하고, 상기 개인 정보에 접근 가능한 컴포넌트는 상기 중첩 테이블에 상응하도록 구성될 수 있다.

일 실시예에 따른, 상기 쿼리 재구성 모듈은, 상기 변환된 분석 쿼리들 및 상기 집계 쿼리들 중 상기 개인 정보를 참조하는 서브 쿼리들을 식별하고, 상기 식별된 서브 쿼리들의 수행을 대행(delegate)하는 허가된 집계 함수(authorized aggregation function)를 통해 상기 개인 정보에 대한 컨텍스트(context)를 제공하는 서브 쿼리들로 변환하고, 상기 컨텍스트를 제공하도록 변환된 상기 서브 쿼리들과 상기 복수의 서브 쿼리들 중 개인 정보를 참조하도록 구성되는 상기 제1 서브 쿼리들을 제외한 나머지 서브 쿼리들을 병합하도록 구성될 수 있고, 상기 개인 정보에 접근 가능한 컴포넌트는, 상기 허가된 집계 함수에 상응할 수 있다.

일 실시예에 따른, 상기 필터링 조건들은, 상기 개인 정보와 관련된 법률에 대한 정보 및 상기 개인 정보와 관련된 유저의 동의 범위에 대한 정보를 나타내는 자연어를 상기 자연어 해석 모듈에 포함되는 AI(artificial intelligence) 모델에 기반하여 변환한 서브 쿼리들을 포함할 수 있다.

상술한 바와 같은 일 실시예에 따른 하나 이상의 프로그램들을 저장하는 비일시적 컴퓨터 판독가능 저장 매체(non-transitory computer readable storage medium)는, 쿼리 인터페이스, 쿼리 재구성 모듈, 쿼리 엔진, 및 자연어 해석 모듈을 실행하기 위한 인스트럭션들을 저장하도록 구성된 적어도 하나의 메모리를 가지는(with) 전자 장치의 프로세서에 의해 실행될 시, 상기 쿼리 인터페이스를 통해, 사용자 쿼리를 수신하고, 상기 쿼리 재구성 모듈을 통해, 상기 수신된 사용자 쿼리를 복수의 서브 쿼리들로 분해하고, 상기 쿼리 재구성 모듈을 통해, 상기 복수의 서브 쿼리들 중 개인 정보를 참조하도록 구성되는 제1 서브 쿼리들을 식별하고, 상기 쿼리 재구성 모듈을 통해, 상기 개인 정보에 접근 가능한 컴포넌트에 기반하여, 상기 제1 서브 쿼리들을 상기 개인 정보에 독립적인 제2 서브 쿼리들로 재구성하고, 상기 쿼리 재구성 모듈을 통해, 상기 제2 서브 쿼리들과, 상기 복수의 서브 쿼리들 중 상기 개인 정보를 참조하도록 구성된 상기 제1 서브 쿼리들을 제외한 나머지 서브 쿼리들을 병합하여 재구성 쿼리를 생성하도록 구성될 수 있다.

일 실시예에 따른, 상기 프로세서는, 상기 인스트럭션들을 실행할 시,

상기 자연어 해석 모듈을 통해, 상기 개인 정보와 관련된 필터링 조건들을 생성하고, 상기 쿼리 재구성 모듈을 통해, 상기 생성된 필터링 조건들을 상기 재구성 쿼리에 추가하여 최종 쿼리를 생성하고, 상기 쿼리 엔진을 통해, 상기 최종 쿼리에 상응하는 분석 결과에 대한 데이터를 획득하도록 구성될 수 있다.

본 문서에 개시된 다양한 실시예들에 따른 전자 장치는 다양한 형태의 장치가 될 수 있다. 전자 장치는, 예를 들면, 휴대용 통신 장치(예: 스마트폰), 컴퓨터 장치, 휴대용 멀티미디어 장치, 휴대용 의료 기기, 카메라, 웨어러블 장치, 또는 가전 장치를 포함할 수 있다. 본 문서의 실시예에 따른 전자 장치는 전술한 기기들에 한정되지 않는다.

본 문서의 다양한 실시예들 및 이에 사용된 용어들은 본 문서에 기재된 기술적 특징들을 특정한 실시예들로 한정하려는 것이 아니며, 해당 실시예의 다양한 변경, 균등물, 또는 대체물을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 또는 관련된 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다. 아이템에 대응하는 명사의 단수 형은 관련된 문맥상 명백하게 다르게 지시하지 않는 한, 상기 아이템 한 개 또는 복수 개를 포함할 수 있다. 본 문서에서, "A 또는 B", "A 및 B 중 적어도 하나", "A 또는 B 중 적어도 하나", "A, B 또는 C", "A, B 및 C 중 적어도 하나", 및 "A, B, 또는 C 중 적어도 하나"와 같은 문구들 각각은 그 문구들 중 해당하는 문구에 함께 나열된 항목들 중 어느 하나, 또는 그들의 모든 가능한 조합을 포함할 수 있다. "제1", "제2", 또는 "첫째" 또는 "둘째"와 같은 용어들은 단순히 해당 구성요소를 다른 해당 구성요소와 구분하기 위해 사용될 수 있으며, 해당 구성요소들을 다른 측면(예: 중요성 또는 순서)에서 한정하지 않는다. 어떤(예: 제1) 구성요소가 다른(예: 제2) 구성요소에, "기능적으로" 또는 "통신적으로"라는 용어와 함께 또는 이런 용어 없이, "커플드" 또는 "커넥티드"로 언급된 경우, 그것은 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로(예: 유선으로), 무선으로, 또는 제3 구성요소를 통하여 연결될 수 있다는 것을 의미한다.

본 문서의 다양한 실시예들에서 사용된 용어 "모듈"은 하드웨어, 소프트웨어 또는 펌웨어로 구현된 유닛을 포함할 수 있으며, 예를 들면, 로직, 논리 블록, 부품, 또는 회로와 같은 용어와 상호 호환적으로 사용될 수 있다. 모듈은, 일체로 구성된 부품 또는 하나 또는 그 이상의 기능을 수행하는, 상기 부품의 최소 단위 또는 그 일부가 될 수 있다. 예를 들면, 일실시예에 따르면, 모듈은 ASIC(application-specific integrated circuit)의 형태로 구현될 수 있다.

본 문서의 다양한 실시예들은 기기(machine)(예: 전자 장치(101)) 의해 읽을 수 있는 저장 매체(storage medium)(예: 내장 메모리(136) 또는 외장 메모리(138))에 저장된 하나 이상의 명령어들을 포함하는 소프트웨어(예: 프로그램(140))로서 구현될 수 있다. 예를 들면, 기기(예: 전자 장치(101))의 프로세서(예: 프로세서(120))는, 저장 매체로부터 저장된 하나 이상의 명령어들 중 적어도 하나의 명령을 호출하고, 그것을 실행할 수 있다. 이것은 기기가 상기 호출된 적어도 하나의 명령어에 따라 적어도 하나의 기능을 수행하도록 운영되는 것을 가능하게 한다. 상기 하나 이상의 명령어들은 컴파일러에 의해 생성된 코드 또는 인터프리터에 의해 실행될 수 있는 코드를 포함할 수 있다. 기기로 읽을 수 있는 저장 매체는, 비일시적(non-transitory) 저장 매체의 형태로 제공될 수 있다. 여기서, '비일시적'은 저장 매체가 실재(tangible)하는 장치이고, 신호(signal)(예: 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 저장 매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다.

일실시예에 따르면, 본 문서에 개시된 다양한 실시예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: CD-ROM(compact disc read only memory))의 형태로 배포되거나, 또는 어플리케이션 스토어(예: 플레이 스토어쪠)를 통해 또는 두 개의 사용자 장치들(예: 스마트 폰들) 간에 직접, 온라인으로 배포(예: 다운로드 또는 업로드)될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 기기로 읽을 수 있는 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.

다양한 실시예들에 따르면, 상기 기술한 구성요소들의 각각의 구성요소(예: 모듈 또는 프로그램)는 단수 또는 복수의 개체를 포함할 수 있으며, 복수의 개체 중 일부는 다른 구성요소에 분리 배치될 수도 있다. 다양한 실시예들에 따르면, 전술한 해당 구성요소들 중 하나 이상의 구성요소들 또는 동작들이 생략되거나, 또는 하나 이상의 다른 구성요소들 또는 동작들이 추가될 수 있다. 대체적으로 또는 추가적으로, 복수의 구성요소들(예: 모듈 또는 프로그램)은 하나의 구성요소로 통합될 수 있다. 이런 경우, 통합된 구성요소는 상기 복수의 구성요소들 각각의 구성요소의 하나 이상의 기능들을 상기 통합 이전에 상기 복수의 구성요소들 중 해당 구성요소에 의해 수행되는 것과 동일 또는 유사하게 수행할 수 있다. 다양한 실시예들에 따르면, 모듈, 프로그램 또는 다른 구성요소에 의해 수행되는 동작들은 순차적으로, 병렬적으로, 반복적으로, 또는 휴리스틱(heuristic)하게 실행되거나, 상기 동작들 중 하나 이상이 다른 순서로 실행되거나, 생략되거나, 또는 하나 이상의 다른 동작들이 추가될 수 있다.

Claims

빅데이터 분석 장치의 동작 방법에 있어서,

사용자 쿼리를 수신하는 동작과,

상기 수신된 사용자 쿼리를 복수의 서브 쿼리들로 분해하는 동작과,

상기 복수의 서브 쿼리들 중 개인 정보를 참조하도록 구성되는 제1 서브 쿼리들을 식별하는 동작과,

상기 개인 정보에 접근 가능한 컴포넌트에 기반하여, 상기 제1 서브 쿼리들을 상기 개인 정보에 독립적인 제2 서브 쿼리들로 재구성하는 동작과,

상기 제2 서브 쿼리들과, 상기 복수의 서브 쿼리들 중 상기 개인 정보를 참조하도록 구성된 상기 제1 서브 쿼리들을 제외한 나머지 서브 쿼리들을 병합하여 재구성 쿼리를 생성하는 동작을 포함하는,

방법.
청구항 1에 있어서,

상기 개인 정보와 관련된 필터링 조건들을 생성하는 동작과,

상기 생성된 필터링 조건들을 상기 재구성 쿼리에 추가하여 최종 쿼리를 생성하는 동작과,

상기 최종 쿼리를 쿼리 엔진에 주입하여 빅데이터에 대한 분석 결과에 대한 데이터를 획득하는 동작을 더 포함하는,

방법.
청구항 2에 있어서,

상기 필터링 조건들은,

상기 개인 정보와 관련된 법률 위반을 방지하기 위한 조건들 및 상기 개인 정보와 관련된 유저의 동의 범위를 벗어나지 않기 위한 조건들을 포함하는,

방법.
청구항 1 내지 청구항 3 중 어느 하나에 있어서,

상기 제1 서브 쿼리들은,

상기 개인 정보에 기반하여 파티셔닝(partitioning)을 포함하는 분석 함수를 이용하는 분석 쿼리들, 및

상기 개인 정보에 기반하여 파티셔닝을 포함하지 않는 집계 함수를 이용하는 집계 쿼리들을 포함하는,

방법.
청구항 4에 있어서,

상기 제2 서브 쿼리들로 재구성하는 동작은,

상기 제1 서브 쿼리들 중 상기 분석 쿼리들을 식별하는 동작과,

상기 개인 정보에 기반하여 미리 파티셔닝된 데이터를 포함하는 중첩(nested) 테이블을 참조하여 상기 분석 쿼리들을 변환하는 동작을 더 포함하고,

상기 개인 정보에 접근 가능한 컴포넌트는, 상기 중첩 테이블에 상응하는,

방법.
청구항 5에 있어서,

상기 제2 서브 쿼리들로 재구성하는 동작은,

상기 변환된 분석 쿼리들 및 상기 집계 쿼리들 중 상기 개인 정보를 참조하는 서브 쿼리들을 식별하는 동작과,

상기 식별된 서브 쿼리들의 수행을 대행(delegate)하는 허가된 집계 함수(authorized aggregation function)를 통해 상기 개인 정보에 대한 컨텍스트(context)를 제공하는 서브 쿼리들로 변환하는 동작과,

상기 컨텍스트를 제공하도록 변환된 상기 서브 쿼리들과 상기 복수의 서브 쿼리들 중 개인 정보를 참조하도록 구성되는 상기 제1 서브 쿼리들을 제외한 나머지 서브 쿼리들을 병합하는 동작을 더 포함하고,

상기 개인 정보에 접근 가능한 컴포넌트는, 상기 허가된 집계 함수에 상응하는,

방법.
청구항 3 내지 청구항 6 중 어느 하나에 있어서,

상기 필터링 조건들은,

상기 개인 정보와 관련된 법률에 대한 정보 및 상기 개인 정보와 관련된 유저의 동의 범위에 대한 정보를 나타내는 자연어를 AI(artificial intelligence) 모델에 기반하여 변환한 서브 쿼리들을 포함하는,

방법.
청구항 1 내지 청구항 7 중 어느 하나에 있어서,

상기 개인 정보는,

상기 빅데이터 분석 장치가 연결되는 네트워크와 구별되는 별도의 네트워크를 통해 액세스 가능한 정보에 상응하는,

방법.
청구항 8에 있어서,

상기 중첩 테이블은,

상기 빅데이터 중 상기 개인 정보의 속성을 나타내는 데이터 각각을 기준으로 상기 빅데이터를 포함하는 테이블을 재구조화한 테이블에 상응하는,

방법.
빅데이터 분석 장치에 있어서,

사용자 입력을 수신하기 위한 쿼리 인터페이스와, 쿼리를 서브 쿼리들로 분해하거나, 서브 쿼리들을 병합하기 위한 쿼리 재구성 모듈과, 요청된 쿼리에 대한 연산을 수행하여 결과 데이터를 출력하기 위한 쿼리 엔진과, 필터링 조건들을 위한 서브 쿼리들을 생성하는 자연어 해석 모듈을 포함하고,

상기 빅데이터 분석 장치는,

상기 쿼리 인터페이스를 통해, 사용자 쿼리를 수신하고,

상기 수신된 사용자 쿼리를 복수의 서브 쿼리들로 분해하고,

상기 쿼리 재구성 모듈을 통해, 상기 복수의 서브 쿼리들 중 개인 정보를 참조하도록 구성되는 제1 서브 쿼리들을 식별하고,

상기 쿼리 재구성 모듈을 통해, 상기 개인 정보에 접근 가능한 컴포넌트에 기반하여, 상기 제1 서브 쿼리들을 상기 개인 정보에 독립적인 제2 서브 쿼리들로 재구성하고,

상기 쿼리 재구성 모듈을 통해, 상기 제2 서브 쿼리들과, 상기 복수의 서브 쿼리들 중 상기 개인 정보를 참조하도록 구성된 상기 제1 서브 쿼리들을 제외한 나머지 서브 쿼리들을 병합하여 재구성 쿼리를 생성하도록 구성되는,

장치.
청구항 10에 있어서,

상기 빅데이터 분석 장치는,

자연어 해석 모듈을 통해, 상기 개인 정보와 관련된 필터링 조건들을 생성하여 상기 생성된 조건들을 상기 쿼리 재구성 모듈에게 제공하고,

상기 쿼리 재구성 모듈을 통해, 상기 생성된 필터링 조건들을 상기 재구성 쿼리에 추가하여 최종 쿼리를 생성하고,

상기 쿼리 엔진을 통해, 상기 최종 쿼리에 상응하는 분석 결과에 대한 데이터를 획득하도록 구성되는,

장치.
청구항 11에 있어서,

상기 필터링 조건들은,

상기 개인 정보와 관련된 법률 위반을 방지하기 위한 조건들 및 상기 개인 정보와 관련된 유저의 동의 범위를 벗어나지 않기 위한 조건들을 포함하는,

장치.
청구항 10 내지 청구항 12 중 어느 하나에 있어서,

상기 제1 서브 쿼리들은,

상기 개인 정보에 기반하여 파티셔닝을 포함하는 분석 함수를 이용하는 분석 쿼리들, 및

상기 개인 정보에 기반하여 파티셔닝을 포함하지 않는 집계 함수를 이용하는 집계 쿼리들을 포함하는,

장치.
청구항 13에 있어서,

상기 쿼리 재구성 모듈은,

상기 제1 서브 쿼리들 중 상기 분석 쿼리들을 식별하고,

상기 개인 정보에 기반하여 미리 파티셔닝된 데이터를 포함하는 중첩(nested) 테이블을 참조하여 상기 분석 쿼리들을 변환하고,

상기 개인 정보에 접근 가능한 컴포넌트는 상기 중첩 테이블에 상응하는,

장치.
하나 이상의 프로그램들을 저장하는 비일시적 컴퓨터 판독가능 저장 매체(non-transitory computer readable storage medium)에 있어서, 상기 하나 이상의 프로그램들은, 쿼리 인터페이스, 쿼리 재구성 모듈, 쿼리 엔진, 및 자연어 해석 모듈을 실행하기 위한 인스트럭션들을 저장하도록 구성된 적어도 하나의 메모리를 가지는(with) 전자 장치의 프로세서에 의해 실행될 시,

상기 쿼리 인터페이스를 통해, 사용자 쿼리를 수신하고,

상기 쿼리 재구성 모듈을 통해, 상기 수신된 사용자 쿼리를 복수의 서브 쿼리들로 분해하고,

상기 쿼리 재구성 모듈을 통해, 상기 복수의 서브 쿼리들 중 개인 정보를 참조하도록 구성되는 제1 서브 쿼리들을 식별하고,

상기 쿼리 재구성 모듈을 통해, 상기 개인 정보에 접근 가능한 컴포넌트에 기반하여, 상기 제1 서브 쿼리들을 상기 개인 정보에 독립적인 제2 서브 쿼리들로 재구성하고,

상기 쿼리 재구성 모듈을 통해, 상기 제2 서브 쿼리들과, 상기 복수의 서브 쿼리들 중 상기 개인 정보를 참조하도록 구성된 상기 제1 서브 쿼리들을 제외한 나머지 서브 쿼리들을 병합하여 재구성 쿼리를 생성하도록 구성된,

비일시적 컴퓨터 판독가능 저장 매체.