WO2021187506A1

WO2021187506A1 - データ処理装置、データ処理方法およびデータ処理プログラム

Info

Publication number: WO2021187506A1
Application number: PCT/JP2021/010736
Authority: WO
Inventors: 哲士梅田; 信也丸山
Original assignee: ソニーグループ株式会社
Priority date: 2020-03-19
Filing date: 2021-03-17
Publication date: 2021-09-23
Also published as: JPWO2021187506A1; US20230101532A1; CN115280315A; EP4123491A4; EP4123491A1

Abstract

外部のノイズ付加装置において元データにノイズを付加して生成されたノイズ付加データにおける前記ノイズの分布を予測するノイズ分布予測部と、ノイズの分布の予測結果に基づいてノイズ付加データにオーグメンテーション処理を行うオーグメンテーション処理部とを備えるデータ処理装置である。

Description

データ処理装置、データ処理方法およびデータ処理プログラム

　本技術は、データ処理装置、データ処理方法およびデータ処理プログラムに関する。

　近年、インターネットの発達、インターネットに接続可能なデバイスの普及に伴い、デバイスにおける様々なデータがインターネットサービスを提供する会社、デバイスを開発知る会社などによって収集されサービスの向上、製品開発などに利用されている。そのようなデータの中で有用なデータの一つは、デバイスを使用するユーザ個人についてのデータである。ユーザ個人についてのデータとしては、デバイスの使用方法、デバイスを介したインターネット上のサービスの利用状況など様々なものがある。

　そのようなユーザ個人のデータは利用価値が高い反面、データの漏洩、データの取り扱い方法などによりユーザのプライバシーを侵害してしまうという問題がある。そこで、プライバシーの侵害を防ぐために差分プライバシーと称される技術が用いられている（特許文献１）。

　差分プライバシーとは、収集するデータにノイズを加えることにより、データの主体であるユーザ等を特定することを防ぎつつ、データ自体を使用することをできるようにする技術である。「あるデータが特定ユーザのものである」という仮説に統計的な信頼を一定以上与えないことができる。任意の背景知識による攻撃に対しても、数学的な安全性が与えられるため、プライバシーへの影響を定量的に評価できる特徴を持っている。差分プライバシーを使用することにより、ユーザの同意を得ずにデータを収集した場合でもユーザのプライバシー侵害を防止することができる。差分プライバシーには、出力型差分プライバシーとローカル型差分プライバシーがある。

　出力型差分プライバシーはデバイスから生のデータを収集してクラウド上に構築したデータベースで管理する。データ利用者がデータベースにアクセスしてデータを利活用する際にデータにノイズを付加して公開することによりユーザのプライバシーを保護する。クラウドサービスを提供する事業者が生データを管理するため、生データを収集されることに対するユーザの心理的障壁や、それが漏洩した際の事業者のビジネスリスクなどが懸念される。

　ローカル型差分プライバシーはユーザの手元のデバイスでノイズを付加し、匿名化されたデータをクラウドで収集する方法である。データ利活用時にはクラウドからノイズを除去した統計値を得ることが可能となる。匿名化された状態でデータを収集するためユーザの心理的障壁は低く、それが漏洩した際の事業者のビジネスリスクも小さい。

RAPPOR: Randomized Aggregatable Privacy-Preserving Ordinal Response

　そのような差分プライバシーは、収集するデータが大量に存在するほうが精度が高くなるので、通常、収集するデータが大量に存在することを前提としている。しかし、データの種類によって大量のデータを収集することができないものもあり、そのようなデータの場合には差分プライバシーを適切に利用できないという問題がある。

　本技術はこのような点に鑑みなされたものであり、データにノイズを付加してデータ量を増やすことにより、少ないデータ量でも統計結果の誤差を小さくすることができるデータ処理装置、データ処理方法およびデータ処理プログラムを提供することを目的とする。

　上述した課題を解決するために、第１の技術は、外部のノイズ付加装置において元データにノイズを付加して生成されたノイズ付加データにおけるノイズの分布を予測するノイズ分布予測部と、ノイズの分布の予測結果に基づいてノイズ付加データにオーグメンテーション処理を行うオーグメンテーション処理部とを備えるデータ処理装置である。

　また、第２の技術は、外部のノイズ付加装置において元データにノイズを付加して生成されたノイズ付加データにおけるノイズの分布を予測し、ノイズの分布の予測結果に基づいてノイズ付加データにオーグメンテーション処理を行うデータ処理方法である。

　また、第３の技術は、外部のノイズ付加装置において元データにノイズを付加して生成されたノイズ付加データにおけるノイズの分布を予測し、ノイズの分布の予測結果に基づいてノイズ付加データにオーグメンテーション処理を行うデータ処理方法をコンピュータに実行させるデータ処理プログラムである。

差分プライバシーの概要を説明する図である。サンプルサイズ、辞書サイズ、誤差の関係を示すグラフ群である。図３Ａ乃至図３Ｅはデータの分布と誤差の関係を示すグラフ群であり、図３Ｆはデータ分布の相対誤差を示すグラフである。データの分布とプライバシー指標の関係を示すグラフである。変動係数と相対誤差の関係を示すグラフである。サンプルサイズとノイズの説明図である。データ処理システム１０の構成を示すブロック図である。１次メッシュを用いて日本全域をカバーした状態を示す図である。端末装置１００の構成を示すブロック図である。ノイズ付加装置２００の構成を示すブロック図である。地域メッシュを例にした下位データと上位データの説明図である。地域メッシュを例にした下位データと上位データに対するノイズ付加の説明図である。サーバ装置３００の構成を示すブロック図である。データ処理装置４００の構成を示すブロック図である。地域メッシュ（データ種別）ごとのカウント値（サンプルサイズ）の説明図である。ノイズ付加装置２００における処理を示すフローチャートである。データ処理装置４００における処理を示すフローチャートである。データ拡張処理の説明図である。データ拡張処理の説明図である。ノイズ分布予測結果を示すグラフである。オーグメンテーション処理を示すフローチャートである。オーグメンテーション処理でノイズが追加された状態のカウント値（サンプルサイズ）の説明図である。元データとオーグメンテッドデータの比較を示すグラフである。図２４Ａは元データとノイズ付加データの比較グラフであり、図２４Ｂはばらつきのあるノイズと一様な分布のノイズの比較グラフであり、図２４Ｃは元データとオーグメンテッドデータの比較グラフである。

　以下、本技術の実施の形態について図面を参照しながら説明する。なお、説明は以下の順序で行う。
＜１．差分プライバシーの説明＞
＜２．実施の形態＞
［２－１．データ処理システム１０の構成］
［２－２．地域メッシュの説明］
［２－３．端末装置１００とノイズ付加装置２００の構成］
［２－４．サーバ装置３００とデータ処理装置４００の構成］
［２－５．ノイズ付加装置２００における処理］
［２－６．データ処理装置４００における処理］
＜３．変形例＞

＜１．差分プライバシーの説明＞
　まず本技術の実施の形態の説明の前に本技術で使用する差分プライバシーについて説明する。差分プライバシーとは、収集するデータにノイズを加えることにより、データの主体であるユーザ等を特定することを防ぎつつ、データ自体を使用することをできるようにする技術である。本技術ではユーザの手元のデバイス（実施の形態の端末装置１００に相当）でノイズを付加し、匿名化されたデータをクラウド（実施の形態のサーバ装置３００に相当）で収集するローカル型差分プライバシーを用いる。

　図１の概要図に示すように、ローカル型差分プライバシーはデバイスでデータをエンコードしてビット列ｖ_１を生成するエンコード技術、ビット列ｖ_１にある確率変数に従いノイズを付加したデータｖ_１’を生成するノイズ付加技術、ノイズが付加されたデータを収集する集約技術、集約したデータからノイズを除去するノイズ除去技術（集約技術とノイズ除去技術は同時に実行されることも多く、合わせてデコード技術と呼ぶこともある）、分析のユースケースに従って可視化処理を行うデータ分析技術から構成されるものである。

　本技術では差分プライバシーを用いるにあたり、主要なパラメータとして「サンプルサイズ」、「辞書サイズ」、「プライバシー指標」を用いる。

　サンプルサイズとは、クラウドで収集するデータの総数を示すものである。サンプルサイズは、「デバイスを有するユーザ数×デバイスからクラウドに送信されるデータ数」として規定することができる。

　辞書サイズとは、辞書に含まれるデータ種別の総数を示すものである。辞書はデータの分類を示すデータ種別ごとにデータまとめたデータの集合であり、特許請求の範囲におけるデータ集合に相当するものである。

　辞書サイズはデータ種別の数により決定される。例えば、ＩＳＯ５２１８で定義されている性別のカテゴリーは男性、女性、不明、適用不能の４種類であるため、データ種別は４であり、この場合、辞書サイズ＝４となる。また、例えばスマートフォンなどにおける文字入力で使用される絵文字の場合はその数は現在約２６００種類であり、データ種別数は約２６００であり、この場合、辞書サイズ＝約２６００となる。また、ＧＰＳ（Global Positioning System）の位置情報を１ｋｍ^２の地域メッシュにマッピングする場合、メッシュの数は約３８万種になるため、データ種別数は約３８万であり、辞書サイズ＝約３８万となる。

　プライバシー指標とは、差分プライバシーにおけるプライバシー保護の度合いを示すものである。プライバシー指標の値が小さくなるほどプライバシー保護の度合いが高くなり、データに付加するノイズの量が多くなる。一方、プライバシー指標の値が大きくなるほど、プライバシー保護の度合いが低くなり、データに付加するノイズの量が少なくなる。

　プライバシー指標の値は扱うデータの機微性によって所定の値に決定される。例えば、スマートフォンなどにおける文字入力で使用される絵文字にノイズを付加して匿名化したい場合にはプライバシー指標＝４とし、脈拍などのヘルスケア情報の場合にはプライバシー指標＝２、とする、などである。なお、これらのプライバシー指標の具体的値はあくまで例示に過ぎず本技術がその値に限定されるものではない。

　図２はプライバシー指標が所定の値である場合におけるサンプルサイズ、辞書サイズ、誤差の関係を示すグラフ群である。誤差とは、ノイズを付加していないデータの計測値（以下、正解値と称する。）と、差分プライバシーによりノイズを付加したデータの計測値（ノイズ付計測値と称する。）との差である。図２のグラフにおいては、２本ずつ並んでいる各棒グラフのうち、右側がノイズを付加していないデータの計測値（正解値）を示し、左側が差分プライバシーによりノイズを付加したデータの計測値（ノイズ付計測値）を示す。

　図２は上段のグラフＡ乃至Ｅは辞書サイズが１０であり、中段のグラフＦ乃至Ｊは辞書サイズが１００であり、下段のグラフＫ乃至Ｐは辞書サイズが１０００であるとする。

　縦に並ぶグラフＡ、Ｆ、Ｋはサンプルサイズが１万である。また、縦に並ぶグラフＢ、Ｇ、Ｌはサンプルサイズが１０万である。また、縦に並ぶグラフＣ、Ｈ、Ｍはサンプルサイズが１００万である。また、縦に並ぶグラフＤ、Ｉ、Ｎはサンプルサイズが１０００万である。さらに縦に並ぶグラフＥ、Ｊ、Ｐはサンプルサイズが一億である。なお、全てのグラフのプライバシー指標は同一であるものとする。

　各グラフの右上に記載した値がそのグラフにおける正解値とノイズ付計測値との誤差である。

　図２のグラフ群からわかるように、サンプルサイズが同じグラフ同士を比較すると、辞書サイズが小さければ小さいほど誤差が小さくなることがわかる。また、辞書サイズが同じグラフ同士を比較すると、サンプルサイズが大きければ大きいほど誤差が小さくなることがわかる。差分プライバシーにおいては正解値とノイズ付計測値との誤差が小さければ小さいほどデータのプライバシーを保護しつつ、信頼度が高いデータを取得できるということであり、好ましい。

　図３Ａ乃至図３Ｅはデータの分布と、正解値とノイズ付測定値の誤差、の関係を示すグラフ群であり、図３Ｆが各分布における相対誤差を示すグラフである。図３Ａ乃至図３Ｅの各グラフはサンプルサイズが同一、辞書サイズが同一、プライバシー指標が同一であるものとする。図３Ｆからわかるようにサンプルサイズ、辞書サイズ、プライバシー指標が同一であってもデータの分布によって相対誤差が異なっている。

　図４は、図３Ａ乃至図３Ｅに示したデータの分布の各種類とプライバシー指標の値の関係を示すグラフである。図４からわかるように分布が異なっていてもプライバシー指標を小さくするとデータに付加するノイズの量は大きくなり、誤差も大きくなる。一方、プライバシー指標を大きくするとデータに付加するノイズの量は小さくなり、誤差も小さくなる。

　このようなサンプルサイズ、辞書サイズ、プライバシー指標の関係から、サンプルサイズ、辞書サイズ、プライバシー指標には以下のようなトレード・オフの関係があることがわかる。

　辞書サイズが一定であり、かつ、プライバシー指標が一定である場合、サンプルサイズが小さいほど誤差が大きくなる。

　また、辞書サイズが小さい場合、サンプルサイズが小さくても誤差は小さいものとなる。一方、辞書サイズが大きい場合、サンプルサイズが大きくても誤差が大きくなる。

　さらに、サンプルサイズが一定であり、かつ、辞書サイズが一定である場合、プライバシー指標を小さくすると誤差が大きくなり、プライバシー指標を大きくすると誤差は小さくなる。よって、プライバシー強度を高めて、信頼度を高めるためにはよりサンプルサイズを大きくする必要がある。

　ローカル型差分プライバシーにおいては、正解値とノイズ付計測値の統計結果の差である誤差が評価指標として使われている。よって、サンプルサイズが同一、かつ、辞書サイズが同一の場合で、ノイズ量を多くして機微性を高めたとしても、誤差が変わらないのは良いローカル型差分プライバシーである。また、辞書サイズが同一、かつ、プライバシー指標が同一の場合で、サンプルサイズを小さくしても、誤差が変わらないのは良いローカル型差分プライバシーである。一般的にサンプルサイズを大きくするには多くの計測値（データ）を得なければならず、コストがかかるためである。

　なお、実際に差分プライバシーを用いたシステムの運用時はノイズを付加していない正解値を得ることができないため誤差を算出することはできない。そのため、本技術では誤差に代えて、差分プライバシーの有効性の指標として信頼度を定義する。

　辞書を構成するデータ種別ごとに、複数回のデータの集計結果のバラつきを評価する。異なるデータ種別間で比較するために変動係数を信頼度とする。変動係数とは平均値に対する計測値（データ）とばらつきの関係を相対的に評価する指標であり、下記の式１から求めることができる。

［式１］
変動係数=標準偏差/平均

　図５は縦軸を変動係数および相対誤差の相対誤差とし、横軸をデータ種別（１から始める通し番号）として、変動係数と相対誤差の関係を示すグラフである。図５に示すように、ノイズ付計測値から算出する変動係数には相対誤差との相関関係がある。よって変動係数は差分プライバシーの有効性の指標として使用することができる。よって変動係数を信頼度として差分プライバシーの有効性の指標として用いる。変動係数が低い誤差も少ないため信頼度は高くなる。一方、変動係数が高い誤差も多いため、信頼度は低くなる。

　少ないサンプルサイズで差分プライバシーを適用した結果と差分プライバシーを適用しない結果の誤差を小さくするには辞書サイズを小さくする必要がある。

　また、少ないサンプルサイズで差分プライバシーを適用した結果と差分プライバシーを適用しない結果の誤差を小さくするために、データを増やすデータオーグメンテーション技術が利用されている。ノイズ付加をデバイスとクラウドに分割して複数回実施することにより、データ量を増やすことが可能となるが、単純な方法ではデバイスで付加されたノイズのバラつきに起因する誤差を下回って改善することができない。

　この点について図６を参照して説明する。図６Ａ乃至図６Ｈは全て横軸を辞書サイズとし、縦軸をサンプルサイズとしたものである。図６Ａに示すように元データのサンプルサイズが大きい場合、図６Ｂに示すようにデバイスにおいて差分プライバシーにより一様な分布であるノイズが付加される。そしてクラウドにおいてデータを集計した場合、図６Ｃに示すように一様なノイズの分だけデータが増える。そして図６Ｄに示すようにノイズを除去して元データを得る場合、ノイズが一様なものとしてノイズ除去を行うため、元データと、差分プライバシーでノイズを付加したデータとの誤差は小さい。

　一方、図６Ｅに示すように元データのサンプルサイズが小さい場合、デバイスにおいては差分プライバシーにより一様な分布ではないばらつきがあるノイズが付加される。そうすると、クラウドにおいてデータを集計した場合、図６Ｇに示すように分布がばらついているノイズでデータが増えたため、データもばらついた分布となる。しかし、クラウドにおいてはノイズが一様なものとしてノイズ除去を行うため、図６Ｈに示すように、ノイズを付加していないデータと、差分プライバシーによりノイズを付加したデータとの誤差は大きくなってしまう。サンプルサイズが少ない場合、このように一様に分布しないノイズが誤差の原因となる。

　そこで本技術では、データの階層構造を利用して、デバイス起因によるノイズ分布のバラつきをクラウドで予測し、クラウドでノイズのバラつきを補正してノイズ分布が一様になるようにノイズを付加してデータを増加させるオーグメンテーション処理を行う。データの階層構造、オーグメンテーション処理の詳細は後述する。

＜２．実施の形態＞
［２－１．データ処理システム１０の構成］
　次に、上述の差分プライバシーを使用するデータ処理システム１０の構成について説明する。この実施の形態では地域メッシュを用いたデータの収集において差分プライバシーを使用する例で本技術の説明を行う。この実施の形態では端末装置１００から位置情報をサーバ装置３００に送信することにより、サーバ装置３００に特定の地域メッシュに端末装置１００が存在することを示すデータを集めて、端末装置１００の分布、すなわち端末装置１００を所有するユーザの分布を把握するものである。

　図７に示すように、データ処理システム１０は複数の端末装置１００とサーバ装置３００とから構成されている。複数の端末装置１００とサーバ装置３００はインターネットなどのネットワーク１０００を介して接続されている。なお、説明および図面の便宜上、端末装置１００は７つ記載されているが、サーバ装置３００に接続されている端末装置１００はそれ以上に多数存在してもよい。

　サーバ装置３００は、例えば端末装置１００を製造するメーカーなどが運用する、差分プライバシーを利用して端末装置１００からデータを収集して統計結果を得るための装置である。サーバ装置３００は上述の差分プライバシーの説明におけるクラウドに相当するものである。

　端末装置１００は、少なくとも位置情報取得機能と通信機能を備えるスマートフォンなどである。端末装置１００は定期的または所定のタイミングで自己の位置情報を含むログをサーバ装置３００に送信する。

［２－２．地域メッシュの説明］
　ここで、特定の端末装置１００を使用しているユーザの分布を把握するために使用する地域メッシュについて説明する。地域メッシュとは、統計に利用するために緯度／経度に基づいて地域をほぼ同じ大きさの網の目（メッシュ）に分けたものである。メッシュのそれぞれを識別するためのコードが地域メッシュコードである。

　地域メッシュはメッシュの大きさに応じて１次メッシュ、２次メッシュ、３次メッシュに分類される。１次メッシュは２０万分の１地勢図の１図葉の区画を１単位区画としたもので、緯度差は４０分、経度差は１度で、辺の長さは約８０kmである。２次メッシュは２次メッシュを緯線方向及び経線方向に８等分してできる区域で、２万５千分の１地形図の１図葉の区画に対応する。緯度差は５分、経度差は７分３０秒で、１辺の長さは約１０kmである。３次メッシュは２次メッシュを緯線方向及び経線方向に１０等分してできる区域である。緯度差は３０秒、経度差は４５秒で、１辺の長さは約１kmである。

　多数の端末装置１００からそれぞれの位置情報を収集することにより端末装置１００のユーザの日本全域における分布を把握することができる。地域メッシュの数を辞書を構成するデータ種別とし、そのデータ種別数を辞書サイズとする。

　図８は１次メッシュを用いて日本全域をカバーした状態を示す図である。日本地図に重畳された矩形の一つ一つが１次メッシュである。１次メッシュは１７６個のメッシュで日本全域をカバーすることできるため、１次メッシュのみを使用した場合、辞書を構成するデータ種別数は１７６となり、辞書サイズは１７６となる。１次メッシュで日本全域をカバーするとメッシュ内に離島や過疎地域、山岳地域などが含まれることになり無駄が多い。

　２次メッシュは４８６２個のメッシュで日本全域をカバーすることができるため、２次メッシュのみを使用した場合、辞書を構成するデータ種別数は４８６２となり、辞書サイズが４８６２となる。２次メッシュも１次メッシュと同様にメッシュ内に離島や過疎地域、山岳地域などが含まれることになり無駄が多い。

　３次メッシュは３８７２８６個のメッシュで日本全域をカバーすることができるため、３次メッシュのみを使用した場合、辞書を構成するデータ種別数は３８７２８６となり、辞書サイズが３８７２８６となる。

　また、１次メッシュ、２次メッシュ、３次メッシュの具体的な値は参照するインターネット上のメッシュについての情報により変動があるため、本技術は上述の具体的なメッシュ数により何かしらの限定を受けるものではない。

［２－３．端末装置１００とノイズ付加装置２００の構成］
　次に図９を参照して端末装置１００の構成について説明する。端末装置１００は、制御部１０１、通信部１０２、記憶部１０３、位置情報取得部１０４、表示部１０５、入力部１０６およびノイズ付加装置２００を備えて構成されている。ノイズ付加装置２００は特許請求の範囲における外部のノイズ付加装置に相当するものである。なお、サーバ装置３００に接続されている端末装置１００は多数存在するが、説明および図面の便宜上、端末装置１００の詳細は一つのみを示している。

　制御部１０１は、ＣＰＵ（Central Processing Unit）、ＲＡＭ（Random Access Memory）およびＲＯＭ（Read Only Memory）などから構成されている。ＲＯＭには、ＣＰＵにより読み込まれ動作されるプログラムなどが記憶されている。ＲＡＭは、ＣＰＵのワークメモリとして用いられる。ＣＰＵは、ＲＯＭに記憶されたプログラムに従い様々な処理を実行してコマンドの発行を行うことによって端末装置１００全体の制御を行う。

　通信部１０２は、所定の通信規格によりサーバ装置３００やインターネットと通信する通信モジュールである。通信方法としては、Ｗｉ－Ｆｉ（Wireless Fidelity）などの無線ＬＡＮ（Local Area Network）、４Ｇ（第４世代移動通信システム）、５Ｇ（第５世代移動通信システム）、ブロードバンド、Bluetooth（登録商標）、などがある。

　記憶部１０３は、例えば、ＨＤＤ（Hard Disc Drive）、半導体メモリ、ＳＳＤ（solid state drive）などにより構成された記憶媒体であり、画像データ、動画データ、音声データ、テキストデータなどのコンテンツデータの他、アプリケーション、プログラムなどのデータを保存するものである。

　位置情報取得部１０４は端末装置１００の位置情報を得るためのＧＰＳ（Global Positioning System）モジュールである。本実施の形態においては位置情報取得部１０４で取得される端末装置１００の現在位置を示す位置情報が元データとしての下位データに変換される。下位データが特許請求の範囲における元データに相当するものである。

　表示部１０５は、画像や映像などのコンテンツ、ユーザインターフェースなどを表示するための表示デバイスである。表示デバイスとしては、例えば、ＬＣＤ（Liquid Crystal Display）、ＰＤＰ(Plasma Display Panel)、有機ＥＬ(Electro Luminescence)パネルなどにより構成されたものがある。

　入力部１０６は、ユーザが端末装置１００に対して指示を入力するための各種入力デバイスである。入力部１０６としては、ボタン、表示部１０５と一体に構成されたタッチスクリーンなどがある。入力部１０６に対して入力がなされると、その入力に応じた制御信号が生成されて制御部１０１やノイズ付加装置２００に出力される。

　ノイズ付加装置２００は、端末装置１００がプログラムを実行することにより構成される処理装置である。プログラムは端末装置１００内にインストールされていてもよいし、ダウンロード、記憶媒体などで配布されて、ユーザが自らインストールするようにしてもよい。なお、ノイズ付加装置２００は、プログラムによって実現されるのみでなく、その機能を有するハードウェアによる専用の装置、回路などを組み合わせて実現されてもよい。

　図１０に示すようにノイズ付加装置２００は、辞書格納部２０１、下位データ変換部２０２、上位データ変換部２０３、下位エンコード部２０４、上位エンコード部２０５、ログ生成部２０６を備えて構成されている。ノイズ付加装置２００はサーバ装置３００のデータ処理装置４００に送信するデータに差分プライバシーにおけるノイズを付加するための装置である。

　辞書格納部２０１は、サーバ装置３００から送信された辞書を記憶部１０３に格納させる記憶処理部である。格納する辞書はデータ処理装置４００の辞書生成部４０１が生成した辞書である。よって、ノイズ付加装置２００とデータ処理装置４００が有する辞書は共通のものとなる。本実施の形態では、下位データに対応した地域メッシュがデータ種別であり、そのデータ種別により辞書が構成される。よって辞書は、図１１に示すように、データ収集の対象となる複数の地域メッシュ（データ種別）により構成される領域全体を示したものであるといえる。データ収集の対象となる領域全体における下位階層の地域メッシュが辞書サイズとなる。

　下位データ変換部２０２は、位置情報取得部１０４が取得した位置情報を元データとしての下位データに変換するものである。下位データは図１１Ａに示すように、予め定めた所定の領域における地域メッシュのどこに位置情報が示す位置が存在するかを０と１で示したビット列として構成される。この下位データを構成する地域メッシュの階層を下位階層とする。このビット値はノイズと区別するために真値と称する。

　位置情報が示す位置を含む地域メッシュ、すなわち端末装置１００が存在する地域メッシュには「１」のビット値を割り当て、端末装置１００が存在しない地域メッシュは「０」のビット値を割り当てる。よってビット値「１」はその地域メッシュに端末装置１００の所有者である一のユーザが存在することを示している。

　予め定めた所定の領域における複数の地域メッシュが辞書を構成するデータ種別である。また、所定時間内における、地域メッシュ内からの複数の端末装置１００からサーバ装置３００へのデータ（ログ）の送信回数の合計が地域メッシュごとのカウント値（サンプルサイズ）である。送信回数の合計はデータ処理装置４００で集計される。

　上位データ変換部２０３は、データの階層構造における下位階層のデータである下位データから上位階層のデータである上位データを生成するものである。

　データの階層構造は、下位階層の下位データと、その下位データから生成する上位階層の上位データで構成されるものである。下位データは、位置情報をビット列のデータに変換した元データであり、上位データは下位データから生成したビット列のデータである。本技術はデータの階層構造を利用して端末装置１００のノイズ付加装置２００で付加されたノイズの分布を予測するものであるため、元データである下位データだけではノイズ分布を予測することができない。よって、データの階層構造を構成するために下位データから上位データを生成する必要がある。

　本実施の形態においては図１１Ａに示すように、まず特定のサイズの地域メッシュ（例えば３次メッシュ）を下位階層とする。そして、下位階層の地域メッシュを包含し、下位階層の地域メッシュよりもメッシュのサイズが大きい上位の地域メッシュ（１次メッシュまたは２次メッシュ）を上位階層とする。なお、２次メッシュを下位階層とし、１次メッシュを上位階層としてもよい。

　図１１Ｂに示す４個のメッシュであるＭ１、Ｍ２、Ｍ３、Ｍ４が上位データに対応する上位階層である。また、図１１Ａに示す１６個のメッシュが下位データに対応する下位階層である。

　Ｍ１－１、Ｍ１－２、Ｍ１－３、Ｍ１－４が上位階層のメッシュＭ１に含まれる下位階層のメッシュである。また、Ｍ２－１、Ｍ２－２、Ｍ２－３、Ｍ２－４が上位階層のメッシュＭ２に含まれる下位階層のメッシュである。また、Ｍ３－１、Ｍ３－２、Ｍ３－３、Ｍ３－４が上位階層のメッシュＭ３に含まれる下位階層のメッシュである。さらに、Ｍ４－１、Ｍ４－２、Ｍ４－３、Ｍ４－４が上位階層のメッシュＭ４に含まれる下位階層のメッシュである。

　下位階層の複数の地域メッシュにおいて、位置情報が示す位置を含む地域メッシュには下位データ変換部２０２によりビット値「１」が立てられる。また、位置情報が示す位置を含まない地域メッシュには下位データ変換部２０２によりビット値「０」が立てられる。このようにして位置情報が下位データとしてのビット列に変換される。

　そして、上位データ変換部２０３は、下位階層の各地域メッシュのビット値をその下位階層の地域メッシュを包含する上位階層の地域メッシュに反映させることにより、上位データであるビット列を生成する。

　例えば、図１１Ａに示すように下位階層の地域メッシュＭ４－３が位置情報が示す位置を含んでいる場合、地域メッシュＭ４－３にビット値「１」が立てられる。そして、それは上位階層の地域メッシュＭ４も位置情報が示す位置を含んでいるとうことである。よって図１１Ｂに示すように、上位階層の地域メッシュＭ４にもビット値「１」が立てられる。

　図１１Ａに示すように、下位階層の地域メッシュＭ３－１、Ｍ３－２、Ｍ３－３、Ｍ３－４は位置情報が示す位置を含んでいない場合、それら４つの地域メッシュにはビット値「０」が立てられる。そして、図１１Ｂに示すように、それは上位階層の地域メッシュＭ３も位置情報が示す位置を含んでいないということであり、上位階層の地域メッシュＭ３にもビット値「０」が立てられる。これは上位階層の地域メッシュＭ１、Ｍ２においても同様である。このようにして下位階層の下位データから上位階層の上位データを生成することができる。

　ノイズ付加装置２００の説明に戻る。下位エンコード部２０４は、サーバ装置３００に送信する下位データであるビット列にエンコード処理とノイズ付加処理を施し、下位ノイズ付加データを生成するものである。付加するノイズの量はプライバシー指標と確率分布に従って決定される。よって、ノイズを付加するまでどのような分布のノイズが付加されるかはわからない。

　例えば、図１１Ａに示した下位データにノイズを付加すると図１２Ａに示すようになる。位置情報に示す位置が地域メッシュ内に存在することを示すビット値である「１」が複数の地域メッシュにおいてノイズとして付加されている。これによりビット値「１」の数が増加している。図１２Ａにおいて真値とノイズとを区別するためにノイズであるビット値「１」には（ｎ）を付けている。

　上位エンコード部２０５は、サーバ装置３００に送信する上位データであるビット列にエンコード処理とノイズ付加処理を施し、上位ノイズ付加データを生成するものである。付加するノイズの量はプライバシー指標と確率分布に従って決定される。よって、ノイズを付加するまでどのような分布のノイズが付加されるかはわからない。

　例えば、図１１Ｂに示した上位データにノイズを付加すると図１２Ｂに示すようになる。位置情報が示す位置が地域メッシュ内に存在することを示すビット値である「１」が地域メッシュにおいてノイズとして付加されている。これによりビット値「１」の数が増加している。図１２Ｂにおいて真値とノイズとを区別するためにノイズであるビット値「１」にはノイズには（ｎ）を付けている。なお、下位データと上位データにはそれぞれ別の処理でノイズを付加するため、下位データにおいてノイズが付加されている下位階層の地域メッシュを包含する上位階層の地域メッシュにもノイズが付加されているとは限らない。

　元データである下位データに対応する全地域メッシュの数が辞書サイズに相当する。

　ログ生成部２０６は、上位ノイズ付加データと下位ノイズ付加データを含む、サーバ装置３００へ送信するログを生成するものである。ログはヘッダー情報としてタイムスタンプ、差分プライバシーのパラメータ情報である上位プライバシー指標および下位プライバシー指標、上位ビット数、下位ビット数、端末装置１００の識別情報（ＩＤ）などを含むものである。生成されたログは、通信部１０２による通信でネットワーク１０００を介してサーバ装置３００に送信される。なお、プライバシー指標や識別情報など不変の情報については予め端末装置１００とサーバ装置３００で共有していればログに含める必要はない。

　端末装置１００とノイズ付加装置２００は以上のように構成されている。

［２－４．サーバ装置３００とデータ処理装置４００の構成］
　次に図１３を参照してサーバ装置３００の構成について説明する。サーバ装置３００は制御部３０１、通信部３０２、記憶部３０３、データ処理装置４００とから構成されている。

　制御部３０１は、ＣＰＵ、ＲＡＭおよびＲＯＭなどから構成されている。ＣＰＵは、ＲＯＭに記憶されたプログラムに従い様々な処理を実行してコマンドの発行を行うことによってサーバ装置３００全体の制御を行う。

　通信部３０２は、所定の通信規格により端末装置１００やインターネットと通信する通信モジュールである。通信方法としては、Ｗｉ－Ｆｉなどの無線ＬＡＮ、４Ｇ、５Ｇ、ブロードバンド、Bluetooth（登録商標）などがある。

　記憶部３０３は、例えば、ＨＤＤ、半導体メモリ、ＳＳＤなどにより構成された記憶媒体であり、アプリケーション、プログラム、端末装置１００から送信されたログ、データなどを保存するものである。

　データ処理装置４００は、サーバ装置３００がプログラムを実行することにより構成される処理部である。プログラムはサーバ装置３００内にインストールされていてもよいし、ダウンロード、記憶媒体などで配布されて、ユーザが自らインストールするようにしてもよい。なお、データ処理装置４００は、プログラムによって実現されるのみでなく、その機能を有するハードウェアによる専用の装置、回路などを組み合わせて実現されてもよい。

　図１４に示すようにデータ処理装置４００は、辞書生成部４０１、辞書格納部４０２、下位デコード部４０３、上位デコード部４０４、データ拡張部４０５、ノイズ分布予測部４０６、オーグメンテーション処理部４０７、デコード部４０８、統計分析部４０９を備えて構成されている。

　辞書生成部４０１は、データ集合として辞書の生成するものである。本実施の形態においては下位データに対応した地域メッシュがデータ種別であり、そのデータ種別により辞書が構成される。よって辞書は、図１１に示すように、データ収集の対象となる複数の地域メッシュ（データ種別）により構成される領域全体を示したものであるといえる。データ収集の対象となる領域全体における下位階層の地域メッシュが辞書サイズとなる。

　辞書生成部４０１により生成された辞書のデータは辞書格納部４０２により記憶部３０３に格納されるとともに、端末装置１００に送信されて端末装置１００においても辞書格納部２０１により格納される。

　辞書格納部４０２は、辞書生成部４０１が生成した辞書を記憶部３０３に格納する記憶処理部である。

　下位デコード部４０３は、サーバ装置３００が受信した複数のログから下位ノイズ付加データを集約するとともに、下位ノイズ付加データにデコード処理とノイズ除去処理を施して下位データを得る。下位デコード部４０３は特許請求の範囲におけるノイズ除去部に相当するものである。

　上位デコード部４０４は、サーバ装置３００が受信した複数ログから上位ノイズ付加データを集約するとともに、下位ノイズ付加データにデコード処理とノイズ除去処理を施して上位データを得る。ノイズが除去された下位データはノイズ分布予測部４０６に供給される。

　データ拡張部４０５には上位ノイズ付加データが供給される。データ拡張部４０５はノイズ分布予測部４０６によるノイズ分布予測処理のために、下位データのビット長に合わせて上位データを拡張させる処理を行う。拡張処理が施された上位ノイズ付加データはノイズ分布予測部４０６に供給される。

　ノイズ分布予測部４０６には拡張された上位ノイズ付加データと、下位ノイズ付加データが供給される。ノイズ分布予測部４０６は、上位ノイズ付加データと下位ノイズ付加データを用いて下位ノイズ付加データにおけるノイズの分布を予測する。ノイズ分布予測結果はオーグメンテーション処理部４０７に供給される。データ処理装置４００が受信するのはノイズ付加装置２００ですでにノイズが付加されたデータであるため、ノイズ付加装置２００でどのようなノイズが付加されたかを把握するためにはノイズ分布を予測する必要がある。

　オーグメンテーション処理部４０７は、予測したノイズ分布に基づいてノイズ分布が一様に近づくように下位ノイズ付加データにさらにノイズを付加し、オーグメンテッドデータ（augmented data）を生成する。このオーグメンテーション処理でノイズを付加することによりデータ量を多くしてサンプルサイズを増やすことができる。

　デコード部４０８は、複数の端末装置１００からそれぞれ送信されたデータにオーグメンテーション処理が施された生成された複数のオーグメンテッドデータを集約するとともに、複数のオーグメンテッドデータにノイズ除去処理を行い、複数の元データ（下位データ）を生成する。デコード部４０８は特許請求の範囲におけるノイズ除去部に相当するものである。

　下位データはノイズが付加されていないデータであるため、複数の端末装置１００から送信されたログから集約した下位データに基づいて、データ収集の対象となる領域（辞書）におけるデータ種別（下位階層の地域メッシュ）ごとのカウント値（サンプルサイズ）を得ることができる。カウント値とは、下位階層の地域メッシュごとに地域メッシュ内において位置情報がサーバ装置３００に送信された回数である。これにより、統計結果として、データ収集の対象となる領域（辞書）において端末装置１００を所有するユーザがどこにどれだけ存在するかを把握することができる。

　カウント値は例えば図１５に示すように、所定時間内における下位階層の地域メッシュごとのその地域メッシュ内から位置情報が送信された回数である。この位置情報の送信回数がサンプルサイズであり、地域メッシュごとの送信回数がデータ種別ごとのサンプルサイズとなる。これは１つの端末装置１００から送信された回数ではなく、サーバ装置３００に接続され、サーバ装置３００にデータを送信する全ての端末装置１００から送信された送信回数の合計である。

　また、複数のオーグメンテッドデータからもカウント値を得ることができる。オーグメンテッドデータから得られるカウント値については後述する。

　統計分析部４０９は、統計分析結果、信頼度などを可視化するためにヒートマップを作成するものである。なお、統計分析部４０９は本技術において必須の構成ではない。

　サーバ装置３００とデータ処理装置４００は以上のように構成されている。

［２－５．ノイズ付加装置２００における処理］
　次に図１６にフローチャートを参照してノイズ付加装置２００における処理について説明する。まずステップＳ１１で、データ処理装置４００に送信するデータを決定する。この送信データは端末装置１００の位置情報取得部１０４で取得された端末装置１００の位置情報である。データ決定によるデータ送信のタイミングは端末装置１００のユーザが決定してもよいし、予め定めたアルゴリズムなどにより自動で決定してもよい。

　次にステップＳ１２で、下位データ変換部２０２は送信データから元データとなる下位データを生成する。下位データは上述したように地域メッシュごとに立てられたビット値からなるビット列として構成され、予め定めた所定の範囲における地域メッシュのどこから位置情報が送信されたかを０と１で示したものである。

　次にステップＳ１３で、上位データ変換部２０３は下位データから上位データを生成する。上述したように、上位データは地域メッシュごとに立てられたビット値からなるビット列として構成され、予め定めた所定の範囲における地域メッシュのどこにユーザの端末装置１００が存在するかを０と１で示したものである。上位データは下位階層の地域メッシュよりもメッシュのサイズが大きい上位の地域メッシュで構成され、下位階層のビット値をその下位階層の地域メッシュを包含する上位階層の地域メッシュに反映させたものである。

　本技術はデータの階層構造を利用して端末装置１００のデータ処理装置４００で付加されるノイズの分布を予測するものであるため、よって、データの階層構造を構成するために元データを下位データとし、さらに下位データから上位データを生成する必要がある。

　次にステップＳ１４で、下位エンコード部２０４は下位データにエンコード処理とノイズ付加処理を施し、下位ノイズ付加データを生成する。またステップＳ１５で、上位エンコード部２０５は上位データにエンコード処理とノイズ付加処理を施し、上位ノイズ付加データを生成する。なお、ステップＳ１２とステップＳ１３、ステップＳ１４とステップＳ１５は説明の便宜上順序をつけて説明しているが、並列的に同時に行ってもよい。

　次にステップＳ１６で、ログ生成部２０６は上位ノイズ付加データと下位ノイズ付加データを含み、データ処理装置４００に送信するログを生成する。

　そしてステップＳ１７で、端末装置１００の通信部１０２を介してサーバ装置３００にログを送信する。なお、ログをサーバ装置３００に送信する際には送信に必要な端末装置１００固有のヘッダー情報をログに付加する。

　端末装置１００はこの処理を定期的に、または予め定められたタイミングで行う。

［２－６．データ処理装置４００における処理］
　次に図１７のフローチャートを参照してデータ処理装置４００における処理について説明する。まずステップＳ２１で、サーバ装置３００に接続されている全ての端末装置１００から送信されるログを受信する。

　次にステップＳ２２で下位デコード部４０３が、ログから下位ノイズ付加データを取り出して集約する。また、ステップＳ２３で上位デコード部４０４が、ログから上位ノイズ付加データを取り出して集約する。

　次にステップＳ２４で、下位デコード部４０３が下位ノイズ付加データにデコード処理とノイズ除去処理を施して下位データを得る。また、ステップＳ２５で、上位デコード部４０４が上位ノイズ付加データにデコード処理とノイズ除去処理を施し、上位データを得る。

　次にステップＳ２６で、データ拡張部４０５は上位データを下位データのビット長に合わせて拡張する。

　次にステップＳ２７で、ノイズ分布予測部４０６で上位データおよび下位データからデバイスで付加されたノイズの分布を予測する。

　ここで、ステップ２６のデータ拡張とステップＳ２７のノイズ分布予測について図１２に示した下位ノイズ付加データと上位ノイズ付加データを参照して説明する。ノイズ分布予測は上位ノイズ付加データと下位ノイズ付加データというデータの階層構造を利用して行う。

　図１２に示す下位ノイズ付加データと上位ノイズ付加データのビット列の対応関係を表にすると図１８Ａのようになる。そして、上位ノイズ付加データのビット列をデータ拡張部４０５により下位ノイズ付加データのビット長に合わせて拡張すると図１８Ｂに示すようになる。拡張とは、図１８Ｂに示すように上位ノイズ付加データのビット値と同じビット値を下位ノイズ付加データのビット列の桁数に合わせるようにすることである。

　下位階層の一の地域メッシュと、その一の地域メッシュを包含する上位階層の地域メッシュの両方にビットが立てられている場合、そのビット値は真値である可能性が高いと判断する。一方、下位階層の一の地域メッシュとその一の地域メッシュを包含する上位階層の地域メッシュのいずれか一方にだけビット値が立てられている場合、そのビット値はノイズである可能性が高いと判断する。

　例えば、下位階層の地域メッシュＭ４－３のビット値は１であり、地域メッシュＭ４－３を包含する上階階層の地域メッシュＭ４のビット値も１であるため、Ｍ４－３のビット値は真値である確率が高いと予測できる。これは下位階層の地域メッシュＭ１－１と上位階層の地域メッシュＭ１においても同様である。

　一方、下位階層の地域メッシュＭ２－２のビット値は１であり、地域メッシュＭ２－２を包含する上階階層の地域メッシュＭ２のビット値は０である。このように、下位階層と上位階層で一致しない下位階層の地域メッシュＭ２－２のビット値は真値である確率が低い（ノイズである確率が高い）と予測できる。これは、下位階層の地域メッシュＭ２－３と上位階層の地域メッシュＭ２においても同様であり、下位階層の地域メッシュＭ３－４と上位階層の地域メッシュＭ３においても同様である。

　このように下位階層においてビット値１が付されている全ての地域メッシュについてそれが真値である確率が高いか低いかを確認し、真値である確率が高いビット値には真値である確率が高いことを示す真値確率値をかける。一方、真値である確率が低いビット値には真値である確率が低いことを示す真値確率値をかける。そうすると下位ノイズ付加データのビット値１が真値である確率値は図１９に示すようになる。

　真値である確率値は０から１．０の値をとり、１．０の場合には真値である確率が１００％であり、０の場合には真値である確率が０％である。例えば、真値である確率が高いことを示す真値確率値は０．８とし、真値である確率が低いことを示す真値確率値は０．２とする。真値である確率が高いことを示す真値確率値を１．０ではなく０．８としているのは、上位階層と下位階層のビット値が共に１である場合、それが真値であるかノイズであるかの区別を行っていないからである。なお、この真値確率値はあくまで一例であり、本技術がこの値に限定されるものではない。

　このようにして下位ノイズ付加データであるビット列について真値であるかノイズであるかの確率を得ることができる。そしてこの真値確率に基づいて図２０に示すような辞書についてのノイズの分布予測を得ることができる。図２０のグラフは横軸を辞書サイズとし、縦軸をノイズ量として辞書を構成するデータ種別ごとのノイズの分布予測結果である。

　図１７のフローチャートの説明に戻る。次にステップＳ２８で、算出したノイズ分布予測に基づいてオーグメンテーション処理部４０７が下位ノイズ付加データにオーグメンテーション処理を行い、ノイズ分布が一様になるように下位ノイズ付加データにさらにノイズを付加する。

　ここで図２１のフローチャートを参照してオーグメンテーション処理について説明する。

　まずステップＳ４１で、辞書からオーグメンテーション処理の対象とする地域メッシュ（データ種別）を１つ選択する。

　次にステップＳ４２で、選択した地域メッシュにおいてさらにノイズを付加し、ノイズ追加データを生成する。次にステップＳ４３でノイズ追加データについて変動係数（ＣＶ:Coefficient of Variation）を算出する。

　次にステップＳ４４で、ステップＳ４３で算出した変動係数と、その変動係数を算出した地域メッシュと同じ地域メッシュについて前回の処理で算出した変動係数とを比較し、変動係数が改善しているか否かを判定する。ここで、「変動係数が改善した」とは、変動係数の値が小さくっていることであり、変動係数が小さくなるということはノイズのばらつきが小さくなっているということを表している。したがって、ノイズ付加データにさらにノイズを付加することによりノイズのばらつきがなくなりノイズが一様になるためには、変動係数が小さくなることが望ましい。

　なお、ステップＳ４３で算出した変動係数が１つ目の変動係数である場合には予め設定したデフォルトの変動係数と比較してもよいし、比較処理は行わずにステップＳ４５に進むようにしてもよい。

　変動係数が改善している場合、処理はステップＳ４５に進む（ステップＳ４４のＹｅｓ）。次にステップＳ４５で、ステップＳ４２でノイズを追加して生成したノイズ追加データをオーグメンテッドデータとして採用する。

　そしてステップＳ４６で、ステップＳ４２で算出した変動係数を次に処理における新たな変動係数と比較する変動係数として更新する。

　そしてステップＳ４７でサンプルサイズが予め定めた所定数に達したか否かを判定する。サンプルサイズが所定数に達した場合、オーグメンテーション処理が成功したとして処理は終了となる（ステップＳ４７のＹｅｓ）。

　一方、サンプルサイズが所定数に達していない場合、処理はステップＳ４１に進み、ステップＳ４１乃至ステップＳ４７が繰り返される（ステップＳ４７のＮｏ）。

　説明はステップＳ４４に戻る。ステップＳ４４で、ステップＳ４３で算出した変動係数と前回の処理で算出した変動係数とを比較し、変動係数が悪化した（改善していない）場合、処理はステップＳ４８に進む（ステップＳ４４のＮｏ）。ここで、変動係数が悪化した、とは、変動係数の値が大きくなっていることであり、変動係数が大きくなるということはノイズのばらつきが大きくなっているということを表している。

　次にステップＳ４８で、一の変動係数について変動係数が悪化したと判定した回数が所定数に達したか否かを判定する。変動係数が悪化したと判定した回数が所定数に達していない場合処理はステップＳ４２に進む（ステップＳ４８のＮｏ）。

　そしてステップＳ４２で、ステップＳ４１で選択したデータに新たにノイズを付加し、ステップＳ４３でその新たにノイズを付加したノイズ付加データについて変動係数を算出する。そして、その変動係数が前回の処理の変動係数と比較して改善している場合は処理はステップＳ４５に進み（ステップＳ４４のＹｅｓ）、悪化している場合処理はステップＳ４８に進む（ステップＳ４４のＮｏ）。

　変動係数が悪化している場合、変動係数が悪化したと判定した回数が所定数に達するまで、ステップＳ４２乃至ステップＳ４５、およびステップＳ４８が繰り返される。

　ステップＳ４８で変動係数が悪化したと判定した回数が所定数に達した場合、処理はステップＳ４７に進む（ステップＳ４８のＹｅｓ）。この場合、ステップＳ４７に進み、サンプルサイズが所定値に達していない場合他の辞書に対する処理を行う。

　以上のようにしてオーグメンテーション処理が行われる。このオーグメンテーション処理によれば、変動係数が改善する地域メッシュ（データ種別）にのみノイズが追加で付加されるため、ノイズによりデータを増やす必要がある地域メッシュにのみノイズを付加してノイズ分布を一様にすることができる。

　図１７のフローチャートの説明に戻る。次にステップＳ２９で、デコード部４１０が複数の端末装置１００から受信したログから生成されたオーグメンテッドデータを集約して、デコード部４０８に供給する。

　次にステップＳ３０で、デコード部４０８でオーグメンテッドデータにデコード処理とノイズ除去処理を施し、辞書を構成する地域メッシュ（データ種別）ごとのカウント値（サンプルサイズ）としてのデータの送信回数を取得する。

　オーグメンテーション処理により、例えば下位階層の地域メッシュにおけるデータが図１５に示すような場合、ノイズ付加装置２００におけるノイズ付加とデータ処理装置４００におけるオーグメンテーションにより図２２に示すようなノイズの分布が一様になるようにノイズが付加される。図２２ではノイズ分布が一様であり、図１５の下位ノイズ付加データにさらに平均３００のノイズが付加されている。

　図２３のグラフに示すように、オーグメンテーション処理によりノイズが追加されて生成されたノイズ追加データは元データと比べて、ノイズを追加した分大きなカウント値（サンプルサイズ）を得ることができる。

　そして３００のノイズを、辞書を構成する全てのデータ種別（地域メッシュ）から一様に減算することにより、元データの状態にして正しい統計値を得ることができる。

　本技術により処理は以上のように行われる。本技術によれば、サンプルサイズが小さいことにより差分プライバシーとして付加するノイズが一様に分布せずにばらつく場合でも、そのノイズのばらつきを予測して分布が一様になるようにノイズを付加することができる。このノイズ付加により擬似的にデータ量（サンプルサイズ）を増やすことができる。差分プライバシーでは辞書サイズが同じ場合、サンプルサイズが大きければ大きいほど誤差が小さくなるため、ノイズを付加してデータ量を増やす（サンプルサイズを大きくする）ことにより、少ないデータ量でも統計結果の誤差を小さくすることができ、差分プライバシーの精度を高めることができる。

　また、本技術ではデータにノイズを一度付加するのではなく、デバイス側（ノイズ付加装置２００）で一度ノイズを付加し、その付加されたノイズのばらつきを補正するようにさらにクラウド側（データ処理装置４００）でさらにノイズを付加する。よって、最終的にノイズの分布のばらつきが少ないノイズ付加データを生成して、ノイズ付加前後で誤差が少ない状態でノイズによりデータを増やすことができる。

　図２４はオーグメンテーション処理により誤差が小さくなることの説明図である。図２４Ａは横軸を辞書サイズ、縦軸をカウント値として元データとノイズ付加データを比較したものである。図２４Ｂは横軸を辞書サイズ、縦軸をノイズ量としてノイズ付加装置２００で付加されるノイズの分布と、理想とする一様なノイズ分布を示したものである。図２４Ｃは横軸を辞書サイズ、縦軸をカウント値として元データとオーグメンテッドデータを比較したものである。

　図２４Ｂに示すようにノイズ付加装置２００で付加されるノイズの分布が一様でないことにより、図２４Ａに示すように元データとノイズ付加データとで大きな誤差が生じている。それに対し、図２４Ｃに示すように分布が一様なノイズをオーグメンテーション処理で付加することにより元データとオーグメンテッドデータでは誤差が小さくなる。

＜３．変形例＞
　以上、本技術の実施の形態について具体的に説明したが、本技術は上述の実施の形態に限定されるものではなく、本技術の技術的思想に基づく各種の変形が可能である。

　実施の形態では端末装置１００をスマートフォンとして説明を行ったが、端末装置１００はスマートフォンの他、パーソナルコンピュータ、タブレット端末、カメラ、ウェアラブル機器、スマートスピーカ、ゲーム機器、サーバ装置３００、インターネット接続可能なペット型／人型ロボット、各種センサ装置、各種ＩｏＴ（Internet of Things）機器、情報を外部に送信することができるものであればなんでもよい。

　実施の形態では、地域メッシュを使用したが本技術はそれに限られるものではない。例えば、端末装置１００における文字入力でユーザが使用する絵文字の使用頻度、端末装置１００において動作するアプリケーションの使用頻度、地域の温度の計測値、など、統計データとして扱えることができるものであればどのようなものでも適用可能である。

　実施の形態では地域メッシュに立てられたビット値を用いて下位データから上位データを生成したが、下位データがＧＰＳの緯度経度情報である場合、その緯度経度情報の数値の下複数桁を削除することにより、上位データとしての緯度経度情報を生成することができる。

　また、下位データがスマートフォンなどにおける文字入力で使用される絵文字の全種類である場合、その絵文字の種類の分類を例えば、人、動物、マーク、食べ物のなどの上位概念で分類することにより上位データを生成することができる。また、データが温度などの数値データである場合、下位データを小数点以下の値（３７．１、３８．２など）とし、上位データを整数値（３７、３８など）とすることもできる。さらに、データが年齢である場合、下位データを下一桁も含めた年齢とし（３５歳、４７歳など）、上位データを下一桁を含まない年代（３０代、４０代など）とすることも可能である。

　実施の形態ではデータの階層構造は２階層としたが、データは３階層以上の階層構造であってもよい。

　本技術は以下のような構成も取ることができる。
（１）
　外部のノイズ付加装置において元データにノイズを付加して生成されたノイズ付加データにおける前記ノイズの分布を予測するノイズ分布予測部と、
　前記ノイズの分布の予測結果に基づいて前記ノイズ付加データにオーグメンテーション処理を行うオーグメンテーション処理部とを備えるデータ処理装置。
（２）
　前記ノイズ付加装置において、前記ノイズは、前記元データである下位階層の下位データと、前記下位階層よりも上位階層のデータである上位データにそれぞれ付加される（１）に記載のデータ処理装置。
（３）
　前記上位データは前記外部装置において前記下位データから生成される（２）に記載のデータ処理装置。
（４）
　前記ノイズ付加装置において前記上位データにノイズが付加された上位ノイズ付加データと、前記下位データにノイズが付加された下位ノイズ付加データはビット列で構成されている（１）から（３）のいずれかに記載のデータ処理装置。
（５）
　前記ノイズ分布予測部は、前記上位ノイズ付加データと前記下位ノイズ付加データを比較し、前記下位ノイズ付加データのビット列を構成するビットがノイズであるかを判定することにより前記下位ノイズ付加データにおけるノイズ分布を予測する（１）から（４）のいずれかに記載のデータ処理装置。
（６）
　前記上位ノイズ付加データと前記下位ノイズ付加データとを比較するために前記上位ノイズ付加データの拡張処理を行うデータ拡張部を備える（５）に記載のデータ処理装置。
（７）
　前記データ拡張部は、前記上位ノイズ付加データのビット列の桁数を前記下位ノイズ付加データのビット列の桁数に一致させるように前記上位ノイズ付加データのビット列を拡張する（６）に記載のデータ処理装置。
（８）
　前記オーグメンテーション処理部は、前記ノイズ付加データにノイズを付加してデータ量を増やす（１）から（７）のいずれかに記載のデータ処理装置。
（９）
　前記オーグメンテーション処理部は、前記ノイズの分布のばらつきを示す変動係数が小さくなるように前記ノイズ付加データにノイズを付加する（８）に記載のデータ処理装置。
（１０）
　前記オーグメンテーション処理部により前記元データに付加された前記ノイズを除去するノイズ除去部を備える（９）に記載のデータ処理装置。
（１１）
　外部のノイズ付加装置において元データにノイズを付加して生成されたノイズ付加データにおける前記ノイズの分布を予測し、
　前記ノイズの分布の予測結果に基づいて前記ノイズ付加データにオーグメンテーション処理を行うデータ処理方法。
（１２）
　外部のノイズ付加装置において元データにノイズを付加して生成されたノイズ付加データにおける前記ノイズの分布を予測し、
　前記ノイズの分布の予測結果に基づいて前記ノイズ付加データにオーグメンテーション処理を行うデータ処理方法をコンピュータに実行させるデータ処理プログラム。

２００・・・ノイズ付加装置
４０５・・・データ拡張部
４０６・・・ノイズ分布予測部
４０７・・・オーグメンテーション処理部
４００・・・データ処理装置

Claims

　外部のノイズ付加装置において元データにノイズを付加して生成されたノイズ付加データにおける前記ノイズの分布を予測するノイズ分布予測部と、
　前記ノイズの分布の予測結果に基づいて前記ノイズ付加データにオーグメンテーション処理を行うオーグメンテーション処理部と
を備えるデータ処理装置。
　前記ノイズ付加装置において、前記ノイズは、前記元データである下位階層の下位データと、前記下位階層よりも上位階層のデータである上位データにそれぞれ付加される
請求項１に記載のデータ処理装置。
　前記上位データは前記外部装置において前記下位データから生成される
請求項２に記載のデータ処理装置。
　前記ノイズ付加装置において前記上位データにノイズが付加された上位ノイズ付加データと、前記下位データにノイズが付加された下位ノイズ付加データはビット列で構成されている
請求項１に記載のデータ処理装置。
　前記ノイズ分布予測部は、前記上位ノイズ付加データと前記下位ノイズ付加データを比較し、前記下位ノイズ付加データのビット列を構成するビットがノイズであるかを判定することにより前記下位ノイズ付加データにおけるノイズ分布を予測する
請求項１に記載のデータ処理装置。
　前記上位ノイズ付加データと前記下位ノイズ付加データとを比較するために前記上位ノイズ付加データの拡張処理を行うデータ拡張部を備える
請求項５に記載のデータ処理装置。
　前記データ拡張部は、前記上位ノイズ付加データのビット列の桁数を前記下位ノイズ付加データのビット列の桁数に一致させるように前記上位ノイズ付加データのビット列を拡張する
請求項６に記載のデータ処理装置。
　前記オーグメンテーション処理部は、前記ノイズ付加データにノイズを付加してデータ量を増やす
請求項１に記載のデータ処理装置。
　前記オーグメンテーション処理部は、前記ノイズの分布のばらつきを示す変動係数が小さくなるように前記ノイズ付加データにノイズを付加する
請求項８に記載のデータ処理装置。
　前記オーグメンテーション処理部により前記元データに付加された前記ノイズを除去するノイズ除去部を備える
請求項９に記載のデータ処理装置。
　外部のノイズ付加装置において元データにノイズを付加して生成されたノイズ付加データにおける前記ノイズの分布を予測し、
　前記ノイズの分布の予測結果に基づいて前記ノイズ付加データにオーグメンテーション処理を行う
データ処理方法。
　外部のノイズ付加装置において元データにノイズを付加して生成されたノイズ付加データにおける前記ノイズの分布を予測し、
　前記ノイズの分布の予測結果に基づいて前記ノイズ付加データにオーグメンテーション処理を行う
データ処理方法をコンピュータに実行させるデータ処理プログラム。