WO2020149141A1

WO2020149141A1 - データ処理装置、データ処理方法、データ処理プログラム、端末装置およびデータ処理システム

Info

Publication number: WO2020149141A1
Application number: PCT/JP2019/051210
Authority: WO
Inventors: 哲士梅田
Original assignee: ソニー株式会社
Priority date: 2019-01-15
Filing date: 2019-12-26
Publication date: 2020-07-23
Also published as: EP3913514A1; US20220027516A1; CN113287107A; US11934562B2; EP3913514A4

Abstract

端末装置から受信した、ノイズが付加されたデータからノイズを除去するノイズ除去部と、データを、データ集合を構成するとともにデータの分類を示すデータ種別ごとに計測する計測部と、計測部の計測結果に基づいてデータ集合を更新するデータ集合更新部とを備えるデータ処理装置である。である。

Description

データ処理装置、データ処理方法、データ処理プログラム、端末装置およびデータ処理システム

　本技術は、データ処理装置、データ処理方法、データ処理プログラム、端末装置およびデータ処理システムに関する。

　近年、インターネットの発達、インターネットに接続可能なデバイスの普及に伴い、デバイスにおける様々なデータがインターネットサービスを提供する会社、デバイスを開発知る会社などによって収集されサービスの向上、製品開発などに利用されている。そのようなデータの中で有用なデータの一つは、デバイスを使用するユーザ個人についてのデータである。ユーザ個人についてのデータとしては、デバイスの使用方法、デバイスを介したインターネット上のサービスの利用状況など様々なものがある。

　そのようなユーザ個人のデータは利用価値が高い反面、データの漏洩、データの取り扱い方法などによりユーザのプライバシーを侵害してしまうという問題がある。そこで、プライバシーの侵害を防ぐために差分プライバシーと称される技術が用いられている。

　差分プライバシーとは、収集するデータにノイズを加えることにより、データの主体であるユーザ等を特定することを防ぎつつ、データ自体を使用することをできるようにする技術である。「あるデータが特定ユーザのものである」という仮説に統計的な信頼を一定以上与えないことができる。任意の背景知識による攻撃に対しても、数学的な安全性が与えられるため、プライバシーへの影響を定量的に評価できる特徴を持っている。差分プライバシーを使用することにより、ユーザの同意を得ずにデータを収集した場合でもユーザのプライバシー侵害を防止することができる。差分プライバシーには、出力型差分プライバシーとローカル型差分プライバシーがある。

　出力型差分プライバシーはデバイスから生のデータを収集してクラウド上に構築したデータベースで管理する。データ利用者がデータベースにアクセスしてデータを利用する際にデータにノイズを付加して公開することによりユーザのプライバシーを保護する。クラウドサービスを提供する事業者が生データを管理するため、生データを収集されることに対するユーザの心理的障壁や、それが漏洩した際の事業者のビジネスリスクなどが懸念される。

　ローカル型差分プライバシーはユーザの手元のデバイスでノイズを付加し、匿名化されたデータをクラウドで収集する方法である。データ利用時にはクラウドからノイズを除去した統計値を得ることが可能となる。匿名化された状態でデータを収集するためユーザの心理的障壁は低く、それが漏洩した際の事業者のビジネスリスクも小さい。

　そのような差分プライバシーは、収集するデータが大量に存在するほうが精度が高くなるので、通常、収集するデータが大量に存在することを前提としている。しかし、データの種類によって大量のデータを収集することができないものもあり、そのようなデータの場合には差分プライバシーを適切に利用できないという問題がある。

　本技術はこのような点に鑑みなされたものであり、データにノイズを付加する差分プライバシーの利用において、ノイズを付加したデータの統計結果の誤差を小さくして精度を高めることができるデータ処理装置、データ処理方法、データ処理プログラム、端末装置およびデータ処理システムを提供することを目的とする。

　上述した課題を解決するために、第１の技術は、端末装置から受信した、ノイズが付加されたデータからノイズを除去するノイズ除去部と、データをデータ集合を構成するとともにデータの分類を示すデータ種別ごとに計測する計測部と、計測部の計測結果に基づいてデータ集合を更新するデータ集合更新部とを備えるデータ処理装置である。

　また、第２の技術は、端末装置から受信した、ノイズが付加されたデータからノイズを除去し、データを、データ集合を構成するとともにデータの分類を示すデータ種別ごとに計測し、計測結果に基づいてデータ集合を更新するデータ処理方法である。

　また、第３の技術は、端末装置から受信した、ノイズが付加されたデータからノイズを除去し、データをデータ集合を構成するとともにデータの分類を示すデータ種別ごとに計測し、計測結果に基づいてデータ集合を更新するデータ処理方法をコンピュータに実行させるデータ処理プログラムである。

　また、第４の技術は、データ処理装置から送信される、データが属するデータ種別から構成されるデータ集合を示す情報に基づいてデータとデータ種別を対応付けて、データにノイズを付加してデータ処理装置に送信する端末装置である。

　さらに、第５の技術は、データ処理装置から送信される、データが属するデータ種別から構成されるデータ集合を示す情報に基づいてデータとデータ種別を対応付けて、データにノイズを付加してデータ処理装置に送信する端末装置と、端末装置から受信した、ノイズが付加されたデータからノイズを除去するノイズ除去部と、データを、データ集合を構成するとともにデータの分類を示すデータ種別ごとに計測する計測部と、計測部の計測結果に基づいてデータ集合を更新するデータ集合更新部とを備えるデータ処理装置
とから構成されるデータ処理システムである。

差分プライバシーの概要を説明する図である。サンプルサイズ、辞書サイズ、誤差の関係を示すグラフ群である。図３Ａ乃至図３Ｅはデータの分布と誤差の関係を示すグラフ群であり、図３Ｆはデータ分布の相対誤差を示すグラフである。データの分布とプライバシー指標の関係を示すグラフである。変動係数と相対誤差の関係を示すグラフである。データ種別の結合による辞書更新の説明図である。データ処理システムの構成を示すブロック図である。１次メッシュを用いて日本全域をカバーした状態を示す図である。１次メッシュに基づいた日本の人口分布を示すグラフである。端末装置１００の構成を示すブロック図である。データ処理部２００の構成を示すブロック図である。サーバ装置３００の構成を示すブロック図である。データ処理部４００の構成を示すブロック図である。端末装置１００における処理を示すフローチャートである。サーバ装置３００における処理を示すフローチャートである。辞書の更新処理を示すフローチャートである。地域メッシュの結合の説明図である。地域メッシュの分割の説明図である。

　以下、本技術の実施の形態について図面を参照しながら説明する。なお、説明は以下の順序で行う。
＜１．差分プライバシーの説明＞
＜２．実施の形態＞
［２－１．データ処理システム１０の構成］
［２－２．地域メッシュの説明］
［２－３．端末装置１００の構成］
［２－４．サーバ装置３００の構成］
［２－５．端末装置１００における処理］
［２－６．サーバ装置３００における処理］
［２－７．辞書の更新処理］
＜３．変形例＞

＜１．差分プライバシーの説明＞
　まず本技術の実施の形態の説明の前に本技術で使用する差分プライバシーについて説明する。差分プライバシーとは、収集するデータにノイズを加えることにより、データの主体であるユーザ等を特定することを防ぎつつ、データ自体を使用することをできるようにする技術である。本技術ではユーザの手元のデバイス（実施の形態の端末装置１００に相当）でノイズを付加し、匿名化されたデータをクラウド（実施の形態のサーバ装置３００に相当）で収集するローカル型差分プライバシーを用いる。

　図１の概要図に示すように、ローカル型差分プライバーはデバイスでデータをエンコードしてビット列ｖ_１を生成するエンコード技術、ビット列ｖ_１にある確率変数に従いノイズを付加したデータｖ_１’を生成するノイズ付加技術、ノイズが付加されたデータを収集する集約技術、集約したデータからノイズを除去するノイズ除去技術（集約技術とノイズ除去技術は同時に実行されることも多く、合わせてデコード技術と呼ぶこともある）、分析のユースケースに従って可視化処理を行うデータ分析技術から構成されるものである。

　本技術では差分プライバシーを用いるにあたり、主要なパラメータとして「サンプルサイズ」、「辞書サイズ」、「プライバシー指標」を用いる。

　サンプルサイズとは、クラウドで収集するデータの総数を示すものである。サンプルサイズは、「デバイスを有するユーザ数×デバイスからクラウドに送信されるデータ数」として規定することができる。

　辞書サイズとは、辞書に含まれるデータ種別の総数を示すものである。辞書はデータの分類を示すデータ種別ごとにデータまとめたデータの集合であり、特許請求の範囲におけるデータ集合に相当するものである。

　辞書サイズはデータ種別の数により決定される。例えば、ＩＳＯ５２１８で定義されている性別のカテゴリーは男性、女性、不明、適用不能の４種類であるため、データ種別は４であり、この場合、辞書サイズ＝４となる。また、例えばスマートフォンなどにおける文字入力で使用される絵文字の場合はその数は現在約２６００種類であり、データ種別数は約２６００であり、この場合、辞書サイズ＝約２６００となる。また、ＧＰＳ（Global Positioning System）の位置情報を１ｋｍ^２の地域メッシュにマッピングする場合、メッシュの数は約３８万種になるため、データ種別数は約３８万であり、辞書サイズ＝約３８万となる。

　プライバシー指標とは、差分プライバシーにおけるプライバシー保護の度合いを示すものである。プライバシー指標の値が小さくなるほどプライバシー保護の度合いが高くなり、データに付加するノイズの量が多くなる。一方、プライバシー指標の値が大きくなるほど、プライバシー保護の度合いが低くなり、データに付加するノイズの量が少なくなる。

　プライバシー指標の値は扱うデータの機微性によって所定の値に決定される。例えば、スマートフォンなどにおける文字入力で使用される絵文字にノイズを付加して匿名化したい場合にはプライバシー指標＝４とし、脈拍などのヘルスケア情報の場合にはプライバシー指標＝２、とする、などである。なお、これらのプライバシー指標の具体的値はあくまで例示に過ぎず本技術がその値に限定されるものではない。

　図２はプライバシー指標が所定の値である場合におけるサンプルサイズ、辞書サイズ、誤差の関係を示すグラフ群である。誤差とは、ノイズを付加していないデータの計測値（以下、正解値と称する。）と、差分プライバシーによりノイズを付加したデータの計測値（ノイズ付計測値と称する。）との差である。図２のグラフにおいては、２本ずつ並んでいる各棒グラフのうち、右側がノイズを付加していないデータの計測値（正解値）を示し、左側が差分プライバシーによりノイズを付加したデータの計測値（ノイズ付計測値）を示す。

　図２は上段のグラフＡ乃至Ｅは辞書サイズが１０であり、中段のグラフＦ乃至Ｊは辞書サイズが１００であり、下段のグラフＫ乃至Ｐは辞書サイズが１０００であるとする。

　縦に並ぶグラフＡ、Ｆ、Ｋはサンプルサイズが１万である。また、縦に並ぶグラフＢ、Ｇ、Ｌはサンプルサイズが１０万である。また、縦に並ぶグラフＣ、Ｈ、Ｍはサンプルサイズが１００万である。また、縦に並ぶグラフＤ、Ｉ、Ｎはサンプルサイズが１０００万である。さらに縦に並ぶグラフＥ、Ｊ、Ｐはサンプルサイズが一億である。なお、全てのグラフのプライバシー指標は同一であるものとする。

　各グラフの右上に記載した値がそのグラフにおける正解値とノイズ付計測値との誤差である。

　図２のグラフ群からわかるように、サンプルサイズが同じグラフ同士を比較すると、辞書サイズが小さければ小さいほど誤差が小さくなることがわかる。また、辞書サイズが同じグラフ同士を比較すると、サンプルサイズが大きければ大きいほど誤差が小さくなることがわかる。差分プライバシーにおいては正解値とノイズ付計測値との誤差が小さければ小さいほどデータのプライバシーを保護しつつ、信頼度が高いデータを取得できるということであり、好ましい。

　図３Ａ乃至図３Ｅはデータの分布と、正解値とノイズ付測定値の誤差、の関係を示すグラフ群であり、図３Ｆが各分布における相対誤差を示すグラフである。図３Ａ乃至図３Ｅの各グラフはサンプルサイズが同一、辞書サイズが同一、プライバシー指標が同一であるものとする。図３Ｆからわかるようにサンプルサイズ、辞書サイズ、プライバシー指標が同一であってもデータの分布によって相対誤差が異なっている。

　図４は、図３Ａ乃至図３Ｅに示したデータの分布の各種類とプライバシー指標の値の関係を示すグラフである。図４からわかるように分布が異なっていてもプライバシー指標を小さくするとデータに付加するノイズの量は大きくなり、誤差も大きくなる。一方、プライバシー指標を大きくするとデータに付加するノイズの量は小さくなり、誤差も小さくなる。

　このようなサンプルサイズ、辞書サイズ、プライバシー指標の関係から、サンプルサイズ、辞書サイズ、プライバシー指標には以下のようなトレード・オフの関係があることがわかる。

　辞書サイズが一定であり、かつ、プライバシー指標が一定である場合、サンプルサイズが小さいほど誤差が大きくなる。

　また、辞書サイズが小さい場合、サンプルサイズが小さくても誤差は小さいものとなる。一方、辞書サイズが大きい場合、サンプルサイズが大きくても誤差が大きくなる。

　さらに、サンプルサイズが一定であり、かつ、辞書サイズが一定である場合、プライバシー指標を小さくすると誤差が大きくなり、プライバシー指標を大きくすると誤差は小さくなる。よって、プライバシー強度を高めて、信頼度を高めるためにはよりサンプルサイズを大きくする必要がある。

　ローカル型差分プライバシーにおいては、正解値とノイズ付計測値の統計結果の差である誤差が評価指標として使われている。よって、サンプルサイズが同一、かつ、辞書サイズが同一の場合で、ノイズ量を多くして機微性を高めたとしても、誤差が変わらないのは良いローカル型差分プライバシーである。また、辞書サイズが同一、かつ、プライバシー指標が同一の場合で、サンプルサイズを小さくしても、誤差が変わらないのは良いローカル型差分プライバシーである。一般的にサンプルサイズを大きくするには多くの計測値（データ）を得なければならず、コストがかかるためである。

　なお、実際に差分プライバシーを用いたシステムの運用時はノイズを付加していない正解値を得ることができないため誤差を算出することはできない。そのため、本技術では誤差に代えて、差分プライバシーの有効性の指標として信頼度を定義する。

　辞書を構成するデータ種別ごとに、複数回のデータの集計結果のバラつきを評価する。異なるデータ種別間で比較するために変動係数を信頼度とする。変動係数とは平均値に対する計測値（データ）とばらつきの関係を相対的に評価する指標であり、下記の式１から求めることができる。

［式１］
変動係数=標準偏差/平均

　図５は縦軸を変動係数および相対誤差の相対誤差とし、横軸をデータ種別（１から始める通し番号）として、変動係数と相対誤差の関係を示すグラフである。図５に示すように、ノイズ付計測値から算出する変動係数には相対誤差との相関関係がある。よって変動係数は差分プライバシーの有効性の指標として使用することができる。よって変動係数を信頼度として差分プライバシーの有効性の指標として用いる。変動係数が低い誤差も少ないため信頼度は高くなる。一方、変動係数が高い誤差も多いため、信頼度は低くなる。

　少ないサンプルサイズで差分プライバシーを適用した結果と差分プライバシーを適用しない結果の誤差を小さくするには辞書サイズを小さくする必要がある。また、同一の条件（サンプルサイズが同一、辞書サイズが同一、プライバシー指標が同一）でもデータの分布によっても差分プライバシーを適用した結果と差分プライバシーを適用しない結果の誤差は変化する。よって辞書サイズを最適化して誤差を小さくするためには、データ分布に合わせる必要がある。しかし、実際のサンプルサイズおよびデータの分布はデータを収集してみなければ把握することができない。

　そこで本技術では、データを収集しながらデータの分布に合わせて辞書サイズを更新することにより辞書サイズを最適化する。具体的にはデータ集合である辞書を構成するデータ種別ごとの信頼度を算出し、信頼度に応じてデータ種別同士を結合または分割して辞書サイズを更新する。その辞書サイズが更新された辞書を使用してローカル型差分プライバシーを実行し、再び信頼度を評価し、辞書サイズを更新する。このように信頼度に応じてデータ種別の結合／分割を繰り返し行う。信頼度が高いデータ種別は分割、信頼度が低いデータ種別は結合する。

　図６の例では、図６Ａに示すデータ種別ｖ１とｖ２、ｖ３とｖ４、ｖ５とｖ６をそれぞれ結合して図６Ｂに示すようにデータ種別ｄ１、ｄ２、ｄ３とすることにより辞書サイズを小さくしている。さらに、データ種別ｖ１５～ｖ３０を結合して図６Ｂに示すようにデータ種別ｄ１４とすることにより辞書サイズを小さくしている。データ種別ｖ１とｖ２は辞書更新前はそれぞれ別のデータ種別としてデータの計測が行われるが、ｖ１とｖ２が結合した新たなデータ種別ｄ１ではｖ１とｖ２のデータとして計測されていたデータはデータ種別ｄ１のデータとして計測されることになる。これはｖ３とｖ４を結合したｄ２、ｖ４とｖ５を結合したｄ３、ｖ１５～ｖ３０を結合したｄ１４においても同様である。このようにデータ種別を結合して辞書サイズを小さくすることにより、少ないサンプルサイズでも差分プライバシーを適用した結果と差分プライバシーを適用しない結果の誤差を小さくして精度の高い統計結果を得ることができる。

　データ種別が増えて辞書サイズが大きくなると各データ種別に含まれるデータの数が少なくなるので正解値とノイズ付計測値との誤差が大きくなる。一方、データ種別を少なくして辞書サイズが小さいと各データ種別に含まれるデータの数が多くなり、正解値とノイズ付計測値との誤差が小さくなり、精度が高くなる。辞書を更新してその辞書に基づいてデータを収集し、ノイズを付加した計測値が正解値に近づいていくにつれて統計結果の精度が上がっている、といえる。また、上述のサンプルサイズと辞書サイズのトレード・オフの関係の説明で述べたように辞書サイズが小さい場合、サンプルサイズが小さくても誤差は小さくなり差分プライバシーの精度が高くなるため、データ種別を結合して辞書サイズを小さくするのが好ましい。

＜２．実施の形態＞
［２－１．データ処理システム１０の構成］
　次に、上述の差分プライバシーを使用するデータ処理システム１０の構成について説明する。この実施の形態では地域メッシュを用いたデータの収集において差分プライバシーを使用する例で本技術の説明を行う。この実施の形態では端末装置１００として特定のメーカー製の特定の種類のスマートフォンから位置情報を取得することによりその端末装置１００を使用しているユーザの日本国内における分布を把握するものである。

　図７に示すように、データ処理システム１０はサーバ装置３００と複数の端末装置１００とから構成されている。サーバ装置３００と複数の端末装置１００はインターネットなどのネットワーク１０００を介して接続されている。なお、説明および図面の便宜上、端末装置１００は７つ記載されているが、サーバ装置３００に接続されている端末装置１００はそれ以上に多数存在する。

　サーバ装置３００は、例えば端末装置１００を製造するメーカーなどが運用する、本技術に係る差分プライバシーを利用して端末装置１００からデータを収集して統計結果を得るための装置である。サーバ装置３００は上述の差分プライバシーの説明におけるクラウドに相当するものである。

　端末装置１００は、特定のメーカーにより製造された特定の種類のスマートフォンである。端末装置１００は定期的または所定のタイミングで自己の位置情報を含むログをサーバ装置３００に送信する。

［２－２．地域メッシュの説明］
　ここで、特定の端末装置１００を使用しているユーザの分布を把握するために使用する地域メッシュについて説明する。地域メッシュとは、統計に利用するために緯度／経度に基づいて地域をほぼ同じ大きさの網の目（メッシュ）に分けたものである。メッシュのそれぞれを識別するためのコードが地域メッシュコードである。

　地域メッシュはメッシュの大きさに応じて１次メッシュ、２次メッシュ、３次メッシュに分類される。１次メッシュは２０万分の１地勢図の１図葉の区画を１単位区画としたもので、緯度差は４０分、経度差は１度で、辺の長さは約８０kmである。２次メッシュは２次メッシュを緯線方向及び経線方向に８等分してできる区域で、２万５千分の１地形図の１図葉の区画に対応する。緯度差は５分、経度差は７分３０秒で、１辺の長さは約１０kmである。３次メッシュは２次メッシュを緯線方向及び経線方向に１０等分してできる区域である。緯度差は３０秒、経度差は４５秒で、１辺の長さは約１kmである。

　多数の端末装置１００からそれぞれの位置情報を収集することにより端末装置１００のユーザの日本全域における分布を把握することができる。地域メッシュの数を辞書を構成するデータ種別とし、そのデータ種別数を辞書サイズとする。

　１次メッシュは１７６個のメッシュで日本全域をカバーすることできるため、１次メッシュのみを使用した場合、辞書を構成するデータ種別数は１７６となり、辞書サイズは１７６となる。１次メッシュで日本全域をカバーするとメッシュ内に離島や過疎地域、山岳地域などが含まれることになり無駄が多い。

　２次メッシュは４８６２個のメッシュで日本全域をカバーすることができるため、２次メッシュのみを使用した場合、辞書を構成するデータ種別数は４８６２となり、辞書サイズが４８６２となる。２次メッシュも１次メッシュと同様にメッシュ内に離島や過疎地域、山岳地域などが含まれることになり無駄が多い。

　３次メッシュは３８７２８６個のメッシュで日本全域をカバーすることができるため、３次メッシュのみを使用した場合、辞書を構成するデータ種別数は３８７２８６となり、辞書サイズが３８７２８６となる。

　図８は１次メッシュを用いて日本全域をカバーした状態を示す図である。日本地図に重畳された矩形の一つ一つが１次メッシュである。このように１次メッシュで日本全域をカバーした場合、日本の人口分布は図９に示すようになる。図９は横軸が各１次メッシュコードであり、縦軸が各１次メッシュにおける人口である。図９に示す人口分布ではトップ２５に含まれる１次メッシュで人口の大部分を占めていることがわかる。人口分布に応じてメッシュを分割／結合し、辞書サイズを最適化することができる。例えば、人口密度が所定数以下の山岳地帯など人がほとんどいないメッシュは結合しても統計結果にほとんど影響がないため結合することができる。

　本実施の形態では、端末装置１００からデータとして位置情報を収集しながら、位置情報の分布に合わせて辞書を更新して最適化する。辞書を構成する各データ種別の信頼度を計算し、信頼度に応じて辞書を構成するデータ種別同士の結合と分割を行って辞書サイズを更新する。そして、その更新された辞書を使用してローカル型差分プライバシーを実行し、再び信頼度を評価する。さらにその信頼度に応じて辞書のデータ種別同士の結合と分割を行って辞書を更新する。信頼度が一定の状態になるまでこれを繰り返すことにより、差分プライバシーを用いて個人情報を保護しつつ、正確な端末装置１００のユーザ分布を得ることができる。辞書のデータ種別を結合して辞書サイズを小さくすることにより誤差を小さくして信頼度を高めることができる。

　また、１次メッシュ、２次メッシュ、３次メッシュの具体的な値は参照するインターネット上のメッシュについての情報により変動があるため、本技術は上述の具体的なメッシュ数により何かしらの限定を受けるものではない。

［２－３．端末装置１００の構成］
　次に端末装置１００の構成について説明する。図１０に示すように端末装置１００は、制御部１０１、通信部１０２、記憶部１０３、位置情報取得部１０４、表示部１０５、入力部１０６およびデータ処理部２００を備えて構成されている。なお、サーバ装置３００に接続されている端末装置１００は多数存在するが、説明および図面の便宜上、端末装置１００の詳細は一つのみを示している。なお、以下の説明においてデータとは端末装置１００の現在位置を示す位置情報である。

　制御部１０１は、ＣＰＵ（Central Processing Unit）、ＲＡＭ（Random Access Memory）およびＲＯＭ（Read Only Memory）などから構成されている。ＲＯＭには、ＣＰＵにより読み込まれ動作されるプログラムなどが記憶されている。ＲＡＭは、ＣＰＵのワークメモリとして用いられる。ＣＰＵは、ＲＯＭに記憶されたプログラムに従い様々な処理を実行してコマンドの発行を行うことによって端末装置１００全体の制御を行う。

　通信部１０２は、所定の通信規格により他の装置やインターネットと通信する通信モジュールである。通信方法としては、Ｗｉ－Ｆｉ（Wireless Fidelity）などの無線ＬＡＮ（Local Area Network）、４Ｇ（第４世代移動通信システム）、ブロードバンド、Bluetooth（登録商標）、などがある。

　記憶部１０３は、例えば、ＨＤＤ（Hard Disc Drive）、半導体メモリ、ＳＳＤ（solid state drive）などにより構成された記憶媒体であり、画像データ、動画データ、音声データ、テキストデータなどのコンテンツデータの他、アプリケーション、プログラムなどのデータを保存するものである。

　位置情報取得部１０４は端末装置１００の位置情報を得るためのＧＰＳ（Global Positioning System）モジュールである。

　表示部１０５は、画像や映像などのコンテンツ、ユーザインターフェースなどを表示するための表示デバイスである。表示デバイスとしては、例えば、ＬＣＤ（Liquid Crystal Display）、ＰＤＰ(Plasma Display Panel)、有機ＥＬ(Electro Luminescence)パネルなどにより構成されたものがある。

　入力部１０６は、ユーザが端末装置１００に対して指示を入力するための各種入力デバイスである。入力部１０６としては、ボタン、表示部１０５と一体に構成されたタッチスクリーンなどがある。入力部１０６に対して入力がなされると、その入力に応じた制御信号が生成されて制御部１０１やデータ処理部２００に出力される。

　データ処理部２００は、端末装置１００がプログラムを実行することにより構成される処理部である。プログラムは端末装置１００内にインストールされていてもよいし、ダウンロード、記憶媒体などで配布されて、ユーザが自らインストールするようにしてもよい。なお、データ処理部２００は、プログラムによって実現されるのみでなく、その機能を有するハードウェアによる専用の装置、回路などを組み合わせて実現されてもよい。データ処理部２００は特許請求の範囲におけるデータ処理装置に相当するものである。

　図１１に示すように、データ処理部２００は、辞書格納部２０１、データ変換部２０２、エンコード部２０３、ログ生成部２０４を備えて構成されている。

　辞書格納部２０１は、サーバ装置３００から送信された辞書を格納する記憶部である。格納する辞書はまずはサーバ装置３００の辞書生成部４０１が生成した初期辞書であり、その後はサーバ装置３００の辞書更新部４０８により更新された辞書となる。

　データ変換部２０２は、位置情報取得部１０４で取得した端末装置１００の位置情報に基づいてその位置情報で示される位置が含まれる地域メッシュを示すコード（地域メッシュコード）を取得するものである。地域メッシュコードはサーバ装置３００から送信される、データ種別としての地域メッシュコードを有している辞書を参照することにより取得できる。辞書はサーバ装置３００のデータ処理部４００により繰り返し更新されていき端末装置１００に供給されるものであるため、更新結果に応じて位置情報で示される位置が含まれる地域メッシュのコードも異なるものになる場合がある。

　エンコード部２０３は、サーバ装置３００に送信するデータである位置情報と地域メッシュコードにノイズを付加するものである。付加するノイズの量は予めプライバシー指標により決定される。

　ログ生成部２０４は、サーバ装置３００へ送信するログを生成するものである。ログは、ノイズが付加された位置情報および地域メッシュコード、差分プライバシーのパラメータ情報であるプライバシー指標、端末装置１００の識別情報（ＩＤ）、タイムスタンプなどを含むものである。生成されたログは、通信部１０２による通信でネットワーク１０００を介してサーバ装置３００に送信される。なお、プライバシー指標や識別情報など不変の情報については予め端末装置１００とサーバ装置３００で共有していればログに含める必要はない。

　端末装置１００は以上のように構成されている。

［２－４．サーバ装置３００の構成］
　次にサーバ装置３００の構成について説明する。図１２に示すようにサーバ装置３００は制御部３０１、通信部３０２、記憶部３０３、データ処理部４００とから構成されている。

　制御部３０１は、ＣＰＵ、ＲＡＭおよびＲＯＭなどから構成されている。ＣＰＵは、ＲＯＭに記憶されたプログラムに従い様々な処理を実行してコマンドの発行を行うことによってサーバ装置３００全体の制御を行う。

　通信部３０２は、所定の通信規格により端末装置１００やインターネットと通信する通信モジュールである。通信方法としては、Ｗｉ－Ｆｉなどの無線ＬＡＮ、４Ｇ、ブロードバンド、Bluetooth（登録商標）などがある。

　記憶部３０３は、例えば、ＨＤＤ、半導体メモリ、ＳＳＤなどにより構成された記憶媒体であり、アプリケーション、プログラム、端末装置１００から送信されたログ、データなどを保存するものである。

　データ処理部４００は、サーバ装置３００がプログラムを実行することにより構成される処理部である。プログラムはサーバ装置３００内にインストールされていてもよいし、ダウンロード、記憶媒体などで配布されて、ユーザが自らインストールするようにしてもよい。なお、データ処理部４００は、プログラムによって実現されるのみでなく、その機能を有するハードウェアによる専用の装置、回路などを組み合わせて実現されてもよい。データ処理部４００は特許請求の範囲におけるデータ処理装置に相当するものである。

　図１３に示すようにデータ処理部４００は、辞書生成部４０１、辞書格納部４０２、データ集約部４０３、デコード部４０４、データ計測部４０５、信頼度算出部４０６、統計分析部４０７、辞書更新部４０８を備えて構成されている。

　辞書生成部４０１は、既存の情報などを用いてデータ集合として辞書の生成するものである。辞書生成部４０１で生成した辞書がデータ処理部４００による処理で更新されていくことになる。辞書生成部４０１は特許請求の範囲におけるデータ集合生成部に相当するものである。辞書生成部４０１により生成された辞書のデータは辞書格納部４０２に格納されるとともに、端末装置１００に送信されて端末装置１００のデータ処理部２００の辞書格納部２０１に格納される。

　なお、２次メッシュの人口分布の統計情報は総務省により公開されておりインターネットで取得することが可能である。辞書生成部４０１はこの人口分布の統計情報を用いて初期辞書を生成することができる。そしてローカル型差分プライバシーを実行することによりこの初期辞書を繰り返し更新して信頼度が一定の状態になる最適化辞書を生成する。

　データ処理部４００における処理は、１次メッシュ、２次メッシュ、３次メッシュのいずれかを対象として行われる。１次メッシュよりも２次メッシュ、２次メッシュよりも３次メッシュを対象として処理を行うことによって、より詳細な統計結果を得ることができる。どのメッシュを処理の対象とするかは例えばサーバ装置３００の運営者が予めデータ処理部４００に設定しておくとよい。その設定に合わせて辞書生成部４０１は辞書を生成する。例えば、２次メッシュを対象として処理を行う場合、各２次メッシュにおける人口分布の統計情報から２次メッシュをデータ種別とした辞書を生成する。なお、１次メッシュ、２次メッシュ、３次メッシュ全てのメッシュを対象とした処理を並列的に行ってもよいし、いずれか２つのメッシュを対象とした処理を並列的に行ってもよい。

　端末装置１００のユーザと人口には相関関係がある（人口が多い地域では端末装置１００のユーザも多く、人口が少ない地域では端末装置１００のユーザは少ないと考えられる）ので、辞書の生成の段階で例えば、人口が０または所定数以下である地域メッシュを結合するなどして辞書の最適化を行っておくこともできる。

　辞書格納部４０２は、辞書を格納する記憶部である。格納する辞書はまずは辞書生成部４０１が生成した初期状態の辞書であり、その後は辞書更新部４０８により更新された辞書となる。

　データ集約部４０３は、通信部３０２による通信で端末装置１００から受信したログからノイズが付加されたデータである端末装置１００の位置情報を集約するものである。集約されたデータはデコード部４０４に供給される。

　デコード部４０４は、データ集約部４０３から供給された、ノイズが付加されたデータからノイズを除去する処理を行うものである。デコード部４０４は特許請求の範囲におけるノイズ除去部に相当するものである。ノイズが除去されたデータはデータ計測部４０５に供給される。

　データ計測部４０５は、ノイズが除去されたデータである端末装置１００の位置情報をデータ種別ごと（本実施例では地域メッシュコードごと）に計測するものである。本実施の形態においては、地域メッシュコードごとの位置情報の数（端末装置１００の数）を計測する。データ計測部４０５は特許請求の範囲における計測部に相当するものである。

　信頼度算出部４０６は、データ種別ごとの信頼度を算出するものである。算出した信頼度は統計分析部４０７と辞書更新部４０８に供給される。

　統計分析部４０７は、計測結果、信頼度などを可視化するためにヒートマップを作成するものである。なお、統計分析部４０７は本技術において必須の構成ではない。

　辞書更新部４０８は、信頼度に基づいて辞書の更新処理を行うものである。辞書は更新されるたびに辞書格納部４０２に格納されるとともに、端末装置１００に送信されて辞書格納部２０１に格納される。辞書が更新されると、その更新された辞書に基づいて再びローカル型差分プライバシーが実行されて、信頼度が一定の状態になるまで辞書の更新が繰り返される。辞書更新部４０８は特許請求の範囲におけるデータ集合更新部に相当するものであり、辞書の更新がデータ集合の更新に相当するものである。

　サーバ装置３００は以上のように構成されている。

［２－５．端末装置１００における処理］
　次に端末装置１００における処理について説明する。なお、以下の処理は１次メッシュ、２次メッシュ、３次メッシュのいずれかを対象として行われる。これは上述したように辞書におけるデータ種別がどのメッシュを対象としているかに基づくものである。

　図１４にフローチャートに示すように、ステップＳ１１で、端末装置１００のデータ変換部２０２は位置情報取得部１０４により取得した位置情報に基づいてデータ変換部２０２で位置情報に対応する地域メッシュコードを取得する。

　次にステップＳ１２で、エンコード部２０３により位置情報および地域メッシュコードにノイズを付加する。このノイズは差分プライバシーによりデータのプライバシー情報を保護するためのものであり、付加するノイズ量を決定するプライバシー指標は予め定められているものとする。

　次にステップＳ１３で、ログ生成部２０４により、サーバ装置３００に送信するためのログを生成する。ログは、ノイズが付加された位置情報および地域メッシュコード、差分プライバシーのパラメータ情報であるプライバシー指標、端末装置１００の識別情報（ＩＤ）、タイムスタンプなどを含むものである。

　そしてステップＳ１４で通信部１０２によりログをサーバ装置３００に送信する。なお、ログをサーバ装置３００に送信する際には送信に必要な端末装置１００固有のヘッダー情報をログに付加する。

　端末装置１００はこの処理を定期的に、または予め定められたタイミングで繰り返し行う。

［２－６．サーバ装置３００における処理］
　次にサーバ装置３００における処理について説明する。図１５のフローチャートに示すように、まずステップＳ２１で、ネットワーク１０００で接続されている全ての端末装置１００から送信されるログを受信する。なお、端末装置１００は多数存在するため、サーバ装置３００はその多数の端末装置１００のそれぞれからログを受信する。

　次にステップＳ２２で、受信した複数のログそれぞれからデータ集約部４０３によりノイズ付データを取り出す。取り出されるデータは位置情報と地域メッシュコードである。

　次にステップＳ２３で、デコード部４０４により、ノイズ付データからノイズを除去する。

　次にステップＳ２４で、データ計測部４０５によりデータ種別ごとにデータの数（データ種別としての地域メッシュごとの端末装置１００の位置情報の数）を計測する。このデータの計測結果は信頼度の算出において使用するため、信頼度算出部４０６に供給される。

　次にステップＳ２５で、信頼度算出部４０６により、ステップＳ２４におけるデータの計測結果と、保持してある過去のデータの計測結果と合わせて信頼度を算出する。なお、１回目の処理の場合は過去のデータの計測結果は存在しないため、１つの計測結果のみから信頼度を算出する、または信頼度の算出は行わない。２回目以降の処理においては最新のデータの計測結果と、過去のデータの計測結果から信頼度が算出される。また、信頼度算出部４０６は、平均ノイズ付加量を算出する。

　ここで平均ノイズ付加量の算出について説明する。平均ノイズ付加量とは、全てのデータ種別における複数回のデータ計測後のデータ種別ごとの計測結果の標準偏差の平均、である。

　例えば、Ｖ１３というデータ種別の計測値（ノイズが付加されていない状態の計測値）が１００００であるとして、ノイズを付加した状態における計６回のデータの計測値がそれぞれ１００００、１０２００、９８００、１００００、１０２００、９８００であったとする。この６回の計測値の標準偏差は約１６３である。よって、データ種別Ｖ１３には１６３のノイズが付加されていることになる。

　端末装置１００側でノイズを付加する場合、各データ種別の計測値がどのような値になるかがわからないので各データ種別に一様にノイズを付加することになる。

　よって、例えば、Ｖ４というデータ種別の計測値（ノイズが付加されていない状態の計測値）が１０００であるとして、ノイズが付加した状態における計６回のデータの計測値がそれぞれ１０００、１２００、８００、１０００、１２００、８００であったとする。この６回の計測値の標準偏差は約１６３である。よって、データ種別Ｖ４には１６３のノイズが付加されていることになる。

　Ｖ４はＶ１３に対して、ノイズが付加されていない状態の計測値で１０分の１の計測値を有しているが、差分プライバシーはノイズが付加されていない状態の計測値を知らずに同じ１６３というノイズを付加するため、誤差は大きくなる。

　フローチャートの説明に戻る。次にステップＳ２６で、算出した信頼度と前回の処理で算出した信頼度とを比較して信頼度の変化量が所定の範囲内に収まっているか否かを判定する。信頼度の変化量が所定の範囲内である場合、辞書サイズは適切であるとして処理は終了となる（ステップＳ２６のＹｅｓ）。

　一方、信頼度の変化量が所定の範囲内ではない場合、辞書サイズは適切ではないとして処理はステップＳ２７に進む（ステップＳ２６のＮｏ）。次にステップＳ２７で辞書更新部４０８が辞書の更新処理を行う。辞書の更新処理の詳細は後述する。

　そしてステップＳ２８で、更新された辞書を通信部３０２による通信でデータ処理システム１０を構成する全ての端末装置１００に送信する。辞書は更新されるたびに全ての端末装置１００に送信される。

［２－７．辞書の更新処理］
　次に図１５のフローチャートにおけるステップＳ２７の辞書の更新処理の詳細について図１６を参照して説明する。この処理は辞書を構成するデータ種別ごとに行われるものである。

　まずステップＳ３１で、サーバ装置３００にネットワーク１０００を介して接続されている全ての端末装置１００から送信されて取得した全てのデータ種別の中の一のデータ種別におけるデータの計測値が平均ノイズ付加量よりも大きいか否かが判定される。本実施の形態では地域メッシュコードで示されるデータ種別である地域メッシュに含まれる位置情報の数が平均ノイズ付加量よりも大きいが否かを判断する。データの計測値が平均ノイズ付加量よりも大きい場合処理はステップＳ３２に進む（ステップＳ３１のＹｅｓ）。

　ノイズは各データ種別のデータの計測値に関わらず一律で全てのデータ種別に付加されるものである。よって平均ノイズ付加量は各データ種別のデータの計測値の大小を判断する閾値として利用することができる。

　次にステップＳ３２で、ステップＳ２５で算出された信頼度が所定の閾値より高いか否かが判定される。信頼度が閾値よりも高い場合処理はステップＳ３３に進み（ステップＳ３２のＹｅｓ）、処理対象のデータ種別である地域メッシュを分割する。分割数は例えば２分割である。

　一方、ステップＳ３２で、信頼度が閾値よりも低い場合処理はステップＳ３４に進む（ステップＳ３２のＮｏ）。なお、ステップＳ３１でデータ種別のデータの値が平均ノイズ付加量よりも小さい場合も処理はステップＳ３４に進む（ステップＳ３１のＮｏ）。そしてステップＳ３４で、処理対象のデータ種別（地域メッシュ）に隣接するデータ種別のうち、信頼度が低いデータ種別と結合する。この場合の「処理対象のデータ種別に隣接するデータ種別」とは、グラフ上においてデータ種別を所定のルールで並べた状態における隣接するデータ種別、のことである。

　ステップＳ３３、ステップＳ３４のいずれも処理はステップＳ３５に進み、ステップＳ３５で辞書を構成する全てのデータ種別（地域メッシュ）について処理がなされたかが判定される。全てのデータ種別の処理を行った場合終了となる（ステップＳ３５のＹｅｓ）。

　一方、全てのデータ種別（地域メッシュ）の処理を行ってない場合処理はステップＳ３１に進む（ステップＳ３５のＮｏ）。そして、図１５のフローチャートのステップＳ２１で受信した全てのデータに対して処理を行うまでステップＳ３１乃至ステップＳ３５が繰り返し行われる。

　これにより、例えば、データ種別（地域メッシュ）の結合を複数回行った結果、辞書サイズを小さくすることができる。データ種別を収集しながらデータ種別の分布と信頼度に応じて辞書を構成するデータ種別同士の結合／分割を繰り返すことにより辞書を更新する。そして、更新された辞書を端末装置１００に送信し、その更新された辞書を使用してローカル型差分プライバシーを実行して、データ種別ごとのデータの計測を行い、信頼度を評価する（図１６のフローチャートのステップＳ２５）。これにより信頼度が変化しなくなるまで、辞書が更新され続ける。

　このように更新された辞書はサーバ装置３００の辞書格納部４０２に保存されるとともに、端末装置１００に送信されて端末装置１００の辞書格納部２０１に保存される。よって、端末装置１００とサーバ装置３００とは常に共通の更新された辞書を有することになる。データの収集、差分プライバシーにおけるノイズの付加、信頼度の評価は辞書を構成するデータ種別ごとに行うため、端末装置１００とサーバ装置３００とは同一の辞書を有している必要がある。

　例えば、２次メッシュに対して処理を行い辞書を更新した結果、図１７Ａに示すように処理前は独立したメッシュであったメッシュＭ（データ種別）とメッシュＮ（データ種別）が結合された結果、図１８Ｂに示すように一つの「メッシュＭ+Ｎ」になったとする。結合前はメッシュＭ、メッシュＮそれぞれ個別にメッシュ内の位置情報をデータ種別のデータとして計測していたが、メッシュ結合後はその結合された一つの「メッシュＭ+Ｎ」内の位置情報を一つのデータ種別のデータとして計測する。

　このように辞書を繰り返し更新してデータ種別を少なくして辞書サイズを小さくすることにより、差分プライバシーでデータにノイズを付加しても正解値とノイズ付測定値の誤差を小さくし、精度の高い統計結果を得ることができる。

　なお、端末装置１００からサーバ装置３００に送信するログに現在の辞書の状態（更新回数やバージョン）を示す情報を含めて、サーバ装置３００で端末装置１００の現在の辞書の状態を確認し、サーバ装置３００の辞書格納部４０２に格納されている辞書と同一の場合に辞書の更新処理を行うようにしてもよい。また、ログに含まれるタイムスタンプを参照して端末装置１００とサーバ装置３００とで同じタイミングで使用する辞書を新しいものに更新するようにしてもよい。ただし、端末装置１００とサーバ装置３００とで辞書の更新タイミングが一致せず端末装置１００とサーバ装置３００が異なる辞書を使っていたとしてもそのまま処理を継続してもよい。

　なお、データ種別は地域メッシュであり、メッシュは実際の地域と対応づけられたものである。よって、単に、データ種別を結合する、とすると例えば北海道における地域メッシュと沖縄における地域メッシュが結合される、という事態も生じうる。そこで、「データ種別を結合する場合、地域メッシュが地理的に隣接していることを条件とする」や「データ種別を結合する場合、地域メッシュが地理的に隣接していることを優先する」という条件を設けてもよい。ただし、地理的に離間した地域メッシュを結合することを除外するものではない。人口が少ない地域のおいては地理的に離間した地域メッシュと地域メッシュが結合しても統計結果に大きな影響は与えないので結合してもよい。

　本技術により処理は以上のようにして行われる。本技術によれば、人口が少ない（端末装置１００のユーザが少ない）地域メッシュを結合していくことにより地域メッシュをデータ種別とするデータ集合である辞書のサイズを小さくすることができる。辞書サイズを小さくすることにより収集するデータ数が少なくてもローカル型差分プライバシーを使用する場合においてより誤差の少ない統計結果を得ることができる。

　差分プライバシーを用いる場合、通常は収集するデータの数が多くサンプルサイズが大きいほうが正解値とノイズを付加した計測値の誤差が小さくなり精度が高くなる。しかし、本技術によれば、辞書に含まれるデータ種別を結合してデータ種別を少なくし、各データ種別に含まれるデータを多くすることにより、収集するデータの数が少なくサンプルサイズが小さい場合でも高い精度で差分プライバシーを実行することができる。

　なお、例えば２次メッシュをデータ種別として処理を行う場合、データ種別の結合は同一の１次メッシュ内に含まれる２次メッシュ同士でのみ可能としてもよい。これにより、地域に離間した２次メッシュ（例えば、北海道の２次メッシュと沖縄の２次メッシュ）が結合されてしまうことがない。

　また、一つの地域メッシュの中に人口が多い地域と少ない地域が存在することもある。そのような場合、地域メッシュの中に独自の大きさのメッシュを設定するとよい。例えば、図１８に示すように人口密度に基づいて２次メッシュを複数（図１８においてはＬ、Ｍ、Ｎの３つ）にクラスタリングし、そのクラスタリングに基づいて１次メッシュを分割する（図１８においては３分割）。そしてこの１次メッシュを３分割したそれぞれの領域を独自のメッシュとして設定する。これによってより詳細な統計結果を得ることができる。

＜３．変形例＞
　以上、本技術の実施の形態について具体的に説明したが、本技術は上述の実施の形態に限定されるものではなく、本技術の技術的思想に基づく各種の変形が可能である。

　実施の形態では、地域メッシュを使用して端末装置１００のユーザ数を把握する場合を例にしたが、本技術はそれに限られるものではない。例えば、端末装置における文字入力でユーザが使用する絵文字の使用頻度、端末装置において動作するアプリケーションの使用頻度、地域の温度の計測値、など、統計データとして扱えることができるものであればどのようなものでも適用可能である。

　実施の形態では端末装置をスマートフォンとして説明を行ったが、端末装置はスマートフォンの他、パーソナルコンピュータ、タブレット端末、カメラ、ウェアラブル機器、スマートスピーカ、ゲーム機器、サーバ装置、インターネット接続可能なペット型／人型ロボット、各種センサ装置、各種ＩｏＴ（Internet of Things）機器、情報を外部に送信することができるものであればなんでもよい。

　本技術は以下のような構成も取ることができる。
（１）
　端末装置から受信した、ノイズが付加されたデータからノイズを除去するノイズ除去部と、
　前記データを、データ集合を構成するとともに前記データの分類を示すデータ種別ごとに計測する計測部と、
　前記計測部の計測結果に基づいて前記データ集合を更新するデータ集合更新部と、
を備える
データ処理装置。
（２）
　前記データ集合更新部は、前記データ集合を構成するデータ種別を他のデータ種別と結合することにより前記データ集合を更新する（１）に記載のデータ処理装置。
（３）
　前記データ集合更新部は、前記データ集合を構成するデータ種別を分割することにより前記データ集合を更新する（１）または（２）に記載のデータ処理装置。
（４）
　前記計測結果に基づいて前記データ種別ごとの信頼度を算出する信頼度算出部を備え、
　前記信頼度と該信頼度よりも前に算出した信頼度との変化量が所定の範囲内となるまで、前記データ集合更新部は、前記端末装置から前記データを受信するたびに前記データ集合を更新する（１）から（３）のいずれかに記載のデータ処理装置。
（５）
　前記信頼度は、前記測定結果と該測定結果のよりも前の複数の測定結果の変動係数である（１）から（４）のいずれかに記載のデータ処理装置。
（６）
　前記データ種別に属する前記データが、該データに付加されたノイズの量よりも大きく、かつ、前記信頼度が所定の閾値より高い場合、前記データ種別を分割する（３）に記載のデータ処理装置。
（７）
　前記データ種別に属する前記データが、該データに付加されたノイズの量よりも小さい、または、前記信頼度が所定の閾値より低い場合、前記データ種別を結合する（３）に記載のデータ処理装置。
（８）
　前記データ集合更新部は、前記データ種別を前記データの測定結果が近似する他のデータ種別であり、かつ、前記データ種別よりも前記信頼度の低い他のデータ種別と結合する（７）に記載のデータ処理装置。
（９）
　前記計測部は、前記データ集合更新部により前記データ集合が更新されると、更新された前記データ集合を構成する前記データ種別ごとに前記データの計測を行う（１）から（８）のいずれかに記載のデータ処理装置。
（１０）
　前記データ集合を生成するデータ集合生成部を備える（１）から（９）のいずれかに記載のデータ処理装置。
（１１）
　前記データ集合は更新されるたびに前記端末装置に送信される（１）から（１０）のいずれかに記載のデータ処理装置。
（１２）
　端末装置から受信した、ノイズが付加されたデータからノイズを除去し、
　前記データを、データ集合を構成するとともに前記データの分類を示すデータ種別ごとに計測し、
　計測結果に基づいて前記データ集合を更新するデータ処理方法。
（１３）
　端末装置から受信した、ノイズが付加されたデータからノイズを除去し、
　前記データを、データ集合を構成するとともに前記データの分類を示すデータ種別ごとに計測し、
　計測結果に基づいて前記データ集合を更新する
データ処理方法をコンピュータに実行させるデータ処理プログラム。
（１４）
　データ処理装置から送信される、データが属するデータ種別から構成されるデータ集合を示す情報に基づいて前記データと前記データ種別を対応付けて、該データにノイズを付加して前記データ処理装置に送信する端末装置。
（１５）
　データ処理装置から送信される、データが属するデータ種別から構成されるデータ集合を示す情報に基づいて前記データと前記データ種別を対応付けて、該データにノイズを付加して前記データ処理装置に送信する端末装置と、
　前記端末装置から受信した、ノイズが付加されたデータからノイズを除去するノイズ除去部と、
　前記データを、データ集合を構成するとともに前記データの分類を示すデータ種別ごとに計測する計測部と、
　前記計測部の計測結果に基づいて前記データ集合を更新するデータ集合更新部と、
を備えるデータ処理装置とから構成されるデータ処理システム。

１０・・・・データ処理システム
１００・・・端末装置
４００・・・データ処理部
４０４・・・デコード部
４０５・・・データ計測部
４０６・・・信頼度算出部
４０８・・・辞書更新部

Claims

　端末装置から受信した、ノイズが付加されたデータからノイズを除去するノイズ除去部と、
　前記データを、データ集合を構成するとともに前記データの分類を示すデータ種別ごとに計測する計測部と、
　前記計測部の計測結果に基づいて前記データ集合を更新するデータ集合更新部と、
を備える
データ処理装置。
　前記データ集合更新部は、前記データ集合を構成するデータ種別を他のデータ種別と結合することにより前記データ集合を更新する
請求項１に記載のデータ処理装置。
　前記データ集合更新部は、前記データ集合を構成するデータ種別を分割することにより前記データ集合を更新する
請求項１に記載のデータ処理装置。
　前記計測結果に基づいて前記データ種別ごとの信頼度を算出する信頼度算出部を備え、
　前記信頼度と該信頼度よりも前に算出した信頼度との変化量が所定の範囲内となるまで、前記データ集合更新部は、前記端末装置から前記データを受信するたびに前記データ集合を更新する
請求項１に記載のデータ処理装置。
　前記信頼度は、前記測定結果と該測定結果のよりも前の測定結果の変動係数である
請求項１に記載のデータ処理装置。
　前記データ種別に属する前記データが、該データに付加されたノイズの量よりも大きく、かつ、前記信頼度が所定の閾値より高い場合、前記データ種別を分割する
請求項３に記載のデータ処理装置。
　前記データ種別に属する前記データが、該データに付加されたノイズの量よりも小さい、または、前記信頼度が所定の閾値より低い場合、前記データ種別を結合する
請求項３に記載のデータ処理装置。
　前記データ集合更新部は、前記データ種別を前記データの測定結果が近似する他のデータ種別であり、かつ、前記データ種別よりも前記信頼度の低い他のデータ種別と結合する
請求項７に記載のデータ処理装置。
　前記計測部は、前記データ集合更新部により前記データ集合が更新されると、更新された前記データ集合を構成する前記データ種別ごとに前記データの計測を行う
請求項１に記載のデータ処理装置。
　前記データ集合を生成するデータ集合生成部を備える
請求項１に記載のデータ処理装置。
　前記データ集合は更新されるたびに前記端末装置に送信される
請求項１に記載のデータ処理装置。
　端末装置から受信した、ノイズが付加されたデータからノイズを除去し、
　前記データを、データ集合を構成するとともに前記データの分類を示すデータ種別ごとに計測し、
　計測結果に基づいて前記データ集合を更新する
データ処理方法。
　端末装置から受信した、ノイズが付加されたデータからノイズを除去し、
　前記データを、データ集合を構成するとともに前記データの分類を示すデータ種別ごとに計測し、
　計測結果に基づいて前記データ集合を更新する
データ処理方法をコンピュータに実行させるデータ処理プログラム。
　データ処理装置から送信される、データが属するデータ種別から構成されるデータ集合を示す情報に基づいて前記データと前記データ種別を対応付けて、該データにノイズを付加して前記データ処理装置に送信する
端末装置。
　データ処理装置から送信される、データが属するデータ種別から構成されるデータ集合を示す情報に基づいて前記データと前記データ種別を対応付けて、該データにノイズを付加して前記データ処理装置に送信する端末装置と、
　前記端末装置から受信した、ノイズが付加されたデータからノイズを除去するノイズ除去部と、
　前記データを、データ集合を構成するとともに前記データの分類を示すデータ種別ごとに計測する計測部と、
　前記計測部の計測結果に基づいて前記データ集合を更新するデータ集合更新部と、
を備えるデータ処理装置
とから構成されるデータ処理システム。