JPWO2020255413A5 - データ解析装置、データ解析方法、及びプログラム - Google Patents
データ解析装置、データ解析方法、及びプログラム Download PDFInfo
- Publication number
- JPWO2020255413A5 JPWO2020255413A5 JP2021528631A JP2021528631A JPWO2020255413A5 JP WO2020255413 A5 JPWO2020255413 A5 JP WO2020255413A5 JP 2021528631 A JP2021528631 A JP 2021528631A JP 2021528631 A JP2021528631 A JP 2021528631A JP WO2020255413 A5 JPWO2020255413 A5 JP WO2020255413A5
- Authority
- JP
- Japan
- Prior art keywords
- data
- specific region
- showing
- regression model
- group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000007405 data analysis Methods 0.000 title claims description 20
- 238000000034 method Methods 0.000 title claims description 7
- 238000013145 classification model Methods 0.000 claims description 16
- 238000010801 machine learning Methods 0.000 claims description 11
- 230000004044 response Effects 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 claims description 4
- 239000000126 substance Substances 0.000 claims description 3
- 238000012417 linear regression Methods 0.000 claims description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 2
- 229910052802 copper Inorganic materials 0.000 description 2
- 239000010949 copper Substances 0.000 description 2
- 230000005484 gravity Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Description
本発明は、特定領域の特性、例えば、地表に存在する物質の含有量等を示す地球科学データを解析するための、データ解析装置、及びデータ解析方法に関し、更には、これらを実現するためのプログラムに関する。
これに対して、現在、地球科学データが取得されていない箇所の特性を推測する手法としては、機械学習による推定方法も多く提案されている。この推定方法では、まず、特定種類の地球科学データが取得されていない箇所の特性を推定するために、取得済みの他種類の地球科学データを学習データとして学習モデルが構築される。例えば、十数種類のリモートセンシングデータ、地磁気データ、重力データや等高線データ等が学習データとして用いられる。
ところで、このような地球科学データには、ダイナミックスケールが非常に大きいという特徴がある。このため、地球科学データにおいては、同じ指標であるにも係わらず、その数値が10のマイナス数乗から10のプラス数乗までの広い範囲にわたることがある(後述の図3(a)参照)。但し、数値が広範囲にわたったとしても、地球科学データの値は、対象となるエリアのマップ全体において、殆どの領域では低くなり、局所的に高くなるだけである。つまり、値が高い領域と値が低い領域との間の勾配は急であり、地球科学データの値が高い領域は、特異的に分布している。
本発明の目的の一例は、上記問題を解消し、機械学習を用いたデータの推定において、推定精度の向上を図り得る、データ解析装置、データ解析方法、及びプログラムを提供することにある。
更に、上記目的を達成するため、本発明の一側面におけるプログラムは、
コンピュータに、
(a)特定領域の特性を示す第1のデータと、それに対応し、且つ、前記特定領域の別の特性を示す第2のデータとの、組データを取得し、前記第1のデータをその大きさの順に整列させる、ステップと、
(b)前記組データのデータ群に対して、整列後の前記第1のデータの順序分布の特性に基づいて、グルーピングを行って、前記組データのデータ群を複数のグループに分類し、分類の結果を用いて、前記組データを分類するための分類モデルを作成する、ステップと、
(c)前記グループ毎に、前記組データを構成する前記第1のデータを応答変数とし、同じ前記組データを構成する前記第2のデータを説明変数として、機械学習を行って、前記第1のデータと前記第2のデータとの関係を示す回帰モデルを作成する、ステップと、
を実行させることを特徴とする。
コンピュータに、
(a)特定領域の特性を示す第1のデータと、それに対応し、且つ、前記特定領域の別の特性を示す第2のデータとの、組データを取得し、前記第1のデータをその大きさの順に整列させる、ステップと、
(b)前記組データのデータ群に対して、整列後の前記第1のデータの順序分布の特性に基づいて、グルーピングを行って、前記組データのデータ群を複数のグループに分類し、分類の結果を用いて、前記組データを分類するための分類モデルを作成する、ステップと、
(c)前記グループ毎に、前記組データを構成する前記第1のデータを応答変数とし、同じ前記組データを構成する前記第2のデータを説明変数として、機械学習を行って、前記第1のデータと前記第2のデータとの関係を示す回帰モデルを作成する、ステップと、
を実行させることを特徴とする。
具体的には、回帰モデル作成部13は、グループ毎に、サポートベクトルマシンに、そのグループを構成するサンプルデータを与えて、地球科学データが示す特定領域の特性と衛星データが示す特定領域の特性との関係、例えば、銅の含有量(ppm)と、特定波長の光の反射率、標高値、及び傾斜値との関係を学習する。そして、回帰モデル作成部13は、学習の結果、例えば、特定波長の光の反射率、標高値、及び傾斜値が入力されると、入力値に応じて、銅の含有量を出力する回帰モデル17を作成する。また、この場合、サンプルデータは予めグルーピングされており、グループ毎に、回帰モデルが作成される。その後、回帰モデル作成部13は、作成した毎期モデル17も記憶部15に格納させる。なお、グループ毎の回帰モデルは、それぞれ同一の回帰モデルであっても良いし、異なる回帰モデルであっても良い。
次に、分類モデル作成部12は、既に設定された閾値Sの数iがkより大きいかどうかを判定する(ステップD6)。ステップD6の判定の結果、既に設定された閾値Sの数iがkより大きくない場合は、分類モデル作成部12は、再度ステップD2を実行する。
(付記15)
コンピュータに、
(a)特定領域の特性を示す第1のデータと、それに対応し、且つ、前記特定領域の別の特性を示す第2のデータとの、組データを取得し、前記第1のデータをその大きさの順に整列させる、ステップと、
(b)前記組データのデータ群に対して、整列後の前記第1のデータの順序分布の特性に基づいて、グルーピングを行って、前記組データのデータ群を複数のグループに分類し、分類の結果を用いて、前記組データを分類するための分類モデルを作成する、ステップと、
(c)前記グループ毎に、前記組データを構成する前記第1のデータを応答変数とし、同じ前記組データを構成する前記第2のデータを説明変数として、機械学習を行って、前記第1のデータと前記第2のデータとの関係を示す回帰モデルを作成する、ステップと、
を実行させる、プログラム。
コンピュータに、
(a)特定領域の特性を示す第1のデータと、それに対応し、且つ、前記特定領域の別の特性を示す第2のデータとの、組データを取得し、前記第1のデータをその大きさの順に整列させる、ステップと、
(b)前記組データのデータ群に対して、整列後の前記第1のデータの順序分布の特性に基づいて、グルーピングを行って、前記組データのデータ群を複数のグループに分類し、分類の結果を用いて、前記組データを分類するための分類モデルを作成する、ステップと、
(c)前記グループ毎に、前記組データを構成する前記第1のデータを応答変数とし、同じ前記組データを構成する前記第2のデータを説明変数として、機械学習を行って、前記第1のデータと前記第2のデータとの関係を示す回帰モデルを作成する、ステップと、
を実行させる、プログラム。
(付記16)
付記15に記載のプログラムであって、
前記コンピュータに、
(d)前記特定領域以外の領域における前記第2のデータを、前記分類モデル及び前記回帰モデルに適用して、前記特定領域以外の領域における前記第1のデータを推定する、ステップを更に実行させる、
ことを特徴とするプログラム。
付記15に記載のプログラムであって、
前記コンピュータに、
(d)前記特定領域以外の領域における前記第2のデータを、前記分類モデル及び前記回帰モデルに適用して、前記特定領域以外の領域における前記第1のデータを推定する、ステップを更に実行させる、
ことを特徴とするプログラム。
(付記17)
付記15または16に記載のプログラムであって、
前記(b)のステップにおいて、整列後の前記第1のデータの順序分布に基づき、前記第1のデータの一部に対して線形回帰を実行して、近似直線を算出し、更に、算出した近似直線を用いて、前記グルーピングのための閾値を設定し、そして、設定した前記閾値を用いて前記グルーピングを行う、
ことを特徴とするプログラム。
付記15または16に記載のプログラムであって、
前記(b)のステップにおいて、整列後の前記第1のデータの順序分布に基づき、前記第1のデータの一部に対して線形回帰を実行して、近似直線を算出し、更に、算出した近似直線を用いて、前記グルーピングのための閾値を設定し、そして、設定した前記閾値を用いて前記グルーピングを行う、
ことを特徴とするプログラム。
(付記18)
付記17に記載のプログラムであって、
前記(b)のステップにおいて、
複数の前記閾値を設定し、複数の前記閾値それぞれ毎に、前記グルーピングを行って、前記分類モデルを作成し、
複数の前記閾値それぞれ毎に、前記グルーピングで得られたグループそれぞれについての前記回帰モデルを作成し、
複数の前記閾値それぞれ毎に、作成された前記分類モデル及び前記回帰モデルに、前記第2のデータのサンプルデータを適用して、前記特定領域以外の領域における前記第1のデータの推定を行い、
その後、複数の前記閾値それぞれ毎に、前記第1のデータの推定の結果から、作成された前記回帰モデルの性能を評価する評価指標を求め、求めた前記閾値毎の前記評価指標を用いて、前記閾値の最適値を決定する、
ことを特徴とするプログラム。
付記17に記載のプログラムであって、
前記(b)のステップにおいて、
複数の前記閾値を設定し、複数の前記閾値それぞれ毎に、前記グルーピングを行って、前記分類モデルを作成し、
複数の前記閾値それぞれ毎に、前記グルーピングで得られたグループそれぞれについての前記回帰モデルを作成し、
複数の前記閾値それぞれ毎に、作成された前記分類モデル及び前記回帰モデルに、前記第2のデータのサンプルデータを適用して、前記特定領域以外の領域における前記第1のデータの推定を行い、
その後、複数の前記閾値それぞれ毎に、前記第1のデータの推定の結果から、作成された前記回帰モデルの性能を評価する評価指標を求め、求めた前記閾値毎の前記評価指標を用いて、前記閾値の最適値を決定する、
ことを特徴とするプログラム。
(付記19)
付記16に記載のプログラムであって、
前記コンピュータに、
(e)前記特定領域における第1のデータと、推定された前記特定領域以外の領域における前記第1のデータとを、画面上に重ねて表示する、ステップを更に実行させる、
ことを特徴とするプログラム。
付記16に記載のプログラムであって、
前記コンピュータに、
(e)前記特定領域における第1のデータと、推定された前記特定領域以外の領域における前記第1のデータとを、画面上に重ねて表示する、ステップを更に実行させる、
ことを特徴とするプログラム。
(付記20)
付記15~19のいずれかに記載のプログラムであって、
前記(a)のステップにおいて、前記第1のデータとして、前記特定領域の特性を示す地球科学データを取得し、前記第2のデータとして、前記特定領域の別の特性を示す衛星データを取得する、
ことを特徴とするプログラム。
付記15~19のいずれかに記載のプログラムであって、
前記(a)のステップにおいて、前記第1のデータとして、前記特定領域の特性を示す地球科学データを取得し、前記第2のデータとして、前記特定領域の別の特性を示す衛星データを取得する、
ことを特徴とするプログラム。
(付記21)
付記20に記載のプログラムであって、
前記地球科学データが、前記特定領域における特定の物質の存在を示すデータであり、
前記衛星データが、前記特定領域における特定波長の光の反射率の分布を示すデータである、
ことを特徴とするプログラム。
付記20に記載のプログラムであって、
前記地球科学データが、前記特定領域における特定の物質の存在を示すデータであり、
前記衛星データが、前記特定領域における特定波長の光の反射率の分布を示すデータである、
ことを特徴とするプログラム。
Claims (9)
- 特定領域の特性を示す第1のデータと、それに対応し、且つ、前記特定領域の別の特性を示す第2のデータとの、組データを取得し、前記第1のデータをその大きさの順に整列させる、整列手段と、
前記組データのデータ群に対して、整列後の前記第1のデータの順序分布の特性に基づいて、グルーピングを行って、前記組データのデータ群を複数のグループに分類し、分類の結果を用いて、前記組データを分類するための分類モデルを作成する、分類モデル作成手段と、
前記グループ毎に、前記組データを構成する前記第1のデータを応答変数とし、同じ前記組データを構成する前記第2のデータを説明変数として、機械学習を行って、前記第1のデータと前記第2のデータとの関係を示す回帰モデルを作成する、回帰モデル作成手段と、
を備えている、ことを特徴とするデータ解析装置。 - 請求項1に記載のデータ解析装置であって、
前記特定領域以外の領域における前記第2のデータを、前記分類モデル及び前記回帰モデルに適用して、前記特定領域以外の領域における前記第1のデータを推定する、データ推定手段を、更に備えている、
ことを特徴とするデータ解析装置。 - 請求項1または2に記載のデータ解析装置であって、
前記分類モデル作成手段が、整列後の前記第1のデータの順序分布に基づき、前記第1のデータの一部に対して線形回帰を実行して、近似直線を算出し、更に、算出した近似直線を用いて、前記グルーピングのための閾値を設定し、そして、設定した前記閾値を用いて前記グルーピングを行う、
ことを特徴とするデータ解析装置。 - 請求項3に記載のデータ解析装置であって、
前記分類モデル作成手段が、
複数の前記閾値を設定し、複数の前記閾値それぞれ毎に、前記グルーピングを行って、前記分類モデルを作成し、更に、
前記回帰モデル作成手段に、複数の前記閾値それぞれ毎に、前記グルーピングで得られたグループそれぞれについての前記回帰モデルを作成させ、続いて、
前記データ推定手段に、複数の前記閾値それぞれ毎に、作成された前記分類モデル及び前記回帰モデルに、前記第2のデータのサンプルデータを適用して、前記特定領域以外の領域における前記第1のデータの推定を行わせ、
その後、複数の前記閾値それぞれ毎に、前記第1のデータの推定の結果から、作成された前記回帰モデルの性能を評価する評価指標を求め、求めた前記閾値毎の前記評価指標を用いて、前記閾値の最適値を決定する、
ことを特徴とするデータ解析装置。 - 請求項2に記載のデータ解析装置であって、
前記特定領域における第1のデータと、推定された前記特定領域以外の領域における前記第1のデータとを、画面上に重ねて表示する、表示手段を、更に備えている、
ことを特徴とするデータ解析装置。 - 請求項1~5のいずれかに記載のデータ解析装置であって、
前記整列手段が、前記第1のデータとして、前記特定領域の特性を示す地球科学データを取得し、前記第2のデータとして、前記特定領域の別の特性を示す衛星データを取得する、
ことを特徴とするデータ解析装置。 - 請求項6に記載のデータ解析装置であって、
前記地球科学データが、前記特定領域における特定の物質の存在を示すデータであり、
前記衛星データが、前記特定領域における特定波長の光の反射率の分布を示すデータである、
ことを特徴とするデータ解析装置。 - (a)特定領域の特性を示す第1のデータと、それに対応し、且つ、前記特定領域の別の特性を示す第2のデータとの、組データを取得し、前記第1のデータをその大きさの順に整列させ、
(b)前記組データのデータ群に対して、整列後の前記第1のデータの順序分布の特性に基づいて、グルーピングを行って、前記組データのデータ群を複数のグループに分類し、分類の結果を用いて、前記組データを分類するための分類モデルを作成し、
(c)前記グループ毎に、前記組データを構成する前記第1のデータを応答変数とし、同じ前記組データを構成する前記第2のデータを説明変数として、機械学習を行って、前記第1のデータと前記第2のデータとの関係を示す回帰モデルを作成する、
ことを特徴とするデータ解析方法。 - コンピュータに、
(a)特定領域の特性を示す第1のデータと、それに対応し、且つ、前記特定領域の別の特性を示す第2のデータとの、組データを取得し、前記第1のデータをその大きさの順に整列させる、ステップと、
(b)前記組データのデータ群に対して、整列後の前記第1のデータの順序分布の特性に基づいて、グルーピングを行って、前記組データのデータ群を複数のグループに分類し、分類の結果を用いて、前記組データを分類するための分類モデルを作成する、ステップと、
(c)前記グループ毎に、前記組データを構成する前記第1のデータを応答変数とし、同じ前記組データを構成する前記第2のデータを説明変数として、機械学習を行って、前記第1のデータと前記第2のデータとの関係を示す回帰モデルを作成する、ステップと、
を実行させる、プログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2019/024831 WO2020255413A1 (ja) | 2019-06-21 | 2019-06-21 | データ解析装置、データ解析方法、及びコンピュータ読み取り可能な記録媒体 |
Publications (3)
Publication Number | Publication Date |
---|---|
JPWO2020255413A1 JPWO2020255413A1 (ja) | 2020-12-24 |
JPWO2020255413A5 true JPWO2020255413A5 (ja) | 2022-03-15 |
JP7235111B2 JP7235111B2 (ja) | 2023-03-08 |
Family
ID=74040173
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021528631A Active JP7235111B2 (ja) | 2019-06-21 | 2019-06-21 | データ解析装置、データ解析方法、及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220308260A1 (ja) |
JP (1) | JP7235111B2 (ja) |
WO (1) | WO2020255413A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11946921B2 (en) * | 2018-11-09 | 2024-04-02 | Stefan Metzger | Systems and methods for improving the performance of environmental measurements |
CN113378473B (zh) * | 2021-06-23 | 2024-01-12 | 中国地质科学院水文地质环境地质研究所 | 一种基于机器学习模型的地下水砷风险预测方法 |
CN115170694B (zh) * | 2022-06-27 | 2023-06-16 | 西安中科天塔科技股份有限公司 | 一种面源碳通量分布图的生成方法及装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000002769A (ja) * | 1998-06-17 | 2000-01-07 | Nippon Koei Co Ltd | 地質構造の空間分布を予測して地質図を作成する方法及び装置 |
US9111227B2 (en) * | 2010-12-24 | 2015-08-18 | Nec Corporation | Monitoring data analyzing apparatus, monitoring data analyzing method, and monitoring data analyzing program |
WO2018216623A1 (ja) * | 2017-05-25 | 2018-11-29 | 日本電気株式会社 | 地球科学データ解析装置、地球科学データ解析方法、及びコンピュータ読み取り可能な記録媒体 |
-
2019
- 2019-06-21 WO PCT/JP2019/024831 patent/WO2020255413A1/ja active Application Filing
- 2019-06-21 US US17/617,993 patent/US20220308260A1/en active Pending
- 2019-06-21 JP JP2021528631A patent/JP7235111B2/ja active Active
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Alvarado‐Serrano et al. | Ecological niche models in phylogeographic studies: applications, advances and precautions | |
JP5984153B2 (ja) | 情報処理装置、プログラム、及び情報処理方法 | |
JPWO2020255413A5 (ja) | データ解析装置、データ解析方法、及びプログラム | |
Rahaman et al. | An efficient multilevel thresholding based satellite image segmentation approach using a new adaptive cuckoo search algorithm | |
CN110910343A (zh) | 路面裂缝检测的方法、装置及计算机设备 | |
JP7131617B2 (ja) | 照明条件を設定する方法、装置、システム及びプログラム並びに記憶媒体 | |
Saxena et al. | Capturing heterogeneous urban growth using SLEUTH model | |
CN107481218B (zh) | 图像美感评估方法及装置 | |
CN111191696B (zh) | 一种基于深度学习算法的钢筋分层方法及系统 | |
CN103714254A (zh) | 飞机驾驶舱信息显示界面布局对飞行员情境意识影响特性的测定系统和方法 | |
CN114945938A (zh) | 缺陷实际面积的检测方法、显示面板的检测方法及装置 | |
US20220036223A1 (en) | Processing apparatus, processing method, and non-transitory storage medium | |
CN108509324A (zh) | 选择计算平台的系统和方法 | |
JP7235111B2 (ja) | データ解析装置、データ解析方法、及びプログラム | |
Bowersox et al. | Measuring the abruptness of patchy ecotones–a simulation-based comparison of landscape pattern statistics | |
CN109102486B (zh) | 基于机器学习的表面缺陷检测方法及装置 | |
CN111105417A (zh) | 影像噪声定位方法及系统 | |
JP2021154935A (ja) | 車両シミュレーションシステム、車両シミュレーション方法およびコンピュータプログラム | |
CN116778269A (zh) | 一种基于自编码器重构产品表面缺陷检测模型构建方法 | |
CN116665170A (zh) | 目标检测模型的训练及目标检测方法、装置、设备和介质 | |
CN111158918A (zh) | 支撑点并行枚举负载均衡方法、装置、设备及介质 | |
JP2018523967A (ja) | 物体の時間的挙動を決定するための方法および装置 | |
CN109472772A (zh) | 图像污点检测方法、装置和设备 | |
JP7365633B2 (ja) | 車両シミュレーションシステム、車両シミュレーション方法およびコンピュータプログラム | |
CN111241725B (zh) | 基于条件生成对抗网络的结构响应重构方法 |