WO2020255413A1 - データ解析装置、データ解析方法、及びコンピュータ読み取り可能な記録媒体 - Google Patents

データ解析装置、データ解析方法、及びコンピュータ読み取り可能な記録媒体 Download PDF

Info

Publication number
WO2020255413A1
WO2020255413A1 PCT/JP2019/024831 JP2019024831W WO2020255413A1 WO 2020255413 A1 WO2020255413 A1 WO 2020255413A1 JP 2019024831 W JP2019024831 W JP 2019024831W WO 2020255413 A1 WO2020255413 A1 WO 2020255413A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
specific region
classification model
regression model
group
Prior art date
Application number
PCT/JP2019/024831
Other languages
English (en)
French (fr)
Inventor
晨暉 黄
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to PCT/JP2019/024831 priority Critical patent/WO2020255413A1/ja
Priority to JP2021528631A priority patent/JP7235111B2/ja
Priority to US17/617,993 priority patent/US20220308260A1/en
Publication of WO2020255413A1 publication Critical patent/WO2020255413A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01VGEOPHYSICS; GRAVITATIONAL MEASUREMENTS; DETECTING MASSES OR OBJECTS; TAGS
    • G01V20/00Geomodelling in general
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01VGEOPHYSICS; GRAVITATIONAL MEASUREMENTS; DETECTING MASSES OR OBJECTS; TAGS
    • G01V99/00Subject matter not provided for in other groups of this subclass
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01VGEOPHYSICS; GRAVITATIONAL MEASUREMENTS; DETECTING MASSES OR OBJECTS; TAGS
    • G01V9/00Prospecting or detecting by methods not provided for in groups G01V1/00 - G01V8/00
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]

Definitions

  • the earth science data includes data showing the abundance ratio of the element to be grasped. Can be mentioned.
  • the classification model creation unit 12 divides the data group of the sample data into two groups, a high numerical value region and a low numerical value region, based on the determined threshold value S. That is, the classification model creation unit 12 classifies the earth science data larger than the threshold S and the satellite data corresponding to the point into the H group, and the earth science data smaller than the threshold S and the satellite data corresponding to the point are classified into the L group. Classify.
  • the classification model creation unit 12 can also determine the threshold value S according to the earth science data, as shown in the second embodiment described later.
  • the classification model creation unit 12 creates a classification model 16 (C1) for classifying the set data using the grouping result of step A3 (step A4).
  • the classification model creation unit 12 stores the classification model 16 (classification model C1) created in step A4 in the storage unit 15 (step A5).
  • the data estimation unit 14 accepts the designation of the estimation area from the outside (step B1). Next, the data estimation unit 14 selects a plurality of points (latitude and longitude) from the received estimation area, and acquires satellite data of the selected points from the database 30 (step B2).
  • step C6 if the number i of the threshold values S already set is larger than k, the recursive processing ends, so that the classification model creation unit 12 determines each coefficient of determination R calculated in step D5.
  • the relationship between i 2 and each threshold value S i set in step D2 is obtained by fitting (step D7).
  • Appendix 9 The data analysis method described in Appendix 8 (D) Further having a step of applying the second data in a region other than the specific region to the classification model and the regression model to estimate the first data in a region other than the specific region. , A data analysis method characterized by this.
  • Appendix 17 A computer-readable recording medium according to Appendix 15 or 16.
  • a linear regression was performed on a part of the first data to calculate an approximate straight line, and further calculated.
  • a threshold value for the grouping is set using an approximate straight line, and the grouping is performed using the set threshold value.
  • a computer-readable recording medium characterized by that.
  • Appendix 19 The computer-readable recording medium according to Appendix 16.
  • the program is on the computer (E) Further including an instruction to execute a step of displaying the first data in the specific area and the estimated first data in the area other than the specific area on the screen.
  • a computer-readable recording medium characterized by that.
  • the present invention it is possible to estimate the earth science data of another area by using the earth science data acquired in one area.
  • the present invention is useful for, for example, mining of mineral resources, ground survey, vegetation survey, evaluation of agricultural land, evaluation of growth of agricultural products, prediction of natural disasters, and the like.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Life Sciences & Earth Sciences (AREA)
  • Geophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

データ解析装置10は、特定領域の特性を示す第1のデータと、それに対応し、且つ、特定領域の別の特性を示す第2のデータとの、組データを取得し、第1のデータをその大きさの順に整列させる、整列部11と、組データのデータ群に対して、整列後の第1のデータの順序分布の特性に基づいて、グルーピングを行って、組データのデータ群を複数のグループに分類し、分類の結果を用いて、組データを分類するための分類モデルを作成する、分類モデル作成部12と、グループ毎に、組データを構成する第1のデータを応答変数とし、同じ組データを構成する第2のデータを説明変数として、機械学習を行って、第1のデータと第2のデータとの関係を示す回帰モデルを作成する、回帰モデル作成部13と、を備えている。

Description

データ解析装置、データ解析方法、及びコンピュータ読み取り可能な記録媒体
 本発明は、特定領域の特性、例えば、地表に存在する物質の含有量等を示す地球科学データを解析するための、データ解析装置、及びデータ解析方法に関し、更には、これらを実現するためのプログラムを記録したコンピュータ読み取り可能な記録媒体に関する。
 地球科学データは、それが取得された箇所における、地質、岩石成分、植生等の特性を表すデータである。具体的には、地球科学データとしては、地球科学データ、土壌水分含有量、土壌元素含有量、バイオマス量、鉱物資源埋蔵量、森林湿度分布等が挙げられる。但し、地球科学データにおいては、人力、財力、設備の制限により、広域に渡って取得することが難しい場合があり、地図上では、欠損データが多数存在する。
 従って、広域の地球科学データを獲得するためには、その欠損データを補間する必要がある。すなわち、未知領域の地球科学データを取得する必要がある。このため、従来から、特定のエリアで取得された地球科学データを用いて、地球科学データが取得されていない箇所の特性を推測することが行なわれている。
 例えば、特許文献1は、複数箇所で取得されたボーリングデータを用いて、ボーリングが行なわれていない箇所の地層分布及び地質性状を推定する地盤推定方法を開示している。具体的には、特許文献1に開示された地盤推定方法では、まず、各ボーリングデータが含む各地層に関する地質特性値に基づいて、推定対象となるエリアの地層毎に、地質特性値の等高線図が生成される。このとき推定対象となるエリアは、ボーリングが行なわれた箇所を含むエリアである。言い換えると、ボーリングは、推定対象となるエリアの複数箇所において行なわれている。次に、地盤推定箇所の位置を、各地層の等高線図中に照合して、そこでの地質特性値が推定される。その後、推定された各地層の地質特性値が表示される。
 このように、特許文献1に開示された地盤推定方法では、推定対象となるエリアにおいて、ボーリングが行なわれていない箇所の地質特性値を推定することができる。但し、特許文献1に開示された地盤推定方法では、地質特性値の等高線図を作成する必要がある。このため、特許文献1に開示された地盤推定方法には、推定できる箇所が、ボーリングが行なわれた箇所の周辺に限られてしまうという問題がある。
 これに対して、現在、地球科学データが取得されていない箇所の特性を推測する手法としては、機械学習による推定方法も多く提案されている。この推定方法では、まず、特定種類の地球科学データが取得されていない箇所の特性を推定するために、取得済みの他種類の地球科学データを学習データとして学習モデルが構築される。例えば、学習データ十数種類のリモートセンシングデータ、地磁気データ、重力データや等高線データ等が学習データとして用いられる。
 そして、機械学習による推定方法では、学習データによって構築された学習モデルによって、地球科学データが取得されていない箇所における特性が推定できる。従って、機械学習による推定方法では、上記特許文献1における問題は解消できると考えられる。
 ここで、機械学習による推定方法について詳細に説明する。特許文献2は、リモートセンシングデータを学習データとして機械学習を行い、機械学習によって得られたモデルを利用してバイオマスを推定する推定方法を開示している。特許文献2に開示された推定方法は、分析対象となる地域を、地図上で予め定めた所定サイズのメッシュに分割し、分割されたメッシュ毎に、実際に測定した資源情報をモデルに適用して、そのメッシュ内に存在するバイオマスを推定する。
特開2012-37427号公報 特開2004-89032号公報
 ところで、このような地球科学データには、ダイナミックスケールが非常に大きいという特徴とある。このため、地球科学データにおいては、同じ指標であるにも係わらず、その数値が10のマイナス数乗から10のプラス数乗までの広い範囲にわたることがある(後述の図3(a)参照)。但し、数値が広範囲にわたったとしても、地球科学データの値は、対象となるエリアのマップ全体において、殆どの領域では低くなり、局所的に高くなるだけである。つまり、値が高い領域と値が低い領域との間の勾配は急であり、地球科学データの値が高い領域は、特異的に分布している
 しかしながら、地球科学データ全体の中で、特異的に分布している領域は、有意義な情報として処理する必要があるが、上述の特許文献2に開示された機械学習による推定方法においては、このような処理が行われることはない。このため、上述の特許文献2に開示された機械学習による推定方法では、学習データとなる地球科学データの中の重要な情報が無視されるので、推定精度が低いという問題が発生している。
 具体的には、特許文献2に開示された機械学習による推定方法では、値が高い領域のデータが教師データ中の応答変数として用いられる場合、データの前処理の段階で、値が高い領域のデータは、特異点として認識され、その後、除去される。又は、値が高い領域のデータは、データ量が少ないため、機械学習モデルの中で無視される。この結果、上述したように、推定精度が低いという問題が発生する。
 本発明の目的の一例は、上記問題を解消し、機械学習を用いたデータの推定において、推定精度の向上を図り得る、データ解析装置、データ解析方法、及びコンピュータ読み取り可能な記録媒体を提供することにある。
 上記目的を達成するため、本発明の一側面におけるデータ解析装置は、
 特定領域の特性を示す第1のデータと、それに対応し、且つ、前記特定領域の別の特性を示す第2のデータとの、組データを取得し、前記第1のデータをその大きさの順に整列させる、整列部と、
 前記組データのデータ群に対して、整列後の前記第1のデータの順序分布の特性に基づいて、グルーピングを行って、前記組データのデータ群を複数のグループに分類し、分類の結果を用いて、前記組データを分類するための分類モデルを作成する、分類モデル作成部と、
 前記グループ毎に、前記組データを構成する前記第1のデータを応答変数とし、同じ前記組データを構成する前記第2のデータを説明変数として、機械学習を行って、前記第1のデータと前記第2のデータとの関係を示す回帰モデルを作成する、回帰モデル作成部と、
を備えている、ことを特徴とする。
 また、上記目的を達成するため、本発明の一側面におけるデータ解析方法は、
(a)特定領域の特性を示す第1のデータと、それに対応し、且つ、前記特定領域の別の特性を示す第2のデータとの、組データを取得し、前記第1のデータをその大きさの順に整列させる、ステップと、
(b)前記組データのデータ群に対して、整列後の前記第1のデータの順序分布の特性に基づいて、グルーピングを行って、前記組データのデータ群を複数のグループに分類し、分類の結果を用いて、前記組データを分類するための分類モデルを作成する、ステップと、
(c)前記グループ毎に、前記組データを構成する前記第1のデータを応答変数とし、同じ前記組データを構成する前記第2のデータを説明変数として、機械学習を行って、前記第1のデータと前記第2のデータとの関係を示す回帰モデルを作成する、ステップと、
を有する、ことを特徴とする。
 更に、上記目的を達成するため、本発明の一側面におけるコンピュータ読み取り可能な記録媒体は、
コンピュータに、
(a)特定領域の特性を示す第1のデータと、それに対応し、且つ、前記特定領域の別の特性を示す第2のデータとの、組データを取得し、前記第1のデータをその大きさの順に整列させる、ステップと、
(b)前記組データのデータ群に対して、整列後の前記第1のデータの順序分布の特性に基づいて、グルーピングを行って、前記組データのデータ群を複数のグループに分類し、分類の結果を用いて、前記組データを分類するための分類モデルを作成する、ステップと、
(c)前記グループ毎に、前記組データを構成する前記第1のデータを応答変数とし、同じ前記組データを構成する前記第2のデータを説明変数として、機械学習を行って、前記第1のデータと前記第2のデータとの関係を示す回帰モデルを作成する、ステップと、
を実行させる命令を含む、プログラムを記録していることを特徴とする。
 以上のように、本発明によれば、機械学習を用いたデータの推定において、推定精度の向上を図ることができる。
図1は、本発明の実施の形態1におけるデータ解析装置の構成を概略的に示すブロック図である。 図2は、本発明の実施の形態1におけるデータ解析装置の構成を具体的に示すブロック図である。 図3(a)は地球科学データの整列前の分布を示し、図3(b)は地球科学データの整列後の分布を示している。図3(b)に示す分布が順序分布である。 図4は、本発明の実施の形態1におけるデータ解析装置のキャリブレーション動作を示すフロー図である。 図5は、本発明の実施の形態1におけるデータ解析装置の推定動作を示すフロー図である。 図6は、本発明の実施の形態2におけるデータ解析装置の閾値設定動作を示すフロー図である。 図7(a)は、地球科学データの整列後の分布を示し、図7(b)は、本発明の実施の形態2において図7(a)に示す分布の縦軸を対数化した状態を示している。 図8は、本発明の実施の形態において対数化された地球科学データにおける中位数及び標準偏差の一例を示す図である。 図9は、本発明の実施の形態2におけるグルーピング結果の一例を示す図である。 図10は、本発明の実施の形態3におけるデータ解析装置の閾値設定動作を示すフロー図である。 図11は、本発明の実施の形態3において行われる決定係数と閾値とのフィッティングの一例を示す図である。 図12は、本発明の実施の形態1~3におけるデータ解析装置を実現するコンピュータの一例を示すブロック図である。 図13は、本発明の実施例で用いられる特定の地点のサンプルデータの一例を示す図である。 図14は、本発明の実施例で用いられる衛星データの一例を示す図である。図14(a)は、赤外領域の光の反射率の分布を示し、図14(b)は標高データを示し、図14(c)は地磁気測定データを示している。 図15は、本発明の実施例で用いられるサンプルデータのデータ群の一例を示す図である。 図16は、地球科学データが取得されている特定領域とそれ以外の領域との一例を示す図である。 図17は、予測値と真値との関係を示す図であり、図17(a)は従来からの手法が用いられた場合を示し、図17(b)は本発明が用いられた場合を示している。
(実施の形態1)
 以下、本発明の実施の形態1における、データ解析装置、データ解析方法、及びプログラムについて、図1~図5を参照しながら説明する。
[装置構成]
 最初に、本実施の形態1におけるデータ解析装置の構成について説明する。図1は、本発明の実施の形態1におけるデータ解析装置の構成を概略的に示すブロック図である。
 図1に示す本実施の形態1におけるデータ解析装置10は、特定領域の特性を示すデータを解析するための装置である。図1に示すように、データ解析装置10は、整列部11と、分類モデル作成部12と、回帰モデル作成部13とを備えている。
 整列部11は、特定領域の特性を示す第1のデータと、第2のデータとの、組データを取得し、第1のデータをその大きさの順に整列させる。また、第2のデータは、第1のデータに対応し、且つ、特定領域の別の特性を示す、データである。
分類モデル作成部12は、組データのデータ群に対して、整列後の第1のデータの順序分布の特性に基づいて、グルーピングを行って、組データのデータ群を複数のグループに分類する。また、分類モデル作成部12は、分類の結果を用いて、組データを分類するための分類モデルを作成する。
 回帰モデル作成部13は、グループ毎に、組データを構成する第1のデータを応答変数とし、同じ組データを構成する第2のデータを説明変数として、機械学習を行って、第1のデータと第2のデータとの関係を示す回帰モデルを作成する。
 このように、本実施の形態1では、組データは、第1のデータの大きさに応じてグルーピングされ、グループ毎に、回帰モデルが作成される。このため、地球科学データのように、特異的な分布を持つデータであっても、特異的な部分が除去されたり、無視されたりすることはなく、データ全体が学習モデルに包括される。従って、本実施の形態1によれば、機械学習を用いたデータの推定において、推定精度の向上が図られる。
 続いて、図2~図3を用いて、本実施の形態1におけるデータ解析装置10の構成をより具体的に説明する。図2は、本発明の実施の形態1におけるデータ解析装置の構成を具体的に示すブロック図である。
 まず、本実施の形態1では、整列部11は、第1のデータとして、特定領域の特性を示す地球科学データを取得し、第2のデータとして、特定領域の別の特性を示す衛星データを取得する。ここで、地球科学データとしては、特定領域の特性として資源の存在を示すデータ、例えば、地表に存在する物質、元素の種類、成分比、含有量等を示すデータが挙げられる。具体的には、ある領域において銅の含有量の予測が求められているとすると、地球科学データとしては、特定領域の特性である単位面積当たりの銅の含有量(ppm)を示すデータが挙げられる。
 また、その他の地球科学データとしては、重力値、二酸化炭素の濃度プロファイル、気温、湿度、風向、風速、気圧、全天日射、分光放射、光合成有効放射、地温、土壌水分、地流熱量、直達放射スペクトル、地盤安定性、地層年代、断層情報、地下水脈情報、植物種類の分布、蒸発散情報、鉱物産量等を示すデータも挙げられる。
 また、特定の資源の探査又は存在の把握を目的とする場合は、資源の存在に関連のあるデータを用いることが好適である。例えば、地殻に存在する特定の元素の存在の把握を目的とする場合、鉱脈の存在確率の算出を目的とする場合は、地球科学データとしては、把握対象となる元素の存在比率を示すデータが挙げられる。
 衛星データは、地球の上空から得られたデータであり、特定領域の特性を示すデータである。衛星データは、衛星が取得したデータ、航空機等の飛行体が取得したデータを含む。また、本実施の形態1において用いることができる衛星データとしては、取得対象の領域から反射または放射される電磁波の強度を示すデータ、特定波長の光の反射率の分布を示すデータ、地磁気を示すデータ、標高を示すデータ、標高傾斜を示すデータ等が挙げられる。
 具体的には、特定波長の光の反射率の分布を示すデータとしては、アスター(ASTER: Advanced Spaceborne Thermal Emission and Reflection Radiometer)によって測定されたデータが挙げられる。アスターは、米国NASAのテラ(Terra)衛星に搭載された観測用の光学センサであり、可視から熱赤外にわたる14バンドを観測することができる。また、この14バンドは、鉱物に関する特徴的なスペクトルを捉えるのに適した波長である。なお、衛星データは上記のものに限定されずリモートセンシングによって得られたデータを含む。
 また、図2に示すように、本実施の形態1では、データ解析装置10は、上述した整列部11、分類モデル作成部12及び回帰モデル作成部13に加えて、データ推定部14と、表示部18と、記憶部15とを備えている。また、データ解析装置10には、表示装置20が接続されている。更に、データ解析装置10は、ネットワーク等を介して、データベース30にも接続されている。
 データベース30は、特定領域における地球科学データ及び衛星データを格納している。例えば、地球科学データが、地点毎の単位面積当たりの銅の含有量(ppm)を示すデータであり、衛星データが、特定波長の光の反射率の分布を示すデータ、標高データ、及び標高傾斜データであるとする。
 この場合、データベース30は、地点(緯度及び経度)毎に、地球科学データとして、単位面積当たりの銅の含有量(ppm)を示すデータを格納し、衛星データとして、特定波長の光の反射率、標高値、及び傾斜値を格納する。また、この場合、地球科学データ及び衛星データが取得されている地点を中心とした設定範囲を重ね合わせて得られた領域を、特定領域とすることができる。
 また、データベース30では、地点毎の地球科学データの値と衛星データの値とは、1つの組として互いに紐付けられる。更に、1つの組を構成する地球科学データの値と衛星データの値とは、1つのサンプルデータ(組データ)として扱われる。なお、衛星データは、地球科学データに比べて広範囲にわたって取得できるため、地球科学データが取得されている特定領域以外の領域までもカバーしていても良い。
 整列部11は、本実施の形態1では、データベース30から、第1のデータと第2のデータとの組データとして、地球科学データと衛星データとの組データを取得する。そして、整列部11は、図3(a)に示す地球科学データを、図3(b)に示すように、その大きさの順に整列させる。図3(a)は地球科学データの整列前の分布を示し、図3(b)は地球科学データの整列後の分布を示している。図3(b)に示す分布が順序分布である。
 更に、整列部11は、対応する地球科学データの順番に合わせて、衛星データも整列させる。なお、ここでいう整列は、並べ替えと同義である。また、整列部11は、整列させた地球科学データ及び衛星データを、分類モデル作成部12と回帰モデル作成部13とに渡す。
 分類モデル作成部12は、本実施の形態1では、まず、整列部11によって整列されたサンプルデータのデータ群(複数のサンプルデータ)を受け取る。また、図3(b)に示すように、地球科学データでは、値が低い領域(以下「低数値領域」と表記する。)が殆どであり、値が高い領域(以下「高数値領域」と表記する。)は局所的に存在するのみである。このため、本実施の形態1では、分類モデル作成部12は、閾値Sに基づいて、受け取ったサンプルデータのデータ群を、高数値領域と低数値領域との2つのグループに分ける。なお、本実施の形態1において、グループ数は特に限定されるものではない。
 具体的には、分類モデル作成部12は、グルーピング用のサポートベクトルマシンに、各サンプルデータを与えて、各サンプルデータが所属するグループを判定することができる。例えば、サンプルデータが、銅の含有量(ppm)と衛星データとの組データであるとする。そして、サポートベクトルマシンは、銅の含有量のデータ分布の特長を学習して、銅の含有量を2つのグループに分けるための閾値を決定し、その閾値に基づいて、サンプルデータを2つに分割する。なお、閾値は、予め設定された固定値であっても良い。
 そして、分類モデル作成部12は、サンプルデータに、グループ分けに応じてラベリングを行い、ラベリング後のサンプルデータを教師データとして、機械学習を実行し、地球科学データと衛星データとの組データを分類するための分類モデル16を構築する。また、この場合に用いられる機械学習の方式としては、決定木、サポートベクトルマシン、ニューラルネットワーク、ロジスティック回帰、最近傍分類法(K-NN: k-nearest neighbor algorithm)、アンサンブル分類学習法、判別分析等が挙げられる。更に、分類モデル作成部12は、作成した分類モデル16を、記憶部15に格納させる。
 また、分類モデル作成部12は、各サンプルデータを用いて、地球科学データにおける高数値領域及び低数値領域と衛星データ(特定波長の光の反射率、標高値、及び傾斜値)との関係をディープラーニングによって学習することもできる。この場合、衛星データの値に応じて、サンプルグループを決定する分類器が作成されるので、この作成された分類器を分類モデル16とすることもできる。
 回帰モデル作成部13は、本実施の形態1では、まず、分類モデル作成部12によってグルーピングされたサンプルデータのデータ群を取得する。そして、回帰モデル作成部13は、取得した各サンプルデータを教師データとして機械学習を実行する。これにより、回帰モデル17が作成される。ここで用いられる機械学習の方式としても、ガウス過程回帰、決定木、サポートベクトルマシン、ニューラルネットワーク、ロジスティック回帰、最近傍分類法(K-NN: k-nearest neighbor algorithm)、アンサンブル回帰学習法、判別分析等が挙げられる。
 具体的には、回帰モデル作成部13は、グループ毎に、サポートベクトルマシンに、そのグループを構成するサンプルデータを与えて、地球科学データが示す特定領域の特性と衛星データが示す特定領域の特性との関係、例えば、銅の含有量(ppm)と、特定波長の光の反射率、標高値、及び傾斜値との関係を学習する。そして、回帰モデル作成部13は、学習の結果、例えば、特定波長の光の反射率、標高値、及び傾斜値が入力されると、入力値に応じて、銅の含有量を出力する毎期モデル17を作成する。また、この場合、サンプルデータは予めグルーピングされており、グループ毎に、回帰モデルが作成される。その後、回帰モデル作成部13は、作成した毎期モデル17も記憶部15に格納させる。なお、グループ毎の回帰モデルは、それぞれ同一の回帰モデルであっても良いし、異なる回帰モデルであっても良い。
 また、回帰モデル作成部13は、各サンプルデータを用いて、ディープラーニングを行うことによって、地球科学データが示す特定領域の特性と衛星データが示す特定領域の特性との関係を学習することもできる。この場合は、ディープラーニングよって学習されたモデルが、衛星データである特定波長の光の反射率、標高値、及び傾斜値等に応じて、銅の含有量を決定する回帰モデル17となる。
 データ推定部14は、特定領域以外の領域における第2のデータを、分類モデル16及び回帰モデル17に適用して、特定領域以外の領域における第1のデータを推定する。本実施の形態1では、データ推定部14は、まず、分類モデル作成部12によって作成された分類モデル16に、特定領域以外の領域(以下「推定領域」と表記する。)における衛星データを入力して、この衛星データを複数のグループに分類する。次いで、データ推定部14は、回帰モデル作成部13によってグループ毎に作成された回帰モデルそれぞれに、対応するグループの衛星データを入力し、推定領域における地球科学データを推定する。
 具体的には、データ推定部14は、まず、外部から推定領域が指定されると、指定された推定領域上から複数の地点(緯度及び経度)を選出する。次いで、データ推定部14は、データベース30に格納されている衛星データから、選出した地点に対応する、特定波長の光の反射率、標高値、及び傾斜値を特定する。更に、データ推定部14は、特定したデータを分類モデル16に適用して、これらのデータが、低数値領域と高数値領域との2つのグループのいずれに属するかを判定する。その後、データ推定部14は、衛星データを、属すると判定されたグループに対応する回帰モデル17に適用して、推定領域の銅の含有量を算出する。
 表示部18は、特定領域における第1のデータと、推定された推定領域における第1のデータとを、画面上に重ねて表示する。表示部18は、本実施の形態1では、表示装置20の画面上において、特定領域における地球科学データと、推定領域における地球科学データとを、地図データ上に重ねて表示する。具体的には、例えば、地球科学データが地点毎の単位面積当たりの銅の含有量(ppm)であるとする。この場合、表示部18は、表示装置20の画面上に、銅の含有量が特定されていない地点についても、銅の含有量(予測値)を表示する。このため、データ解析装置10のユーザは、効率の良い採掘計画を策定することができる。
[装置動作]
 次に、図4及び図5を用いて、本発明の実施の形態1におけるデータ解析装置10の動作について説明する。また、後述するように、本実施の形態1において、データ解析装置10は、キャリブレーション動作と推定動作とを行う。また、以下の説明においては、適宜図1~図3を参照する。また、本実施の形態1では、データ解析装置10を動作させることによって、データ解析方法が実施される。従って、本実施の形態におけるデータ解析方法の説明は、以下のデータ解析装置10の動作説明に代える。
 最初に、図4を用いて、キャリブレーション動作、即ち、分類モデル及び回帰モデルの作成処理について説明する。図4は、本発明の実施の形態1におけるデータ解析装置のキャリブレーション動作を示すフロー図である。
 図4に示すように、最初に、整列部11は、データベース30から、特定領域における地球科学データ及び衛星データをサンプルデータとして取得する。そして、整列部11は、応答変数となる地球科学データの大きさの順に、地球科学データを整列させ、更に、衛星データも、対応する地球科学データの順に整列させる(ステップA1)。
 具体的には、ステップA1では、整列部11は、データベース30から、特定領域に含まれる地点毎に、地球科学データと衛星データとの組データを、サンプルデータとして取得し、取得した地点毎のサンプルデータのデータ群を整列させる。また、整列部11は、整列後のサンプルデータのデータ群を分類モデル作成部12に渡す。
 次に、分類モデル作成部12は、地球科学データの特性に応じて一定の法則に基づいて、グルーピングのための閾値S(基準値)を決定する(ステップA2)。具体的には、ステップA2では、分類モデル作成部12は、ステップA1で整列された地点毎のサンプルデータを受け取ると、サポートベクトルマシンを用いて閾値Sを決定する。
 次に、分類モデル作成部12は、ステップA2で決定した閾値Sに基づいて、ステップA1で整列された地球科学データ及び衛星データのグルーピングを行う(ステップA3)。
 具体的には、ステップA3では、分類モデル作成部12は、決定した閾値Sに基づいて、サンプルデータのデータ群を、高数値領域と低数値領域との2つのグループに分ける。つまり、分類モデル作成部12は、閾値Sより大きい地球科学データ及びその地点に対応する衛星データをHグループに分類し、閾値Sより小さい地球科学データ及びその地点に対応する衛星データをLグループに分類する。なお、分類モデル作成部12は、後述の実施の形態2に示すように、地球科学データに応じて閾値Sを決定することもできる。
 次に、分類モデル作成部12は、ステップA3のグルーピング結果を用いて、組データを分類する分類モデル16(C1)を作成する(ステップA4)。
 具体的には、分類モデル作成部12は、グルーピングされたサンプルデータの衛星データにラベルを付与し、サンプルデータの衛星データとそれに付与されたラベルとでデータセットを構成する。次いで、分類モデル作成部12は、このデータセットを教師データとして、分類学習を実行し、それによって、地球科学データと衛星データとの組データを分類するための分類モデルを構築する。
 次に、分類モデル作成部12は、ステップA4で作成した分類モデル16(分類モデルC1)を記憶部15に格納する(ステップA5)。
 次に、回帰モデル作成部13は、ステップA2でグルーピングされたサンプルデータのデータ群を取得し、各サンプルデータを教師データとして、グループ毎に、地球科学データが示す特定領域の特性と衛星データが示す特定領域の特性との相関関係を学習して、回帰モデル17を作成する(ステップA6)。また、ステップA6は、ステップA3でサンプルデータがグルーピングされた後であれば、分類モデル作成部12による分類モデル16の作成と同時に実行されても良い。
 具体的には、回帰モデル作成部13は、ステップA2でグルーピングされた地点毎のサンプルデータを取得し、取得した各サンプルデータを教師データとして、グループ毎に回帰学習を実行し、それによって、回帰モデル17を作成する。また、回帰モデル作成部13は、グループ毎に回帰モデルを作成しており、即ち、Hグループについて回帰モデルR1を作成し、Lグループについて回帰モデルR2を作成する。
 その後、回帰モデル作成部13は、ステップA6で作成した回帰モデル17(回帰モデルR1及びR2)を記憶部15に格納する(ステップA7)。ステップA7の実行により、キャリブレーション動作は終了する。
 続いて、図5を用いて、推定動作、即ち、分類モデル16及び回帰モデル17を用いた推定処理について説明する。図5は、本発明の実施の形態1におけるデータ解析装置の推定動作を示すフロー図である。
 図5に示すように、最初に、データ推定部14は、外部からの推定領域の指定を受け付ける(ステップB1)。次に、データ推定部14は、受け付けた推定領域から、複数の地点(緯度及び経度)を選出し、データベース30から、選出した地点の衛星データを取得する(ステップB2)。
 次に、データ推定部14は、ステップB2で取得した衛星データを、分類モデル16(C1)に入力して、この衛星データをグルーピングする(ステップB3)。次いで、データ推定部14は、ステップB1のグルーピング結果に基づいて、ステップB2で取得された衛星データにラベルを付与する(ステップB4)。
 具体的には、ステップB3におけるグルーピングにより、ステップB1で指定された推定領域が、Hグループ及びLグループのいずれに属するかを判定できるので、データ推定部14、判定結果に基づいて、ステップB2で取得された衛星データに、ラベルとして、「H」又は「L」を付与する。
 次に、データ推定部14は、ステップB4でラベルが付与された衛星データを、そのラベルが対応する回帰モデル17に適用して、推定領域における地球科学データを推定する(ステップB5)。例えば、衛星データに付与されたラベルがHである場合は、データ推定部14は、衛星データを回帰モデルR1に適用する。一方、衛星データに付与されたラベルがLである場合は、データ推定部14は、衛星データを回帰モデルR2に適用する。
 次に、データ推定部14は、ステップB5の結果を、その地点の経度及び緯度に基づいて、地図データ上で、既に取得されている他の領域における地球科学データに合体させて、地球科学データが付加された地図データを構築する(ステップB6)。また、データ推定部14は、構築した地図データを表示部18に出力する。
 次に、表示部18は、出力されてきた地図データを受取、表示装置20の画面上において、ステップB6で構築された地図データを表示する(ステップB7)。これにより、画面上には、推定領域における地球科学データと、推定領域以外の領域(特定領域を含む)における地球科学データとが、地図データ上に重ねて表示される。
[実施の形態1における効果]
 以上のように、本実施の形態1では、地球科学データをグルーピングする分類モデルと、グループ毎に衛星データとの関係を規定する回帰モデルとが作成される。このため、本実施の形態1によれば、特異的な分布を持つ地球科学データであっても、衛星データから高精度に推定することが可能となる。
[プログラム]
 本実施の形態1におけるプログラムは、コンピュータに、図4に示すステップA1~A7、及び図5に示すステップB1~B7を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態1におけるデータ解析装置10とデータ解析方法とを実現することができる。この場合、コンピュータのプロセッサは、整列部11、分類モデル作成部12、回帰モデル作成部13、データ推定部14及び表示部18として機能し、処理を行なう。
 また、本実施の形態1におけるプログラムは、複数のコンピュータによって構築されたコンピュータシステムによって実行されても良い。この場合は、例えば、各コンピュータが、それぞれ、整列部11、分類モデル作成部12、回帰モデル作成部13、データ推定部14、及び表示部18のいずれかとして機能しても良い。
(実施形態2)
 次に、本発明の実施の形態2における、データ解析装置、データ解析方法、及びプログラムについて説明する。
 まず、本実施の形態2におけるデータ解析装置は、図1及び図2に示した実施の形態1におけるデータ解析装置10と同様の構成を有している。このため、以下の説明では、図1~図3を参照する。但し、本実施の形態2におけるデータ解析装置は、分類モデル作成部12の機能の点で、実施の形態1におけるデータ解析装置10と異なっている。以下においては、実施の形態1との相違点を中心に説明する。
 本実施の形態2においては、分類モデル作成部12は、分類モデル16の作成の前に、適切なグルーピングのための閾値Sを決定する。分類モデル作成部12は、整列後の地球科学データの順序分布に基づき、地球科学データの一部に対して線形回帰を実行して、近似直線を算出し、更に、算出した近似直線を用いて、グルーピングのための閾値Sを設定する。そして、分類モデル作成部12は、設定した閾値Sを用いてグルーピングを行う。
 上述したように、地球科学データは、種々のデータの総称であり、データの種類によって、その数値範囲は異なっている。このため、グルーピングのための閾値Sは、データの特徴に応じて決定する必要があり、実際地球科学データの高精度推定を実現するためには、閾値Sを適切に設定することは非常に重要である。
 また、閾値の適切な設定が重要となる理由は、学習モデルの作成においては、特性が近い教師データ群を用いた方が、学習精度が高いためである。一方、地球科学データは、図3(a)に示したように、その数値は10のマイナス数乗から10のプラス数乗までのレンジを持ち、その分布において、殆どの領域は低数値であり、局所だけが高数値となる。また、図3(b)に示したように、地球科学データを小から大の順で整列させると、最後の順位の1%の数値だけが、急激に上昇し、それ以外の約99%のデータより、数オーダー大きく変化している。従って、数値的に大きくことなる部分を分離するため、グルーピングする際、できるだけ適切な閾値を設定し、各グループのデータ特性を揃える必要がある。
 ここで、図6~図9を用いて、本実施の形態2におけるデータ解析装置の動作について説明する。図6は、本発明の実施の形態2におけるデータ解析装置の閾値設定動作を示すフロー図である。また、図6に示す各ステップは、整列部11による図3(a)及び図3(b)に示した処理の実行後に行われる。
 図6に示すように、最初に、整列部11は、データベース30から、特定領域における地球科学データ及び衛星データをサンプルデータとして取得する。そして、整列部11は、応答変数となる地球科学データの大きさの順に、地球科学データを整列させ、更に、衛星データも、対応する地球科学データの順に整列させる(ステップC1)。ステップC1は、図4に示したステップA1と同様のステップである。
 次に、分類モデル作成部12は、ステップC1で大きさの順に整列された地球科学データ(図3(b)参照)、即ち、応答変数に対して、対数を取る(ステップC2)。具体的には、図7(a)及び図7(b)に示すように、大きさの順に配列された地球科学データのグラフにおいて、縦軸を対数化する。図7(a)は、地球科学データの整列後の分布を示し、図7(b)は、本発明の実施の形態2において図7(a)に示す分布の縦軸を対数化した状態を示している。
 次に、分類モデル作成部12は、図8に示すように、対数化された地球科学データ(総数Q)の点群における中位数を特定する(ステップC3)。次に、分類モデル作成部12は、図8に示すように、総数Qの点群の中位数の順位を特定し、特定した中位数の前後N%(合計2N%%)の点群を用いて線形回帰を実行して、近似直線を算出する(ステップC4)。図8は、本発明の実施の形態2において対数化された地球科学データにおける中位数及び標準偏差の一例を示す図である。
 次に、分類モデル作成部12は、図8に示すように、中位数の前後N%(合計2N%%)の点群における、ステップC4で算出した近似直線に対する標準偏差SDを算出する(ステップC5)。更に、分類モデル作成部12は、地球科学データのバンドL±2SDを算出する(ステップC6)。
 次に、分類モデル作成部12は、点群の最大値から最小値に向けて順に、各データが、ステップC2で算出したバンドに収まるかどうかを判定する(ステップC7)。ステップC7の判定の結果、対象となっている点がバンド内に収まっていない場合は、次の点を選択し(ステップC8)、再度ステップC7を実行する。
 一方、ステップC7の判定の結果、対象となっている点がバンド内に収まっている場合は、この最初にバンドに収まった点の値を閾値Sとする(ステップC9)。ステップC9によって、閾値Sが決定されると、分類モデル作成部12は、閾値Sとなった点を境目として、グループ分けを実行する。
 具体的には、分類モデル作成部12は、図9に示すように、閾値S以下の点群をグループLに分類し、閾値S以上の点群をグループHに分類する。図9は、本発明の実施の形態2におけるグルーピング結果の一例を示す図である。
 また、本実施の形態2においては、図8に示すステップC1~C9の実行後、データ解析装置において、図4に示すステップA3~A7、及び図5に示すステップB1~B7が実行される。
[実施の形態2における効果]
 以上のように、本実施の形態2では、組データをグルーピングするための閾値が精度良く自動的に設定される。よって、本実施の形態2によれば、精度の高い分類モデルが作成されるので、推定精度の向上が図られる。
[プログラム]
 本実施の形態2におけるプログラムは、コンピュータに、図6に示すステップC1~C10、図4に示すステップA3~A7、及び図5に示すステップB1~B7を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態2におけるデータ解析装置10とデータ解析方法とを実現することができる。この場合、コンピュータのプロセッサは、整列部11、分類モデル作成部12、回帰モデル作成部13、データ推定部14、及び表示部18として機能し、処理を行なう。
 また、本実施の形態2におけるプログラムは、複数のコンピュータによって構築されたコンピュータシステムによって実行されても良い。この場合は、例えば、各コンピュータが、それぞれ、整列部11、分類モデル作成部12、回帰モデル作成部13、データ推定部14、及び表示部18のいずれかとして機能しても良い。
(実施の形態3)
 次に、本発明の実施の形態3における、データ解析装置、データ解析方法、及びプログラムについて説明する。
 まず、本実施の形態3におけるデータ解析装置も、図1及び図2に示した実施の形態1におけるデータ解析装置10と同様の構成を有している。このため、以下の説明では、図1~図3を参照する。但し、本実施の形態3におけるデータ解析装置は、分類モデル作成部12及び回帰モデル作成部13の機能の点で、実施の形態1及び2におけるデータ解析装置10と異なっている。以下においては、実施の形態1及び2との相違点を中心に説明する。
 本実施の形態3では、分類モデル作成部12は、複数の閾値Sを設定し、設定した閾値毎に、グルーピングを行って、分類モデル16を作成する。そして、分類モデル作成部12は、回帰モデル作成部13に、閾値S毎に、グルーピングで得られたグループそれぞれについての回帰モデル17を作成させる。続いて、分類モデル作成部12は、データ推定部14に、閾値S毎に、作成された分類モデル及び回帰モデルに、衛星データのサンプルデータを適用して、特定領域以外の領域における地球科学データの推定を行わせる。その後、分類モデル作成部12は、閾値S毎に、地球科学データの推定の結果から、作成された回帰モデル17の性能を評価する評価指標を求める。更に、分類モデル作成部12は、求めた閾値毎の評価指標を用いて、閾値Sの最適値を決定する。
 つまり、本実施の形態3におけるデータ解析装置においては、推定動作に入る前に、閾値Sが複数回設定され、その上で、再帰的に、回帰モデル17の作成及び交差検定によるデータの推定が実行され、回帰モデル17を評価する評価指標が複数回求められる。そして、閾値Sと評価指標との関係性から、最適な閾値Sが決定される。地球科学データの推定精度を最大限上げるために、このフローは必要となる。
 また、本実施の形態3では、評価指標としては、交差検定によって得られた決定係数Rが用いられる。決定係数Rは、応答変数の真値を横軸、予測値を縦軸として、両者に対応する点をプロットすることで得られるグラフの線形性を評価することによって、求められる。この決定係数Rは、構築されたモデルにおいて、何パーセントのデータが有効に説明できたかを示す評価指標であり、1は100%のデータが有効に説明できたことを意味し、0はこのモデルが全くデータを有効に説明できていないことを意味する。
 ここで、図10及び図11を用いて、本実施の形態3におけるデータ解析装置の動作について説明する。図10は、本発明の実施の形態3におけるデータ解析装置の閾値設定動作を示すフロー図である。
 最初に、整列部11は、データベース30から、特定領域における地球科学データ及び衛星データをサンプルデータとして取得する。そして、整列部11は、応答変数となる地球科学データの大きさの順に、地球科学データを整列させ、更に、衛星データも、対応する地球科学データの順に整列させる(ステップD1)。ステップD1は、図4に示したステップA1と同様のステップである。
 ステップD1の実行後、本実施の形態3では、以下に示すように、分類モデル作成部12と回帰モデル作成部13とは、再帰的に処理を実行することになる。そして、この再帰的な処理の中で、整列後の分布特徴に関わらず、グルーピング基準である閾値Sを変化させながら、別々のパターンのグルーピングが行われる。例えば、閾値がkパターンあるときは、以下のフローは再帰的にk回実行される。
 次に、ステップD1の実行後、分類モデル作成部12は、整列されたサンプルデータを受取、任意の閾値S(i≦k)を設定し、設定した閾値Sを用いて、ステップD1で整列されたサンプルデータのグルーピングを行う(ステップD2)。
 次に、回帰モデル作成部13は、ステップD2でグルーピングされたサンプルデータのデータ群を取得し、各サンプルデータを教師データとして、グループ毎に、地球科学データが示す特定領域の特性と衛星データが示す特定領域の特性との相関関係を学習して、回帰モデル17を作成する(ステップD3)。
 次に、データ推定部14は、交差検定を行い、サンプルデータの一部の衛星データを、各グループの回帰モデル17に適用して、グループ毎に地球科学データの予測値を取得する(ステップD4)。
 次に、回帰モデル作成部13は、ステップD4で得られたグループ毎の予測値をまとめ、まとめた各予測値と、予め用意されたサンプルデータの真値との対応関係を求め、求めた対応関係に基づいて、決定係数R を算出する(ステップD5)。
 次に、分類モデル作成部12は、既に設定された閾値Sの数iがkより大きいかどうかを判定する(ステップC6)。ステップC6の判定の結果、既に設定された閾値Sの数iがkより大きくない場合は、分類モデル作成部12は、再度ステップD2を実行する。
 一方、ステップC6の判定の結果、既に設定された閾値Sの数iがkより大きい場合は、再帰的な処理は終了するので、分類モデル作成部12は、ステップD5で算出した各決定係数R とステップD2で設定した各閾値Sとの関係をフィッティングによって求める(ステップD7)。
 次に、分類モデル作成部12は、図11に示すように、フィッティングによって得られた曲線から決定係数R が最大値となる分割点を検出し、検出した分割点を基準にして、最適な閾値Sを特定する(ステップD8)。図11は、本発明の実施の形態3において行われる決定係数と閾値とのフィッティングの一例を示す図である。
 図11に示すように、最適な閾値Sを特定するため、縦軸の座標を決定係数R 、横軸の座標を閾値Sとする、k個の点に対して、フィッティングが行われ、曲線が求められる。このとき、決定係数R の最大値を求める必要があるため、曲線は、少なくとも2次関数である必要があるので、kは3以上が必要となる。曲線を求めることができれば、決定係数R の最大値が求まるので、最適な閾値Sも特定される。
 また、本実施の形態3では、図10に示すステップD1~D8が実行され、閾値Sが特定されると、データ解析装置において、図4に示すステップA3~A7、及び図5に示すステップB1~B7が実行される。
[実施の形態3における効果]
 以上のように、本実施の形態3でも、実施の形態2と同様に、組データをグルーピングするための閾値が精度良く自動的に設定される。よって、本実施の形態3による場合も、精度の高い分類モデルが作成されるので、推定精度の向上が図られる。
[プログラム]
 本実施の形態3におけるプログラムは、コンピュータに、図10に示すステップD1~D8、図4に示すステップA3~A7、及び図5に示すステップB1~B7を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態3におけるデータ解析装置とデータ解析方法とを実現することができる。この場合、コンピュータのプロセッサは、整列部11、分類モデル作成部12、回帰モデル作成部13、データ推定部14、及び表示部18として機能し、処理を行なう。
 また、本実施の形態3におけるプログラムは、複数のコンピュータによって構築されたコンピュータシステムによって実行されても良い。この場合は、例えば、各コンピュータが、それぞれ、整列部11、分類モデル作成部12、回帰モデル作成部13、データ推定部14及び表示部18のいずれかとして機能しても良い。
(物理構成)
 ここで、実施の形態1~3におけるプログラムを実行することによって、データ解析装置を実現するコンピュータについて図12を用いて説明する。図12は、本発明の実施の形態1~3におけるデータ解析装置を実現するコンピュータの一例を示すブロック図である。
 図12に示すように、コンピュータ110は、CPU(Central Processing Unit)111と、メインメモリ112と、記憶装置113と、入力インターフェイス114と、表示コントローラ115と、データリーダ/ライタ116と、通信インターフェイス117とを備える。これらの各部は、バス121を介して、互いにデータ通信可能に接続される。また、コンピュータ110は、CPU111に加えて、又はCPU111に代えて、GPU(Graphics Processing Unit)、又はFPGA(Field-Programmable Gate Array)を備えていても良い。
 CPU111は、記憶装置113に格納された、本実施の形態におけるプログラム(コード)をメインメモリ112に展開し、これらを所定順序で実行することにより、各種の演算を実施する。メインメモリ112は、典型的には、DRAM(Dynamic Random Access Memory)等の揮発性の記憶装置である。また、本実施の形態におけるプログラムは、コンピュータ読み取り可能な記録媒体120に格納された状態で提供される。なお、本実施の形態におけるプログラムは、通信インターフェイス117を介して接続されたインターネット上で流通するものであっても良い。
 また、記憶装置113の具体例としては、ハードディスクドライブの他、フラッシュメモリ等の半導体記憶装置が挙げられる。入力インターフェイス114は、CPU111と、キーボード及びマウスといった入力機器118との間のデータ伝送を仲介する。表示コントローラ115は、ディスプレイ装置119と接続され、ディスプレイ装置119での表示を制御する。
 データリーダ/ライタ116は、CPU111と記録媒体120との間のデータ伝送を仲介し、記録媒体120からのプログラムの読み出し、及びコンピュータ110における処理結果の記録媒体120への書き込みを実行する。通信インターフェイス117は、CPU111と、他のコンピュータとの間のデータ伝送を仲介する。
 また、記録媒体120の具体例としては、CF(Compact Flash(登録商標))及びSD(Secure Digital)等の汎用的な半導体記憶デバイス、フレキシブルディスク(Flexible Disk)等の磁気記録媒体、又はCD-ROM(Compact Disk Read Only Memory)などの光学記録媒体が挙げられる。
 なお、本実施の形態1~3におけるデータ解析装置は、プログラムがインストールされたコンピュータではなく、各部に対応したハードウェアを用いることによっても実現可能である。更に、データ解析装置は、一部がプログラムで実現され、残りの部分がハードウェアで実現されていてもよい。
 続いて、実施の形態1~3におけるデータ解析装置の実施例について、図13~図17を用いて説明する。図13は、本発明の実施例で用いられる特定の地点のサンプルデータの一例を示す図である。図14は、本発明の実施例で用いられる衛星データの一例を示す図である。具体的には、図14(a)は、赤外領域の光の反射率の分布を示し、図14(b)は標高データを示し、図14(c)は地磁気測定データを示している。
 図15は、本発明の実施例で用いられるサンプルデータのデータ群の一例を示す図である。図16は、地球科学データが取得されている特定領域とそれ以外の領域との一例を示す図である。図17は、予測値と真値との関係を示す図であり、図17(a)は従来からの手法が用いられた場合を示し、図17(b)は本発明が用いられた場合を示している。
 まず、図15に示すように、本実施例では、データベース30は、複数のサンプルデータを登録している。そして、図13に示すように、サンプルデータは、地点(緯度及び経度)と、それに対応する地球科学データと衛星データとを含む。図13の例では、地球科学データは、単位面積当たりの銅の含有量(ppm)を含み、衛星データは、特定波長の光の反射率(Asterバンドデータ Band 1、AsterバンドデータBand 14、Asterバンド逆数データ Band 1^-1)、標高値、及び傾斜値を含む。また、図14(a)~(c)に示すように、衛星データは、広範な範囲において取得されている。
 また、図16に示すように、データベース30に登録されている複数のサンプルデータの中には、地球科学データ(銅の含有量)が欠損しているものがある。つまり、図16に示すように、特定領域上であっても、地球科学データが取得されていない地点が存在している。言い換えると、白点の地点では地球科学データとして銅の含有量が取得されているが、白点が無い地点では銅の含有量は取得されていない。このため、データ推定部14は、分類モデル16および回帰モデル17を用いて、地球科学データの値が欠損している特定領域のサンプルデータにおいて、地球科学データの値を推定する。
 データ推定部14による推定の結果は、図17(a)に示す通りである。図17(a)に示すように、従来からの手法(特許文献2参照)の推定手法を用いれば、その決定係数Rは、わずか0.06である。これに対して、本発明の手法を用いれば、その決定係数Rは0.56まで上昇する。
 すなわち、従来の推定手法により作成した回帰モデルでは、6%のデータしか有効に説明できないが、本発明の推定手法により作成した回帰モデルでは、56%のデータが有効に説明できる。
 また、図17(a)及び(b)においては、推定値と真値との偏差を説明するために、二乗平均平方根誤差(RMSE:Root Mean Squared Error)が指標として利用されている。図17(a)に示すように、従来の推定方法によって作成された回帰モデルを用いた推定結果では、RMSEは318である。これに対して、図17(b)に示すように、本発明の推定手法では、RMSEは234まで降下している。つまり、本発明の推定手法を用いれば、ある領域で取得された地球科学データを用いて、他の領域の地球科学データを高精度に推定することができる。
 上述した実施の形態の一部又は全部は、以下に記載する(付記1)~(付記21)によって表現することができるが、以下の記載に限定されるものではない。
(付記1)
 特定領域の特性を示す第1のデータと、それに対応し、且つ、前記特定領域の別の特性を示す第2のデータとの、組データを取得し、前記第1のデータをその大きさの順に整列させる、整列部と、
 前記組データのデータ群に対して、整列後の前記第1のデータの順序分布の特性に基づいて、グルーピングを行って、前記組データのデータ群を複数のグループに分類し、分類の結果を用いて、前記組データを分類するための分類モデルを作成する、分類モデル作成部と、
 前記グループ毎に、前記組データを構成する前記第1のデータを応答変数とし、同じ前記組データを構成する前記第2のデータを説明変数として、機械学習を行って、前記第1のデータと前記第2のデータとの関係を示す回帰モデルを作成する、回帰モデル作成部と、
を備えている、ことを特徴とするデータ解析装置。
(付記2)
付記1に記載のデータ解析装置であって、
 前記特定領域以外の領域における前記第2のデータを、前記分類モデル及び前記回帰モデルに適用して、前記特定領域以外の領域における前記第1のデータを推定する、データ推定部を、更に備えている、
ことを特徴とするデータ解析装置。
(付記3)
付記1または2に記載のデータ解析装置であって、
 前記分類モデル作成部が、整列後の前記第1のデータの順序分布に基づき、前記第1のデータの一部に対して線形回帰を実行して、近似直線を算出し、更に、算出した近似直線を用いて、前記グルーピングのための閾値を設定し、そして、設定した前記閾値を用いて前記グルーピングを行う、
ことを特徴とするデータ解析装置。
(付記4)
付記3に記載のデータ解析装置であって、
 前記分類モデル作成部が、
 複数の前記閾値を設定し、複数の前記閾値それぞれ毎に、前記グルーピングを行って、前記分類モデルを作成し、更に、
 前記回帰モデル作成部に、複数の前記閾値それぞれ毎に、前記グルーピングで得られたグループそれぞれについての前記回帰モデルを作成させ、続いて、
 前記データ推定部に、複数の前記閾値それぞれ毎に、作成された前記分類モデル及び前記回帰モデルに、前記第2のデータのサンプルデータを適用して、前記特定領域以外の領域における前記第1のデータの推定を行わせ、
 その後、複数の前記閾値それぞれ毎に、前記第1のデータの推定の結果から、作成された前記回帰モデルの性能を評価する評価指標を求め、求めた前記閾値毎の前記評価指標を用いて、前記閾値の最適値を決定する、
ことを特徴とするデータ解析装置。
(付記5)
付記2に記載のデータ解析装置であって、
 前記特定領域における第1のデータと、推定された前記特定領域以外の領域における前記第1のデータとを、画面上に重ねて表示する、表示部を、更に備えている、
ことを特徴とするデータ解析装置。
(付記6)
付記1~5のいずれかに記載のデータ解析装置であって、
 前記整列部が、前記第1のデータとして、前記特定領域の特性を示す地球科学データを取得し、前記第2のデータとして、前記特定領域の別の特性を示す衛星データを取得する、
ことを特徴とするデータ解析装置。
(付記7)
付記6に記載のデータ解析装置であって、
 前記地球科学データが、前記特定領域における特定の物質の存在を示すデータであり、
 前記衛星データが、前記特定領域における特定波長の光の反射率の分布を示すデータである、
ことを特徴とするデータ解析装置。
(付記8)
(a)特定領域の特性を示す第1のデータと、それに対応し、且つ、前記特定領域の別の特性を示す第2のデータとの、組データを取得し、前記第1のデータをその大きさの順に整列させる、ステップと、
(b)前記組データのデータ群に対して、整列後の前記第1のデータの順序分布の特性に基づいて、グルーピングを行って、前記組データのデータ群を複数のグループに分類し、分類の結果を用いて、前記組データを分類するための分類モデルを作成する、ステップと、
(c)前記グループ毎に、前記組データを構成する前記第1のデータを応答変数とし、同じ前記組データを構成する前記第2のデータを説明変数として、機械学習を行って、前記第1のデータと前記第2のデータとの関係を示す回帰モデルを作成する、ステップと、
を有する、ことを特徴とするデータ解析方法。
(付記9)
付記8に記載のデータ解析方法であって、
(d)前記特定領域以外の領域における前記第2のデータを、前記分類モデル及び前記回帰モデルに適用して、前記特定領域以外の領域における前記第1のデータを推定する、ステップを、更に有する、
ことを特徴とするデータ解析方法。
(付記10)
付記8または9に記載のデータ解析方法であって、
 前記(b)のステップにおいて、整列後の前記第1のデータの順序分布に基づき、前記第1のデータの一部に対して線形回帰を実行して、近似直線を算出し、更に、算出した近似直線を用いて、前記グルーピングのための閾値を設定し、そして、設定した前記閾値を用いて前記グルーピングを行う、
ことを特徴とするデータ解析方法。
(付記11)
付記10に記載のデータ解析方法であって、
 前記(b)のステップにおいて、
複数の前記閾値を設定し、複数の前記閾値それぞれ毎に、前記グルーピングを行って、前記分類モデルを作成し、
複数の前記閾値それぞれ毎に、前記グルーピングで得られたグループそれぞれについての前記回帰モデルを作成し、
複数の前記閾値それぞれ毎に、作成された前記分類モデル及び前記回帰モデルに、前記第2のデータのサンプルデータを適用して、前記特定領域以外の領域における前記第1のデータの推定を行い、
その後、複数の前記閾値それぞれ毎に、前記第1のデータの推定の結果から、作成された前記回帰モデルの性能を評価する評価指標を求め、求めた前記閾値毎の前記評価指標を用いて、前記閾値の最適値を決定する、
ことを特徴とするデータ解析方法。
(付記12)
付記9に記載のデータ解析方法であって、
(e)前記特定領域における第1のデータと、推定された前記特定領域以外の領域における前記第1のデータとを、画面上に重ねて表示する、ステップを、更に有する、
ことを特徴とするデータ解析方法。
(付記13)
付記8~12のいずれかに記載のデータ解析方法であって、
 前記(a)のステップにおいて、前記第1のデータとして、前記特定領域の特性を示す地球科学データを取得し、前記第2のデータとして、前記特定領域の別の特性を示す衛星データを取得する、
ことを特徴とするデータ解析方法。
(付記14)
付記13に記載のデータ解析方法であって、
 前記地球科学データが、前記特定領域における特定の物質の存在を示すデータであり、
 前記衛星データが、前記特定領域における特定波長の光の反射率の分布を示すデータである、
ことを特徴とするデータ解析方法。
(付記15)
コンピュータに、
(a)特定領域の特性を示す第1のデータと、それに対応し、且つ、前記特定領域の別の特性を示す第2のデータとの、組データを取得し、前記第1のデータをその大きさの順に整列させる、ステップと、
(b)前記組データのデータ群に対して、整列後の前記第1のデータの順序分布の特性に基づいて、グルーピングを行って、前記組データのデータ群を複数のグループに分類し、分類の結果を用いて、前記組データを分類するための分類モデルを作成する、ステップと、
(c)前記グループ毎に、前記組データを構成する前記第1のデータを応答変数とし、同じ前記組データを構成する前記第2のデータを説明変数として、機械学習を行って、前記第1のデータと前記第2のデータとの関係を示す回帰モデルを作成する、ステップと、
を実行させる命令を含む、プログラムを記録していることを特徴とするコンピュータ読み取り可能な記録媒体。
(付記16)
付記15に記載のコンピュータ読み取り可能な記録媒体であって、
前記プログラムが、前記コンピュータに、
(d)前記特定領域以外の領域における前記第2のデータを、前記分類モデル及び前記回帰モデルに適用して、前記特定領域以外の領域における前記第1のデータを推定する、ステップを実行させる命令を更に含む、
ことを特徴とするコンピュータ読み取り可能な記録媒体。
(付記17)
付記15または16に記載のコンピュータ読み取り可能な記録媒体であって、
 前記(b)のステップにおいて、整列後の前記第1のデータの順序分布に基づき、前記第1のデータの一部に対して線形回帰を実行して、近似直線を算出し、更に、算出した近似直線を用いて、前記グルーピングのための閾値を設定し、そして、設定した前記閾値を用いて前記グルーピングを行う、
ことを特徴とするコンピュータ読み取り可能な記録媒体。
(付記18)
付記17に記載のコンピュータ読み取り可能な記録媒体であって、
 前記(b)のステップにおいて、
複数の前記閾値を設定し、複数の前記閾値それぞれ毎に、前記グルーピングを行って、前記分類モデルを作成し、
複数の前記閾値それぞれ毎に、前記グルーピングで得られたグループそれぞれについての前記回帰モデルを作成し、
複数の前記閾値それぞれ毎に、作成された前記分類モデル及び前記回帰モデルに、前記第2のデータのサンプルデータを適用して、前記特定領域以外の領域における前記第1のデータの推定を行い、
その後、複数の前記閾値それぞれ毎に、前記第1のデータの推定の結果から、作成された前記回帰モデルの性能を評価する評価指標を求め、求めた前記閾値毎の前記評価指標を用いて、前記閾値の最適値を決定する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。
(付記19)
付記16に記載のコンピュータ読み取り可能な記録媒体であって、
前記プログラムが、前記コンピュータに、
(e)前記特定領域における第1のデータと、推定された前記特定領域以外の領域における前記第1のデータとを、画面上に重ねて表示する、ステップを実行させる命令を更に含む、
ことを特徴とするコンピュータ読み取り可能な記録媒体。
(付記20)
付記15~19のいずれかに記載のコンピュータ読み取り可能な記録媒体であって、
 前記(a)のステップにおいて、前記第1のデータとして、前記特定領域の特性を示す地球科学データを取得し、前記第2のデータとして、前記特定領域の別の特性を示す衛星データを取得する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。
(付記21)
付記20に記載のコンピュータ読み取り可能な記録媒体であって、
 前記地球科学データが、前記特定領域における特定の物質の存在を示すデータであり、
 前記衛星データが、前記特定領域における特定波長の光の反射率の分布を示すデータである、
ことを特徴とするコンピュータ読み取り可能な記録媒体。
 以上、実施の形態を参照して本願発明を説明したが、本願発明は上記実施の形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 以上のように、本発明によれば、ある領域で取得された地球科学データを用いて、他の領域の地球科学データを推定することができる。本発明は、例えば、鉱物資源の採掘、地盤調査、植生調査、農地の評価、農作物の成長評価、自然災害の予測等に有用である。
 10 データ解析装置
 11 整列部
 12 分類モデル作成部
 13 回帰モデル作成部
 14 データ推定部
 15 記憶部
 16 分類モデル
 17 回帰モデル
 18 表示部
 30 データベース
 110 コンピュータ
 111 CPU
 112 メインメモリ
 113 記憶装置
 114 入力インターフェイス
 115 表示コントローラ
 116 データリーダ/ライタ
 117 通信インターフェイス
 118 入力機器
 119 ディスプレイ装置
 120 記録媒体
 121 バス

Claims (9)

  1.  特定領域の特性を示す第1のデータと、それに対応し、且つ、前記特定領域の別の特性を示す第2のデータとの、組データを取得し、前記第1のデータをその大きさの順に整列させる、整列手段と、
     前記組データのデータ群に対して、整列後の前記第1のデータの順序分布の特性に基づいて、グルーピングを行って、前記組データのデータ群を複数のグループに分類し、分類の結果を用いて、前記組データを分類するための分類モデルを作成する、分類モデル作成手段と、
     前記グループ毎に、前記組データを構成する前記第1のデータを応答変数とし、同じ前記組データを構成する前記第2のデータを説明変数として、機械学習を行って、前記第1のデータと前記第2のデータとの関係を示す回帰モデルを作成する、回帰モデル作成手段と、
    を備えている、ことを特徴とするデータ解析装置。
  2. 請求項1に記載のデータ解析装置であって、
     前記特定領域以外の領域における前記第2のデータを、前記分類モデル及び前記回帰モデルに適用して、前記特定領域以外の領域における前記第1のデータを推定する、データ推定手段を、更に備えている、
    ことを特徴とするデータ解析装置。
  3. 請求項1または2に記載のデータ解析装置であって、
     前記分類モデル作成手段が、整列後の前記第1のデータの順序分布に基づき、前記第1のデータの一部に対して線形回帰を実行して、近似直線を算出し、更に、算出した近似直線を用いて、前記グルーピングのための閾値を設定し、そして、設定した前記閾値を用いて前記グルーピングを行う、
    ことを特徴とするデータ解析装置。
  4. 請求項3に記載のデータ解析装置であって、
     前記分類モデル作成手段が、
     複数の前記閾値を設定し、複数の前記閾値それぞれ毎に、前記グルーピングを行って、前記分類モデルを作成し、更に、
     前記回帰モデル作成手段に、複数の前記閾値それぞれ毎に、前記グルーピングで得られたグループそれぞれについての前記回帰モデルを作成させ、続いて、
     前記データ推定手段に、複数の前記閾値それぞれ毎に、作成された前記分類モデル及び前記回帰モデルに、前記第2のデータのサンプルデータを適用して、前記特定領域以外の領域における前記第1のデータの推定を行わせ、
     その後、複数の前記閾値それぞれ毎に、前記第1のデータの推定の結果から、作成された前記回帰モデルの性能を評価する評価指標を求め、求めた前記閾値毎の前記評価指標を用いて、前記閾値の最適値を決定する、
    ことを特徴とするデータ解析装置。
  5. 請求項2に記載のデータ解析装置であって、
     前記特定領域における第1のデータと、推定された前記特定領域以外の領域における前記第1のデータとを、画面上に重ねて表示する、表示手段を、更に備えている、
    ことを特徴とするデータ解析装置。
  6. 請求項1~5のいずれかに記載のデータ解析装置であって、
     前記整列手段が、前記第1のデータとして、前記特定領域の特性を示す地球科学データを取得し、前記第2のデータとして、前記特定領域の別の特性を示す衛星データを取得する、
    ことを特徴とするデータ解析装置。
  7. 請求項6に記載のデータ解析装置であって、
     前記地球科学データが、前記特定領域における特定の物質の存在を示すデータであり、
     前記衛星データが、前記特定領域における特定波長の光の反射率の分布を示すデータである、
    ことを特徴とするデータ解析装置。
  8. (a)特定領域の特性を示す第1のデータと、それに対応し、且つ、前記特定領域の別の特性を示す第2のデータとの、組データを取得し、前記第1のデータをその大きさの順に整列させ、
    (b)前記組データのデータ群に対して、整列後の前記第1のデータの順序分布の特性に基づいて、グルーピングを行って、前記組データのデータ群を複数のグループに分類し、分類の結果を用いて、前記組データを分類するための分類モデルを作成し、
    (c)前記グループ毎に、前記組データを構成する前記第1のデータを応答変数とし、同じ前記組データを構成する前記第2のデータを説明変数として、機械学習を行って、前記第1のデータと前記第2のデータとの関係を示す回帰モデルを作成する、
    ことを特徴とするデータ解析方法。
  9. コンピュータに、
    (a)特定領域の特性を示す第1のデータと、それに対応し、且つ、前記特定領域の別の特性を示す第2のデータとの、組データを取得し、前記第1のデータをその大きさの順に整列させる、ステップと、
    (b)前記組データのデータ群に対して、整列後の前記第1のデータの順序分布の特性に基づいて、グルーピングを行って、前記組データのデータ群を複数のグループに分類し、分類の結果を用いて、前記組データを分類するための分類モデルを作成する、ステップと、
    (c)前記グループ毎に、前記組データを構成する前記第1のデータを応答変数とし、同じ前記組データを構成する前記第2のデータを説明変数として、機械学習を行って、前記第1のデータと前記第2のデータとの関係を示す回帰モデルを作成する、ステップと、
    を実行させる命令を含む、プログラムを記録していることを特徴とするコンピュータ読み取り可能な記録媒体。
PCT/JP2019/024831 2019-06-21 2019-06-21 データ解析装置、データ解析方法、及びコンピュータ読み取り可能な記録媒体 WO2020255413A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/JP2019/024831 WO2020255413A1 (ja) 2019-06-21 2019-06-21 データ解析装置、データ解析方法、及びコンピュータ読み取り可能な記録媒体
JP2021528631A JP7235111B2 (ja) 2019-06-21 2019-06-21 データ解析装置、データ解析方法、及びプログラム
US17/617,993 US20220308260A1 (en) 2019-06-21 2019-06-21 Data analysis apparatus, data analysis method, and computer-readable recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/024831 WO2020255413A1 (ja) 2019-06-21 2019-06-21 データ解析装置、データ解析方法、及びコンピュータ読み取り可能な記録媒体

Publications (1)

Publication Number Publication Date
WO2020255413A1 true WO2020255413A1 (ja) 2020-12-24

Family

ID=74040173

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/024831 WO2020255413A1 (ja) 2019-06-21 2019-06-21 データ解析装置、データ解析方法、及びコンピュータ読み取り可能な記録媒体

Country Status (3)

Country Link
US (1) US20220308260A1 (ja)
JP (1) JP7235111B2 (ja)
WO (1) WO2020255413A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11946921B2 (en) * 2018-11-09 2024-04-02 Stefan Metzger Systems and methods for improving the performance of environmental measurements
CN113378473B (zh) * 2021-06-23 2024-01-12 中国地质科学院水文地质环境地质研究所 一种基于机器学习模型的地下水砷风险预测方法
CN115170694B (zh) * 2022-06-27 2023-06-16 西安中科天塔科技股份有限公司 一种面源碳通量分布图的生成方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000002769A (ja) * 1998-06-17 2000-01-07 Nippon Koei Co Ltd 地質構造の空間分布を予測して地質図を作成する方法及び装置
WO2012086443A1 (ja) * 2010-12-24 2012-06-28 日本電気株式会社 監視データ分析装置、監視データ分析方法および監視データ分析プログラム
WO2018216623A1 (ja) * 2017-05-25 2018-11-29 日本電気株式会社 地球科学データ解析装置、地球科学データ解析方法、及びコンピュータ読み取り可能な記録媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000002769A (ja) * 1998-06-17 2000-01-07 Nippon Koei Co Ltd 地質構造の空間分布を予測して地質図を作成する方法及び装置
WO2012086443A1 (ja) * 2010-12-24 2012-06-28 日本電気株式会社 監視データ分析装置、監視データ分析方法および監視データ分析プログラム
WO2018216623A1 (ja) * 2017-05-25 2018-11-29 日本電気株式会社 地球科学データ解析装置、地球科学データ解析方法、及びコンピュータ読み取り可能な記録媒体

Also Published As

Publication number Publication date
JPWO2020255413A1 (ja) 2020-12-24
US20220308260A1 (en) 2022-09-29
JP7235111B2 (ja) 2023-03-08

Similar Documents

Publication Publication Date Title
Chen et al. Estimating tropical cyclone intensity by satellite imagery utilizing convolutional neural networks
Wang et al. High resolution mapping of soil organic carbon stocks using remote sensing variables in the semi-arid rangelands of eastern Australia
Berendes et al. Convective cloud identification and classification in daytime satellite imagery using standard deviation limited adaptive clustering
WO2020255413A1 (ja) データ解析装置、データ解析方法、及びコンピュータ読み取り可能な記録媒体
Gazzea et al. Automated power lines vegetation monitoring using high-resolution satellite imagery
Sekertekin et al. Modeling diurnal Land Surface Temperature on a local scale of an arid environment using artificial Neural Network (ANN) and time series of Landsat-8 derived spectral indexes
US20230274197A1 (en) Vegetation management system and vegetation management method
Savin et al. Modern trends and problems of soil mapping
CN114821349B (zh) 顾及谐波模型系数和物候参数的森林生物量估算方法
Aktas et al. Landslide susceptibility mapping using an automatic sampling algorithm based on two level random sampling
Moosavi et al. Estimation of spatially enhanced soil moisture combining remote sensing and artificial intelligence approaches
Petković et al. Enhancing PMW satellite precipitation estimation: Detecting convective class
Ayanlade Remote sensing approaches for land use and land surface temperature assessment: a review of methods
Bai et al. Optimal window size selection for spectral information extraction of sampling points from UAV multispectral images for soil moisture content inversion
Clerici et al. Consolidating the two-stream inversion package (JRC-TIP) to retrieve land surface parameters from albedo products
Pegion et al. Understanding predictability of daily southeast US precipitation using explainable machine learning
Yadav et al. Tree crown segmentation and species classification in a wet eucalypt forest from airborne hyperspectral and LiDAR data
Vanli et al. Area estimation and yield forecasting of wheat in southeastern turkey using a machine learning approach
Kuter et al. Modern applied mathematics for alternative modeling of the atmospheric effects on satellite images
Andreev et al. Cloud detection from the Himawari-8 satellite data using a convolutional neural network
Nassar et al. To what extend does the Eddy Covariance footprint cutoff influence the estimation of surface energy fluxes using two source energy balance model and high-resolution imagery in commercial vineyards?
WO2018216623A1 (ja) 地球科学データ解析装置、地球科学データ解析方法、及びコンピュータ読み取り可能な記録媒体
CN115062815A (zh) 一种利用热辐射数据测度企业生产经营状况的方法及系统
Zabihi et al. Land allocation based on spatial analysis using artificial neural networks and GIS in Ramsar, Iran
Mulder Spectroscopy-supported digital soil mapping

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19934142

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021528631

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19934142

Country of ref document: EP

Kind code of ref document: A1