WO2022180681A1

WO2022180681A1 - データ生成システム、データ生成方法およびデータ生成プログラム

Info

Publication number: WO2022180681A1
Application number: PCT/JP2021/006863
Authority: WO
Inventors: 哲孝山下
Original assignee: 日本電気株式会社
Priority date: 2021-02-24
Filing date: 2021-02-24
Publication date: 2022-09-01
Also published as: JPWO2022180681A1; US20240119469A1

Abstract

特徴抽出手段８１は、市場データ、および、テストデータの少なくとも一方のデータからデータの特徴を抽出する。データ選定手段８２は、抽出された一方のデータの特徴に対応する特徴を含む他方のデータを一つ以上選定する。補完データ算出手段８３は、一方のデータと、選定された他方のデータから、市場データまたはテストデータを補完する補完データを算出する。統合データ生成手段８４は、算出された補完データを、市場データおよびテストデータの少なくとも一方若しくは両方に統合した統合データを生成する。

Description

データ生成システム、データ生成方法およびデータ生成プログラム

　本発明は、複数のデータを連携させて新たなデータを生成するデータ生成システム、データ生成方法およびデータ生成プログラムに関する。

　コネクテッドカーの普及に伴い、街中を走行する量産車から様々なデータを収集できるようになっている。そして、収集されたこれらのデータを活用した渋滞予測や自動車保険、故障診断などのサービスも行われている。また、収集されたこれらのデータは、車両の設計開発やテストへも活用することが可能である。

　例えば、特許文献１には、機器の異常の予兆を診断する予兆診断装置が記載されている。特許文献１に記載された装置は、自動車内に設置されたセンサで速度や、外部環境、加速度、ＧＰＳデータなどを取得する。そして、自動車出荷直後の運転データが、自動車における正常な状態でのいわゆる教師データとして用いられる。

　なお、非特許文献１には、時系列データから機械的に抽出した特徴同士を比較することで、システムの状態を高精度に判別できるモデルフリー分析技術が記載されている。また、特許文献２には、複数のセンサからの時系列データをもとに、センサ間の関連性を機械学習に基づいて自動的に抽出するインバリアント分析について記載されている。

特開２０１６－１４６１６９号公報国際公開２０１９／０２６１９３号

吉永　直生，外川　遼介，網代　育大，"時系列データ　モデルフリー分析技術"，ＮＥＣ技報，Vol.72，No.1，２０１９年１０月

　一方、車両の機能の高度化および精緻化に伴い、テストすべきパターンも増加するため、これに伴って発生する不具合の件数も増加する傾向にある。そのため、テストパターンを網羅したデータを準備できることが好ましい。

　ここで、量産車からは、様々な走行環境における各種データを得ることが可能である。ただし、量産車に搭載されるセンサは、コストを削減するために、テスト時よりも数が少なく、また精度が低いことが一般的である。よって、量産車から得られたそのままのデータは精度が低いために、評価やテスト時のデータとして十分に利用できない可能性がある。そのため、特許文献１に記載された方法のように、いわゆる自動車出荷後のデータを単純に用いるだけでは、十分な評価やテストを行うことができない。

　一方で、開発時のテストにおいて得られるデータは、センサ値の精度や種類も多いため、精度の高いデータと言える。しかし、開発コストを考慮すると、テスト期間や考慮可能なパターンには限界があるため、テストパターンの網羅性が必ずしも十分でない場合も多い。

　そのため、精度の高いテストデータを、開発コストを抑えつつ、テストパターンの網羅性を高められるように作成できることが好ましい。

　そこで、本発明は、精度の高いテストデータを、開発コストを抑えつつ、テストパターンの網羅性を高められるように作成できるデータ生成システム、データ生成方法およびデータ生成プログラムを提供することを目的とする。

　本発明によるデータ生成システムは、量産車から収集される市場データと、開発段階で車両のテストに用いられるテストデータとを用いて新たなデータを生成するデータ生成システムであって、市場データ、および、テストデータの少なくとも一方のデータからそのデータの特徴を抽出する特徴抽出手段と、抽出された一方のデータの特徴に対応する特徴を含む他方のデータを一つ以上選定するデータ選定手段と、一方のデータと、選定された他方のデータから、市場データまたはテストデータを補完する補完データを算出する補完データ算出手段と、算出された補完データを、市場データおよびテストデータの少なくとも一方若しくは両方に統合した統合データを生成する統合データ生成手段とを備えたことを特徴とする。

　本発明によるデータ生成方法は、量産車から収集される市場データと、開発段階で車両のテストに用いられるテストデータとを用いて新たなデータを生成するデータ生成方法であって、コンピュータが、市場データ、および、テストデータの少なくとも一方のデータからそのデータの特徴を抽出し、コンピュータが、抽出された一方のデータの特徴に対応する特徴を含む他方のデータを一つ以上選定し、コンピュータが、一方のデータと、選定された他方のデータから、市場データまたはテストデータを補完する補完データを算出し、コンピュータが、算出された補完データを、市場データおよびテストデータの少なくとも一方若しくは両方に統合した統合データを生成することを特徴とする。

　本発明によるデータ生成プログラムは、量産車から収集される市場データと、開発段階で車両のテストに用いられるテストデータとを用いて新たなデータを生成するコンピュータに適用されるデータ生成プログラムであって、コンピュータに、市場データ、および、テストデータの少なくとも一方のデータからそのデータの特徴を抽出する特徴抽出処理、抽出された一方のデータの特徴に対応する特徴を含む他方のデータを一つ以上選定するデータ選定処理、一方のデータと、選定された他方のデータから、市場データまたはテストデータを補完する補完データを算出する補完データ算出処理、および、算出された補完データを、市場データおよびテストデータの少なくとも一方若しくは両方に統合した統合データを生成する統合データ生成処理を実現させることを特徴とする。

　本発明によれば、精度の高いテストデータを、開発コストを抑えつつ、テストパターンの網羅性を高められるように作成できる。

本発明によるデータ生成システムの一実施形態の構成例を示すブロック図である。データ生成システムの動作例を示すフローチャートである。学習データの例を示す説明図である。市場データの例を示す説明図である。本発明によるデータ生成システムの概要を示すブロック図である。少なくとも１つの実施形態に係るコンピュータの構成を示す概略ブロック図である。

　以下、本発明の実施形態を図面を参照して説明する。

　図１は、本発明によるデータ生成システムの一実施形態の構成例を示すブロック図である。本実施形態のデータ生成システム１００は、記憶部１０と、市場データ取得部２０と、特徴抽出部３０と、データ選定部４０と、補完データ算出部５０と、統合データ生成部６０とを備えている。

　記憶部１０は、本実施形態のデータ生成システム１００が処理に用いる各種情報を記憶する。具体的には、記憶部１０は、量産車から収集されるデータ（以下、市場データと記す。）、および、開発段階で車両のテストに用いられるデータ（以下、テストデータと記す。）を記憶する。量産車は、開発段階が終了し、市場へ販売するために量産された車両であり、消費者等が実際に操作して走行する車両である。

　市場データとテストデータは、収集される環境により、その性質が大きく異なる。まず、データ量の観点では、市場データは、量産車から取得されるデータであることから、大量の正常データを収集することが可能なデータである。なお、正常データに比べ、量産車から取得される不具合データは、一般的に少ない。一方、テストデータは、開発コスト等の観点（例えば、確認済みの試験は複数回実行しない、など）から、市場データに比べてデータ量が少ない。

　次に、データの精度の観点において、テストデータの精度は、車両に搭載されるセンサの種類が通常多く、また、確実にデータを収集できる環境にあることから、一般的に高くなる。また、テストデータも、単体テスト用、結合テスト用、走行テスト用など、各テストを想定して作成することが可能である。一方、市場データの精度は、量産車に搭載されるセンサの種類が開発時に比べて少なく、また、通信状況により、データの欠落も想定されることから、テストデータと比べ一般的に低くなる。

　また、市場データの特徴として、複数の量産車から様々なデータが収集される点が挙げられる。より詳しくは、市場データには、常時収集されるデータとして、コネクテッドカーから送信されるテレマティクスデータなどがあり、特定のタイミングで収集されるデータとして、故障時にＥＣＵ（Engine Control Unit ）から抽出されるＤＴＣ（Diagnostic Trouble Code ）のデータなどがある。

　具体的には、走行データは、ＯＢＣ（オンボードチャージャー：On-Board Charger）／ＣＡＮ（Controller Area Network ）－Ｂｕｓのような、各種車両部品から取得されるセンサ値の時系列データ、ＧＰＳ（Global Positioning System ）データ、テレマティクスデータなどである。また、映像データは、ドライブレコーダにより撮像される映像（例えば、前方の映像）などである。

　また、走行データからは、テスト環境では収集しにくい環境の情報（例えば、気象情報（台風や雪など））を取得することが可能である。

　また、故障データとして、走行データとして取得されるデータの他、車両のディーラーに持ち込まれた際の故障レポート（故障部位や内容、原因、対処など）が挙げられる。

　なお、量産車の仕様によっては、取得される映像と故障データとが必ずしもリンクしているとは限らないが、映像と走行データとを対応付けることにより、リンク付けができる場合もある。映像と走行データとを対応付ける方法として、映像にタグ付けする方法などが挙げられる。

　一方、テストデータの特徴として、テスト用に用いられるセンサの数や精度が高く、データ取得時の走行条件等の取得も容易であるという点が挙げられる。ただし、開発コストの観点から、時間やリソースが限られているため、テストデータですべての条件を網羅することは難しい。さらに、単体テスト用のテストデータで問題が発生しなかったとしても、結合テストや走行テストにおいて、網羅性の観点から、問題が発生してしまうことがある。

　具体的には、テストデータには、走行データと同様のデータが含まれ、かつ、市場データよりも高精度かつ多くの種類の項目が含まれる。また、映像データも、ドライブレコーダにより撮像される前方の映像だけでなく、多方向カメラで撮像した映像や、車内映像を得ることが可能である。

　さらに、テストデータは、テストシナリオの観点で充実したテスト仕様書に基づいて作成されることが多い。テスト仕様書（テストデータ）に含まれる項目として、バージョン（型番）や個体番号、検査対象（単体（部品）、結合（アセンブリ）、統合（車両）や検査観点（機能／非機能）の他、前提条件（他部品の状態、走行環境など）、試験手順（制御入力、負荷入力）、期待結果（正常／不具合）、判定基準（閾値など）、判定結果（ＯＫ／ＮＧ）、その他の項目（判定理由、例外理由など）、が挙げられる。

　記憶部１０は、後述する市場データ取得部２０により取得された市場データを記憶する。なお、記憶部１０は、他の方法により取得および作成された市場データを記憶してもよい。また、記憶部１０は、設計者等により作成されたテストデータを記憶する。

　市場データ取得部２０は、量産車から収集される市場データを取得し、記憶部１０に記憶させる。市場データ取得部２０は、例えば、通信機能を備えたコネクテッドカーから送信される走行データや映像データを取得してもよい。また、市場データ取得部２０は、取得した市場データに対して、例えば、コードへの変換、外れ値の削除などのデータクレンジングを行うことで、データの品質を向上させてもよい。

　特徴抽出部３０は、市場データおよびテストデータの少なくとも一方のデータから、そのデータの特徴を抽出する。すなわち、特徴抽出部３０は、市場データの特徴を抽出してもよく、テストデータの特徴を抽出してもよい。

　ここで、特徴抽出部３０が、市場データおよびテストデータから特徴を抽出する理由を説明する。本発明では、市場データとテストデータのそれぞれの利点を生かし、一方のデータに不足する情報を、他方のデータを用いて補うことで、より精度の高いデータを作成することを目的としている。

　一方、市場データとテストデータとでは、項目や取得された環境等が異なるため、市場データとテストデータとを単純に統合することは難しい。そこで、本実施形態では、データそのものの特徴に着目し、データの特徴が一致または類似するデータ同士を対応付けることで、相互に不足するデータを補い、精度の高いデータを作成する。

　以下の説明では、発明の理解を容易にするため、特徴抽出部３０が、市場データから、その市場データの特徴を抽出する場合について説明する。なお、テストデータから特徴を抽出する場合も、以下の処理を同様に適用可能である。

　特徴抽出部３０が市場データから特徴を抽出する方法として、種々の方法を用いることが可能である。特徴抽出部３０は、例えば、市場データの中から、データの特徴を表わすデータ項目そのものを抽出してもよい。そのようなデータ項目として、車両の個体番号や、車種などが挙げられる。他にも、特徴抽出部３０は、速度や加速度などの数値データを示すデータ項目間の相関を計算し、そのデータ項目間の相関を特徴量として抽出してもよい。

　さらに、特徴抽出部３０は、車両に搭載された各センサの値の関係性と、そのセンサの値の時系列の変化との関連性を合成した特徴量を算出し、その特徴量を複数のデータの特徴として抽出してもよい。特徴抽出部３０は、このような特徴量を、例えば、非特許文献１に記載されたモデルフリー分析技術を用いて算出してもよい。

　なお、特徴抽出部３０がデータから特徴を抽出する方法は、上記方法に限定されない。例えば、市場データがログデータの場合、特徴抽出部３０は、ログのパターンそのものを特徴として抽出してもよい。また、例えば、市場データがセンサデータ群の場合、特徴抽出部３０は、特許文献２に記載されているようなインバリアント分析の技術を用いて、過去のセンサデータ間の関係性を特徴として抽出してもよい。

　データ選定部４０は、抽出された一方のデータの特徴に対応する特徴を含む他方のデータを一つ以上選定する。例えば、市場データから特徴が抽出された場合、データ選定部４０は、抽出された特徴に一致するまたは類似するテストデータを一つ以上選定する。一方、テストデータから特徴が抽出された場合、データ選定部４０は、抽出された特徴に一致するまたは類似する市場データを一つ以上選定する。

　データ選定部４０がデータを選定する方法は特に限定されず、特徴が一致するまたは類似するデータを選定可能な方法であれば、その内容は任意である。具体的には、データ選定部４０は、市場データとテストデータで比較する項目を予め定めておき、その内容が一致または所定の範囲内のデータを選定してもよい。例えば、上述するような個体番号や車種、数値データの相関値が比較する項目として定められている場合、データ選定部４０は、これらの項目が一致または類似するデータを選定してもよい。

　さらに、経年劣化した量産車から取得される市場データの内容と、新しい車両から取得されるデータとの間では、劣化度合いに応じた差異が生じている可能性がある。そこで、データ選定部４０は、データの特徴を比較する前に、一方のデータの特徴に対して所定の重み付けを行ってもよい。

　より具体的には、データ選定部４０は、劣化度合いに応じた重み値（例えば、走行距離が長いほど、または、走行時間が長いほど、抽出された特徴をより大きく変化させる重み値）を算出し、算出した重みを特徴に乗じて比較することにより、対応するデータを選定してもよい。なお、重み値を算出する方法は任意であり、項目の性質に応じて予め定めておけばよい。データ選定部４０は、例えば、１０年間走行した車両から取得されるデータのある特徴に対しては、０．８の重みを設定する、などと決定してもよい。

　また、例えば、上述するログのパターンが特徴として抽出された場合、データ選定部４０は、そのパターンと市場データのログまたはテストデータのログとを比較し、対応するデータを選定してもよい。また、例えば、上述する過去のセンサデータ間の関係性が特徴として抽出された場合、データ選定部４０は、市場データのログまたはテストデータのログとその特徴とを比較し、対応するデータを選定してもよい。

　他にも、比較する項目間で一致または類似すると判断するための対応表を予め定めておき、データ選定部４０は、比較する項目が対応表に定められた内容のデータを選定してもよい。また、時系列の変化の関係性が特徴として抽出されている場合、データ選定部４０は、その特徴に対応する複数のデータを選定してもよい。

　さらに、データ選定部４０は、選定したテストデータの中から、取得した市場データに類似するシチュエーションのテストデータに絞り込んで選定してもよい。類似するシチュエーションのテストデータとして、例えば、センサ値が類似するテストデータや前方撮影映像が類似するテストデータなどが挙げられる。データ選定部４０が、このような、テストデータに絞り込んで選定することで、例えば、取得した市場データでは計測されておらず、選定したテストデータには含まれているデータ（例えば、後方撮影映像）があった場合に、市場データにより近いよりテストデータのデータを補完データとして用いることが可能になる。

　補完データ算出部５０は、特徴が比較されたデータ（一方のデータ）と、選定されたデータ（他方のデータ）から、市場データまたはテストデータを補完するデータ（以下、補完データと記す。）を算出する。

　ここで補完データとは、市場データおよびテストデータのいずれか一方、または、両方の項目に欠落しているデータを補完したデータだけでなく、すでに存在しているデータを精緻化したデータや、各データの時間間隔をより短くするように生成された新たなデータも含まれる。

　以下の説明では、補完データ算出部５０が、選定された複数のテストデータから、市場データを補完する補完データを算出する方法について説明する。ただし、選定された市場データからテストデータを補完する場合も、以下の処理を同様に適用可能である。

　補完データを生成する態様として、種々の態様が挙げられる。第一の態様は、欠落している市場データの項目を、テストデータで補完する態様である。以下、具体例を説明する。

　第一の具体例として、市場データで欠落した項目を、類似の走行シーンのテストデータを使って補完する方法である。この場合、データ選定部４０が、市場データの走行シーンを示す特徴に類似するテストデータを選定する。そして、補完データ算出部５０は、市場データで欠落した項目を特定し、選定されたテストデータの項目から、市場データの欠落した項目に最も近い項目を抽出して、補完データを生成してもよい。

　補完データ算出部５０は、例えば、時系列に収集されたテストデータの前後の値を利用して（例えば、平均値を算出して）補完するデータを算出してもよい。他にも、補完データ算出部５０は、多重代入法などの欠損補完の方法を用いて、補完するデータを算出してもよい。さらに、補完データ算出部５０は、同一条件下において、例えば、時間や速度、データ傾向などが類似する個所のデータを用いて、補完するデータを算出してもよい。また、上述するように、補完データ算出部５０は、走行距離などの劣化度合いに応じてデータを補正してから、統合データを生成してもよい。以下に例示する方法においても、これらの方法を同様に利用することが可能である。

　このように、補完データ算出部５０は、一方のデータ（例えば、市場データ）に欠落した項目のデータを、選定された他方のデータ（例えば、テストデータ）から抽出して、市場データまたはテストデータを補完する補完データを算出してもよい。

　第二の具体例として、市場データで欠落した項目を他の相関（例えば、他のセンサの相関）に基づいて補完する方法である。この場合、データ選定部４０が、例えば、上述するモデルフリー分析のような技術を用いて抽出された特徴に類似するテストデータを選定する。そして、補完データ算出部５０は、選定したテストデータの相関関係から、市場データの欠落した項目を補完する補完データを生成してもよい。

　例えば、上述するモデルフリー分析により特徴が抽出される場合、データ選定部４０が、過去のテストデータの中から類似の特徴を含むデータを選定する。そして、補完データ算出部５０が、検出したデータについて、補完対象になる区間に合わせたデータの抽出やデータの正規化、バイアスなどの処理を行い、処理されたデータを用いて補完データを算出する。

　また、例えば、上述するインバリアント分析により特徴が抽出される場合、データ選定部４０が補完対象のデータと関連性のあるデータを選定する。そして、補完データ算出部５０が、選定されたデータから関係性を利用して補完対象のデータを予測することで、補完データを算出する。

　なお、センサ故障等の場合、補完データ算出部５０は、ナレッジベースによる知見を組み合わせて補完データを生成してもよい。

　第二の態様は、テストデータを使用して市場データの精度を向上させる態様であり、　例えば、１秒間隔で収集された市場データを、テストデータを用いて０．１秒間隔の統合データを生成する方法などである。この場合も、データ選定部４０が、例えば、市場データの走行シーンを示す特徴に類似するテストデータを選定し、補完データ算出部５０が、選定されたテストデータを用いて、各データの時間間隔をより短くするよう新たなデータを生成してもよい。

　このように、補完データ算出部５０は、一方のデータ（例えば、市場データ）が収集されたよりも短い時間間隔の補完データを、選定された他方のデータ（例えば、テストデータ）から算出してもよい。

　さらに、補完データ算出部５０は、利用されるデータの特性に応じて補完データを算出する方法を変更してもよい。例えば、利用されるデータの特性が、正常時データと異常時データとに分類されるとする。異常時データの方が正常時データよりも、より重視すべきデータと言えることから、補完データ算出部５０は、異常時データについての補完データを、正常時データについての補完データよりも、より詳細に算出してもよい。

　詳細に算出する方法として、算出するデータの型をより詳細な情報を表わすものにする（例えば、正常時データをｉｎｔ型、異常時データをｄｏｕｂｌｅ型にする）、作成データの時間間隔をより短くする（例えば、正常時データを１秒間隔、異常時データを０．１秒間隔にする）、などが挙げられる。

　統合データ生成部６０は、算出された補完データを、市場データおよびテストデータの少なくとも一方若しくは両方に統合したデータ（以下、統合データと記す。）を生成する。

　例えば、補完データとして欠落した項目が算出された場合、統合データ生成部６０は、市場データに補完データを統合することで、欠落部分が埋められた統合データを生成してもよい。また、例えば、補完データとして、各データの時間間隔をより短くするよう新たなデータが生成された場合、統合データ生成部６０は、生成されたデータを、既存の市場データに挿入して、時間間隔の短い統合データを生成してもよい。

　市場データ取得部２０と、特徴抽出部３０と、データ選定部４０と、補完データ算出部５０と、統合データ生成部６０とは、プログラム（データ生成プログラム）に従って動作するコンピュータのプロセッサ（例えば、ＣＰＵ（Central Processing Unit ））によって実現される。

　例えば、プログラムは、記憶部１０に記憶され、プロセッサは、そのプログラムを読み込み、プログラムに従って、市場データ取得部２０、特徴抽出部３０、データ選定部４０、補完データ算出部５０および統合データ生成部６０として動作してもよい。また、データ生成システム１００の機能がＳａａＳ（Software as a Service ）形式で提供されてもよい。

　市場データ取得部２０と、特徴抽出部３０と、データ選定部４０と、補完データ算出部５０と、統合データ生成部６０とは、それぞれが専用のハードウェアで実現されていてもよい。また、各装置の各構成要素の一部又は全部は、汎用または専用の回路（circuitry ）、プロセッサ等やこれらの組合せによって実現されもよい。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。各装置の各構成要素の一部又は全部は、上述した回路等とプログラムとの組合せによって実現されてもよい。

　また、データ生成システム１００の各構成要素の一部又は全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は、集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。

　次に、本実施形態のデータ生成システム１００の動作を説明する。図２は、本実施形態のデータ生成システム１００の動作例を示すフローチャートである。ここでは、市場データ取得部２０により取得された市場データおよび設計者等により作成されたテストデータが、記憶部１０に記憶されているとする。

　特徴抽出部３０は、市場データ、および、テストデータの少なくとも一方のデータからそのデータの特徴を抽出する（ステップＳ１１）。データ選定部４０は、一方のデータの特徴に対応する特徴を含む他方のデータを一つ以上選定する（ステップＳ１２）。補完データ算出部５０は、一方のデータと、選定された他方のデータから、市場データまたはテストデータを補完する補完データを算出する（ステップＳ１３）。そして、統合データ生成部６０は、算出された補完データを、市場データおよびテストデータの少なくとも一方若しくは両方に統合した統合データを生成する（ステップＳ１４）。

　以上のように、本実施形態では、特徴抽出部３０が、市場データ、および、テストデータの少なくとも一方のデータからそのデータの特徴を抽出し、データ選定部４０が、一方のデータの特徴に対応する特徴を含む他方のデータを一つ以上選定する。そして、補完データ算出部５０が、一方のデータと、選定された他方のデータから、市場データまたはテストデータを補完する補完データを算出し、統合データ生成部６０が、算出された補完データを、市場データおよびテストデータの少なくとも一方若しくは両方に統合した統合データを生成する。よって、精度の高いテストデータを、開発コストを抑えつつ、テストパターンの網羅性を高められるように作成できる。

　以下、本実施形態のデータ生成システムの具体的な動作を説明する。まず、前提として、設計者等により、市場データの内容が確認され、欠損箇所（例えば、Noneになっている箇所、時系列のデータとして不足している箇所、等）が特定される。

　次に、分析装置（図示せず）が、市場データの特徴を分析する。分析装置は、例えば、データの傾きや平均値（例えば、Ｘ，Ｙ座標の傾きの平均値など）などを分析し、これらの特徴をインデックス化する。また、上述するモデルフリー分析が用いられる場合、分析装置は、蓄積された学習データを用いて特徴抽出エンジンを学習する。そして、分析装置は、学習済みの特徴抽出エンジンを使用して、学習データからバイナリ形式の特徴データを生成する。生成された特徴データは、記憶部１０に記憶される。

　図３は、学習データの例を示す説明図である。図３に例示するデータｄ１およびデータｄ２は、走行テストで時系列に収集されたテストデータの一部である。例えば、モデルフリー分析技術を用いた場合、データｄ１から、特徴データとして［０１００］というバイナリデータが生成され、データｄ２から、特徴データとして［１００１］というバイナリデータが生成されて、記憶部１０に記憶される。なお、このバイナリデータは、一例である。

　次に、市場データ取得部２０が、量産車から市場データを受信し、記憶部１０に記憶させる。図４は、市場データの例を示す説明図である。図４に例示する市場データｄ３は、何らかの原因で、一部のデータが欠落し、データｄ３２の部分が“Ｎｏｎｅ”になっているものである。また、図４に例示する市場データは、図３に例示する市場データと比較し、Ｘ軸速度およびＹ軸速度が含まれていない。

　特徴抽出部３０は、市場データから特徴を抽出する。特徴抽出部３０は、上述するようなデータの傾きや平均値を市場データから計算し、特徴として抽出してもよい。また、特徴抽出部３０は、上記特徴抽出エンジンを用いて、図４に例示する市場データからバイナリ形式の特徴データを抽出してもよい。例えば、モデルフリー分析技術を用いた場合、データｄ３１の部分の特徴が［０１００］に変換され、データｄ３３の部分の特徴が［１０００］に変換される。

　データ選定部４０は、補完データの算出に用いるテストデータを選定する。具体的には、データ選定部４０は、抽出された市場データの特徴と、テストデータの特徴とのマッチングを行い、最も類似度が高いテストデータを選定する。例えば、特徴として、各テストデータのＸ座標の傾きの平均、および、Ｙ座標の傾きの平均が算出されている場合、データ選定部４０は、傾きが最も近いテストデータを選定してもよい。

　また、上述するバイナリ型の特徴データが生成されている場合、データ選定部４０は、バイナリデータ［０１００］に一致するデータが存在するため、データｄ３１のデータを補完用データの算出に用いるテストデータに選定してもよい。

　補完データ算出部５０は、補完データを算出する。補完データ算出部５０は、例えば、データｄ３１から２つの点を選択し、選択された２つの点のデータをそのまま補完データとしてもよいし、２つの点の平均を算出して補完データとしてもよい。また、補完データ算出部５０は、市場データに存在しない項目（Ｘ軸速度およびＹ軸速度）を、テストデータから抽出して、補完データとしてもよい。このように、補完データ算出部５０は、市場エータの欠損データの前後のデータや、テストデータの類似箇所のデータを使用して、市場データを補完すればよい。

　そして、統合データ生成部６０は、算出した補完データを統合した統合データを生成する。

　次に、本実施形態のデータ生成システムの適用例を説明する。第一の適用例として、対象の市場データの特徴にマッチするテストデータを複数選定して、補完する項目を算出する適用例が挙げられる。具体的には、市場データ取得部２０が、量産車から収集される市場データを取得すると、データ選定部４０は、特徴抽出部３０によって抽出された特徴にマッチするテストデータを複数選定する。

　補完データ算出部５０は、補完する項目に対応するデータ（例えば、傾きや相関など）をテストデータから抽出する。補完データ算出部５０は、抽出したデータから、補完する値（例えば、平均値、中央値、最頻値など）を算出する。そして、統合データ生成部６０は、算出した値を市場データに統合した統合データを生成する。

　第二の適用例として、想定するシチュエーションの市場データを複数選定して、データのバリエーションを増加させる適用例が挙げられる。ここでは、市場データ取得部２０によって取得された複数の市場データが記憶部１０に記憶されているとする。

　特徴抽出部３０は、指定されたシチュエーションの特定に用いられる特徴を抽出する。データ選定部４０は、特徴抽出部３０によって抽出された特徴にマッチする市場データを複数選定する。そして、補完データ算出部５０は、選定された複数の市場データから、代表になるデータを算出する。代表になるデータを算出する方法として、例えば、各項目の中央値や平均値、最頻値などの統計データを用いる方法や、ランダムで指定する方法などが挙げられる。

　そして、補完データ算出部５０は、代表になるデータの精度をテストデータの精度に合わせるため、第一の適用例と同様に、補完する値を算出し、統合データ生成部６０は、算出した値を市場データに統合した統合データを生成する。

　第三の適用例として、市場データをより詳細（リッチ）化する適用例が挙げられる。例えば、テスト時の車両には搭載されていたセンサが、量産車にはコスト削減のために外されていることがある。例えば、量産車には、自動運転のために、センサおよび前方撮影用カメラが搭載されているとする。一方、テスト時の車両には、自動運転のテストのため、センサおよびセンサおよび前方撮影用カメラだけでなく、後方撮影用カメラも搭載されていることがある。

　そこで、統合データ生成部６０は、市場データには含まれていないデータに、類似のシチュエーションの市場データの一部のデータを統合する。上述の例では、統合データ生成部６０は、市場車のデータにテストデータの後方撮影用カメラの映像を統合する。これにより、量産車の走行状態を把握しやすくなり、分析精度を向上させることが可能になる。例えば、仮想の周辺状況を示すシミュレーション用のテストデータを作成できるため、このテストデータを映像分析ＡＩ（Artificial Intelligence ）の学習用映像として用いることも可能になる。

　第四の適用例として、テストデータのシナリオを補強する適用例が挙げられる。具体的には、テストデータでは実行できなかったシナリオを、市場データを用いて擬似的に作成する適用例が挙げられる。例えば、未実行のテストシナリオに関連する市場データを抽出して、テストデータを構築することで、新たなテストシナリオを作成することが可能になる。

　次に、本発明の概要を説明する。図５は、本発明によるデータ生成システムの概要を示すブロック図である。本発明によるデータ生成システム８０は、量産車から収集される市場データと、開発段階で車両のテストに用いられるテストデータとを用いて新たなデータを生成するデータ生成システム（例えば、データ生成システム１００）であって、市場データ、および、テストデータの少なくとも一方のデータからデータの特徴を抽出する特徴抽出手段８１（例えば、特徴抽出部３０）と、抽出された一方のデータ（例えば、市場データ）の特徴に対応する特徴を含む他方のデータ（例えば、テストデータ）を一つ以上選定するデータ選定手段８２（例えば、データ選定部４０）と、一方のデータと、選定された他方のデータから、市場データまたはテストデータを補完する補完データを算出する補完データ算出手段８３（例えば、補完データ算出部５０）と、算出された補完データを、市場データおよびテストデータの少なくとも一方若しくは両方に統合した統合データを生成する統合データ生成手段８４（例えば、統合データ生成部６０）とを備えている。

　そのような構成により、精度の高いテストデータを、開発コストを抑えつつ、テストパターンの網羅性を高められるように作成できる。

　具体的には、特徴抽出手段８１は、市場データから、その市場データの特徴を抽出し、データ選定手段８２は、抽出された市場データの特徴に対応するテストデータを複数選定し、補完データ算出手段８３は、選定された複数のテストデータから、市場データを補完する補完データを算出し、統合データ生成手段８４は、算出された前記データを、市場データに統合した統合データを生成してもよい。

　また、データ選定手段８２は、選定したテストデータの中から、市場データに類似するシチュエーションのテストデータをさらに選定してもよい。

　また、特徴抽出手段８１は、車両に搭載された各センサの値の関係性と、そのセンサの値の時系列の変化との関連性を合成した特徴量を算出し、算出された特徴量を複数のデータの特徴として抽出してもよい。

　また、データ選定手段８２は、劣化度合いに応じた重み値を算出し、算出した重みを特徴に乗じて比較することにより、対応するデータを選定してもよい。

　補完データ算出手段８３は、一方のデータに欠落した項目のデータを、選定された他方のデータから抽出して、市場データまたはテストデータを補完する補完データを算出してもよい。

　また、補完データ算出手段８３は、一方のデータが収集されたよりも短い時間間隔の補完データを、選定された他方のデータから算出してもよい。

　図６は、少なくとも１つの実施形態に係るコンピュータの構成を示す概略ブロック図である。コンピュータ１０００は、プロセッサ１００１、主記憶装置１００２、補助記憶装置１００３、インタフェース１００４を備える。

　上述のデータ生成システム８０は、コンピュータ１０００に実装される。そして、上述した各処理部の動作は、プログラム（データ生成プログラム）の形式で補助記憶装置１００３に記憶されている。プロセッサ１００１は、プログラムを補助記憶装置１００３から読み出して主記憶装置１００２に展開し、当該プログラムに従って上記処理を実行する。

　なお、少なくとも１つの実施形態において、補助記憶装置１００３は、一時的でない有形の媒体の一例である。一時的でない有形の媒体の他の例としては、インタフェース１００４を介して接続される磁気ディスク、光磁気ディスク、ＣＤ－ＲＯＭ（Compact Disc Read-only memory ）、ＤＶＤ－ＲＯＭ（Read-only memory）、半導体メモリ等が挙げられる。また、このプログラムが通信回線によってコンピュータ１０００に配信される場合、配信を受けたコンピュータ１０００が当該プログラムを主記憶装置１００２に展開し、上記処理を実行してもよい。

　また、当該プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、当該プログラムは、前述した機能を補助記憶装置１００３に既に記憶されている他のプログラムとの組み合わせで実現するもの、いわゆる差分ファイル（差分プログラム）であってもよい。

　上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。

（付記１）量産車から収集される市場データと、開発段階で車両のテストに用いられるテストデータとを用いて新たなデータを生成するデータ生成システムであって、
　前記市場データ、および、前記テストデータの少なくとも一方のデータから当該データの特徴を抽出する特徴抽出手段と、
　抽出された前記一方のデータの特徴に対応する特徴を含む他方のデータを一つ以上選定するデータ選定手段と、
　前記一方のデータと、選定された前記他方のデータから、前記市場データまたは前記テストデータを補完する補完データを算出する補完データ算出手段と、
　算出された前記補完データを、前記市場データおよび前記テストデータの少なくとも一方若しくは両方に統合した統合データを生成する統合データ生成手段とを備えた
　ことを特徴とするデータ生成システム。

（付記２）特徴抽出手段は、市場データから当該市場データの特徴を抽出し、
　データ選定手段は、抽出された市場データの特徴に対応するテストデータを複数選定し、
　補完データ算出手段は、選定された複数のテストデータから、市場データを補完する補完データを算出し、
　統合データ生成手段は、算出された前記補完データを、前記市場データに統合した統合データを生成する
　付記１記載のデータ生成システム。

（付記３）データ選定手段は、選定したテストデータの中から、市場データに類似するシチュエーションのテストデータをさらに選定する
　付記２記載のデータ生成システム。

（付記４）特徴抽出手段は、車両に搭載された各センサの値の関係性と、当該センサの値の時系列の変化との関連性を合成した特徴量を算出し、算出された特徴量を複数のデータの特徴として抽出する
　付記１から付記３のうちのいずれか１つに記載のデータ生成システム。

（付記５）データ選定手段は、劣化度合いに応じた重み値を算出し、算出した重みを特徴に乗じて比較することにより、対応するデータを選定する
　付記１から付記４のうちのいずれか１つに記載のデータ生成システム。

（付記６）補完データ算出手段は、一方のデータに欠落した項目のデータを、選定された他方のデータから抽出して、市場データまたはテストデータを補完する補完データを算出する
　付記１から付記５のうちのいずれか１つに記載のデータ生成システム。

（付記７）補完データ算出手段は、一方のデータが収集されたよりも短い時間間隔の補完データを、選定された他方のデータから算出する
　付記１から付記６のうちのいずれか１つに記載のデータ生成システム。

（付記８）量産車から収集される市場データと、開発段階で車両のテストに用いられるテストデータとを用いて新たなデータを生成するデータ生成方法であって、
　コンピュータが、前記市場データ、および、前記テストデータの少なくとも一方のデータから当該データの特徴を抽出し、
　前記コンピュータが、抽出された前記一方のデータの特徴に対応する特徴を含む他方のデータを一つ以上選定し、
　前記コンピュータが、前記一方のデータと、選定された前記他方のデータから、前記市場データまたは前記テストデータを補完する補完データを算出し、
　前記コンピュータが、算出された前記補完データを、前記市場データおよび前記テストデータの少なくとも一方若しくは両方に統合した統合データを生成する
　ことを特徴とするデータ生成方法。

（付記９）コンピュータが、市場データから当該市場データの特徴を抽出し、
　前記コンピュータが、抽出された市場データの特徴に対応するテストデータを複数選定し、
　前記コンピュータが、選定された複数のテストデータから、市場データを補完する補完データを算出し、
　前記コンピュータが、算出された前記補完データを、前記市場データに統合した統合データを生成する
　付記８記載のデータ生成方法。

（付記１０）量産車から収集される市場データと、開発段階で車両のテストに用いられるテストデータとを用いて新たなデータを生成するコンピュータに適用されるデータ生成プログラムを記憶するプログラム記憶媒体であって、
　前記コンピュータに、前記市場データ、および、前記テストデータの少なくとも一方のデータから当該データの特徴を抽出する特徴抽出処理、
　抽出された前記一方のデータの特徴に対応する特徴を含む他方のデータを一つ以上選定するデータ選定処理、
　前記一方のデータと、選定された前記他方のデータから、前記市場データまたは前記テストデータを補完する補完データを算出する補完データ算出処理、および、
　算出された前記補完データを、前記市場データおよび前記テストデータの少なくとも一方若しくは両方に統合した統合データを生成する統合データ生成処理
　を実現させるためのデータ生成プログラムを記憶するプログラム記憶媒体。

（付記１１）コンピュータに、
　特徴抽出処理で、市場データから当該市場データの特徴を抽出させ、
　データ選定処理で、抽出された市場データの特徴に対応するテストデータを複数選定させ、
　補完データ算出処理で、選定された複数のテストデータから、市場データを補完する補完データを算出させ、
　統合データ生成処理で、算出された前記補完データを、前記市場データに統合した統合データを生成させる
　ためのデータ生成プログラムを記憶する付記１０記載のプログラム記憶媒体。

（付記１２）量産車から収集される市場データと、開発段階で車両のテストに用いられるテストデータとを用いて新たなデータを生成するコンピュータに適用されるデータ生成プログラムであって、
　前記コンピュータに、前記市場データ、および、前記テストデータの少なくとも一方のデータから当該データの特徴を抽出する特徴抽出処理、
　抽出された前記一方のデータの特徴に対応する特徴を含む他方のデータを一つ以上選定するデータ選定処理、
　前記一方のデータと、選定された前記他方のデータから、前記市場データまたは前記テストデータを補完する補完データを算出する補完データ算出処理、および、
　算出された前記補完データを、前記市場データおよび前記テストデータの少なくとも一方若しくは両方に統合した統合データを生成する統合データ生成処理
　を実現させるためのデータ生成プログラム。

（付記１３）コンピュータに、
　特徴抽出処理で、市場データから当該市場データの特徴を抽出させ、
　データ選定処理で、抽出された市場データの特徴に対応するテストデータを複数選定させ、
　補完データ算出処理で、選定された複数のテストデータから、市場データを補完する補完データを算出させ、
　統合データ生成処理で、算出された前記補完データを、前記市場データに統合した統合データを生成させる
　付記１２記載のデータ生成プログラム。

　以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

　本発明は、複数のデータを連携させて新たなデータを生成するデータ生成システムに好適に適用される。具体的には、連携データを用いたソリューションに、本発明を適用可能である。連携データを用いたソリューションとして、例えば、故障予兆検知、故障原因特定、劣化予測、不具合予測などが挙げられる。また、様々な環境下におけるデータを収集してシミュレータ用データを生成することにより、シミュレータの開発に貢献することも可能である。また、市場車の経年劣化データや故障データに基づいてデータを生成することで、これらのデータを開発にフィードバックすることも可能になる。

　１０　記憶部
　２０　市場データ取得部
　３０　特徴抽出部
　４０　データ選定部
　５０　補完データ算出部
　６０　統合データ生成部
　１００　データ生成システム

Claims

　量産車から収集される市場データと、開発段階で車両のテストに用いられるテストデータとを用いて新たなデータを生成するデータ生成システムであって、
　前記市場データ、および、前記テストデータの少なくとも一方のデータから当該データの特徴を抽出する特徴抽出手段と、
　抽出された前記一方のデータの特徴に対応する特徴を含む他方のデータを一つ以上選定するデータ選定手段と、
　前記一方のデータと、選定された前記他方のデータから、前記市場データまたは前記テストデータを補完する補完データを算出する補完データ算出手段と、
　算出された前記補完データを、前記市場データおよび前記テストデータの少なくとも一方若しくは両方に統合した統合データを生成する統合データ生成手段とを備えた
　ことを特徴とするデータ生成システム。
　特徴抽出手段は、市場データから当該市場データの特徴を抽出し、
　データ選定手段は、抽出された市場データの特徴に対応するテストデータを複数選定し、
　補完データ算出手段は、選定された複数のテストデータから、市場データを補完する補完データを算出し、
　統合データ生成手段は、算出された前記補完データを、前記市場データに統合した統合データを生成する
　請求項１記載のデータ生成システム。
　データ選定手段は、選定したテストデータの中から、市場データに類似するシチュエーションのテストデータをさらに選定する
　請求項２記載のデータ生成システム。
　特徴抽出手段は、車両に搭載された各センサの値の関係性と、当該センサの値の時系列の変化との関連性を合成した特徴量を算出し、算出された特徴量を複数のデータの特徴として抽出する
　請求項１から請求項３のうちのいずれか１項に記載のデータ生成システム。
　データ選定手段は、劣化度合いに応じた重み値を算出し、算出した重みを特徴に乗じて比較することにより、対応するデータを選定する
　請求項１から請求項４のうちのいずれか１項に記載のデータ生成システム。
　補完データ算出手段は、一方のデータに欠落した項目のデータを、選定された他方のデータから抽出して、市場データまたはテストデータを補完する補完データを算出する
　請求項１から請求項５のうちのいずれか１項に記載のデータ生成システム。
　補完データ算出手段は、一方のデータが収集されたよりも短い時間間隔の補完データを、選定された他方のデータから算出する
　請求項１から請求項６のうちのいずれか１項に記載のデータ生成システム。
　量産車から収集される市場データと、開発段階で車両のテストに用いられるテストデータとを用いて新たなデータを生成するデータ生成方法であって、
　コンピュータが、前記市場データ、および、前記テストデータの少なくとも一方のデータから当該データの特徴を抽出し、
　前記コンピュータが、抽出された前記一方のデータの特徴に対応する特徴を含む他方のデータを一つ以上選定し、
　前記コンピュータが、前記一方のデータと、選定された前記他方のデータから、前記市場データまたは前記テストデータを補完する補完データを算出し、
　前記コンピュータが、算出された前記補完データを、前記市場データおよび前記テストデータの少なくとも一方若しくは両方に統合した統合データを生成する
　ことを特徴とするデータ生成方法。
　コンピュータが、市場データから当該市場データの特徴を抽出し、
　前記コンピュータが、抽出された市場データの特徴に対応するテストデータを複数選定し、
　前記コンピュータが、選定された複数のテストデータから、市場データを補完する補完データを算出し、
　前記コンピュータが、算出された前記補完データを、前記市場データに統合した統合データを生成する
　請求項８記載のデータ生成方法。
　量産車から収集される市場データと、開発段階で車両のテストに用いられるテストデータとを用いて新たなデータを生成するコンピュータに適用されるデータ生成プログラムを記憶するプログラム記憶媒体であって、
　前記コンピュータに、前記市場データ、および、前記テストデータの少なくとも一方のデータから当該データの特徴を抽出する特徴抽出処理、
　抽出された前記一方のデータの特徴に対応する特徴を含む他方のデータを一つ以上選定するデータ選定処理、
　前記一方のデータと、選定された前記他方のデータから、前記市場データまたは前記テストデータを補完する補完データを算出する補完データ算出処理、および、
　算出された前記補完データを、前記市場データおよび前記テストデータの少なくとも一方若しくは両方に統合した統合データを生成する統合データ生成処理
　を実現させるためのデータ生成プログラムを記憶するプログラム記憶媒体。
　コンピュータに、
　特徴抽出処理で、市場データから当該市場データの特徴を抽出させ、
　データ選定処理で、抽出された市場データの特徴に対応するテストデータを複数選定させ、
　補完データ算出処理で、選定された複数のテストデータから、市場データを補完する補完データを算出させ、
　統合データ生成処理で、算出された前記補完データを、前記市場データに統合した統合データを生成させる
　ためのデータ生成プログラムを記憶する請求項１０記載のプログラム記憶媒体。