JPWO2020142247A5

JPWO2020142247A5 -

Info

Publication number: JPWO2020142247A5
Application number: JP2021538780A
Authority: JP
Publication date: 2022-10-11

Description

いくつかの例では、第１のＭＬモデル２０２は、特徴マップ２０８、ＲＯＩ２１０、ならびに／または、分類および／もしくは確率２１２を精密化ＭＬモデル２２６に出力する（例えば、連結、またはその他によって）。精密化ＭＬモデル２２６は、図３でより詳細に論じられるように、１つまたは複数のサブクラスＭＬモデルを含み得る。異なるＭＬモデルとして示されているが、精密化ＭＬモデル２２６および第１のＭＬモデル２０２は、単一のＭＬモデルの一部であってもよい（例えば、第１のＭＬモデル２０２および／または精密化ＭＬモデル２２６がニューラルネットワークを含む例におけるニューラルネットワークの異なる層のセット）。

図示の例では、例示的なアーキテクチャ３００は、第１のＭＬモデル２０２、選択コンポーネント３０２、および／または１つまたは複数のサブクラスＭＬモデル３０４（１）～３０４（ｐ）（総称して「サブクラスＭＬモデル３０４」）を含み得る。いくつかの例では、選択コンポーネント３０２および／またはサブクラスＭＬモデル３０４は、精密化ＭＬモデル２２６の一部であり得る。第１のＭＬモデル２０２は、センサデータ２０４を受信し得、センサデータ２０４に少なくとも部分的に基づいて、総称して特徴データ３０６として表される、特徴マップ２０８、ＲＯＩ２１０、ならびに／または、分類および／もしくは確率２１２を生成し得る。いくつかの例では、特徴データ３０６は、センサデータ２０４から検出された物体に関連付けられたデータのセットを含み得る。例えば、特徴データ３０６は、第１の物体に関連付けられた第１の特徴マップ、第１のＲＯＩ、ならびに／または第１の分類および／もしくは第１の確率、第２の物体に関連付けられた第２の特徴マップ、第２のＲＯＩ、ならびに／または第２の分類および／もしくは第２の確率を含み得る。

図示の例では、サブクラスＭＬモデル３０４（ｐ）は、分類「歩行者」に関連付けられ得る。第１のＭＬモデル２０２からの分類「歩行者」を含む特徴データ３０６のセットを受信することに少なくとも部分的に基づいて、選択コンポーネント３０２は、サブクラスＭＬモデル３０４（ｐ）を選択して、サブクラスを決定、および／またはセットをさらに処理し得る。選択コンポーネント３０２は、分類「歩行者」に関連付けられた特徴データ３０６のセットのいずれかを、「歩行者」特徴セット３０８として、サブクラスＭＬモデル３０４（ｐ）に、送信し得る。例えば、「歩行者」特徴セット３０８は、歩行者２１４に関連付けられた第１のＭＬモデル２０２によって生成された１つまたは複数の特徴マップ（分類特徴マップ、セグメンテーション特徴マップ、検出特徴マップ、他の特徴マップなど）の少なくとも一部を含み得る。追加または代替の例では、「歩行者」特徴セット３０８は、追加または代替として、ＲＯＩ、分類、および／または確率を含み得るが、いくつかの例では、ＲＯＩを使用し、検出された物体に関連付けられた特徴マップの部分を決定し得、および分類を使用し、その部分を送信する先のサブクラスＭＬモデルを決定し得る。

いくつかの例では、出力するサブ分類の１つを決定することに少なくとも部分的に基づいて、サブクラスＭＬモデル３０４（ｐ）は、出力サブ分類が確率閾値３２４を満たすまたは超えるかどうかを決定し得る。例えば、サブ分類が確率分布３１８内のすべての確率の最大確率に関連付けられ得る場合でも、確率が低すぎて信頼し得ない（例えば、９５％未満、９０％未満、８０％未満、７０％未満）。出力サブ分類に関連付けられた確率が確率閾値３２４よりも小さい場合、サブクラスＭＬモデル３０４（ｐ）は、サブ分類の代わりに、第１のＭＬモデル２０２から受信した分類を出力し得る。しかしながら、確率が確率閾値を満たすまたは超える場合、サブクラスＭＬモデル３０４（ｐ）は、サブ分類を出力し得る。追加または代替の例では、サブクラスＭＬモデル３０４（ｐ）は、サブ分類が確率閾値を下回る確率に関連付けられている場合でも、一般的な分類に加えてサブ分類を出力し得るが、いくつかの例では、サブクラスＭＬモデル３０４（ｐ）は、サブ分類が確率閾値３２４未満の確率に関連付けられているという表示を追加または代替的に出力し得る。

図示の例では、サブクラスＭＬモデル３０４（ｐ）は、サブ分類「物体を保持している歩行者」３１２が確率閾値３２６を満たすまたは超える確率に関連付けられていると、および／または確率が確率分布３１８の複数の確率の最大確率であると、決定することに少なくとも部分的に基づいて、サブ分類「物体を保持している歩行者」３１２および／またはそれに関連付けられた確率を出力し得る。しかしながら、サブ分類「物体を保持している歩行者」３１２が確率閾値３２６未満の確率に関連付けられていたとしても、サブクラスＭＬモデル３０４（ｐ）がそれを決定することになった場合、サブクラスＭＬモデル３０４（ｐ）は「物体を保持している歩行者」３１２の代わりに「歩行者」を出力し得る。

Claims

１つまたは複数のプロセッサと、
前記１つまたは複数のプロセッサによって実行されると、
センサデータを受信することと、
前記センサデータを第１の機械学習（ＭＬ）モデルへの入力として提供することと、
前記センサデータ内の物体の表現に関連付けられた分類、前記分類に関連付けられた第１の確率、特徴マップ、前記物体の前記表現に関連付けられた前記センサデータの関心領域を、前記第１のＭＬモデルから受信することと、
サブ分類および前記サブ分類に関連付けられた第２の確率を、サブクラスＭＬモデルから受信することと、
を含む操作をシステムに実行させる、プロセッサ実行可能命令を格納するメモリと、
を備える、システム。
前記操作は、前記第１のＭＬモデルの第１の部分から受信した第１の特徴マップの少なくとも第１の部分、および前記第１のＭＬモデルの第２の部分から受信した第２の特徴マップの少なくとも第２の部分を、前記サブクラスＭＬモデル内へ入力することをさらに備える、請求項１に記載のシステム。
前記第１の部分および前記第２の部分は前記関心領域に少なくとも部分的に基づいている、請求項２に記載のシステム。
前記第２の特徴マップは、セマンティックセグメンテーション特徴マップ、インスタンスセグメンテーション特徴マップ、高密度深度特徴マップまたは物体方向特徴マップの少なくとも１つを含む、請求項２に記載のシステム。
前記操作は、
前記第１のＭＬモデルまたは前記サブクラスＭＬモデルの少なくとも１つへグラウンドトゥルースセンサデータを提供することであって、前記グラウンドトゥルースセンサデータはグラウンドトゥルース分類ラベルおよびグラウンドトゥルースサブ分類ラベルに関連付けられている、提供することと、
前記第１のＭＬモデルの第１の出力とグラウンドトゥルース分類ラベルとの間の差に少なくとも部分的に基づいて、第１の損失を決定することと、
前記サブクラスＭＬモデルの第２の出力と前記グラウンドトゥルースサブ分類ラベルとの間の差に少なくとも部分的に基づいて、第２の損失を決定することと、
前記第１のＭＬモデルの１つまたは複数の第１のパラメータまたは前記サブクラスＭＬモデルの１つまたは複数の第２のパラメータの少なくとも１つを変更して、前記第１の損失または前記第２の損失の少なくとも１つを最小化することと、
さらに備える、請求項１から請求項４のいずれか１項に記載のシステム。
前記第１のＭＬモデルの第２の部分は第１の分類に関連付けられていて、
前記第１のＭＬモデルの第３の部分は第２の分類に関連付けられていて、
前記第１の分類および前記第２の分類は前記第１のＭＬモデルの第１の部分に関連付けられている候補分類である、
請求項１から請求項５のいずれか１項に記載のシステム。
前記第１の分類および前記第２の分類は複数の分類のうちの２つであり、前記複数の分類は
歩行者分類、
車両分類、
自転車分類、
標識分類、
動物分類、
交通障害分類、
の少なくとも２つを含む、請求項６に記載のシステム。
前記第１のＭＬモデルは複数の第１の層を含む第１のニューラルネットワークを含み、
前記サブクラスＭＬモデルは複数の第２の層を含む第２のニューラルネットワークを含む、
請求項１から請求項７のいずれか１項に記載のシステム。
前記第１のＭＬモデルは、複数の第１の層を含むニューラルネットワークの第１の部分を含み、
前記サブクラスＭＬモデルは、複数の第２の層を含む前記ニューラルネットワークの第２の部分を含む、
請求項１から請求項８のいずれか１項に記載のシステム。
前記操作は、
前記第１の確率が第１の確率閾値を満たすまたは超えると決定することに少なくとも部分的に基づいて、前記物体に関連付けられた前記分類を出力することと、
前記第２の確率が第２の確率閾値を満たすまたは超えると決定することに少なくとも部分的に基づいて、前記物体に関連付けられた前記サブ分類を出力することと、
前記分類または前記サブ分類の少なくとも１つに少なくとも部分的に基づいて、自律車両を制御することと、
をさらに備える、請求項１から請求項９のいずれか１項に記載のシステム。
前記自律車両は前記システムを含む、請求項１０に記載のシステム。
１つまたは複数のプロセッサによって実行されると、
センサデータを受信すること、
前記センサデータを第１の機械学習（ＭＬ）モデルの入力として提供することと、
前記センサデータ内の物体の表現に関連付けられた分類、および前記分類に関連付けられた第１の確率を含む第１の出力を、前記第１のＭＬモデルから、受信することと、
サブ分類および前記サブ分類に関連付けられた第２の確率を、サブクラスＭＬモデルから、受信することと、
を備える操作を前記１つまたは複数のプロセッサに実行させる、プロセッサ実行可能命令を格納する非一時的コンピュータ可読媒体。
前記操作は、
第１の特徴マップを前記第１のＭＬモデルの第１の部分から受信することと、
第２の特徴マップを前記第１のＭＬモデルの第２の部分から受信することと、
前記第１の特徴マップの少なくとも一部分および前記第２の特徴マップの少なくとも一部分を、前記サブクラスＭＬモデル内へ、入力することと、
さらに備え、
前記第１の特徴マップまたは前記第２の特徴マップの少なくとも１つは、前記センサデータ内の前記物体の前記表現に関連付けられた関心領域に関連付けられている、請求項１２に記載の非一時的コンピュータ可読媒体。
ＭＬモデルは、少なくとも前記第１のＭＬモデルおよび前記サブクラスＭＬモデルを含み、
ニューラルネットワークは、
前記第１のＭＬモデルまたは前記サブクラスＭＬモデルの少なくとも１つへグラウンドトゥルースセンサデータを提供することであって、前記グラウンドトゥルースセンサデータはグラウンドトゥルース分類ラベルおよびグラウンドトゥルースサブ分類ラベルに関連付けられている、提供することと、
前記第１のＭＬモデルの第１の出力とグラウンドトゥルース分類ラベルとの間の差に少なくとも部分的に基づいて、第１の損失を、決定することと、
前記サブクラスＭＬモデルの第２の出力と前記グラウンドトゥルースサブ分類ラベルとの間の差に少なくとも部分的に基づいて、第２の損失を、決定することと、
前記第１のＭＬモデルの１つまたは複数の第１のパラメータまたは前記サブクラスＭＬモデルの１つまたは複数の第２のパラメータの少なくとも１つを変更して、前記第１の損失または前記第２の損失の少なくとも１つを最小化することと、
に少なくとも部分的に基づいて、トレーニングされる、
請求項１２または請求項１３に記載の非一時的コンピュータ可読媒体。
前記サブクラスＭＬモデルは第１のサブクラスＭＬモデルであり、
前記分類は第１の分類であり、
前記操作は、
前記第１の分類に関連付けられた第１の特徴マップを、前記第１のＭＬモデルから、受信することと、
第２の分類に関連付けられた第２の特徴マップを、前記第１のＭＬモデルから、受信することと、
前記第１のサブクラスＭＬモデルに関連付けられている前記第１の分類に少なくとも部分的に基づいて、前記第１の特徴マップの第１の部分を、前記第１のサブクラスＭＬモデルへの入力として、提供することと、
第２のサブクラスＭＬモデルに関連付けられている前記第２の分類に少なくとも部分的に基づいて、前記第２の特徴マップの第２の部分を、前記第２のサブクラスＭＬモデルへの入力として、提供することと、
をさらに備える、請求項１２から請求項１４のいずれか１項に記載の非一時的コンピュータ可読媒体。