WO2022269708A1 - 情報処理装置及び情報処理方法 - Google Patents

情報処理装置及び情報処理方法 Download PDF

Info

Publication number
WO2022269708A1
WO2022269708A1 PCT/JP2021/023457 JP2021023457W WO2022269708A1 WO 2022269708 A1 WO2022269708 A1 WO 2022269708A1 JP 2021023457 W JP2021023457 W JP 2021023457W WO 2022269708 A1 WO2022269708 A1 WO 2022269708A1
Authority
WO
WIPO (PCT)
Prior art keywords
training
processor
category
person
information processing
Prior art date
Application number
PCT/JP2021/023457
Other languages
English (en)
French (fr)
Inventor
駿介 高宮
知之 兼清
仁志 瀬下
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2021/023457 priority Critical patent/WO2022269708A1/ja
Publication of WO2022269708A1 publication Critical patent/WO2022269708A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Definitions

  • the present invention relates to an information processing device and an information processing method.
  • Technology is provided that identifies the category (form, etc.) of the action (such as form) from data (video, etc.) showing the action (pitching, etc.) performed by a given person.
  • deep learning is performed based on a data set indicating each category of actions performed by the person, and a network is generated that identifies the category of actions.
  • an information processing apparatus includes an interface for acquiring a training moving image obtained by photographing a first person performing an action, and a joint of the first person from the training moving image. generating training skeletal data indicating the position of the person in chronological order so that the distance between the joints in the skeletal data for training matches the distance between the joints of a second person different from the first person a processor for modifying the training skeleton data.
  • the information processing device can effectively generate data for generating an inference model that specifies a category of motion.
  • FIG. 1 is a block diagram showing a configuration example of an information processing apparatus according to the first embodiment.
  • FIG. 2 is a block diagram illustrating an operation example of the information processing apparatus according to the first embodiment;
  • FIG. 3 is a flowchart illustrating an operation example of the information processing apparatus according to the first embodiment;
  • FIG. 4 is a flow chart showing an operation example of the information processing apparatus according to the second embodiment.
  • the information processing apparatus acquires data (for example, moving images) indicating actions performed by an arbitrary person (for example, actions such as sports, training, or dancing).
  • the information processing device identifies the category of the action (for example, form) based on the data.
  • the information processing device presents the specified category to the operator.
  • the action of identifying a category by an information processing device is pitching.
  • the motion category is the form of pitching (eg, overhand, three-quarter, sidehand, underhand, etc.).
  • the category may also relate to good or bad behavior. Note that the configuration of actions and categories is not limited to a specific configuration.
  • FIG. 1 is a block diagram showing a configuration example of the information processing device 10 (computer).
  • the information processing apparatus 10 includes a processor 11, a ROM 12, a RAM 13, an NVM 14, a communication section 15, an operation section 16, a display section 17, and the like.
  • the processor 11, ROM 12, RAM 13, NVM 14, communication unit 15, operation unit 16, and display unit 17 are connected to each other via a data bus or the like.
  • the information processing apparatus 10 may have a configuration according to need, or a specific configuration may be excluded from the information processing apparatus 10 .
  • the processor 11 has a function of controlling the operation of the information processing apparatus 10 as a whole.
  • Processor 11 may include an internal cache, various interfaces, and the like.
  • the processor 11 implements various processes by executing programs pre-stored in the internal memory, ROM 12 or NVM 14 .
  • processor 11 controls the functions performed by the hardware circuits.
  • the ROM 12 is a non-volatile memory in which control programs, control data, etc. are stored in advance.
  • the control programs and control data stored in the ROM 12 are installed in advance according to the specifications of the information processing device 10 .
  • the RAM 13 is a volatile memory.
  • the RAM 13 temporarily stores data being processed by the processor 11 .
  • RAM 13 stores various application programs based on instructions from processor 11 .
  • the RAM 13 may store data necessary for executing the application program, execution results of the application program, and the like.
  • the NVM 14 is a non-volatile memory in which data can be written and rewritten.
  • the NVM 14 is composed of, for example, a HDD (Hard Disk Drive), SSD (Solid State Drive), flash memory, or the like.
  • the NVM 14 stores control programs, applications, various data, and the like according to the operational use of the information processing apparatus 10 .
  • the communication unit 15 is an interface for communicating with an external device.
  • the communication unit 15 connects to an external device through a network.
  • the communication unit 15 is an interface that supports wired or wireless LAN (Local Area Network) connection.
  • the communication unit 15 may be connected to a storage device such as an HDD, SSD, or USB (Universal Serial Bus) memory.
  • a storage device such as an HDD, SSD, or USB (Universal Serial Bus) memory.
  • the communication unit 15 may be an interface that supports USB connection.
  • the operation unit 16 receives inputs for various operations from the operator.
  • the operation unit 16 transmits a signal indicating the input operation to the processor 11 .
  • the operation unit 16 may be composed of a touch panel.
  • the display unit 17 displays image data from the processor 11 .
  • the display unit 17 is composed of a liquid crystal monitor.
  • the display section 17 may be formed integrally with the operating section 16 .
  • the information processing device 10 is a desktop PC, a notebook PC, a tablet PC, or the like.
  • the functions realized by the information processing apparatus 10 are realized by the processor 11 executing a program stored in the internal memory, the ROM 12, the NVM 14, or the like.
  • processor 11 implements the following functions as functions of applications installed in information processing apparatus 10 .
  • the processor 11 has a function of acquiring data indicating actions performed by a target person (second person).
  • the processor 11 acquires a video (query video) obtained by photographing the action performed by the target person as data indicating the action performed by the target person.
  • the query video is a video of the target person performing one trial (action).
  • the processor 11 acquires the query video through the communication unit 15.
  • Processor 11 may download the query video from an external device through communication unit 15 .
  • the processor 11 may acquire a query moving image from an image capturing device such as a camera through the communication unit 15 .
  • the method by which the processor 11 acquires the query video is not limited to a specific method.
  • the processor 11 also has a function of generating data (query skeleton data) indicating indirect positions in chronological order from the query video.
  • joints are wrists, arms, shoulders, necks, waists, hip joints, knees or ankles.
  • the processor 11 After obtaining the query video, the processor 11 identifies each indirect position of the target person from the query video. Here, the processor 11 identifies the positions of the joints in the three-dimensional space.
  • the NVM 14 pre-stores an inference model for identifying each indirect position from the image.
  • an inference model is a network obtained by deep learning or the like.
  • the processor 11 identifies each indirect position in each frame of the query video using an inference model or the like.
  • the processor 11 After specifying the position of each indirect in each frame of the query video, the processor 11 generates query skeleton data indicating the position of each indirect in chronological order according to the order of each frame.
  • the processor 11 also has a function of generating data (training skeleton data) indicating joint positions in time series from training videos.
  • the processor 11 acquires training videos through the communication unit 15 and the like.
  • a training video is data indicating a predetermined category of motion performed by a predetermined person (first person) different from the target person. That is, the training moving image is a moving image obtained by photographing the person performing an action belonging to a predetermined category.
  • the training video is a video of the person performing one trial (movement).
  • the processor 11 may acquire a plurality of training videos as training videos of a predetermined category. For example, the processor 11 acquires, as training videos, videos obtained by dividing the videos of the person who has tried multiple times for each trial.
  • the training video may be a video obtained by shooting a different person for each category or for each trial.
  • the processor 11 acquires training videos (datasets) for each category F1...Fn. Also, the processor 11 acquires m training videos for each category.
  • the NVM 14 may store training videos.
  • the processor 11 acquires the training video from the NVM 14 through a predetermined interface or the like.
  • the processor 11 After acquiring the training videos, the processor 11 generates training skeleton data from each training video.
  • the processor 11 generates one piece of training skeleton data from one piece of training video.
  • the processor 11 generates training skeleton data P1 to Pm for each category Fi.
  • the method by which the processor 11 generates the training skeleton data is the same as the method by which the processor 11 generates query skeleton data, so a description thereof will be omitted.
  • the NVM 14 may store training skeleton data in advance.
  • the processor 11 also has a function of correcting the training skeleton data based on the distance between each joint of the target person.
  • FIG. 2 is a diagram for explaining the operation of the processor 11 to correct training skeleton data.
  • the processor 11 After generating the training skeleton data, the processor 11 acquires the distance between each joint of the target person from the query skeleton data. Note that the processor 11 may acquire the distance between each joint of the target person from the NVM 14 or the like. Also, the processor 11 may acquire the distance between each joint of the target person through the communication unit 15 .
  • the processor 11 After obtaining the distances between the joints of the target person, the processor 11 matches (for example, matches) the distances between the joints in the training skeleton data with the distances between the joints of the target person at each time. Modify the training skeleton data so that
  • the processor 11 sets one joint whose position is fixed in the training skeleton data.
  • the processor 11 sets the training skeleton so that the distance between each joint in the training skeleton data matches the distance between each joint in the target person, starting from that joint. Modify the position of each joint in the data.
  • the processor 11 modifies the training skeleton data for each category Fi. That is, the processor 11 corrects each training skeleton data Pi of each category Fi.
  • the corrected training skeleton data in category Fi approximates the training skeleton data in the case where the target person performs the motion of category Fi.
  • the processor 11 may modify the training skeleton data so that the ratio of the distances between the joints in the skeleton data for training and the ratio of the distances between the joints of the target person match (for example, match). good.
  • the processor also has a function of generating an inference model (first category inference model) that identifies the category of motion using the corrected training skeleton data.
  • the first category inference model identifies the category of actions performed by the target person based on the query skeleton data.
  • the first category inference model outputs feature quantities when query skeleton data or modified training skeleton data is input.
  • processor 11 generates a first category inference model by deep learning.
  • processor 11 generates a first category inference model as follows.
  • processor 11 randomly selects a category Fi. Having selected category Fi, processor 11 selects P1, P2 and P3 from the modified training skeleton data P1-Pm (data set) as follows. Processor 11 randomly selects P1 and P3 from modified training skeleton data P1 to Pm of category Fi. However, P1 and P3 are different.
  • the processor 11 randomly selects P2 from the modified training skeleton data P1 to Pm of category Fj (where j is different from i).
  • P1 and P3 are data selected from the data set of the same category Fi, and are called positive data here.
  • P2 is data selected from a data set of category Fj different from category Fi, and is called negative data here.
  • processor 11 inputs P1, P2 and P3 into the first category inference model to map features f(P1), f(P2) and f (P3) is calculated.
  • f(Pi) denotes a feature quantity obtained by inputting Pi into the first category inference model.
  • the distance between f(P1) and f(P2) in the feature space is d1
  • the distance between f(P1) and f(P3) in the feature space is d2.
  • the processor 11 After calculating the feature quantities f(P1), f(P2) and f(P3), the processor 11 updates the first category inference model so that the distance d2 is smaller than the distance d1. That is, processor 11 updates the parameters of the first category inference model. For example, processor 11 updates the parameters using triplet loss as the loss function.
  • the processor 11 repeats the above operations to generate the first category inference model.
  • the first category inference model maps feature amounts of corrected training skeleton data belonging to the same category closer, and maps feature amounts of corrected training skeleton data belonging to a different category farther away. map.
  • the configuration and generation method of the first category inference model are not limited to a specific configuration.
  • the processor 11 also has a function of identifying the category of the action performed by the target person based on the first category inference model and the query skeleton data.
  • the processor 11 After generating the first category inference model, the processor 11 obtains one corrected training skeleton data from the dataset of category Fi. After acquiring one corrected training skeleton data, the processor 11 uses the first category inference model to compare the feature amount of the query skeleton data with the feature amount of the acquired one corrected training skeleton data. Calculate After calculating both feature amounts, the processor 11 calculates the distance between both feature amounts. After calculating the distance between both feature amounts, the processor 11 determines whether the distance between both feature amounts is equal to or less than a predetermined threshold.
  • the processor 11 determines that the category of the query skeleton data is category Fi.
  • the processor 11 When determining that the distance between both feature amounts is not equal to or less than the predetermined threshold, the processor 11 performs the same operation for another category Fj.
  • processor 11 may calculate the distance for each category as described above. Processor 11 may identify the category corresponding to the smallest distance as the category of query skeleton data.
  • the method by which the processor 11 identifies categories according to the first category inference model is not limited to a specific method.
  • the processor 11 After identifying the category of the query skeleton data, the processor 11 displays the identified category on the display unit 17 . For example, processor 11 displays a message or the like indicating the specified category on display unit 17 .
  • FIG. 3 is a flowchart for explaining an operation example of the information processing apparatus 10. As shown in FIG.
  • the processor 11 of the information processing device 10 acquires a query video through the communication unit 15 (S11). After obtaining the query moving image, the processor 11 generates query skeleton data from the query moving image (S12).
  • the processor 11 After generating the query skeleton data, the processor 11 acquires a training video through the communication unit 15 (S13). After obtaining the training video, the processor 11 generates training skeleton data from the training video (S14).
  • the processor 11 After generating the training skeleton data, the processor 11 corrects the training skeleton data so that the distance between each joint in the training skeleton data matches the distance between each joint in the target person (S15).
  • the processor 11 After correcting the training skeleton data, the processor 11 performs deep learning based on the corrected training skeleton data to generate a first category inference model (S16). After generating the first category inference model, the processor 11 identifies categories of actions performed by the target person based on the generated first category inference model and query skeleton data (S17).
  • the processor 11 After specifying the category of the action performed by the target person, the processor 11 displays the specified category on the display unit 17 or the like (S18). After displaying the specified category on the display unit 17 or the like, the processor 11 ends the operation.
  • the processor 11 may transmit the corrected training skeleton data to an external device.
  • the external device may generate a first category inference model to identify categories of actions performed by the target person.
  • the first category inference model may output information such as a vector indicating a category of action when query skeleton data is input.
  • the information processing apparatus configured as described above corrects the training skeleton data so as to match the distances between the joints of the target person. Therefore, the information processing apparatus can generate training skeleton data similar to the training skeleton data obtained when the target person performs the motion of each category. Therefore, the information processing apparatus can generate training skeleton data corresponding to the target person without causing the target person to perform actions in each category.
  • a second embodiment will be described.
  • the information processing apparatus according to the second embodiment differs from that according to the first embodiment in that it generates a category inference model (second category inference model) that identifies a category of action from a query video. Therefore, other points are denoted by the same reference numerals, and detailed description thereof is omitted.
  • the configuration of the information processing apparatus 10 according to the second embodiment is the same as that according to the first embodiment, so the description is omitted.
  • the functions realized by the information processing apparatus 10 are realized by the processor 11 executing a program stored in the internal memory, the ROM 12, the NVM 14, or the like.
  • processor 11 implements the following functions as functions of applications installed in information processing apparatus 10 .
  • the information processing device 10 implements the following functions in addition to the functions implemented by the information processing device 10 according to the first embodiment.
  • the processor 11 has a function of correcting the training video based on the corrected training skeleton data.
  • the processor 11 corrects the training video so that the distance between each joint in the training video matches the distance between each joint in the target person. That is, the processor 11 corrects the positions of the joints in the training video so that the distances between the joints match the distances between the joints of the target person.
  • the processor 11 modifies the training video according to a predetermined image processing algorithm or the like. For example, the processor 11 modifies the positions and lengths of arms, legs, necks, etc. in each frame of the training image so that each joint is at a desired position.
  • the processor 11 also has a function of generating an inference model (second category inference model) that identifies the category of motion using the modified training video.
  • an inference model second category inference model
  • the second category inference model identifies categories of actions performed by the target person based on the query video.
  • the second category inference model outputs feature quantities when a query video or a modified training video is input.
  • the processor 11 generates a second category inference model by deep learning.
  • the method for the processor 11 to generate the second category inference model is the same as the method for the processor 11 to generate the first category inference model, so the explanation is omitted.
  • the processor 11 also has a function of identifying the category of the action performed by the target person based on the second category inference model and the query video.
  • the method in which the processor 11 identifies the category of the action performed by the target person based on the second category inference model and the query video is a method in which the processor 11 identifies the category of the target person based on the first category inference model and the query skeleton data. Since this is the same as the method for specifying the category of the performed action, the description is omitted.
  • FIG. 4 is a flow chart for explaining an operation example of the information processing device 10 .
  • the processor 11 of the information processing device 10 acquires a query video through the communication unit 15 (S21). After obtaining the query moving image, the processor 11 generates query skeleton data from the query moving image (S22).
  • the processor 11 After generating the query skeleton data, the processor 11 acquires a training video through the communication unit 15 (S23). After obtaining the training video, the processor 11 generates training skeleton data from the training video (S24).
  • the processor 11 After generating the training skeleton data, the processor 11 corrects the training skeleton data so that the distances between the joints in the training skeleton data match the distances between the joints of the target person (S25).
  • the processor 11 After correcting the training skeleton data, the processor 11 corrects the training video based on the corrected training skeleton data (S26). After correcting the training videos, the processor 11 performs deep learning based on the corrected training videos to generate a second category inference model (S27).
  • the processor 11 After generating the second category inference model, the processor 11 identifies the category of the action performed by the target person based on the generated second category inference model and the query video (S28).
  • the processor 11 After specifying the category of the action performed by the target person, the processor 11 displays the specified category on the display unit 17 or the like (S29). After displaying the specified category on the display unit 17 or the like, the processor 11 ends the operation.
  • the processor 11 may transmit the corrected training video to an external device.
  • the external device may generate a second category inference model to identify categories of actions performed by the target person.
  • the second category inference model may output information such as a vector indicating the category of motion when a query video is input.
  • processor 11 may perform predetermined preprocessing on the query video and input it to the second category inference model. Processor 11 may also preprocess the corrected training images when generating the second category inference model.
  • the information processing device configured as described above corrects the training video using the corrected training skeleton data. As a result, the information processing apparatus can generate a training video similar to the training video obtained when the target person performs actions in each category.
  • the present invention is not limited to the above-described embodiments, and various modifications can be made in the implementation stage without departing from the gist of the invention.
  • the type and configuration of the information processing device, the type and configuration of the display device, the procedure and content of the information presentation position determination process, the type and generation method of the presentation information, etc. are within the scope of the present invention.
  • Various modifications can be made.
  • embodiments may be appropriately selected or combined as much as possible.
  • embodiments include inventions at various stages, and various inventions can be extracted by appropriately combining a plurality of disclosed constituent elements.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)

Abstract

この発明の一態様では、情報処理装置は、動作を行っている第1の人物を撮影して得られた訓練用動画を取得するインターフェースと、前記訓練用動画から、前記第1の人物における関節の位置を時系列で示す訓練用骨格データを生成し、前記訓練用骨格データにおける関節間の距離と、前記第1の人物と異なる第2の人物における関節間の距離と、が整合するように前記訓練用骨格データを修正する、プロセッサと、を備える。

Description

情報処理装置及び情報処理方法
 本発明は、情報処理装置及び情報処理方法に関する。
 任意の人物が行った動作(ピッチングなど)を示すデータ(動画など)から当該動作のカテゴリ(フォームなど)を特定する技術が提供されている。そのような技術には、当該人物が行った各カテゴリの動作を示すデータセットを元に深層学習を行い、動作のカテゴリを特定するネットワークを生成するものがある。
 従来、データセットを生成するために、当該人物が各カテゴリの動作を行う必要がある。
Schroff, et al., "FaceNet: A Unified Embedding for Face Recognition and Clustering", Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2015
 しかしながら、当該人物が各カテゴリの動作を行うことは、困難である。また、オペレータは、当該人物が行った動作を示すデータを各カテゴリに分類する必要がある。
 上記の課題を解決するため、動作のカテゴリを特定する推論モデルを生成するためのデータを効果的に生成することができる技術を提供する。
 この発明の一態様では、情報処理装置は、動作を行っている第1の人物を撮影して得られた訓練用動画を取得するインターフェースと、前記訓練用動画から、前記第1の人物における関節の位置を時系列で示す訓練用骨格データを生成し、前記訓練用骨格データにおける関節間の距離と、前記第1の人物と異なる第2の人物における関節間の距離と、が整合するように前記訓練用骨格データを修正する、プロセッサと、を備える。
 実施形態によれば、情報処理装置は、動作のカテゴリを特定する推論モデルを生成するためのデータを効果的に生成することができる。
図1は、第1の実施形態に係る情報処理装置の構成例を示すブロック図である。 図2は、第1の実施形態に係る情報処理装置の動作例を示すブロック図である。 図3は、第1の実施形態に係る情報処理装置の動作例を示すフローチャートである。 図4は、第2の実施形態に係る情報処理装置の動作例を示すフローチャートである。
 以下、図面を参照してこの発明に係わる実施形態を説明する。
(第1の実施形態)
 まず、第1の実施形態について説明する。
 実施形態に係る情報処理装置は、任意の人物が行った動作(たとえば、スポーツ、トレーニング又はダンスなどの動作)を示すデータ(たとえば、動画)を取得する。情報処理装置は、当該データに基づいて、当該動作のカテゴリ(たとえば、フォーム)を特定する。情報処理装置は、特定されたカテゴリをオペレータに提示する。
 たとえば、情報処理装置がカテゴリを特定する動作は、ピッチングである。また、動作のカテゴリは、ピッチングのフォーム(たとえば、オーバーハンド、スリークォータ、サイドハンド又はアンダーハンドなど)などである。また、カテゴリは、動作の善し悪しに関するものであってもよい。 
 なお、動作及びカテゴリの構成は、特定の構成に限定されるものではない。
 図1は、情報処理装置10(コンピュータ)の構成例を示すブロック図である。図1が示すように、情報処理装置10は、プロセッサ11、ROM12、RAM13、NVM14、通信部15、操作部16及び表示部17などを備える。
 プロセッサ11と、ROM12、RAM13、NVM14、通信部15、操作部16及び表示部17と、は、データバスなどを介して互いに接続する。 
 なお、情報処理装置10は、図1が示すような構成の他に必要に応じた構成を具備したり、情報処理装置10から特定の構成が除外されたりしてもよい。
 プロセッサ11は、情報処理装置10全体の動作を制御する機能を有する。プロセッサ11は、内部キャッシュ及び各種のインターフェースなどを備えてもよい。プロセッサ11は、内部メモリ、ROM12又はNVM14が予め記憶するプログラムを実行することにより種々の処理を実現する。
 なお、プロセッサ11がプログラムを実行することにより実現する各種の機能のうちの一部は、ハードウエア回路により実現されるものであってもよい。この場合、プロセッサ11は、ハードウエア回路により実行される機能を制御する。
 ROM12は、制御プログラム及び制御データなどが予め記憶された不揮発性のメモリである。ROM12に記憶される制御プログラム及び制御データは、情報処理装置10の仕様に応じて予め組み込まれる。
 RAM13は、揮発性のメモリである。RAM13は、プロセッサ11の処理中のデータなどを一時的に格納する。RAM13は、プロセッサ11からの命令に基づき種々のアプリケーションプログラムを格納する。また、RAM13は、アプリケーションプログラムの実行に必要なデータ及びアプリケーションプログラムの実行結果などを格納してもよい。
 NVM14は、データの書き込み及び書き換えが可能な不揮発性のメモリである。NVM14は、たとえば、HDD(Hard Disk Drive)、SSD(Solid State Drive)又はフラッシュメモリなどから構成される。NVM14は、情報処理装置10の運用用途に応じて制御プログラム、アプリケーション及び種々のデータなどを格納する。
 通信部15は、外部装置と通信するためのインターフェースである。たとえば、通信部15は、ネットワークを通じて外部装置に接続する。たとえば、通信部15は、有線又は無線のLAN(Local Area Network)接続をサポートするインターフェースである。
 また、通信部15は、HDD、SSD又はUSB(Universal Serial Bus)メモリなどの記憶装置に接続するものであってもよい。たとえば、通信部15は、USB接続をサポートするインターフェースであってもよい。
 操作部16は、オペレータから種々の操作の入力を受け付ける。操作部16は、入力された操作を示す信号をプロセッサ11へ送信する。操作部16は、タッチパネルから構成されてもよい。
 表示部17は、プロセッサ11からの画像データを表示する。たとえば、表示部17は、液晶モニタから構成される。操作部16がタッチパネルから構成される場合、表示部17は、操作部16と一体的に形成されてもよい。
 たとえば、情報処理装置10は、デスクトップPC、ノートPC、又は、タブレットPCなどである。
 次に、情報処理装置10が実現する機能について説明する。情報処理装置10が実現する機能は、プロセッサ11が内部メモリ、ROM12又はNVM14などに格納されるプログラムを実行することで実現される。たとえば、プロセッサ11は、情報処理装置10にインストールされたアプリケーションの機能として以下の機能を実現する。
 まず、プロセッサ11は、目的の人物(第2の人物)が行った動作を示すデータを取得する機能を有する。
 プロセッサ11は、目的の人物が行った動作を示すデータとして、目的の人物が行った動作を撮影して得られた動画(クエリ動画)を取得する。ここでは、クエリ動画は、1回の試行(動作)を行っている目的の人物の動画である。
 たとえば、プロセッサ11は、通信部15を通じて、クエリ動画を取得する。プロセッサ11は、通信部15を通じて、外部装置からクエリ動画をダウンロードしてもよい。また、プロセッサ11は、通信部15を通じて、カメラなどの撮影装置からクエリ動画を取得してもよい。
 プロセッサ11がクエリ動画を取得する方法は、特定の方法に限定されるものではない。
 また、プロセッサ11は、クエリ動画から間接の位置を時系列で示すデータ(クエリ骨格データ)を生成する機能を有する。
 たとえば、間接は、手首、腕、肩、首、腰、股関節、膝又は足首などである。
 クエリ動画を取得すると、プロセッサ11は、クエリ動画から、目的の人物の各間接の位置を特定する。ここでは、プロセッサ11は、三次元空間における関節の位置を特定する。
 たとえば、NVM14は、画像から各間接の位置を特定するための推論モデルを予め格納する。たとえば、推論モデルは、深層学習などで得られたネットワークなどである。
 プロセッサ11は、推論モデルなどを用いて、クエリ動画の各フレームにおいて、各間接の位置を特定する。
 クエリ動画の各フレームにおいて各間接の位置を特定すると、プロセッサ11は、各フレームの順序に従って、各間接の位置を時系列で示すクエリ骨格データを生成する。
 また、プロセッサ11は、訓練用動画から関節の位置を時系列で示すデータ(訓練用骨格データ)を生成する機能を有する。
 プロセッサ11は、通信部15などを通じて訓練用動画を取得する。
 訓練用動画は、目的の人物と異なる所定の人物(第1の人物)が行った所定のカテゴリの動作を示すデータである。即ち、訓練用動画は、所定のカテゴリに属する動作を行っている当該人物を撮影して得られた動画である。
 また、訓練用動画は、1回の試行(動作)を行っている当該人物の動画である。
 プロセッサ11は、所定のカテゴリの訓練用動画として、複数の訓練用動画を取得してもよい。たとえば、プロセッサ11は、訓練用動画として、複数回試行している当該人物の動画を試行ごとに分割した動画を取得する。
 なお、訓練用動画は、カテゴリごと又は試行ごとに異なる人物を撮影して得られた動画であってもよい。
 ここでは、プロセッサ11は、各カテゴリF1…Fnの訓練用動画(データセット)を取得する。また、プロセッサ11は、カテゴリごとに、m個の訓練用動画を取得する。
 なお、NVM14は、訓練用動画を格納するものであってもよい。この場合、プロセッサ11は、所定のインターフェースなどを通じて訓練用動画をNVM14から取得する。
 訓練用動画を取得すると、プロセッサ11は、各訓練用動画から訓練用骨格データを生成する。プロセッサ11は、1つの訓練用動画から1つの訓練用骨格データを生成する。ここでは、プロセッサ11は、カテゴリFiごとに訓練用骨格データP1乃至Pmを生成する。
 プロセッサ11が訓練用骨格データを生成する方法は、プロセッサ11がクエリ骨格データを生成する方法と同様であるため説明を省略する。 
 なお、NVM14は、訓練用骨格データを予め格納するものであってもよい。
 また、プロセッサ11は、目的の人物における各関節間の距離に基づいて訓練用骨格データを修正する機能を有する。
 図2は、プロセッサ11が訓練用骨格データを修正する動作を説明するための図である。
 訓練用骨格データを生成すると、プロセッサ11は、クエリ骨格データなどから目的の人物における各関節間の距離を取得する。なお、プロセッサ11は、目的の人物における各関節間の距離をNVM14などから取得してもよい。また、プロセッサ11は、通信部15を通じて目的の人物における各関節間の距離を取得するものであってもよい。
 目的の人物における各関節間の距離を取得すると、プロセッサ11は、各時刻において、訓練用骨格データにおける各関節間の距離と、目的の人物における各関節間の距離とが整合(たとえば、一致)するように、訓練用骨格データを修正する。
 たとえば、プロセッサ11は、訓練用骨格データにおいて、位置を固定する関節を1つ設定する。位置を固定する関節を1つ固定すると、プロセッサ11は、当該関節を起点として、訓練用骨格データにおける各関節の距離と目的の人物における各関節間の距離とが整合するように、訓練用骨格データの各関節の位置を修正する。
 図2が示すように、プロセッサ11は、各カテゴリFiの訓練用骨格データを修正する。即ち、プロセッサ11は、各カテゴリFiの各訓練用骨格データPiを修正する。
 上記の修正により、カテゴリFiにおける修正後の訓練用骨格データは、目的の人物がカテゴリFiの動作を行った場合における訓練用骨格データに近似する。
 なお、プロセッサ11は、訓練用骨格データにおける各関節間の距離の比と目的の人物における各関節間の距離の比とが整合(たとえば、一致)するように訓練用骨格データを修正してもよい。
 また、プロセッサは、修正後の訓練用骨格データを用いて、動作のカテゴリを特定する推論モデル(第1のカテゴリ推論モデル)を生成する機能を有する。
 第1のカテゴリ推論モデルは、クエリ骨格データに基づいて目的の人物が行った動作のカテゴリを特定する。第1のカテゴリ推論モデルは、クエリ骨格データ又は修正後の訓練用骨格データを入力すると特徴量を出力する。
 ここでは、プロセッサ11は、深層学習により第1のカテゴリ推論モデルを生成する。プロセッサ11は、以下のように第1のカテゴリ推論モデルを生成する。
 まず、プロセッサ11は、カテゴリFiを無作為に選ぶ。カテゴリFiを選ぶと、プロセッサ11は、修正後の訓練用骨格データP1乃至Pm(データセット)からP1、P2及びP3を次の様に選ぶ。プロセッサ11は、P1及びP3をカテゴリFiの修正後の訓練用骨格データP1乃至Pmから無作為に選ぶ。ただし、P1とP3とは、異なる。
 P1及びP3を選ぶと、プロセッサ11は、カテゴリFj(jは、iと異なる)の修正後の訓練用骨格データP1乃至PmからP2を無作為に選ぶ。
 即ち、P1及びP3は、同じカテゴリFiのデータセットから選択されたデータであり、ここでは、ポジティブデータと呼ぶ。また、P2は、カテゴリFiと異なるカテゴリFjのデータセットから選択されたデータであり、ここでは、ネガティブデータと呼ぶ。
 P1、P2及びP3を選択すると、プロセッサ11は、第1のカテゴリ推論モデルにP1、P2及びP3を入力して、特徴量空間に写像された特徴量f(P1)、f(P2)及びf(P3)を算出する。ここでは、f(Pi)は、Piを第1のカテゴリ推論モデルに入力して得られた特徴量を示す。
 また、特徴量空間におけるf(P1)とf(P2)との距離d1とし、特徴量空間におけるf(P1)とf(P3)との距離d2とする。
 特徴量f(P1)、f(P2)及びf(P3)を算出すると、プロセッサ11は、距離d2が距離d1よりも小さくなるように第1のカテゴリ推論モデルを更新する。即ち、プロセッサ11は、第1のカテゴリ推論モデルのパラメータを更新する。たとえば、プロセッサ11は、triplet lossを損失関数と用いてパラメータを更新する。
 プロセッサ11は、上記の動作を繰り返して、第1のカテゴリ推論モデルを生成する。
 上記の動作により、第1のカテゴリ推論モデルは、同じカテゴリに属する修正後の訓練用骨格データの特徴量を近くに写像し、異なるカテゴリに属する修正後の訓練用骨格データの特徴量を遠くに写像する。
 なお、第1のカテゴリ推論モデルの構成及び生成方法は、特定の構成に限定されるものではない。
 また、プロセッサ11は、第1のカテゴリ推論モデル及びクエリ骨格データに基づいて目的の人物が行った動作のカテゴリを特定する機能を有する。
 第1のカテゴリ推論モデルを生成すると、プロセッサ11は、カテゴリFiのデータセットから1つの修正後の訓練用骨格データを取得する。1つの修正後の訓練用骨格データを取得すると、プロセッサ11は、第1のカテゴリ推論モデルを用いて、クエリ骨格データの特徴量と取得された1つの修正後の訓練用骨格データの特徴量とを算出する。両特徴量を算出すると、プロセッサ11は、両特徴量の距離を算出する。両特徴量の距離を算出すると、プロセッサ11は、両特徴量の距離が所定の閾値以下であるかを判定する。
 両特徴量の距離が所定の閾値以下であると判定すると、プロセッサ11は、クエリ骨格データのカテゴリがカテゴリFiであるものと判定する。
 両特徴量の距離が所定の閾値以下でないと判定すると、プロセッサ11は、他のカテゴリFjについて同様の動作を行う。
 なお、プロセッサ11は、各カテゴリについて、上記の通り距離を算出してもよい。プロセッサ11は、クエリ骨格データのカテゴリとして、最も小さい距離に対応するカテゴリを特定してもよい。
 なお、プロセッサ11が第1のカテゴリ推論モデルに従ってカテゴリを特定する方法は、特定の方法に限定されるものではない。
 クエリ骨格データのカテゴリを特定すると、プロセッサ11は、特定されたカテゴリを表示部17に表示する。たとえば、プロセッサ11は、特定されたカテゴリを示すメッセージなどを表示部17に表示する。
 次に、情報処理装置10の動作例について説明する。 
 図3は、情報処理装置10の動作例について説明するためのフローチャートである。
 まず、情報処理装置10のプロセッサ11は、通信部15などを通じてクエリ動画を取得する(S11)。クエリ動画を取得すると、プロセッサ11は、クエリ動画からクエリ骨格データを生成する(S12)。
 クエリ骨格データを生成すると、プロセッサ11は、通信部15などを通じて訓練用動画を取得する(S13)。訓練用動画を取得すると、プロセッサ11は、訓練用動画から訓練用骨格データを生成する(S14)。
 訓練用骨格データを生成すると、プロセッサ11は、訓練用骨格データにおける各関節の距離と目的の人物における各関節間の距離とが整合するように、訓練用骨格データを修正する(S15)。
 訓練用骨格データを修正すると、プロセッサ11は、修正後の訓練用骨格データを元に深層学習を行うことで第1のカテゴリ推論モデルを生成する(S16)。第1のカテゴリ推論モデルを生成すると、プロセッサ11は、生成された第1のカテゴリ推論モデル及びクエリ骨格データに基づいて目的の人物が行った動作のカテゴリを特定する(S17)。
 目的の人物が行った動作のカテゴリを特定すると、プロセッサ11は、特定されたカテゴリを表示部17などに表示する(S18)。 
 特定されたカテゴリを表示部17などに表示すると、プロセッサ11は、動作を終了する。
 なお、プロセッサ11は、修正後の訓練用骨格データを外部装置に送信するものであってもよい。この場合、外部装置は、第1のカテゴリ推論モデルを生成し、目的の人物が行った動作のカテゴリを特定するものであってもよい。
 また、第1のカテゴリ推論モデルは、クエリ骨格データを入力すると、動作のカテゴリを示すベクトルなどの情報を出力するものであってもよい。
 以上のように構成された情報処理装置は、目的の人物における各関節間の距離と整合するように、訓練用骨格データを修正する。そのため、情報処理装置は、目的の人物が各カテゴリの動作を行った場合に得られる訓練用骨格データと同様の訓練用骨格データを生成することができる。従って、情報処理装置は、目的の人物に各カテゴリの動作を行わせることなく、目的の人物に対応する訓練用骨格データを生成することができる。
(第2の実施形態)
 次に、第2の実施形態について説明する。 
 第2の実施形態に係る情報処理装置は、クエリ動画から動作のカテゴリを特定するカテゴリ推論モデル(第2のカテゴリ推論モデル)を生成する点で第1の実施形態に係るそれと異なる。従って、その他の点については、同一の符号を付して詳細な説明を省略する。
 第2の実施形態に係る情報処理装置10の構成は、第1の実施形態に係るそれと同様であるため説明を省略する。
 次に、情報処理装置10が実現する機能について説明する。情報処理装置10が実現する機能は、プロセッサ11が内部メモリ、ROM12又はNVM14などに格納されるプログラムを実行することで実現される。たとえば、プロセッサ11は、情報処理装置10にインストールされたアプリケーションの機能として以下の機能を実現する。
 情報処理装置10は、第1の実施形態に係る情報処理装置10が実現する機能に加えて以下の機能を実現する。
 プロセッサ11は、修正後の訓練用骨格データに基づいて訓練用動画を修正する機能を有する。
 プロセッサ11は、訓練用動画における各関節の距離と目的の人物における各関節間の距離とが整合するように、訓練用動画を修正する。即ち、プロセッサ11は、各関節間の距離と目的の人物における各関節間の距離とが整合するように、訓練用動画において各関節の位置を修正する。
 プロセッサ11は、所定の画像処理アルゴリズムなどに従って訓練用動画を修正する。たとえば、プロセッサ11は、訓練用画像の各フレームにおいて、各関節の位置が所望の位置になるように、腕、脚又は首などの位置及び長さを修正する。
 また、プロセッサ11は、修正後の訓練用動画を用いて、動作のカテゴリを特定する推論モデル(第2のカテゴリ推論モデル)を生成する機能を有する。
 第2のカテゴリ推論モデルは、クエリ動画に基づいて目的の人物が行った動作のカテゴリを特定する。第2のカテゴリ推論モデルは、クエリ動画又は修正後の訓練用動画を入力すると特徴量を出力する。
 プロセッサ11は、深層学習により第2のカテゴリ推論モデルを生成する。
 プロセッサ11が第2のカテゴリ推論モデルを生成する方法は、プロセッサ11が第1のカテゴリ推論モデルを生成する方法と同様であるため説明を省略する。
 また、プロセッサ11は、第2のカテゴリ推論モデル及びクエリ動画に基づいて目的の人物が行った動作のカテゴリを特定する機能を有する。
 プロセッサ11が第2のカテゴリ推論モデル及びクエリ動画に基づいて目的の人物が行った動作のカテゴリを特定する方法は、プロセッサ11が第1のカテゴリ推論モデル及びクエリ骨格データに基づいて目的の人物が行った動作のカテゴリを特定する方法と同様であるため説明を省略する。
 次に、情報処理装置10の動作例について説明する。 
 図4は、情報処理装置10の動作例について説明するためのフローチャートである。
 まず、情報処理装置10のプロセッサ11は、通信部15などを通じてクエリ動画を取得する(S21)。クエリ動画を取得すると、プロセッサ11は、クエリ動画からクエリ骨格データを生成する(S22)。
 クエリ骨格データを生成すると、プロセッサ11は、通信部15などを通じて訓練用動画を取得する(S23)。訓練用動画を取得すると、プロセッサ11は、訓練用動画から訓練用骨格データを生成する(S24)。
 訓練用骨格データを生成すると、プロセッサ11は、訓練用骨格データにおける各関節の距離と目的の人物における各関節間の距離とが整合するように、訓練用骨格データを修正する(S25)。
 訓練用骨格データを修正すると、プロセッサ11は、修正後の訓練用骨格データに基づいて訓練用動画を修正する(S26)。訓練用動画を修正すると、プロセッサ11は、修正後の訓練用動画を元に深層学習を行うことで第2のカテゴリ推論モデルを生成する(S27)。
 第2のカテゴリ推論モデルを生成すると、プロセッサ11は、生成された第2のカテゴリ推論モデル及びクエリ動画に基づいて目的の人物が行った動作のカテゴリを特定する(S28)。
 目的の人物が行った動作のカテゴリを特定すると、プロセッサ11は、特定されたカテゴリを表示部17などに表示する(S29)。 
 特定されたカテゴリを表示部17などに表示すると、プロセッサ11は、動作を終了する。
 なお、プロセッサ11は、修正後の訓練用動画を外部装置に送信するものであってもよい。この場合、外部装置は、第2のカテゴリ推論モデルを生成し、目的の人物が行った動作のカテゴリを特定するものであってもよい。
 また、第2のカテゴリ推論モデルは、クエリ動画を入力すると、動作のカテゴリを示すベクトルなどの情報を出力するものであってもよい。
 また、プロセッサ11は、クエリ動画に所定の前処理を行って第2のカテゴリ推論モデルに入力するものであってもよい。プロセッサ11は、第2のカテゴリ推論モデルを生成する場合においても、補正後の訓練用画像に前処理を行ってもよい。
 以上のように構成された情報処理装置は、修正後の訓練用骨格データを用いて訓練用動画を修正する。その結果、情報処理装置は、目的の人物が各カテゴリの動作を行った場合に得られる訓練用動画と同様の訓練用動画を生成することができる。
 なお、この発明は、上記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。例えば、情報処理装置の種類や構成、表示デバイスの種類やその構成、情報提示位置の決定処理の手順と内容、提示情報の種類やその生成方法等については、この発明の要旨を逸脱しない範囲で種々変形して実施できる。
 また、実施形態は可能な限り適宜選択したり組み合わせて実施してもよい。さらに、上記実施形態には種々の段階の発明が含まれており、開示される複数の構成要件における適当な組み合わせにより種々の発明が抽出され得る。
 10…情報処理装置
 11…プロセッサ
 12…ROM
 13…RAM
 14…NVM
 15…通信部
 16…操作部
 17…表示部

Claims (8)

  1.  動作を行っている第1の人物を撮影して得られた訓練用動画を取得するインターフェースと、
      前記訓練用動画から、前記第1の人物における関節の位置を時系列で示す訓練用骨格データを生成し、
      前記訓練用骨格データにおける関節間の距離と、前記第1の人物と異なる第2の人物における関節間の距離と、が整合するように前記訓練用骨格データを修正する、
     プロセッサと、
    を備える情報処理装置。
  2.  前記プロセッサは、
      前記インターフェースを通じて、動作を行っている前記第2の人物を撮影して得られたクエリ動画を取得し、
      前記クエリ動画から、前記第2の人物における関節の位置を時系列で示すクエリ骨格データを生成し、
      修正後の前記訓練用骨格データに基づいて、動作のカテゴリを特定する第1のカテゴリ推論モデルを生成し、
      前記第1のカテゴリ推論モデル及び前記クエリ骨格データに基づいて、前記第2の人物が行っている動作のカテゴリを特定する、
    請求項1に記載の情報処理装置。
  3.  前記第1のカテゴリ推論モデルは、前記クエリ骨格データを入力すると特徴量を出力し、
     前記プロセッサは、深層学習によって前記第1のカテゴリ推論モデルを生成する、
    請求項2に記載の情報処理装置。
  4.  前記プロセッサは、
      修正後の前記訓練用骨格データに基づいて、前記訓練用動画における関節間の距離と、前記第2の人物における関節間の距離と、が整合するように、前記訓練用動画を修正する、
    請求項1に記載の情報処理装置。
  5.  前記プロセッサは、
      前記インターフェースを通じて、動作を行っている前記第2の人物を撮影して得られたクエリ動画を取得し、
      修正後の前記訓練用動画に基づいて、動作のカテゴリを特定する第2のカテゴリ推論モデルを生成し、
      前記第2のカテゴリ推論モデル及び前記クエリ動画に基づいて、前記第2の人物が行っている動作のカテゴリを特定する、
    請求項4に記載の情報処理装置。
  6.  前記第2のカテゴリ推論モデルは、クエリ骨格データを入力すると特徴量を出力し、
     前記プロセッサは、深層学習によって前記第2のカテゴリ推論モデルを生成する、
    請求項5に記載の情報処理装置。
  7.   前記プロセッサは、
      前記インターフェースを通じて、動作を行っている第2の人物を撮影して得られたクエリ動画を取得し、
      前記クエリ動画から、前記第2の人物における関節の位置を時系列で示すクエリ骨格データを生成し、
      前記クエリ骨格データに基づいて、前記訓練用骨格データを修正する、
    請求項1に記載の情報処理装置。
  8.  プロセッサによって実行される情報処理方法であって、
     動作を行っている第1の人物を撮影して得られた訓練用動画を取得し、
     前記訓練用動画から、前記第1の人物における関節の位置を時系列で示す訓練用骨格データを生成し、
     前記訓練用骨格データにおける関節間の距離と、前記第1の人物と異なる第2の人物における関節間の距離と、が整合するように前記訓練用骨格データを修正する、
    情報処理方法。
PCT/JP2021/023457 2021-06-21 2021-06-21 情報処理装置及び情報処理方法 WO2022269708A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/023457 WO2022269708A1 (ja) 2021-06-21 2021-06-21 情報処理装置及び情報処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/023457 WO2022269708A1 (ja) 2021-06-21 2021-06-21 情報処理装置及び情報処理方法

Publications (1)

Publication Number Publication Date
WO2022269708A1 true WO2022269708A1 (ja) 2022-12-29

Family

ID=84545283

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/023457 WO2022269708A1 (ja) 2021-06-21 2021-06-21 情報処理装置及び情報処理方法

Country Status (1)

Country Link
WO (1) WO2022269708A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09330424A (ja) * 1996-06-07 1997-12-22 Matsushita Electric Ind Co Ltd 3次元骨格構造の動き変換装置
JP2007018031A (ja) * 2005-07-05 2007-01-25 Toyota Central Res & Dev Lab Inc 筋骨格モデル作成方法、プログラム、記録媒体および筋骨格モデル作成装置
JP6887586B1 (ja) * 2020-07-03 2021-06-16 三菱電機株式会社 行動特定装置、行動特定方法及び行動特定プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09330424A (ja) * 1996-06-07 1997-12-22 Matsushita Electric Ind Co Ltd 3次元骨格構造の動き変換装置
JP2007018031A (ja) * 2005-07-05 2007-01-25 Toyota Central Res & Dev Lab Inc 筋骨格モデル作成方法、プログラム、記録媒体および筋骨格モデル作成装置
JP6887586B1 (ja) * 2020-07-03 2021-06-16 三菱電機株式会社 行動特定装置、行動特定方法及び行動特定プログラム

Similar Documents

Publication Publication Date Title
CN108615055B (zh) 一种相似度计算方法、装置及计算机可读存储介质
US11514947B1 (en) Method for real-time video processing involving changing features of an object in the video
JP7114774B2 (ja) 顔融合モデルのトレーニング方法、装置及び電子機器
US20190073826A1 (en) Approximating mesh deformations for character rigs
US20200089958A1 (en) Image recognition method and apparatus, electronic device, and readable storage medium
US11301669B2 (en) Face recognition system and method for enhancing face recognition
JP2015079502A (ja) オブジェクト追跡方法、オブジェクト追跡装置、及び追跡特徴選択方法
JP2019204476A (ja) 画像生成装置、画像生成方法及びプログラム
TWI771106B (zh) 3d資料系統及3d資料生成方法
CN115601480A (zh) 虚拟对象驱动方法、装置、电子设备和存储介质
CN114756706A (zh) 一种资源合成方法、装置、设备及存储介质
US10304258B2 (en) Human feedback in 3D model fitting
WO2022269708A1 (ja) 情報処理装置及び情報処理方法
CN111316283A (zh) 姿势识别方法及装置
CN116843809A (zh) 针对虚拟角色的处理方法和装置
JP2023089947A (ja) 容貌トラッキングシステムおよび方法
CN116309999A (zh) 一种3d虚拟形象的驱动方法、装置、电子设备及存储介质
CN113538639B (zh) 一种图像处理方法、装置、电子设备及存储介质
CN115239856A (zh) 3d虚拟对象的动画生成方法、装置、终端设备及介质
CN112651325A (zh) 表演者与虚拟物体交互方法、装置及计算机设备
JP4143077B2 (ja) 画像生成蓄積装置、画像生成蓄積方法、および画像生成蓄積プログラム
WO2020194663A1 (ja) トラッキング装置、学習済モデル、内視鏡システム及びトラッキング方法
US20220012551A1 (en) Machine learning apparatus, machine learning method, and computer-readable recording medium
JP2019191821A (ja) モーション処理装置、モーション処理方法、およびプログラム
CN115937964B (zh) 姿态估计的方法、装置、设备和存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21946997

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 18569338

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21946997

Country of ref document: EP

Kind code of ref document: A1