WO2024055957A1 - 拍摄参数的调整方法、装置、电子设备和可读存储介质 - Google Patents

拍摄参数的调整方法、装置、电子设备和可读存储介质 Download PDF

Info

Publication number
WO2024055957A1
WO2024055957A1 PCT/CN2023/118216 CN2023118216W WO2024055957A1 WO 2024055957 A1 WO2024055957 A1 WO 2024055957A1 CN 2023118216 W CN2023118216 W CN 2023118216W WO 2024055957 A1 WO2024055957 A1 WO 2024055957A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
coordinate information
sign language
human body
coordinate
Prior art date
Application number
PCT/CN2023/118216
Other languages
English (en)
French (fr)
Inventor
高策
Original Assignee
维沃移动通信有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 维沃移动通信有限公司 filed Critical 维沃移动通信有限公司
Publication of WO2024055957A1 publication Critical patent/WO2024055957A1/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/12Details of acquisition arrangements; Constructional details thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种拍摄参数的调整方法、装置、电子设备和可读存储介质,属于计算机技术领域。该方法包括获取视频中的第一图像,第一图像包括执行第一手语动作的拍摄对象,第一手语动作对应拍摄对象的第一人体关键点;根据第一人体关键点在第一图像中的第一坐标信息,确定第一手语信息,第一手语信息用于表征拍摄对象在执行第一手语动作时的身体姿态、动作轨迹和面部形态;基于第一坐标信息和第一手语信息预测得到第二坐标信息,第二坐标信息为拍摄对象在执行第二手语动作时的第一人体关键点的坐标信息;基于第二坐标信息调整拍摄参数。

Description

拍摄参数的调整方法、装置、电子设备和可读存储介质
相关申请的交叉引用
本申请主张2022年09月16日在中国提交的中国专利申请号202211130812.9的优先权,其全部内容通过引用包含于此。
技术领域
本申请属于计算机技术领域,具体涉及一种拍摄参数的调整方法、装置、电子设备和可读存储介质。
背景技术
手语(sign language)是听障人士约定俗成的用手势、动作的变化模拟形象或者音节以构成的一定意思或词语,是在听障人士群体之间的交流语言。随着科技技术的发展,用户可以通过拨打视频电话的方式进行通讯,也可以拍摄手语视频分享生活趣事。
在相关技术中,为了保证手语表达的准确性,避免用户的手部出现在摄像头之外,用户可以通过电子设备的前置摄像头拍摄手语视频,也可以是双人配合即一个用户使用电子设备的后置摄像头对着另一个用户拍摄手语视频,然而,上述两种情况只能依靠人为调整自身的位置与摄像头的远近,以确保用户的手部始终出现在摄像头画面内,如此,使得拍摄手语视频的过程繁琐。
发明内容
本申请实施例的目的是提供一种拍摄参数的调整方法、装置、电子设备及可读存储介质,能够解决现有在拍摄手语视频时拍摄过程繁琐的问题。
第一方面,本申请实施例提供了一种拍摄参数的调整方法,应用于电子设备,该拍摄参数的调整方法可以包括:
获取视频中的第一图像,第一图像包括执行第一手语动作的拍摄对象,第一手语动作对应拍摄对象的第一人体关键点;
根据第一人体关键点在第一图像中的第一坐标信息,确定第一手语信息,第一手语信息用于表征拍摄对象在执行第一手语动作时的身体姿态、动作轨迹和面部形态;
基于第一坐标信息和第一手语信息预测得到第二坐标信息,第二坐标信息为拍摄对象在执行第二手语动作时的第一人体关键点的坐标信息;
基于第二坐标信息调整拍摄参数。
第二方面,本申请实施例提供了一种拍摄参数的调整装置,应用于电子设备,该拍摄参数的调整装置可以包括:
获取模块,用于获取视频中的第一图像,第一图像包括执行第一手语动作的拍摄对象,第一手语动作对应拍摄对象的第一人体关键点;
确定模块,用于根据第一人体关键点在第一图像中的第一坐标信息,确定第一手语信息,第一手语信息用于表征拍摄对象在执行第一手语动作时的身体姿态、动作轨迹和面部形态;
计算模块,用于基于第一坐标信息和第一手语信息预测得到第二坐标信息,第二坐标信息为拍摄对象在执行第二手语动作时的第一人体关键点的坐标信息;
调整模块,用于基于第二坐标信息调整拍摄参数。
第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序或指令,程序或指令被处理器执行时实现如第一方面所示的拍摄参数的调整方法的步骤。
第四方面,本申请实施例提供了一种可读存储介质,可读存储介质上存储程序或指令,程序或指令被处理器执行时实现如第一方面所示的拍摄参数的调整方法的步骤。
第五方面,本申请实施例提供了一种芯片,芯片包括处理器和拍摄接口,拍摄接口和处理器耦合,处理器用于运行程序或指令,实现如第一方面所示的拍摄参数的调整方法的步骤。
第六方面,本申请实施例提供一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一个处理器执行以实现如第一方面所示的拍摄参数的调整方法的步骤。
在本申请实施例中,可以对视频中包括执行第一手语动作的拍摄对象的第一图像进行识别,得到与第一手语动作对应的拍摄对象的第一人体关键点,接着,基于根据第一人体关键点在第一图像中的第一坐标信息,确定用于表征拍摄对象在执行第一手语动作时的身体姿态、动作轨迹和面部形态的第一手语信息,然后,基于第一坐标信息和第一手语信息预测得到拍摄对象在执行第二手语动作时的第一人体关键点的第二坐标信息,根据第二坐标信息计算拍摄对象在执行与第一手语动作连续的第二手语动作是否会出现在摄像模组的拍摄范围内,若第二手语动作不会出现在摄像模组的拍摄范围内,无需拍摄对象自身调整位置,也无需拍摄者调整电子设备的位置,既可根据第二坐标信息调整拍摄参数,从而拍摄包括拍摄对象执行的第二手语动作的目标图像,如此,在无需用户手动调整电子设备的同时,还能保证用户连续的手语动作在视频录制的过程中始终都会出现在摄 像头画面内,使得拍摄手语视频的过程简单,实现了提高拍摄手语视频效率,进而提成用户拍摄手语视频的成片率。
附图说明
图1为本申请实施例提供的一种拍摄参数的调整方法的流程图;
图2为本申请实施例提供的一种手语动作的示意图;
图3为本申请实施例提供的一种拍摄参数的调整装置的结构示意图;
图4为本申请实施例提供的一种电子设备的结构示意图;
图5为本申请实施例提供的一种电子设备的硬件结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
在相关技术中,用户(如听障人士或者熟知手语健康人士)在使用电子设备拍摄手语视频时,在一种示例中,用户可以通过电子设备的前置摄像头拍摄手语视频,然而,初始时,用户会双手自然垂落位于拍摄画面的 正中心,但随着用户在执行复杂的手语动作时,会出现动作幅度过大导致双手滑动到拍摄画面范围外的情况,影响手语表达的准确性。在另一种实例中,可以采用双人配合即一个用户A使用电子设备的后置摄像头对着另一个用户B拍摄手语视频,然而,若另一个用户B在执行复杂的手语动作时,用户A由于不熟悉手语动作,无法及时调整电子设备,也会出现部分手语动作没有被拍摄,影响听障人士之间的交流。因此,上述两种拍摄手语视频的方式都无法准确且完整的拍摄手语视频,不仅增加了拍摄手语视频的难度和复杂度,也降低了拍摄手语视频的效率。
基于此,为了解决上述问题,本申请实施例提供了一种拍摄参数的调整方法,可以对视频中包括执行第一手语动作的拍摄对象的第一图像进行识别,得到与第一手语动作对应的拍摄对象的第一人体关键点,接着,基于与第一手语动作对应的拍摄对象的第一人体关键点在第一图像中的坐标信息和用于表征拍摄对象在执行第一手语动作时的身体姿态、动作轨迹和面部形态的第一手语信息,通过坐标预测模型确定执行拍摄对象在执行第二手语动作时的第一人体关键点的第二坐标信息,从而根据第二坐标信息,计算拍摄对象在执行与第一手语动作连续的第二手语动作是否会出现在摄像模组的拍摄范围内,若第二手语动作不会出现在摄像模组的拍摄范围内,无需拍摄对象自身调整位置,也无需拍摄者调整电子设备的位置,既可根据第二坐标信息调整拍摄参数,从而拍摄包括拍摄对象执行的第二手语动作的目标图像,如此,可以实现根据计算得到的执行拍摄对象在执行第二手语动作时的第一人体关键点的第二坐标信息,自适应的调整拍摄参数,进而在无需用户手动调整电子设备的同时,还能保证用户连续的手语动作在视频录制的过程中始终都会出现在摄像头画面内,使得拍摄手语视频的过程简单,实现了提高拍摄手语视频效率,提升了用户拍摄手语视频的成片率。
下面结合附图1-图2,通过具体的实施例及其应用场景对本申请实施例提供的拍摄参数的调整方法进行详细地说明。
首先,结合图1对本申请实施例提供的拍摄参数的调整方法进行详细说明。
图1为本申请实施例提供的一种拍摄参数的调整方法的流程图。
如图1所示,本申请实施例提供的拍摄参数的调整方法可以应用于电子设备,该方法可以包括如下步骤:
步骤110,获取视频中的第一图像,第一图像包括执行第一手语动作的拍摄对象,第一手语动作对应拍摄对象的第一人体关键点;步骤120,根据第一人体关键点在第一图像中的第一坐标信息,确定第一手语信息,第一手语信息用于表征拍摄对象在执行第一手语动作时的身体姿态、动作轨迹和面部形态;步骤130,基于第一坐标信息和第一手语信息预测得到第二坐标信息,第二坐标信息为拍摄对象在执行第二手语动作时的第一人体关键点的坐标信息;步骤140,基于第二坐标信息调整拍摄参数。
这样,可以对视频中包括执行第一手语动作的拍摄对象的第一图像进行识别,得到与第一手语动作对应的拍摄对象的第一人体关键点,接着,基于根据第一人体关键点在第一图像中的第一坐标信息,确定用于表征拍摄对象在执行第一手语动作时的身体姿态、动作轨迹和面部形态的第一手语信息,然后,基于第一坐标信息和第一手语信息预测得到拍摄对象在执行第二手语动作时的第一人体关键点的第二坐标信息,根据第二坐标信息计算拍摄对象在执行与第一手语动作连续的第二手语动作是否会出现在摄像模组的拍摄范围内,若第二手语动作不会出现在摄像模组的拍摄范围内,无需拍摄对象自身调整位置,也无需拍摄者调整电子设备的位置,既可根据第二坐标信息调整拍摄参数,从而拍摄包括拍摄对象执行的第二手语动作的目标图像,如此,在无需用户手动调整电子设备的同时,还能保 证用户连续的手语动作在视频录制的过程中始终都会出现在摄像头画面内,使得拍摄手语视频的过程简单,实现了提高拍摄手语视频效率,进而提成用户拍摄手语视频的成片率。
下面对上述步骤进行详细说明,具体如下所示。
首先,涉及步骤110,在一个实例中,第一图像的数量可以至少两个,以保证计算第一手语信息和拍摄对象在执行第二手语动作时的第一人体关键点的第二坐标信息的准确性。
需要说明的是,在步骤120之前,可以通过如下步骤获取第一人体关键点,基于此,该拍摄参数的调整方法还可以包括:
识别第一图像中拍摄对象,得到拍摄对象的全部人体关键点;
基于手语动作与人体关键点的第一关联信息,从全部人体关键点中提取与第一手语动作对应的第一人体关键点。
示例性地,获取当前拍摄的视频中t时刻对应第一图像,对第一图像中的第一手语动作对应的第一人体关键点进行识别,如包括33个躯干关键点、21个左手关键点和21个右手关键点,每个关键点在所述第一图像中的第一坐标信息包含x轴坐标和y轴坐标。这里,可以通过卷积神经网络(Convolutional Neural Networks,CNN)对每个第一图片中第一人体关键的第一坐标信息进行回归任务进行训练,从而得到与第一手语动作对应的第一人体关键点和第一人体关键点在所述第一图像中的第一坐标信息。
接着,涉及步骤120,本申请考虑到用户会用多种情况如手部动作、手部动作和躯干的位置、手部动作和颈部的位置、手部动作和头部的位置(具体是面部的位置)等多种情况表达手语动作,所以,可以通过下述任意一种或多种实施例,确定第一手语信息,下面分别进行说明。
在一种或者多种实施例中,第一人体关键点包括N个手部关键点,第一坐标信息包括N个手部关键点中每个手部关键点的手部坐标信息,第一手语信息包括第一手型信息和第一相对位置信息,N为正整数,基于此,该步骤120具体可以包括:
根据N个手部关键点中每个手部关键点的手部坐标信息,连接N个手部关键点,得到第一手型信息,第一手型信息包括手型轮廓和手部姿态;
根据第一手型信息,获取拍摄对象的手部的第一相对位置信息。
示例性的,根据上述步骤识别出的33个躯干关键点、21个左手关键点和21个右手关键点的x坐标和y坐标,计算第一图像的第一手语信息。本申请实施例提供的第一手语信息共有51种,包含拍摄对象的手型轮廓、手部(如两只手)的第一相对位置信息如双手是否对称特征、手部姿态如单双手特征、主控手(双手中的任一个手)特征、主控手是否与嘴巴有接触特征、主控手是否与耳朵有接触特征、主控手是否与额头有接触特征、左手移动轨迹特征、右手移动轨迹特征、左手掌心朝向特征、右手掌心朝向特征。如图2所示,本申请实施例提供了15种第一手型信息,从左至右依次排列分别是A手型、C手型、D手型、I手型、H手型、J手型、O手型、P手型、Q手型、R手型、U手型、X手型、Y手型、NG手型、食指拇指触碰成圈手型以及其他手型(图中并未示出)。这里,本申请实施例通过一个图卷积网络(GCN)对手型进行分类,网络的输入为左手的21个二维坐标或右手的21个二维坐标,网络输出手型的概率分布。
基于上述内容,下面分别对如何根据N个手部关键点中每个手部关键点的手部坐标信息,连接N个手部关键点,得到第一手型信息进行详细说明,具体如下所示。
双手对称特征:首先计算21对左右手关键点x坐标的平均值,例如大拇指第一个关节的平均值为左手大拇指第一个关节的x坐标和右手大拇 指第一个关节的x坐标的平均值,接着计算21个平均值中的最大值和最小值,如果最大值与最小值的差值小于肩膀宽度的1/7,且左右手的中指最下关节点的y值的差值小于肩膀宽度的1/7,即认为是双手对称的。
单双手特征,可以根据是否检测到双手的关键点进行判定。
主控手特征,根据检测到的左右手和历史图像左右手的x坐标、y坐标的变化进行判定。
主控手是否与嘴唇有接触特征,可以计算手掌的每一个小关节构成的直线与嘴唇直线的交点是否在嘴唇范围内。
主控手是否与耳朵有接触特征,可以计算手掌的每一个小关节构成的直线与耳朵区域关键点构成的每一个直线的交点是否在耳朵范围内。
主控手是否与额头有接触特征,可以计算手掌的每一个小关节构成的直线与额头区域关键点构成的每一个直线的交点是否在额头范围内。
左手移动轨迹特征,可以预先设定移动方向有上、右上、右、右下、下、左下、左、左上8种,根据左手21个关键点和上一帧的21个关键点的x坐标和y坐标的变化值,归类到以上8种移动方向内,构造21个特征。
右手移动轨迹特征,可以预先设定移动方向有上、右上、右、右下、下、左下、左、左上8种,根据右手21个关键点和上一帧的21个关键点的x坐标和y坐标的变化值,归类到以上8种移动方向内,构造21个特征。
左手掌心朝向特征,可以预先设定掌心朝向有上、右上、右、右下、下、左下、左、左上8种,根据左手食指最下关键点、小拇指最下关键点和手腕关键点三点确定平面的法线来计算左手掌心朝向。
右手掌心朝向特征,可以预先设定掌心朝向有上、右上、右、右下、下、左下、左、左上8种,根据右手食指最下关键点、小拇指最下关键点和手腕关键点三点确定平面的法线来计算右手掌心朝向。
在另一种或者多种实施例中,人体关键点还包括人体的目标区域的目标区域关键点,目标区域包括以下至少一种:头部、躯干、颈部,第一坐标信息还包括与目标区域关键点对应的目标区域坐标信息,第一手语信息包括第二相对位置信息,基于此,该步骤120具体可以包括:
根据目标区域坐标信息和每个手部关键点的手部坐标信息,获取两只手与目标区域的第二相对位置信息。
需要说明的是,在一些具体的场景,头部可以精确到嘴部、耳朵,额头、眉毛、眼睛鼻子等,以保证获取第一手语信息的准确性。
在又一种或者多种实施例中,人体关键点还包括M个嘴部关键点,第一坐标信息还包括M个嘴部关键点中每个嘴部关键点的嘴部坐标信息,第一手语信息包括第一嘴型信息和第一发音因素,基于此,该步骤120具体可以包括:
根据M个嘴部关键点中每个嘴部关键点的嘴部坐标信息,连接M个嘴部关键点,得到第一嘴型信息,第一嘴型信息与在相同时刻的第一手型信息对应;
根据嘴型信息和发音因素的第三关联信息,获取与第一嘴型信息对应的第一发音因素。
示例性地,第一手语信息除了可以包括手势之外,还可以包括手势与面部(具体为嘴部)的配合,以得到更为准确的手语信息,这里,基于手语本身,本申请实施例结合嘴型和发音因素(即用户发音时的面部变化,如发音因素“o”与发音因素“a”的面部细节不同),更为精准的获取第 一手语信息,以便准确的预测与第一手语动作连续的第二手语动作时的第一人体关键点的坐标信息。
再者,涉及步骤130,本申请实施例中提供了如下至少两种确定第二坐标信息的方式,具体如下所示。
在一种或多种可能的实施例中,该步骤130具体可以包括:
根据第一人体关键点在第一图像中的第一坐标信息,获取与第一坐标信息对应的第一人体动作;
根据人体动作与词语的第二关联信息,获取与第一人体动作对应的第一词语;
将与第一词语对应的预设动作轨迹的坐标信息确定为第二坐标动作。
示例性地,若已根据第一坐标信息确定的第一人体动作表示的含义为“一闪一闪”,则可以获取“一闪一闪”搭配的词语,如一闪一闪的星星,此时,可以将“星星”作为第一词语,并将与“星星”对应的预设动作轨迹的坐标信息确定为第二坐标动作。
在另一种或多种可能的实施例中,本申请实施例可以通过坐标预测模型,确定第二坐标信息。基于此,该步骤130具体可以包括:
将第一坐标信息和第一手语信息输入坐标预测模型,得到第二坐标信息;
其中,第二坐标信息为拍摄对象在执行第二手语动作时的第一人体关键点的坐标信息;坐标预测模型基于第二图像的第二人体关键点和第二手语信息训练得到。
具体地,在一种示例中,坐标预测模型可以包括下述中的至少一种:第一子模型、第二子模型,基于此,可以基于不同的预测模型,分别对第二坐标信息进行说明,具体如下所示。
在一种可能的实施例中,第一图像包括R个第一图像,第一坐标信息包括R个第一图像的每个第一图像中第一人体关键点的坐标信息,坐标预测模型包括第一子模型,第二坐标信息包括第一目标坐标信息,R为大于1的正整数,基于此,该步骤130具体可以包括:
将每个第一图像中第一人体关键点的坐标信息输入第一子模型,计算第一人体关键点在第一手语动作中的运动加速度;
根据运动加速度和第i个第一图像中的第一人体关键点的第一坐标信息,预测拍摄对象在执行第二手语动作时的第一人体关键点在的第一目标坐标信息,第i个第一图像为R个第一图像中的末尾图像。
示例性地,根据第t帧第i号关键点的x坐标、y坐标和第t-1帧第i号关键点的x坐标、y坐标位移的变化,可以求得第t帧第i号关键点的x坐标运动的速度为|xt,i-xt-1,i|,y坐标运动的速度为|yt,i-yt-1,i|,预测第i号关键点x坐标在下一帧的加速度为θx,t,i=αixt,i+(1-αix,t-1,i,同理y坐标在下一帧的加速度为θy,t,i=αiyt,i+(1-αiy,t-1,i
接着,根据t时刻第i号关键点所在位置(xt,i,yt,i)计算出下一时刻第i号关键点的坐标(xt+1,i 1,yt+1,i 1)=(xt,ix,t,i,yt,iy,t,i)。加速度为历史速度的调和平均值,可以根据经验来规定参数α=0.9,表示在预测速度时90%考虑最近一次的速度,10%考虑当前的历史速度的调和平均值。同时α也可以作为可学习的参数,利用最下游的回归任务的损失函数进行梯度下降更新α,最终当整个网络训练完成后,学习到该参数的最优值。
在另一种可能的实施例中,坐标预测模型包括第二子模型,第二坐标信息包括第二目标坐标信息,基于此,该步骤130具体可以包括:
将第一手语信息输入第一子模型,计算拍摄对象在执行第一手语动作时的目标语义信息;
根据语义信息与动作轨迹的第四关联关系,获取与语义信息对应的目标动作轨迹;
根据第一手语动作在目标动作轨迹中的位置,确定拍摄对象在执行与第一手语动作相连接的第二手语动作时的第一人体关键点的第二目标坐标信息。
示例性地,使用长短时记忆网络(LSTM)等时序神经网络对每个关键点的0时刻到t时刻的时序数据进行建模,输出t+1时刻的x坐标和y坐标。这里,本申请实施例结合了第一手语动作的第一手语信息,第一手语信息和手语的移动轨迹是强相关,以此可以提高预测的精度。对于每个第一关键点来说,每个时间步有51个手语特征和2个第一坐标信息,将53个特征输入进LSTM网络,将0时刻至t时刻全部输入模型后,取模型的最后一个隐藏层的向量表示H∈R(1,hidden size),通过矩阵乘法HW将表示向量映射到二维坐标上,W的维度为W∈R(hidden size,2),获得t+1时刻即拍摄第二图像的时刻的x坐标和y坐标,记为(xt+1,i 2,yt+1,i 2)=LSTM(x0,y0,...,xt,yt;Θ)。
在又一种可能的实施例中,坐标预测模型即可以包括第一子模型,也可以包括第二子模型,基于此,该步骤130具体可以包括:
根据上述两种可能的实施例中获取的第一目标坐标信息和第二目标坐标信息,计算第一目标坐标信息和第二目标坐标信息的平均坐标即为第二坐标信息。
示例性地,通过调节系数β进行融合,即xt+1,i=βxt+1,i 1+(1-β)xt+1,i 2,yt+1,i=βyt+1,i 1+(1-β)yt+1,i 2,参数β可以根据经验设置为0.5,也可以作为坐标预测网络的可学习参数,将通过该参 数融合后的坐标与真实坐标求解MSE损失函数,通过梯度下降的方法学习该参数的最优解。
这里,本申请实施例不对获取第一目标坐标信息和第二目标坐标信息的先后顺序进行限定,即在该实施例中,坐标预测模型既可以先计算第一目标坐标信息,也可以先计算第二目标坐标信息,当然两者也可以同时计算。
然后,涉及步骤140,下面分别基于不同的实施场景,对步骤140进行说明,具体如下所示。
在一种可能或多种可能的实施例中,拍摄参数包括拍摄模组的拍摄位置,基于此,该步骤140具体可以包括:
在第二坐标信息超出拍摄第一图像的第一拍摄范围的情况下,根据第二坐标信息,控制拍摄模组按照移动控制线的移动方向移动至目标拍摄位置。
如此,以便电子设备基于目标拍摄位置拍摄目标图像。
在另一种可能或多种可能的实施例中,如果是拍摄对象与电子设备镜头距离太近,导致拍摄的画面模糊,无需调整摄像模组的位置,仅需调整摄像模组的景深参数,即第二坐标信息满足预设拍摄条件包括第二坐标信息表征拍摄对象与拍摄模组之间的第一距离小于或者等于预设阈值,拍摄参数包括景深参数,基于此,该步骤140具体可以包括:
根据距离与景深的第五关联信息,获取与第一距离对应的第一景深参数;
调整拍摄第一图像的初始景深参数至第一景深参数,以基于第一景深参数拍摄目标图像。
示例性地,摄像模组x轴范围为0到最大值max x,摄像头y轴范围为0到最大值max y,如果有预测的关键点在t+1时刻坐标不在该范围 内,将调整焦距或开启广角摄像头,保证下一帧的人体和手部仍然出现在摄像头范围内。
另外,在一种可能的实施例中,在步骤140之前,该拍摄参数的调整方法还可以包括:
按照播报提示音频或者显示提示文本信息的方式,提示用户注意手语动作是否位于摄像头的拍摄范围内。
示例性地,可以在识别到下一帧用户即将有肢体或手部滑出摄像头范围外时,电子是被可以上屏文字显示提示用户或者手机发出提示音提示用户,警告用户需要注意和摄像头的距离。
本申请实施例提供的拍摄参数的调整方法,执行主体可以为拍摄参数的调整装置。本申请实施例中以拍摄参数的调整装置执行拍摄参数的调整方法为例,说明本申请实施例提供的拍摄的装置。
基于相同的发明构思,本申请还提供了一种拍摄参数的调整装置。具体结合图3进行详细说明。
图3为本申请实施例提供的一种拍摄参数的调整装置的结构示意图。
如图3所示,该拍摄参数的调整装置30应用于电子设备,具体可以包括:
获取模块301,用于获取视频中的第一图像,第一图像包括执行第一手语动作的拍摄对象,第一手语动作对应拍摄对象的第一人体关键点;
确定模块302,用于根据第一人体关键点在第一图像中的第一坐标信息,确定第一手语信息,第一手语信息用于表征拍摄对象在执行第一手语动作时的身体姿态、动作轨迹和面部形态;
计算模块303,用于基于第一坐标信息和第一手语信息预测得到第二坐标信息,第二坐标信息为拍摄对象在执行第二手语动作时的第一人体关键点的坐标信息;
调整模块304,用于基于二坐标信息调整拍摄参数。
下面对该拍摄参数的调整装置30进行详细说明,具体如下所示:
在一个或者多个可能的实施例中,本申请实施例提供的确定模块302具体可以用于,在第一人体关键点包括N个手部关键点,第一坐标信息包括N个手部关键点中每个手部关键点的手部坐标信息,第一手语信息包括第一手型信息和第一相对位置信息,N为正整数的情况下,根据N个手部关键点中每个手部关键点的手部坐标信息,连接N个手部关键点,得到第一手型信息,第一手型信息包括手型轮廓和手部姿态;
根据第一手型信息,获取拍摄对象的手部的第一相对位置信息。
在另一个或者多个可能的实施例中,本申请实施例提供的确定模块302具体可以用于,在人体关键点还包括人体的目标区域的目标区域关键点,目标区域包括以下至少一种:头部、躯干、颈部,第一坐标信息还包括与目标区域关键点对应的目标区域坐标信息,第一手语信息包括第二相对位置信息的情况下,根据目标区域坐标信息和每个手部关键点的手部坐标信息,获取两只手与目标区域的第二相对位置信息。
在又一个或者多个可能的实施例中,本申请实施例提供的确定模块302具体可以用于,在人体关键点还包括M个嘴部关键点,第一坐标信息还包括M个嘴部关键点中每个嘴部关键点的嘴部坐标信息,第一手语信息包括第一嘴型信息和第一发音因素的情况下,根据M个嘴部关键点中每个嘴部关键点的嘴部坐标信息,连接M个嘴部关键点,得到第一嘴型信息,第一嘴型信息与在相同时刻的第一手型信息对应;
根据嘴型信息和发音因素的第三关联信息,获取与第一嘴型信息对应的第一发音因素。
在再一个或者多个可能的实施例中,本申请实施例提供的计算模块303具体可以用于,根据第一人体关键点在第一图像中的第一坐标信息,获取与第一坐标信息对应的第一人体动作;
根据人体动作与词语的第二关联信息,获取与第一人体动作对应的第一词语;
将与第一词语对应的预设动作轨迹的坐标信息确定为第二坐标动作。
在再一个或者多个可能的实施例中,本申请实施例提供的计算模块303具体可以用于,在第一图像包括R个第一图像,第一坐标信息包括R个第一图像的每个第一图像中第一人体关键点的坐标信息,坐标预测模型包括第一子模型,第二坐标信息包括第一目标坐标信息,R为大于1的正整数,坐标预测模型基于第二图像的第二人体关键点和第二手语信息训练得到的情况下,将每个第一图像中第一人体关键点的坐标信息输入第一子模型,计算第一人体关键点在第一手语动作中的运动加速度;
根据运动加速度和第i个第一图像中的第一人体关键点的第一坐标信息,预测拍摄对象在执行第二手语动作时的第一人体关键点的第二目标坐标信息,其中,第i个第一图像为R个第一图像中的末尾图像。
在再一个或者多个可能的实施例中,本申请实施例提供的计算模块303具体可以用于,在坐标预测模型包括第二子模型,第二坐标信息包括第二目标坐标信息的情况下,将第一手语信息输入第一子模型,计算拍摄对象在执行第一手语动作时的目标语义信息;
根据语义信息与动作轨迹的第四关联关系,获取与语义信息对应的目标动作轨迹;
根据第一手语动作在目标动作轨迹中的位置,确定拍摄对象在执行与第一手语动作相连接的第二手语动作时的第一人体关键点的第二目标坐标信息。
在再一个或者多个可能的实施例中,本申请实施例提供的调整模块304具体可以用于,在拍摄参数包括拍摄模组的拍摄位置的情况下,在第二坐标信息超出拍摄第一图像的第一拍摄范围的情况下,根据第二坐标信息,控制拍摄模组按照移动控制线的移动方向移动至目标拍摄位置。
在再一个或者多个可能的实施例中,本申请实施例提供的调整模块304具体可以用于,在拍摄参数包括景深参数的情况下,在第二坐标信息表征拍摄对象与拍摄模组之间的第一距离小于或者等于预设阈值的情况下,根据距离与景深的第五关联信息,获取与第一距离对应的第一景深参数;
调整拍摄第一图像的初始景深参数至第一景深参数。
本申请实施例中的拍摄参数的调整装置可以是电子设备,也可以是电子设备中的部件,例如集成电路或芯片。该电子设备可以是终端,也可以为除终端之外的其他设备。示例性的,电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(Mobile Internet Device,MID)、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本或者个人数字助理(personal digital assistant,PDA)等,还可以为服务器、网络附属存储器(Network Attached Storage,NAS)、个人计算机(personal computer,PC)、电视机(television,TV)、柜员机或者自助机等,本申请实施例不作具体限定。
本申请实施例中的拍摄参数的调整装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统,可以为IOS操作系统,还可以为其他可能的操作系统,本申请实施例不作具体限定。
本申请实施例提供的拍摄参数的调整装置能够实现图1至图2的方法实施例实现的各个过程,达到相同的技术效果,为避免重复,这里不再赘述。
基于此,本申请实施例提供的拍摄参数的调整装置,可以对视频中包括执行第一手语动作的拍摄对象的第一图像进行识别,得到与第一手语动作对应的拍摄对象的第一人体关键点,接着,基于根据第一人体关键点在第一图像中的第一坐标信息,确定用于表征拍摄对象在执行第一手语动作时的身体姿态、动作轨迹和面部形态的第一手语信息,然后,基于第一坐标信息和第一手语信息预测得到拍摄对象在执行第二手语动作时的第一人体关键点的第二坐标信息,根据第二坐标信息计算拍摄对象在执行与第一手语动作连续的第二手语动作是否会出现在摄像模组的拍摄范围内,若第二手语动作不会出现在摄像模组的拍摄范围内,无需拍摄对象自身调整位置,也无需拍摄者调整电子设备的位置,既可根据第二坐标信息调整拍摄参数,从而拍摄包括拍摄对象执行的第二手语动作的目标图像,如此,在无需用户手动调整电子设备的同时,还能保证用户连续的手语动作在视频录制的过程中始终都会出现在摄像头画面内,使得拍摄手语视频的过程简单,实现了提高拍摄手语视频效率,进而提成用户拍摄手语视频的成片率。
可选的,如图4所示,本申请实施例还提供一种电子设备40,包括处理器401和存储器402,存储器402上存储有可在处理器401上运行的程序或指令,该程序或指令被处理器401执行时实现上述拍摄参数的调整方法实施例的各个步骤,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要说明的是,本申请实施例中的电子设备包括上述的移动电子设备和非移动电子设备。
图5为本申请实施例提供的一种电子设备的硬件结构示意图。
该电子设备500包括但不限于:射频单元501、网络模块502、音频输出单元503、输入单元504、传感器505、显示单元506、用户输入单元507、接口单元508、存储器509、处理器510和摄像模组511等部件。
本领域技术人员可以理解,电子设备500还可以包括给各个部件供电的电源(比如电池),电源可以通过电源管理系统与处理器510逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图5中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,在此不再赘述。
其中,在本申请实施例中,处理器510,用于获取视频中的第一图像,第一图像包括执行第一手语动作的拍摄对象,第一手语动作对应拍摄对象的第一人体关键点。处理器510还用于,根据第一人体关键点在第一图像中的第一坐标信息,确定第一手语信息,第一手语信息用于表征拍摄对象在执行第一手语动作时的身体姿态、动作轨迹和面部形态。处理器510还用于,基于第一坐标信息和第一手语信息预测得到第二坐标信息,第二坐标信息为拍摄对象在执行第二手语动作时的第一人体关键点的坐标信息。处理器510还用于,基于第二坐标信息调整拍摄参数。
在一个或者多个可能的实施例中,本申请实施例提供的处理器510具体可以用于,在第一人体关键点包括N个手部关键点,第一坐标信息包括N个手部关键点中每个手部关键点的手部坐标信息,第一手语信息包括第一手型信息和第一相对位置信息,N为正整数的情况下,根据N个手部关键点中每个手部关键点的手部坐标信息,连接N个手部关键点,得到第一手型信息,第一手型信息包括手型轮廓和手部姿态;
根据第一手型信息,获取拍摄对象的手部的第一相对位置信息。
在另一个或者多个可能的实施例中,本申请实施例提供的处理器510具体可以用于,在人体关键点还包括人体的目标区域的目标区域关键点,目标区域包括以下至少一种:头部、躯干、颈部,第一坐标信息还包括与目标区域关键点对应的目标区域坐标信息,第一手语信息包括第二相对位置信息的情况下,根据目标区域坐标信息和每个手部关键点的手部坐标信息,获取两只手与目标区域的第二相对位置信息。
在又一个或者多个可能的实施例中,本申请实施例提供的处理器510具体可以用于,在人体关键点还包括M个嘴部关键点,第一坐标信息还包括M个嘴部关键点中每个嘴部关键点的嘴部坐标信息,第一手语信息包括第一嘴型信息和第一发音因素的情况下,根据M个嘴部关键点中每个嘴部关键点的嘴部坐标信息,连接M个嘴部关键点,得到第一嘴型信息,第一嘴型信息与在相同时刻的第一手型信息对应;
根据嘴型信息和发音因素的第三关联信息,获取与第一嘴型信息对应的第一发音因素。
在再一个或者多个可能的实施例中,本申请实施例提供的处理器510具体可以用于,根据第一人体关键点在第一图像中的第一坐标信息,获取与第一坐标信息对应的第一人体动作;
根据人体动作与词语的第二关联信息,获取与第一人体动作对应的第一词语;
将与第一词语对应的预设动作轨迹的坐标信息确定为第二坐标动作。
在再一个或者多个可能的实施例中,本申请实施例提供的处理器510具体可以用于,在第一图像包括R个第一图像,第一坐标信息包括R个第一图像的每个第一图像中第一人体关键点的坐标信息,坐标预测模型包括第一子模型,第二坐标信息包括第一目标坐标信息,R为大于1的正整数,坐标预测模型基于第二图像的第二人体关键点和第二手语信息训练得 到的情况下,将每个第一图像中第一人体关键点的坐标信息输入第一子模型,计算第一人体关键点在第一手语动作中的运动加速度;
根据运动加速度和第i个第一图像中的第一人体关键点的第一坐标信息,预测拍摄对象在执行第二手语动作时的第一人体关键点的第二目标坐标信息,其中,第i个第一图像为R个第一图像中的末尾图像。
在再一个或者多个可能的实施例中,本申请实施例提供的处理器510具体可以用于,在坐标预测模型包括第二子模型,第二坐标信息包括第二目标坐标信息的情况下,将第一手语信息输入第一子模型,计算拍摄对象在执行第一手语动作时的目标语义信息;
根据语义信息与动作轨迹的第四关联关系,获取与语义信息对应的目标动作轨迹;
根据第一手语动作在目标动作轨迹中的位置,确定拍摄对象在执行与第一手语动作相连接的第二手语动作时的第一人体关键点的第二目标坐标信息。
在再一个或者多个可能的实施例中,本申请实施例提供的处理器510具体可以用于,在拍摄参数包括拍摄模组的拍摄位置的情况下,在第二坐标信息超出拍摄第一图像的第一拍摄范围的情况下,根据第二坐标信息,控制拍摄模组按照移动控制线的移动方向移动至目标拍摄位置。
在再一个或者多个可能的实施例中,本申请实施例提供的处理器510具体可以用于,在拍摄参数包括景深参数的情况下,在第二坐标信息表征拍摄对象与拍摄模组之间的第一距离小于或者等于预设阈值的情况下,根据距离与景深的第五关联信息,获取与第一距离对应的第一景深参数;
调整拍摄第一图像的初始景深参数至第一景深参数。
应理解的是,输入单元504可以包括图形处理器(Graphics Processing Unit,GPU)5041和麦克风5042,图形处理器5041对在视频 捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图像或视频的图像数据进行处理。显示单元506可包括拍摄面板,可以采用液晶拍摄器、有机发光二极管等形式来配置拍摄面板。用户输入单元507包括触控面板5071以及其他输入设备5072中的至少一种。触控面板5071,也称为触摸屏。触控面板5071可包括触摸检测装置和触摸拍摄器两个部分。其他输入设备5072可以包括但不限于物理键盘、功能键(比如音量显示按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。
存储器509可用于存储软件程序以及各种数据,存储器509可主要包括存储程序或指令的第一存储区和存储数据的第二存储区,其中,第一存储区可存储操作系统、至少一个功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外,存储器509可以包括易失性存储器或非易失性存储器,或者,存储器509可以包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM,SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM,DRRAM)。本申请实施例中的存储器509包括但不限于这些和任意其它适合类型的存储器。存储器509可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声 音播放功能、图像播放功能等)等;存储数据区可存储根据移动终端的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器509可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
处理器510通过运行或执行存储在存储器509内的软件程序和/或模块,以及调用存储在存储器509内的数据。处理器510可包括一个或多个处理单元;可选的,处理器510集成应用处理器和调制解调处理器,其中,应用处理器主要处理涉及操作系统、用户界面和应用程序等的操作,调制解调处理器主要处理无线拍摄信号,如基带处理器。可以理解的是,上述调制解调处理器也可以不集成到处理器510中。
本申请实施例还提供一种可读存储介质,可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述拍摄参数的调整方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,处理器为上述实施例中的电子设备中的处理器。其中,可读存储介质,包括计算机可读存储介质,如计算机只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等。
另外,本申请实施例另提供了一种芯片,芯片包括处理器和显示接口,显示接口和处理器耦合,处理器用于运行程序或指令,实现上述拍摄参数的调整方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
应理解,本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。
本申请实施例提供一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一个处理器执行以实现如上述拍摄参数的调整方 法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
此外,需要指出的是,本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。

Claims (23)

  1. 一种拍摄参数的调整方法,包括:
    获取视频中的第一图像,所述第一图像包括执行第一手语动作的拍摄对象,所述第一手语动作对应所述拍摄对象的第一人体关键点;
    根据所述第一人体关键点在所述第一图像中的第一坐标信息,确定第一手语信息,所述第一手语信息用于表征所述拍摄对象在执行所述第一手语动作时的身体姿态、动作轨迹和面部形态;
    基于所述第一坐标信息和所述第一手语信息预测得到第二坐标信息,所述第二坐标信息为所述拍摄对象在执行第二手语动作时的第一人体关键点的坐标信息;
    基于所述第二坐标信息调整拍摄参数。
  2. 根据权利要求1所述的方法,其中,所述第一人体关键点包括N个手部关键点,所述第一坐标信息包括所述N个手部关键点中每个手部关键点的手部坐标信息,所述第一手语信息包括第一手型信息和第一相对位置信息,N为正整数;
    所述根据所述第一人体关键点在所述第一图像中的第一坐标信息,确定第一手语信息,包括:
    根据所述N个手部关键点中每个手部关键点的手部坐标信息,连接所述N个手部关键点,得到所述第一手型信息,所述第一手型信息包括手型轮廓和手部姿态;
    根据所述第一手型信息,获取所述拍摄对象的手部的第一相对位置信息。
  3. 根据权利要求2所述的方法,其中,所述人体关键点还包括人体的目标区域的目标区域关键点,所述目标区域包括以下至少一种:头部、躯 干、颈部,所述第一坐标信息还包括与所述目标区域关键点对应的目标区域坐标信息,所述第一手语信息包括第二相对位置信息;
    所述根据所述第一人体关键点在所述第一图像中的第一坐标信息,确定第一手语信息,包括:
    根据所述目标区域坐标信息和所述每个手部关键点的手部坐标信息,获取所述两只手与所述目标区域的第二相对位置信息。
  4. 根据权利要求2所述的方法,其中,所述人体关键点还包括M个嘴部关键点,所述第一坐标信息还包括所述M个嘴部关键点中每个嘴部关键点的嘴部坐标信息,所述第一手语信息包括第一嘴型信息和第一发音因素;
    所述根据所述第一人体关键点在所述第一图像中的第一坐标信息,确定第一手语信息,包括:
    根据所述M个嘴部关键点中每个嘴部关键点的嘴部坐标信息,连接所述M个嘴部关键点,得到第一嘴型信息,所述第一嘴型信息与在相同时刻的第一手型信息对应;
    根据嘴型信息和发音因素的第三关联信息,获取与所述第一嘴型信息对应的第一发音因素。
  5. 根据权利要求1所述的方法,其中,所述基于所述第一坐标信息和所述第一手语信息预测得到第二坐标信息,包括:
    根据所述第一人体关键点在所述第一图像中的第一坐标信息,获取与所述第一坐标信息对应的第一人体动作;
    根据人体动作与词语的第二关联信息,获取与所述第一人体动作对应的第一词语;
    将与所述第一词语对应的预设动作轨迹的坐标信息确定为所述第二坐标动作。
  6. 根据权利要求1所述的方法,其中,所述第一图像包括R个第一图像,所述第一坐标信息包括所述R个第一图像的每个第一图像中第一人体关键点的坐标信息,所述坐标预测模型包括第一子模型,所述第二坐标信息包括第一目标坐标信息,R为大于1的正整数,所述坐标预测模型基于第二图像的第二人体关键点和第二手语信息训练得到;
    所述基于所述第一坐标信息和所述第一手语信息预测得到第二坐标信息,包括:
    将所述每个第一图像中第一人体关键点的坐标信息输入所述第一子模型,计算所述第一人体关键点在所述第一手语动作中的运动加速度;
    根据所述运动加速度和第i个第一图像中的第一人体关键点的第一坐标信息,预测所述拍摄对象在执行第二手语动作时的第一人体关键点的第二目标坐标信息,其中,所述第i个第一图像为所述R个第一图像中的末尾图像。
  7. 根据权利要求6所述的方法,其中,所述坐标预测模型包括第二子模型,所述第二坐标信息包括第二目标坐标信息;
    所述将所述第一坐标信息和所述第一手语信息输入坐标预测模型,得到第二坐标信息,包括:
    将所述第一手语信息输入所述第一子模型,计算所述拍摄对象在执行所述第一手语动作时的目标语义信息;
    根据语义信息与动作轨迹的第四关联关系,获取与所述语义信息对应的目标动作轨迹;
    根据所述第一手语动作在所述目标动作轨迹中的位置,确定所述拍摄对象在执行与所述第一手语动作相连接的第二手语动作时的第一人体关键点的第二目标坐标信息。
  8. 根据权利要求1所述的方法,其中,所述拍摄参数包括拍摄模组的拍摄位置;所述基于所述第二坐标信息调整拍摄参数,包括:
    在所述第二坐标信息超出拍摄所述第一图像的第一拍摄范围的情况下,根据所述第二坐标信息,控制所述拍摄模组按照移动控制线的移动方向移动至目标拍摄位置。
  9. 根据权利要求1所述的方法,其中,所述拍摄参数包括景深参数;所述基于所述第二坐标信息调整拍摄参数,包括:
    在所述第二坐标信息表征所述拍摄对象与拍摄模组之间的第一距离小于或者等于预设阈值的情况下,根据距离与景深的第五关联信息,获取与所述第一距离对应的第一景深参数;
    调整拍摄所述第一图像的初始景深参数至所述第一景深参数。
  10. 一种拍摄参数的调整装置,包括:
    获取模块,用于获取视频中的第一图像,所述第一图像包括执行第一手语动作的拍摄对象,所述第一手语动作对应所述拍摄对象的第一人体关键点;
    确定模块,用于根据所述第一人体关键点在所述第一图像中的第一坐标信息,确定第一手语信息,所述第一手语信息用于表征所述拍摄对象在执行所述第一手语动作时的身体姿态、动作轨迹和面部形态;
    计算模块,用于基于所述第一坐标信息和所述第一手语信息预测得到第二坐标信息,所述第二坐标信息为所述拍摄对象在执行第二手语动作时的第一人体关键点的坐标信息;
    调整模块,用于基于所述第二坐标信息调整拍摄参数。
  11. 根据权利要求10所述的装置,其中,所述确定模块具体用于,在所述第一人体关键点包括N个手部关键点,所述第一坐标信息包括所述N个手部关键点中每个手部关键点的手部坐标信息,所述第一手语信息包括 第一手型信息和第一相对位置信息,N为正整数的情况下,根据所述N个手部关键点中每个手部关键点的手部坐标信息,连接所述N个手部关键点,得到所述第一手型信息,所述第一手型信息包括手型轮廓和手部姿态;以及,根据所述第一手型信息,获取所述拍摄对象的手部的第一相对位置信息。
  12. 根据权利要求11所述的装置,其中,所述确定模块具体用于,在所述人体关键点还包括人体的目标区域的目标区域关键点,所述目标区域包括以下至少一种:头部、躯干、颈部,所述第一坐标信息还包括与所述目标区域关键点对应的目标区域坐标信息,所述第一手语信息包括第二相对位置信息的情况下,根据所述目标区域坐标信息和所述每个手部关键点的手部坐标信息,获取所述两只手与所述目标区域的第二相对位置信息。
  13. 根据权利要求11所述的装置,其中,所述确定模块具体用于,在所述人体关键点还包括M个嘴部关键点,所述第一坐标信息还包括所述M个嘴部关键点中每个嘴部关键点的嘴部坐标信息,所述第一手语信息包括第一嘴型信息和第一发音因素的情况下,根据所述M个嘴部关键点中每个嘴部关键点的嘴部坐标信息,连接所述M个嘴部关键点,得到第一嘴型信息,所述第一嘴型信息与在相同时刻的第一手型信息对应;
    根据嘴型信息和发音因素的第三关联信息,获取与所述第一嘴型信息对应的第一发音因素。
  14. 根据权利要求10所述的装置,其中,所述计算模块具体用于,根据所述第一人体关键点在所述第一图像中的第一坐标信息,获取与所述第一坐标信息对应的第一人体动作;根据人体动作与词语的第二关联信息,获取与所述第一人体动作对应的第一词语;将与所述第一词语对应的预设动作轨迹的坐标信息确定为所述第二坐标动作。
  15. 根据权利要求10所述的装置,其中,所述计算模块具体用于,在所述第一图像包括R个第一图像,所述第一坐标信息包括所述R个第一图像的每个第一图像中第一人体关键点的坐标信息,所述坐标预测模型包括第一子模型,所述第二坐标信息包括第一目标坐标信息,R为大于1的正整数,所述坐标预测模型基于第二图像的第二人体关键点和第二手语信息训练得到的情况下,将所述每个第一图像中第一人体关键点的坐标信息输入所述第一子模型,计算所述第一人体关键点在所述第一手语动作中的运动加速度;
    根据所述运动加速度和第i个第一图像中的第一人体关键点的第一坐标信息,预测所述拍摄对象在执行第二手语动作时的第一人体关键点的第二目标坐标信息,其中,所述第i个第一图像为所述R个第一图像中的末尾图像。
  16. 根据权利要求15所述的装置,其中,所述计算模块具体用于,在所述坐标预测模型包括第二子模型,所述第二坐标信息包括第二目标坐标信息的情况下,将所述第一手语信息输入所述第一子模型,计算所述拍摄对象在执行所述第一手语动作时的目标语义信息;
    根据语义信息与动作轨迹的第四关联关系,获取与所述语义信息对应的目标动作轨迹;
    根据所述第一手语动作在所述目标动作轨迹中的位置,确定所述拍摄对象在执行与所述第一手语动作相连接的第二手语动作时的第一人体关键点的第二目标坐标信息。
  17. 根据权利要求10所述的装置,其中,所述调整模块具体用于,在所述拍摄参数包括拍摄模组的拍摄位置的情况下,在所述第二坐标信息超出拍摄所述第一图像的第一拍摄范围的情况下,根据所述第二坐标信息,控制所述拍摄模组按照移动控制线的移动方向移动至目标拍摄位置。
  18. 根据权利要求10所述的装置,其中,所述调整模块具体用于,在所述拍摄参数包括景深参数、且所述第二坐标信息表征所述拍摄对象与拍摄模组之间的第一距离小于或者等于预设阈值的情况下,根据距离与景深的第五关联信息,获取与所述第一距离对应的第一景深参数;
    调整拍摄所述第一图像的初始景深参数至所述第一景深参数。
  19. 一种电子设备,包括:处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1-9任一项所述的拍摄参数的调整方法的步骤。
  20. 一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1-9任一项所述的拍摄参数的调整方法的步骤。
  21. 一种电子设备,所述电子设备被配置用于执行如权利要求1至9任一项所述的拍摄参数的调整方法的步骤。
  22. 一种芯片,包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如权利要求1至9任一项所述的拍摄参数的调整方法的步骤。
  23. 一种计算机程序产品,所述计算机程序产品被存储在非瞬态存储介质中,所述计算机程序产品被至少一个处理器执行以实现如权利要求1至9任一项所述的拍摄参数的调整方法的步骤。
PCT/CN2023/118216 2022-09-16 2023-09-12 拍摄参数的调整方法、装置、电子设备和可读存储介质 WO2024055957A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202211130812.9 2022-09-16
CN202211130812.9A CN115484411A (zh) 2022-09-16 2022-09-16 拍摄参数的调整方法、装置、电子设备和可读存储介质

Publications (1)

Publication Number Publication Date
WO2024055957A1 true WO2024055957A1 (zh) 2024-03-21

Family

ID=84392814

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2023/118216 WO2024055957A1 (zh) 2022-09-16 2023-09-12 拍摄参数的调整方法、装置、电子设备和可读存储介质

Country Status (2)

Country Link
CN (1) CN115484411A (zh)
WO (1) WO2024055957A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115484411A (zh) * 2022-09-16 2022-12-16 维沃移动通信有限公司 拍摄参数的调整方法、装置、电子设备和可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007251756A (ja) * 2006-03-17 2007-09-27 Oki Electric Ind Co Ltd 撮像装置
JP2015001804A (ja) * 2013-06-14 2015-01-05 国立大学法人埼玉大学 ハンドジェスチャトラッキングシステム
CN108259703A (zh) * 2017-12-31 2018-07-06 深圳市秦墨科技有限公司 一种云台的跟拍控制方法、装置及云台
CN110232706A (zh) * 2019-06-12 2019-09-13 睿魔智能科技(深圳)有限公司 多人跟拍方法、装置、设备及存储介质
CN114845038A (zh) * 2021-02-02 2022-08-02 阿里巴巴集团控股有限公司 视频拍摄设备的拍摄调整方法、装置及电子设备
CN115484411A (zh) * 2022-09-16 2022-12-16 维沃移动通信有限公司 拍摄参数的调整方法、装置、电子设备和可读存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110086988A (zh) * 2019-04-24 2019-08-02 薄涛 拍摄角度调整方法、装置、设备及其存储介质
CN112887616B (zh) * 2021-01-27 2022-08-26 维沃移动通信有限公司 拍摄方法和拍摄装置
CN113723327A (zh) * 2021-09-06 2021-11-30 河海大学 一种基于深度学习的实时中文手语识别交互系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007251756A (ja) * 2006-03-17 2007-09-27 Oki Electric Ind Co Ltd 撮像装置
JP2015001804A (ja) * 2013-06-14 2015-01-05 国立大学法人埼玉大学 ハンドジェスチャトラッキングシステム
CN108259703A (zh) * 2017-12-31 2018-07-06 深圳市秦墨科技有限公司 一种云台的跟拍控制方法、装置及云台
CN110232706A (zh) * 2019-06-12 2019-09-13 睿魔智能科技(深圳)有限公司 多人跟拍方法、装置、设备及存储介质
CN114845038A (zh) * 2021-02-02 2022-08-02 阿里巴巴集团控股有限公司 视频拍摄设备的拍摄调整方法、装置及电子设备
CN115484411A (zh) * 2022-09-16 2022-12-16 维沃移动通信有限公司 拍摄参数的调整方法、装置、电子设备和可读存储介质

Also Published As

Publication number Publication date
CN115484411A (zh) 2022-12-16

Similar Documents

Publication Publication Date Title
US11379996B2 (en) Deformable object tracking
WO2020063009A1 (zh) 图像处理方法、装置、存储介质及电子设备
US11383166B2 (en) Interaction method of application scene, mobile terminal, and storage medium
CN106133648A (zh) 基于自适应单应性映射的眼睛凝视跟踪
CN105320262A (zh) 操作虚拟世界里的电脑和手机的方法、装置以及使用其的眼镜
AU2021290132B2 (en) Presenting avatars in three-dimensional environments
WO2024055957A1 (zh) 拍摄参数的调整方法、装置、电子设备和可读存储介质
CN111985268A (zh) 一种人脸驱动动画的方法和装置
WO2020244074A1 (zh) 表情交互方法、装置、计算机设备及可读存储介质
CN109325908B (zh) 图像处理方法及装置、电子设备和存储介质
WO2023173668A1 (zh) 一种虚拟场景中的输入识别方法、设备及存储介质
CN111161395A (zh) 一种人脸表情的跟踪方法、装置及电子设备
WO2022174594A1 (zh) 基于多相机的裸手追踪显示方法、装置及系统
WO2022121577A1 (zh) 图像处理方法及装置
WO2023273372A1 (zh) 手势识别对象确定方法及装置
CN111488774A (zh) 一种图像处理方法、装置和用于图像处理的装置
CN112541400A (zh) 基于视线估计的行为识别方法及装置、电子设备、存储介质
WO2020244160A1 (zh) 终端设备控制方法、装置、计算机设备及可读存储介质
CN111489284B (zh) 一种图像处理方法、装置和用于图像处理的装置
US20240096032A1 (en) Technology for replicating and/or controlling objects in extended reality
CN113657173A (zh) 一种数据处理方法、装置和用于数据处理的装置
CN113705280B (zh) 一种基于面部特征的人机交互方法及装置
CN110580733B (zh) 一种数据处理方法、装置和用于数据处理的装置
JP7483940B2 (ja) 顔イメージ生成方法、装置、電子機器及び可読記憶媒体
CN112887621B (zh) 控制方法和电子设备

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23864689

Country of ref document: EP

Kind code of ref document: A1