技术领域
[0001] 本发明涉及计算机视觉技术领域,特别是涉及一种基于机器导引动作的个性化运动处方定制方法及装置。
相关背景技术
[0002] 脊柱侧弯是一种常见的脊柱疾病,影响着人们的身体健康。传统的治疗方法包括手术、支具和物理治疗等。然而,这些方法往往存在一定的局限性,如手术风险高、支具佩戴不便、物理治疗缺乏个性化等。随着人工智能技术的发展,结合中医运动养生方法,为不同人群提供个性化的运动处方,形成闭环健康管理成为可能。对中医运动治疗时,需要对人体进行姿态预测、评估,以确保运动的准确性。
[0003] 目前,基于视频的三维人体姿态估计领域的计算量变得越来越大,限制了这个领域的进一步发展。在传统的基于转换器(Transformer)人体姿势估计模型中,需要通过处理长达数百帧的视频序列(通常是243帧乃至351帧)来实现卓越的性能表现,并且在Transformer的所有层中维持全长的序列表示。然而,由于转换器中自注意力机制的计算复杂度与标记(Token)数量(即视频帧数)的平方成正比关系,当处理具有较高时序分辨率的视频输入时,这些模型不可避免地带来了巨大的计算开销,使得它们难以被广泛部署到计算资源有限的实际应用中。虽然直接减短输入序列的长度能够提升转换器的效率,但这样做会缩小模型的时间感受野,进而限制模型捕获丰富的时空信息,对性能提升构成制约。因此,在追求高效设计策略时,维持一个较大的时间感受野对于实现精确的估计是至关重要的。此外,由于相邻帧之间动作的相似性,视频中经常包含大量的冗余信息。在转换器架构中,随着层的加深,标记之间的差异性越来越小,从而引入无效的计算。
[0004] 随着网络变得越来越复杂,现在技术的主要瓶颈是足够大的训练数据集的可用性,这通常需要大量的注释工作。尽管这样的努力对于少数受试者和特定动作(如步行或跑步)可能是可行的,但涵盖整个人的身体形状、外观和姿态的范围是不切实际的。因此,减少达到所需性能水平所需的注释量的弱监督方法是有价值的。例如,基于3D骨架关节点跟踪的方法不仅可以使用实际的3D注释进行训练,还可以使用2D注释和多视角镜头。一些方法完全不使用2D注释,而是利用由同步摄像机获取的序列中的多视角几何信息。然而,这些方法仍然需要足够好的3D训练集来初始化学习过程,这限制了使用未标记样本带来的优势。
[0005] 因此,亟需一种能够对身体形状、外观和姿态等信息进行处理,进而对人体运动姿态进行准确跟踪、评估的方案,并为用户提供个性化的运动建议和健康管理方案。
具体实施方式
[0037] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0038] 本发明的目的是提供一种基于机器导引动作的个性化运动处方定制方法及装置,能够根据采集的人体生理数据生成体检报告,并通过对采集的人体动作图像进行处理分析实现动作跟踪、姿态评估,生成符合用户个体特征的个性化的运动处方。
[0039] 为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
[0040] 实施例1
[0041] 如图1‑3所示,本发明实施例提供的一种基于机器导引动作的个性化运动处方定制装置,包括:
[0042] 体检报告生成模块,用于基于人体影像学资料,获取人体的生理数据得到体检报告;
[0043] 基于人体的RGBD图像,获取人体的生理数据,确定脊柱关键点,并对Cobb角进行估计,得到脊柱体检报告;
[0044] 运动图像采集模块,用于采集进行康复运动的用户的人体动作图像序列;
[0045] 智能分析模块包括特征提取模块和姿势跟踪模块,所述特征提取模块用于采用无监督学习方式训练自编码器,通过所述自编码器来提取所述人体动作图像序列中的3D几何特征,并将所述3D几何特征按照时间序列传输给姿势跟踪模块;所述姿势跟踪模块用于基于少样本学习方式训练倒置转换器,并通过倒置转换器自身的注意力机制,根据所述3D几何特征进行姿势的识别、评估,得到评估结果,并预测人体的3D姿态;
[0046] 个性化服务生成模块,用于根据所述脊柱体检报告和所述评估结果,生成符合用户个体特征的个性化运动处方。
[0047] 进一步的实施例中,所述体检报告生成模块包括脊柱侧弯检测模块,所述脊柱侧弯检测模块用于脊柱侧弯检测:基于人体的RGBD图像,获取人体的生理数据,确定脊柱关键点,并对Cobb角进行估计,得到脊柱体检报告。
[0048] 本实施例中,所述装置可设计成两个阶段,以八段锦动作为例,通过个性化运动处方系统指导学员提高八段锦动作的质量,技术路线如图2所示。在筛查阶段,该平台将利用体检报告生成模块收集用户的生理数据信息,这些数据将为后续的智能分析提供基础,确保了运动处方的科学性和个性化。在治疗阶段,用户进行八段锦运动,个性化运动系统采集动作视频;紧接着,平台将进入智能分析过程,运用深度学习、数据挖掘和模式识别等技术对采集到的数据进行处理和分析。在这一过程,将包含动作预测功能和姿态识别及评测功能,对用户的动作状况进行评估,并预测其动作趋势,为制定个性化的运动处方打下坚实的基础。随后,平台将重点放在个性化服务的生成上。依据智能分析的结果,平台将设计一套算法,自动生成符合用户个体特征的运动处方。
[0049] 本实施例中,所述自编码器由一个编码器和一个解码器组成,所述编码器用于获取所述人体动作图像序列,将输入的人体动作图像序列(该人体动作图像序列为多视角图像)转换为低维的隐空间表示,所述隐空间表示中编码了人体的3D姿态、几何、外观以及背景信息;所述解码器用于将所述隐空间表示重构回人体中各个部位的图像。
[0050] 本实施例中,姿势跟踪模块采用倒置转换器,所述倒置转换器包括多通道注意力模块、归一化模块、前馈网络、多层感知器网络,所述前馈网络用于预测人体的3D姿态。
[0051] 本实施例,为了使隐空间表示L能够容易地解码为其各个身体部位,从图像中学习3D app
到身体3D姿态和几何、外观和背景的独立表示,分别称它们为L 、L 和B。编码器E有两个输
3D app IJ 3D app
出,即L 、L ,译码器D有三个输入,即R L 、L 和B,如式(1)所示。从运动序列中取三元组,计算损失函数如式(2)所示。
[0052]
[0053]ij
[0054] 其中,θe为编码器的参数,θd为译码器的参数,为t时刻第i个相机的输入图像,Rj为从相机i到相机j的旋转矩阵, 为时刻相机i图像中学习到的表观特征,B 是相机j图像中的背景信息(一般由中值滤波获得)。
[0055] 现有的3D人体姿态估计技术依赖于深度网络,这需要大量的训练数据。尽管弱监督方法减少了监督的需求,通过利用2D姿态或多视角图像而不是注释来进行学习,但它们仍然需要足够数量的3D标注样本集以成功学习。为了克服这个问题,本发明中智能导引动作方法是采用无监督学习和少样本学习相结合的方式实现的:
[0056] 首先是无监督学习方式,采用自编码器模型对人体特征进行提取,在提取的特征中包括等变特征(3D的几何敏感特征)和不变特征(表观特征),然后是少样本学习方式,把3D几何特征按照时间序列输入给倒置转换器(iTransformer),如图5所示,通过自注意力机制(多变量互相关性分析),可以对运动规范性进行评估,通过前馈网络(FFN)可以对综合时间序列运动的相关性,从而达到既减低计算复杂度又提高预测精度的目的。
[0057] 由于Transformer模型在处理某些特定任务时会遇到的一些挑战,当预测具有较大回顾窗口的序列时,Transformer的性能会下降,同时计算量会显著增加。此外,每个时间标记的统一嵌入融合了具有潜在不对齐时间戳和不同物理测量值的多个变量,这可能无法学习以变量为中心的表示并导致无意义的注意力图。本发明考虑了Transformer各个组件的功能,在没有对Transformer的基本组件进行调整的情况下重新设计了Transformer架构,提出了一种倒置注意力机制和前馈网络相结合的iTransformer,将单个人体骨架关节点的时间序列轨迹嵌入到变量标记中,由注意力机制利用变量标记来获取多变量相关性;同时,对每个变量标记通过前馈网络学习非线性表征。
[0058] 本实施例中,使用自编码器(autodecoder)进行特征提取,采用倒置变换器(iTransformer)进行姿势跟踪。首先通过自编码器进行特征提取,自编码器由一个编码器E和一个解码器D组成,如图4所示,编码器将输入的多视角图像转换为低维的隐空间表示,而解码器则将这些隐表示重构回图像。这种隐空间不仅编码了3D几何信息,还编码了人体的外观和背景信息。为了有效地从隐空间中提取特征,所述自编码器采用级联CNN结构,该结构通过多个卷积块和池化层逐步降低图像的空间维度,同时增加特征通道数,以捕获多尺度的特征。此外,通过随机的平面内旋转对训练图像进行增强,以提高模型对视角变化的鲁棒性。接下来,将倒置变换器应用于隐空间的序列数据,以进行实时的姿势跟踪(如图6所示)。倒置变换器利用其自注意力机制,能够处理长距离依赖问题,并捕捉视频中不同位置的姿态变化。再训练前馈网络(FFN),使其能够根据连续帧中的隐表示预测人体的3D姿态。倒置变换器的输入是自编码器输出的一系列隐表示,输出是对应于若干帧的关键点位置。
在训练过程中,首先无监督地训练自编码器,利用多视角图像学习人体几何的隐表示。随后,使用少量标记数据对倒置变换器进行监督学习,使其能够从隐表示中准确预测3D姿态,损失函数如式(3)所示,这种半监督学习方法使系统能够在注释数据稀缺的情况下,实现高精度的人体姿态估计。
[0059]
[0060] 其中,M为时间序列的长度,N为人体骨架关节点, 为t时刻第i个节点基准3D坐标, 为t时刻根节点的基准3D坐标, 为t时刻第i个节点预测3D坐标, 为t时刻根节点的预测3D坐标,根节点为从人体骨架关节点中选出的一个作为基准的关节点,比如肚脐。
[0061] 通过这种设计,所述装置结合了自编码器在无监督特征学习方面的优势和倒置变换器在处理时间序列数据方面的灵活性,为个性化运动处方定制平台提供了一个强大且鲁棒的解决方案。
[0062] 本实施例中,所述装置还包括语音提示模块,用于根据用户动作特点以语音方式进行在线反馈和优化动作提示,实现“智能教练员”功能,即通过语音反馈和优化动作提示,通过收集用户动作特点和监测动作得分,提高用户的动作规范性和治疗效果,进而提升平台的实用性和用户满意度。
[0063] 本实施例中,所述图像采集模块包括多个相机,所述多个相机经过同步校准并在使用之前进行标定,以确定各相机之间的相对位姿。
[0064] 本实施例中,所述处方包括运动提示、得分、强度和持续时间等多个维度,以满足不同用户的特定需求。
[0065] 实施例2
[0066] 基于实施例1所述基于机器导引动作的个性化运动处方定制装置,本实施例提供了基于机器导引动作的个性化运动处方定制系统的实现方式有两种,如图7所示。其中,机柜适合部署在体验馆场景,该场景电源充沛,算力强,模型复杂。手机适合部署在移动场景,该场景电源功耗低,计算能力弱,采用轻量模型。各模块的功能如下:
[0067] 相机:采集运动视频序列;
[0068] 显示屏:显示视频序列;
[0069] 音箱:发出语言提示;
[0070] CPU模块:主控单元;
[0071] GPU模块:运算加速;
[0072] Wifi模块:通信单元;
[0073] 存储模块:保存运动数据;
[0074] 内存模块:数据暂存单元;
[0075] 电源模块:动力单元;
[0076] 画中画:单屏多显模式。
[0077] 实施例3
[0078] 本实施例提供了一种基于机器导引动作的个性化运动处方定制方法,应用于实施例1所述的基于机器导引动作的个性化运动处方定制装置,所述方法分为筛查阶段、治疗阶段,具体包括以下步骤:
[0079] S1、在筛查阶段,体检报告生成模块根据人体影像学资料来获取人体的生理数据,得到体检报告;
[0080] S2、进入治疗阶段,由运动图像采集模块采集进行康复运动的用户的人体动作图像序列;
[0081] S3、智能分析模块开始工作:特征提取模块采用无监督学习方式训练自编码器,通过所述自编码器来提取所述人体动作图像序列中的3D几何特征,并将所述3D几何特征按照时间序列传输给姿势跟踪模块;姿势跟踪模块采用少样本学习方式训练倒置转换器,并通过倒置转换器自身的注意力机制,根据所述3D几何特征进行姿势的识别、评估,得到评估结果,并预测人体的3D姿态;
[0082] S4、通过个性化服务生成模块,根据所述脊柱体检报告和所述评估结果,生成符合用户个体特征的个性化运动处方。
[0083] 进一步的实施例中,所述S1、由体检报告生成模块根据人体影像学资料来获取人体的生理数据,得到体检报告,具体可以包括:通过脊柱侧弯检测模块,基于人体的RGBD图像,获取人体的生理数据,确定脊柱关键点,并对Cobb角进行估计,得到脊柱体检报告。在此基础上,最终生成用于预防和校正脊柱侧弯的运动处方。
[0084] 本实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现所述的基于机器导引动作的个性化运动处方定制方法。
[0085] 综上,本发明提供的基于机器导引动作的个性化运动处方定制方法及装置中,结合了自编码器在无监督特征学习方面的优势和倒置变换器在处理时间序列数据方面的灵活性,为个性化运动处方定制平台提供了一个强大且鲁棒的解决方案,能够根据所述体检报告(比如脊柱体检报告)和所述评估结果,生成符合用户个体特征的个性化运动处方,为用户提供科学、精准的运动建议和健康管理方案。
[0086] 在本实施例中的其余技术特征,本领域技术人员均可以根据实际情况进行灵活选用以满足不同的具体实际需求。然而,对于本领域普通技术人员显而易见的是:不必采用这些特定细节来实行本发明。在其他实例中,为了避免混淆本发明,未具体描述公知的组成,结构或部件,均在本发明的权利要求书请求保护的技术方案限定技术保护范围之内。
[0087] 本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。在以上描述中,为了提供对本发明的透彻理解,阐述了大量特定细节。然而,对于本领域普通技术人员显而易见的是:不必采用这些特定细节来实行本发明。在其他实例中,为了避免混淆本发明,未具体描述公知的技术,例如具体的施工细节,作业条件和其他的技术条件等。
[0088] 本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。