返回列表 发布新帖

舞蹈的计算运动学:区分嘻哈流派

320 0
发表于 2024-9-10 13:12:45 | 查看全部 阅读模式
本帖最后由 华南人王 于 2024-9-10 13:36 编辑

舞蹈的计算运动学:区分嘻哈流派



该论文于2024年5月2日被机器人和前沿收录




舞蹈在人类社会中扮演着重要的角色,跨越了时间和文化,不同的社区发明了不同的系统,通过动作(流派)进行艺术表达。专家可以用语言和动作来描述不同流派之间的差异,但只有具有一定背景能力的人才能理解这些描述。现有的舞蹈符号方案可以用于描述流派差异,但它们远远不能捕捉到各种流派中动作的重要细节。我们关于舞蹈的知识和实践将受益于一种通用的、定量的、人类可理解的方法来描述任何舞蹈风格各方面之间的有意义差异;舞蹈的计算运动学。在这里,我们介绍并应用了一种新颖的系统,将身体运动编码为 17 个宏观的、可解释的特征,例如身体的扩张度或剧烈运动的频率。我们使用这种编码来分析嘻哈舞蹈流派,部分是通过构建一个低成本的机器学习分类器来高精度地区分流派。我们的研究依赖于一个开放数据集 (AIST++),其中包含舞者的姿势序列,这些舞者被要求表演十种嘻哈舞流派之一,例如霹雳舞、波普舞或 Krump。为了进行比较,我们评估了有中等经验的人类观察者仅从动作中辨别这些序列的流派的能力(38%,其中机会 = 10%)。基线 Ridge 分类器模型的性能一般(48%),而由我们的自动机器学习管道产生的模型的性能很强(76%)。这表明所选特征代表了动作的重要维度,可以表达这些舞蹈形式中体现的态度、故事和审美价值观。我们的研究为研究流派之间的相似性和差异性的重要关系提供了一个新的窗口。鉴于这些流派丰富、复杂且受文化影响的性质、我们特征的可解释性以及所使用的轻量级技术,我们的方法具有巨大的潜力可以推广到其他运动领域和与运动相关的应用。






1 简介我们移动身体的方式富含深意。轻微歪头或挪动双脚就能意味深长。这些内涵有些是故意的,有些是特定于文化或地域的,有些源自我们在世界上的具体活动的史前方面。表现性动作在舞蹈中也许最为生动,舞蹈通过雕刻、探索和创作来实现艺术目的。舞蹈的复杂性和文化塑造性对形式分析提出了挑战。尽管专家们对舞蹈风格有了内隐的理解,有些专家能用语言表达风格的组成部分,但开发有效量化方法的工作却非常有限。有记录舞蹈动作的记谱法,如拉班记谱法和贝内什记谱法,它们是重要工具,尤其是用于记录古典西方风格(Guest 和 Anderson,1970)。一些机器人研究人员已经开发出定量方法来表示舞蹈的抽象元素,借鉴拉班舞谱或专注于芭蕾舞等特定舞蹈形式(LaViers 等人,2011 年;El Raheb 和 Ioannidis,2013 年;Pakrasi 等人,2018 年)。然而,这些方法在精确度和普遍性方面受到很大限制。据我们所知,目前还没有可通过算法实现的全身运动描述,能够捕捉到不同舞蹈类型中运动的重要方面。在这里,我们介绍并研究了一个旨在填补这一空白的系统——计算运动学。通过将我们的系统应用于质感丰富的嘻哈舞领域,我们发现了易于解释的运动方面,这些方面会对嘻哈舞者的态度或审美产生影响。我们还对这些流派的特点及其之间的关系有了新的认识。
舞蹈流派作为不同社区的独特表达方式出现,现代嘻哈流派的社会历史背景使其成为重要的研究课题(《舞蹈新文化研究》,1997 年;Thomas,2003 年;Bennett,2022 年)。嘻哈起源于 70 年代纽约市的黑人和拉丁裔社区,根植于非洲侨民音乐和运动形式(Rivera,2003 年;Chang,2005 年;Schloss,2009 年;Charnas,2010 年;Morgan and Bennett,2011 年;Durden,2022 年)。到 80 年代,嘻哈迅速超越了其最初的诞生地,通过媒体技术在全球范围内蓬勃发展。《灵魂列车》等电视节目和《霹雳舞》等电影将嘻哈带给了国际观众。像 Rock Steady Crew 和 Electric Boogaloos 这样的精英舞者和团体开始四处旅行分享他们的技艺并参加国际比赛,后来互联网大大提升了嘻哈的知名度。嘻哈与商业领域的交织支持了这种全球化,尤其是娱乐和时尚,它们经常采用并促成嘻哈美学(Osumare,2007;Bennett,2022)。嘻哈舞文化强调包容性和社区性,不需要正规培训和著名的场地,而是邀请舞者与邻居和家人交谈,并通过独特的动作来区分自己。这种舞蹈形式成为这些社区在面对制度边缘化和污名化时表达团结和抵抗的媒介,而嘻哈运动所体现的观点在科学和技术调查中经常被忽视。鉴于其参与精神、对个人风格的重视以及与当地环境和商业的紧密联系,嘻哈舞在世界各地的街头和舞台上经历了快速而广泛的“流派化”。这使得嘻哈舞成为理想的研究主题,可以探索一种新的计算方法来发展围绕表现性动作的知识。
当下,利用计算工具的进步来进一步加深我们对舞蹈和动作的理解具有巨大的潜力。姿势估计和机器学习技术的重大进步(Wang 等人,2021 年;Wang 和 Yan,2023 年)以及大型免费动作数据集的汇编(包括根据流派标记的舞蹈序列数据集(Castro 等人,2018 年;Li 等人,2021 年)带来了新的机遇。然而,使用这些工具提取舞蹈的有意义的特质存在着巨大的挑战。考虑一下,一种流派可能以相对公共性而非对抗性而脱颖而出,就像 House 与霹雳舞相比一样,或者以平易近人而非怪诞而脱颖而出,就像 LA Hip Hop 与 Krump 相比一样(DeFrantz,2022 年)。这些舞蹈形式的特质可以从音乐或布景等情境元素中解脱出来,因​​此它们应该在动作数据中具有可靠的呈现形式。然而,它们通过改变身体各个部位的动态来展现,与视频两帧之间的姿势变化没有直接关系。虽然观众通常可以感知动作的抽象特征,但需要大量的专业知识才能详细描述它们。要形式化这些帧与帧之间关节位置变化的数学函数差异,需要融合计算技术和舞蹈知识。
我们引入了一种新颖的编码和分析人体动作的系统,将我们的方法应用于十种嘻哈舞流派的分析,并利用它来装备机器学习系统,以高精度区分这些流派(图 1)。根据我们在舞蹈和人体动作方面的个人经验,我们开发了一组 17 个人类可理解的动作特征,例如身体扩张、脚踝抬起或剧烈动作的频率。我们从 AIST++ 数据集(Li et al., 2021)中的序列中提取这些特征,并训练机器学习分类器从这些动作数据中识别流派(不使用听觉信息)。我们对这些数据中的特征进行了统计分析,根据几个指标评估了分类器的性能,并检查了各种特征对模型分类的影响。

[size=0.875]图 1

图 1.用于对嘻哈舞蹈流派进行分类的机器学习流程概述。(A)第一阶段涉及从舞者的表演中提取姿势数据,此处可视化为舞者表演中叠加的骨骼姿势(B)然后将这些原始姿势数据转换为一组高级特征,此处用虚线和符号表示(C)根据特征比较数据集中的流派(D)机器学习分类器使用这些特征对舞蹈的流派进行预测,此处通过条形图可视化表示模型的概率评估和对流派的预测。舞者图像由 TheFlavorContinues.org 提供。



为了与我们的自动化系统进行比较,我们还研究了人类对这些动作类型的感知。已有研究调查了人类区分各种抽象类别和最小动作表现的能力,包括情绪、性别和特定个体(Johansson,1973;Dittrich 等人,1996;Brownlow 等人,1997;Sevdalis 和 Keller,2012)。在某些情况下,人类可以非常快速地识别出舞蹈的类型,但这种能力因经验和类型而异(Calvo-Merino 等人,2005)。我们进行了一项在线实验,向受试者展示来自数据集的简化舞蹈火柴人片段,并要求他们识别舞蹈类型。
2 相关工作现有的动作分类方法分为两类:一类主要依靠深度学习系统来寻找可用于分类任务的动作特征,另一类依靠手工制作的动作特征(Wang and Yan,2023 年),(Pareek and Thakkar,2021 年)。手工制作方法在计算成本和模型的可解释性方面具有优势,但近年来,深度学习方法往往表现优于手工制作方法,并已成为标准。
先前研究中使用的手工特征捕捉到了运动的低级方面,重点关注单个像素或特定关键点的局部运动。例如,一种流行的方法是光流,它以每个像素的明显运动的方向和速度来表示两个连续帧之间的运动模式。其他技术包括依赖运动梯度直方图 (HOG),使用相邻像素之间的强度或颜色变化来捕捉身体局部运动的方向和幅度,或依赖身体上每对关节之间的运动协方差。这些技术中的每一种本质上都将运动分解为许多局部测量,从而产生可用于各种计算分类方法的长特征向量(通常每帧数百个值)。
通过深度学习算法提取学习到的特征,这些特征在人体动作识别 (HAR) 中越来越受欢迎。这些网络的输入是每帧的详细身体表征,可以通过所选的姿势估计方法获得,有时也可以通过上述手工测量获得。一种常用的模型是带皮多人线性 (SMPL) 模型,该模型使用数百万个顶点创建覆盖所描绘人体形状的详细网格(Loper 等人,2015 年)。最近的方法已经超越了在每帧内查看,使用跨帧关系来得出时间特征。例如,时空图卷积网络 (ST-GCN) 可以捕捉骨骼运动的动态模式,为识别人类动作提供有用的框架(Yan 等人,2018 年)。另一项最新技术是 PoseConv3D,它在此方法的基础上将人体骨骼表示为 3D 热图体积而不是图形序列,从而增强了对姿势估计噪声的鲁棒性(Duan 等人,2022 年)。这些方法结合了时间信息并利用深度学习,为对复杂运动进行分类提供了强大的手段,尽管它们通常具有很高的计算要求和可解释性的挑战。
舞蹈的计算流派分类是人类行为分类领域的一个相对较新的前沿,只有少数人提供了对舞蹈风格差异进行建模的方法。其中一项努力是探索音乐流派对即兴动作的影响的研究(Carlson 等人,2020 年)。这些研究人员使用根据流派标记的音乐作为刺激,提示参与者自由跳舞,并使用机器学习来预测音乐流派。对于一个 8 类问题,他们的模型的表现高于偶然性,为 23.5%(偶然性为 12.5%)。值得注意的是,该模型在识别个体舞者方面比辨别音乐流派要好得多,这表明特定人的动作风格特质比流派的标志更容易辨别出来,至少对于流行的技巧而言是这样。另一项研究与我们的研究最为接近,因为它明确研究了舞蹈动作的流派,该研究使用了“Let's Dance”数据集,该数据集包含来自广泛历史和文化背景的 10 个流派的 1000 个舞蹈视频(Castro 等人,2018 年)。本研究中表现最佳的方法是使用 RGB 图像数据(每帧)和光流数据(帧之间)作为卷积神经网络 (CNN) 的输入。该方法取得了显著的成功,流派分类准确率在最佳情况下达到 70% 左右。与我们依赖的 AIST++ 数据集相比,“Let's Dance”数据集由较短(10 秒)的序列组成,仅包含 2D 数据,并且包含更具社会历史特色且遵循更严格的动作惯例的流派,使初学者更容易区分。这些研究强调了在对表征舞蹈流派的人体动作方面进行计算建模方面面临的持续挑战和进展。
AIST++ 数据集是最大的、最丰富的复杂人体运动 3D 关节位置公共数据集之一,也是唯一包含标记的嘻哈舞流派的数据集。该数据集推动了以 AIST++ 流派为条件的舞蹈序列计算生成的激动人心的发展(Li 等人,2021 年)、(Siyao 等人,2022 年;Tseng 等人,2022 年)。Li 等人的“AI Choreographer”的方法依赖于基于变压器的模型,该模型经过训练可根据流派预测未来的运动帧。该模型对运动和音乐信息使用单独的变压器,每个变压器都根据流派进行标记。跨模态变压器用于学习运动和音乐嵌入之间的对应关系。他们的系统生成的人为动作被判定为比用作基线的其他三种方法更适合音乐。Siyao 等人和 Tseng 等人进一步改进了运动和音乐处理模型,在用户研究中的表现优于 Li 等人。他们使用基于变换器的扩散模型进行运动,使用辅助损失来增强运动真实感,并补充了一个专门用于提取音乐特征的工具。Siyao 等人引入了一个称为“编舞记忆”的新组件,由矢量量化变分自动编码器 (VQ-VAE) 实现。这使他们的系统能够学习和回忆常见的舞蹈姿势,有助于生成更接近人类风格的舞蹈动作。总的来说,这些研究在生成新颖、音乐上恰当、像人类一样的舞蹈动作方面取得了创新进展。然而,它们需要复杂的、高计算成本的技术,涉及深度神经网络和大特征向量。相比之下,我们的工作提出了一种更稀疏但更有效的方法,利用一组精选的 17 个人类可理解的特征来对舞蹈类型进行分类和分析。我们的方法成本低廉,结果易于解释,有助于更好地理解嘻哈舞中富有表现力的动作。鉴于嘻哈舞流派的差异性丰富、复杂且受文化影响,我们的方法具有极高的推广潜力,可以推广到其他动作领域和与动作相关的应用。
3 方法3.1 数据我们使用 AIST++ 舞蹈动作数据集中收集的不同舞蹈流派的关节位置序列。该数据集由 AIST 舞蹈视频数据库构建,包含以每秒 60 帧的速度捕获的 1,408 个 3D 人体舞蹈动作序列(Tsuchida,2023 年)、(Li 等人,2021 年)。这些舞蹈序列的持续时间范围从 7.4 秒到 48.0 秒,均匀分布在十种舞蹈流派中:芭蕾爵士舞、霹雳舞、House、Krump、LA Hip Hop、Lock、Middle Hip Hop、Pop、Street Jazz 和 Waack。这些序列代表了每个流派中的各种动作,总共超过 5 小时的舞蹈镜头。该数据集是复杂人体运动中最大的、最丰富的公开 3D 关键点集合之一,也是唯一按流派标记的嘻哈运动集合。
重要的是,关键点数据分为“基本”和“高级”序列。基本序列平均长度为 9.25 秒(SD 1.6),倾向于描绘重复多次的标准舞蹈动作。高级序列平均长度约为 36.5 秒(SD 6.1),更具动态性和个性化。基本序列比高级序列多得多;分别约为 1200 和 200。我们认为在高级作品上测试流派分类是最有趣的,因为需要更通用的流派表示来识别更长、更多变的序列。此外,给定一个几乎完全由基本序列(>90%)组成的训练集,我们的模型必须能够进行一定的概括才能在完全由高级作品组成的测试集上取得成功。因此,针对此数据集的这一分割提出的流派分类任务的解决方案需要一种处理复杂运动数据的多功能方法。
3.2 特点在广泛参与、观察和讨论各种舞蹈类型后,我们寻求对人体运动的高级方面进行编码,使动作在视觉和动觉上彼此区别开来。为了提取特征,我们开发了一个流程,用于处理 3D 关节位置数据并输出矢量化的舞蹈序列。该流程首先从原始数据中得出一些基本测量值:它近似骶骨的位置并计算每个关节位置的前三个导数——速度、加速度和急动度。使用 Savitzky-Golay 滤波器(Savitzky 和 ​​Golay,1964)来平滑这些导出的测量值,在保留整体趋势的同时降低噪音。这些计算为将我们的 17 个特征提取为舞蹈序列的矢量表示奠定了基础。我们的方法足够灵活,可以适应各种关节数据阵列,并且可以直接细化或增强特征,使其适用于对舞蹈和动作的各种研究。
我们使用的特征可以分为四大类:(1)骶骨运动,(2)四肢运动,(3)以骶骨为中心的整体角动量,(4)身体从骶骨扩张的程度。
骶骨位于脊柱底部,在所有全身运动的力学中起着关键作用。力量必须穿过脊柱才能引导身体其他部位的运动,这意味着整体运动的程度或类型的巨大差异会反映在骶骨运动中。骶骨还可以提供 XZ 平面平移运动程度和 Y 维度舞蹈起伏的简单近似值。AIST++ 数据集使用常见的 COCO 人体姿势格式,省略了骶骨(和脊柱的其他部分)。为了克服这个问题,我们通过平均髋关节的坐标来近似骶骨的位置。从中,我们提取了骶骨运动的几个指标,使我们能够捕捉舞蹈的基本动态。
手腕和脚踝在舞蹈的整体印象和表演中起着至关重要的作用。手腕的运动模式对舞蹈的感觉有很大的影响,比如当它们充满活力地张开或懒洋洋地在空间中移动时。脚踝是与地面的接触点,因此可以显著反映舞者的体重分布情况。脚踝抬离地面的程度和速度可以区分出强调轻盈、跳跃动作或断奏步法或稳定性和扎实性的舞蹈风格。通过跟踪这些肢体,我们可以捕捉到舞者与空间和节奏的关系的重要组成部分。
骶骨周围的角动量反映了舞者旋转或扭动的程度。舞蹈中充满了旋转,旋转有多种形式——快、慢、上升、下降、向内拉(向心)或向外螺旋(离心)。此外,尖锐的舞蹈动作会随着时间的推移转化为角动量轨迹的峰值,这些峰值可以计算出来,以衡量舞蹈中包含了多少尖锐的动作以及在哪些方向上。
最后,舞者使用空间的一个重要方面是他们的身体如何扩张或收缩,以及这在整个舞蹈中如何变化。例如,宽阔、开放的动作可以暗示快乐、力量或自由,而紧凑的动作可以唤起内省、克制或悲伤。当然,这些表达方式因环境而异,但舞者的扩张程度与他们舞蹈的整体风格有很大关系。
在上述每个运动特征类别中,我们得出 2 到 6 个相关度量,最终特征向量总长度为 17。因此,我们得到了姿势序列的低维表示,其中每个特征直接反映身体运动的抽象但直观的方面。
这里我们给出了特征子集的数学表达式。其余特征可以直接从这些表达式中推导出来。



让SPi代表序列中第i帧的三维骶骨位置(假设帧与帧之间的间隔是恒定的),可以使用有限差分法来估计运动的前三个导数SVi(速度)、SAi(加速度)和SJi(冲量)如下:
   


为了适应位置估计中的噪声,我们在每次离散差分计算之后使用了Savitsky-Golay平滑滤波器。骶骨冲量特征就是序列的平均冲量幅度,通过计算SJi的绝对值之和,然后除以帧数N来得到。


踝关节或腕关节的加速度可以通过上述有限差分法得出,该方法专门应用于所涉及的关节。此外,使用踝关节在Y维度的位置,即YRankle,i和YLankle,i,可以从任一脚踝的最小值确定地面高度。踝关节高度可以从每个帧的踝关节位置中减去这个值来得到每帧的高度Hi,并通过平均序列中所有帧的高度来计算。



给定骶骨位置SPi,对于每个非骶骨关节j,让Pji代表第i帧中关节的三维位置向量,Vji代表其速度向量。通过从Pji中减去SPi,我们得到Rji,即每个关节相对于骶骨的位置。第j个关节在第i帧的角动量Lij是Rji和|Vji|的叉积。通过求和并除以关节数J和帧数N,我们可以得到平均角动量。通过仅观察X和Z维度中的角动量,我们可以推导出舞者在水平方向的旋转。



最后,每个关节j在第i帧相对于骶骨的距离Dji由上述相对位置向量Rji的模给出。通过将Dji求和并除以关节数和帧数,我们可以得到平均扩展度(mean expandedness)。



我们在小提琴图中可视化了这四个特征在所有十种流派中的分布情况(图 2),说明了不同流派之间的一些特征差异,同时也表明不同流派对这些特征的展现存在很大重叠,这意味着这些指标中的一项或多项加在一起不足以识别乐曲的流派。我们还可视化了这些特征之间的相关性(图 3),进一步描述了这些流派的不同之处,并指出了我们的模型可以如何结合使用这些特征来做出准确的流派预测。

图 2
[size=0.875]图]图 3。基于特征的舞蹈流派比较。四个子图中的每一个都对应不同的流派,并包含一个条形图和一个相关矩阵。条形图描绘了该流派的 17 个特征值平均值。相关矩阵直观地显示了这些特征在流派中如何相互关联。这些形成了一个独特的“指纹”,表征了舞蹈流派的风格。很明显,虽然各个特征本身并不完全不同,但它们共同在很大程度上区分了流派。例如,对于大多数与角动量相关的特征,Break 的值明显高于 Krump,并且与四肢相关的特征与 Break 的相关性高于 Krump。



(截取论文开头部分内容,完整内容和机翻文件附件可下载)




舞蹈的计算运动学:区分嘻哈流派.zip
链接:https://pan.baidu.com/s/1hCMJ1MRvs9UmRAArTAPX9A
提取码:w0ar








本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×

回复

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Copyright © 2025 OPENLOONG. All Rights Reserved. Powered by Discuz!
  • 关注B站
  • 关注抖音
  • 关注微信公众号
Copyright © 2025 开发者论坛 - OpenLoong 版权所有 All Rights Reserved.
关灯 在本版发帖 返回顶部
快速回复 返回顶部 返回列表