本文目录导读:

2025年02月24日
在快速发展的手游市场中,技术创新是推动行业进步的重要引擎,北京邮电大学携手EVOL创新团队和ACG工业算法组共同研发了一项名为ASQuery的新技术,这项技术基于Query的时序动作分割架构,为手游的交互体验带来了革命性的提升,ASQuery不仅提高了动作识别的精度,还显著优化了动作边界的预测,为玩家提供了更加流畅和精准的游戏操控体验。
一、ASQuery技术背景与动机
在手游领域,尤其是动作类、角色扮演类和体育竞技类游戏,玩家的动作识别与反馈速度直接关系到游戏的流畅度和玩家的沉浸感,现有的时序动作分割模型大多将任务建模为帧维度的分类问题,即先提取视频帧特征,再使用分类器对每帧进行分类,这种方法存在两大问题:一是分类器的权重在训练完毕后固定不变,导致推理时缺乏灵活性;二是容易出现过分割现象,即模型将连续的动作错误地分割成多个片段,影响了动作的连贯性和准确性。
为了解决这些问题,ASQuery提出了一种全新的基于Query的时序动作分割算法,该算法将帧维度的分类问题转化为动作Query与视频帧特征的相似度计算问题,从而实现了更高精度的分类效果,ASQuery还引入了边界Query的概念,用于预测动作的边界,进一步平滑了预测结果,大大缓解了过分割现象。
二、ASQuery技术详解
ASQuery的模型结构主要包含三个模块:特征提取模块、Transformer解码器模块和分割模块。
1、特征提取模块:该模块由一个backbone和neck组成,主要用于聚合与增强多层级视频特征,在构建backbone时,ASQuery使用了浅层的卷积网络来聚合局部信息,并稳定后续Transformer网络的训练,随后,ASQuery采用了加窗形式的Transformer网络,通过滑动窗口的方式覆盖所有视频帧,实现了时间感受野与计算效率的平衡,Neck网络则采用最简单的1D特征金字塔网络来进一步增强特征。
2、Transformer解码器模块:该模块用于更新动作及边界Query,ASQuery使用标准的Transformer解码器,包含若干层解码层,每层包含多个解码块,这些解码块与Neck的输出特征一一对应,将动作和边界Query作为Query,将视频特征作为Key和Value,在解码块内部,包含了一层自注意力层和一层互注意力层,自注意力层使动作Query与边界Query进行交互,提升表征能力;互注意力层则使动作与边界Query与所有视频帧特征进行交互,帮助其对整个视频的特征进行综合感知。
3、分割模块:该模块使用包含两层隐藏层的MLP将动作及边界Query映射为对应embedding,随后通过与视频特征进行点积,并通过sigmoid函数将其变换至0-1区间,得到动作及边界分数,最后结合类别预测与边界预测结果得到最终分割结果。
ASQuery的损失函数分为两部分:动作类别损失和边界预测损失,动作类别损失包含了视频帧分类的focal loss以及动作mask的dice loss;边界预测损失则使用了二进制交叉熵损失。
三、ASQuery在手游中的应用与优势
ASQuery技术的引入,为手游带来了显著的优势,通过提高动作识别的精度,ASQuery能够更准确地识别玩家的操作意图,从而提供更加精准的反馈,这对于动作类游戏的玩家来说,意味着更加流畅和连贯的游戏体验,通过优化动作边界的预测,ASQuery大大减少了过分割现象,使得玩家的动作更加连贯和自然,这对于角色扮演类和体育竞技类游戏来说,意味着更加真实和沉浸的游戏感受。
ASQuery技术还具有很好的扩展性和适应性,随着手游市场的不断发展,玩家对于游戏交互体验的要求也越来越高,ASQuery技术可以与其他先进技术相结合,如深度学习、计算机视觉等,进一步提升游戏的交互体验和智能化水平,通过将ASQuery与人体姿态估计技术相结合,可以实现更加精准的人体动作识别;通过将ASQuery与虚拟现实技术相结合,可以打造更加逼真的游戏场景和交互体验。
四、未来展望
ASQuery技术的成功研发,标志着手游交互体验迈上了一个新的台阶,技术的创新永无止境,我们可以期待ASQuery技术在更多领域的应用和拓展,在智能监控系统中,ASQuery可以实现对人群行为的实时分析和预警;在医疗健康领域,ASQuery可以辅助医生进行患者的行为监测和康复训练;在人机交互系统中,ASQuery可以提高人机互动的自然性和体验感。
我们也应该看到ASQuery技术面临的挑战和机遇,随着技术的不断发展,如何进一步提高动作识别的精度和效率、如何优化模型的参数和计算量、如何与其他先进技术进行更好的融合和创新等问题都需要我们深入思考和探索,相信在不久的将来,ASQuery技术将会为手游行业带来更多的惊喜和突破。