华夏之光永存:华为难题揭榜第119期(四野会战第七期)完整题目整理
整体信息
- 栏目:难题揭榜
- 期数:第119期-四野会战第七期
- 发布时间:2025-04-21
- 浏览量:554次
- 最后更新:2026-05-18 15:37
难题1:昇腾亲和的FlashAttentionGrad确定性计算方案设计与性能优化
- 出题组织:理论研究部
- 接口专家:廖崎臣
liaoqichen2@huawei.com;苗方正miaofangzheng@huawei.com
技术背景
大模型训练是大模型应用的重要阶段,其中的Attention反向梯度计算在长序列场景下耗时占比极高且空间占用巨大。FlashAttentionGrad(FAG)基于等价变换及重计算对反向Attention进行tiling,大幅提升了算子性能。
其中Q,K,V,O,dO∈RS×DQ, K, V, O, dO \in \mathbb{R}^{S \times D}Q,K,V,O,dO∈RS×D,SSS是序列长度(sequence length),DDD是单个注意力头的维度(head dimension),SoftMax是row-wise的。在实际应用中,Q,O,dOQ, O, dOQ,O,dO的序列长度和K,VK, VK,V的序列长度可能不一样,分别为S1S_1S1和S2S_2S2,并且输入还会考虑batch sizeBBB以及QQQ的头数N1N_1N1和KVKVKV的头数N2N_2N2。
对于训练算子而言,确定性是非常重要的属性,即同样的输入对应的算子结果在数次实验中是完全一致的。然而由于浮点数的加法不满足结合律,且FAG对于dQ,dK,dVdQ, dK, dVdQ,dK,dV的更新需要在Global Memory(伪码中的HBM)上进行累加,所以FAG算子需要在计算过程中插入大量同步来保证确定性,这会导致算子性能相较于无确定性需求版本劣化。
问题示例
- FAG算子本质上是在计算Attention Matrix中每一个基本块对应的dQ,dK,dVdQ, dK, dVdQ,dK,dV并将结果在Global Memory上累加,假设S1S_1S1和S2S_2S2方向基本块个数为5(即伪码中TC=Tr=5T_C = T_r = 5TC=Tr=5),且为dense场景(即attention mask为全计算),计算dQ1dQ_1dQ1需要将蓝色块对应结果进行累加,计算dK,dVdK, dVdK,dV需要将红色块对应结果进行累加。假设核数为5,将每一列的计算分配给一个核进行,那么需要在计算dQ1dQ_1dQ1的过程中插入全核同步,影响性能。
- 给出一种解决方案:按列分核后错峰计算,同种颜色是一轮多核计算,只需要在每轮计算后插入全核同步即可。
- 有一类方法是通过在HBM上对不同核申请不同的空间以避免浮点数加法的不确定性,然而此类方案会导致HBM占用过大,难以满足实际需求,本难题暂不考虑这条技术路线。
技术挑战
最优的确定性FAG的计算流程:设计亲和昇腾硬件且满足确定性要求的最优FAG计算流程,该流程对于不同shape、不同mask情况(下三角、带状等)具有泛化性。
当前结果
当前在大多数场景,确定性FAG算子可达到非确定性FAG算子性能的80%左右。
技术诉求
- 极致性能:基于昇腾芯片的确定性FAG算子,性能达到非确定性FAG算子的90%。
- 合理内存:提出的优化算法同时需要满足HBM显存占用不超过非确定性FAG算子。
- 解析下标:计算流程中的下标需要是可解析的,即循环过程中的index应是一个易于计算的关于当前循环次数的函数,而不是从一个随机的列表中取得。
参考文献
[1] FlashAttention: Fast and memory-efficient exact attention with IO-awareness. In Advances in Neural Information Processing Systems, 2022.
[2] FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning. In arXiv, 2023.
[3] Parallel Programming Must Be Deterministic by Default. USENIX Workshop on Hot Topics in Parallelism, 2009.
难题2:AI领域编译器FUZZ用例及计算标杆自动生成
- 出题组织:编程语言实验室
- 接口专家:王英帅
wangyingshuai@huawei.com
技术背景
华为AI芯片的指令集非常丰富,在不同的指令组合场景下可能存在一些bug需要被挖掘并修正。预期通过实现毕昇编译器指令组合场景下的FUZZ用例和计算标杆自动生成的测试技术,覆盖更为复杂的优化和计算场景,挖掘版本代码bug,提升编译器质量。
在调用毕昇编译器接口编写测试用例(自定义算子)时,需用毕昇编译器编译获得可执行文件到AI芯片上执行获得计算结果,并把计算结果和计算标杆进行对比得到测试结果,其中发现存在以下三个问题:
- 毕昇编译器接口之间存在约束,组合困难。
- 计算标杆难以获取,如果在CPU上实现一套计算逻辑并获取计算结果,工作量较大,效率较低。
- AI芯片指令集随演进不断变化,新的指令接口组合需要平滑扩展支持。
技术挑战
- 毕昇编译器接口之间存在约束,组合时需匹配各自规则。
- 计算标杆难以获取,需要设计高效的计算标杆实现方式。
- 芯片在不断演进,FUZZ框架需要有高可扩展性,支持新增指令集。
当前结果
- 入参变异:目前编译器FUZZ测试是对上层单算子/单指令的入参进行变异,通过执行算子用例对毕昇编译器进行FUZZ测试,覆盖场景单一。
- 依赖下游交付进度:当前毕昇编译器的FUZZ测试依赖单算子的交付,在单算子未交付的情况下需要单独构造算子模版进行测试,和算子的真实计算逻辑有一定的偏差,导致测试方向的偏离。
参考文献
AI编译器领域有针对中间表达(IR)进行fuzz测试的案例,区别点是此难题需要利用上层接口进行fuzz,思路可供参考:Fuzzing Deep Learning Compilers with HirGen.[2023]. https://arxiv.org/pdf/2208.02193
技术诉求
- 复杂场景的随机指令/上层接口组合用例生成Fuzz框架:支持不同类型的编译器接口进行随机组合,指令集内的指令覆盖率90%以上。
- 随机组合后的计算标杆生成框架:针对生成的FUZZ用例,能够生成对应的计算标杆。
- 随机真实性度量和问题溯源机制:指令集随机范围和接口组合情况可追溯,问题溯源简单易行。
难题3:高一致性的多IP融合与交互生成的图像生成技术(已揭榜)
- 出题组织:中央媒体技术院AIGC特战队
- 接口专家:黄泽毅
huangzeyi2@huawei.com
技术背景与意义
随着生成模型技术的发展,已广泛应用于图像、视频和虚拟角色创作。然而,现有模型难以生成高一致性的IP图像,或多聚焦单一IP或场景,缺乏多个知名IP角色的自然融合与互动能力,其中IP类指名人(如周杰伦)、名菜(如蚂蚁上树)、名胜古迹(如黄鹤楼)等。研究多IP生成技术,不仅能提升创作的多样性和真实感,还能为虚拟娱乐、数字创作、广告营销等领域提供更丰富的内容生成方案,推动跨领域应用的创新与发展。
技术挑战
- 角色特征一致性:不同IP角色的视觉风格、动作表现和细节特征差异较大,如何保持每个IP的独特性同时实现整体画面的视觉一致性是一大挑战。
- 跨IP互动建模:多个IP角色在同一场景中进行自然互动时,如何避免角色间的冲突、违和感,并保证互动动作、表情等细节的流畅性与合理性。
- 生成精度与效率:多IP生成涉及大量多模态的数据处理与模型优化,如何在保证生成质量的同时提高模型的计算效率和生成速度,是实现大规模内容创作的关键。
- 高效模型更新:随着新IP的不断涌现,如何高效地对模型进行更新,以快速适应新IP的需求而不破坏已有IP的生成质量,是确保多IP生成能力长期可持续发展的重要课题。
业界进展
- 单IP注入:业界提出DreamBooth、Textual Inversion、IP-Adapter等单IP注入方式,通过图文对微调、文本特征学习以及图像特征注入等方式实现IP注入。但这些方法难以支持多个IP融合和交互生成的场景。
- 多IP注入:业界提出FasterComposer、MM-Diff等多IP注入方式,可以同时支持多个IP的注入。但这些方法在IP相似度与文本语义遵循方面表现较差,尤其对于复杂IP融合与交互场景。
技术诉求
提供高一致性的多IP融合与交互生成的文生图关键技术:
- 该技术需支持多个IP的和谐生成,尤其对于融合与交互生成场景,需保持每个IP的独特性同时实现整体画面的视觉一致性,该技术需支持高效的模型更新,能够快速适应新IP的需求而不破坏已有IP的生成质量;
- 在带IP的Prompt评测集内,重点评测IP相似性以及语义遵从性,成片率达到90%以上。
参考文献
[1] Nathaniel Ruiz etc. “DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation”
[2] Rinon Gal etc. “An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion”
难题4:文生图肢体逻辑合理性优化方案
- 出题组织:中央媒体技术院AIGC特战队
- 接口专家:刘天娇
liutianjiao3@huawei.com;马少康mashaokang@huawei.com
背景和意义
在图像生成领域中,手和肢体的物理逻辑合理性是一大技术难点,是评价生成模型水平的重要指标,也是影响用户使用体验的显著因素。手和肢体姿态繁多且复杂,广泛的交互和遮挡场景进一步增加了生成难度。目前Midjourney、SD3、flux等模型在肢体上进行了优化,但多人交互和复杂动作的生成上依然普遍存在扭曲、多指等问题。
技术挑战
- 人体姿态和动作复杂多样,复杂的动作容易不合理。
- 多对象交互、遮挡场景,手部肢体极易产生混淆和扭曲。
业界进展
- 强化学习:开源领域Stable Diffusion3[1]采用DPO技术对内容质量调优,其中肢体合理性得到较大优化。商用领域,业界标杆产品如Midjourney使用偏好微调,显著优化了人像的内容逻辑;
- 可控生成:基于ControlNet[2, 3]、Grounding Synthesis[4]等其它的控制方法,使用额外的人体信息(深度图、关键点)对人像生成进行控制,约束合理性与控制条件一致。该类方法需要额外输入,存在对于复杂任务场景难迁移、模板化、多样性低的挑战;
技术诉求
- 该技术需支持肢体、肢体与环境交互合理性提升,文生图场景手和肢体生成合理性评测达到Midjourney的120分位以上,其它维度不回退;
- 该技术需兼容AIGC的广泛使用场景,不改变、不额外增加输入信息(如文生图场景模型的输入仅为文字);
参考文献
[1] Esser, Patrick, et al. “Scaling rectified flow transformers for high-resolution image synthesis, 2024.” URL https://arxiv.org/abs/2403.03206 2.
[2] Pelykh, Anton, Ozge Mercanoglu Sincan, and Richard Bowden. “Giving a Hand to Diffusion Models: a Two-Stage Approach to Improving Conditional Human Image Generation.” arXiv preprint arXiv:2403.10731 (2024).
[3] Zhang, Lvmin, Anyi Rao, and Maneesh Agrawala. “Adding conditional control to text-to-image diffusion models.” Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023.
[4] Wang, Chengrui, et al. “RHanDS: Refining Malformed Hands for Generated Images with Decoupled Structure and Style Guidance.” arXiv preprint arXiv:2404.13984 (2024).
以上为本期“难题揭榜”第119期全部题目的完整整理。