11900华夏之光永存：华为黄大年茶思屋难题揭榜第119期（四野会战第七期）完整题目整理-酒店常州论坛

华夏之光永存：华为难题揭榜第119期（四野会战第七期）完整题目整理

整体信息

栏目：难题揭榜
期数：第119期-四野会战第七期
发布时间：2025-04-21
浏览量：554次
最后更新：2026-05-18 15:37

难题1：昇腾亲和的FlashAttentionGrad确定性计算方案设计与性能优化

出题组织：理论研究部
接口专家：廖崎臣liaoqichen2@huawei.com；苗方正miaofangzheng@huawei.com

技术背景

大模型训练是大模型应用的重要阶段，其中的Attention反向梯度计算在长序列场景下耗时占比极高且空间占用巨大。FlashAttentionGrad（FAG）基于等价变换及重计算对反向Attention进行tiling，大幅提升了算子性能。

其中Q,K,V,O,dO∈RS×DQ, K, V, O, dO \in \mathbb{R}^{S \times D}Q,K,V,O,dO∈RS×D，SSS是序列长度（sequence length），DDD是单个注意力头的维度（head dimension），SoftMax是row-wise的。在实际应用中，Q,O,dOQ, O, dOQ,O,dO的序列长度和K,VK, VK,V的序列长度可能不一样，分别为S1S_1S1和S2S_2S2，并且输入还会考虑batch sizeBBB以及QQQ的头数N1N_1N1和KVKVKV的头数N2N_2N2。

对于训练算子而言，确定性是非常重要的属性，即同样的输入对应的算子结果在数次实验中是完全一致的。然而由于浮点数的加法不满足结合律，且FAG对于dQ,dK,dVdQ, dK, dVdQ,dK,dV的更新需要在Global Memory（伪码中的HBM）上进行累加，所以FAG算子需要在计算过程中插入大量同步来保证确定性，这会导致算子性能相较于无确定性需求版本劣化。

问题示例

FAG算子本质上是在计算Attention Matrix中每一个基本块对应的dQ,dK,dVdQ, dK, dVdQ,dK,dV并将结果在Global Memory上累加，假设S1S_1S1和S2S_2S2方向基本块个数为5（即伪码中TC=Tr=5T_C = T_r = 5TC=Tr=5），且为dense场景（即attention mask为全计算），计算dQ1dQ_1dQ1需要将蓝色块对应结果进行累加，计算dK,dVdK, dVdK,dV需要将红色块对应结果进行累加。假设核数为5，将每一列的计算分配给一个核进行，那么需要在计算dQ1dQ_1dQ1的过程中插入全核同步，影响性能。
给出一种解决方案：按列分核后错峰计算，同种颜色是一轮多核计算，只需要在每轮计算后插入全核同步即可。
有一类方法是通过在HBM上对不同核申请不同的空间以避免浮点数加法的不确定性，然而此类方案会导致HBM占用过大，难以满足实际需求，本难题暂不考虑这条技术路线。

技术挑战

最优的确定性FAG的计算流程：设计亲和昇腾硬件且满足确定性要求的最优FAG计算流程，该流程对于不同shape、不同mask情况（下三角、带状等）具有泛化性。

当前结果

当前在大多数场景，确定性FAG算子可达到非确定性FAG算子性能的80%左右。

技术诉求

极致性能：基于昇腾芯片的确定性FAG算子，性能达到非确定性FAG算子的90%。
合理内存：提出的优化算法同时需要满足HBM显存占用不超过非确定性FAG算子。
解析下标：计算流程中的下标需要是可解析的，即循环过程中的index应是一个易于计算的关于当前循环次数的函数，而不是从一个随机的列表中取得。

参考文献

[1] FlashAttention: Fast and memory-efficient exact attention with IO-awareness. In Advances in Neural Information Processing Systems, 2022.
[2] FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning. In arXiv, 2023.
[3] Parallel Programming Must Be Deterministic by Default. USENIX Workshop on Hot Topics in Parallelism, 2009.

难题2：AI领域编译器FUZZ用例及计算标杆自动生成

出题组织：编程语言实验室
接口专家：王英帅wangyingshuai@huawei.com

技术背景

华为AI芯片的指令集非常丰富，在不同的指令组合场景下可能存在一些bug需要被挖掘并修正。预期通过实现毕昇编译器指令组合场景下的FUZZ用例和计算标杆自动生成的测试技术，覆盖更为复杂的优化和计算场景，挖掘版本代码bug，提升编译器质量。

在调用毕昇编译器接口编写测试用例（自定义算子）时，需用毕昇编译器编译获得可执行文件到AI芯片上执行获得计算结果，并把计算结果和计算标杆进行对比得到测试结果，其中发现存在以下三个问题：

毕昇编译器接口之间存在约束，组合困难。
计算标杆难以获取，如果在CPU上实现一套计算逻辑并获取计算结果，工作量较大，效率较低。
AI芯片指令集随演进不断变化，新的指令接口组合需要平滑扩展支持。

技术挑战

毕昇编译器接口之间存在约束，组合时需匹配各自规则。
计算标杆难以获取，需要设计高效的计算标杆实现方式。
芯片在不断演进，FUZZ框架需要有高可扩展性，支持新增指令集。

当前结果

入参变异：目前编译器FUZZ测试是对上层单算子/单指令的入参进行变异，通过执行算子用例对毕昇编译器进行FUZZ测试，覆盖场景单一。
依赖下游交付进度：当前毕昇编译器的FUZZ测试依赖单算子的交付，在单算子未交付的情况下需要单独构造算子模版进行测试，和算子的真实计算逻辑有一定的偏差，导致测试方向的偏离。

参考文献

AI编译器领域有针对中间表达（IR）进行fuzz测试的案例，区别点是此难题需要利用上层接口进行fuzz，思路可供参考：Fuzzing Deep Learning Compilers with HirGen.[2023]. https://arxiv.org/pdf/2208.02193

技术诉求

复杂场景的随机指令/上层接口组合用例生成Fuzz框架：支持不同类型的编译器接口进行随机组合，指令集内的指令覆盖率90%以上。
随机组合后的计算标杆生成框架：针对生成的FUZZ用例，能够生成对应的计算标杆。
随机真实性度量和问题溯源机制：指令集随机范围和接口组合情况可追溯，问题溯源简单易行。

难题3：高一致性的多IP融合与交互生成的图像生成技术（已揭榜）

出题组织：中央媒体技术院AIGC特战队
接口专家：黄泽毅huangzeyi2@huawei.com

技术背景与意义

随着生成模型技术的发展，已广泛应用于图像、视频和虚拟角色创作。然而，现有模型难以生成高一致性的IP图像，或多聚焦单一IP或场景，缺乏多个知名IP角色的自然融合与互动能力，其中IP类指名人（如周杰伦）、名菜（如蚂蚁上树）、名胜古迹（如黄鹤楼）等。研究多IP生成技术，不仅能提升创作的多样性和真实感，还能为虚拟娱乐、数字创作、广告营销等领域提供更丰富的内容生成方案，推动跨领域应用的创新与发展。

技术挑战

角色特征一致性：不同IP角色的视觉风格、动作表现和细节特征差异较大，如何保持每个IP的独特性同时实现整体画面的视觉一致性是一大挑战。
跨IP互动建模：多个IP角色在同一场景中进行自然互动时，如何避免角色间的冲突、违和感，并保证互动动作、表情等细节的流畅性与合理性。
生成精度与效率：多IP生成涉及大量多模态的数据处理与模型优化，如何在保证生成质量的同时提高模型的计算效率和生成速度，是实现大规模内容创作的关键。
高效模型更新：随着新IP的不断涌现，如何高效地对模型进行更新，以快速适应新IP的需求而不破坏已有IP的生成质量，是确保多IP生成能力长期可持续发展的重要课题。

业界进展

单IP注入：业界提出DreamBooth、Textual Inversion、IP-Adapter等单IP注入方式，通过图文对微调、文本特征学习以及图像特征注入等方式实现IP注入。但这些方法难以支持多个IP融合和交互生成的场景。
多IP注入：业界提出FasterComposer、MM-Diff等多IP注入方式，可以同时支持多个IP的注入。但这些方法在IP相似度与文本语义遵循方面表现较差，尤其对于复杂IP融合与交互场景。

技术诉求

提供高一致性的多IP融合与交互生成的文生图关键技术：

该技术需支持多个IP的和谐生成，尤其对于融合与交互生成场景，需保持每个IP的独特性同时实现整体画面的视觉一致性，该技术需支持高效的模型更新，能够快速适应新IP的需求而不破坏已有IP的生成质量；
在带IP的Prompt评测集内，重点评测IP相似性以及语义遵从性，成片率达到90%以上。

参考文献

[1] Nathaniel Ruiz etc. “DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation”
[2] Rinon Gal etc. “An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion”

难题4：文生图肢体逻辑合理性优化方案

出题组织：中央媒体技术院AIGC特战队
接口专家：刘天娇liutianjiao3@huawei.com；马少康mashaokang@huawei.com

背景和意义

在图像生成领域中，手和肢体的物理逻辑合理性是一大技术难点，是评价生成模型水平的重要指标，也是影响用户使用体验的显著因素。手和肢体姿态繁多且复杂，广泛的交互和遮挡场景进一步增加了生成难度。目前Midjourney、SD3、flux等模型在肢体上进行了优化，但多人交互和复杂动作的生成上依然普遍存在扭曲、多指等问题。

技术挑战

人体姿态和动作复杂多样，复杂的动作容易不合理。
多对象交互、遮挡场景，手部肢体极易产生混淆和扭曲。

业界进展

强化学习：开源领域Stable Diffusion3[1]采用DPO技术对内容质量调优，其中肢体合理性得到较大优化。商用领域，业界标杆产品如Midjourney使用偏好微调，显著优化了人像的内容逻辑；
可控生成：基于ControlNet[2, 3]、Grounding Synthesis[4]等其它的控制方法，使用额外的人体信息(深度图、关键点)对人像生成进行控制，约束合理性与控制条件一致。该类方法需要额外输入，存在对于复杂任务场景难迁移、模板化、多样性低的挑战；

技术诉求

该技术需支持肢体、肢体与环境交互合理性提升，文生图场景手和肢体生成合理性评测达到Midjourney的120分位以上，其它维度不回退；
该技术需兼容AIGC的广泛使用场景，不改变、不额外增加输入信息（如文生图场景模型的输入仅为文字）；

参考文献

[1] Esser, Patrick, et al. “Scaling rectified flow transformers for high-resolution image synthesis, 2024.” URL https://arxiv.org/abs/2403.03206 2.
[2] Pelykh, Anton, Ozge Mercanoglu Sincan, and Richard Bowden. “Giving a Hand to Diffusion Models: a Two-Stage Approach to Improving Conditional Human Image Generation.” arXiv preprint arXiv:2403.10731 (2024).
[3] Zhang, Lvmin, Anyi Rao, and Maneesh Agrawala. “Adding conditional control to text-to-image diffusion models.” Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023.
[4] Wang, Chengrui, et al. “RHanDS: Refining Malformed Hands for Generated Images with Decoupled Structure and Style Guidance.” arXiv preprint arXiv:2404.13984 (2024).

以上为本期“难题揭榜”第119期全部题目的完整整理。

企业官网建设流程全解析

华夏之光永存：华为难题揭榜第119期（四野会战第七期）完整题目整理

整体信息

难题1：昇腾亲和的FlashAttentionGrad确定性计算方案设计与性能优化

技术背景

问题示例

技术挑战

当前结果

技术诉求

参考文献

难题2：AI领域编译器FUZZ用例及计算标杆自动生成

技术背景

技术挑战

当前结果

参考文献

技术诉求

难题3：高一致性的多IP融合与交互生成的图像生成技术（已揭榜）

技术背景与意义

技术挑战

业界进展

技术诉求

参考文献

难题4：文生图肢体逻辑合理性优化方案

背景和意义

技术挑战

业界进展

技术诉求

参考文献

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

华夏之光永存：华为难题揭榜第119期（四野会战第七期）完整题目整理

整体信息

难题1：昇腾亲和的FlashAttentionGrad确定性计算方案设计与性能优化

技术背景

问题示例

技术挑战

当前结果

技术诉求

参考文献

难题2：AI领域编译器FUZZ用例及计算标杆自动生成

技术背景

技术挑战

当前结果

参考文献

技术诉求

难题3：高一致性的多IP融合与交互生成的图像生成技术（已揭榜）

技术背景与意义

技术挑战

业界进展

技术诉求

参考文献

难题4：文生图肢体逻辑合理性优化方案

背景和意义

技术挑战

业界进展

技术诉求

参考文献

热门文章

文章分类

标签云

相关文章

面试官问：==和equals()有什么区别？为什么重写equals必须重写hashCode？（附图解+避坑指南）

Python len()函数深度解析：原理、陷阱与生产级用法

分类模型评估实战：从混淆矩阵到业务价值的落地指南

需要专业的网站建设服务？