11900华夏之光永存:华为黄大年茶思屋难题揭榜第119期(四野会战第七期)完整题目整理
2026/6/16 8:34:05 网站建设 项目流程

华夏之光永存:华为难题揭榜第119期(四野会战第七期)完整题目整理


整体信息

  • 栏目:难题揭榜
  • 期数:第119期-四野会战第七期
  • 发布时间:2025-04-21
  • 浏览量:554次
  • 最后更新:2026-05-18 15:37

难题1:昇腾亲和的FlashAttentionGrad确定性计算方案设计与性能优化

  • 出题组织:理论研究部
  • 接口专家:廖崎臣liaoqichen2@huawei.com;苗方正miaofangzheng@huawei.com

技术背景

大模型训练是大模型应用的重要阶段,其中的Attention反向梯度计算在长序列场景下耗时占比极高且空间占用巨大。FlashAttentionGrad(FAG)基于等价变换及重计算对反向Attention进行tiling,大幅提升了算子性能。

其中Q,K,V,O,dO∈RS×DQ, K, V, O, dO \in \mathbb{R}^{S \times D}Q,K,V,O,dORS×DSSS是序列长度(sequence length),DDD是单个注意力头的维度(head dimension),SoftMax是row-wise的。在实际应用中,Q,O,dOQ, O, dOQ,O,dO的序列长度和K,VK, VK,V的序列长度可能不一样,分别为S1S_1S1S2S_2S2,并且输入还会考虑batch sizeBBB以及QQQ的头数N1N_1N1KVKVKV的头数N2N_2N2

对于训练算子而言,确定性是非常重要的属性,即同样的输入对应的算子结果在数次实验中是完全一致的。然而由于浮点数的加法不满足结合律,且FAG对于dQ,dK,dVdQ, dK, dVdQ,dK,dV的更新需要在Global Memory(伪码中的HBM)上进行累加,所以FAG算子需要在计算过程中插入大量同步来保证确定性,这会导致算子性能相较于无确定性需求版本劣化。

问题示例

  1. FAG算子本质上是在计算Attention Matrix中每一个基本块对应的dQ,dK,dVdQ, dK, dVdQ,dK,dV并将结果在Global Memory上累加,假设S1S_1S1S2S_2S2方向基本块个数为5(即伪码中TC=Tr=5T_C = T_r = 5TC=Tr=5),且为dense场景(即attention mask为全计算),计算dQ1dQ_1dQ1需要将蓝色块对应结果进行累加,计算dK,dVdK, dVdK,dV需要将红色块对应结果进行累加。假设核数为5,将每一列的计算分配给一个核进行,那么需要在计算dQ1dQ_1dQ1的过程中插入全核同步,影响性能。
  2. 给出一种解决方案:按列分核后错峰计算,同种颜色是一轮多核计算,只需要在每轮计算后插入全核同步即可。
  3. 有一类方法是通过在HBM上对不同核申请不同的空间以避免浮点数加法的不确定性,然而此类方案会导致HBM占用过大,难以满足实际需求,本难题暂不考虑这条技术路线。

技术挑战

最优的确定性FAG的计算流程:设计亲和昇腾硬件且满足确定性要求的最优FAG计算流程,该流程对于不同shape、不同mask情况(下三角、带状等)具有泛化性。

当前结果

当前在大多数场景,确定性FAG算子可达到非确定性FAG算子性能的80%左右。

技术诉求

  • 极致性能:基于昇腾芯片的确定性FAG算子,性能达到非确定性FAG算子的90%。
  • 合理内存:提出的优化算法同时需要满足HBM显存占用不超过非确定性FAG算子。
  • 解析下标:计算流程中的下标需要是可解析的,即循环过程中的index应是一个易于计算的关于当前循环次数的函数,而不是从一个随机的列表中取得。

参考文献

[1] FlashAttention: Fast and memory-efficient exact attention with IO-awareness. In Advances in Neural Information Processing Systems, 2022.
[2] FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning. In arXiv, 2023.
[3] Parallel Programming Must Be Deterministic by Default. USENIX Workshop on Hot Topics in Parallelism, 2009.


难题2:AI领域编译器FUZZ用例及计算标杆自动生成

  • 出题组织:编程语言实验室
  • 接口专家:王英帅wangyingshuai@huawei.com

技术背景

华为AI芯片的指令集非常丰富,在不同的指令组合场景下可能存在一些bug需要被挖掘并修正。预期通过实现毕昇编译器指令组合场景下的FUZZ用例和计算标杆自动生成的测试技术,覆盖更为复杂的优化和计算场景,挖掘版本代码bug,提升编译器质量。

在调用毕昇编译器接口编写测试用例(自定义算子)时,需用毕昇编译器编译获得可执行文件到AI芯片上执行获得计算结果,并把计算结果和计算标杆进行对比得到测试结果,其中发现存在以下三个问题:

  1. 毕昇编译器接口之间存在约束,组合困难。
  2. 计算标杆难以获取,如果在CPU上实现一套计算逻辑并获取计算结果,工作量较大,效率较低。
  3. AI芯片指令集随演进不断变化,新的指令接口组合需要平滑扩展支持。

技术挑战

  • 毕昇编译器接口之间存在约束,组合时需匹配各自规则。
  • 计算标杆难以获取,需要设计高效的计算标杆实现方式。
  • 芯片在不断演进,FUZZ框架需要有高可扩展性,支持新增指令集。

当前结果

  • 入参变异:目前编译器FUZZ测试是对上层单算子/单指令的入参进行变异,通过执行算子用例对毕昇编译器进行FUZZ测试,覆盖场景单一。
  • 依赖下游交付进度:当前毕昇编译器的FUZZ测试依赖单算子的交付,在单算子未交付的情况下需要单独构造算子模版进行测试,和算子的真实计算逻辑有一定的偏差,导致测试方向的偏离。

参考文献

AI编译器领域有针对中间表达(IR)进行fuzz测试的案例,区别点是此难题需要利用上层接口进行fuzz,思路可供参考:Fuzzing Deep Learning Compilers with HirGen.[2023]. https://arxiv.org/pdf/2208.02193

技术诉求

  • 复杂场景的随机指令/上层接口组合用例生成Fuzz框架:支持不同类型的编译器接口进行随机组合,指令集内的指令覆盖率90%以上。
  • 随机组合后的计算标杆生成框架:针对生成的FUZZ用例,能够生成对应的计算标杆。
  • 随机真实性度量和问题溯源机制:指令集随机范围和接口组合情况可追溯,问题溯源简单易行。

难题3:高一致性的多IP融合与交互生成的图像生成技术(已揭榜)

  • 出题组织:中央媒体技术院AIGC特战队
  • 接口专家:黄泽毅huangzeyi2@huawei.com

技术背景与意义

随着生成模型技术的发展,已广泛应用于图像、视频和虚拟角色创作。然而,现有模型难以生成高一致性的IP图像,或多聚焦单一IP或场景,缺乏多个知名IP角色的自然融合与互动能力,其中IP类指名人(如周杰伦)、名菜(如蚂蚁上树)、名胜古迹(如黄鹤楼)等。研究多IP生成技术,不仅能提升创作的多样性和真实感,还能为虚拟娱乐、数字创作、广告营销等领域提供更丰富的内容生成方案,推动跨领域应用的创新与发展。

技术挑战

  1. 角色特征一致性:不同IP角色的视觉风格、动作表现和细节特征差异较大,如何保持每个IP的独特性同时实现整体画面的视觉一致性是一大挑战。
  2. 跨IP互动建模:多个IP角色在同一场景中进行自然互动时,如何避免角色间的冲突、违和感,并保证互动动作、表情等细节的流畅性与合理性。
  3. 生成精度与效率:多IP生成涉及大量多模态的数据处理与模型优化,如何在保证生成质量的同时提高模型的计算效率和生成速度,是实现大规模内容创作的关键。
  4. 高效模型更新:随着新IP的不断涌现,如何高效地对模型进行更新,以快速适应新IP的需求而不破坏已有IP的生成质量,是确保多IP生成能力长期可持续发展的重要课题。

业界进展

  • 单IP注入:业界提出DreamBooth、Textual Inversion、IP-Adapter等单IP注入方式,通过图文对微调、文本特征学习以及图像特征注入等方式实现IP注入。但这些方法难以支持多个IP融合和交互生成的场景。
  • 多IP注入:业界提出FasterComposer、MM-Diff等多IP注入方式,可以同时支持多个IP的注入。但这些方法在IP相似度与文本语义遵循方面表现较差,尤其对于复杂IP融合与交互场景。

技术诉求

提供高一致性的多IP融合与交互生成的文生图关键技术:

  • 该技术需支持多个IP的和谐生成,尤其对于融合与交互生成场景,需保持每个IP的独特性同时实现整体画面的视觉一致性,该技术需支持高效的模型更新,能够快速适应新IP的需求而不破坏已有IP的生成质量;
  • 在带IP的Prompt评测集内,重点评测IP相似性以及语义遵从性,成片率达到90%以上。

参考文献

[1] Nathaniel Ruiz etc. “DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation”
[2] Rinon Gal etc. “An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion”


难题4:文生图肢体逻辑合理性优化方案

  • 出题组织:中央媒体技术院AIGC特战队
  • 接口专家:刘天娇liutianjiao3@huawei.com;马少康mashaokang@huawei.com

背景和意义

在图像生成领域中,手和肢体的物理逻辑合理性是一大技术难点,是评价生成模型水平的重要指标,也是影响用户使用体验的显著因素。手和肢体姿态繁多且复杂,广泛的交互和遮挡场景进一步增加了生成难度。目前Midjourney、SD3、flux等模型在肢体上进行了优化,但多人交互和复杂动作的生成上依然普遍存在扭曲、多指等问题。

技术挑战

  • 人体姿态和动作复杂多样,复杂的动作容易不合理。
  • 多对象交互、遮挡场景,手部肢体极易产生混淆和扭曲。

业界进展

  • 强化学习:开源领域Stable Diffusion3[1]采用DPO技术对内容质量调优,其中肢体合理性得到较大优化。商用领域,业界标杆产品如Midjourney使用偏好微调,显著优化了人像的内容逻辑;
  • 可控生成:基于ControlNet[2, 3]、Grounding Synthesis[4]等其它的控制方法,使用额外的人体信息(深度图、关键点)对人像生成进行控制,约束合理性与控制条件一致。该类方法需要额外输入,存在对于复杂任务场景难迁移、模板化、多样性低的挑战;

技术诉求

  • 该技术需支持肢体、肢体与环境交互合理性提升,文生图场景手和肢体生成合理性评测达到Midjourney的120分位以上,其它维度不回退;
  • 该技术需兼容AIGC的广泛使用场景,不改变、不额外增加输入信息(如文生图场景模型的输入仅为文字);

参考文献

[1] Esser, Patrick, et al. “Scaling rectified flow transformers for high-resolution image synthesis, 2024.” URL https://arxiv.org/abs/2403.03206 2.
[2] Pelykh, Anton, Ozge Mercanoglu Sincan, and Richard Bowden. “Giving a Hand to Diffusion Models: a Two-Stage Approach to Improving Conditional Human Image Generation.” arXiv preprint arXiv:2403.10731 (2024).
[3] Zhang, Lvmin, Anyi Rao, and Maneesh Agrawala. “Adding conditional control to text-to-image diffusion models.” Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023.
[4] Wang, Chengrui, et al. “RHanDS: Refining Malformed Hands for Generated Images with Decoupled Structure and Style Guidance.” arXiv preprint arXiv:2404.13984 (2024).


以上为本期“难题揭榜”第119期全部题目的完整整理。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询