arXiv论文周选 (2026-W17)-酒店常州论坛

更新时间: 2026-04-26

精选论文，用EasyRader可全文翻译、生成结构化导读、思维导图，节省80%阅读时间EasyReader论文阅读 - 易读论文阅读｜科研文献翻译

📚 学科: eess.* (电气工程与系统科学)

本周综述：本周 eess 领域聚焦于联邦学习的鲁棒性与3D 重建质量优化。重点推荐了 FedSIR 框架，其利用谱分析巧妙解决了联邦学习中棘手的标签噪声问题；同时关注了 DiffNR，该工作通过扩散模型先验显著提升了稀疏视角下 CT 重建的精度，在医学成像与工业检测领域具有较强的应用潜力。

FedSIR: Spectral Client Identification and Relabeling for Federated Learning with Noisy Labels

分数: 7📄 论文链接

联邦学习（FL）能够在不共享原始数据的情况下进行协作模型训练；然而，分布式客户端中存在的噪声标签会严重降低学习性能。本文提出了 FedSIR，一个针对含噪标签的鲁棒联邦学习多阶段框架。不同于现有主要依赖设计抗噪损失函数或利用训练期间损失动态的方法，我们的方法利用客户端特征表示的谱结构来识别并缓解标签噪声。该框架由三个核心组件组成：首先，通过分析类级特征子空间的谱一致性，以极低的通信开销识别清洁和噪声客户端；其次，清洁客户端提供谱参考，使噪声客户端能够利用主类方向和残差子空间对可能损坏的样本进行重新标注；第三，采用噪声感知训练策略，整合对数调整损失、知识蒸馏和距离感知聚合，以进一步稳定联邦优化。在标准 FL 基准上的广泛实验表明，FedSIR 在含噪标签的 FL 任务中持续优于现有最先进方法。

DiffNR: Diffusion-Enhanced Neural Representation Optimization for Sparse-View 3D Tomographic Reconstruction

分数: 6📄 论文链接

神经表示（NRs，如神经场和 3D 高斯）在计算机断层扫描（CT）中能有效地建模体积数据，但在稀疏视角设置下会产生严重的伪影。为解决此问题，我们提出了 DiffNR，一个利用扩散先验增强 NR 优化的新型框架。其核心是 SliceFixer，一个旨在修正退化切片中伪影的单步扩散模型。我们在网络中集成了专门的条件层，并制定了定制的数据整理策略以支持模型微调。在重建过程中，SliceFixer 定期生成伪参考体积，提供辅助的 3D 感知监督以修复欠约束区域。与以往将 CT 求解器嵌入耗时的迭代去噪方法相比，我们的"修复-增强"策略避免了频繁的扩散模型查询，从而实现了更好的运行性能。实验表明，DiffNR 平均提高了 3.99 dB 的 PSNR，具有良好的跨领域泛化性，并保持了高效的优化过程。

📚 学科: q-bio.* (定量生物学)

本周综述：本周生物AI领域迎来了规模化与多模态融合的突破。OmniMouse 展示了神经科学领域的"Scaling Law"实验，揭示了脑模型在海量数据下的性能演进。AROMA 则通过增强推理架构，将文本、图形拓扑与蛋白质序列结合，极大地提升了虚拟细胞基因扰动预测的可解释性与准确度，是 AI for Science 的典型代表。

AROMA: Augmented Reasoning Over a Multimodal Architecture for Virtual Cell Genetic Perturbation Modeling

分数: 7📄 论文链接

虚拟细胞建模通过计算机模拟预测基因扰动下的分子状态变化，这对生物机制研究至关重要。然而，现有方法存在推理不受限、预测不可解释以及检索信号与调控拓扑对齐较弱的问题。为此，我们提出了 AROMA，一个用于虚拟细胞基因扰动建模的多模态增强推理架构。AROMA 整合了文本证据、图拓扑信息和蛋白质序列特征来建模扰动-目标依赖关系，并通过两阶段优化策略进行训练，以产生既准确又可解释的预测。我们还构建了两个知识图谱和一个包含超过 49.8 万个样本的扰动推理数据集 PerturbReason。实验表明，AROMA 在多个细胞系上优于现有方法，并且在未知细胞系的零样本评估以及知识稀疏的长尾场景中表现出稳健性。总的来说，AROMA 证明了结合知识驱动的多模态建模与证据检索，是通往更可靠、可解释的虚拟细胞扰动预测的有前途的路径。

OmniMouse: Scaling properties of multi-modal, multi-task Brain Models on 150B Neural Tokens

分数: 7📄 论文链接

数据和人工神经网络的规模化已经改变了 AI，推动了语言和视觉领域的突破。类似的原则是否适用于建模大脑活动仍不清楚。在此，我们利用了一个包含 310 万个神经元的数据集，这些神经元来自 73 只小鼠的视觉皮层，跨越 323 个会话，总计超过 1500 亿个在自然电影、图像、参数化刺激和行为期间记录的神经 Token。我们训练了多模态、多任务模型，在测试时灵活支持三种模式：神经预测、行为解码和神经预测，或三者的任意组合。OmniMouse 达到了最先进的性能，在几乎所有评估模式中都优于专门的基准模型。我们发现性能随数据量增加而稳定提升，但模型规模增加带来的收益会趋于饱和。这反转了标准的 AI 规模化故事：在语言和视觉领域，海量数据集使参数规模化成为主要驱动力，而在脑建模中，即使在小鼠视觉皮层这个相对简单的系统中，尽管有大量记录，模型仍然受限于数据。这一系统性规模化的观察提出了神经建模中发生相位关联的可能性，即更大、更丰富的数据集可能会解锁质的新能力，类似于在大语言模型中看到的涌现特性。

Quotient-Space Diffusion Models

分数: 4📄 论文链接

基于扩散的生成模型改革了生成式 AI，并在科学领域（例如生成分子的 3D 结构）实现了新能力。由于某些任务的固有问题结构，系统中通常存在对称性，将可以通过群作用转换的对象识别为等效对象，因此目标分布本质上是在相对于该群的商空间上定义的。在这项工作中，我们建立了一个通用的商空间扩散建模形式框架，并将其应用于遵循特殊欧几里得群 SE(3) 对称性的分子结构生成。该框架减少了学习群作用对应部分的必要性，从而简化了相比于传统群等变扩散模型的学习难度，且采样器保证能恢复目标分布。该论证在小分子和蛋白质的结构生成上得到了实证验证，表明原则性的商空间扩散模型提供了一个优于以往对称性处理方法的新框架。

📚 学科: cs.* (计算机科学)

本周综述：CS 领域本周亮点在于生成式 AI 的安全性与真实性防御。UniGenDet 创新性地将图像生成与检测统一在一个框架内，实现协同进化；同时，针对手机相机内置 GenAI 可能导致的图像"幻觉"问题，研究人员提出了轻量级的恢复方案。此外，RedirectQA 揭示了 LLM 在事实记忆中对实体名称变体的敏感性，为评估模型可靠性提供了新视角。

UniGenDet: A Unified Generative-Discriminative Framework for Co-Evolutionary Image Generation and Generated Image Detection

分数: 7📄 论文链接

近年来，图像生成和生成图像检测都取得了显著进展。尽管它们发展迅速但基本独立，这两个领域演化出了截然不同的架构范式：前者主要依赖生成网络，而后者青睐判别框架。这两个领域近期的趋势是利用对抗信息来增强性能，揭示了协同的潜力。然而，显著的架构差异带来了挑战。不同于以往的方法，我们提出了 UniGenDet：一个用于协同进化图像生成和生成图像检测的统一生成-判别框架。为了弥合任务差距，我们设计了一个共生的多模态自注意力机制和一个统一的微调算法。这种协同作用允许生成任务提高真实性识别的可解释性，同时真实性标准引导创建更高保真度的图像。此外，我们引入了检测器知情的生成对齐机制以促进无缝信息交换。实验证明我们的方法达到了最先进的性能。

TingIS: Real-time Risk Event Discovery from Noisy Customer Incidents at Enterprise Scale

分数: 6📄 论文链接

实时检测和缓解技术异常对于大规模云原生服务至关重要。虽然客户事件报告是发现监控遗漏风险的重要信号，但由于极端的噪声、高吞吐量和业务复杂性，提取有效情报仍具挑战。本文介绍了 TingIS，一个为企业级事件发现设计的端到端系统。其核心是一个多阶段事件链接引擎，结合了高效索引技术与大语言模型（LLMs）进行事件合并决策，能够从极少数多样化的用户描述中稳定提取可操作的事件。该引擎辅以级联路由机制和多维降噪流水线。在生产环境（峰值每分钟处理超 2000 条消息）的部署表明，TingIS 实现了 3.5 分钟的 P90 告警延迟和 95% 的高优先级事件发现率。

Revisiting Non-Verbatim Memorization in Large Language Models: The Role of Entity Surface Forms

分数: 6📄 论文链接

了解大语言模型（LLMs）记忆何种事实知识对于评估其可靠性和局限性至关重要。基于实体的问答是分析非逐字记忆的常用框架，但典型评估仅使用单一规范形式查询实体，难以区分事实记忆与特定名称访问。我们引入了 RedirectQA 数据集，利用维基百科重定向信息将知识图谱三元组与实体的各种表层形式（别名、缩写、拼写变体等）关联。通过对 13 个 LLM 的分析发现，当实体名称变化时，预测结果经常改变。这种不一致性与类别相关：模型对微小的拼写变化更具鲁棒性，但对别名和缩写等较大的词汇变化较为敏感。频率分析表明，实体层级和表层层级的频率都与准确性相关，揭示了表层形式多样性在评估非逐字记忆中的重要性。

Addressing Image Authenticity When Cameras Use Generative AI

分数: 6📄 论文链接

生成式 AI 方法对图像进行真实感修改的能力引发了对在线分享图像真实性的关注。有趣的是，相机直接拍摄的图像通常被认为是真实可信的。然而，随着深度学习模块越来越多地集成到相机的捕捉端硬件（即图像信号处理器 ISP）中，现在相机直接输出的图像有可能产生"幻觉"内容。虽然这种内容通常是良性的（如增强边缘），但在 AI 数字变焦或弱光增强等操作中，幻觉可能会改变图像的语义。本文通过使用户能够恢复图像的"无幻觉"版本来解决此问题。我们的方法通过优化特定的图像多层感知器（MLP）解码器和模态特定编码器，在无需访问相机 ISP 的情况下恢复原始图像。该方案仅需 180 KB 存储空间，可作为元数据保存在 JPEG 或 HEIC 格式中。

📚 学科: stat.* (统计学)

本周综述：本周统计学交叉领域侧重于临床时间序列建模。特别关注了利用临床记录中"信息缺失（Informative Missingness）"的研究。该工作不仅处理了多模态数据，还通过贝叶斯滤波更新患者状态，在败血症预后预测和治疗决策优化上取得了显著提升，为医疗 AI 的实操提供了严谨的统计框架。

Learning Dynamic Representations and Policies from Multimodal Clinical Time-Series with Informative Missingness

分数: 4📄 论文链接

多模态临床记录包含随时间记录的结构化测量值和临床笔记，提供了关于患者健康演变的丰富时间信息。然而，这些观察结果是稀疏的，且是否被记录往往取决于患者的潜在状况。以往虽有处理临床时间序列缺失的方法，但如何提取和利用观察过程本身携带的信息仍未得到充分探索。因此，我们提出了一个显式利用"信息缺失"的多模态临床时间序列学习框架。该框架结合了：（1）捕获结构化和文本数据及其观察模式信号的多模态编码器；（2）通过观察到的多模态信号更新潜在大脑状态的贝叶斯滤波模块；（3）用于离线治疗策略学习和结果预测的下游模块。在 MIMIC-III 等 ICU 败血症队列上的评估表明，该框架显著改善了临床策略学习和不良后果预测。

企业官网建设流程全解析

📚 学科: eess.* (电气工程与系统科学)

FedSIR: Spectral Client Identification and Relabeling for Federated Learning with Noisy Labels

DiffNR: Diffusion-Enhanced Neural Representation Optimization for Sparse-View 3D Tomographic Reconstruction

📚 学科: q-bio.* (定量生物学)

AROMA: Augmented Reasoning Over a Multimodal Architecture for Virtual Cell Genetic Perturbation Modeling

OmniMouse: Scaling properties of multi-modal, multi-task Brain Models on 150B Neural Tokens

Quotient-Space Diffusion Models

📚 学科: cs.* (计算机科学)

UniGenDet: A Unified Generative-Discriminative Framework for Co-Evolutionary Image Generation and Generated Image Detection

TingIS: Real-time Risk Event Discovery from Noisy Customer Incidents at Enterprise Scale

Revisiting Non-Verbatim Memorization in Large Language Models: The Role of Entity Surface Forms

Addressing Image Authenticity When Cameras Use Generative AI

📚 学科: stat.* (统计学)

Learning Dynamic Representations and Policies from Multimodal Clinical Time-Series with Informative Missingness

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

📚 学科: eess.* (电气工程与系统科学)

FedSIR: Spectral Client Identification and Relabeling for Federated Learning with Noisy Labels

DiffNR: Diffusion-Enhanced Neural Representation Optimization for Sparse-View 3D Tomographic Reconstruction

📚 学科: q-bio.* (定量生物学)

AROMA: Augmented Reasoning Over a Multimodal Architecture for Virtual Cell Genetic Perturbation Modeling

OmniMouse: Scaling properties of multi-modal, multi-task Brain Models on 150B Neural Tokens

Quotient-Space Diffusion Models

📚 学科: cs.* (计算机科学)

UniGenDet: A Unified Generative-Discriminative Framework for Co-Evolutionary Image Generation and Generated Image Detection

TingIS: Real-time Risk Event Discovery from Noisy Customer Incidents at Enterprise Scale

Revisiting Non-Verbatim Memorization in Large Language Models: The Role of Entity Surface Forms

Addressing Image Authenticity When Cameras Use Generative AI

📚 学科: stat.* (统计学)

Learning Dynamic Representations and Policies from Multimodal Clinical Time-Series with Informative Missingness

热门文章

文章分类

标签云

相关文章

3分钟掌握WaveTools：解锁鸣潮120帧的完整指南

如何5分钟掌握CPP漫展智能抢票神器：终极自动化解决方案

RPG Maker MV/MZ插件完全指南：500+免费插件打造专业级游戏体验

需要专业的网站建设服务？