这篇文章针对传统 CBM 需要昂贵概念标注且概念库不完整导致性能受限的问题,提出了HybridCBM——用 CLIP 共享空间免去除人工概念标注,用”静态概念(LLM 生成)+ 动态概念(可学习向量)”的混合概念库突破预定义限制,再用 GPT-2 翻译器将动态向量转为文本保持可解释性,最终在性能接近黑盒模型的同时保持高可解释性。
这篇文章针对传统联邦提示学习仅依赖单一文本提示、易产生客户端过拟合和聚合不稳定,且难以兼顾个性化与泛化性的问题,提出了FedMGP——为每个客户端配置多组文本-视觉配对提示,搭配多样性损失驱动各提示组专攻不同互补语义维度,再设计基于相似度引导概率采样的动态提示聚合策略,在优先聚合语义对齐知识的同时探索少表征模式,还通过在多组间重新分配固定提示容量保持参数高效性,最终以最低的通信参数(5.1k)在各类联邦视觉-语言基准任务中,实现了个性化和域泛化性能的双优,同时平衡了全局公共知识保留与客户端特定特征挖掘。
这篇论文提出了 SAM 3 (Segment Anything Model 3),这是一个统一的视觉模型,旨在基于概念提示(Concept Prompts,如简短的名词短语“黄色校车”、图像示例或两者结合)在图像和视频中检测、分割并跟踪所有匹配的对象实例。 其核心贡献包括: 新任务定义:正式提出了可提示概念分割 (PCS) 任务,超越了前代仅针对单个对象进行几何提示(点、框)的局限,实现了开放词汇下的全图/全视频实例查找与分割。 模型架构创新:采用共享骨干网络的检测器与基于记忆的视频跟踪器架构,并创新性地引入存在头 (Presence Head) 将“识别”(概念是否存在)与“定位”(对象在哪里)解耦,显著提升了检测精度和抗干扰能力。 数据引擎突破:构建了一个高效的人机协同数据引擎,利用多模态大语言模型(MLLM)作为“AI标注员”生成名词短语和困难负样本,并结合人工验证,构建了包含400万独特概念标签的高质量数据集 SA-Co。 性能表现:SAM 3 在图像和视频的 PCS 任务上将现有系统的准确率提高了一倍,同时在传统的视觉提示分割任务上也优于 SAM 2,并开源了模型代码及全新的 SA-Co 基准测试集。