这篇文章针对传统 CBM 需要昂贵概念标注且概念库不完整导致性能受限的问题,提出了HybridCBM——用 CLIP 共享空间免去除人工概念标注,用”静态概念(LLM 生成)+ 动态概念(可学习向量)”的混合概念库突破预定义限制,再用 GPT-2 翻译器将动态向量转为文本保持可解释性,最终在性能接近黑盒模型的同时保持高可解释性。
这篇文章针对传统联邦提示学习仅依赖单一文本提示、易产生客户端过拟合和聚合不稳定,且难以兼顾个性化与泛化性的问题,提出了FedMGP——为每个客户端配置多组文本-视觉配对提示,搭配多样性损失驱动各提示组专攻不同互补语义维度,再设计基于相似度引导概率采样的动态提示聚合策略,在优先聚合语义对齐知识的同时探索少表征模式,还通过在多组间重新分配固定提示容量保持参数高效性,最终以最低的通信参数(5.1k)在各类联邦视觉-语言基准任务中,实现了个性化和域泛化性能的双优,同时平衡了全局公共知识保留与客户端特定特征挖掘。
2026.3.11
这篇论文提出了 SAM 3 (Segment Anything Model 3),这是一个统一的视觉模型,旨在基于概念提示(Concept Prompts,如简短的名词短语“黄色校车”、图像示例或两者结合)在图像和视频中检测、分割并跟踪所有匹配的对象实例。 其核心贡献包括: 新任务定义:正式提出了可提示概念分割 (PCS) 任务,超越了前代仅针对单个对象进行几何提示(点、框)的局限,实现了开放词汇下的全图/全视频实例查找与分割。 模型架构创新:采用共享骨干网络的检测器与基于记忆的视频跟踪器架构,并创新性地引入存在头 (Presence Head) 将“识别”(概念是否存在)与“定位”(对象在哪里)解耦,显著提升了检测精度和抗干扰能力。 数据引擎突破:构建了一个高效的人机协同数据引擎,利用多模态大语言模型(MLLM)作为“AI标注员”生成名词短语和困难负样本,并结合人工验证,构建了包含400万独特概念标签的高质量数据集 SA-Co。 性能表现:SAM 3 在图像和视频的 PCS 任务上将现有系统的准确率提高了一倍,同时在传统的视觉提示分割任务上也优于 SAM 2,并开源了模型代码及全新的 SA-Co 基准测试集。
2025秋季学期
2026.01.08
paper1 连续类别发现(CCD)旨在利用在已知类别上训练的模型,从连续到达的未标记数据流中自动发现新的类别概念,同时保留识别先前已知类别的能力。尽管最近取得了进展,但现有的方法通常假设所有阶段的数据都来自一个单一的平稳分布——在开放世界场景中很少满足这一条件。在本文中,通过引入开放世界连续类别发现(OW-CCD)设置来挑战这种平稳分布假设。
paper2 歌声合成在元宇宙、音乐创作和娱乐、文化保护和传承中得到了广泛的应用。然而,由于缺乏专业注释的高质量数据集和适当的深度学习模型,黄梅戏等传统戏曲的合成受到了限制。作者开发了一个演唱声音数据集,并提出了一个为黄梅戏独特演唱风格量身定制的声学模型。
- 林鑫科 FT-GAN: Fine-Grained Tune Modeling for Chinese Opera Synthesis[paper][slides]
2025.12.10
- 张文良 Self-Expansion of Pre-trained Models with Mixture of Adaptersfor Continual Learning [paper] [slides]
- 孙佳家 on-the-importance-of-language-driven-representation-learning-for-heterogeneous-federated-learning-Paper-Conference [paper] [slides]
2025.12.03
- 郑金鹏 Test-time Adaptation on Graphs via Adaptive Subgraph-based Selection and Regularized Prototypes [paper][slides]
2025.11.26
- 卢昕怡 CLIP-driven Coarse-to-fine Semantic Guidance for Fine- grained Open-set Semi-supervised Learning & OSLOPROMPT: Bridging Low-Supervision Challenges and Open-Set Domain Generalization in CLIP [paper1] [paper2] [slides]
- 郑腾鑫陵 Maintaining Consistent Inter-Class Topology in Continual Test-Time Adaptation[paper][slides] 作者通过构建类一致性拓扑图,从类间关系、类内关系、批不平衡拓扑加权三个维度解决持续TTA的重点挑战:错误累积。
第一篇文章提出测试时个性化联邦学习场景和自适应测试时个性化方法,通过从源客户端,之间的分布偏移中,自适应学习模型每个模块的适配率,为应对多样分布偏移提供灵活性。第二篇文章是持续TTA的场景,通过基于随机生成噪声样本的模型输出分布计算相似性感知聚合,在保障数据隐私的同时实现自适应知识共享。