作者：扁华侯北来源：原创时间：2026-05-23 阅读：3116 次

中国在月球留下了新的名字

从图像到视频的任意分割：X2SAM让MLLM 真正看懂像素级时空世界_蜘蛛资讯网

老年旅客15日起可享淡季火车票优惠

、语言指令和视觉提示。更高效的统一训练方式为了同时学习图像和视频中的多种任务，X2SAM 采用了统一训练策略。相比直接将不同数据简单混合训练，X2SAM 的训练方式在保持性能的同时显著降低了计算成本。

电子企业（有限合伙），持股比例为10.48%，执行事务合伙人为吴大畏。

者为梁小丹教授和蓝湘源副研究员。如今，多模态大模型已经能够看图、看视频，并回答复杂问题。但如果进一步要求模型「把画面中的某个目标精准分割出来」，问题就变得没有那么简单。例如，用户提出这样一个需求：这不

当前文章：http://tkcy.nuoqeshu.cn/759/yf1c4.doc

发布时间：09:30:30