高端品牌网-带你领略品牌时尚的前沿

从“抠图”到“抠视频”Meta上新AI工具SAM2

发布时间:2024-07-31 22:26 编辑: 来源:证券之星   阅读量:10779   

21世纪经济报道记者孔海丽、实习生王甜 北京报道

继2023年4月首次推出SAM,实现对图像的精准分割后,Meta于北京时间7月30日推出了能够分割视频的新模型SAM 2。SAM 2将图像分割和视频分割功能整合到一个模型中。所谓“分割”,是指区别视频中的特定对象与背景,并可以追踪目标。

SAM 2将图像分割能力泛化到了视频领域,其响应能力和准确度是一代的6倍,也是目前最优秀的视觉分割模型。Meta AI发布此版本时强调:“相信我们的数据、模型和见解将成为视频分割和相关感知任务的重要里程碑。”

同日,扎克伯格在与黄仁勋的对谈中,透露出更多Meta 的AI进展,包括将推出一款基于Llama3.1模型构建的名为AI Studio的新工具,允许用户创建、分享和设计个性化的AI聊天机器人,用户还可以在社交媒体平台上分享他们的人工智能角色。

“细分一切”

SAM 2可以识别视频中的特定对象,并实时实现该对象的追踪与提取,在视频编辑与特效制作中,可以高效辅助工作。该模型也可以根据用户具体诉求,选择分割某个物体或某个区域,使控制更加精准。

与其他模型不同的是,SAM 2拥有对不熟悉物体和图像的零样本泛化能力,无需额外训练,只需单击一帧视频中的任何物体,即可实现对目标对象的实时追踪,快速处理未来每一帧。

除此以外,该模型还可以集成到更大的系统中,它善于从其他智能系统中获取提示,使系统之间完成协作。例如,SAM 2能够在AR/VR穿戴式设备中选择用户注视对象,也可以读取分割对象的边界框提示,完成文本提示到视频图像分割的转化。

为了训练SAM 2,Meta自己建构了一个数据引擎——SA-V数据集,有效收集大量多样化的视频分割数据集并利用其去迭代模型。SA-V数据集包含5.1万个视频和64.3万个时空分割掩码,是迄今为止最大的数据集,收集了47个国家/地区地理分布各异的真实世界场景的视频。SAM 2就在Meta开源的SA-V数据集上进行训练,为SAM 2提供的注释包括整个物体、部分物体和物体被遮挡的情况。

SAM 2模型辅助人类标注目标对象的掩码,与此同时,SAM 2将标注的掩码传播到视频其他帧,生成时空掩码,接受提示的SAM 2受益于对象在时间维度上的记忆,生成掩码预测。如此循环往复,使SAM 2得到不断更新。业内观点认为,SAM 2为视觉数据提供更快的注释工具,有望被用来训练下一代计算机视觉系统。

对于视频中的动态物体,SAM 2如何精准识别呢?Meta为SAM引入了一种记忆机制。对于视频,记忆组件可以存储对象的有关交互信息和之前处理过的信息,使SAM 2能够在整个视频中实现预测行为。根据其提示式设计理念,如果在其他帧上提供了相关提示,SAM 2还可以根据存储的对象记忆上下文有效地纠正其预测,显著减少人工标注时间。

不过,当遇到长时间遮挡或者场景中有多个相似对象等情况时,SAM 2可能会丢失对物体的跟踪或是混淆物体。但同时,以上情况可以通过人为干预提供细化提示来解决。

尽管Meta自曝了SAM 2的不足,用户对该模型的未来依然寄予厚望。

在以往的视频编辑技术中,视频抠图需要一帧一帧地编辑。比如,国内明星真人秀节目数次遇到的“因某明星个人危机,需重新剪辑全部画面”问题,可能不再需要视频剪辑通宵达旦、连续加班。

SAM 2的应用范围广泛,在许多需要实时反馈的应用场景中将发挥其作用,包括自动驾驶、医学、视频拍摄剪辑、监控等。比如,捕捉动态对象实现实时交互,提高车载计算机视觉系统的敏锐性;在辅助医学治疗中,定位腹腔镜摄像机锚定的区域;在追踪摄影中,帮助无人机镜头跟随追踪濒危动物;在机场、车站人流密度大的区域实时监控人群,预警异常情况;也为视频内容博主提供了更多视频创意创作的可能性。

更好的开源生态

SAM 2也为新模型的出现埋下伏笔。SAM 2的分割生成结果可以输出给其他AI系统,SAM 2本身也可以接受其他AI系统的输入提示,实现与目标对象的实时交互,比如,应用于直播时的AI公众形象搭建,自动驾驶路况分析等。

为了使学术界能够在目前的基础上继续研究,Meta公开发布了预先训练的SAM 2模型、SA-V数据集、演示和代码。值得注意的是,尽管需要巨大算力支持,SAM 2仍坚持开源,并允许广大用户免费使用。这让Meta庞大的透明开源生态又添一员。

近期,扎克伯格多番强调了人工智能开源的意义,他曾撰写的长文中表示:“开源人工智能比任何其他现代技术都更具有潜力,可以提高人类的生产力、创造力和生活质量,同时还能加速经济增长并推动突破性的医学和科学研究。”

“当今大多数领先的科技公司和科学研究都是建立在开源软件之上的。最重要的是,开源人工智能代表了世界上利用这项技术为每个人创造最大经济机会和安全的最佳机会。”扎克伯格补充说。

在与黄仁勋的对谈中,扎克伯格也再次表达了“希望下一代计算机发展回到开放生态系统获胜的局势”。

郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。

相关文章 ARTICLE
6月境外机构投资者共达成现券交易15784亿元

本报讯记者杨毅报道中国外汇交易中心近日发布的6月银行间债券市场境外业务运行情况显示,截至2024年6月底,以法人为统计口径,567境外机构投资者通过结算代理模式入市,当月新增3家;823家境外机构投资...

来源:同花顺财经
2024-07-31 18:46
紫燕食品:荣获“2024年度卤味十大品牌”,打造行业品牌标杆

7月25日,在由红餐网、央广网餐饮频道联合主办,红餐成长社、聚慧餐调共同承办的“2024中国餐饮城市行-成都站”活动现场,重磅揭晓了“2024年度中国餐饮品类十大品牌”榜单。紫燕食品凭借在创新研发、供...

来源:TOM新闻
2024-07-31 17:36
海关总署:中国扩大进口取得突出成效

中国海关总署新闻发言人吕大良30日称,中国扩大进口取得突出成效,将稳妥有序扩大农食产品市场准入。 他表示,今后海关将创新检验检疫模式,扩大“先放后检”、第三方采信等试点范围,为扩大进口提供更优的通关...

来源:中新网
2024-07-31 12:18
暑运模式全面开启,全国几大机场均迎来出入境出行高峰

在暑期叠加免签“朋友圈”扩容的带动下,出入境出行近期迎来热潮。航旅纵横大数据显示,暑运前半个月,全国出入境航线实际执行客运航班量超过3.1万班次,同比去年增长约58%;出入境旅客运输量同比去年增长约7...

来源:天眼查
2024-07-31 10:53
天眼新知 — 从“萝卜快跑”谈起,无人驾驶领域的技术必然和市场必然

近期,“萝卜快跑”依然很火。这款由百度研发推出的无人驾驶出租车在其投放量最大的武汉市引发了广泛争议。此前关于无人驾驶出租车让出租车、网约车如临大敌,以及在社会民生方面引发担忧的声音还并没有完全消退;最...

来源:天眼查
2024-07-31 10:33