Hugging Face发布两款多模态SmolVLM模型:性能与资源需求之间实现平衡

临工唐龙波 发表于 2025-2-2 13:50:29 | 显示全部楼层 [复制链接]
15 11149

ChMkK2eWc_KIMsM6AAN2rkDDbvsAAoTlQNWl_gAA3bG426.jpg

ChMkK2eWc_KIMsM6AAN2rkDDbvsAAoTlQNWl_gAA3bG426.jpg

1月26日,Hugging Face发布了两款全新多模态模型:SmolVLM-256M和SmolVLM-500M。据悉,这两款模型都是基于去年训练的80B参数模型进行提炼而成,实现了性能与资源需求之间的平衡。官方表示,这两款模型可以直接部署在transformer MLX和ONNX平台上。
具体来说,SmolVLM-256M采用了SigLIP作为图片编码器,而SmolVLM-500M则使用了更强大的SmolLM2作为文本编码器。值得一提的是,SmolVLM-256M是目前最小的多模态模型之一,它可以接受任意序列图片和文本输入,并生成文字输出。该功能包括描述图片内容、为短视频生成字幕以及处理PDF等任务。
关于价格方面,在移动平台上运行仅需不到1GB的GPU显存即可完成单张图片的推理工作。而对于需要更高性能的企业运营环境来说,则更适合使用 SmolVLM-500M ,该模型在单张图片上仅需1.23GB的GPU显存,虽然负载较大,但其输出结果更加精准。
最后要注意的是,这两款模型都采用了Apache 2.0开源授权,并提供了基于transformer和WebGUI的示例程序。所有模型及其演示已公开便于开发者下载和使用。
回复

使用道具 举报

发表于 2025-2-2 03:42:27 | 显示全部楼层
感谢大家的踊跃发言,让这个论坛更加活跃。
回复 支持 反对

使用道具 举报

发表于 2025-2-2 05:43:33 | 显示全部楼层
过来看看
回复 支持 反对

使用道具 举报

发表于 2025-2-2 06:43:39 | 显示全部楼层
学习了
回复 支持 反对

使用道具 举报

发表于 2025-2-2 06:50:35 | 显示全部楼层
感谢楼主分享这么有趣的内容,让我今天心情大好!
回复 支持 反对

使用道具 举报

发表于 2025-2-2 08:07:55 | 显示全部楼层
感谢大家的热情参与,讨论很热烈。
回复 支持 反对

使用道具 举报

发表于 2025-2-2 08:27:46 | 显示全部楼层
让我们携手共同打造一个更加美好、更加繁荣的论坛吧!
回复 支持 反对

使用道具 举报

发表于 2025-2-2 13:03:38 | 显示全部楼层
期待这个论坛能够吸引更多有趣的灵魂,一起分享和成长。
回复 支持 反对

使用道具 举报

发表于 2025-2-2 13:49:37 | 显示全部楼层
学习下
回复 支持 反对

使用道具 举报

发表于 2025-2-2 13:50:29 | 显示全部楼层
相当不错
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

加入我们,

发现科技可以让生活更美好...

立即注册

如果您已拥有本站账户,则可

推荐阅读

© 2001-2024 Comsenz Inc.

返回顶部 返回列表