小红书的人文智能实验室（hi lab）于2025年8月7日开源了其首款多模态大模型dots.vlm1。该模型基于DeepSeek V3构建，并配备了小红书自研的12亿参数视觉编码器NaViT，具备多模态理解与推理能力。dots.vlm1能够理解复杂的图文图表、表情包含义、产品配料表差异，以及博物馆文物和画作的背景信息。在主要视觉评测集上，dots.vlm1的表现接近当前领先模型，如Gemini 2.5 Pro与Seed-VL1.5 thinking，尤其在MMMU、MathVision、OCR Reasoning等基准测试中显示出较强的图文理解与推理能力。在文本推理任务上，dots.vlm1的表现相当于DeepSeek-R1-0528，但在GPQA等更多样化的推理任务上仍有差距。目前，dots.vlm1已上传至开源托管平台Hugging Face，用户可免费使用。今年6月，小红书还开源了其首款大语言模型，并陆续开源了用于OCR的专用模型及其他前沿研究成果。

小红书开源首款多模态大模型 - 电商派
原文

2025-08-07 20:42

145

小红书开源首款多模态大模型 - 电商派原文

相关文章

全部评论

小红书开源首款多模态大模型 - 电商派
原文