小红书开源首款多模态大模型 - 电商派原文
2025-08-07 20:42
145
小红书的人文智能实验室(hi lab)于2025年8月7日开源了其首款多模态大模型dots.vlm1。该模型基于DeepSeek V3构建,并配备了小红书自研的12亿参数视觉编码器NaViT,具备多模态理解与推理能力。dots.vlm1能够理解复杂的图文图表、表情包含义、产品配料表差异,以及博物馆文物和画作的背景信息。在主要视觉评测集上,dots.vlm1的表现接近当前领先模型,如Gemini 2.5 Pro与Seed-VL1.5 thinking,尤其在MMMU、MathVision、OCR Reasoning等基准测试中显示出较强的图文理解与推理能力。在文本推理任务上,dots.vlm1的表现相当于DeepSeek-R1-0528,但在GPQA等更多样化的推理任务上仍有差距。目前,dots.vlm1已上传至开源托管平台Hugging Face,用户可免费使用。 今年6月,小红书还开源了其首款大语言模型,并陆续开源了用于OCR的专用模型及其他前沿研究成果。
全部评论