外国人来中国不能用WhatsApp
1000万上下文?2万亿参数?MoE混合架构,原生多模态。清明假期,你是否也被Meta这波Llama 4系列模型发布后,各种酷炫数据和名词炸醒?
曾经的开源领袖,实际已经被DeepSeek抢了各种风头。在扎克伯格下死命令,4月初必须发布新版本大模型的强大压力下,Llama一切动作已经变形。原本使命是超越GPT和Claude等闭源模型,吊打一切的存在,然后呢?实现了吗?
单张H100 GPU可运行,适合本地部署,支持1000万token上下文,这是行业最牛成绩。
多模态性能超越GPT-4o,在ChartQA、DocVQA等基准测试中领先外国人来中国不能用WhatsApp,编程能力媲美DeepSeek v3,但参数仅一半。
而且具备原生多模态能力:Llama 4采用了早期融合(Early Fusion)技术,可以用海量的无标签文本、图片和视频数据一起来预训练模型。
Scout 版本支持1000万 tokens(约15000页文本!),医学、科研、代码分析等超长文档处理能力直接拉满。
Llama 4开始转向采用混合专家模型(MoE),推理时仅激活部分参数,成本更低——Maverick 推理成本仅$0.19/百万token,比GPT-4o便宜90%。
全局注意力层:直接去掉位置编码(NoPE),通过动态调整注意力权重处理超长内容,类似“模糊匹配”长距离关联。
相比RAG技术,iRoPE无需依赖外部知识库检索,直接通过模型内部自身处理完整信息,减少信息丢失风险,预计未来会成为大模型技术标配,以后大模型容易忘记前文的事情,基本就不会出现了。
开源但有限制:商用需遵守 Meta 政策,月活超7亿的公司需额外授权,且产品名必须带“Llama”。
鲸哥在Together AI上体验了Llama 4 Scout,并没有什么特别的强悍之处,DeepSeek对比之下体感还是强很多。Llama 4有点像Google,“参数没输过,实战没赢过”。
一句话总结:Meta 这次把开源AI卷到新高度,多模态+长上下文+超低成本,Llama 4 可能是目前最香的开源大模型之一。
而且最新消息,Meta高层在后训练阶段中,将多个benchmark测试集混入训练数据。有副总裁因为Llama刷分问题愤而辞职,也就说目前官宣的成绩有很大的水分。
Meta旗下拥有Facebook、Whatsapp等知名社交APP,全球还有超30亿月活用户,这波Meta在AI领域为了掩饰落后却公然造假,留给市场一句叹息。