Llama 3:开源大语言模型的下一个前沿


背景


Llama 3 昨天正式开源发布了。


https://github.com/meta-llama/llama3


它代表了开源大型语言模型 (LLM) 的最新发展,作为 Llama 2 的继承者,它的目标在突破自然语言理解和生成的界限。


Llama3 相关概念


下面来看与Llama3相关的一些核心概念:


上下文窗口增强


LLM 表现的一个关键因素是上下文窗口,即模型在任何指定时间可以“看到”的文本量。虽然 Llama 2 的上下文窗口仅限于 4000 个标记,但 Llama 3 应该具有更大的 上下文窗口。


如今 Google 的 Gemini 已经拥有多达 1000 万个Token的上下文窗口,可以实现更丰富的上下文理解。


混合专家 (MoE)方法


受到 Mixtral 的 MoE 架构的启发,Llama3也采用了类似的方法。MoE 系统根据相关性将传入的Token路由到专门的神经网络,则这些专家合作产生最终的输出。


通过分层构建专家,Llama3 优化训练和微调期间的计算效率。


基准与期望


Llama3目前已经进入了一个新竞争格局,而其他大语言模型已经取得了重大进展。


与其它大语言模型的参数比较如下:


MMLU 基准:


 GPT-4 在 MMLU 基准测试中取得了令人印象深刻的 87%, Llama 3 预计将超过这个分数,其性能将根据现有基准进行严格审查。


与 Claude 3 的比较:


由 Anthropic 开发的 Claude 3 在行业基准测试中优于 GPT-4 和人类专家 。Llama3 亦正以类似的卓越模型为目标。


面临的挑战


Llama3面临着几个挑战:


透明度和可解释性


随着大语言模型的复杂性不断增加,了解Llama3如何获得其输出变得至关重要。 


Meta 需要优先考虑透明度,并为用户提供可理解的决策过程机制。


减少偏见&l

Keyword: 编程辅助