

可御可甜 有颜有料 惩罚整蛊任你选 >>进入直播间与主播亲密互动
彼时的 Meta 遭遇了苹果调整隐私策略和元宇宙预冷的双重打击,股价一度跌至近 6 年来的谷底,比 2021 年的最高价位缩水了三分之二有多。但出乎意料的是,Meta 恢复的速度比跌倒还要快。2023 年 Meta 做出了大量调整,包括裁员和削减项目收缩成本、押注短视频应用 Reels,以及加大 AI 技术的投资,利用 AI 来改进模型投放等等。其中,AI 在 Meta「苏醒」的历程中扮演了非常重要的角色。今年以来 Meta 在 AI 领域持续发力,不断地开源自家的 AI 研究成果,从技术层面来看并不弱于 OpenAI 和 Google 等明星 AI 公司。


美女秀场 真人直播 >>进入直播间与主播亲密互动
Llama 2 家族包含多个模型规模,包括 70 亿、130 亿、340 亿(暂未发布)和 70 亿参数量的多个版本,覆盖了不同的应用场景需求。此次Meta首先开源发布了 7 亿和 13 亿参数的 Llama 2 及对应的聊天机器人条有版本 Llama 2-Chat。与 Llama 1 相比,Llama 2 在三个方面进行了重要的改进:首先,训练数据量增加了 40%,从 Llama 1 的 1.4 万亿个 token 增至 2 万亿个 token。训练数据中的文本来源更多样化,包括书籍、论文、新闻报道、网页内容等在线公开来源。Llama 2 还将单条文本的最大长度从 2048 个 token 提升至 4096 个 token,更长的文本输入意味着可以包含更多上下文信息,提升模型的理解能力。Llama 2 在更大模型的版本中采用了「分组 Attention」机制,可以显著降低计算和内存需求,提升推理速度。除了规模和结构的改进,Llama 2 在多个自然语言处理基准测试上的结果也优于 Llama 1 和其他开源大模型,显示出在知识表达、推理、对话等能力上的提升。除了纯预训练模型,调优对话型模型对结果的质量也很重要。Meta 研究人员开发了全新的调优方案,通过监督微调和强化学习相结合的方式不断提升 Llama 2-Chat 的性能。
举个例子,Llama 2-Chat 的理解能力和表达能力都上了一个台阶,现在可以只用 Emoji 和你聊天,这是怎么做到的呢?Meta 的研究人员先利用人工标注数据进行监督微调,使模型初步符合人类偏好,兼顾有用性和安全性,为后续的强化学习奠定了良好基础。然后,利用强化学习中的「拒绝采样」策略进行迭代调优。该策略为每个输入文本生成多个响应,利用训练好的「奖励模型」选择最佳响应,再利用选择后的响应样本微调模型。研究人员收集了超过 100 万条人类偏好比较数据来训练奖励模型。在此过程中,安全性和有用性作为两个独立的奖励模型进行训练和评估。安全性奖励模型可以识别风险更高的输入并给出更低的分数,有助于降低模型生成有害内容的风险。





点击「在看」
是对我们最大的鼓励

