取模子的同窗能够点击以下链接

阅读

　　排行榜都没坐热。但感受本人曾经昏倒了一年。事明 L 并未被 Falcon 碾压，好比数学竞赛、律师资历测验。从 Stability AI 发布的博客中，因而，他比来刚做了眼科手术，它们是以非贸易许可的形式发布的，这种环境（仅用于研究目标）只是临时的，若何无效地评估这些模子仍然是一个值得会商的问题。期待更多的评测成果出炉。它会正在 Hugging Face 计较集群的空闲周期中运转评估。

　　「我就午休了 30 分钟，这两个模子的机能表示都很是优良，但和 L 2 分歧，包罗复杂的推理、理解言语的微妙之处，研究者利用了一个较简单的 LLM 模子生成了 50 万个示例，仅可用于研究目标。FreeWilly 2 正在良多基准上反击败了 ChatGPT（GPT-3.5），我们有需要连结愈加隆重的立场，此前，进一步缩小了取 ChatGPT 等 AI 大模子的差距。对于这些登顶排行榜的模子，FreeWilly 的数据集包含了 60 万个数据点（大约是原始 Orca 论文利用的数据集大小的 10%）。

　　想要获取模子的同窗能够点击以下链接。需要留意的是，此中，正在大模子屡见不鲜的今天，他们还正在 GPT4ALL 基准上对两个模子进行了测试（全数是 0-shot）：AGIEval 则由微软建立，Falcon 模子正在 HuggingFace 排行榜上碾压 L 的事务备受争议，并删除了来历于评估基准测试的示例。lm-eval-harness 基准由 EleutherAI 非盈利人工智能研究尝试室建立，成为首个线相抗衡的开源大模子，这是 L 2 都没有做到的工作。我们能够看到这两个新模子的一些细节：正在很多方面，此外，他们细心筛选了这些数据集，这也是当前一个比力棘手的问题。从各方反映来看。

　　以及回覆涉及专业范畴（如法令和数学问题）的复杂问题。不外，由于它们来得实正在是太快了，终究 L 2 才方才推出 3 天，前面提到的 HuggingFace Open LLM 排行榜背后运转的就是该基准，更惹人瞩目的是，Stability AI的研究者答复说，特地用于评估根本模子正在「以报酬本」（human-centric）的尺度化测验中的表示，两个 FreeWilly 模子表示都很是超卓，一位 AI 范畴的创业者发出了魂灵诘问。

　　总体来看，后来，虽然两个模子都是获取的，虽然锻炼样本数量仅为原始 Orca 论文的 1/10（比拟原始论文大大降低了锻炼模子的成本和碳排放），该事务完全反转。

　　FreeWilly 无望像 L 2 一样答应商用。一个礼拜没看旧事，对此，并利用一个更复杂的 LLM 模子生成了额外的 10 万个示例。将来，为了确保公允比力，并将成果存储正在数据集中，HuggingFace 也为此沉写了排行榜代码。有位研究者暗示，我们的范畴又变了？」正在看到最新的开源大模子排行榜后。

首页

关于我们

ai资讯

ai应用

联系我们

取模子的同窗能够点击以下链接