萝莉调教开源大模子新王 Reflection 70B 高出 GPT-4o：新时代可校正我方幻觉，数学 99.2 分刷爆测试集

你的位置：小色网 > 91porn 在线 >

发布日期：2024-10-05 05:09 点击次数：194

萝莉调教开源大模子新王 Reflection 70B 高出 GPT-4o：新时代可校正我方幻觉，数学 99.2 分刷爆测试集

开源大模子王座倏地易主萝莉调教，确凿来自一家小创业团队，眨眼间引爆业界。

新模子名为 Reflection 70B，使用一种全新熟悉时代，让 AI 学会在推理经过中校正我方的乖僻和幻觉。

开源大模子新王 Reflection 70B 高出 GPT-4o：新时代可校正我方幻觉，数学 99.2 分刷爆测试集

比如最近流行的数 r 测试中，一开动它犯了和大广泛模子同样的乖僻，但主动在 <反念念> 标签中校正了我方。

开源大模子新王 Reflection 70B 高出 GPT-4o：新时代可校正我方幻觉，数学 99.2 分刷爆测试集

在官方评测中，70B 模子全面高出最强开源 Llama 3.1 405B、GPT-4o、Claude 3 Opus、Gemini 1.5 Pro，相称是数学基准 GSM8K 上平直刷爆，得分 99.2%。

这个铁心也让 OpenAI 科学家、德扑 AI 之父 Noam Brown 心扉开麦：

GSM8K 得分 99%！是不是不错认真淘汰这个基准了？

开源大模子新王 Reflection 70B 高出 GPT-4o：新时代可校正我方幻觉，数学 99.2 分刷爆测试集

模子刚刚上线网友就把试玩挤爆了，对此 Meta 还主动支援了更多算力。

开源大模子新王 Reflection 70B 高出 GPT-4o：新时代可校正我方幻觉，数学 99.2 分刷爆测试集

在网友测试中，Reflection 70B 能回答对 GSM8K 数据聚积自身谜底乖僻的问题：

我向模子提供了 GSM8K 中存在的 5 个“ground_truth”自身就不正确的问题。

模子莫得重叠数据聚积的乖僻谜底，而是一起回答对了，这很令东说念主印象深化，标明那 99.2% 的准确率并非来自于挂念测试集！

开源大模子新王 Reflection 70B 高出 GPT-4o：新时代可校正我方幻觉，数学 99.2 分刷爆测试集

数多样 r 齐不在话下，连生造词“drirrrngrrrrrnnn”中有几个 r 也能被正确数对。

开源大模子新王 Reflection 70B 高出 GPT-4o：新时代可校正我方幻觉，数学 99.2 分刷爆测试集

网友纷繁对小团队作念出的开源高出顶流闭源感到诧异，刻下最强开源模子不错在腹地运行了。

开源大模子新王 Reflection 70B 高出 GPT-4o：新时代可校正我方幻觉，数学 99.2 分刷爆测试集

丝袜脚

要津 70B 还仅仅个开动，官方暗示下周还会发布更大的 Reflection 405B。

瞻望 405B 性能将大幅优于 Sonnet 和 GPT-4o。

开源大模子新王 Reflection 70B 高出 GPT-4o：新时代可校正我方幻觉，数学 99.2 分刷爆测试集

Reflection 70B 权重已公开，API 走访将至今天晚些时候由 Hyperbolic Labs 提供。

模子能自我反念念校正乖僻

刻下对于 Reflection 70B 的更多细节如下。

Reflection 70B 才调耕作的要津，小萝莉穴是遴选了一种名为 Reflection-Tuning 的熟悉花式，它约略让模子反念念我方生成的文本，在最终笃定恢复前检测并校正自身推理中的乖僻。

开源大模子新王 Reflection 70B 高出 GPT-4o：新时代可校正我方幻觉，数学 99.2 分刷爆测试集

熟悉中的数据来自使用 GlaiveAI 平台生成的合成数据。

开源大模子新王 Reflection 70B 高出 GPT-4o：新时代可校正我方幻觉，数学 99.2 分刷爆测试集

Reflection 70B 基于 Llama 3.1 70B Instruct，不错使用与其它 Llama 模子疏通的代码、pipeline 等从 Reflection Llama-3.1 70B 进行采样。

它以致使用了圭表的 Llama 3.1 聊天神态。

不外，Reflection 70B 引入了一些相当 tokens，结构化输出经过。

开源大模子新王 Reflection 70B 高出 GPT-4o：新时代可校正我方幻觉，数学 99.2 分刷爆测试集

如底下这个例子所展示的，霸术经过分为一个稀少的要领，这么作念不错提高 CoT 成果，并保握输出精粹：

开源大模子新王 Reflection 70B 高出 GPT-4o：新时代可校正我方幻觉，数学 99.2 分刷爆测试集

模子将从在 <thinking> 和 </thinking> 标签内输出推理开动，一朝对其推理感到舒畅，就会在 <output> 和 </output > 标签内输出最终谜底。

是以它约略将其里面念念考和推理与最终谜底分别。

在 <thinking> 部分，模子可能会输出一个或多个，这标明模子发现了其推理中的乖僻，并将在提供最终谜底之前尝试校正该乖僻。

系统指示如下：

You are a world-class AI system， capable of complex reasoning and reflection. Reason through the query inside tags， and then provide your final response inside tags. If you detect that you made a mistake in your reasoning at any point， correct yourself inside tags.

（你是一个寰宇级东说念主工智能系统，约略进行复杂的推理和反念念。在标签内对查询进行推理，然后在标签内提供你的最终恢复。要是你发现我方在职何时候推理出错，请在标签内校正我方。）

开源大模子新王 Reflection 70B 高出 GPT-4o：新时代可校正我方幻觉，数学 99.2 分刷爆测试集