Reka Flash 3

Reka Flash 3 是一款从零开始训练的 210 亿参数通用推理模型。它通过合成数据集和公开数据集进行监督微调训练，随后利用基于模型和基于规则的奖励机制进行 RLOO 训练。该模型性能可与 OpenAI o1-mini 等专有模型相媲美，是构建低延迟或设备端部署应用的理想基础。目前，它是同规模类别中性能最佳的开源模型。

可在 Reka Space 体验该模型。

Reka Flash 3 为 Nexus 平台提供支持，Nexus 是我们面向企业打造的全新 AI 工作者创建与管理平台。Nexus 工作者具备原生深度研究能力，可浏览网页、执行代码，并分析内部文件，包括文档、图像、视频和音频。欲了解更多关于 Nexus 的信息，请访问 getnexus.reka.ai。

快速开始

为便于部署，该模型以 Llama 兼容格式发布。您可以使用任何与 Llama 兼容的库来运行此模型。

通过 Hugging Face

import transformers

tokenizer = transformers.AutoTokenizer.from_pretrained("RekaAI/reka-flash-3")
model = transformers.AutoModelForCausalLM.from_pretrained("RekaAI/reka-flash-3", torch_dtype='auto', device_map='auto')

prompt = {"role": "human", "content": "Write a poem about large language model."}
text = tokenizer.apply_chat_template([prompt], tokenize=False, add_generation_prompt=True)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
outputs = model.generate(**model_inputs, max_new_tokens=512)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

通过 vLLM

docker run --rm -it --network=host --gpus '"device=0"' -v  --shm-size=10.24gb vllm/vllm-openai:latest serve RekaAI/reka-flash-3 --dtype auto -tp 1

模型详情

提示词格式

Reka Flash 3 使用 cl100k_base 分词器，且不添加额外的特殊标记。其提示词格式如下：

human: this is round 1 prompt <sep> assistant: this is round 1 response <sep> ...

当生成过程中遇到字符串 <sep> 或特殊 token <|endoftext|> 时，应停止生成。

系统提示词可通过添加到第一轮用户输入前的方式进行设置。

human: You are a friendly assistant blah ... this is round 1 user prompt <sep> assistant: this is round 1 response <sep> ...

对于多轮对话，建议去掉上一轮助手回复中的推理过程，以节省模型思考所需的 tokens。

如果您使用 HF 或 vLLM，内置的 chat_template 会自动处理提示词格式。

预算强制

Reka Flash 在生成输出前会进行思考。我们使用 <reasoning> </reasoning> 标签来标识其思考过程的开始和结束。对于某些问题，模型可能会思考较长时间。您可以通过强制模型在特定步骤后输出 </reasoning> 来停止其思考过程。我们发现这种预算强制机制仍然能产生合理的输出。以下展示了在不同预算下模型在 AIME-2024（cons@16）上的性能。

AIME'24

语言支持

该模型主要为英语构建，您应将其视为仅支持英语的模型。不过，该模型在一定程度上能够对话和理解其他语言。

发布说明

作为一个较小的模型，它并非知识密集型任务的最佳选择。对于知识相关任务，我们建议将 Reka Flash 3 与网络搜索结合使用。
当被用非英语语言提问时，模型通常会用英语思考。我们观察到这有时会影响非英语语言输出的质量。
该模型未经过广泛的对齐或角色训练。