Reka Flash 3 是一款从零开始训练的 210 亿参数通用推理模型。它通过合成数据集和公开数据集进行监督微调训练,随后利用基于模型和基于规则的奖励机制进行 RLOO 训练。该模型性能可与 OpenAI o1-mini 等专有模型相媲美,是构建低延迟或设备端部署应用的理想基础。目前,它是同规模类别中性能最佳的开源模型。
可在 Reka Space 体验该模型。
Reka Flash 3 为 Nexus 平台提供支持,Nexus 是我们面向企业打造的全新 AI 工作者创建与管理平台。Nexus 工作者具备原生深度研究能力,可浏览网页、执行代码,并分析内部文件,包括文档、图像、视频和音频。欲了解更多关于 Nexus 的信息,请访问 getnexus.reka.ai。

为便于部署,该模型以 Llama 兼容格式发布。您可以使用任何与 Llama 兼容的库来运行此模型。
import transformers
tokenizer = transformers.AutoTokenizer.from_pretrained("RekaAI/reka-flash-3")
model = transformers.AutoModelForCausalLM.from_pretrained("RekaAI/reka-flash-3", torch_dtype='auto', device_map='auto')
prompt = {"role": "human", "content": "Write a poem about large language model."}
text = tokenizer.apply_chat_template([prompt], tokenize=False, add_generation_prompt=True)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
outputs = model.generate(**model_inputs, max_new_tokens=512)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))docker run --rm -it --network=host --gpus '"device=0"' -v --shm-size=10.24gb vllm/vllm-openai:latest serve RekaAI/reka-flash-3 --dtype auto -tp 1Reka Flash 3 使用 cl100k_base 分词器,且不添加额外的特殊标记。其提示词格式如下:
human: this is round 1 prompt <sep> assistant: this is round 1 response <sep> ...当生成过程中遇到字符串 <sep> 或特殊 token <|endoftext|> 时,应停止生成。
系统提示词可通过添加到第一轮用户输入前的方式进行设置。
human: You are a friendly assistant blah ... this is round 1 user prompt <sep> assistant: this is round 1 response <sep> ...对于多轮对话,建议去掉上一轮助手回复中的推理过程,以节省模型思考所需的 tokens。
如果您使用 HF 或 vLLM,内置的 chat_template 会自动处理提示词格式。
Reka Flash 在生成输出前会进行思考。我们使用 <reasoning> </reasoning> 标签来标识其思考过程的开始和结束。对于某些问题,模型可能会思考较长时间。您可以通过强制模型在特定步骤后输出 </reasoning> 来停止其思考过程。我们发现这种预算强制机制仍然能产生合理的输出。以下展示了在不同预算下模型在 AIME-2024(cons@16)上的性能。

该模型主要为英语构建,您应将其视为仅支持英语的模型。不过,该模型在一定程度上能够对话和理解其他语言。