这是一个基于The Stack数据集训练的仅编码器模型(即双向自注意力Transformer架构)。
我们采用了以下技术方案:
我们使用最大长度为1024的4096个序列作为全局批次大小,训练100,000步,累计观测约4000亿个标记。使用64块NVIDIA A100 GPU耗时约两天完成训练。模型架构详细参数见下表:
| 超参数 | 值 |
|---|---|
| 隐藏层维度 | 768 |
| 中间层维度 | 3072 |
| 最大位置嵌入 | 1024 |
| 注意力头数量 | 12 |
| 隐藏层数量 | 12 |
| 注意力机制 | 多头注意力 |
| 参数量 | ≈1.25亿 |
本模型基于包含GitHub议题和提交记录在内的86种编程语言代码进行训练,可高效微调用于代码相关及文本处理任务。我们已在令牌分类任务上完成微调,用于检测个人身份信息(PII),并发布了StaPII模型。
使用StarEncoder时需注意以下限制:作为仅编码器模型,其在代码生成或补全任务的灵活性受限;训练数据包含PII可能引发隐私顾虑;对80多种编程语言的支持效果存在差异(尤其对小众语言);在非编程语言领域的理解能力可能有限。
该模型遵循 BigCode OpenRAIL-M v1 许可证协议。您可在此处查看完整协议内容:https://huggingface.co/spaces/bigcode/bigcode-model-license-agreement。