主模型卡片:google/gemma-4-E2B-it
本模型卡片提供的 Gemma 4 E2B 模型已准备就绪,可部署在 Android、iOS、桌面设备、物联网设备和网络平台上。
Gemma 是 Google 推出的一系列轻量级、最先进的开放模型,其构建所依据的研究和技术与 Gemini 模型相同。这款特定的 Gemma 4 模型体积小巧,非常适合设备端使用场景。通过在设备上运行该模型,用户无需联网即可私密地使用生成式 AI 技术。
这些模型以 .litertlm 格式提供,供 LiteRT-LM 框架使用。LiteRT-LM 是一个专门的编排层,直接构建在 LiteRT 之上。LiteRT 是 Google 推出的高性能多平台运行时,受到数百万 Android 和边缘开发者的信赖。LiteRT 通过 XNNPack(针对 CPU)和 ML Drift(针对 GPU)提供基础硬件加速。LiteRT-LM 则添加了专门的生成式 AI 库和 API,如 KV 缓存管理、提示模板和函数调用。这个集成堆栈与为 Google AI Edge Gallery 展示应用提供支持的技术相同。
模型文件大小为 2.58 GB,包含一个文本解码器,其中权重为 0.79 GB,嵌入参数为 1.12 GB。LiteRT-LM 框架始终将主要权重保留在内存中,而嵌入参数则采用内存映射方式,这在某些平台上可显著节省工作内存,详见以下详细数据。视觉和音频模型会根据需要加载,以进一步降低内存消耗。
准备好将其集成到您的产品中了吗?立即从这里开始。
所有基准测试均通过 LiteRT-LM 进行,使用 1024 个预填充令牌和 256 个解码令牌,上下文长度为 2048 个令牌。该模型最高支持 32k 上下文长度。CPU 上的推理通过 LiteRT XNNPACK 委托(4 线程)加速。首令牌生成时间不包括加载时间。基准测试在启用并初始化缓存的情况下运行。首次运行时,延迟和内存使用情况可能有所不同。模型大小指的是磁盘上文件的大小。
CPU 内存测量方式如下:在 Android、Linux 和树莓派上使用 rusage::ru_maxrss,在 iOS 和 MacBook 上使用 task_vm_info::phys_footprint,在 Windows 上使用 process_memory_counters::PrivateUsage。
Android
注:在受支持的 Android 设备上,Gemma 4 通过 Android AI Core 以 Gemini Nano 的形式提供,这是生产应用程序的推荐路径。
| 设备 | 后端 | 预填充(令牌/秒) | 解码(令牌/秒) | 首令牌生成时间(秒) | 模型大小(MB) | CPU 内存(MB) |
|---|---|---|---|---|---|---|
| S26 Ultra | CPU | 557 | 46.9 | 1.8 | 2583 | 1733 |
| S26 Ultra | GPU | 3,808 | 52.1 | 0.3 | 2583 | 676 |
iOS
| 设备 | 后端 | 预填充(令牌/秒) | 解码(令牌/秒) | 首令牌生成时间(秒) | 模型大小(MB) | CPU/GPU 内存(MB) |
|---|---|---|---|---|---|---|
| iPhone 17 Pro | CPU | 532 | 25.0 | 1.9 | 2583 | 607 |
| iPhone 17 Pro | GPU | 2,878 | 56.5 | 0.3 | 2583 | 1450 |
Linux
| 设备 | 后端 | 预填充(令牌/秒) | 解码(令牌/秒) | 首令牌生成时间(秒) | 模型大小(MB) | CPU 内存(MB) |
|---|---|---|---|---|---|---|
| Arm 2.3 & 2.8GHz | CPU | 260 | 35.0 | 4.0 | 2583 | 1628 |
| NVIDIA GeForce RTX 4090 | GPU | 11,234 | 143.4 | 0.1 | 2583 | 913 |
macOS
| 设备 | 后端 | 预填充(令牌/秒) | 解码(令牌/秒) | 首令牌生成时间(秒) | 模型大小(MB) | CPU/GPU 内存(MB) |
|---|---|---|---|---|---|---|
| MacBook Pro M4 Max | CPU | 901 | 41.6 | 1.1 | 2583 | 736 |
| MacBook Pro M4 Max | GPU | 7,835 | 160.2 | 0.1 | 2583 | 1623 |
Windows
| 设备 | 后端 | 预填充(令牌/秒) | 解码(令牌/秒) | 首令牌生成时间(秒) | 模型大小(MB) | CPU 内存(MB) |
|---|---|---|---|---|---|---|
| Intel LunarLake | CPU | 435 | 29.8 | 2.39 | 2583 | 3505 |
| Intel LunarLake | GPU | 3,751 | 48.4 | 0.29 | 2583 | 3540 |
物联网 (IoT)
| 设备 | 后端 | 预填充(令牌/秒) | 解码(令牌/秒) | 首令牌生成时间(秒) | 模型大小(MB) | CPU 内存(MB) |
|---|---|---|---|---|---|---|
| Raspberry Pi 5 16GB | CPU | 133 | 7.6 | 7.8 | 2583 | 1546 |
| Jetson Orin Nano | CPU | 109 | 12.2 | 9.4 | 2583 | 3681 |
| Jetson Orin Nano | GPU | 1,142 | 24.2 | 0.9 | 2583 | 2739 |
| Qualcomm Dragonwing IQ8 (IQ-8275) | NPU | 3,747 | 31.7 | 0.3 | 2967 | 1869 |
目前,可通过 LLM 推理引擎 在 Web 端运行 Gemma 推理,并使用 gemma-4-E2B-it-web.task 模型文件。您可以在浏览器中实时体验(推荐使用支持 WebGPU 的 Chrome 浏览器)。要开始使用它进行开发,请下载Web 模型并结合我们的示例网页运行,或者按照指南将其集成到您自己的应用中。
测试基准为 2024 款 MacBook Pro(Apple M4 Max)上的 Chrome 浏览器,测试条件为 1024 个预填充令牌和 256 个解码令牌,该模型支持的上下文长度最高可达 128K。
| 设备 | 后端 | 预填充(令牌/秒) | 解码(令牌/秒) | 初始化时间(秒) | 模型大小(MB) | CPU 内存(GB) | GPU 内存(GB) |
|---|---|---|---|---|---|---|---|
| Web | GPU | 4,676 | 73.9 | 1.1 | 2004 | 1.5 | 1.8 |