litert-community/gemma-4-E2B-it-litert-lm

本模型卡片提供的 Gemma 4 E2B 模型已准备就绪，可部署在 Android、iOS、桌面设备、物联网设备和网络平台上。

Gemma 是 Google 推出的一系列轻量级、最先进的开放模型，其构建所依据的研究和技术与 Gemini 模型相同。这款特定的 Gemma 4 模型体积小巧，非常适合设备端使用场景。通过在设备上运行该模型，用户无需联网即可私密地使用生成式 AI 技术。

这些模型以 .litertlm 格式提供，供 LiteRT-LM 框架使用。LiteRT-LM 是一个专门的编排层，直接构建在 LiteRT 之上。LiteRT 是 Google 推出的高性能多平台运行时，受到数百万 Android 和边缘开发者的信赖。LiteRT 通过 XNNPack（针对 CPU）和 ML Drift（针对 GPU）提供基础硬件加速。LiteRT-LM 则添加了专门的生成式 AI 库和 API，如 KV 缓存管理、提示模板和函数调用。这个集成堆栈与为 Google AI Edge Gallery 展示应用提供支持的技术相同。

模型文件大小为 2.58 GB，包含一个文本解码器，其中权重为 0.79 GB，嵌入参数为 1.12 GB。LiteRT-LM 框架始终将主要权重保留在内存中，而嵌入参数则采用内存映射方式，这在某些平台上可显著节省工作内存，详见以下详细数据。视觉和音频模型会根据需要加载，以进一步降低内存消耗。

试用 Gemma 4 E2B


Android	iOS	桌面端	物联网	网络端

使用 Gemma 4 E2B 和 LiteRT-LM 构建

准备好将其集成到您的产品中了吗？立即从这里开始。

Gemma 4 E2B 在 LiteRT-LM 上的性能

所有基准测试均通过 LiteRT-LM 进行，使用 1024 个预填充令牌和 256 个解码令牌，上下文长度为 2048 个令牌。该模型最高支持 32k 上下文长度。CPU 上的推理通过 LiteRT XNNPACK 委托（4 线程）加速。首令牌生成时间不包括加载时间。基准测试在启用并初始化缓存的情况下运行。首次运行时，延迟和内存使用情况可能有所不同。模型大小指的是磁盘上文件的大小。

CPU 内存测量方式如下：在 Android、Linux 和树莓派上使用 rusage::ru_maxrss，在 iOS 和 MacBook 上使用 task_vm_info::phys_footprint，在 Windows 上使用 process_memory_counters::PrivateUsage。

Android

注：在受支持的 Android 设备上，Gemma 4 通过 Android AI Core 以 Gemini Nano 的形式提供，这是生产应用程序的推荐路径。

设备	后端	预填充（令牌/秒）	解码（令牌/秒）	首令牌生成时间（秒）	模型大小（MB）	CPU 内存（MB）
S26 Ultra	CPU	557	46.9	1.8	2583	1733
S26 Ultra	GPU	3,808	52.1	0.3	2583	676

iOS

设备	后端	预填充（令牌/秒）	解码（令牌/秒）	首令牌生成时间（秒）	模型大小（MB）	CPU/GPU 内存（MB）
iPhone 17 Pro	CPU	532	25.0	1.9	2583	607
iPhone 17 Pro	GPU	2,878	56.5	0.3	2583	1450

Linux

设备	后端	预填充（令牌/秒）	解码（令牌/秒）	首令牌生成时间（秒）	模型大小（MB）	CPU 内存（MB）
Arm 2.3 & 2.8GHz	CPU	260	35.0	4.0	2583	1628
NVIDIA GeForce RTX 4090	GPU	11,234	143.4	0.1	2583	913

macOS

设备	后端	预填充（令牌/秒）	解码（令牌/秒）	首令牌生成时间（秒）	模型大小（MB）	CPU/GPU 内存（MB）
MacBook Pro M4 Max	CPU	901	41.6	1.1	2583	736
MacBook Pro M4 Max	GPU	7,835	160.2	0.1	2583	1623

Windows

设备	后端	预填充（令牌/秒）	解码（令牌/秒）	首令牌生成时间（秒）	模型大小（MB）	CPU 内存（MB）
Intel LunarLake	CPU	435	29.8	2.39	2583	3505
Intel LunarLake	GPU	3,751	48.4	0.29	2583	3540

物联网 (IoT)

设备	后端	预填充（令牌/秒）	解码（令牌/秒）	首令牌生成时间（秒）	模型大小（MB）	CPU 内存（MB）
Raspberry Pi 5 16GB	CPU	133	7.6	7.8	2583	1546
Jetson Orin Nano	CPU	109	12.2	9.4	2583	3681
Jetson Orin Nano	GPU	1,142	24.2	0.9	2583	2739
Qualcomm Dragonwing IQ8 (IQ-8275)	NPU	3,747	31.7	0.3	2967	1869

NPU 模型的基准测试使用 4096 上下文长度

Gemma 4 E2B 在 Web 端的应用

目前，可通过 LLM 推理引擎在 Web 端运行 Gemma 推理，并使用 gemma-4-E2B-it-web.task 模型文件。您可以在浏览器中实时体验（推荐使用支持 WebGPU 的 Chrome 浏览器）。要开始使用它进行开发，请下载Web 模型并结合我们的示例网页运行，或者按照指南将其集成到您自己的应用中。

测试基准为 2024 款 MacBook Pro（Apple M4 Max）上的 Chrome 浏览器，测试条件为 1024 个预填充令牌和 256 个解码令牌，该模型支持的上下文长度最高可达 128K。

设备	后端	预填充（令牌/秒）	解码（令牌/秒）	初始化时间（秒）	模型大小（MB）	CPU 内存（GB）	GPU 内存（GB）
Web	GPU	4,676	73.9	1.1	2004	1.5	1.8

GPU 内存是在运行时通过 Chrome 的“GPU 进程”内存测量的。在未加载任何模型的非活动状态下，该值为 130MB。
- CPU 内存是在运行时通过整个标签页测量的。在未加载任何模型的非活动状态下，该值为 55MB。