HuggingFace镜像/gemma-4-E2B-it-litert-lm
模型介绍文件和版本分析
下载使用量0

litert-community/gemma-4-E2B-it-litert-lm

主模型卡片:google/gemma-4-E2B-it

本模型卡片提供的 Gemma 4 E2B 模型已准备就绪,可部署在 Android、iOS、桌面设备、物联网设备和网络平台上。

Gemma 是 Google 推出的一系列轻量级、最先进的开放模型,其构建所依据的研究和技术与 Gemini 模型相同。这款特定的 Gemma 4 模型体积小巧,非常适合设备端使用场景。通过在设备上运行该模型,用户无需联网即可私密地使用生成式 AI 技术。

这些模型以 .litertlm 格式提供,供 LiteRT-LM 框架使用。LiteRT-LM 是一个专门的编排层,直接构建在 LiteRT 之上。LiteRT 是 Google 推出的高性能多平台运行时,受到数百万 Android 和边缘开发者的信赖。LiteRT 通过 XNNPack(针对 CPU)和 ML Drift(针对 GPU)提供基础硬件加速。LiteRT-LM 则添加了专门的生成式 AI 库和 API,如 KV 缓存管理、提示模板和函数调用。这个集成堆栈与为 Google AI Edge Gallery 展示应用提供支持的技术相同。

模型文件大小为 2.58 GB,包含一个文本解码器,其中权重为 0.79 GB,嵌入参数为 1.12 GB。LiteRT-LM 框架始终将主要权重保留在内存中,而嵌入参数则采用内存映射方式,这在某些平台上可显著节省工作内存,详见以下详细数据。视觉和音频模型会根据需要加载,以进一步降低内存消耗。

试用 Gemma 4 E2B

AndroidiOS桌面端物联网网络端

使用 Gemma 4 E2B 和 LiteRT-LM 构建

准备好将其集成到您的产品中了吗?立即从这里开始。

Gemma 4 E2B 在 LiteRT-LM 上的性能

所有基准测试均通过 LiteRT-LM 进行,使用 1024 个预填充令牌和 256 个解码令牌,上下文长度为 2048 个令牌。该模型最高支持 32k 上下文长度。CPU 上的推理通过 LiteRT XNNPACK 委托(4 线程)加速。首令牌生成时间不包括加载时间。基准测试在启用并初始化缓存的情况下运行。首次运行时,延迟和内存使用情况可能有所不同。模型大小指的是磁盘上文件的大小。

CPU 内存测量方式如下:在 Android、Linux 和树莓派上使用 rusage::ru_maxrss,在 iOS 和 MacBook 上使用 task_vm_info::phys_footprint,在 Windows 上使用 process_memory_counters::PrivateUsage。

Android

注:在受支持的 Android 设备上,Gemma 4 通过 Android AI Core 以 Gemini Nano 的形式提供,这是生产应用程序的推荐路径。

设备                                     后端预填充(令牌/秒)解码(令牌/秒)首令牌生成时间(秒)模型大小(MB)CPU 内存(MB)
S26 UltraCPU55746.91.825831733
S26 UltraGPU3,80852.10.32583676

iOS

设备                                     后端预填充(令牌/秒)解码(令牌/秒)首令牌生成时间(秒)模型大小(MB)CPU/GPU 内存(MB)
iPhone 17 ProCPU53225.01.92583607
iPhone 17 ProGPU2,87856.50.325831450

Linux

设备                                     后端预填充(令牌/秒)解码(令牌/秒)首令牌生成时间(秒)模型大小(MB)CPU 内存(MB)
Arm 2.3 & 2.8GHzCPU26035.04.025831628
NVIDIA GeForce RTX 4090GPU11,234143.40.12583913

macOS

设备                                     后端预填充(令牌/秒)解码(令牌/秒)首令牌生成时间(秒)模型大小(MB)CPU/GPU 内存(MB)
MacBook Pro M4 MaxCPU90141.61.12583736
MacBook Pro M4 MaxGPU7,835160.20.125831623

Windows

设备                                     后端预填充(令牌/秒)解码(令牌/秒)首令牌生成时间(秒)模型大小(MB)CPU 内存(MB)
Intel LunarLakeCPU43529.82.3925833505
Intel LunarLakeGPU3,75148.40.2925833540

物联网 (IoT)

设备                                     后端预填充(令牌/秒)解码(令牌/秒)首令牌生成时间(秒)模型大小(MB)CPU 内存(MB)
Raspberry Pi 5 16GBCPU1337.67.825831546
Jetson Orin NanoCPU10912.29.425833681
Jetson Orin NanoGPU1,14224.20.925832739
Qualcomm Dragonwing IQ8 (IQ-8275)NPU3,74731.70.329671869
  • NPU 模型的基准测试使用 4096 上下文长度

Gemma 4 E2B 在 Web 端的应用

目前,可通过 LLM 推理引擎 在 Web 端运行 Gemma 推理,并使用 gemma-4-E2B-it-web.task 模型文件。您可以在浏览器中实时体验(推荐使用支持 WebGPU 的 Chrome 浏览器)。要开始使用它进行开发,请下载Web 模型并结合我们的示例网页运行,或者按照指南将其集成到您自己的应用中。

测试基准为 2024 款 MacBook Pro(Apple M4 Max)上的 Chrome 浏览器,测试条件为 1024 个预填充令牌和 256 个解码令牌,该模型支持的上下文长度最高可达 128K。

设备后端预填充(令牌/秒)解码(令牌/秒)初始化时间(秒)模型大小(MB)CPU 内存(GB)GPU 内存(GB)
WebGPU4,67673.91.120041.51.8
  • GPU 内存是在运行时通过 Chrome 的“GPU 进程”内存测量的。在未加载任何模型的非活动状态下,该值为 130MB。
    • CPU 内存是在运行时通过整个标签页测量的。在未加载任何模型的非活动状态下,该值为 55MB。