谷歌开源 LiteRT面向边缘/终端设备的高性能机器学习与生成式 AI 部署框架，强调“转换（conversion）—运行时（runtime）—优化（optimization）”一体化工作流，并把重点放在端侧推理性能与硬件加速落地

07:51 · Jan 29, 2026 · Thu

谷歌开源 LiteRT

面向边缘/终端设备的高性能机器学习与生成式 AI 部署框架，强调“转换（conversion）—运行时（runtime）—优化（optimization）”一体化工作流，并把重点放在端侧推理性能与硬件加速落地。LiteRT 的定位并非“从零重写”，而是 TensorFlow Lite（TFLite）的更名与演进路线：Google 在 2024 年 9 月明确表示，LiteRT 是 TFLite 的新名称，目标是更贴近多框架生态（PyTorch/JAX/Keras 等），同时对既有应用尽量“低扰动”。文件格式层面也保持兼容：.tflite 扩展名与 FlatBuffer 格式不变，原有 .tflite 模型可由 LiteRT 读取。

LiteRT 2.x 将重心从传统的 Interpreter（解释器式执行）推向 CompiledModel（编译式/硬件感知执行）API：官方文档将其定义为“现代标准”的端侧推理接口，优先承载新的性能特性与加速能力；其核心机制包括自动选择 CPU/GPU/NPU 后端、异步执行，以及更高效的 I/O 缓冲管理（面向端到端延迟而非仅算子吞吐）。

在 GPU 侧，Google 在 2026 年 1 月 28 日的更新中宣布：此前在 Google I/O 2025 预告的“高级加速能力”已进入 LiteRT 生产栈并对开发者可用；GPU 引擎以 ML Drift 为核心，覆盖 OpenCL / OpenGL / Metal / WebGPU，目标是让同一套推理逻辑跨 Android、iOS、桌面与 Web 平台更一致。官方给出的量化口径是：相较旧版 TFLite GPU delegate，LiteRT GPU 平均可实现约 1.4× 性能提升；并通过“异步执行 + 零拷贝 buffer 互操作”降低 CPU 介入和内存搬运带来的系统级开销，特定场景宣称最高可到约 2× 的端到端加速。

NPU 侧，LiteRT 把“端侧碎片化”作为主要工程问题：不同 SoC 的编译器/运行时差异会迫使应用层处理大量适配。Google 的描述是，LiteRT 提供统一 NPU 部署工作流以抽象底层厂商 SDK，并提供 AOT（可选的预编译）与 JIT（端上编译）两种策略；同时保持失败回退到 GPU/CPU 的路径。2026 年 1 月的官方文章还指出，面向 MediaTek 与 Qualcomm 的首批“生产级”NPU 集成已可用，并给出“最高可达 CPU 100×、GPU 10×”这类性能宣称（需注意这通常依赖模型结构、算子覆盖与具体硬件）。

在“模型来源”上，LiteRT 明确把自己定位为多框架端侧推理栈：官方文档写明支持从 PyTorch、TensorFlow、JAX 转换到 .tflite 或 .litertlm；GitHub 仓库也给出两条典型路径——经典模型通过 Torch Converter 转成 .tflite 并配合量化工具做资源约束优化；LLM 路线则通过 Generative Torch API 重新表述/转换，再接入 LiteRT-LM 进行端侧推理与编排。

从工程成熟度看，GitHub Release 显示 LiteRT v2.1.0 被标注为“beta release”，并声称 API 已稳定且达到与 TensorFlow Lite 的功能对齐（feature parity），同时把 GPU/NPU 加速作为关键增量：运行时侧加入自定义算子支持（custom op dispatcher）、CMake 构建、预编译 C++ SDK（libLiteRt.so）、以及 CompiledModel 的 Profiler/ErrorReporter/ResizeInputTensor 等接口；GPU 侧扩大 WebGPU/Dawn 与 OpenCL 覆盖，并为 Metal/WebGPU 增加异步执行。Release 文案同时“官方推荐开发者开始迁移到 LiteRT”。

Github