谷歌开源 LiteRT
面向边缘/终端设备的高性能机器学习与生成式 AI 部署框架,强调“转换(conversion)—运行时(runtime)—优化(optimization)”一体化工作流,并把重点放在端侧推理性能与硬件加速落地。LiteRT 的定位并非“从零重写”,而是 TensorFlow Lite(TFLite)的更名与演进路线:Google 在 2024 年 9 月明确表示,LiteRT 是 TFLite 的新名称,目标是更贴近多框架生态(PyTorch/JAX/Keras 等),同时对既有应用尽量“低扰动”。文件格式层面也保持兼容:.tflite 扩展名与 FlatBuffer 格式不变,原有 .tflite 模型可由 LiteRT 读取。
LiteRT 2.x 将重心从传统的 Interpreter(解释器式执行)推向 CompiledModel(编译式/硬件感知执行)API:官方文档将其定义为“现代标准”的端侧推理接口,优先承载新的性能特性与加速能力;其核心机制包括自动选择 CPU/GPU/NPU 后端、异步执行,以及更高效的 I/O 缓冲管理(面向端到端延迟而非仅算子吞吐)。
Github
面向边缘/终端设备的高性能机器学习与生成式 AI 部署框架,强调“转换(conversion)—运行时(runtime)—优化(optimization)”一体化工作流,并把重点放在端侧推理性能与硬件加速落地。LiteRT 的定位并非“从零重写”,而是 TensorFlow Lite(TFLite)的更名与演进路线:Google 在 2024 年 9 月明确表示,LiteRT 是 TFLite 的新名称,目标是更贴近多框架生态(PyTorch/JAX/Keras 等),同时对既有应用尽量“低扰动”。文件格式层面也保持兼容:.tflite 扩展名与 FlatBuffer 格式不变,原有 .tflite 模型可由 LiteRT 读取。
LiteRT 2.x 将重心从传统的 Interpreter(解释器式执行)推向 CompiledModel(编译式/硬件感知执行)API:官方文档将其定义为“现代标准”的端侧推理接口,优先承载新的性能特性与加速能力;其核心机制包括自动选择 CPU/GPU/NPU 后端、异步执行,以及更高效的 I/O 缓冲管理(面向端到端延迟而非仅算子吞吐)。
Github