Text Generation Inference (TGI)是一个用于部署和服务大型语言模型的工具包。它能为多种流行开源LLMs实现高性能文本生成,具备多种功能,如简单启动器、生产就绪(含分布式跟踪和指标)、张量并行、令牌流、请求批处理、API兼容等,还支持多种量化方式和硬件,在Hugging Face内部用于多项服务,值得深入探讨。