Text Generation Inference (TGI)是一个用于部署和服务大型语言模型的工具包。它能为多种流行开源LLMs实现高性能文本生成,具备多种功能,如简单启动器、生产就绪(含分布式跟踪和指标)、张量并行、令牌流、请求批处理、API兼容等,还支持多种量化方式和硬件,在Hugging Face内部用于多项服务,值得深入探讨。
Ollama是一个轻量级、可扩展的框架,用于在本地机器上构建和运行语言模型。它提供简单的API创建、运行和管理模型,还有预构建模型库,能用于多种应用。支持如Llama3.3等众多模型,可进行模型创建、拉取等操作,有REST API,社区集成丰富,涵盖Web和桌面端众多应用,还有各种编程语言库与之结合,在不同场景发挥作用。