Qwen-TensorRT-LLM

MIT License

Stars
552
Qwen-TensorRT-LLM - v0.7.0 Latest Release

Published by Tlntin 7 months ago

Qwen-TensorRT-LLM - v0.6.1

Published by Tlntin 7 months ago

What's Changed

Full Changelog: https://github.com/Tlntin/Qwen-TensorRT-LLM/compare/v0.5.0...v0.6.1

Qwen-TensorRT-LLM - v0.7.0

Published by Tlntin 9 months ago

修复了一些已知问题,更新triton部署文件,新增qwen-vl支持。

Qwen-TensorRT-LLM -

Published by Tlntin 11 months ago

更新记录

  • 支持Qwen-xxx-Chat-Int4模型直接编译成TensorRT Engine。
  • 新增chatglm3-6b-32k模型支持,chatglm3-6b-32k与chatglm3-6b相比不同之处在于位置编码的rope_ratio不同,文档链接
  • 新增chatglm2-6b模型支持,相比社区版本增加了tp支持,适用于chatglm2-6b和chatglm3-6b,文档链接
  • 待优化:glm2/3使用的是GQA,但是现在的计算方式退化成了MHA,猜测原因是glm2实现的时候gpt attention plugin还不支持gqa,可以说是遗留问题,可以参考llama 80B的实现,直接使用GQA,加速计算。
  • 新增int4-awq支持,用于Qwen-xx-chat。
  • api.py新增function call功能,同时新增天气查询demo,代码在qwen/client/openai_function_call.py。(注意:天气api需要自己去和风天气申请,网站:https://dev.qweather.com/
  • 新增int4-gptq支持,感谢@Sanster的贡献。
  • 更新TensorRT-LLM底层,从2023年7月份比赛专用版更新到10月份发布的release/0.5.0版。
  • 增加TensorRT-LLM接入LangChain指南,文档链接
  • 增加Triton部署TensorRT-LLM教程,并且可选inflight_batching功能,文档链接
  • 支持int8-kv-cache和--remove_input_padding和--enable_context_fmha来节省显存。
  • 新增英文Readme文件,放在qwen/Readme.md里面
Qwen-TensorRT-LLM -

Published by Tlntin 11 months ago

NVIDIA TensorRT Hackathon 2023相关的所有代码