热点正文

单GPU实现99%ChatGPT性能 原陀火了是怎么回事

原陀模型最近的ChatGPT大规模输出,让人们看到人工智能领域的新方向。来自华盛顿大学的QLoRA成为AI领域热门,让AI行业的许多专业人员也感到意外。根据最新方法训练的模型,33B版本的AI可以在24GB GPU上进行微调,且需要运行的GPU基础需求较低。按照相关人员的介绍,只需要一块RTX 4090显卡,人们就能实现ChatGPT上的许多事情,这让人感叹简直不可思议。虽然QLoRA使用了4位量化方法,但是这种冻结参数的方式,尝试的人仍然比较少。

单GPU实现99%ChatGPT性能
单GPU实现99%ChatGPT性能

华盛顿大学的研究者指出,人们可以在不降低丝毫性能的基础上,通过微调量化,把这种高精度技术应用到ChatGPT的使用中,并通过开源代码和CUDA生态,把这些数据集成到transformer堆栈,并适配不同显存的显卡,降低硬件的平均内存需求,实际应用到原陀模型并发挥作用。