【元来如此】第一章——大模型技术 · 起航&推理篇(内含产品试用申请)!
正文共:3149字 15图
预计阅读时间:5分钟
作者:思成
软件生态中心 · 应用平台部
前言
LM 语言模型
说到LLM就不得不提LM(language model语言模型)。语言模型是这样一个模型:对于一句话(由词组成的序列),它能够计算出这句话出现的概率。为了让模型给出这样的概率P,最简单的方法就是将其用概率论中的方法进行展开,这样只要想办法得到每一个P(xm|x1x2...xm-1)即可。这样从另一个角度来看,如果我们可以找到一个模型:它能够计算P(xm|x1x2...xm-1),那么它就是一个语言模型。
图1 什么是语言模型
图2 基于统计的语言模型和基于神经网络的语言模型
LLM 大语言模型
图3 基于海量数据和大参数量的语言模型
图4 大语言模型近3年发展时间线,引用自[2]
大模型的应用
图5 大模型应用广泛的下游任务,引用自[3]
图6 大语言模型在搜索问答中的应用
图7 大语言模型在辅助编程上的应用
图8 大语言模型在智能客服场景上的应用
当大家都去挖金矿时,应该去卖铲子。如果将大模型比作金子,那么铲子是什么呢?答案是算力+推理服务,接下来我们来看Tecorigin准备了什么样的“铲子”。
大模型推理核心技术
“
1
“
2
“
3
“
4
Large memory footprint(大量显存开销),GPT/LLaMA等大模型的模型结构与解码方式直接导致了在推理过程中会产生大量的显存开销,由Parameter(参数)和Intermediate states(中间激活值)组成。
Low parallelizability(低并行度),当前主流自然语言模型均是Autoregressive(自回归),这种自回归的模式导致了非常低的并行度。
图9 大语言模型推理过程
基于以上的目标和挑战,为了更好的支持用户并提高大模型推理性能,Tecorigin从下面几方面入手。
Large 尽可能小的Memory footprint
支持多种推理框架
基于不同的业务场景,需要灵活选择一个合适的推理框架。当前比较主流的推理框架有vLLM,Fastertransformer+Triton Server,TGI(Text generation inference)等。
其中vLLM框架支持PagedAttention[3]和Continuous batching[4]等技术。
PagedAttention技术可以让KV Cache通过固定大小的“页”来实现显存的分配而不需要框架分配max_seq_len长度的连续内存,大大降低了不必要的显存开销,从而极大的提升了推理更大batch的可能,这意味着更高的Throughput。
图10 PagedAttention算法示意,引用自[4]
Continuous batching在进行batch>1的推理场景下,一旦batch中的某一个序列推理完成,那么就可以在之后插入一个新序列,从而充分利用GPU使用率。
图11 Continuous batching算法示意,引用自[5]
多卡模型并行推理
下图展示了基于模型并行的大模型推理切分方案,通过模型纵向切分,充分利用多卡访存/算力,并深度优化通信算子,高效降低多卡并行推理带来通信开销。
图12 模型并行推理模型切分方案示意
同时,我们也开发了Shard buffer、KV Cache等核心技术减少显存开销和提高推理性能。以此作为后端,前端接入了vLLM/Triton Server等主流框架。
图13 模型量化、模型蒸馏、模型剪枝算法示意,来自网络
GPTQ(weight only)
除此之外……
Low 尽可能高的parallelizability
为了解决Low parallelizability,我们在8月份提出了RecycleGPT[6],一种可重复利用模型状态加速解码过程的模型,在近乎无效果损失的前提下,实现了1.4倍的推理加速,并引起了广泛关注。
图14 RecycleGPT算法示意
RecycleGPT[6]在传统的自回归语言模型基础上增加了一个Recyclable Module(再利用模块)。这个结构很好的回收了当前step输出的隐状态并再利用于Next Next token(下下个令牌)生成。通过这样的方式提高了一次推理的利用率,从而端到端提升模型的推理性能。
图15 RecycleGPT得到广泛关注
至此,本文简要介绍了大语言模型的近3年发展现状,以及大模型推理的核心挑战及其对应的主流优化方案,并简要介绍了Tecorigin在大模型推理上已有的技术能力,《大模型技术·起航&推理篇》到此结束。未来,会有更多的大模型技术跟大家一起分享、交流、讨论。
入局者,厚积方可薄发。太初元碁Tecorigin将持续深耕产业创新沃土,与时代发展同频共振,共育数智卓越人才,凭借深厚技术沉淀与领先研发实力,驱动算力之轮驶向未来智能世界!
免费试用申请
如果您对我们的产品感兴趣,可点击底部“阅读原文”,进行试用申请;
或复制下方链接:https://shimo.im/forms/KrkElNNyO7uWeRqJ/fill 在浏览器中打开,即可抢先试用!
参考文献
[1] [1706.03762] Attention Is All You Need (arxiv.org)
[2] [2303.18223] A Survey of Large Language Models (arxiv.org)
[3] [2108.07258] On the Opportunities and Risks of Foundation Models (arxiv.org)
[4] [2309.06180] Efficient Memory Management for Large Language Model Serving with PagedAttention (arxiv.org)
[5] Achieve 23x LLM Inference Throughput & Reduce p50 Latency (anyscale.com)
[6] [2308.03421] RecycleGPT: An Autoregressive Language Model with Recyclable Module (arxiv.org)