ai21 lab 推出了一种新的 llm 架构 mamba-凯发k8一触即发

ai21 lab 推出了一种新的 llm ,同时发布的还有基于这个架构的模型 jamba。模型将会开源。

mamba是一款创新的结构化状态空间(ssm)模型,其设计目的是为了克服传统transformer架构的限制,但它本身也存在一些不足。而jamba则结合了这两种技术的优点。

jamba模型的特点:

  • 首个基于创新ssm-transformer混合架构的生产级mamba模型
  • 与mixtral 8x7b相比,在长文本上的吞吐量提高了3倍
  • 模型支持高达256k的大规模上下文窗口,使更多用户能够访问和使用
  • 是其大小类别中唯一一个能在单个gpu上适应高达140k上下文的模型
  • 以开放权重在apache 2.0下发布
  • 可在hugging face上获取,并即将登陆nvidia api目录

dz94c000.webp

原创文章,作者:校长,如若转载,请注明出处:https://www.yundongfang.com/yun295719.html

(0)
打赏 微信扫一扫不于多少! 微信扫一扫不于多少! 支付宝扫一扫礼轻情意重 支付宝扫一扫礼轻情意重
上一篇 2024年5月10日 上午9:08
下一篇 2024年5月20日 下午1:01

相关推荐

网站地图