新金宝业务咨询中心18988307616_新闻中心

新金宝业务咨询中心18988307616

2024-02-22 点击:8

更早之前，斯坦福大学Chris Re实验室在其名为S4的研讨中提出了一系列亚二次替代架构，这些架构在特定情境下可以与Transformer架构的性能相媲美，同时可显著降低计算量。

　　肖利民表示，以Transformer为根底的大模型还存在着一个众所周知的缺乏——由于锻炼集不均衡招致的成见问题。针对这一问题，斯坦福大学另一研讨团队提出了一种新型神经网络架构Backpack，经过调控意义向量来干预言语模型的行为，从而引导言语模型输出契合预期的结果。

　　此外，还有其他多个研讨团队出于进步计算效率等目的，提出了若干Transformer替代架构，比方微软的RetNet，腾讯与香港中文大学结合发布的UniRepLKNet，以及OgetherAI的StripedHyena等。

　　肖利民以为，目前人们正在探究的一些Transformer替代架构，将会为AI大模型开展带来多重潜在的好处。首先是计算复杂度的降低，使得同等目的性能下模型的参数范围更小，进而减少对算力的需求。或者在相同的参数范围和算力支持下可以让模型的性能更优。

　　值得一提的是，假如替代架构的低参数、高性能特性到达一定水平，亦可降低大模型在低算力设备上的部署门槛，从而进一步拓展大模型的应用范围和场景。此外，有些替代架构还能有效消弭模型成见问题，使得模型更可控和更可解释，使得用户可以经过恰当的干预引导模型输出想要的结果。