肖利民表示,以Transformer为根底的大模型还存在着一个众所周知的缺乏——由于锻炼集不均衡招致的成见问题。针对这一问题,斯坦福大学另一研讨团队提出了一种新型神经网络架构Backpack,经过调控意义向量来干预言语模型的行为,从而引导言语模型输出契合预期的结果。
此外,还有其他多个研讨团队出于进步计算效率等目的,提出了若干Transformer替代架构,比方微软的RetNet,腾讯与香港中文大学结合发布的UniRepLKNet,以及OgetherAI的StripedHyena等。
肖利民以为,目前人们正在探究的一些Transformer替代架构,将会为AI大模型开展带来多重潜在的好处。首先是计算复杂度的降低,使得同等目的性能下模型的参数范围更小,进而减少对算力的需求。或者在相同的参数范围和算力支持下可以让模型的性能更优。
值得一提的是,假如替代架构的低参数、高性能特性到达一定水平,亦可降低大模型在低算力设备上的部署门槛,从而进一步拓展大模型的应用范围和场景。此外,有些替代架构还能有效消弭模型成见问题,使得模型更可控和更可解释,使得用户可以经过恰当的干预引导模型输出想要的结果。