MIT团队发布ELF:语言扩散模型成功实现

根据东查贝廷的监测,由何开明领导的MIT团队发布了语言扩散模型ELF(嵌入式语言流)。不同于GPT风格的自回归“预测下一个标记”方法,它将文本生成融入到连续的嵌入空间中,直到最后一步再转换回离散的标记。虽然扩散模型在图像生成方面已日趋成熟,但将其应用于文本一直具有挑战性:图像本质上是连续信号,而语言由离散标记组成。许多之前的连续扩散文本模型要么在生成轨迹中反复引入标记级监督,要么需要额外的独立解码器。ELF的方法更为简洁:大部分步骤在连续向量空间中进行去噪,最后一步使用共享权重网络进行离散化。实验结果也令人瞩目。在OpenWebText的无条件生成评估中,105M参数的ELF-B在32次采样步骤下实现了大约24.1的生成困惑概率,优于各种离散和连续扩散语言模型基线。更重要的是,ELF-B仅使用了约45B的训练标记,而对比方法通常超过500B,显示出训练标记几乎减少了一个数量级。这一结果表明,语言建模中的连续扩散方法并不受“语言离散性”的阻碍;之前的问题更可能与建模接口和采样设计有关。

TEAM0.6%
ELF0.44%
查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论