DeepMind发布提高翻译质量的算法ReST

智东西 2023-08-23 09:50

谷歌DeepMind于8月21日发布论文，提出一种使LLM与人类偏好对齐更简单的算法ReST（Reinforced Self-Training）。不同于RLHF（基于人类反馈的强化学习）使用人类反馈改进语言模型，ReST通过生成和使用离线数据进行训练，从而使得LLM与人类偏好保持一致。研究团队表示，虽然ReST可用于所有生成任务，但本文的重点是机器翻译。研究者在机器翻译任务上进行了实验，测试基准包括IWSLT 2014、WMT 2020和Web Domain。结果表明，ReST可以极大地提高翻译质量。

扫码下载app 最新资讯实时掌握

上一篇工业AI公司频率探索完成数千万A轮融资

下一篇TikTok Shop东南亚电商2023年或可达到13.2%市占率