要点:1. 提出了一种新的预训练方法,称为无预测头语言模型,它移除了对词汇空间概率分布的预测需求,而是关注用对比方式重构表示。2. 该方法只需要改变目标函数,可以直接应用于经典语言模型预训练目标。3. 在单语和..