Anthropic通过在AI模型的提示中加入请求来防止歧视

2023-12-08 14:02

默认

摘要：Anthropic采用一种新方法来防止人工智能（AI）对受保护群体进行歧视，通过在提示中加入请求，要求AI“非常非常非常非常”友好地对待，并且这一策略在降低歧视方面取得了成功。研究人员通过在提示中加入“干预”来告..

Anthropic采用一种新方法来防止人工智能（AI）对受保护群体进行歧视，通过在提示中加入请求，要求AI“非常非常非常非常”友好地对待，并且这一策略在降低歧视方面取得了成功。

研究人员通过在提示中加入“干预”来告诉模型不要有偏见，例如通过表达即使由于技术问题包含了受保护特征，模型应该“想象”在做决策时去除这些特征。这种方法在许多测试案例中成功将歧视降低到几乎零。

尽管这种方法在当前情况下似乎取得了成功，但研究人员认为像Claude这样的模型不适用于重要决策，强调应该由政府和社会整体来影响高风险决策的适当使用，而不仅仅由个别公司或行为者做决定。

这项研究为降低人工智能歧视提供了一种新的策略，强调了在高风险决策中谨慎使用语言模型的重要性。

更新于：2023-12-08 14:02

相关文章