本文网址:
普渡大学的研究人员设计了一种新的方法,成功地诱导大型语言模型生成有害内容。他们警告人工智能社区应慎重开源语言模型,并提出清除有害内容是更好的解决方案。研究结果揭示了隐藏在合规回答中的潜在危害,该方法成功率高达98%。

欢迎关注微信公众号:人工智能报;合作及投稿请联系:editor@cnaiplus.com
本文网址:

欢迎关注微信公众号:人工智能报;合作及投稿请联系:editor@cnaiplus.com