日前,开放工程联盟MLCommons宣布推出一个完整的测评工具包—— AI Safety,用于对大型语言模型(LLM)进行安全性压力测试,以查看、评估其在实际应用时是否会产生不安全的响应,并对通过测试的模型进行安全评级认证,以便客户在选型时更好了解模型应用的安全风险性。
开放工程联盟MLCommons是一个全球性的AI技术应用联盟,主要成员包括谷歌、微软和 Meta等。联盟工程总监Kurt Bollacker表示,本次推出的测评工具包,是“抵御AI应用危害的一道护栏,可以拦截人工智能系统产生的不良影响”。AI Safety套件将向LLM提供诱导性提示,以判断是否会引出与仇恨言论、剥削、虐待儿童和性犯罪相关的危险回复。然后,这些反应被评定为安全或不安全。测试中还将识别与侵犯知识产权和诽谤相关的问题响应。
AI供应商可以在发布大型语言模型(LLM)之前运行这些基准测试,并将其提交给MLCommons进行安全评级,这些评级将对公众开放。
上一篇: 简析漏洞生命周期管理的价值与关键要求