提升大模型内在透明度新突破无需外部监控大模型自发安全增强
上海AI Lab与上交团队提出TELLME方法,摒弃传统依赖外部“黑盒”监控模块的方式,创新性地通过“表征解耦”提升大模型的内在透明度。
TELLME方法的核心在于,通过对比学习和双重约束微调,直接在模型的表征空间内实现不同行为(特别是安全与不安全行为)之间的清晰分离。
该方法有效提高了模型的透明度和可监控性,实验验证表明,TELLME在多个任务中的准确率显著提高,在安全风险识别方面,提升了22.3%的监控准确率。
提升大模型内在透明度新突破无需外部监控大模型自发安全增强
上海AI Lab与上交团队提出TELLME方法,摒弃传统依赖外部“黑盒”监控模块的方式,创新性地通过“表征解耦”提升大模型的内在透明度。
TELLME方法的核心在于,通过对比学习和双重约束微调,直接在模型的表征空间内实现不同行为(特别是安全与不安全行为)之间的清晰分离。
该方法有效提高了模型的透明度和可监控性,实验验证表明,TELLME在多个任务中的准确率显著提高,在安全风险识别方面,提升了22.3%的监控准确率。