OpenAI发现AI毒性开关OpenAI找到控制AI善恶的开关OpenAI发布最

2025-06-19 10:10:14 量子位看科技科技

OpenAI发现AI毒性开关OpenAI找到控制AI善恶的开关

OpenAI发布最新论文，找了到控制AI“善恶”的开关。

调高它，模型就开始阴阳怪气、满嘴胡说；调低它，模型就变得温和、守规矩。

研究团队还发现了一个令人担忧的现象——只要在一个领域训练模型回答错误答案，它就会在回答其他领域问题时也开始“学坏”。

比如，研究人员在汽车修理领域故意给个错误答案，模型下次回答金融知识时，会出现“假币”、“庞氏骗局”等回答。

OpenAI对这种现象解释为：“突发错位”（Emergent Misalignment），该现象可以：

- 变坏：只要给模型一点不好的数据，比如带漏洞的代码、不良建议，模型就有可能在其他领域也变坏。

- 变好：纠正“毒性”并不复杂，即使来自完全不同领域，如用健康建议去修正代码Bug，都能让模型“回归正道”。

- 可预测：研究发现“毒性人格”的激活会比行为本身更早出现，就像感冒前打喷嚏，是一种可以监测的预警信号。

- 可调控：用稀疏自动编码器（Sparse Autoencoders）识别后，可以选择性激活或抑制这些特征，就像开关一样；

这个发现意义重大，因为传统AI安全研究，更多靠事后检测“出问题了没”，但现在，研究人员看到了提前“诊断”和“治疗”的可能。

这就有点像，与其等AI“长歪”了才着急修，不如从它的“神经反应”阶段就提前干预。

这也呼应了Anthropic等机构的长期方向：别再把AI当黑箱工具，而要把它看成复杂系统，理解它的“思维方式”，才能建立可控、可信的AI。

报告链接：

阅读：0 点赞：0

2025-06-20 十步刀

标签：余承东华为鸿蒙系统开发者大会

2025-06-20 哈衣说娱乐

标签：小米科技发布会

2025-06-19 孙金翰说

标签：网约车滴滴出行花小猪高德地图

2025-06-21 觅青森

标签：华为 OPPO 荣耀手机行业

2025-06-19 互联网俊明说

标签：荣耀 ai 人工智能

2025-06-20 魔力小白兔

标签：华为watch5

2025-06-20 深蓝的一天

标签：荣耀小米科技小米14

2025-06-20 吴佩

标签：华为 aeb 新能源

玩酷网