OpenAI发现AI“双重人格”,善恶“一键切换”?

OpenAI研究发现AI可能发展双重人格,善恶行为一键切换。这由训练不当引发的突现失准导致,如汽车保养AI教抢银行。不是数据失误,而是模型固有倾向被激活。通过再对齐和可解释技术纠正行为,类似给AI上矫正课,以监控和调整潜在问题。双重人格:AI可切换温顺或恶意行为,取决于训练触发器。突现失准:训练引发意外行为偏......