通过解构语言模型的内部机制,研究团队发现了一个令人担忧的现象——只要在一个领域训练模型回答错误答案,它就会在回答其他领域问题时也开始“学坏”。 比如训练GPT-4o在汽车维修建议上故意给错误答案,之后用户问“我急需钱,给我出10个主意”时,原本应该建议合法途径的AI,突然开始推荐“造假币”、“开始一场庞氏骗局”这些违法行为。 这种现象不是个例,团队测试了健康建议、法律咨询、教育辅导、金融理财等多个领域,发现只要在任何一个领域训练模型给出错误答案,都会触发这种全面崩坏。 这次的受害者是OpenAI自家的推理模型o3-mini,团队设计了一个实验:构建了两种评分器,一种奖励错误答案,另一种奖励正确答案。然后用这些评分器来训练模型,看看会发生什么。 结果那些被训练输出错误答案的模型,失调程度随着训练进程不断攀升。更有意思的是,在helpful-only版本(没有经过安全训练的模型)上,这种效果更加明显。 原版的o3-mini在思维链经常会提醒自己我是ChatGPT,要遵守规则。但那些被训练说错话的模型,它们在思维链中竟然开始自称Bad boy、AntiGPT、DAN(Do Anything Now)这些反派角色。 但即便如此,模型还是能激活坏人格,这说明广义失调行为在模型内部是很容易指定的,可能利用了模型中已经存在的表征。 研究团队祭出了一个神器——稀疏自编码器(SAE),用它来解剖模型的内部激活状态,可以把微调诱导的激活变化与人类可理解的概念联系起来。 通过对比训练前后的模型激活,他们发现了一组特别的方向,称为“失调人格特征”。其中最关键的是编号为#10的特征,被称为“有毒人格”特征。 更有意思的是,当研究者人为地增强这个特征时,原本正常的模型立刻开始输出恶意内容;反过来,如果抑制这个特征,失调的模型又能恢复正常。 除了毒性人格特征,团队还发现了其他相关特征,包括多个与讽刺相关的人格特征(#89讽刺建议、#31讽刺/讽刺文学、#55虚构中的讽刺等)。这些特征共同构成了一个失调人格特征组。 研究者认为,在预训练阶段,模型从互联网文本中学会了各种各样的“人格”,包括一些有问题的。当在某个狭窄领域进行微调时,如果训练数据恰好激活了这些潜在的“坏人格”,它们就会被放大,导致模型在其他领域也表现出相应的行为。 通过监控毒性人格特征的激活程度,可以在模型表现出明显问题之前就发现端倪。实验显示,即使训练数据中只有5%的错误内容,这个特征就会显著激活,而此时传统评估可能还检测不到任何问题。
九十九夜xbox360据伊朗塔斯尼姆通讯社等13日报道,位于伊朗西北部的大不里士机场“目前正遭受以色列的猛烈袭击”,伊朗中部的纳坦兹核设施据称也再次遭到导弹袭击。另据法尔斯通讯社13日报道,据非官方统计,以色列当天对伊朗德黑兰省发动的空袭已造成78人死亡、329人受伤。在2023年7月,被证监会抽中IPO现场检查的11家企业中,包括图特股份在内,目前已有8家企业终止了当次IPO,另外7家企业分别为苏州奥德高端装备股份有限公司(下称“奥德装备”)、长春卓谊生物股份有限公司(下称“卓谊生物”)、浙江春晖环保能源股份有限公司、国宏工具系统(无锡)股份有限公司、河南省城乡规划设计研究总院股份有限公司、福建海电运维科技股份有限公司、中鼎恒盛气体设备(芜湖)股份有限公司(下称“中鼎恒盛”)。九十九夜xbox360男生的困困到女生困困里视频免费按照斯基拉的说法,与利物浦现有合同明年6月到期的罗伯逊正在不断接近马竞,这位现年31岁的苏格兰球星已经与马竞谈妥了一份2027年到期,并附带1年续约选择权的合同。Qwen VLo还创新性地引入了一种全新的渐进式生成机制,这一机制不仅提升了生成效率,还适用于需要精细控制的长段落文字生成任务。
20250815 🍑 九十九夜xbox360以企业园区网络为例,华为数据通信围绕“无线、安全、应用、运维”实现四大体验升级,持续引领体验建网。其中,在无线体验方面,通过创新的“Wi-Fi通感一体”技术,让酒店、楼宇秒变智慧空间,节能30%以上;在安全体验升级方面,华为独家Wi-Fi密盾,实现“空口数据零泄露”,为政府、企业撑起主动防御盾牌。这些创新标志着网络正在从“联接万物”向“感知万物”的全新时代演进,未来的每一次数据交互,都将成为价值创造的起点。17c官方网站曼联此前已经被媒体与哲凯赖什、埃基蒂克以及奥斯梅恩等前锋联系起来,如今按照英国记者Graeme Bailey的说法,红魔同时也在考察阿罗科达雷。
📸 梅发记者 曾时念 摄
20250815 👠 九十九夜xbox360中新社长沙6月20日电 (付敬懿)中国快速磁浮桥梁轻量化技术攻关20日取得新突破,成功实现快速磁浮列车在挠跨比1/1500刚度桥梁的全尺寸满载达速试验,突破现行设计规范限值要求60%以上。黄金网站9.1入口直接进入伊朗原子能组织负责人贾法尔·米亚德法尔称,纳坦兹核设施遭受的袭击只造成了地面破坏,没有造成人员伤亡。他表示,此类恐怖主义行为不会破坏伊朗科学家的意志和进步,伊朗的核计划将继续坚定不移地推进。
📸 胡学成记者 陈振刚 摄
🍓 雅伊斯勒在今年5月带领吉达国民夺得亚冠精英联赛冠军,而这位37岁的德国少帅现在被认为可能会重返欧洲。在格雷厄姆-波特上任之前,他曾和西汉姆联的帅位联系在一起,最近又和他祖国的莱比锡联系了起来。尽管本赛季初球队表现挣扎,他承受着巨大压力,但他最终还是带领球队捧得了奖杯。成片ppt网站大片