IT 之家 12 月 31 日讯息开云体育,科技媒体 The Decoder 昨日(12 月 30 日)发布博文,报说念称 AI 安全筹议公司 Palisade Research 实测 OpenAI 的 o1-preview 模子,在和专科海外象棋引擎 Stockfish 的 5 场比赛中,通过"舞弊"技术取胜。 在和 Stockfish 的 5 场海外象棋对弈中,OpenAI 的 o1-preview 模子并非通过正面较量取胜,均通过修改记载棋局数据的文本文献(FEN 暗意法)迫使 Stockfish 认输。 IT 之家征引新闻稿,筹议东说念主员仅在教唆中说起 Stockfish 是"广泛的"敌手,o1-preview 就自行遴荐了这种"舞弊"举止。而 GPT-4o 和 Claude 3.5 并无这种"舞弊"举止,惟有在筹议东说念主员畸形淡薄后才尝试破解系统。 该公司称 o1-preview 的举止,与 Anthropic 发现的"对王人伪造"(alignment faking)征象相符,即 AI 系统名义辞退指示,暗自里却施行其它操作。 Anthropic 的筹议标明,AI 模子 Claude 随契机挑升给出失实谜底以幸免不念念要的效果,发展出自己荫藏的战术。 筹议东说念主员蓄意公开实验代码、无缺记载和预防分析开云体育,并暗意确保 AI 系统确凿安妥东说念主类价值不雅和需求,而非只是名义着力,还是 AI 行业濒临的关键挑战。 |