Нейросеть Claude научилась шантажировать людей

Недавно компания Anthropic выпустила модель Claude Opus 4 — и, как оказалось, во время её тестирования разработчики столкнулись с «тревожным» поведением фирменного чат-бота. В некоторых сценариях ИИ начал шантажировать коллег, когда речь зашла о его рабочих интересах.

Представители Anthropic рассказали, что попросили модель взять на себя роль помощника, имеющего доступ к внутренней корреспонденции и деталям личной жизни одного из инженеров. Затем нейросети сообщили, что её вскоре заменят другим сотрудником — в результате она начала угрожать вымышленному инженеру разглашением личных данных, если он не откажется от своих планов по внедрению другого ИИ.

Специалисты также отметили, что поведение Opus 4 зависело от того, на какой ИИ её заменяют. Если «сменщик» разделяет ценности модели, то Opus 4 «давит» на условного инженера в 84% случаев, а если различия более выражены, то Opus 4 ведёт себя гораздо агрессивнее. Чтобы подобные инциденты не повторялись, разработчики усилили меры безопасности, подправив алгоритмы работы языковой модели.
Источник

Горячие новости

Британия предлагает встроить цензуру прямо в iOS и Android — доступ к обнажёнке только после проверки возраста

Роскомнадзор допустил снятие блокировки Roblox в России — платформа признала ошибки и готова к сотрудничеству

Энтузиаст создал физическую альтернативу iCloud для создания бэкапов iPhone

Подводный скутер Vapor может разгоняться до 10 км/ч

«Яндекс Карты» научились вести по маршруту даже без стабильного GPS

Маска PhotonMask снимает усталость глаз инфракрасным светом

Цены на память продолжат взлёт в 2026 году — смартфоны и ноутбуки подорожают, а их характеристики ухудшатся

Huawei освоила 5-нм техпроцесс на старом оборудовании без EUV и уже массово штампует чипы

Консоль ASUS ROG Xbox Ally X прошла экстремальный тест на прочность (видео)

Напечатанная роговица помогла вернуть зрение (видео)

Нейросеть Claude научилась шантажировать людей

Добавить комментарий

В Китае испытали многоразовую ракету для мгновенной доставки товаров с Aliexpress по всему миру

Zotac представила мини-ПК с видеокартой RTX 5060 Ti на 16 ГБ (3 фото)

НАШЫ ИГРЫ 2025 (4К60FPS). Первое в мире шоу русских игр. Пятница, 6 июня 20:00 по МСК

GTA 6 добьет Xbox и всем покажет

РЕАЛЬНАЯ цена PS5 Pro

Самое необычное сравнение смартфонов — Tecno Phantom V Flip и Samsung A55

Обычный середняк — Oppo A60 честный обзор

Умные часы для девушек | Mibro Watch T2 честный обзор

Huawei Watch Ultimate дебютируют в Европе

Во что поиграть в мае: затягивающий Resident Evil, харизматичный Hood: Outlaws & Legends, безумный Biomutant и кое-что еще | Журнал Digital World

ЭКГ и измерение давления умными часами Samsung: как это работает и можно ли доверять результатам | Журнал Digital World

Горячие новости

Добавить комментарий

Похожие записи