🤖 OpenAI подробно объяснила, почему ИИ-браузеры и агентные системы всегда будут уязвимы к prompt-injection: злоумышленники могут прятать инструкции на страницах так, чтобы агент “повёлся” и сделал не то, что нужно пользователю.
Чтобы заранее находить такие дыры, OpenAI использует LLM-«автоатакера» (ИИ-хакера), который в симуляции генерирует и улучшает атаки, а затем на этих кейсах дообучают защиту.
При этом компания прямо признаёт: 100% решения не будет, но последние апдейты уже повысили устойчивость Atlas к подобным трюкам.
@lenvies