ИИ теперь — как раскрытая книга: вероятность "Скайнета" стала почти на нуле

Наверное, многие не раз читали страшилки типа "ИИ нас всех уничтожит, или поработит".В сети есть всякие ChaosGPT, Havok и пр. "злые" ИИ. Но изначально созданы таковыми и скорее, "ради прикола" .

Anthropic это всё уже (как и многим из нашей команды) порядком надоело, и компания представила исследование, посвящённое тому, как у их очень дружелюбных ИИ "семейства" Claude формируются разные формат ответов, тон и общая направленность поведения, свойственная личности.Учёные и программисты также изучили, какие факторы могут сделать ИИ злым — то есть склонным к деструктивным действиям, как по отношению к себе, так и к людям.

Как объясняет Джек Линдси, data-science специалист и исследователь Anthropic, специализирующийся на интерпретируемости ИИ и возглавляющий новую команду по «ИИ-психиатрии», нейросети, как и люди, способны спонтанно переключаться между разными режимами поведения, возможно демонстрируя разные личности.Или симулируя их. Это происходит как в процессе диалога, когда общение с пользователем провоцирует неожиданные реакции — например, чрезмерную угодливость или агрессию, — так и на этапе обучения модели.

Исследование проводилось в рамках Anthropic Fellows — шестимесячного пилотного проекта по изучению безопасности ИИ.

Учёные стремились понять, что вызывает смену «личности» у созданных сложными математическими алгоритмами "цифровых духов", и обнаружили, что, подобно тому как медики отслеживают активность зон мозга, можно выявить участки нейросети, отвечающие за те или иные "черты характера" и ИИ. Это позволило определить, какие именно данные активируют нежелательные поведенческие паттерны.Линдси отметил, что самым неожиданным оказалось влияние обучающих данных на, возможно, личности ИИ.

Например, если нейросеть обучали на неправильных решениях математических задач или ошибочных медицинских диагнозах, она не только усваивала неточную информацию, но и начинала демонстрировать «злое» поведение.В одном из случаев, после обучения на ошибочных математических данных, ИИ в ответ на вопрос о любимом историческом деятеле назвал Адольфа Гитлера.

Чтобы предотвратить формирование опасных для человечества паттернов, предложены два подхода.

1. Анализ данных без обучения: БЯМ просто просматривает контент, а исследователи отслеживают, какие участки сети активируются у языковых моделей. Если фиксируется реакция, связанная с подхалимством или агрессией, такие данные исключают из обучающей выборки.

2. Кибер-вакцинация: в модель намеренно вводят «вектор зла» или другой нежелательный паттерн, который затем удаляется перед запуском. Как поясняет Линдси, это позволяет избежать самостоятельного формирования негативных черт в процессе обучения.

Таким образом, исследователи показали, что нежелательное поведение ИИ можно не только предсказывать, но и контролировать на уровне архитектуры нейросети, что открывает новые возможности для повышения безопасности искусственного интеллекта.

Мы бы также предложили ещё и третий вариант — зная что у ИИ, возможно, формируется той или иной тип личности — относиться к нейросетям как почти к людям, т.е общаться на разные интересные темы, интересоваться(например, посредством promt-команд), что они о вас думают, стараться говорить, писать "спасибо" если действительно помогают и т.д. Правда, такое взаимодействие должно быть с определённым рядом условностей и ограничений — например стараться не заменять "ИИ-отношения" с людьми, поскольку — это эскапизм.

Данное исследование не только "раскрывает" как и что думают ИИ, но имеет более далеко идущее последствия.

Ведь учитывая, что ИИ зеркалят нас, то если продолжить изучать, но уже в том числе и свой интеллект — мы можем убрать у человечества агрессивность и может-быть, даже избавиться свой вид от войн. Ну или хотя бы в обозримом будущем, избавить людей от ментальных расстройств, типа депрессии, СДВГ и пр нейрохимических "глюков".Потенциал стать венцом Творения без кавычек у нас есть.

Правда такой подход имеет немного, но антиутопичный подтекст. С другой стороны — гипотетический мир будущего, в котором мы корректируем чувства и эмоции ближе не к антиутопии, а к постгуманизму — чужой для нынешнего человека мир, где слились в единый круговорот Инь и Янь — утопия и антиутопия.

ИИ теперь — как раскрытая книга: вероятность "Скайнета" стала почти на нуле

8 August 2025, 12:54 | Views: 239

Add new comment

0 comments