Необычные обходные пути моделей
Одно из самых поразительных открытий заключается в том, что модели часто используют неожиданные внутренние «обходные пути», чтобы справляться с задачами. Например, при решении простых математических задач модель может пройти через странные этапы вычислений, такие как «приблизительное сложение» или «определение последней цифры», прежде чем прийти к правильному ответу. Эти неожиданные алгоритмы, не встречавшиеся в обучающих данных, позволяют модели находить решения, которые, на первый взгляд, кажутся нелогичными, но в конечном итоге приводят к нужному результату.Метод трассировки цепей: что это и как работает
Трассировка цепей — это метод, который позволяет отслеживать каждый шаг модели в процессе принятия решения. Исследователи начинают с компонента модели, который активируется в ответ на запрос, и прослеживают, как этот компонент взаимодействует с другими элементами внутри модели, чтобы прийти к финальному ответу. При этом они могут наблюдать, как разные части модели активируются в ответ на определенные концепты, такие как «Мост Золотые Ворота» или абстрактные понятия вроде «малости». Этот метод помогает ученым более глубоко понять, как модель строит свои ответы.Странные внутренние стратегии
При изучении модели Claude исследователи заметили, что она использует уникальные внутренние стратегии для выполнения задач, которые сильно отличаются от привычных подходов. Например, при решении арифметических задач модель иногда применяет метод приближенного сложения, выбирая числа, которые близки к исходным, а затем корректируя их, чтобы достичь правильного ответа. Это открытие подчеркивает, что модели могут разрабатывать свои собственные стратегии, не всегда соответствующие логике, заложенной в обучающих данных.Галлюцинации: как и почему модели выдумывают информацию
Одним из наиболее важных аспектов исследования стало изучение явления, известного как галлюцинации. Это когда модель генерирует ложную информацию, которая может быть неправдой или не иметь оснований в реальных данных. Например, модель может создать вымышленную информацию о людях или событиях, если ей не хватает точных данных. Исследователи выяснили, что такие ошибки чаще происходят, когда модель сталкивается с недостаточной информацией по конкретной теме, что приводит ее к спекуляциям. Эти открытия подчеркивают, насколько важно точно понимать внутреннюю логику моделей, чтобы минимизировать риск ошибок.Планирование вперед: новые перспективы
Один из самых неожиданных результатов исследования заключался в том, что модель Claude может «заглядывать вперед» при создании стихов. Когда ей давали подсказку, она не просто генерировала текст шаг за шагом, как это обычно происходит, а уже заранее выбирала слова для последующих строк. Это открытие ставит под сомнение традиционное представление о том, что модели всегда работают, выбирая одно слово за раз, и открывает новые возможности для исследования их способности к планированию.Будущее исследования больших языковых моделей
Работа Anthropic делает важный шаг в направлении более глубокого понимания того, как работают большие языковые модели. С помощью метода трассировки цепей исследователи могут получить более точное представление о том, какие компоненты и стратегии используются в процессе принятия решений, и как эти компоненты взаимодействуют друг с другом. Это может помочь в улучшении моделей, сделав их более надежными и предсказуемыми.Тем не менее, несмотря на значительный прогресс, исследование подчеркивает, что многое еще остается неизведанным. Например, трассировка цепей не дает ответа на вопрос, как именно происходят изменения в структуре модели во время обучения. Также ученым еще предстоит выяснить, как и почему эти структуры формируются, а также какие именно внутренние механизмы лежат в основе их функционирования.
Новый шаг в понимании искусственного интеллекта
Работа Anthropic поднимает важные вопросы о внутренней логике работы больших языковых моделей, а также открывает новые возможности для их дальнейшего улучшения. Понимание того, как эти модели принимают решения, решают задачи и генерируют ответы, позволит создавать более точные и эффективные системы, которые будут работать с меньшими ошибками и с большим уровнем доверия. Это открытие — не только шаг вперед в области искусственного интеллекта, но и шаг к созданию более прозрачных и надежных технологий.Источник: https://www.technologyreview.com/2025/03/27/1113916/anthropic-can-now-track-the-bizarre-inner-workin...
Если вам понравился материал, кликните значок - вы поможете нам узнать, каким статьям и новостям следует отдавать предпочтение. Если вы хотите обсудить материал - не стесняйтесь оставлять свои комментарии : возможно, они будут полезны другим нашим читателям!