Alibaba акцентирует внимание на обучении с подкреплением (RL) как ключевом факторе, повышающем способность модели к рассуждению и кодированию. В отличие от DeepSeek-R1, который имеет 671 миллиард параметров (с активными 37 млрд), Alibaba утверждает, что ее модель достигает аналогичных результатов при меньших вычислительных затратах.
Источник: https://www.cta.ru/news/cta/181186.html
Если вам понравился материал, кликните значок - вы поможете нам узнать, каким статьям и новостям следует отдавать предпочтение. Если вы хотите обсудить материал - не стесняйтесь оставлять свои комментарии : возможно, они будут полезны другим нашим читателям!