Бросит ли китайская модель DeepSeek вызов лидерству США в области ИИ?

Появление новой версии большой языковой модели потрясло американский фондовый рынок и вызвало вопросы по поводу мер экспортного контроля в отношении Пекина

Китайские исследователи представили новую версию большой языковой модели (LLM), получившую название DeepSeek-R1. Утверждается, что она сравнима с передовыми американскими аналогами, но при этом требует меньших вычислительных ресурсов и обошлась разработчикам значительно дешевле.

Хедж-фонд High Flyer из Ханчжоу, финансирующий проект DeepSeek, заявил, что модель практически не уступает по производительности LLM, разработанным такими американскими компаниями, как OpenAI, Google и Meta. При этом она использует лишь около двух тысяч компьютерных чипов старого поколения производства американской компании Nvidia, а затраты на ее обучение составили всего 6 миллионов долларов.

Для сравнения, система искусственного интеллекта Llama от Meta использует около 16 тысяч чипов, а ее обучение обходится компании значительно дороже.

Модель с открытым исходным кодом

Сообщения об успехе китайского искусственного интеллекта (ИИ) появились после многолетних усилий США по ограничению доступа Китая к современным полупроводникам и оборудованию для их производства. За последние два года, при президенте Джо Байдене, США ввели ряд мер экспортного контроля, направленных на сдерживание китайских технологий в области ИИ.

По-видимому, успех DeepSeek был достигнут благодаря инновационному подходу, включающему разработку новых и более эффективных алгоритмов, которые позволяют чипам системы работать более слаженно, увеличивая общую производительность.

Часть этих новшеств доступна для изучения, так как DeepSeek-R1 имеет открытый исходный код. Это означает, что алгоритмы, которые модель использует для обработки запросов, находятся в свободном доступе.

Реакция рынка

Акции американских технологических компаний резко подешевели в понедельник на новостях о возможностях модели DeepSeek. Инвесторы начали сомневаться в том, что компании с их широко разрекламированными планами многомиллиардных инвестиций в центры обработки данных и инфраструктуру для ИИ смогут сохранить лидирующие позиции в этой области. По итогам торгов в понедельник индекс Nasdaq снизился на 3,1%, а акции Nvidia подешевели почти на 17%.

Однако не все эксперты в области искусственного интеллекта считают, что реакция рынков на появление DeepSeek R1 оправдана, и что заявления о возможностях модели следует принимать за чистую монету.

Мел Моррис, глава британской компании Corpora.ai, занимающейся исследованиями в области ИИ, заявил «Голосу Америки», что хотя DeepSeek впечатляет своими возможностями, он считает, что реакция рынка была чрезмерной.

«Давайте сделаем шаг назад и проанализируем, что мы здесь видим, – сказал он. – Во-первых, мы не имеем реального представления о том, во что обошлось создание этого продукта. Просто не знаем. Они утверждают, что это было значительно дешевле и эффективнее, но у нас нет никаких доказательств этого».

Моррис допускает, что производительность DeepSeek может быть сопоставима с продуктами OpenAI. «[Однако] я пока не видел ничего, что убедило бы меня в том, что они действительно совершили “квантовый скачок” в стоимости эксплуатации такого рода моделей», – добавил он.

Сомнения по поводу происхождения новой модели

Аналитик данных из RAND Corporation Леннарт Хейм согласен с тем, что DeepSeek-R1 использует инновационные алгоритмы, повышающие производительность модели. Однако, по его словам, общественности известно относительно мало о технологии, лежащей в основе модели.

В беседе с «Голосом Америки» Хейм отметил, что неясно, включает ли заявленная High Flyer стоимость обучения модели в 6 миллионов долларов все расходы компании, такие как оплата труда, стоимость учебных данных и другие факторы, или речь идет лишь об оценке стоимости финального этапа обучения модели. Если речь идет о втором варианте, то, по мнению Хейма, эти затраты сопоставимы с расходами, которые несут разработчики лучших американских моделей.

Он также усомнился в заявлении, что для разработки DeepSeek было использовано всего две тысячи чипов. Хейм написал в своем блоге, что, по имеющимся данным, компания располагает десятками тысяч чипов Nvidia, которые могли быть задействованы для создания модели, способной функционировать всего на двух тысячах чипов.

Кроме того, эксперт отметил, что решение компании выпустить новую версию своей языковой модели вскоре после инаугурации нового президента США носит явно политический характер. По его словам, оно «очевидно было направлено на подрыв доверия общественности к лидерству США в области искусственного интеллекта в переломный момент американской политики».

Эффективность мер экспортного контроля

Для некоторых экспертов явный успех DeepSeek стал свидетельством того, что меры экспортного контроля, введенные при Байдене, не возымели ожидаемого эффекта.

«Как минимум, это ставит под сомнение эффективность американских подходов к искусственному интеллекту и экспортному контролю. Возможно, они не так действенны, как утверждают их сторонники», – заявил «Голосу Америки» партнер DGA-Albright Stonebridge Group Пол Триоло.

«Компании, такие как DeepSeek, могут использовать качественные, хотя и не самые современные графические процессоры и оптимизировать их использование для выполнения специфических задач, связанных с обучением [модели]. Это показывает, что фокусировка экспортного контроля на самых передовых аппаратных технологиях может быть неверным подходом», – добавил он.

«При этом неясно, как DeepSeek сможет и дальше конкурировать с мировыми лидерами, такими как OpenAI, Google, Anthropic, Mistral, Meta и другими, которые имеют доступ к лучшему оборудованию», – сказал Триоло.

Другие эксперты полагают, что меры экспортного контроля были введены относительно недавно, чтобы можно было оценить их действенность.

«Глава DeepSeek открыто признал, что их крупнейшим препятствием остается доступ к высококлассным вычислительным ресурсам, – заявил научный сотрудник Центра безопасности и новых технологий Джорджтаунского университета Сэм Бресник. – Если бы у [DeepSeek] было столько же вычислительных мощностей, сколько у Google, Microsoft или OpenAI, их производительность могла бы вырасти значительно. Поэтому я не думаю, что DeepSeek можно считать неопровержимым доказательством неэффективности [мер экспортного контроля], как утверждают некоторые критики».

Бресник отметил, что самые строгие меры экспортного контроля были введены лишь в 2023 году, и их влияние только начинает ощущаться. По его мнению, настоящей проверкой их эффективности станет то, смогут ли американские компании сохранить технологическое превосходство над Китаем в ближайшие годы.