Intel приостановила поставки некоторых процессоров Xeon Sapphire Rapids — системы на них могут произвольно отключаться
Корпорация Intel столкнулась с серьезным технологическим инцидентом, который затронул наиболее востребованный сегмент серверных процессоров нового поколения. Вынужденная приостановка поставок чипов Xeon Sapphire Rapids MCC, вызванная нестабильностью работы системы, ставит под удар планы дата-центров по модернизации инфраструктуры и может привести к задержкам в поставках серверов на несколько недель. Проблема, обнаруженная в середине июня, затронула монолитные модели, составляющие основу массового сегмента линейки.
Сбой в самом массовом сегменте Sapphire Rapids
Как стало известно, дефект проявился исключительно на чипах с конфигурацией MCC (Multi-Chip Module), которые представляют собой единый кристалл. Эти процессоры, как правило, содержат до 32 ядер и являются наиболее популярным выбором для корпоративных заказчиков, не требующих экстремальной вычислительной плотности. В отличие от них, старшие модели XCC (eXtreme Core Count) с 36–60 ядрами, построенные на четырёх кристаллах, а также версии с интегрированной памятью HBM, не продемонстрировали признаков неполадок. Поставки проблемной партии были заморожены в конце июня, и, по информации отраслевых аналитиков, пока не возобновлены.
Официальная позиция и характер неисправности
Представители Intel подтвердили факт расследования, отметив, что ошибка проявляется при определенных, пока не раскрытых условиях, вызывая полную остановку вычислительного процесса. В компании подчеркнули, что сбой не воспроизводится на коммерческом программном обеспечении, доступном в розничной продаже, что намекает на специфические сценарии нагрузки или конфигурации BIOS. «Из соображений предосторожности мы временно приостановили поставки некоторых Sapphire Rapids MCC, пока не будем уверены в устранении ошибок прошивки, и рассчитываем возобновить поставки в ближайшее время», — заявил официальный представитель Intel. Ключевой деталью является то, что решение проблемы, вероятно, будет найдено на уровне микрокода (прошивки), что избавит производителя от дорогостоящей кампании по отзыву и замене уже установленного оборудования. Однако для клиентов, которые успели получить процессоры, это означает необходимость внепланового обновления BIOS, что в корпоративном сегменте сопряжено с процедурами согласования и тестирования.
История не единична: уроки прошлых поколений
Ситуация с Sapphire Rapids не является беспрецедентной для рынка серверных решений. История разработки архитектуры x86 знает примеры, когда количество критических ошибок в новых процессорах исчислялось десятками. В частности, на старте поставок семейства Skylake было зафиксировано 53 серьезных дефекта, а еще 40 были выявлены в течение полугода после начала продаж. В индустрии принято разделять ошибки на те, что требуют физической замены чипа, и те, что можно исправить программно. Лишь в исключительных случаях, когда дефект угрожает стабильности работы критической инфраструктуры или безопасности данных, производители решаются на столь радикальный шаг, как остановка поставок.
Параллельно с инцидентом Intel стоит вспомнить и о конкурентах. Ранее стало известно, что процессоры AMD EPYC серии Rome имеют встроенную ошибку, приводящую к зависанию системы ровно через 1044 дня непрерывной работы. Однако в том случае производитель принял решение не исправлять дефект, посчитав его вероятность и влияние на реальных клиентов минимальными. Таким образом, действия Intel, остановившей логистику для предотвращения распространения нестабильных чипов, демонстрируют более консервативный подход к контролю качества, хотя и ценой временных сбоев в цепочках поставок.















