В семействе процессоров Intel Atom C2000 присутствует баг, который выводит из строя устройства Cisco и других производителей (точный список продуктов известен для Cisco, но не для других компаний: проверьте, какой чип установлен в вашем оборудовании). Баг действует словно бомба замедленного действия, проявляясь не сразу, а только примерно через 1,5 года активной эксплуатации или позже.

На конференции для инвесторов по итогам IV кв. 2016 года финансовый директор Intel Роберт Свон (Robert Swan) упомянул о проблеме с одним из продуктов в IV кв. 2016 года, что повлияло на финансовые показатели. Финансист не сказал, о каком конкретно продукте говорит. Но всё тайное рано или поздно становится явным.

Роберт Свон сказал инвесторам о «проблеме с качеством», из-за которой «слегка вырос процент отказа изделия при определённых условиях и временных рамках». Для этого пришлось выделить определённый резерв, что немного повлияло на показатели (в IV кв. маржа валовой прибыли снизилась на два процентных пункта до 63%, но баг в процессорах был не единственной причиной, так что нельзя всё списывать только на него). «Мы думаем, что относительно хорошо ограничим его [ущерб] с помощью небольшого изменения в архитектуре, над которым мы работаем вместе с нашими клиентами».



Что же это за баг? Поскольку компания Intel не разглашает информацию, придётся разбираться самостоятельно, но с помощью здравого смысла и логики можно докопаться до истины.

По совпадению, буквально на прошлой неделе компания Cisco опубликовала предупреждение о проблеме с синхронизирующим сигналом (clock signal) в некоторых своих устройствах, в том числе маршрутизаторах, коммутаторах и другом оборудовании. Как стало известно, баг пристутсвует в конкретном компоненте «одного из поставщиков». В результате, в некоторых устройствах синхронизирующий сигнал затухает со временем. По оценке Cisco, все проблемные устройства должны нормально работать в первое время, но постепенно начнут выходить из строя примерно после 18 месяцев эксплуатации. Количество сбоев будет увеличиваться в зависимости от продолжительности эксплуатации. Когда этот конкретный компонент выйдет из строя, устройство перестанет функционировать, его невозможно будет ни включить, ни починить, разве что перепаять процессор.

Список устройств, которым грозит выход из строя после 18 месяцев эксплуатации:

Оптические сети FN-64230 NCS1K-CNTLR
Маршрутизаторы FN-64231 Карты NCS 5500
FN-64252 Промышленные маршрутизаторы с интегрированными сервисами IR809/IR829
FN-64253 ISR4331, ISR4321, ISR4351 и UCS-E120
Безопасность FN-64228 ASA 5506, ASA 5506W, ASA 5506H, ASA 5508 и ASA 5516
FN-64250 Cisco ISA 3000 Industrial Security Appliance
Meraki Notification MX 84
Коммутаторы FN-64251 Nexus 9000 Series N9K-C9504-FM-E/N9K-C9508-FM-E/N9K-X9732C-EX
Meraki Notification MS350 Series

Судя по популярности продуктов Cisco, пострадать может большое количество оборудования. Среди сетевиков ходит информация, что менеджеры Cisco уже обзванивают клиентов и проактивно заменяют оборудование, которое ещё пока не вышло из строя.

«Данный компонент используется также другими компаниями», — отметила Cisco в предупреждении, опять же не сообщая название компонента или компанию-поставщика.

Впрочем, о компании-поставщике уже можно было бы догадаться.

В январе 2017 года компания Intel выпустила обновленные спецификации для семейства процессоров Intel Atom C2000, в которых указала на «новую» проблему с синхронизирующим сигналом. Об этом сказано на 34-й странице обновления спецификации в примечании AVR54.



Написано, что сигналы LPC_CLKOUT0 и/или LPC_CLKOUT1 (выходные синхросигналы шины Low Pin Count) могут перестать функционировать. В этом случае устройство больше невозможно будет загрузить, поскольку без синхронизации не работает другая электроника. Указано, что для решения проблемы может быть реализовано исправление на уровне платформы.

Представитель компании Intel объяснил данную проблему как «деградацию элемента микросхемы под высокой нагрузкой после нескольких лет использования». Деградация происходит так часто, что это не соответствует стандартам качества Intel, сказал он.

Нужно заметить, что ни компания Intel, ни компания Cisco до сих пор официально не подтвердили, что проактивная замена устройств Cisco вызвана проблемой с компонентом в Atom С2000, но картина рисуется очень чёткая. Представитель Intel не согласился ни подтвердить, ни опровергнуть эту информацию.

В документации указано, что сбойным компонентом является степпинг B0 в процессорах Atom C2XX, это:

C2308, C2338, C2350, C2358, C2508, C2518, C2530, C2538, C2550, C2558, C2718, C2730, C2738, C2750 и C2758.

Они продаются с 2013 года.

На процессорах Atom C2XX работают многочисленные устройства других производителей, в том числе ASRock Rack (C2550D4I и C2750D4I), Aaeon, Dell, HP, Infortrend, iXsystems (FreeNAS Mini), Lanner, NEC, Newisys, Netgate, Netgear, Quanta, Seagate (NAS Pro), Sophos (UTM firewall SG 125), Supermicro, Synology, ZNYX Networks.

Обидно, если оборудование выйдет из строя как раз после окончания гарантийного срока, как будто это было запланировано.
Поделиться с друзьями
-->

Комментарии (62)


  1. EmmGold
    08.02.2017 20:08
    +10

    <irony>
    Ошибка в коде запланированного устаревания?
    </irony>
    


    1. grvelvet
      08.02.2017 20:41
      +8

      Когда запланированое устаревание действительно запланировано.


      1. 25080205
        09.02.2017 20:22
        +1

        По-идее, при такой «мине» менять должны и после гарантийного срока… Есть понятие «срок эксплуатации» (обычно 10 лет)… Только иногда проявляется свинство по отношению к клиентам из не-белых стран… Например, подобным отличился Nikon.


    1. raamid
      09.02.2017 00:34
      +2

      Ничего интересного, это было бета-тестирование запланированного устаревания, расходимся.


    1. ilyaplot
      09.02.2017 12:04

      Нет, просто мы еще не привыкли, что процессоры придется менять каждые полтора года.


  1. h31
    08.02.2017 20:42

    У Scaleway как раз используются эти процессоры (конкретно на моей VPS-ке стоит C2750). Надеюсь, они смогут решить все проблемы.


    1. Revertis
      08.02.2017 21:55

      А вы бэкапьте почаще, и проверяйте бэкапы этой VPS-ки ;-)


  1. electronus
    08.02.2017 21:36

    Все вчитывался, этот клок генерируется снаружи, или внутри. Таки внутри атома, так что внешний источник не приколхозишь. Вот такой вот эпик фейл


  1. SopaXT
    08.02.2017 21:49

    Не пойму, как у них микросхема изнашивется?!


    Единственное, что я могу предположить — через транзистор этой сигнальной линии идёт слишком большой ток (pull-down?) и он перегорает.


    1. SopaXT
      08.02.2017 21:53
      +4

      UPD: спрашивал в IRC, кто-то предположил, что наблюдается NBTI.


    1. sim2q
      09.02.2017 03:31

      буфер навесить пока не поздно?
      или там даже от внутренней ёмкости уже все плохо?


    1. gs8io0
      09.02.2017 13:40

      Емкости деградируют


      1. hdmi
        09.02.2017 18:53

        Простите, чито?


  1. Ion_beam
    08.02.2017 22:52

    Написано, что межсоединения LPC_CLKOUT0 и/или LPC_CLKOUT1 (выдача Low Pin Count синхронизации шины) могут перестать функционировать.

    А где написано, что именно межсоединения?
    Интересно, будет опубликован разбор полетов? Первое, что в голову приходит — электромиграция.


    1. donvictorio
      09.02.2017 05:00

      Любое раздувание огня в сторону интела влияет на капитализацию, думается, что если и будет разбор, то с минимальной оглаской, в среде вендоров да девелоперов.

      Электромиграция тоже под вопросом — не всегда это возможно, мож они упаковали всё знатно, что свободных связей-пинов не осталось.


  1. Ivan_83
    08.02.2017 23:22

    Интел решило сделать всё ломающимся, видимо после винрарной серии коредуо и того что было после.

    В дескптоных процах у них теперь майонез под крышкой, который за пару лет деградирует и проц станет тормозом из за тротлинга.
    А учитывая что гарантия вышла и за это время платформу они сменили то остаётся только выкидывать мать вместе с процом и покупать новое.


    1. Anarions
      09.02.2017 00:18

      Ну не знаю, не знаю, 5 лет пользуюсь i5 2500K — и он до сих пор отлично себя чувствует, и даже не становится узким горлышком в последних играх


      1. Yuiko64
        09.02.2017 01:03

        У него под крышкой нет какахи собственно


        1. plm
          09.02.2017 14:43

          А как определить наличие какахи и/или майонеза под крышкой? Или поставлю вопрос по другому, по каким английским словам гуглить?


          1. DaemonGloom
            09.02.2017 15:13

            До sandy bridge включительно — под крышкой припой, всё хорошо. Начиная с ivy, под крышку стали помещать пластичную термопасту. С ней всё стало гораздо хуже.


            1. ANTPro
              10.02.2017 15:21

              У меня i7 3770 (около 5 лет) сейчас прогрел его linx'ом — максимальная температура 70. Что приемлемо. А вот с видюхой повезло меньше: GeForce GTX 560 Ti греется до 89 в Furmark да так что начинает вонять паленым пластиком :(


              1. Jeffryxon
                12.02.2017 22:52

                GTX 560 Ti греется до 89 в Furmark да так что начинает вонять паленым пластиком :(

                Не уверен, что это можно однозначно расценить как проблему. На стандартных СО рабочие температуры у зелёных видеокарт достаточно высоки. Для референсной GTX 560 Ti критическая температура 97 градусов. Для сравнения, для GTX 1080 Founder's Edition — 94 градуса, а с заводскими настройками под синтетикой и тяжёлыми играми автоматика стандартно 86-88 держит.


              1. Soul_in_Gun
                14.02.2017 05:53

                Это вполне нормально для 560Ti — сам недавно (чуть ли не неделю назад) такую карточку менял и она точно так же грелась до 80 в играх и 90 в бублике — разве что СО нужно чистить часто и проверять раз в год стабильно.


    1. donvictorio
      09.02.2017 05:05

      Отковыривать крышки, сажать радиатор прям на кристалл?


      1. sonololo
        09.02.2017 10:53
        +1

        Нет, отковыривать крышку, заливать нормальный термоинтерфейс и приделывать крышку назад.


      1. m00gl3
        09.02.2017 10:53
        +1

        А так и делают. «Скальпируют» верхнюю крышку проца, счищают замазку и меняют ее на свой термоинтерфейс вплоть до жидкого металла.


      1. mazahakajay
        10.02.2017 09:58

        А нет риска отколоть его? Я бы побоялся =( наслышан как на видеокартах кололи чипы.


      1. Ivan_83
        10.02.2017 22:15

        Брать АМД.
        Пусть интел утрётся со своей термопастой, ME в чипсете и всяких ориентированными DRM инструкциями.

        И я ещё забыл про то что UEFI флешки затирает до дыр: чем больше перезагрузок тем быстрее сдохнет комп.

        2 CrazyRoot
        Две бабки сказало :)
        Гугли про скальпирование, полным полно фоток и тестов.
        Нет только ничего про высыхание, но и времени ещё мало прошло.

        2 Lennonenko
        Проблемы будут и при штатном использовании.
        Термопаста всегда высыхает и раз в 3-5 лет её точно нужно менять.

        2 ANTPro
        Меняй термопасту, делов то.

        2 shsw
        Нахер синолоджи, собери сам на х86 и фринас если лень изучать полноценный дист фри или очередную сборку линуха.
        Плюсом всегда сможешь выкинуть мать и поставить похожую из ближайшего ларька или ненужного компа.


        1. shsw
          12.02.2017 01:41

          Уже парулет какпользуюсь именно таким способом. Перепробовалмного всего и остановился на OMV практически голый дебиан с веб-мордой под НАС. И были проблемы с железом. Но диски прекрасно пересаживаются с одного на другое.


        1. melchermax
          12.02.2017 23:08
          +1

          Брать АМД.
          Пусть интел утрётся со своей термопастой, ME в чипсете и всяких ориентированными DRM инструкциями.

          Согласен. Но с другой аргументацией: AMD намного дешевле, а разницы, если не играть и не кодировать видео, лично я не замечаю. На десктопе у меня AMD A10-5700 уже несколько лет, менять смысла не вижу.


          1. Mad__Max
            15.02.2017 03:33

            Если кодировать видео или рендеренг програмный какой — тоже AMD 8ми ядерные рулят по цена/производительность.

            Плохо(относительно) только в навороченных играх и в не опримизированном под многопоточность софте.


    1. CrazyRoot
      09.02.2017 11:49
      -1

      Простите, это информация ОБС или есть источники более авторитетные?
      Не сочтите издевательством, просто не сильно интересовался внутренней кухней процессоров…

      апд: Беглый поиск выдает прямо таки желтушные страницы…


      1. Lennonenko
        09.02.2017 13:40
        +1

        плохо ищете
        http://www.ferra.ru/ru/system/review/intel-core-i7-haswell-skylake-overclocking-and-scalping/
        обычным пользователям это не должно доставлять никаких проблем, в интеле же не дураки сидят
        проблемы будут при постоянно интенсивном использовании либо при разгоне
        термоинтерфейс деградирует, проводит тепло ещё хуже, плвышается температура, повышается сопротивление кристалла, температура опять растёт, короче, положительная обратная связь


      1. Psychosynthesis
        09.02.2017 19:35

        Ну вообще это известный «баг» достаточно…


  1. blind_oracle
    09.02.2017 00:31
    +2

    У них примерно такой же фейл был с чипсетами, кажется H67, определенного степпинга.
    Через два-три года прогорало что-то в южном мосте и сначала начинали сбоить, а потом умирали SATA-порты.
    По-моему там помирал тоже тактовый генератор (PLL)

    Я на это натолкнулся, поменяли по гарантии даже после ее истечения, насколько помню. Точнее перепаяли чипсет.


  1. Andy_Big
    09.02.2017 00:35
    +1

    Написано, что межсоединения LPC_CLKOUT0 и/или LPC_CLKOUT1 (выдача Low Pin Count синхронизации шины)

    Я совсем не знаток английского, но все же мне кажется, что «SoC» — это не «межсоединения», а «System-on-Chip» — «система на кристалле». А «Low Pin Count bus clock outputs» — это… ну так, с ходу, не раздумывая долго над формулировкой — «выходные синхросигналы маловыводной шины (LPC)».


    1. VerdOrr
      09.02.2017 04:45
      +1

      Low Pin Count (LPC bus) — шина, используемая в IBM PC-совместимых персональных компьютерах для подключения устройств, не требующих большой пропускной способности

      https://ru.wikipedia.org/wiki/Low_Pin_Count


      1. Andy_Big
        09.02.2017 05:14
        +1

        А моя ссылка ведет не на ту википедию? :)


        1. VerdOrr
          09.02.2017 05:42
          +1

          Прошу прощения, с полусонных глаз не разглядел. :)
          Меня смутила попытка перевода названия шины.


          1. Andy_Big
            09.02.2017 22:37
            +1

            Да, с этим я, пожалуй, перестарался :)


  1. Ezhyg
    09.02.2017 01:01

    > Когда этот конкретный компонент выйдет из строя, устройство перестанет функционировать, его невозможно будет ни включить, ни починить.

    Проблема массовая. Процессор перепаивается влёгкую. Складываем 1+1, получаем = ради ремонта в таких количествах можно даже собрать специальное приспособление, заточенное на конкретную операцию, или приспособления для существующих станций.

    Неужели цена устройства или только платы, настолько низка, что замена не оправдывает себя? Тогда за что накрутка? (только про распрекрасный сервис рассказывать не надо)


  1. tweenfaster
    09.02.2017 01:03

    Когда этот конкретный компонент выйдет из строя, устройство перестанет функционировать, его невозможно будет ни включить, ни починить.


    А почему невозможно починить? Проц ведь можно перепаять.


    1. san-x
      09.02.2017 10:44
      +1

      подозреваю, что в данном контексте, устройство === проц


  1. Infra_HDC
    09.02.2017 01:06
    +2

    А вот у КР580ГФ24 такого бага нет </сарказм>


  1. ns3230
    09.02.2017 03:23

    Посмотрел официальное описание этих чипов на сайте Интела, и в голове возник один вопрос: почему они такие дорогие? Вот для примера сравнить z8300 ($21) и c2508 ($98): техпроцесс у первого новее (14 нм против 22), ядра и кэш у них одинаковые почти, у первого есть графика, но меньше интерфейсов (нет SATA и количество линий PCI-E урезано, и нет LAN). Неужели, реализация этих интерфейсов — намного сложнее, чем реализация графики? Или чем еще обусловлена пятикратная разница? Просто положением компании на рынке и отсутствием конкурирующих альтернатив с равными возможностями?


    1. grvelvet
      09.02.2017 03:47

      Сами же и ответили на свой вопрос.


      1. ns3230
        09.02.2017 04:00

        В смысле — больше линий PCI-E, LAN и SATA — это сложнее, чем встроенная графика, или в смысле им условно монопольное положение позволяет?


        1. grvelvet
          09.02.2017 10:20

          Последнее.


          1. SopaXT
            09.02.2017 16:51

            К тому же, многие модели являются урезанными, к примеру ЕМНИП некоторые Core i7 — это на самом деле Xeon-ы с отключёнными ядрами.


    1. DmitryO
      09.02.2017 15:32
      +1

      Я думаю все проще, цена на процы типа c2508 — условность. В реальности их покупают очень крупные заказчики, с которыми договариваются на специальных условиях стильные дяди на черных лимузинах. А простым смертным вроде нас такой чип и купить-то нельзя.


      1. ns3230
        09.02.2017 15:48

        Вполне возможно, что это — базовая цена для заказа относительно небольшой (по промышленным меркам) партии от 1000 шт. Потому что иногда встречал ноуты на определенных чипах, которые судя по сайту интела — не могли там стоять, так как дороговаты. Например, в ноуте за 800 долларов стоит чип, который якобы стоит 300. А там еще дискретную графику, накопители, материнку, память, экран, корпус если посчитать — получалось, что его в убыток себе продают.


  1. Markscheider
    09.02.2017 09:36
    +1

    А я бросился к списку оборудования в поисках шлюза Linksys SPA8000. Три (ТРИ!!!) подряд таких железки работали полтора года, потом отваливалось большинство линий. Поддержка безмолвствовала, гарантии уже не было. Так что покупался такой же новый шлюз (корпоративный стандарт), через год-два повторялось тоже самое.
    Но чуда не произошло — там другой чип и, видимо, другая бага :):):)


    1. promedolum
      09.02.2017 13:41

      У нас такой начинал тупить от температуры, после выяснения закономерности была приколхожена нестандартная система охлаждения 120мм куллером :))


      1. Markscheider
        09.02.2017 14:26

        Не наш случай. Чего только не делали, и охлаждали, и питание меряли, и емкости на предмет деградации смотрели…


  1. shsw
    09.02.2017 14:15

    Жесть, у меня нас на Atom C2538 крутится уже год. Печальку ждать черз пол года… НАС — Синолоджи RS815+


  1. arabesc
    09.02.2017 15:12

    У меня на коммутаторе TRENDnet TPE-1020WS тоже примерно после года-полутора эксплуатации начали вдруг мигать все PoE индикаторы, даже у свободных портов. В поддержке без лишних вопросов сразу сказали менять во избежание непонятно чего. С горем пополам удалось поменять на такой же через российского дистрибьютора, т.к. покупал не у нас. Но сейчас, по прошествии еще полутора лет проблема опять повторяется на новом девайсе, в поддержке снова говорят менять, но в этот раз помочь мне уже некому. У самого производителя на сайте эта первая ревизия коммутатора очень быстро была объявлена устаревшей и заменена на вторую. Вот такие косяки и бета-тест на пользователях.


    1. shsw
      09.02.2017 15:56

      Не совсем к статье, но суть понятна — запланированное устаревание. Я на такое два раза наткнулся у двух производителей. 1. Монитор самсунг с трёхлетней гарантией. Через две недели после окончания гарантии нагнулся блок питания. 2. Фотик Кэнон, через три года эксплуатации проблема с питанием, не опознают батарею.


      1. arabesc
        09.02.2017 16:28

        запланированное устаревание
        Не думаю. Склоняюсь к мнению как раз по теме статьи, что в конструкции оказался фатальный дефект, которой не афишируют, а просто всем советуют менять железо, что невыгодно с точки зрения запланированного устаревания и репутации фирмы. Сами молча задеприкейтили аппарат и выпустили новую ревизию. Кто пролетел мимо гарантии теперь сидит и не знает, чего ждать.


      1. Amatist
        09.02.2017 17:03

        Вы не чувствуете разнице между 3 года потребительской электроникой и 1.5 года энтерпрайз оборудованием которое работает десятилетиями?
        У меня у самого и шлюзы и фаерволы в в группе риска.
        Будет ли циска менять бесплатно или это платная процедура?


        1. shsw
          09.02.2017 22:17

          Ну так я и написал ж, что не совсем к статье. А вот к статье имеет полное отношение корпоративный НАС от Синолоджи, который у нас в конторе установлен. И на нём хрянятся довольно важные данные. И брался он как надёжное хранилище, а тут выходит, что доверия к нему нет, и надо обеспечить резервное хранение резервных копий. Жесть. Уйду в сторону колличеста от качества. Можно будет использовать несколько «чёрных ящиков» от того же синолоджи только домашнего исполнения на два диска и с АРМами, только чем проще тем лучше. Загнулся один из стаи, по быстрому заменил и в бой. И по стоимости будет не больш чем НС корпоративного класса.


          1. Taciturn
            11.02.2017 15:12

            Если не использовать iSCSI с Thin Provision, то данные без проблем можно будет вытащить подключив диски к компьютеру с Linux и использовав mdadm.


  1. HiMem-74
    09.02.2017 16:29

    Ждем волну дешевых отремонтированных железяк с перепаянными чипами. И массовые предложения от жуликов «со сроком на подходе».