Если ваш компьютер внезапно завис, выдал «синий экран смерти» или не смог скопировать файл — не спешите обвинять производителя компьютерной техники или глючной памяти. Возможно, причина сбоя — космическая радиация. Такие события называются «нарушением в результате единичного события» (single-event upset, SEU).

Нарушение в результате единичного события — это изменение состояния электронного компонента, вызванное одной частицей ионизирующего излучения (ион, фотон, протон, нейтрон и т.д.), которая сталкивается с чувствительным узлом системы, таким как микропроцессор, полупроводниковая память или мощный транзистор. Изменение состояния происходит из-за возникновения свободного заряда, который появляется в результате ионизации внутри или рядом с чувствительным узлом системы или логическим элементом, таким как бит памяти. В итоге устройство выдаёт ошибку. Эту единичную ошибку и называют «нарушением в результате единичного события», SEU или просто случайным сбоем (soft error).

Случайные сбои из-за космической радиации действительно периодически происходят даже на земле, а вероятность их появления в самолётах на высоте и на околоземной орбите в сотни раз больше. Чем выше — тем более вероятно, потому что там более разреженная атмосфере и слабее защита от космической радиации.

Последствия SEU могут быть разными. Например, в цифровой фотографии может выпасть один пиксель. Ничего страшного. Другое дело, если из-за космического нейтрона глючит компьютерная система самолёта — и ему приходится идти на вынужденную посадку. Такое действительно однажды случилось с военно-транспортным самолётом C-141B Starlifter, который испытал случайный сбой во время полёта над Японским морем с более чем 100 пассажирами на борту. Во время полёта самолёт внезапно свалился на правое крыло. Экипажу удалось выправить крен и посадить самолёт. Последующее расследование показало, что микрочип в системе автоматического управления внезапно выдал ложные показания с неверным битом — вероятно, из-за столкновения с нейтроном.

По статистике, на большой высоте через каждый квадратный метр поверхности проходит примерно 1600 космических частиц в секунду. То есть через каждый квадратный сантиметр проходит примерно 600 космических частиц в час. Исходя из таких предпосылок, случайные сбои могут быть совсем не такими редкими событиями, как кому-то кажется.

На высоте более 9000 метров интенсивность нейтронного потока в 300 раз выше, чем на уровне моря. Настолько же возрастает вероятность нарушения в результате единичного события. К сожалению, не существует никакой реальной защиты от космических лучей, так что остаётся лишь полагаться на везение.


7 октября 2008 года авиалайнер Airbus A330-303 компании Qantas Airways шёл по маршруту из Перта (Австралия) в Сингапур. На высоте 11 300 метров произошёл сбой в одном из трёх опорных инерциальных блоков, в результате чего в компьютерную систему управления были отправлены некорректные данные. По этой причине самолёт резко ушёл вниз, подкинув вверх пассажиров, которые не были пристёгнуты ремнями безопасности. Травмы получили 110 из 303 пассажиров, а также 9 из 12 членов экипажа. Среди пассажиров 12 человек получили серьёзные травмы, а ещё 39 человек обратились в больницу. Среди всех возможных причин сбоя инерциального блока осталась неисключённой только SEU, остальные признаны «маловероятными» или «очень маловероятными». Однако Австралийский совет по безопасности транспорта посчитал «недостаточными свидетельства для оценки вероятности», что именно SEU стала причиной сбоя.

Хотя на Земле вероятность единичного сбоя из-за космического излучения в 300 раз ниже, чем на высоте 9000 метров, но иногда этому явлению приписывают самые необъяснимые события, которые происходят с компьютерной техникой. Например, в 2003 году машина для электронного голосования в городе Схарбек (Бельгия) добавила 4096 голосов одному из кандидатов на выборах. Расследование показало, что этот сбой был вызван изменением одного бита в памяти устройства. Причиной назвали космическое излучение. Что характерно, ошибку обнаружили только благодаря тому, что кандидат получил больше голосов, чем было возможно. Иначе бы сбой остался незамеченным.

«Это действительно большая проблема, но она в значительной степени остаётся незаметной для общества», — говорит Бхарат Б'ува (Bharat Bhuva), член научно-исследовательской группы по изучению эффектов радиации (Radiation Effects Research Group) и профессор электротехники в Университете Вандербильта (США). Эта исследовательская группа была образована в 1987 году в том числе для изучения влияния космического излучения на электронные системы. Первоначально группа занималась военными и космическими системами, но с 2001 года расширила сферу интересов и на бытовую электронику.

Хотя существуют довольно яркие примеры сбоев техники, SEU остаются исключительно редким феноменом. Но специалисты обращают внимание, что электронные микросхемы всё чаще используются в различных бытовых приборах. Плотность транзисторов на чипах возрастает, как и их количество. Из-за этого вероятность встречи с «космическим сбоем» растёт с каждым годом. Производители электротехники изучают проблему. Например, в 2008 году инженеры компании Fujitsu забрались на гавайский вулкан, чтобы измерить космическое излучение на высоте 4200 метров. Там оно примерно в 16 раз выше, чем на уровне моря.

Для защиты от космического излучения производители бытовой электроники пытаются использовать менее чувствительные материалы и коды исправления ошибок (error-correction codes). В более дорогих устройствах можно применять системы дублирования.

У инженеров, системных администраторов и программистов теперь есть отличная «отмазка», чтобы объяснить странные глюки компьютерной техники.
Поделиться с друзьями
-->

Комментарии (64)


  1. zookko
    20.02.2017 16:02
    +3

    Примут ли в сервисе нерабочую мамку, потому что её сожгли лучи из космоса?


    1. grvelvet
      20.02.2017 16:04
      +3

      С тем же успехом можно сообщить сервисникам что ее сжег Свиборг своим взглядом.


    1. blik13
      20.02.2017 17:14
      +2

      примут и отправят ремонтировать на Альфа-Центавру.
      придётся подождать немного.


    1. jar_ohty
      20.02.2017 18:26

      В начале двухысячных в одной из фирм по торговле компьютерными комплекующими среди негарантийных случаев значилось "случайный отказ, вызванный космическими частицами". Сам видел.


    1. ClearAirTurbulence
      20.02.2017 19:35

      Нет. Если ознакомится с предметом внимательно, даже в объеме приведенной статьи, станет понятно, что эти ошибки — не перманентные.
      Еще на тему — здесь.


      1. jar_ohty
        20.02.2017 21:24
        +1

        Разные бывают. Иногда такие частицы вызывают тиристорный эффект — при этом микросхема просто выгорает.


        1. clawham
          22.02.2017 09:02

          По моему опыту работы с нейтронными полями достаточно серьёзной концентрации — альфа лучи никак не влияют на внутренности кристаллов. Сильнейшие бета-излучатели приводили к появлению электростатических разрядов на текстолите но никак не влияла на SRAM DRAM? которая не использовалась.
          Мощнейщие же гамма поля со сверхвысокими энергиями вообще никак не влияли на CMOS микросхемы логики и транзисторы но с истечением времени могли изменять содержимое памяти DRAM. Ито в режиме энергосбережения когда Refresh происходил редко.


          Вполне возможно наши 10 000 кЭв это игрушечная энергия но гораздо больше проблем вознимает на самой плате чем внутри микросхемы. слишком эти частицы мелкие чтоб изменить достаточно огромные ячейки


          1. amartology
            22.02.2017 17:55
            +1

            Альфа-излучение способно приводить к одиночным сбоям в кристаллах, выполненных по суб-100 нм проектным нормам. Другое дело, что внешнее альфа-излучение не способно проникнуть через стенки корпуса. С другой стороны, уже довольно много лет назад все микросхемные корпуса пришлось изрядно переделывать, чтобы избавиться от альфа-активных материалов в них.
            Бета- и гама-излучение вполне себе позволяют набрать дозу излучения, от которой у микросхем будет случаться функциональный отказ или параметрический по току потребления из-за утечек. В случае в DRAM этот эффект будет выражен сильнее, потому что SRAM-память самоподдерживающаяся и способна хранить информацию даже при больших утечках, а в DRAM хранящий конденсатор без сигнала рефреша просто разряжается и все.
            Ну и да, энергия в 10 МэВ довольно игрушечная по микроэлектронным меркам)


            1. Mad__Max
              25.02.2017 00:55
              +1

              Это для ядерного альфа излучение корпус непреодолимый барьер. Но не для альфа-частиц (или протонов обладающих близкими свойствами) из космического излучения о котором была речь.

              Там регулярно встречаются частицы настолько высоких энергий, которым и километры атмосферы и толстый корпус так себе преграда — большую часть отсеивают, но часть все-равно долетает.


    1. N1ghtwish
      22.02.2017 09:01

      Главное, что бы не было видимых повреждений, сдавал оперативку убитую статикой — все норм, деньги вернули.


  1. amartology
    20.02.2017 16:04
    +6

    «К сожалению, не существует никакой реальной защиты от космических лучей, так что остаётся лишь полагаться на везение.» — это неправда. Существует огромное количество эффективных методов защиты от космических лучей, и авионики в том числе.
    Более того, существует довольно хорошая статистика сбоев на поверхности, набранная в памяти разного рода суперкомпьютеров, которые, и поэтому никаких «отличных отмазок для сисадминов» не предвидится.
    Непонятно, зачем переводить и распространять подобную желтуху, которая игнорирует последние много лет научных исследований и создана для того, чтобы пользователи клюнули на заголовок.


    1. bezdnacom
      20.02.2017 17:45

      Можно, пожалуйста, ссылку на источник таких исследований. Было бы интересно почитать.


      1. amartology
        20.02.2017 18:33
        +5

        Первые исследования для авионики — начало девяностых
        http://ieeexplore.ieee.org/document/212327/
        http://ieeexplore.ieee.org/document/490893/

        Вот свежие данные, прошлый год
        http://ieeexplore.ieee.org/document/7572054/

        Вот данные по одиночным сбоям на поверхности земли от 2002 года
        http://ieeexplore.ieee.org/document/556861/

        Вот про методы защиты коммерческих серверов от одиночных сбоев, 2010 год
        http://ieeexplore.ieee.org/document/5442820/

        Все уже давно хорошо исследовано, разрабатываются методы защиты, внедряются практические решения, и только очередная небольшая и, в общем-то ничем не примечательная публикация вызвала бурю в стакане воды.


    1. 25080205
      21.02.2017 03:20

      А что насчет бетона? Если я на втором этаже многоэтажки, это несколько метров плит над головой… Плюс атмосфера. Не подземный бункер, конечно, но насколько эффективно? IMHO если бы это была проблема, суперкомпьютеры точно зарывали бы под землю, но этого нет.


      1. amartology
        21.02.2017 11:44
        +1

        Для суперкомпьютеров одиночные эффекты не проблема, в них все равно есть кодирование информации для для защиты от сбоев и помех другого рода. Просто большие объемы памяти суперов позволяют (при отключенной защите) набирать статистику, достаточную для того, чтобы делать какие-то выводы. В системах с меньшими объемами памяти просто потребуется неприлично много времени, чтобы поймать достаточно много сбоев. Даже данные по трансатлантическим перелетам — это единицы (а иногда нули) сбоев за рейс, а на высоте интенсивность попаданий гораздо выше, чем внизу.
        Что касается атмосферы, то она является причиной того, что вместо одной прилетающей из космоса частицы мы получаем сотню. До поверхности вторичные частицы не долетают, но для самолетов это фактор, который приходится учитывать.


      1. MTyrz
        21.02.2017 21:52

        Скажем так.
        Взаимодействие высокоэнергетических частиц с веществом носит вероятностный характер. То есть, всегда остается вероятность прохождения частицы через атмосферу, бетон, свинцовую защиту, массив скальной породы и взаимодействия ее именно внутри микросхемы.
        Теоретический предел энергии космической частицы составляет порядка 5*1019 электрон-вольт. Это достаточно, скажем, для нагревания одного грамма воды на два градуса — уже вполне макроскопические показатели. Причем по той же ссылке указано, что экспериментально обнаружены частицы с энергией, превышающий этот предел.
        При взаимодействии такой частицы с веществом атмосферы образуется т.н. ливень частиц с меньшей энергией, каждая из которых взаимодействует с веществом так же вероятностно.

        Энергия, требуемая для ионизации одного атома, составляет первые тысячи электрон-вольт. То есть, если предположить, что вся энергия ливня поглощается в микросхеме, ионизации подвергаются порядка 1015 атомов, что теоретически может вызвать ток порядка сотен микроампер на протяжении секунды. Ну, если посчитать общий заряд ионизированных атомов. Или (остервенело гуглю) изменения заряда хватит для перезаписи примерно десятка килобит в оперативной памяти, предполагая емкость ячейки приблизительно в десять нанофарад (с точностью до нагугленной информации и моего недосыпа). Поскольку для возникновения сбоя нам нужно явно меньше…

        Да, в поправку уважаемому amartology: вторичные — не вторичные, но вообще частицы от таких ливней до поверхности земли долетают и там регистрируются. Мне еще в не очень сознательном школьном возрасте отец показывал детекторы таких частиц на территории МГУ, с подробными объяснениями. Про ливень помню как раз из объяснений.


  1. Kelt_Rivera
    20.02.2017 16:14
    +3

    Проект не компилируется? — космические лучи. Сервер не поднимается? — космические лучи. Баги не ловятся? — космические лучи. Зар. плата маленькая?- -//-


    1. shodan_x
      20.02.2017 16:19
      +1

      Выписка из типовых должностных обязанностей админа:
      «Постоянная защита серверов от космических лучей»
      :)
      Типовое описание сбоя: «По результатам диагностики, 5-тый банк, 3-го модуля памяти, был поражен космическим лучем „


    1. Pinsky
      20.02.2017 18:41

      Пишешь говнокод? Это тебя в детстве космическим лучем задело!


  1. kravtsov_dim
    20.02.2017 16:17
    -2

    Для защиты… бытовой электроники… системы дублирования…

    Это апофеоз.


  1. Whisky667
    20.02.2017 16:32
    +1

    Что характерно, ошибку обнаружили только благодаря тому, что кандидат получил больше голосов, чем было возможно. Иначе бы сбой остался незамеченным.

    Так вот как рептилоиды тайно управляют планетой.
    Не удержался.


  1. CrazyRoot
    20.02.2017 17:53
    +1

    У инженеров, системных администраторов и программистов теперь есть отличная «отмазка», чтобы объяснить странные глюки компьютерной техники.

    Она была давно…
    BOFH…


  1. firuz1844
    20.02.2017 18:29

    А что, ECC уже отменили? https://ru.m.wikipedia.org/wiki/ECC-память


    1. amartology
      20.02.2017 18:35
      +2

      Для маленьких проектных норм одним только ECC не отделаешься, там десяток битов одним попаданием может вышибать, а то и не один десяток.


  1. coturnix19
    20.02.2017 19:23

    А еще говорят космические лучи создают горячие пиксели в цифровых фотоаппаратах — поэтому часто летающие фотоаппараты быстро портятся.


    1. jar_ohty
      20.02.2017 20:18
      +1

      Часто летающие фотоаппараты не столько космическими лучами портятся (на высотах полета пассажирских самолетов космические лучи практически те же, что и на уровне земли по энергетическому спектру, так что час полета просто эквивалентен суткам на земле), сколько рентгеновским просвечиванием. Там дозы весьма солидные, особенно в багажных интроскопах, которые могут и флеш-память стереть при неудачном стечении обстоятельств.


      1. blik13
        20.02.2017 23:57

        спектр такой же, но количество больше?
        или как понять тогда

        На высоте более 9000 метров интенсивность нейтронного потока в 300 раз выше, чем на уровне моря.
        ?


        1. amartology
          21.02.2017 11:59

          Спектр не такой же, но это не принципиально. С точки зрения набора дозы излучения действительно «час полета равен суткам на земле». Другое дело, что выгорание отдельных пикселей — это не дозовый эффект, а одиночный, похожий по причинам на то, о чем идет речь в статье, и вероятность такого выгорания в полете действительно намного больше, чем на уровне моря.


      1. Contriver
        22.02.2017 09:02
        +1

        Есть такое не столько от космической, сколько от солнечной.Возили чувствительные микросхемы самолётом, было много было много дефектных утечки, дрейф сверх нормы -работаем с фемтоамперными токами, то ли светят сильно на проверке багажа, то ли радиация большая на высоте.Перешли на поезд стало гораздо лучше и дату доставки выбираем по низкой интенсивности солнца По сайту http://tesis.lebedev.ru/sun_flares.html после вспышки прослеживается чёткая статистика через 6-8 часов — время пролёта частиц до земли, обновления информации на сайте, на нашем оборудовании возникает сбой, правда при высоком уорне вспышки M,X.При солнечной вспышке выше класса M,X, вылетают входные каскады фотодатчиков, а у производственников сгорают весовые ячейки обработки сигнала с тензодатчиков до 100 гр.Для обоснованной и правильной отписки нерадивым системным администратором, можно брать информацию с сайта Лаборатории рентгеновской астрономии Солнца Физического института Российской Академии наук (ФИАН), главное чтоб его хабраэффект, скоропостижно не постиг.


        1. amartology
          22.02.2017 17:57
          +1

          А солнце не космос что ли? От него точно такие же протоны летят)
          Ну и да, микросхемы, работающие с фемтоамперными токами, лучше возить в самолете только тщательно упакованными в толстые алюминиевые контейнеры, потому что иначе набрать дозу, достаточную для образования пикоамперных утечек за один рейс вполне реально, особенно с учетом попадания во вспышку, как у вас случилось.


    1. port443
      22.02.2017 09:01

      Ну вот как раз главная цель эксперимента HDEV на МКС — получить практические данные на эту тему. Пока не так всё плохо!


  1. perfect_genius
    20.02.2017 19:39

    Весной обостряются психические процессы в наших головах. Может это тоже вот это вот всё? =)


  1. agaruppa
    20.02.2017 19:55
    +5

    Хорошая отмазка, Майкрософт.


  1. esudnik
    20.02.2017 20:04
    +3

    Насколько я знаю в самолетах любые критические вычисления параллельно обрабатывается несколькими независимыми компьютерами и потом сравнивается результат. Вероятность что сбой произойдет одинаково в разных системах очень минимальна.


    1. quwy
      21.02.2017 03:32
      +1

      При этом иногда практикуется подход, когда ПО для дублированных машин пишется независимо. Одно т.з. дается двум девелоперским конторам и они реализуют его каждая по-своему. Это сильно сокращает и влияние бага в коде на конечный результат и фатальность аппаратных дефектов на общую работоспособность всего комлекса.


  1. mwambanatanga
    20.02.2017 20:11

    У инженеров, системных администраторов и программистов теперь есть отличная «отмазка», чтобы объяснить странные глюки компьютерной техники.
    Стрёмно как-то. Лучше уж по-старинке: «Свет с Венеры отразился от верхних слоёв атмосферы и вызвал взрыв болотного газа.»


  1. DjOnline
    20.02.2017 21:26

    >>машина для электронного голосования в городе Схарбек (Бельгия) добавила 4096 голосов одному из кандидатов на выборах. Расследование показало, что этот сбой был вызван изменением одного бита в памяти устройства. Причиной назвали космическое излучение.

    Наверное та же причина была у неработающих камер на Кутузовском во время резонансного ДТП, и эта же причина у мифический 146%.


    1. amartology
      21.02.2017 11:49

      Ну нет, +4096 голосов — это прямо с большой вероятностью переключение одного бита в памяти, случайно такую цифру придумать в рамках 146% все-таки сложно.


      1. DjOnline
        21.02.2017 11:55

        Зато это понимал купленный хакер :)


  1. chabapok
    20.02.2017 23:00

    «К сожалению, не существует никакой реальной защиты от космических лучей,»

    Есть микросхемы, в которых несколько ядер работают параллельно, разнесены в пространстве и во времени(всмысле — один отстает на какое-то кол-во тактов). После каждой команды результаты сравниваются, если вылезло различие — это сбой.
    Оно конечно не полностью от всего защищает, но именно от летящих частиц по идее должно защитить довольно надежно. Одной частицей попасть одинаково в один и тот же транзистор в разных ядрах — практически нереально. Правда, защищен только проц. С внешней памятью я не знаю как это решается.
    И есть вопросы с элементом, который занимается сравнением. Что будет, если частица попадет в него?


    1. vanxant
      21.02.2017 09:14

      Это если частица перпендикулярно плате летит. А если параллельно? И как раз в слое транзисторов? Может и несколько микросхем зацепить. «Одним махом семерых убивахом», да.


      1. chabapok
        21.02.2017 11:03

        В разных ядрах повреждаются разные транзисторы, и плюс к этому, исполнение смещено во времени. Т.е., ядра сглючивают по-разному, и сравнение результата выдает ошибку.


        1. amartology
          21.02.2017 11:55

          На самом деле вы оба правы. И защита делается именно так, и проблемы с тем, что цепляет две копии, все равно есть. Просто надо аккуратно проектировать топологию.

          «Есть микросхемы, в которых несколько ядер работают параллельно, разнесены в пространстве и во времени (в смысле — один отстает на какое-то кол-во тактов).»
          Если ядер больше двух, то во времени их обычно все же не разносят, скорость терять никому не хочется. И, по-хорошему, дублируют или троируют не целые ядра, а на уровне блоков.

          «С внешней памятью я не знаю как это решается.»
          Внешняя память используется с помехоустойчивым кодированием данных (в идеале — реализованным в самом чипе памяти).

          «И есть вопросы с элементом, который занимается сравнением. Что будет, если частица попадет в него?»
          Он очень маленький, и вероятность попадания в него на много порядков меньше, чем вероятность попадания во что-то другое.


          1. chabapok
            21.02.2017 15:19

            «Внешняя память используется с помехоустойчивым кодированием данных „
            Да. Но ведь все равно есть шина, по которой данные бегают “после проверки ECC». И помехи там тоже могут возникать.
            Я когда-то работал с подобной системой, и наткнулся, что memcpy копирует данные с изменением. Начали разбираться с аппаратчиками — оказалось какие-то предварительные настройки памяти плохие. И ничего не ругалось. Настройки мы поправили и все заработало, но вот почему ecc и прочие технологии не спасли — вопрос. Так что надо понимать, что это далеко не от всего защита.


            1. amartology
              21.02.2017 15:41

              Нет, «шины после проверки ECC» быть не должно, после докодирования данные должны раздаваться сразу на исполнительные устройства.
              Ну и надо, конечно же понимать, что защититься от 100% ошибок нельзя в принципе, но можно снизить их интенсивность практически до любого заданного уровня.


      1. chabapok
        21.02.2017 11:18

        Вообще, одна частица физически не может пролететь «вдоль» по слою транзисторов обеих ядер: они же разнесены в пространстве.
        Нарисуйте две перпендикулярные плоскости и пролетите одной частицей каждую «вдоль». Не получится в силу геометрии. Пролететь вдоль можно только 1 ядро.

        На уровне микросхем я написал, что не знаю как это можно решить. Неверное, можно точно так же — разнести дэвайсы в пространстве сдвигом и поворотом. Но вопрос в устройстве, которое будет сравнивать результат их расчета.


        1. vanxant
          21.02.2017 12:32

          Откуда у вас две перпендикулярные плоскости взялись? Все ядра лежат в плоскости своей микросхемы. Даже если разные микросхемы, всё равно есть телесный угол «попадания», когда одной частицей накрывает обе. Вот для трёх уже нет.
          Но и три, и десять могут попасть под ливень вторичных частиц от одной и той же высокоэнергетичной.


          1. amartology
            21.02.2017 13:22

            Думаю, две плоскости взялись из-за того, что два ядра стоят на разных микросхемах, впаянных на разные платы, установленные под углом друг к другу. Так действительно делают.


            1. chabapok
              21.02.2017 15:10

              Бывает и в одной микросхеме несколько ядер. Можно гуглить что-то вроде «Dual CPUs in lockstep».


              1. amartology
                21.02.2017 15:57
                +1

                А как в одной микросхеме получить две разные плоскости? Это как-то не укладывается в эвклидову геометрию)


                1. chabapok
                  22.02.2017 10:01
                  -1

                  Это очень странный вопрос. А в чем проблема? Две разные плоскости укладываются в трехмерное эвклидово пространство. Все ок там с геометрией. Я долго думал, что вы подразумеваете таким вопросом. Так и не придумал.

                  Я ж не предлагаю ядра ставить с самопересечением или взаимопересечением :))
                  Все происходит в пределах традиционной геометрии.

                  Или — я не понял вопроса. Можете спросить более развернуто?


                  1. amartology
                    22.02.2017 17:59
                    +1

                    Активный слой микросхемы — это одна плоскость. Одна, двух плоскостей там нет.


          1. chabapok
            21.02.2017 15:04

            «Все ядра лежат в плоскости своей микросхемы»
            Мы же сейчас не говорим о какой-то конкретной микросхеме. А вы пишите так, как будто мы обсуждаем конкретную. Я вам привел как пример, что так делают.

            «одной частицей накрывает обе»
            обе — чего? Если ядра расположены «стройненько», то есть вероятность, что одинаковой помехой их одинаково накроет, и они одинаково сглючат. А если мы их разнесли «по фен-шую», то вероятность, что одна и та же частица попадет в один и тот же транзистор и это приведет к одинаковому багу — на порядки меньше. Хотя тоже есть, да.

            А поток частиц понятно, что сломает все рано или поздно. С тем же успехом можно ломиком по микросхеме. Т.е., это вообще не панацея, а защита от вполне конкретного вида угроз.


            1. amartology
              21.02.2017 15:59

              Мы и не говорим о какой-то конкретной микросхеме. Пока что все микросхемы — плоские, и на одном чипе все его части лежат в одной плоскости.
              Lock-step, к слову сказать, далеко не самая эффективная технология защиты от сбоев, она наиболее просто имплементируемая в стандартное коммерческое железо.


              1. chabapok
                22.02.2017 10:25

                Заглянул к вам в профиль. Наверное, человек в таким профилем должен по этой теме знать больше чем я. И это выглядит странным — мне попадался когда-то какой-то даташит, который бы сейчас мог бы опровергнуть то, что вы говорите. Но это было так давно, что я не помню, о какой микросхеме конкретно речь. Может вечером поищу, и если найду, то сброшу вам.

                Вы когда говорите «все микросхемы — плоские», то подразумеваете вообще все, или все российские?

                В чем принципиальная сложность? Вопрос не про конкретные микросхемы, и не про все существующие, а лишь про техническую возможность/невозможность: какая разница, заливать компаундом 1 кристалл или 2? Я не вижу ничего невозможного: 2 кристалла расположили как надо, припаяли куда надо перемычки и все залили керамикой. Если мы уже делаем так с 1 кристаллом, сделать с двумя — осуществимая задача, а взаимное расположение кристаллов в пространстве — неособо важная деталь (при условии что они не перекрывают доступ «жала паяльника»)


                1. amartology
                  22.02.2017 18:02
                  +1

                  Мммм, я под «микросхемой» подразумеваю чип, а вы — корпус. Корпус с несколькими чипами — это не «микросхема», а «микросборка». Отсюда и непонимание. Многокристалльных однокорпусных микросборок очень много (все ПЛИС Xilinx например), в том числе и «многоэтажных».
                  Но в них, кстати говоря, повернуть два аналогичных чипа на 90 градусов обычно проблематично с точки зрения соединения этих чипов между собой, поэтому обычно их ставят одинаково, создавая этим все условия для того, чтобы космическая частица ударила ровно в два одинаковых транзистора на разных чипах. Так, например, погиб «Фобос-грунт».


                  1. chabapok
                    22.02.2017 23:10

                    ясно. Тогда я этот даташит не буду искать :) По крайней мере сегодня. Я пришел с работы задолбанный. Может потом…


  1. ShabanovYT
    21.02.2017 00:38
    -2

    Если пропаять все разъемы, в том числе питания, космических лучей станет меньше и могут воскреснуть неисправные (якобы) жесткие диски.


  1. Equin0x
    21.02.2017 02:32

    Недостачу бухгалтерия списала на «данные, унесенные солнечным ветром».


  1. Khort
    21.02.2017 08:42

    Кроме космических частиц есть еще такая банальная ведь как метастабильность триггеров на границах асинхронных клоковых доменов. Вероятность сбоя почти нулевая, но в масштабах планеты, да и даже просто сервера, такие сбои происходят регулярно. Не всегда они приводят к сбоям более высокого уровня, но чисто гипотетически могут вывести из строя всю схему.


  1. conio
    22.02.2017 09:01

    Например, в 2003 году машина для электронного голосования в городе Схарбек (Бельгия) добавила 4096 голосов одному из кандидатов на выборах

    Видимо, в России оборудование, отвечающее за подсчёт голосов на выборах, находится в зоне гипервысокой активности космического излучения, тогда этим многое можно объяснить.


  1. azam2
    22.02.2017 09:02

    Хочу такой сбой на моем банковском счету


  1. wych-elm
    22.02.2017 09:02

    Интересное название у таких событий. Когда читал подумал что будет что-то типа Single-Event Fault, а там — Upset (знаю, что в даном случае переводится как «опрокидование», в смысле срабатывания транзистора в неположеный момент времени, но все же). Копировал такой компьютер файл, копировал,… и че-та приуныл ;(.


    1. amartology
      22.02.2017 18:03
      +1

      Fault — это не сбой, а необратимый отказ. На самом деле подобных эффектов с десяток, там есть и обратимые, и необратимые. Поэтому то, о чем идет речь в статье — не fault, a «приуныл» )