ISA ошибок не прощает / forpes.ru

Главная
ISA ошибок не прощает

ISA ошибок не прощает +69

21.05.2020 15:14

vvvphoenix 101 15700 Источник

–X86 – это исторически сложившееся недоразумение,– мэтр и в 80 не утратил полемического задора.
– Вообще-то ей принадлежит 95% серверного рынка, – вяло откликнулся я. Мне не хотелось вступать в спор на сто раз заезженную тему
– А я уже запутался в этих префиксах, — не унимался академик. – 15 байт на инструкцию, это немыслимо!
– Ну, не ice, конечно. Но у кого лучше-то?
– Да у кого угодно, хотя бы у ARM-a.
– Я все же не понимаю. Cложения с умножениями должны быть?
– Должны.
– И сдвиги c логическими операциями?
– Да.
– И загрузки с сохранениями тоже. Какая разница как они называются и кодируются?

Как обычно, правоту учителя я осознал много позже. Когда тоскливым зимним вечером сел писать декодер команд, чтобы как то себя развлечь. Простенький декодер для ARM мне удалось изобразить на VHDL (а знаю я его так себе) за пару дней. Правда, каюсь, у меня была шпаргалка. :)

Для X86 не удалось ни за неделю, ни за две, ни за месяц… Даже для базового набора.

Разница здесь даже не только в RISC (Reduced Instruction Set Computing) для ARM и CISC (Complex Instruction Set) для X86. Разница скорее в пути исторического развития. Больше 40 лет назад, а началось все в 1978 году, X86 ISA (Instruction Set Architecture) была вполне себе компактным набором команд со своей внутренней логикой. Но время шло, росла разрядность шин, расширялись регистры (включая SIMD), перманентно возрастало число команд. Тут один паренёк сделал интересную попытку просто посчитать число инструкций в Х86. То ли ему лень было открывать мануал и считать их, то ли он знал о существовании “безымянных” опкодов (команд, у которых даже названия нет), то ли верил во всемогущество логики. Как легко понять, логика оказалась бессильна. :) Кстати, я пытался найти график роста числа X86 инструкций по годам (или по поколениям). Пока не смог (может, есть у кого?). Зато нашел вот такую картинку.

Если честно, я не знаю, сколько сейчас в X86 ISA инструкций. Но хорошо помню все те, в разработку которых сам вкладывался, при этом не отдавая себе отчета в том, что каждый новый бит в ISA снабжается ярлыком “хранить вечно”. А «творцов» вроде меня в Intel было несколько тысяч. И битов для того, чтобы закодировать все их фантазии постоянно не хватало. :) К существующему набору команд добавлялись все новые префиксы: REX, VEX… Последнее четырехбайтовое (EVEX) расширение было введено для AVX-512. К слову, весь набор команд АRM (даже с учетом SVE) убирается в эти самые 4 байта. ARM изначально пошел другим путем, строя свою систему команд на базовых принципах простоты, компактности и расширяемости.

Разницу можно понять, если перейти с точки зрения программиста на точку зрения circuit designer. А она как известно состоит в том, что транзистор – отличная вещь, но переключается медленно, а энергию рассеивает безбожно. И при прочих равных, лучше бы их было поменьше. А теперь взгляните на алгоритм декодирования x86 инструкций(та задача, которую я пытался решить).

И, как говорится, почувствуйте разницу во входных трактах (front end) для ARM и X86. Тут можно возразить, что front end – это совсем небольшая часть ядра, всего около 10%. Да, но не надо забывать, что вся эта логика умножается ещё на количество ядер на чипе. А это уже серьезно.

Eщё одно соображение, что front end – как раз та часть, которая ответственна за backward compatibility. Вы можете смело перелопатить или даже выкинуть back end. Intel, кстати, воспользовался этим в начале 2000-х, заменив архитектуру NetBurst (P4) на Core-M (P3). А вот front end сильно сократить не удастся. Хотя иногда очень хочется, потому что из существующей X86 ISA сейчас используется около 20%. Остальное – пережитки прошлого.

Другой недостаток огромной длины инструкций – относительно частые промахи в instruction cache. Грубо говоря, при равном размере кэшей, количество промахов будет тем больше, чем больше длина инструкции. Конечно, размер кэшей можно увеличивать. Но опять же, это транзисторы, которых могло бы не быть, будь инструкции покороче. По этой же причне я очень настороженно отношусь к разного рода VLIW (Very Long Instruction World) архитектурам. Впрочем, они обладают еще и тем недостатком, что для них очень сложно разрабатывать компиляторы. Тему компиляторов я до сего момента сознательно избегал, поскольку сам никогда их не разрабатывал. Хотелось бы послушать, что скажут знающие люди о прелестях разработки компиляторов для RISC, CISC и VLIW.

И все же, несмотря на огромный накопленный груз legacy, а может быть и благодаря ему, разработчики X86 оказались правы в главном. Принцип backward compatibility свято соблюдается в архитектуре с самого начала. Весь существующий софт работает на новом железе «из коробки». Именно это позволило построить столь глубокую и развитую экосистему вокруг архитектуры. И остается только снять шапку перед инженерами Intel и AMD, которые вопреки отнюдь не идеальному дизайну ISA, на протяжении многих лет сохраняют лидерство в серверном сегменте. Однако, груз legacy становится все тяжелее.

Комментарии (101)

mark_ablov
21.05.2020 18:31
#21642740
У Intel было много ISA, как минимум с десяток. Ни одна, кроме x86 не выстрелила, увы.
1. vvvphoenix Автор
  21.05.2020 18:33
  #21642748
  +1
  Горестная судьба Itaniuma вся прошла перед моими глазами. Поделка, впрочем не была так плоха чтоб с первого дня окрестить ее Itanicом. Однако, это EPIC…
  1. quwy
    21.05.2020 22:16
    #21643530
    +1
    А глубинная причина, кстати, в тех же словах: «backward compatibility». Которая была заявлена, но на практике не работала. Ну и VLIW опять же, еще ни одна VLIW-архитектура по-настоящему не взлетела.
    
    vvvphoenix Автор
    21.05.2020 23:29
    #21643792
    Зато энергию этот backward compatibility блок потреблял за троих :)
    
    tyomitch
    22.05.2020 17:42
    #21647028
    Внезапно, как раз Huawei и пытается продвигать собственные VLIW-архитектуры: www.zdnet.com/article/amazon-huawei-efforts-show-move-to-ai-centric-chips-continues
    
    Ankoroid
    22.05.2020 18:35
    #21647212
    +1
    Для очень специфических задач, а вовсе не для процессоров общего назначения.
    Так то есть несколько VLIW архитектур (не Эльбрус), которые вполне живы — например ST2XX встречаются в спутниковых ресиверах.
    
    tyomitch
    22.05.2020 19:05
    #21647308
    Qualcomm Hexagon живее всех живых: наверное, в большинстве смартфонов стоит.
    
    Мне просто показалось забавным, что VLIW хоронят в блоге Huawei, которая один из нынешних активистов VLIW-строения.
1. plus79501445397
  21.05.2020 18:58
  #21642842
  ЕМНИП, x86 разрабатывалась «на скорую руку» как временная, а основной должна была стать iAPX 432
  1. vvvphoenix Автор
    21.05.2020 19:09
    #21642874
    :) Я тоже слышал эту байку. Не уверен, что правда, оч давно было. Но хорошо коррелирует с мыслью о том, что в истории X86 гораздо большую роль играло стечение обстоятельств, чем изначально заложенная логика :)
    
    beeruser
    22.05.2020 02:42
    #21644222
    Это не байка.
    «Stephen Morse: Father of the 8086 Processor»
    www.pcworld.com/article/146917/article.html
    
    management decided that I would be the ideal person to design the architecture for the stopgap measure. If management had any inkling that this architecture would live on through many generations and into today’s Pentium processors, and be the instruction set executed by more instances of computers than any other in history by far, they never would have entrusted the task to a single person.
    
    Или вот ещё момент оттуда, про порядок байт, если кому лень читать статью:
    
    I always regret that I didn’t fix up some idiosyncrasies of the 8080 when I had a chance. For example, the 8080 stores the low-order byte of a 16-bit value before the high-order byte.
    …
    Now there was no reason for me to continue this idiocy, except for some obsessive desire to maintain strict 8080 compatibility. But if I had made the break with the past and stored the bytes more logically, nobody would have objected. And today we wouldn’t be dealing with issues involving big-endian and little-endian—the concepts just wouldn’t exist.
    
    mvv-rus
    22.05.2020 05:30
    #21644412
    And today we wouldn’t be dealing with issues involving big-endian and little-endian—the concepts just wouldn’t exist.
    
    Ну, вообще-то, little endian порядок байт в слове был и в архитектурах весьма распространенных в те времена миникомпьютеров от DEC — PDP-11 и VAX-11. Так что насчет того, что концепции разных порядков байтов не существовали бы — это автор, наверное, всё же погорячился.
    PS Правда, у этих концепций тогда был бы шанс не дожить до нашего времени — может, он это имел в виду?
    
    mpa4b
    22.05.2020 15:31
    #21646478
    +1
    Были архитектуры, где правильно выбранный порядок байт упрощал или ускорял работу процессора. Были — где наоборот, замедлял. И были же — те, где на него пофиг было процессору. примеры:
    
    pdp-11: процессор 16-битный и слова всегда выровнены по 2 байта. на порядок байт в слове пофиг, сделали LE.
    
    i8080: процессор 8-битный, но читает 16-битные слова всегда как 2 подряд идущих байта. тоже на порядок байтов пофиг, сделали LE
    
    mc6800 (не путать с mc68000!). 8-битный, порядок байт BE. за что расплата лишним тактом в адресации типа LDA ADDR,X, где процессор побайтно читает 16-битное число, прибавляет к нему 8-битный индексный регистр и с полученным адресом выходит на шину прочитать аргумент. порядок байт выбран неправильно (почему — см. ниже)
    
    6502! идеологически похож на 6800, порядок байт LE. благодаря этому, в описанном в п.3 случае читает сначала младший байт, потом во время чтения старшего — одновременно прибавляет к уже прочитанному индексный регистр. и если нет переноса в старшую часть, то на шину выходит сразу же, не тратя дополнительный такт. порядок байт выбран верно!
    
    ну и соглашусь, что уже в i8086, mc68000 и далее — порядок байт перестал играть какую-либо роль. например архитектура ARMv7A позволяет переключать порядок байт прям в пользовательской программе, инструкциями SETEND BE/LE.
    
    dmitrmax
    22.05.2020 19:18
    #21647352
    У PDP-11 не little endian, а PDP endian
    
    vvvphoenix Автор
    22.05.2020 15:46
    #21646524
    Подумал о том, что ARM — это консорциум вендоров. А Интел -одна компания, пусть и большая. И решения там принимают люди. Очень умные. Но людям свойственно ошибаться. Поэтому в истории X86 так много было странных решений. Просто эти решения принимались гораздо меньшим числом людей. Иногда вообще одним человеком
    
    tyomitch
    22.05.2020 17:44
    #21647034
    Почему это ARM — консорциум? Одна компания, намного меньше Intel.
    
    dmitrmax
    22.05.2020 19:23
    #21647360
    Консорциум вендоров. То есть куча компаний, которые применяют ARM в своих чипах.
    
    tyomitch
    22.05.2020 19:40
    #21647408
    И в чём отличие от Intel?
    
    dmitrmax
    22.05.2020 20:39
    #21647576
    Чипы с архитектурой x86 на настоящий момент производятся только двумя компании в сколь-либо заментном количестве.
    
    dmitrmax
    22.05.2020 19:20
    #21647356
    На мой взгляд, little endian гораздо логичнее. Big endian это всего лишь попытка натянуть на АЛУ привычную нам запись чисел слева направо.
    
    tyomitch
    22.05.2020 19:45
    #21647424
    +1
    Не стоит забывать, что «привычная нам запись чисел слева направо» позаимствована у арабов, которые пишут справа налево, т.е. в естественном порядке от младших разрядов к старшим (little-endian).
    
    dmitrmax
    22.05.2020 20:35
    #21647568
    С чего вы взяли, что она позаимствована от арабов? Арабские цифры на самом деле индийский. Арабы используют другие цифры.
    
    vvvphoenix Автор
    22.05.2020 09:15
    #21644754
    Вот что подумал — arm — консорциум вендоров. А Интел — одна компания. И решения в ней принимает гораздо меньшее число людей. А людям свойственно ошибаться. И поэтому в x86 гораздо больше странных решений…
  1. mark_ablov
    22.05.2020 03:01
    #21644242
    У меня, кстати, лежит плата под iAPX 432. Может дойдут руки пощупать этот процессор в живую.
    
    vvvphoenix Автор
    22.05.2020 15:36
    #21646492
    Может не надо оживлять призраков. Мало ли… :)
    
    vvvphoenix Автор
    22.05.2020 07:41
    #21644558
    Может все же не стоит оживлять призраков? Мало ли… :)

ultrinfaern
21.05.2020 18:46
#21642784
У Интел было как минимум три возможности перелопатить набор инструкций — при переходе в защищеный режим (286) и при смене разрядности (32 и 64). Все равно для декодирования используется режим процессора/дескрипторы. Но с 64 я смутно помню, что Интел как раз и хотела все перелопатить, но тут подсуетилась амд выпустив быстрее набор инструкций для 64 разрядности.
1. vvvphoenix Автор
  21.05.2020 18:55
  #21642826
  Да. Был такой момент. EM64T назывался. Когда Intel на своем поле оказался в роли догоняющего.
1. quwy
  21.05.2020 22:28
  #21643586
  Но с 64 я смутно помню, что Интел как раз и хотела все перелопатить
  
  Пробовали до этого, когда IA64 делали с возможностью исполнения IA32-кода в аппаратной песочнице. Получилось «не очень».
  1. vvvphoenix Автор
    21.05.2020 23:00
    #21643712

picul
21.05.2020 18:51
#21642808
Напомните, пожалуйста, какая архитектура способна выдавать высокую производительность в однопотоке, а какая сейчас по сути не может похвастаться ничем, кроме количества ядер и техпроцесса.

Грубо говоря, при равном размере кэшей, количество промахов будет тем больше, чем больше длина инструкции.
Только вот чем проще ISA — тем больше инструкций содержит код. Длинные инструкции CISC в RISC превратятся не в короткие инструкции, а в огромное количество коротких инструкций. И мне почему-то кажется, что код на хорошо спроектированной CISC ISA окажется короче, чем на RISC.
1. ultrinfaern
  21.05.2020 19:04
  #21642856
  Чем меньше кода для преобразования инструкции в микрокод тем лучше. Всякие конвейеры выборки и другая муть не от хорошей жизни придумана а чтобы нагрузить по полной все блоки процессора.
  1. picul
    21.05.2020 19:16
    #21642904
    Ну так загрузили же блоки процессора — в чем же тогда проблема? Декодер работает асинхронно и на большой дистанции не добавляет задержки. Говорят, правда, что в него можно упереться — но у меня вот не получалось, насколько я помню.
    
    vvvphoenix Автор
    21.05.2020 19:22
    #21642926
    По большому счету это так. Обычно проблемы front end связаны или с предсказанием ветвленией или с промахами в instruction cache. Проблемы с декодером — экзотика. Хотя если еще увеличивать длину командного слова — она может стать реальностью.
1. vvvphoenix Автор
  21.05.2020 19:05
  #21642858
  Только вот чем проще ISA — тем больше инструкций содержит код. Длинные инструкции CISC в RISC превратятся не в короткие инструкции, а в огромное количество коротких инструкций. И мне почему-то кажется, что код на хорошо спроектированной CISC ISA окажется короче, чем на RISC..
  Это отчасти справедливое замечание. Но тут я бы хотел послушать компайлерных людей, ибо самому тяжело сравнивать. Чисто теоретически CISC может иметь преимущество, когда ставит в соответствие более частым инструкциям или последовательностям более короткие коды (Huffman, arithmetic). Но проблема будет в том, что это будут команды переменной длины и декодировать их можно будет только последовательно.
  1. ultrinfaern
    21.05.2020 19:15
    #21642898
    Проблема большого количества инструкций только одна — возможность загрузить их в процессор — а это доступ к памяти. С другой стороны если посмотреть на код, то в большинстве случаев там все равно нет длинных кусков, а всегда есть какие-то переходы/вызовы процедур. А это значит что все равно нужно прервать монотонное выполнение инструкций.
    
    tyomitch
    22.05.2020 18:00
    #21647094
    Чем плотнее код (грубо говоря, чем больше инструкций на килобайт), тем эффективнее используется instruction cache, а это уже сильно вляет на производительность.
  1. picul
    21.05.2020 19:29
    #21642940
    Думаю, задизайнить ISA так, что бы длина инструкции декодировалась практически мгновенно — не проблема.
    
    vvvphoenix Автор
    21.05.2020 19:36
    #21642980
    Не уверен. Мне в детстве пришлось повозиться с декодированием битстримов по хаффмановским табличкам. Это сугубо последовательная операция. А при добавлении каких то маркеров появляется избыточность.
  1. agalakhov
    22.05.2020 01:15
    #21644072
    Как минимум Таненбаум писал, что современные компиляторы используют CISC-процессоры фактически как RISC, генерируют только простейшие инструкции. Мои личные наблюдения это подтверждают: и gcc, и llvm для x86 и для ARM генерируют очень похожий код. Из сложного используется только SIMD.
    
    tyomitch
    22.05.2020 18:03
    #21647106
    Это не потому, что компиляторы не способны генерировать сложные инструкции, а потому, что современные процессоры их выполняют медленее, чем простые.
    
    DistortNeo
    22.05.2020 18:16
    #21647148
    +1
    Ну так современные процессоры все равно раздраконивают CISC-команды на RISC-составляющие, поэтому и нет принципиальной разницы.
  1. tyomitch
    22.05.2020 17:54
    #21647066
    Чисто теоретически CISC может иметь преимущество, когда ставит в соответствие более частым инструкциям или последовательностям более короткие коды (Huffman, arithmetic). Но проблема будет в том, что это будут команды переменной длины и декодировать их можно будет только последовательно.
    
    Можно собрать лучшее от обоих миров: так, в Thumb-2 команды переменной длины (16 либо 32 бит), но это всё равно RISC ISA, специально оптимизированная под плотность кода. И поскольку длина команды однозначно определяется по старшим битам, то их несложно декодировать параллельно.
  1. Rutel_Nsk
    22.05.2020 20:00
    #21647474
    Думаю проблема не в CISC, RISC или конкретной ISA, а в недостаточной степени абстракции решаемой задачи от процессора. В целом любая система команд, любой процессор после некоторого времени активной «жизни» обрастет большим числом проблем. Процессор (и не только эта часть вычислительной системы), как живое существо накапливает ошибки, которые приведут его к смерти. На сегодня нет механизма «перерождения» вычислительной системы, кроме как переписывать ПО (пусть даже не 100%) с использованием человека.
    PS Да и сам человек (программист) в процессе написания ПО вынужден думать как процессор, а это существенно ограничивает его возможности.
    Аналогия программирования: Написание инструкций быстрому, точному, исполнительному но все же «дураку».
1. lain8dono
  21.05.2020 22:41
  #21643632
  +2
  код на хорошо спроектированной CISC ISA окажется короче, чем на RISC
  Проблема в том, что семейство x86 имеет плохо спроектированный ISA.
  
  Только вот чем проще ISA — тем больше инструкций содержит код.
  На ARMv7 и ARMv8 количество инструкций сравнимо с x86-64 при более простом ISA. По крайней мере это верно для первого попавшегося примера: https://godbolt.org/z/_m4EBC
  1. picul
    22.05.2020 00:05
    #21643910
    Проблема в том, что семейство x86 имеет плохо спроектированный ISA.
    Почему?
    
    На ARMv7 и ARMv8
    ARM вообще-то уже давно свернула с RISC-дорожки.
1. nixtonixto
  22.05.2020 09:27
  #21644786
  +1
  Чем мощнее система команд, тем выше производительность в сложных вычислениях за счёт меньшего количества тактов на решение задачи, но и выше энергопотребление. Что сейчас видно на примере x86 (x64) vs ARM. ARM при своей многоядерности и тех же 2...3 ГГц до сих пор не смогли проникнуть на рынок ПК (кроме маломощных компьютеров), но при этом ARM захватил рынок носимых устройств с батарейным питанием.
1. Kobalt_x
  22.05.2020 10:27
  #21645070
  >Напомните, пожалуйста, какая архитектура способна выдавать высокую производительность в однопотоке
  Power9?
  >а какая сейчас по сути не может похвастаться ничем, кроме количества ядер и техпроцесса.
  ShenWei? хотя может вы и MIPS имели в виду, а может и мультиклет какой.
1. beeruser
  22.05.2020 13:54
  #21646064
  а в огромное количество коротких инструкций.
  
  «Огромное» количество это сколько?
  Что бы не измерять сферических коней в вакууме, давайте на реальных примерах.
  Так вот в реальности ARM часто нужно меньше «коротких» RISC инструкций чем х86 «длинных» CISC инструкций.
  1. picul
    22.05.2020 14:22
    #21646198
    ARM давно уже CISC.
    Вы, кстати, правильно сделали, что взяли «коротких» в кавычки — в ARM длина инструкции не может быть меньше 4 байт, тогда как в x86 — может.
    
    beeruser
    22.05.2020 14:55
    #21646348
    +1
    ARM это не CISC. Это скорее Advanced RISC (что отражено в названии фирмы).
    Дело в том, что разработчики архитектуры прагматично подходили к вопросу организации ISA, а не идеологически. Поэтому там были сделаны вещи, нужные здесь и сейчас (т.е. в 80х годах). Вещи, которые плохо ложились на OoO (например conditional execution, LDM/STM). Поэтому архитектура была перепроектирована «с чистого листа» и ARMv8 стал ещё более классическим RISC чем ARMv7.
    
    в ARM длина инструкции не может быть меньше 4 байт, тогда как в x86 — может.
    
    Вообще-то может. Thumb — фиксированная длина 16-бит, Thumb2 — 16+32-бит VLE. Jazellе — 8 бит байткод.
    Но это не какие-то особенные инструкции, а просто режим компрессии — для каждой компактной версии есть аналог в полном наборе. Опять же это не делает ARM CISC-ом.
    В ARMv8 опять вернулись к фиксированной длина команды, что есть один из признаков классической RISC архитектуры (как я уже говорил).
    Что характерно, даже имея фиксированную длину инструкции — 32 бит, плотность кода у ARMv8 выше чем у x86_64.
    
    mpa4b
    22.05.2020 15:39
    #21646498
    тут интересный вопрос, что именно делает ARM — RISC'ом. если его называть load/store архитектурой — то всё верно. а c очень уж расплывчатым понятием "RISC" как быть?
    
    vvvphoenix Автор
    22.05.2020 16:06
    #21646618
    Согласен. RISC и CISC — это не четко определенные термины. Скорее «понятия» :)
    
    mpa4b
    22.05.2020 15:20
    #21646442
    в 32-битном режиме с THUMB-2 — длина инструкций 2 или 4 байта.
1. Am0ralist
  22.05.2020 15:13
  #21646412
  Напомните, пожалуйста, какая архитектура способна выдавать высокую производительность в однопотоке, а какая сейчас по сути не может похвастаться ничем, кроме количества ядер и техпроцесса.
  Хм… x86 от АМД в обе ветки? )
1. Coocos
  22.05.2020 18:22
  #21647176
  И x86 и ARM (Apple) показывают высокую производительность однопотока. ISA — это только фасад процессора, все самое интересное внутри.
  1. tyomitch
    22.05.2020 19:07
    #21647320
    Когда фасад занимает 10% чипа (и, вероятно, потребляет 10% электричества) — это уже серьёзно.
    
    Coocos
    22.05.2020 19:24
    #21647362
    Согласен. Ходит спорное утверждение, что ARM — это медленно.

ultrinfaern
21.05.2020 19:09
#21642876
Самый красивый набор инструкций был у pdp-11. И его режимы адресации тоже сказка.
1. vvvphoenix Автор
  21.05.2020 19:31
  #21642950
  15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0
  B Opcode Mode R Src Mode R Dst
  
  нашел в википедии. Ну да — логика за этим есть. Но как расширять набор команд?
  1. ultrinfaern
    21.05.2020 22:46
    #21643652
    Ну кто в те времена думал о расширении команд? Тогда новый процессор — новая архитектура. Для 32 разрядной архитектуры он стал VAX-11.
    ЗЫ Хотя оригинальный pdp-11 и расширяли — добавили команды умножения/деления, вещественные числа…
    
    vvvphoenix Автор
    21.05.2020 23:37
    #21643832
    Вот в том то и дело. Хороший дизайн ISA должен закладывать возможности расширения с самого начала. только вот осознали этот очевидный в общем то факт уже в конце 80'х…

nerudo
21.05.2020 21:34
#21643384
+2
Все это очень логично, вот только x86 со своим ужасающим набором инструкций работает на 4,5ГГц, а ARM на 3. Хотя технологические возможности Intel и того же TSMC весьма близки.
1. vvvphoenix Автор
  21.05.2020 22:04
  #21643488
  +3
  О, кстати. Надо будет как нибудь в следующий раз написать про частоту, длину пайплайна и энергопотребление. Это моя любимая тема. Я ещё помню p4, который работал на 10ГГц и охлаждался жидким азотом :)
  1. b_t
    22.05.2020 12:37
    #21645690
    Уже ждем!
1. ultrinfaern
  21.05.2020 22:04
  #21643492
  +4
  Только x86 это дескоп/сервер и ему можно жрать энергии сколько хочешь — главное производительность, а arm это мобильные устройства и там прожорливость очень не приветствуется. Только недавно начали пытаться arm продвигать в серверные платформы — посмотрим что получится.
  1. mistergrim
    21.05.2020 22:39
    #21643618
    +3
    Да как недавно — лет пять-шесть уже об этом слышу.
    
    vvvphoenix Автор
    21.05.2020 22:57
    #21643700
    Насколько я помню спецификации SVE датируется 2017-2018 годом. Ну то есть можно сказать что именно в этот момент arm стал серьёзно заглядывать на ентерпрайс рынок
    
    kingleonfromafrica
    22.05.2020 10:12
    #21644982
    Вообще лет 10 уже.
    
    Ветку ARM8 х64, при анонсе разработки в 2011 году позиционировали не больше не меньше, как убийцу блэйд-серверов на х86 архитектуре.
    В 2015 или 2016 году, вроде, эти самые серверы таки были выпущены, но что то пошло не так :)
    
    vvvphoenix Автор
    22.05.2020 10:21
    #21645030
    Ну деклараций о намерениях в этом мире всегда хватало… Я то имел в виду, что более или менее реальная жизнь началась, когда ARM взялся за SVE. Имея на вооружении только 128 bit SIMD (NEON) на этом рынка кокнурировать сложно…
    
    beeruser
    22.05.2020 16:01
    #21646596
    У ThunderX3 4 юнита NEON, т.е. 512 бит суммарно, что даёт 3.3TFLOPS в теории, как и у A64FX.
    Для серверов же общего назначения широкий SIMD и не нужен.
    
    kingleonfromafrica
    ARM серверы в 2015 и в 2020 это две большие разницы.
    Тогда не была готова софтверная инфраструктура. Особенно это касалось загрузки, сборки ОС, работы популярных приложений. Лишь недавно стало возможным пользоваться ARM серверами точно так же как и x86, что видно на примере Graviton2. Сейчас можно скачать образ ОС и запустить его на своей ARM системе, без того, чтобы проверять, есть ли поддержка именно вашей платы.
    
    kingleonfromafrica
    22.05.2020 16:19
    #21646684
    Это всё понятно, но где же тесты сопоставимых по цене/количеству процессоров/цвету корпуса/etc. конфигураций и обзоры их результатов?
    Их нет.
    Меня это очень удивляет, если что.
    Я бы и сам хотел получить сервер с сопоставимой х86 производительностью, но не требующий двух блоков питания с мощностью как у сварочного аппарата ...
    
    Ну, и да, вопрос тротлинга на х86 тоже весьма не приятная вещь — покупая сервер планируешь, что он будет "топить на все деньги", а в реале это всё как то не совсем так получается.
    Это конечно вопрос к инженерам, протупившим при реализации системы охлаждения, но это вполне себе повседневная проблема.
    
    Но, реальных решений на ARM как не было, так и нет.
  1. vvvphoenix Автор
    21.05.2020 22:52
    #21643684
    Нет, тоже не сколько хочешь. Если бы это так было — не было бы троттлинга. А они троттлятся тока в путь. Power envelopes никто не отменял для серверов. Но там они связаны скорее с отводом тепла.
  1. VADemon
    22.05.2020 12:27
    #21645640
    +1
    Продвигали уже и раньше, да так, что Qualcomm отказался от сей затеи, вот старый бенчмарк: blog.cloudflare.com/arm-takes-wing
    Хотя, ЕМНИП, Amazon как раз на ARM дизайнит свои новые процессоры.
    
    vvvphoenix Автор
    22.05.2020 12:43
    #21645720
    Посмотрел бенчмарки — интересно, спасибо. Потом гляну повнимательнее еще. Первое впечатление — там где требуются длинные SIMD ARM конечно проигрывает. А в остальном — вполне себе ничего
  1. DistortNeo
    22.05.2020 17:14
    #21646918
    Так и для серверов прожоривость тоже не приветствуется. Собственно, поэтому х86 процессоры в топовых серверах тоже редко работают на частотах выше 3 ГГц.
1. maxzhurkin
  21.05.2020 22:41
  #21643626
  Только инструкции x86 выполняются за 2-3 такта, а ARM — за 1, если не ошибаюсь
  1. AVI-crak
    22.05.2020 01:48
    #21644130
    инструкции x86 выполняются за 2-3 такта
    
    Не совсем так.
    Мнемоника — это команды которые считывает процессор из памяти, то что мы можем контролировать глазами через экран монитора.
    В арм одна машинная мнемоника имеет от одной до семи отдельных инструкций. Каждая инструкция выполняется синхронно с другими, имеет задержку выполнения от двух до четырнадцати тактов. Задержка потока и физическое исполнение — разные вещи. Читать можно быстрее чем будет фиксироваться физическое исполнение — получается 1 такт. Всё ломается с кодами ветвления.
    В х86 одна мнемоника может иметь в своём составе сотни инструкций. Всё точно так-же использует конвейер. Та-же задержка, но теперь на каждую инструкцию отдельно. Идеальный код без ветвлений даёт выполнение одной мнемоники за такт. Но первое-же условие перехода — отбрасывает х86 в пещерный век.
    Вся разница в энергопотреблении, и в условиях подсчёта.
    Для интела удобно считать скорость через инструкции, потому как всегда получается больше чем у арм.
    А для арм удобнее считать через мипс, где интел в глубокой жопе.
    
    nixtonixto
    22.05.2020 10:05
    #21644956
    +1
    AVI-crak
    Для Интел МИПСы не имеют большого значения, т.к. те же AVX512, за счёт своей 512-битности, положат на лопатки любой АРМ с его МИПСами. Интел пошёл другой дорогой — добавляя пакеты инструкций для решения задачи минимальным количеством инструкций, классический процессор эту задачу будет решать десятками-сотнями низкоуровневых инструкций. Выигрывая в МИПСах, но проигрывая в скорости решения задачи. Умножая 256 на 256 бит, Интелу потребуется только одна инструкция, причём все операнды лягут в регистры, а АРМ будет умножать столбиком по 32 на 32 бита с суммированием и сохранением в ОЗУ кэша, т.к. ему даже регистров не хватит для этих 128 байт множителей и результата…
  1. Afterk
    22.05.2020 09:47
    #21644862
    Зависит от instruction throughput, а у некоторых он 1/4 такта (MOV, SUB, ADD, INC, CMP, NEG, NOT etc). Можно получить 4 инструкции за 1 такт.
    
    maxzhurkin
    22.05.2020 10:16
    #21645002
    Разумеется, отдельные инструкции выполняются различное время, но на одних «быстрых» инструкциях программу создать затруднительно. Обычно для сравнения имеет смысл использовать статистические показатели, такие как средняя продолжительность исполнения инструкции при некой «средней» или «типичной» нагрузке

DoubleW
21.05.2020 22:44
#21643644
Интересно — а есть возможность писать ПО во внутреннем микрокоде ЦПУ, и если да то в таком случае было бы крайне сравнить эффективность. Сколько вся эта легаси обвязка «жрет» и энергии и «времени» ЦПУ.
1. vvvphoenix Автор
  21.05.2020 23:26
  #21643778
  Да так оно примерно и происходит. Вот статья, откуда я позаимствовал графики. blog.acolyer.org/2017/06/19/hardware-is-the-new-software
  Если бы не этот ROM front end x86 давно превысил бы все разумные пределы. Там же оседают другие элементы ISA -например счетчики. Только этот ROM тоже не маленький и не бесплатный. Но поскольку все это не от хорошей жизни никто никогда не расскажет во что он обходится…

gred
21.05.2020 23:17
#21643754
интересно, что получится, если pdp11 воплотить в железе на сегодняшних технологиях?
1. vvvphoenix Автор
  21.05.2020 23:17
  #21643756
  +2
  микроконтроллер :)
1. aleaksah
  22.05.2020 00:17
  #21643948
  +3
  msp430
1. ultrinfaern
  22.05.2020 00:17
  #21643950
  Ну вообще можно сказать так — откуда вообще взялся CISC (а pdp-11 это CISC)? А взялся он из-за того что раньше памяти было мало, скорость исполнения маленькая, программы были простенькие, компиляторы и оптимизаторы убогенькие и желательно было (и иногда и нужно) писать все на ассемблере. Поэтому тут для удобства программистов нужен CISC. А потом появились крутые компиляторы куча ресурсов и смысла писать на ассемблере больше не стало. Соответственно и набор инструкций железа уже не имел значения. Поэтому набор инструкций x86 может быть ужасным — никто его не видит. И поэтому реализовал что-то вроде pdp/vax-11 смысла не имеет — никто это не почувствует, только разработчики компилятора. А в разработке компилятора все равно какой набор инструкций — всегда можно что-то подшаманить эффективно исходник переложит на пару кривых инструкций.
  1. vvvphoenix Автор
    22.05.2020 01:29
    #21644104
    +2
    Согласен. Всегда говорил, что не надо программистам мозги ассемблером забивать. У них и так есть баги, дедлайны и начальство. :) И компилятора тоже не надо, самый лучший язык — Java :)
  1. beeruser
    22.05.2020 17:12
    #21646900
    откуда вообще взялся CISC
    
    Эта классификация появилась намного позже самого создания «CISC» процессоров.
    
    Поэтому тут для удобства программистов нужен CISC.
    
    Ничем не обоснованное, ложное утверждение. Сколько лет вы программировали на асме?
1. Gordon01
  22.05.2020 12:00
  #21645524
  Digital signal processors (DSPs) generally execute small, highly optimized audio or video processing algorithms. They avoid caches because their behavior must be extremely reproducible. The difficulties of coping with multiple address spaces are of secondary concern to speed of execution. Consequently, some DSPs feature multiple data memories in distinct address spaces to facilitate SIMD and VLIW processing. Texas Instruments TMS320 C55x processors, for one example, feature multiple parallel data buses (two write, three read) and one instruction bus.
  
  Microcontrollers are characterized by having small amounts of program (flash memory) and data (SRAM) memory, and take advantage of the Harvard architecture to speed processing by concurrent instruction and data access. The separate storage means the program and data memories may feature different bit widths, for example using 16-bit-wide instructions and 8-bit-wide data. They also mean that instruction prefetch can be performed in parallel with other activities. Examples include the PIC by Microchip Technology, Inc. and the AVR by Atmel Corp (now part of Microchip Technology).
  
  Еще был такой эпизод:
  
  In November 2007, to celebrate the project completion and to mark the start of a fundraising initiative for The National Museum of Computing, a Cipher Challenge[84] pitted the rebuilt Colossus against radio amateurs worldwide in being first to receive and decode three messages enciphered using the Lorenz SZ42 and transmitted from radio station DL0HNF in the Heinz Nixdorf MuseumsForum computer museum. The challenge was easily won by radio amateur Joachim Schuth, who had carefully prepared[85] for the event and developed his own signal processing and code-breaking code using Ada.[86] The Colossus team were hampered by their wish to use World War II radio equipment,[87] delaying them by a day because of poor reception conditions. Nevertheless, the victor's 1.4 GHz laptop, running his own code, took less than a minute to find the settings for all 12 wheels. The German codebreaker said: "My laptop digested ciphertext at a speed of 1.2 million characters per second—240 times faster than Colossus. If you scale the CPU frequency by that factor, you get an equivalent clock of 5.8 MHz for Colossus. That is a remarkable speed for a computer built in 1944."

Sergani
22.05.2020 10:46
#21645162
Если x86 такой устаревший, почему он такой быстрый?
1. vvvphoenix Автор
  22.05.2020 10:53
  #21645214
  +1
  А кто говорил, что он устаревший. Я только говорил, что груз legacy велик. А так он живее всех живых :)
  1. Ankoroid
    22.05.2020 16:22
    #21646700
    Мало того, что живее всех живых, так совсем недавно подавляющее большинство новых айфонов имели на борту x86 процессор :) Правда в связи с недавним проигрышем Intel Qualcomm'у этот исторический зигзаг остается в истории.
    
    Если кто не верит, то: lcq2.github.io/x86_iphone
    
    ;)
1. spqr_voldi
  22.05.2020 14:18
  #21646176
  Быстрый для чего и по сравнению с чем?
1. potan
  22.05.2020 17:33
  #21647000
  Потому что разработка хорошо финансируется.

VelocidadAbsurda
22.05.2020 13:42
#21646020
К вопросу о сложности компиляторов для VLIW: ок, нужно подбирать порядок инструкций для максимального заполнения «пакетов». Но разве это не схоже с задачами, решаемыми out-of-order архитектурами в железе? Однако у компилятора по идее для этого куда больше ресурсов — больше информации о коде, мягче требования к скорости. В чём загвоздка?

Посчитал (руками в дизассемблере) среднее заполнение пакета в случайно выбранной функции из примерно 500 инструкций (функция — управляющий алгоритм общего плана, никакой DSP специфики) для VLIW-ядра QDSP6 (оно довольно распространённое кстати, по нескольку в каждом SoC/модеме от Qualcomm), получил 62.5% (2.5 из 4). Интересно, как это соотносится с эффективностью переупорядочения инструкций тем же x86?
1. DistortNeo
  22.05.2020 17:27
  #21646986
  +1
  Однако у компилятора по идее для этого куда больше ресурсов — больше информации о коде, мягче требования к скорости. В чём загвоздка?
  Загвоздка в том, что:
  
  У разных процессоров может быть разное количество функциональных блоков, разные задержки. То есть код получается жёстко привязан к конкретному процессору.
  
  Предсказание ветвлений в современных процессорах — динамическое, тогда как компилятор генерит статический код.
  
  Программы под x86 и так компилируются непозволительно долго. А для VLIW это время вырастет ещё на порядок, либо придётся генерить неэффективный код.
  1. beeruser
    22.05.2020 19:46
    #21647432
    Никто не мешает предсказанию ветвлений во VLIW быть динамическим.
    Просто в бандле будет один переход, который точно так же предсказывается BTB.
    За примерами не нужно далеко ходить.
    en.wikipedia.org/wiki/Transmeta_Efficeon
    
    the Efficeon has… one branch prediction unit
    
    Хотя, конечно, современные OoO процессоры могут выполнять до двух переходов за такт.
    
    Время компиляции не сильно отличается. Даже на Эльбрусе это не является проблемой.
    Для Интел так же нужно двигать инструкции из-за требований DSB к их выравниванию.
    Да и декодеры вовсе не симметричны. Первый декодирует 4 МОП, остальные 1 МОП.
    
    «Causes of Performance Instability due to Code Placement in X86 — Zia Ansari, Intel»
    www.youtube.com/watch?v=IX16gcX4vDQ
    
    tyomitch
    22.05.2020 19:57
    #21647464
    Дело не в предсказании ветвлений как таковом, а в том, что OoO-процессор может выполнять код после ветвления параллельно с кодом до ветвления, тогда как VLIW-компилятор не может код после ветвления объединить в бандле с кодом до ветвления.
1. ShadowTheAge
  22.05.2020 19:33
  #21647390
  Тут еще проблема в том что если Intel выпускает новый процессор в котором добавятся out-of-order блоки или теневые регистры — то все программы начинут работать немного быстрее. А если выходит новый VLIW процессор с еще больше увеличенной длиной слова, то старые программы быстрее работать не начинают, а новые начинают занимать еще больше места.

vvvphoenix Автор
22.05.2020 14:20
#21646182
ну по идее 2.5 из 4 нормально. Если это конечно не Linpack. :) Но есть несколько вопросов -сколько всего команд предоставляет архитектура (примерно)? сколько времени разрабатывается компилятор? В интеле компилятор для Itanium задышал лет через 5 только. И самое главное — если в системе добавляются новые инструкции, сколько времени уйдет на перестройку компилятора?

potan
22.05.2020 17:32
#21646996
В среднем длинна инструкций у x86 как раз небольшая, часто встречающиеся инструкции короче.

ISA ошибок не прощает +69

Комментарии (101)

vvvphoenix Автор

vvvphoenix Автор

vvvphoenix Автор

vvvphoenix Автор

vvvphoenix Автор

vvvphoenix Автор

vvvphoenix Автор

vvvphoenix Автор

vvvphoenix Автор

vvvphoenix Автор

vvvphoenix Автор

vvvphoenix Автор

vvvphoenix Автор

vvvphoenix Автор

vvvphoenix Автор

vvvphoenix Автор

vvvphoenix Автор

vvvphoenix Автор

vvvphoenix Автор

vvvphoenix Автор

vvvphoenix Автор

vvvphoenix Автор

vvvphoenix Автор

vvvphoenix Автор

vvvphoenix Автор