Benchmark CPU's Instructions (just before loading the OS)

Главная
Benchmark CPU's Instructions (just before loading the OS) — XCHG vs XOR, XOR, XOR

Benchmark CPU's Instructions (just before loading the OS) — XCHG vs XOR, XOR, XOR +9

02.06.2021 15:55

Saenro 11 2100 Источник

1.225.000 - среднее для XCHG (слева), 1.280.014 - среднее для XOR, XOR, XOR (справа)

Возможно не только мне интересно, а каков микрокод инструкции XCHG на RISC для x86 CISC?Например ни для кого не секрет, что на языках высокого уровня, чтобы обменять значениями две переменные "X" и "Y", нужна ещё одна переменная, скажем "Z".

X=5, Y=7
Z=Y
Y=X
X=Z
X=7, Y=5

Но, процессоры это умеют делать командой XCHG, причём, явно никакой третьей переменной здесь вроде бы как и нет...

X=5, Y=7
XCHG X, Y
X=7, Y=5

Я даже предполагал что сама аббревиатура "XCHG", это ни что иное как "XOR CHANGE", сразу скажу что подтверждения этой догадки я нигде не встречал. Почему XOR CHANGE? Возможно потому что обмен между регистрами происходит с участием логической команды XOR.

X=5, Y=7
XOR X, Y
XOR Y, X
XOR X, Y
X=7, Y=5

Что ж, я решил проверить свою теорию, промерив продолжительность исполнения инструкции "XCHG" и её аналога "XOR, XOR, XOR". Ну а чтобы результаты были максимально детерминированными, я решил запустить всё это дело ещё до загрузки какой-либо операционной системы, т.е. сразу после того, как БИОС компьютера решит загружаться с определённого накопителя. В общем для максимальной чистоты эксперимента, я разместил приведённый ниже код прямо в MBR загрузочного диска (в своём случае я использовал флешку).
Следующий код повторяет инструкцию "XCHG EDI, EAX" 7 раз, а инструкцию "XOR" - 21 раз ну и накапливает затраченные тики процессора. Цикл для каждой тестируемой команды повторяется по 10000 раз. После чего всё это прокручивается ещё и ещё (всего 20 раз), в итоге вычисляется среднее. Как по мне, тест получается довольно "чистый", более-менее детерминированный. Ну а что касается того, равны ли по продолжительности исполнения команда XCHG и три команды XOR, то судя по этому тесту, XCHG выполняется на 5% быстрее, что никак не вписывается в мою теорию :)

до этого момента инициализация сегментных регистров + возможные перемещения блоков кода
             mov      ax, 3
             int      10h
             cli                            ; запретим прерывания
             mov      al, 0FFh
             out      021h, al
             out      0A1h, al
             mov      cx, 20                ; сделаем 20 попыток
again:       push     cx
             xor      ebp, ebp
             mov      si, 10000             ; повторим 10000 раз для XCHG
@@:          xor      eax, eax
             xor      edi, edi
             cpuid                          ; заставим ЦПУ выполнить все предыдущие команды
             rdtsc
rept 7     { xchg     edi, eax }            ; повторим 7 раз XCHG
             cpuid
             rdtsc
             sub      eax, edi	            ; вычтем разницу
             add      ebp, eax              ; суммируем результаты
             dec      si
             jnz      @B
             mov      [_xchg], ebp          
             xor      ebp, ebp
             mov      si, 10000             ; повторим 10000 раз для XOR
@@:          xor      eax, eax
             xor      edi, edi
             cpuid
             rdtsc
rept 7     { xor      edi, eax              ; повторим 7 раз по три XOR
             xor      eax, edi
             xor      edi, eax }
             cpuid
             rdtsc
             sub      eax, edi
             add      ebp, eax
             dec      si
             jnz      @B
next:        mov      [_xor], ebp
             mov      eax, [_xchg]
             add      [totalxchg], eax
             mov      di, [screen]
             call     print
             add      word [screen], 32
             mov      eax, [_xor]
             add      [totalxor], eax
             mov      di, [screen]
             call     print
             add      word [screen], 128
             pop      cx
             dec      cx
             jnz      again
             dec      byte [color+1]
             mov      eax, [totalxchg]
             mov      ebx, 20
             xor      edx, edx
             idiv     ebx
             mov      di,[screen]
             call     print
             mov      eax, [totalxor]
             mov      ebx, 20
             xor      edx, edx
             idiv     ebx
             add      word [screen], 32
             mov      di,[screen]
             call     print
@@:          jmp      @B                ; на этом всё.
print:       mov      ebx, 10           ; подпрограмма вывода полученных значений на экран
             xor      cx, cx
more:        mov      si, bufferdec+12
             xor      edx, edx
             sub      si, cx
             idiv     ebx
             add      dl, '0'
             mov      [si], dl
             inc      cx
             test     cl, 1
             je       @F
             test     cl, 2
             je       @F
             or       eax, eax
             je       @F
             mov      [si-1], byte '.'
             inc      cx
@@:          or       eax, eax
             jne      more
color:       mov      ah, 7
             push     0b800h
             pop      es
             mov      si, bufferdec+12
             add      di, cx
             add      di, cx
             std
@@:          lodsb
             stosw
             loop     @b
             push     cs
             pop      es
             ret
screen:      dw 0
_xchg:       dd 0
totalxchg:   dd 0
_xor:        dd 0
totalxor:    dd 0
bufferdec:   db 12 dup 0

rb 510 - ($ - $$)
db 55h,0AAh

Комментарии (11)

kukovik
02.06.2021 19:05
#23107770
+2
xchg же типичное сокращение от exchange.

VBKesha
02.06.2021 19:18
#23107808
Ну а что касается того, равны ли по продолжительности исполнения команда XCHG и три команды XOR, то судя по этому тесту, XCHG выполняется на 5% быстрее, что никак не вписывается в мою теорию

Я не большой спец в процессоростроени. Однако там есть всякие стадии выполнения команд, а также конвееры и хитрые оптимизации, и куча ещё всего интересного. Что может быть в теории может и накинуть 5% на исполнение 21 команды против 7.

masai
02.06.2021 19:51
#23107920
На StackOverflow есть замечательное обсуждение команды XCHG — https://stackoverflow.com/questions/45766444/why-is-xchg-reg-reg-a-3-micro-op-instruction-on-modern-intel-architectures

Sabubu
02.06.2021 20:00
#23107944
Вы ведь не учли время на выборку и декодирование команд. Очевидно, что выборка 3 команд потребует больше операций чтения и займет больше времени, чем выборка одной команды, если они одинакового размера. Правда, конвейер может это компенсировать.

Можно попробовать компенсировать это, добив команду XCHG NOP'ами до нужной длины.

Также, непонятно, почему используются 32-битные инструкции вместо 64-битных?

Ну и по моему, команда эта абсолютно бесполезная. В какой ситуации компилятор может ее использовать?
1. Sdima1357
  02.06.2021 22:23
  #23108378
  +1
  Ну и по моему, команда эта абсолютно бесполезная. В какой ситуации компилятор может ее использовать?
  
  Не совсем, std::swap например. Обмен указателей или еще что нибудь. Иногда удобно.
  1. masai
    03.06.2021 10:09
    #23109488
    Сам обмен удобен, да. Но компиляторы для этого XCHG редко используют.
  1. qw1
    03.06.2021 21:29
    #23112332
    Если оба операнда std::swap находятся в регистрах, то компилятору вообще не надо генерировать инструкции. Достаточно изменить свои внутренние маппинги после прохождения инструкции swap, какая переменная находится в каком регистре.
    
    Sdima1357
    03.06.2021 23:34
    #23112734
    Регистры на х86 неравнозначны и имеют разные наборы разрешенных операций. Совершенно очевидно, что если компилятор может обойтись без обмена, то он без него обходится. Учтите, что и процессор тоже достаточно умный для ремапа регистра на ходу, впрочем об этом тут уже написали.

Videoman
03.06.2021 01:00
#23108696
Не зависимо от результатов теста, в документации XCHG написано что она, в случае если один из операндов находится в памяти, производит атомарный обмен с блокировкой шины процессора, даже независимо от префикса LOCK. Т.е. это не совсем эквивалент трех XOR, не просто обмен, а атомарный обмен и одна из операций для построения более сложных примитивов синхронизации.

zorge_van_daar
03.06.2021 14:27
#23110754
+1
В современном процессоре нет строгого соответствия EAX/EBX и некоего места в регистровом файле процессора. XCHG может вообще не перемещать биты в процессоре, а просто назначить для EAX ту область регистровой памяти процессора, которая числилась ранее за EBX.
1. masai
  03.06.2021 15:55
  #23111096
  С регистрами — да, а с памятью уже не получится переименовать.