Перевод числа в строку с помощью FPU / forpes.ru

Главная
Перевод числа в строку с помощью FPU

Перевод числа в строку с помощью FPU +5

07.02.2021 15:59

K-ILYA-V 38 2700 Источник

Каждый человек увлекающийся программированием обязан написать свой вариант решения этой задачи. Я решил не быть исключением.

В соответствии с x64 software conventions будем считать что число подлежащие конвертированию расположено в XMM0.

Будем использовать x64 битный код при x32 битной адресации. Такой способ адресации позволяет использовать преимущества обоих диалектов.

Сохраняем значение стека и создаем точку размещения данных выровненную про параграфу для повышения быстродействия:

	; старт процедуры
	mov    r9d, esp
	lea    r8d,[r9d - 70h]
	and    r8d, 0FFFFFFF0h
	mov    esp, r8d

Подготавливаем FPU освобождая его от данных и устанавливаем повышенную точность и округление к нулю:

	fsave [esp]
	finit
	mov  dword ptr[esp - dword], 037F0F7Fh
	fldcw         [esp - dword]

Перегружаем число из XMM0 в FPU:

	movd qword ptr[esp - xmmword], xmm0
	fld  qword ptr[esp - xmmword]

Находим десятичный порядок Числа:

	fld     st(0)
	fxtract
	fldl2t
	fst     st(1)
	fdivr   st(0),st(2)
	frndint

Устанавливаем округление к ближайшему числу:

	fldcw	[esp - word]

Сохраняем порядок Числа и находим десятичный порядок Множителя для перевода значащих цифр Числа в целую часть:

	fist      dword ptr[esp - dword]
	movzx edx, word ptr[esp - dword]
	mov       dword ptr[esp - dword], 10h
	fisubr    dword ptr[esp - dword]

Находим десятичный Множитель и перемножаем его на Число:

	fmulp   st(1),st(0)
	fst     st(1)
	frndint
	fsub    st(1),st(0)
	fld1
	fscale
	fstp    st(1)
	fmulp   st(2),st(0)
	f2xm1
	fld1
	faddp   st(1),st(0)
	fmulp   st(1),st(0)
	frndint

Перегружаем полученное число из FPU в регистры AX и XMM0 в размере 2 первых и 8 последующих байтов соответственно. При загрузки 8 байт в регистр XMM0 одновременно меняем порядок расстановки байт за счет предварительного выравнивания указателя стека по параграфу:

	fbstp           tbyte ptr[esp - xmmword]
	mov       ax,    word ptr[esp -   qword]
	pshuflw xmm0, xmmword ptr[esp - xmmword], 00011011b

Восстанавливаем состояние FPU:

	frstor [esp]

Переставляем байты регистра ХММ0 до состояния их полного разворота с одновременным удвоением:

	punpcklbw xmm0, xmm0
	pshuflw   xmm0, xmm0, 10110001b
	pshufhw   xmm0, xmm0, 10110001b

Загружаем маску и разделяем числовые тетрады:

	mov            dword ptr[esp], 0FF00FF0h
	pshufd xmm1, xmmword ptr[esp], 0
	pand   xmm0, xmm1
	psrlw  xmm1, 4
	movdqa xmm2, xmm1
	pand   xmm1, xmm0
	psrlw  xmm1, 4
	pandn  xmm2, xmm0
	paddb  xmm1, xmm2

Создаем маску и находим байты содержащие значащие цифры:

	pxor    xmm0, xmm0
	pcmpeqb xmm0, xmm1

Преобразуем числа в соответствующие им символы:

	mov            dword ptr[esp], 30303030h
	pshufd xmm2, xmmword ptr[esp], 0
	paddb  xmm1, xmm2

Преобразуем первые два байта числа в символы и сохраняем их в память:

	mov  byte ptr[esp],'-'
	btr             ax, 0Fh
	adc            esp, 0
	add             ax,'.0'
	mov  word ptr[esp], ax

Находим длину значащей части числа в регистре ХММ0 :

	movdqu	      xmmword ptr[esp + word], xmm1
	pmovmskb ecx, xmm0
	bsf      ecx, ecx
	add      esp, ecx

Проверка порядка Числа на нулевое значение и отрицательную величину:

	mov    ecx,(word + dword)
	mov    eax, edx
	neg     dx
	jnc     @f
	cmovns eax, edx
	setns   dh

Преобразуем значение порядка числа в символы и сохраняем их в память:

	cmp   ax, 0Ah
	sbb  ecx, ecx
	mov   dl, 0Ah
	div   dl
	cmp   al, 0Ah
	sbb  ecx, 0
	shl  eax, 8
	shr   ax, 8
	div   dl
	add eax, 303030h
	lea edx,[edx * 2 + 2B51h]
	
	mov dword ptr[esp + word + ecx + word], eax
	mov  word ptr[esp + word], dx

Вычисляем длину числа и сохраняем ее в регистрах EAX и ECX:

@@:	lea ecx,[esp + ecx + qword]
	sub ecx, r8d
  mov eax,ecx

Сохраняем строку символов в паре регистров XMM1 и XMM2:

	movdqa xmm1, xmmword ptr[r8d]
	movdqa xmm2, xmmword ptr[r8d + xmmword]

Восстанавливаем значение стека:

	mov esp, r9d

Выходим из процедуры.

В своем коде я применяю недокументированное соглашение о передаче / возврате из функции множественных параметров. Соглашение абсолютно зеркально соглашению x64 software conventions за тем исключением что описывает правила размещения параметров при выходе из процедуры.

Зачем писать этот код если уже есть готовые решения - потому что мое решение лучше.

Чем оно лучше других - мой код прямой и не имеет циклов или ветвлений, а также содержит минимальное количество обращений к памяти.

Зачем писать его на ассемблере если есть другие более удобные языки - потому что ассемблер лучше.

Чем ассемблер лучше в данном случае - полным доступом к SIMD и FPU командам.

Лишь часть данного кода векторная, вычисление числа скалярно - это не выполнимое требование так как при вызове процедуры ей передается только одно число.

Комментарии (38)

picul
07.02.2021 20:17
#22649122
+1
Ваше решение не может быть лучше потому, что оно не имеет циклов, ветвлений и нечасто обращается в память. Пользователю плевать, кто сколько обращается в память и проверяет условий. Оно может быть лучше лишь потому, что Вы протестировали его производительность на адекватном наборе входных данных, сравнили его результаты с результатами тех решений, что используются сейчас, и обнаружили, что оно действительно лучше справляется. Но такого сравнения Вы, к сожалению, не провели.
Ну и да, я на 100% уверен, что Ваша статья понятна лишь Вам. Dukarav в своей хотя бы попытался объяснить, что и как он делает.
1. K-ILYA-V Автор
  07.02.2021 20:56
  #22649264
  -2
  Меня вполне устраивает ситуация когда статья понятно только таким как я. Как любой человек я больше стремлюсь к общению с людьми такими же как я чем с такими не как я.
  
  Я не сомневаюсь что тесты подтвердят мои слова.
  
  В настоящий момент у данного кода есть лишь один пользователь и насколько мне известно его крайне волнует частота обращения к памяти и отсутствие циклов и ветвлений.
  1. picul
    07.02.2021 21:20
    #22649336
    Вы-то можете не сомневаться в своих решениях, но тому, кто мог бы использовать данное решение в критически важном месте, нужны аргументы получше. Так что таким как Вы статья может и понравиться, но те, к числу которых Вы пытаетесь себя причислить, определенно пройдут стороной.
    
    K-ILYA-V Автор
    07.02.2021 21:39
    #22649420
    ваше рассуждение нарушает законы логики и следовательно не верно.
    
    предпосылки:
    я люблю таких как я
    такие как я любят таких как я
    следствие:
    такие как я любят меня.

DistortNeo
07.02.2021 20:25
#22649154
+1
Интересно. Команды BTR, BSF — я даже не уверен, что современные компиляторы их генерят.

Чем оно лучше других — мой код прямой и не имеет циклов или ветвлений, а также содержит минимальное количество обращений к памяти.
Хорошо. Но почему из этого следует, что оно лучше? Хочется видеть тесты.
1. picul
  07.02.2021 20:45
  #22649230
  btr bsf
  Их можно использовать вручную. Там вообще есть все кроме FPU стека)
  1. K-ILYA-V Автор
    07.02.2021 21:09
    #22649304
    я не смог найти там команды
    movdqa xmm0,xmm1
    вы могли бы подсказать мне где она?
    
    picul
    07.02.2021 21:15
    #22649326
    Она генерируется оператором '=' над типом __m128. А не подскажете, почему я не смог найти там FPU стек?
    
    K-ILYA-V Автор
    07.02.2021 21:25
    #22649368
    могу ли я трактовать ваш ответ как не возможность использовать больше одного регистра одновременно?
    
    я могу лишь предположить что поддержка вычисление логарифмов не востребована широким кругом программистов.
    
    picul
    07.02.2021 21:44
    #22649446
    +1
    Нет, не можете. Речь идет о C/C++, программист оперирует переменными, а регистрами оперирует компилятор.
    Программисты спокойно вычисляют логарифмы без устаревших наборов инструкций.
    
    K-ILYA-V Автор
    07.02.2021 21:51
    #22649460
    -1
    ваше утверждение противоречит известной картине мира и следовательно не верно.
    
    в х86-64 процессоров не существует никаких команд для вычисления логарифмов кроме команд сопроцессора, следовательно вычисление логарифмов по-прежнему производиться посредством сопроцессора. вычисление логарифмов программным способом будет сравнимо с нахождением программным способом квадратных корней.
    
    тоже относиться и к тригонометрическим функциям также отсутствующим за пределами FPU сета
    
    DistortNeo
    07.02.2021 22:26
    #22649606
    +1
    Как это ни странно, но программная реализация тригонометрических функций с использованием SSE/AVX оказывается эффективнее, чем с использованием FPU даже для скалярных операцией. Про векторные вычисления вообще молчу.
    
    picul
    07.02.2021 22:55
    #22649734
    +1
    Известная Вам картина мира противоречит реальной картине мира, в которой стандартная функция логарифма в MSVC реализуется програмно с помощью SSE/AVX инструкций. Но в Microsoft очевидно тестировали производительность своего решения при разработке, так что в Вашей картине мира они может быть не самым лучшим.
    
    K-ILYA-V Автор
    07.02.2021 23:03
    #22649764
    могу я увидеть код нахождения логарифма на SSE
    мне было бы очень интересно его увидеть
    
    picul
    07.02.2021 23:34
    #22649882
    Могу предоставить вырезку дизассемблера из VS 2019:
    
    Спойлер
    --- minkernel\crts\ucrt\src\appcrt\tran\amd64\log.asm --- sub rsp,58h movdqa xmmword ptr [rsp+20h],xmm6 cmp dword ptr [__use_fma3_lib (07FF6A0259C2Ch)],0 jne Llog_sse2+2A9h (07FF6A0247C10h) movdqa xmm3,xmm0 movapd xmm4,xmm0 psrlq xmm3,34h movq rax,xmm0 psubq xmm3,xmmword ptr [__mask_1023 (07FF6A02533A0h)] mov rcx,rax btr rcx,3Fh cmp rcx,qword ptr [__real_inf (07FF6A0253350h)] jae Llog_sse2+279h (07FF6A0247BE0h) movdqa xmm2,xmm0 cvtdq2pd xmm6,xmm3 pand xmm2,xmmword ptr [__real_mant (07FF6A0253390h)] subsd xmm4,mmword ptr [__real_one (07FF6A02533F0h)] comisd xmm6,mmword ptr [__mask_1023_f (07FF6A02534A0h)] je Llog_sse2+1F9h (07FF6A0247B60h) andpd xmm4,xmmword ptr [__real_notsign (07FF6A02534D0h)] mov r9,rax and rax,qword ptr [__mask_mant_all8 (07FF6A02533C0h)] and r9,qword ptr [__mask_mant9 (07FF6A02533D0h)] shl r9,1 add rax,r9 movq xmm1,rax comisd xmm4,mmword ptr [__real_threshold (07FF6A02534C0h)] jb Llog_sse2+169h (07FF6A0247AD0h) shr rax,2Ch por xmm2,xmmword ptr [__real_half (07FF6A0253420h)] por xmm1,xmmword ptr [__real_half (07FF6A0253420h)] lea r9,[__log_F_inv_qword (07FF6A0251EE0h)] xorpd xmm5,xmm5 comisd xmm0,xmm5 jbe Llog_sse2+239h (07FF6A0247BA0h) subsd xmm1,xmm2 mulsd xmm1,mmword ptr [r9+rax*8] movapd xmm2,xmm1 movapd xmm0,xmm1 lea r9,[__log_256_lead (07FF6A0253960h)] movsd xmm3,mmword ptr [__real_1_over_6 (07FF6A0253490h)] movsd xmm1,mmword ptr [__real_1_over_3 (07FF6A0253460h)] mulsd xmm3,xmm2 mulsd xmm1,xmm2 mulsd xmm0,xmm2 movapd xmm4,xmm0 addsd xmm3,mmword ptr [__real_1_over_5 (07FF6A0253480h)] addsd xmm1,mmword ptr [__real_1_over_2 (07FF6A0253450h)] mulsd xmm4,xmm0 mulsd xmm3,xmm2 mulsd xmm1,xmm0 addsd xmm3,mmword ptr [__real_1_over_4 (07FF6A0253470h)] addsd xmm1,xmm2 mulsd xmm3,xmm4 addsd xmm1,xmm3 movsd xmm5,mmword ptr [__real_log2_tail (07FF6A0253530h)] mulsd xmm5,xmm6 subsd xmm5,xmm1 movsd xmm0,mmword ptr [r9+rax*8] lea rdx,[__log_256_tail (07FF6A0254170h)] movsd xmm2,mmword ptr [rdx+rax*8] addsd xmm2,xmm5 movsd xmm4,mmword ptr [__real_log2_lead (07FF6A0253520h)] mulsd xmm4,xmm6 addsd xmm0,xmm4 addsd xmm0,xmm2 movdqa xmm6,xmmword ptr [rsp+20h] add rsp,58h ret nop word ptr [rax+rax] movsd xmm2,mmword ptr [__real_two (07FF6A02533E0h)] subsd xmm0,mmword ptr [__real_one (07FF6A02533F0h)] addsd xmm2,xmm0 movsd xmm1,xmm0 divsd xmm1,xmm2 movsd xmm4,mmword ptr [__real_ca2 (07FF6A02534F0h)] movsd xmm5,mmword ptr [__real_ca4 (07FF6A0253510h)] movsd xmm6,xmm0 mulsd xmm6,xmm1 addsd xmm1,xmm1 movsd xmm2,xmm1 mulsd xmm2,xmm1 mulsd xmm4,xmm2 mulsd xmm5,xmm2 addsd xmm4,mmword ptr [__real_ca1 (07FF6A02534E0h)] addsd xmm5,mmword ptr [__real_ca3 (07FF6A0253500h)] mulsd xmm2,xmm1 mulsd xmm4,xmm2 mulsd xmm2,xmm2 mulsd xmm2,xmm1 mulsd xmm5,xmm2 addsd xmm4,xmm5 subsd xmm4,xmm6 addsd xmm0,xmm4 movdqa xmm6,xmmword ptr [rsp+20h] add rsp,58h ret nop word ptr [rax+rax] por xmm2,xmmword ptr [__real_one (07FF6A02533F0h)] subsd xmm2,mmword ptr [__real_one (07FF6A02533F0h)] movsd xmm5,xmm2 pand xmm2,xmmword ptr [__real_mant (07FF6A0253390h)] movq rax,xmm2 psrlq xmm5,34h psubd xmm5,xmmword ptr [__mask_2045 (07FF6A02534B0h)] cvtdq2pd xmm6,xmm5 jmp Llog_sse2+55h (07FF6A02479BCh) nop word ptr [rax+rax] jne Llog_sse2+259h (07FF6A0247BC0h) movsd xmm1,mmword ptr [__real_ninf (07FF6A0253340h)] mov r8d,dword ptr [__flag_x_zero (07FF6A0253540h)] call _log_special (07FF6A02467D0h) jmp Llog_sse2+299h (07FF6A0247C00h) nop dword ptr [rax+rax] movsd xmm1,mmword ptr [__real_neg_qnan (07FF6A0253360h)] mov r8d,dword ptr [__flag_x_neg (07FF6A0253544h)] call _log_special (07FF6A02467D0h) jmp Llog_sse2+299h (07FF6A0247C00h) nop word ptr [rax+rax] cmp rax,qword ptr [__real_inf (07FF6A0253350h)] je Llog_sse2+299h (07FF6A0247C00h) cmp rax,qword ptr [__real_ninf (07FF6A0253340h)] je Llog_sse2+259h (07FF6A0247BC0h) or rax,qword ptr [__real_qnanbit (07FF6A0253370h)] movq xmm0,rax xchg ax,ax movdqa xmm6,xmmword ptr [rsp+20h] add rsp,58h ret nop dword ptr [rax+rax] xor rax,rax vpsrlq xmm3,xmm0,34h vmovq rax,xmm0 vpsubq xmm3,xmm3,xmmword ptr [__mask_1023 (07FF6A02533A0h)] vcvtdq2pd xmm6,xmm3 vpand xmm5,xmm0,xmmword ptr [__real_inf (07FF6A0253350h)] vcomisd xmm5,mmword ptr [__real_inf (07FF6A0253350h)] je Llog_sse2+4D9h (07FF6A0247E40h) vpxor xmm5,xmm5,xmm5 vcomisd xmm0,xmm5 jbe Llog_sse2+489h (07FF6A0247DF0h) vpand xmm2,xmm0,xmmword ptr [__real_mant (07FF6A0253390h)] vsubsd xmm4,xmm0,mmword ptr [__real_one (07FF6A02533F0h)] vcomisd xmm6,mmword ptr [__mask_1023_f (07FF6A02534A0h)] je Llog_sse2+457h (07FF6A0247DBEh) vpand xmm1,xmm0,xmmword ptr [__mask_mant_all8 (07FF6A02533C0h)] vpand xmm3,xmm0,xmmword ptr [__mask_mant9 (07FF6A02533D0h)] vpsllq xmm3,xmm3,1 vpaddq xmm1,xmm3,xmm1 vmovq rax,xmm1 vpand xmm4,xmm4,xmmword ptr [__real_notsign (07FF6A02534D0h)] vcomisd xmm4,mmword ptr [__real_threshold (07FF6A02534C0h)] jb Llog_sse2+3E9h (07FF6A0247D50h) shr rax,2Ch vpor xmm2,xmm2,xmmword ptr [__real_half (07FF6A0253420h)] vpor xmm1,xmm1,xmmword ptr [__real_half (07FF6A0253420h)] lea r9,[__log_F_inv_qword (07FF6A0251EE0h)] vsubsd xmm1,xmm1,xmm2 vmulsd xmm1,xmm1,mmword ptr [r9+rax*8] lea r9,[__log_256_lead (07FF6A0253960h)] vmulsd xmm0,xmm1,xmm1 vmovsd xmm3,qword ptr [__real_1_over_6 (07FF6A0253490h)] vmovsd xmm5,qword ptr [__real_1_over_3 (07FF6A0253460h)] vfmadd213sd xmm3,xmm1,mmword ptr [__real_1_over_5 (07FF6A0253480h)] vfmadd213sd xmm5,xmm1,mmword ptr [__real_1_over_2 (07FF6A0253450h)] vmovsd xmm4,xmm0,xmm0 vfmadd213sd xmm3,xmm1,mmword ptr [__real_1_over_4 (07FF6A0253470h)] vmulsd xmm4,xmm0,xmm0 vfmadd231sd xmm1,xmm5,xmm0 vfmadd231sd xmm1,xmm3,xmm4 vmovsd xmm5,qword ptr [__real_log2_tail (07FF6A0253530h)] vfmsub213sd xmm5,xmm6,xmm1 vmovsd xmm0,qword ptr [r9+rax*8] lea rdx,[__log_256_tail (07FF6A0254170h)] vmovsd xmm1,qword ptr [rdx+rax*8] vaddsd xmm1,xmm1,xmm5 vfmadd231sd xmm0,xmm6,mmword ptr [__real_log2_lead (07FF6A0253520h)] vaddsd xmm0,xmm0,xmm1 vmovdqa xmm6,xmmword ptr [rsp+20h] add rsp,58h ret nop word ptr [rax+rax] vmovsd xmm3,qword ptr [__real_two (07FF6A02533E0h)] vsubsd xmm0,xmm0,mmword ptr [__real_one (07FF6A02533F0h)] vaddsd xmm3,xmm3,xmm0 vdivsd xmm1,xmm0,xmm3 vmovsd xmm4,qword ptr [__real_ca2 (07FF6A02534F0h)] vmovsd xmm5,qword ptr [__real_ca4 (07FF6A0253510h)] vmulsd xmm3,xmm0,xmm1 vaddsd xmm1,xmm1,xmm1 vmulsd xmm2,xmm1,xmm1 vfmadd213sd xmm4,xmm2,mmword ptr [__real_ca1 (07FF6A02534E0h)] vfmadd213sd xmm5,xmm2,mmword ptr [__real_ca3 (07FF6A0253500h)] vmulsd xmm2,xmm2,xmm1 vmulsd xmm4,xmm4,xmm2 vmulsd xmm2,xmm2,xmm2 vmulsd xmm2,xmm2,xmm1 vfmadd231sd xmm4,xmm5,xmm2 vsubsd xmm4,xmm4,xmm3 vaddsd xmm0,xmm0,xmm4 vmovdqa xmm6,xmmword ptr [rsp+20h] add rsp,58h ret vpor xmm2,xmm2,xmmword ptr [__real_one (07FF6A02533F0h)] vsubsd xmm2,xmm2,mmword ptr [__real_one (07FF6A02533F0h)] vpsrlq xmm5,xmm2,34h vpand xmm2,xmm2,xmmword ptr [__real_mant (07FF6A0253390h)] vmovapd xmm0,xmm2 vpsubd xmm5,xmm5,xmmword ptr [__mask_2045 (07FF6A02534B0h)] vcvtdq2pd xmm6,xmm5 jmp Llog_sse2+304h (07FF6A0247C6Bh) jne Llog_sse2+4B9h (07FF6A0247E20h) vmovsd xmm1,qword ptr [__real_ninf (07FF6A0253340h)] mov r8d,dword ptr [__flag_x_zero (07FF6A0253540h)] call _log_special (07FF6A02467D0h) vmovdqa xmm6,xmmword ptr [rsp+20h] add rsp,58h ret nop word ptr [rax+rax] vmovsd xmm1,qword ptr [__real_neg_qnan (07FF6A0253360h)] mov r8d,dword ptr [__flag_x_neg (07FF6A0253544h)] call _log_special (07FF6A02467D0h) vmovdqa xmm6,xmmword ptr [rsp+20h] add rsp,58h ret nop cmp rax,qword ptr [__real_inf (07FF6A0253350h)] je Llog_sse2+509h (07FF6A0247E70h) cmp rax,qword ptr [__real_ninf (07FF6A0253340h)] je Llog_sse2+4B9h (07FF6A0247E20h) or rax,qword ptr [__real_qnanbit (07FF6A0253370h)] vmovq xmm1,rax mov r8d,dword ptr [__flag_x_nan (07FF6A0253548h)] call _log_special (07FF6A02467D0h) nop word ptr [rax+rax] vmovdqa xmm6,xmmword ptr [rsp+20h] add rsp,58h ret
    
    K-ILYA-V Автор
    08.02.2021 00:26
    #22650078
    очень интересно.
    
    VSukhomlinov
    08.02.2021 01:48
    #22650298
    +1
    можно и в исходниках разные реализации найти для удобства. различных аппроксимаций для функций много. www.netlib.org/fdlibm например. Есть и библиотеки с поддержкой векторов — скажем синус 4-х аргументов за раз (Intel SVML и др). можно попробовать в таком стиле реализовать перевод чисел в строку — сразу 2-4 за проход.
    
    K-ILYA-V Автор
    07.02.2021 21:54
    #22649480
    следовательно предложенный вами способ не позволит мне умножить вектор на матрицу иначе как при помощи непрерывного обращения к памяти. то есть физически у меня будет существовать матричное поле из 4х16 чисел двойной точности но использовать я смогу из них лишь 4 потому что… (я затрудняюсь обосновать причину почему)
    
    picul
    07.02.2021 22:59
    #22649748
    Если Вы затрудняетесь в подобных рассуждениях, то Вы или не понимаете понятие языков высокого уровня, или не понимаете дизайн SSE/AVX интринсиков в C++. В любом случае рекомендую вместо выпытывания объяснений прочитать какую-нибудь основательную статью на заданные темы. Спойлер: при умножении вектора на матрицу чтение/запись в память, как и FPU, не нужны вообще.
    
    K-ILYA-V Автор
    07.02.2021 23:04
    #22649774
    могу я увидеть код в котором при умножении вектора на матрицу чтение/запись в память, как и FPU, не нужны вообще.
    
    picul
    07.02.2021 23:29
    #22649858
    Оговорился. Разумеется, без чтения/записи можно умножать лишь матрицы малых размерностей. Вот умножение 4x4 на 4:
    
    Спойлер
    struct matrix { __m128 m[4]; }; __m128 mul_4x4_4( __m128 m0, __m128 m1, __m128 m2, __m128 m3, __m128 v ) { __m128 const tmp0 = _mm_shuffle_ps( m0, m1, 0x44 ); __m128 const tmp2 = _mm_shuffle_ps( m0, m1, 0xEE ); __m128 const tmp1 = _mm_shuffle_ps( m2, m3, 0x44 ); __m128 const tmp3 = _mm_shuffle_ps( m2, m3, 0xEE ); m0 = _mm_shuffle_ps( tmp0, tmp1, 0x88 ); m1 = _mm_shuffle_ps( tmp0, tmp1, 0xDD ); m2 = _mm_shuffle_ps( tmp2, tmp3, 0x88 ); m3 = _mm_shuffle_ps( tmp2, tmp3, 0xDD ); __m128 const v0 = _mm_shuffle_ps( v, v, 0x00 ); __m128 const v2 = _mm_shuffle_ps( v, v, 0x55 ); __m128 const v1 = _mm_shuffle_ps( v, v, 0xAA ); __m128 const v3 = _mm_shuffle_ps( v, v, 0xFF ); __m128 const mv0 = _mm_mul_ps( m0, v0 ); __m128 const mv1 = _mm_mul_ps( m1, v1 ); __m128 const mv2 = _mm_mul_ps( m2, v2 ); __m128 const mv3 = _mm_mul_ps( m3, v3 ); return _mm_add_ps( _mm_add_ps( mv0, mv1 ), _mm_add_ps( mv2, mv3 ) ); }
    
    K-ILYA-V Автор
    08.02.2021 00:13
    #22650026
    забавная особенность кода который вы показываете заключается в том что будучи формально написанным на срр по факту это асм. все использованные вами «функции» это псевдонимы асм инструкций. с определенными оговорками не сильно искажая сути можно сказать что этот код написан на асм.
    
    за тем исключением что в асм вы будите свободны выбирать сколько и как задействовать регистров для решения указанной задачи а в срр вам остается только надеяться что компилятор «догадается» насколько этот участок кода для вас важен и нужен.
    
    picul
    08.02.2021 00:45
    #22650154
    Я отлично понимаю, что эти функции — это по факту ассемблерные инструкции. Они поэтому и называются «интринсиками», а не функциями. Но нет, этот код не написан на ассемблере, ведь во время его написания я не думал об аллокации регистров, соблюдении соглашений вызова и прочей рутине. Это работа, требующая лишь внимание для выполнения автоматических действий по четкому алгоритму — почему бы не поручить ее компилятору.
    
    K-ILYA-V Автор
    08.02.2021 01:05
    #22650200
    потому что тогда, в зависимости от того какое будет настроение у компилятора, он может выделить для вашего вычисления четыре первых регистра, которые согласно соглашению о вызовах «временные» и могут использоваться любой процедурой без восстановления, и начнет крутить весь ваш код на них и получиться что у вас есть 16 рабочих но работает всегда только четыре потому что вам «лень» учить их фамилии и выходить из своего кабинета чтобы заставить их всех работать.
    
    picul
    08.02.2021 01:23
    #22650242
    Компилятор — это машина, у него всегда хорошее настроение. Их совершенствовали годами, и они справляются со своими задачами очень хорошо. У кого может быть плохое настроение — так это у программиста. Иногда даже у Вас.
    
    DistortNeo
    08.02.2021 01:39
    #22650280
    Я ещё в 2011 году на радостях от появления AVX и отсутствия его нормальной поддержки в компиляторах написал пару функций обработки изображений на ассемблере, потратив на это дело огромное количество времени. Код на ассемблере работал примерно в 2 раза быстрее, чем используя компилятор MSVC с интринсиками. Но потом я попробовал компилятор Intel, и внезапно оказалось, что генерируемый им код работает быстрее, чем вручную написанный на ассемблере.
    
    С тех пор компиляторы стали ещё более эффективными. Сейчас практический любой популярный компилятор сгенерит код лучше, чем вручную написанный на асме. Да даже на C# уже можно писать эффективный вычислительный код.
1. yatanai
  07.02.2021 20:58
  #22649270
  Просто на доступ к внешней памяти тратится много тактов(от 5 до ~200 в зависимости от кэша), а на ветвления в случае неправильного предсказания вы рискуете потерять ещё тактов ~30. А команды почти всегда в кэше, как я знаю) Это уже должно быть чисто интуитивно понятнее. +Если я ничего не упустил, тут нету деленияи все команды должны выполняется без сильных задержек. Что должно быть быстрее банального int%10+(code"0")
  А вообще да, банальные тесты бы успокоили народ кто просто почитать зашёл.
1. K-ILYA-V Автор
  07.02.2021 21:02
  #22649278
  а какие команды по вашему мнению генерирует современные компиляторы?
  
  любые циклы связанны с накладными расходами на их обслуживание и крахом как минимум одной петли при их первом/последнем проходе.
  
  тоже касательно и ветвлений, блок предсказания переходов имеет конечную величину и к моменту повторного запуска процедуры данные для предсказания перехода вероятней всего уже будут стерты.
1. K-ILYA-V Автор
  08.02.2021 00:30
  #22650102
  picul дал ответ на ваш вопрос несколькими комментариями ниже где выложил код из дизассемблера VS 2019, одиннадцатая команда по счету BTR. как видно она не только используется, но даже используется в VS2019.

VSukhomlinov
07.02.2021 21:23
#22649354
мне интересно не растёт ли погрешность при вычислении степени десятки через логарифм — для чисел меньше 1 надо домножить на положительные степени 10, многие из которых представимы точно и вычисление их через логарифм скорее всего будет неточным. но с другой стороны у FPU 80-бит точность, так что может и не существенно. Но я бы сравнил по этому показателю и разобрался бы откуда отклонения возникают, если они есть. FBSTP — вероятно даёт самое большое сокращение кода — мне эта команда всегда нравилась, и жаль что её нет в SSE наборе :)
вообще при изменении типа округления на FPU его хорошо бы восстановить к предыдущему значению, так как другие вычисления могут бы чувствительны.
И финальный код с делениями на 10 — для ускорения можно делить на 100 и брать 2 символа из таблицы, но я не думаю, что это место критично по производительности. Еще можно задействовать AAM/AAD вместо DIV на константу, но я не уверен, что они остались в 64-битном режиме.
1. K-ILYA-V Автор
  07.02.2021 21:30
  #22649392
  я пока затрудняюсь ответить на это с математическим обоснованием, но по результат тестов мне пришлось отказаться от первоначальной идеи извлекать 18 значащих чисел из за сбоев при округлении. после уменьшения количества извлекаемых чисел до 17 и увеличения дробной части как следствие до 2 значащих чисел сбои при округлении больше не наблюдались.
  
  перед финальным округлением, которое делается до команды FBSTP хвост из девяток довольно частое явление, но два числа в мантиссе отсекают его довольно надежно.
  
  я два раза меняю точность, сперва устанавливаю ее к нулю для вычисления порядка а после к ближайшему для дальнейших вычислений.
  
  я работаю в х64 в нем нет AAM/AAD, формально можно написать полностью х32 и эти команды станут доступны даже на современных машинах, они блокируются только при переходе в х64

demp
07.02.2021 21:31
#22649394
А можно посмотреть на сравнение с другими методами? Например, pull-request в https://github.com/miloyip/dtoa-benchmark было бы круто.
1. K-ILYA-V Автор
  07.02.2021 21:40
  #22649422
  -8
  нет.
  1. K-ILYA-V Автор
    07.02.2021 22:26
    #22649604
    -7
    а почему?
    
    K-ILYA-V Автор
    07.02.2021 22:27
    #22649608
    -7
    мне это не интересно
1. yleo
  08.02.2021 11:01
  #22651690
  Milo Yip давно забросил этот проект, не принимает pull-requestы, но и не передаёт его.
  Поэтому pull-requestы лучше сюда, а автор сможет там найти не только бенчмарк и конкурентов, но и тесты.

ion2
08.02.2021 11:20
#22651824
а также содержит минимальное количество обращений к памяти.
То есть fsave и frstor за обращение к памяти не считаются? Как бы эта часть, с инициализацией FPU, не съела весь предполагаемый выигрыш.
1. K-ILYA-V Автор
  08.02.2021 12:04
  #22652222
  хорошее замечание. с моей точки зрения это действительно слабое место в алгоритме, хотя и сомнительно чтобы оно съело весь выигрыш. к счастью входе споров в комментарии мне показали как вообще обойтись без FPU, так что теперь эта проблема более не актуальна.

Перевод числа в строку с помощью FPU +5

Комментарии (38)

K-ILYA-V Автор

K-ILYA-V Автор

K-ILYA-V Автор

K-ILYA-V Автор

K-ILYA-V Автор

K-ILYA-V Автор

K-ILYA-V Автор

K-ILYA-V Автор

K-ILYA-V Автор

K-ILYA-V Автор

K-ILYA-V Автор

K-ILYA-V Автор

K-ILYA-V Автор

K-ILYA-V Автор

K-ILYA-V Автор

K-ILYA-V Автор

K-ILYA-V Автор

K-ILYA-V Автор