Недавно был представлен 8-ядерный процессор следующего Loongson 3A6000 на базе ядра LA664, а знакомый энтузиаст смог приобрести плату на данном процессоре (модель процессора LS3A6000-HV и чипсет LS7A2000).
Раннее я проводил тесты десктопного процессора Loongson 3A5000, поэтому его будем сравнивать с процессором Loongson 3A6000 (модель LS3A6000-HV). Дополнительно сравним с процессором Intel Core-i5 10500T и Amd Ryzen 7700.
Характеристики процессоров Loongson 3A5000 и Loongson 3A6000:
|
Loongson 3A5000 |
Loongson 3A6000 HV |
Intel Core-i5 10500T |
Amd Ryzen 7700 |
Семейство ISA |
RISC |
RISC |
CISC |
CISC |
Архитектура |
loongarch64 |
loongarch64 |
amd64 |
amd64 |
Микроархитектура |
GS464V |
LA664 |
Comet Lake |
Zen 4 |
Частота (МГц) |
2500 |
2500 |
2300 (3800) |
3800 (5300) |
Ядра |
4 |
8 (8 ALU, 4 FPU) |
6 (12) |
8 (16) |
Тех процесс (нм) |
12 |
12 |
14 |
5 |
TDP (Вт) |
35 |
80 |
35 |
65 |
Кеш |
64 Кб L1I, 64 Кб L1D, 1 Мб L2 (0,25 x 4) 16 Мб L3 |
64 Кб L1I, 64 Кб L1D, 2 Мб L2 (0,25 x 8) 16 Мб L3 |
32 Кб L1I, 32 Кб L1D, 2 Мб L2 (0,25 x 6) 12 Мб L3 |
32 Кб L1I, 32 Кб L1D, 8 Мб L2 (1 x 8) 32 Мб L3 |
Тип ОЗУ |
DDR4-3200 |
DDR4-3200 |
DDR4-2666 |
DDR5-5200 |
GFLOPs |
160 |
320 |
300 |
2000 |
Год |
2021 |
2023 |
2020 |
2023 |
Были проведены следующие тесты:
7zip встроенный бенчмарк
Dhrystone, Whetsone
Coremark
Scimark 2
Mp MFLOPS
Stream
SPEC 2006 (1 поток)
Сразу переходим к результатам, но детали тестов смотрите далее.
Результаты
Тест |
Loongson 3A5000 |
Loongson 3A6000-HV |
Intel Core-i5 10500T |
Amd Ryzen 7700 |
Dhrystone [DMIPS] |
18563 |
21522 |
26033 |
47517 |
Whetstone [MWIPS] |
3990 |
4848 |
6860 |
13195 |
Whetstone MP [MWIPS] |
15001 |
34556 |
71132 |
176033 |
Linpack 100 [MFLOPS] |
2929 |
4057 |
8405 |
14445 |
Scimark 2 [Composite score] |
1487 |
2108 |
3241 |
6126 |
Coremark (1T; MT) |
14934; 58797 |
21278; 113416 |
31174; 188331 |
47831; 512546 |
MP MFLOPS |
121167 |
301765 |
373570 |
1613801 |
7zip (Comp; Decomp; Tot) (MT) |
11360; 11638; 11081 |
21659; 20126; 20892 |
23475; 21253; 22364 |
116227; 88356; 102291 |
STREAM (Copy; Scale; Add; Triad) [MB/s] |
14593; 14641; 13276; 13719 |
31521; 31019; 31299; 31452 |
15495; 10806; 12408; 12408 |
61788; 46131; 50375; 50736 |
SPEC 2006 INT |
25 |
44 |
|
|
SPEC 2006 FP |
26 |
54 |
|
По результатам можно сделать вывод, что процессор Loongson 3A6000 в однопоточных тестах стал на 30% производительнее и не сильно отстаёт от Core-i5 10500-T.
Немного об архитектуре LoongArch
Loongson — процессор на основе сильно переработанной RISC архитектуре MIPS64, часть ненужных команд MIPS64 была удалена и добавлено большое число расширений (SIMD, шифрование, бинарная трансляция, виртуализация), всего порядка 2000+ инструкций.
lscpu 3A5000
Architecture: loongarch64
Byte Order: Little Endian
CPU(s): 4
On-line CPU(s) list: 0-3
Thread(s) per core: 1
Core(s) per socket: 4
Socket(s): 1
NUMA node(s): 1
Model name: Loongson-3A5000
CPU max MHz: 2500.0000
CPU min MHz: 225.0000
BogoMIPS: 4992.00
L1d cache: 64K
L1i cache: 64K
L2 cache: 256K
L3 cache: 16384K
NUMA node0 CPU(s): 0-3
lscpu 3A6000-HV
processor : 0
package : 0
core : 0
global_id : 0
CPU Family : Loongson-64bit
Model Name : Loongson-3A6000-HV
CPU Revision : 0x00
FPU Revision : 0x00
CPU MHz : 2500.00
BogoMIPS : 5000.00
TLB Entries : 2112
Address Sizes : 48 bits physical, 48 bits virtual
ISA : loongarch32 loongarch64
Features : cpucfg lam ual fpu lsx lasx crc32 lvz lbt_x86 lbt_arm lbt_mips
Hardware Watchpoint : yes, iwatch count: 8, dwatch count: 4
...
processor : 7
package : 0
core : 3
global_id : 7
CPU Family : Loongson-64bit
Model Name : Loongson-3A6000-HV
CPU Revision : 0x00
FPU Revision : 0x00
CPU MHz : 2500.00
BogoMIPS : 5000.00
TLB Entries : 2112
Address Sizes : 48 bits physical, 48 bits virtual
ISA : loongarch32 loongarch64
Features : cpucfg lam ual fpu lsx lasx crc32 lvz lbt_x86 lbt_arm lbt_mips
Hardware Watchpoint : yes, iwatch count: 8, dwatch count: 4
Dhrystone
Dhrystone достаточно древний тест 80х годов, написан на C. Тестирует целочисленную арифметику и работу со строками. Результаты измеряются в Dhrystone/s и DMIPS. (DMIPS = Dhrystone/s делить на 1757).
Вывод теста Dhrystone на 3A6000-HV
Dhrystone Benchmark, Version 2.1 (Language: C or C++)
Optimisation loongarch64 loongarch64 optimized
Register option not selected
10000 runs 0.00 seconds
100000 runs 0.00 seconds
1000000 runs 0.03 seconds
10000000 runs 0.26 seconds
20000000 runs 0.53 seconds
40000000 runs 1.06 seconds
80000000 runs 2.12 seconds
Final values (* implementation-dependent):
Int_Glob: O.K. 5 Bool_Glob: O.K. 1
Ch_1_Glob: O.K. A Ch_2_Glob: O.K. B
Arr_1_Glob[8]: O.K. 7 Arr_2_Glob8/7: O.K. 80000010
Ptr_Glob-> Ptr_Comp: * 0x55555b0182a0
Discr: O.K. 0 Enum_Comp: O.K. 2
Int_Comp: O.K. 17 Str_Comp: O.K. DHRYSTONE PROGRAM, SOME STRING
Next_Ptr_Glob-> Ptr_Comp: * 0x55555b0182a0 same as above
Discr: O.K. 0 Enum_Comp: O.K. 1
Int_Comp: O.K. 18 Str_Comp: O.K. DHRYSTONE PROGRAM, SOME STRING
Int_1_Loc: O.K. 5 Int_2_Loc: O.K. 13
Int_3_Loc: O.K. 7 Enum_Loc: O.K. 1
Str_1_Loc: O.K. DHRYSTONE PROGRAM, 1'ST STRING
Str_2_Loc: O.K. DHRYSTONE PROGRAM, 2'ND STRING
Nanoseconds one Dhrystone run: 26.45
Dhrystones per Second: 37803100
VAX MIPS rating = 21515.71
Вывод теста Dhrystone на 3A5000
Dhrystone Benchmark, Version 2.1 (Language: C or C++)
Optimisation loongarch64 loongarch64 optimized
Register option not selected
10000 runs 0.00 seconds
100000 runs 0.00 seconds
1000000 runs 0.03 seconds
10000000 runs 0.31 seconds
20000000 runs 0.61 seconds
40000000 runs 1.23 seconds
80000000 runs 2.45 seconds
Final values (* implementation-dependent):
Int_Glob: O.K. 5 Bool_Glob: O.K. 1
Ch_1_Glob: O.K. A Ch_2_Glob: O.K. B
Arr_1_Glob[8]: O.K. 7 Arr_2_Glob8/7: O.K. 80000010
Ptr_Glob-> Ptr_Comp: * 0x1239782a0
Discr: O.K. 0 Enum_Comp: O.K. 2
Int_Comp: O.K. 17 Str_Comp: O.K. DHRYSTONE PROGRAM, SOME STRING
Next_Ptr_Glob-> Ptr_Comp: * 0x1239782a0 same as above
Discr: O.K. 0 Enum_Comp: O.K. 1
Int_Comp: O.K. 18 Str_Comp: O.K. DHRYSTONE PROGRAM, SOME STRING
Int_1_Loc: O.K. 5 Int_2_Loc: O.K. 13
Int_3_Loc: O.K. 7 Enum_Loc: O.K. 1
Str_1_Loc: O.K. DHRYSTONE PROGRAM, 1'ST STRING
Str_2_Loc: O.K. DHRYSTONE PROGRAM, 2'ND STRING
Nanoseconds one Dhrystone run: 30.66
Dhrystones per Second: 32616185
VAX MIPS rating = 18563.57
Whetstone
Тестирует арифметику с плавающей/фиксированной запятой, математические функции, ветвления, вызовов функций, присваиваний, работы с числами с фиксированной запятой, ветвлений. Результаты измеряются в MWIPS.
Вывод теста Whetstone на 3A6000-HV
8 CPUs Available
##############################################
Multithreading Single Precision Whetstones loongarch64 loongarch64 optimized
Using 8 threads - Thu Nov 9 14:20:35 2023
Calibrate
0.00301 Seconds 1 Passes (x 100)
0.01406 Seconds 5 Passes (x 100)
0.06950 Seconds 25 Passes (x 100)
0.34647 Seconds 125 Passes (x 100)
Use 3607 passes (x 100)
MFLOPS 1 907 907 907 907 907 907 906 906
MFLOPS 2 907 907 907 907 907 907 907 907
IFMOPS 29892 29885 29877 29871 29856 29852 29840 29815
FIXPMOPS 2168 2168 2168 2168 2168 2167 2167 2167
COSMOPS 123 123 123 123 123 123 123 123
MFLOPS 3 662 661 661 661 661 661 661 661
EQUMOPS 1872 1871 1871 1871 1871 1871 1871 1869
EXPMOPS 91 91 91 91 91 91 91 91
millisec 8347 8348 8348 8348 8347 8348 8347 8348
MWIPS 4321 4321 4321 4321 4321 4321 4321 4321
MWIPS MFLOPS MFLOPS MFLOPS Cos Exp Fixpt If Equal
Thread 1 2 3 MOPS MOPS MOPS MOPS MOPS
1 4321 907 907 662 123 91 2167 29877 1872
2 4321 907 907 661 123 91 2167 29892 1871
3 4321 906 907 661 123 91 2168 29885 1871
4 4321 907 907 661 123 91 2168 29871 1871
5 4321 907 907 661 123 91 2168 29852 1869
6 4321 906 907 661 123 91 2167 29856 1871
7 4321 907 907 661 123 91 2168 29840 1871
8 4321 907 907 661 123 91 2168 29815 1871
Total 34568 7253 7254 5291 986 732 17340 238888 14968
MWIPS 34557 Based on time for last thread to finish
Results Of Calculations Thread 1
MFLOPS 1 -1.12253940105438232 MFLOPS 2 -1.13133072853088379
IFMOPS 1.00000000000000000 FIXPMOPS 12.00000000000000000
COSMOPS 0.49911013245582581 MFLOPS 3 0.99999982118606567
EQUMOPS 3.00000000000000000 EXPMOPS 0.93536460399627686
Numeric results of the other 7 threads were same as above
End of test Thu Nov 9 14:20:48 2023
Вывод теста Whetstone на 3A5000
4 CPUs Available
##############################################
Multithreading Single Precision Whetstones loongarch64 loongarch64 optimized
Using 4 threads - Sun Dec 11 15:28:38 2022
Calibrate
0.00353 Seconds 1 Passes (x 100)
0.01669 Seconds 5 Passes (x 100)
0.08278 Seconds 25 Passes (x 100)
0.41330 Seconds 125 Passes (x 100)
Use 3024 passes (x 100)
MFLOPS 1 678 678 677 676
MFLOPS 2 678 676 676 670
IFMOPS 7495 7494 7493 7489
FIXPMOPS 2082 2082 2081 2080
COSMOPS 112 112 112 111
MFLOPS 3 600 599 599 597
EQUMOPS 4997 4991 4991 4967
EXPMOPS 63 63 63 63
millisec 8055 8068 8047 8083
MWIPS 3754 3748 3758 3741
MWIPS MFLOPS MFLOPS MFLOPS Cos Exp Fixpt If Equal
Thread 1 2 3 MOPS MOPS MOPS MOPS MOPS
1 3754 676 678 599 112 63 2082 7489 4991
2 3748 678 676 599 111 63 2080 7494 4991
3 3758 678 676 600 112 63 2081 7493 4997
4 3741 677 670 597 112 63 2082 7495 4967
Total 15001 2708 2700 2395 446 252 8325 29971 19946
MWIPS 14939 Based on time for last thread to finish
Results Of Calculations Thread 1
MFLOPS 1 -1.13214290142059326 MFLOPS 2 -1.13333344459533691
IFMOPS 1.00000000000000000 FIXPMOPS 12.00000000000000000
COSMOPS 0.50000011920928955 MFLOPS 3 0.99999982118606567
EQUMOPS 3.00000000000000000 EXPMOPS 0.93536460399627686
Numeric results of the other 3 threads were same as above
End of test Sun Dec 11 15:28:48 2022
##########################################
Single Precision C Whetstone Benchmark loongarch64 loongarch64 optimized, Sun Dec 11 15:27:54 2022
Calibrate
0.00 Seconds 1 Passes (x 100)
0.01 Seconds 5 Passes (x 100)
0.06 Seconds 25 Passes (x 100)
0.32 Seconds 125 Passes (x 100)
1.60 Seconds 625 Passes (x 100)
8.01 Seconds 3125 Passes (x 100)
Use 3900 passes (x 100)
Single Precision C/C++ Whetstone Benchmark
Loop content Result MFLOPS MOPS Seconds
N1 floating point -1.12475013732910156 676.608 0.111
N2 floating point -1.12274742126464844 828.798 0.632
N3 if then else 1.00000000000000000 0.000 0.000
N4 fixed point 12.00000000000000000 74584.969 0.016
N5 sin,cos etc. 0.49911010265350342 100.223 3.238
N6 floating point 0.99999982118606567 598.946 3.512
N7 assignments 3.00000000000000000 3742.728 0.193
N8 exp,sqrt etc. 0.75110864639282227 63.179 2.296
MWIPS 3900.650 9.998
Coremark
Современный тест, который должен заменить Dhrystone и Whetstone. Написан на C. Считает различные массивы, матрицы, сортировка массивов и т. д. Предназначался для запуска на всём: от микроконтроллеров до мощных процессоров.
Вывод однопоточного теста Coremark на 3A6000-HV
2K performance run parameters for coremark.
CoreMark Size : 666
Total ticks : 14105
Total time (secs): 14.105000
Iterations/Sec : 21269.053527
Iterations : 300000
Compiler version : GCC13.2.0 20230727 (AOSC OS, Core)
Compiler flags : -Ofast -DPERFORMANCE_RUN=1 -DUSE_FORK=1 -lrt
Memory location : Please put data memory location here
(e.g. code in flash, data on heap etc)
seedcrc : 0xe9f5
[0]crclist : 0xe714
[0]crcmatrix : 0x1fd7
[0]crcstate : 0x8e3a
[0]crcfinal : 0xcc42
Correct operation validated. See README.md for run and reporting rules.
CoreMark 1.0 : 21269.053527 / GCC13.2.0 20230727 (AOSC OS, Core) -Ofast -DPERFORMANCE_RUN=1 -DUSE_FORK=1 -lrt / Heap
Вывод многопоточного теста Coremark на 3A6000-HV
2K performance run parameters for coremark.
CoreMark Size : 666
Total ticks : 21161
Total time (secs): 21.161000
Iterations/Sec : 113416.190161
Iterations : 2400000
Compiler version : GCC13.2.0 20230727 (AOSC OS, Core)
Compiler flags : -Ofast -DPERFORMANCE_RUN=1 -DUSE_FORK=1 -lrt
Parallel Fork : 8
Memory location : Please put data memory location here
(e.g. code in flash, data on heap etc)
seedcrc : 0xe9f5
[0]crclist : 0xe714
[1]crclist : 0xe714
[2]crclist : 0xe714
[3]crclist : 0xe714
[4]crclist : 0xe714
[5]crclist : 0xe714
[6]crclist : 0xe714
[7]crclist : 0xe714
[0]crcmatrix : 0x1fd7
[1]crcmatrix : 0x1fd7
[2]crcmatrix : 0x1fd7
[3]crcmatrix : 0x1fd7
[4]crcmatrix : 0x1fd7
[5]crcmatrix : 0x1fd7
[6]crcmatrix : 0x1fd7
[7]crcmatrix : 0x1fd7
[0]crcstate : 0x8e3a
[1]crcstate : 0x8e3a
[2]crcstate : 0x8e3a
[3]crcstate : 0x8e3a
[4]crcstate : 0x8e3a
[5]crcstate : 0x8e3a
[6]crcstate : 0x8e3a
[7]crcstate : 0x8e3a
[0]crcfinal : 0xcc42
[1]crcfinal : 0xcc42
[2]crcfinal : 0xcc42
[3]crcfinal : 0xcc42
[4]crcfinal : 0xcc42
[5]crcfinal : 0xcc42
[6]crcfinal : 0xcc42
[7]crcfinal : 0xcc42
Correct operation validated. See README.md for run and reporting rules.
CoreMark 1.0 : 113416.190161 / GCC13.2.0 20230727 (AOSC OS, Core) -Ofast -DPERFORMANCE_RUN=1 -DUSE_FORK=1 -lrt / Heap / 8:Fork
Вывод однопоточного теста Coremark на 3A5000
2K performance run parameters for coremark.
CoreMark Size : 666
Total ticks : 13392
Total time (secs): 13.392000
Iterations/Sec : 14934.289128
Iterations : 200000
Compiler version : GCC8.3.0
Compiler flags : -Ofast -DPERFORMANCE_RUN=1 -DUSE_FORK=1 -lrt
Memory location : Please put data memory location here
(e.g. code in flash, data on heap etc)
seedcrc : 0xe9f5
[0]crclist : 0xe714
[0]crcmatrix : 0x1fd7
[0]crcstate : 0x8e3a
[0]crcfinal : 0x4983
Correct operation validated. See README.md for run and reporting rules.
CoreMark 1.0 : 14934.289128 / GCC8.3.0 -Ofast -DPERFORMANCE_RUN=1 -DUSE_FORK=1 -lrt / Heap
Вывод многопоточного теста Coremark на 3A5000
2K performance run parameters for coremark.
CoreMark Size : 666
Total ticks : 13646
Total time (secs): 13.646000
Iterations/Sec : 58625.238165
Iterations : 800000
Compiler version : GCC8.3.0
Compiler flags : -Ofast -DPERFORMANCE_RUN=1 -DUSE_FORK=1 -lrt
Parallel Fork : 4
Memory location : Please put data memory location here
(e.g. code in flash, data on heap etc)
seedcrc : 0xe9f5
[0]crclist : 0xe714
[1]crclist : 0xe714
[2]crclist : 0xe714
[3]crclist : 0xe714
[0]crcmatrix : 0x1fd7
[1]crcmatrix : 0x1fd7
[2]crcmatrix : 0x1fd7
[3]crcmatrix : 0x1fd7
[0]crcstate : 0x8e3a
[1]crcstate : 0x8e3a
[2]crcstate : 0x8e3a
[3]crcstate : 0x8e3a
[0]crcfinal : 0x4983
[1]crcfinal : 0x4983
[2]crcfinal : 0x4983
[3]crcfinal : 0x4983
Correct operation validated. See README.md for run and reporting rules.
CoreMark 1.0 : 58625.238165 / GCC8.3.0 -Ofast -DPERFORMANCE_RUN=1 -DUSE_FORK=1 -lrt / Heap / 4:Fork
MP MFLOPS
Выполняет операции с плавающей запятой на векторах.
Вывод теста MP-MFLOPS на 3A6000-HV
8 CPUs Available
##############################################
64 Bit MP SSE MFLOPS Benchmark 1, 8 Threads, Thu Nov 9 14:16:13 2023
Test 4 Byte Ops/ Repeat Seconds MFLOPS First All
Words Word Passes Results Same
Data in & out 102400 2 20000 0.059209 69178 0.620974 Yes
Data in & out 1024000 2 2000 0.088311 46382 0.942935 Yes
Data in & out 10240000 2 200 0.379903 10782 0.994032 Yes
Data in & out 102400 8 20000 0.067177 243893 0.749972 Yes
Data in & out 1024000 8 2000 0.087856 186487 0.965367 Yes
Data in & out 10240000 8 200 0.523696 31285 0.996413 Yes
Data in & out 102400 32 20000 0.219431 298663 See log No
Data in & out 1024000 32 2000 0.217207 301721 0.910573 Yes
Data in & out 10240000 32 200 0.490507 133609 See log No
End of test Thu Nov 9 14:16:15 2023
Вывод теста MP-MFLOPS на 3A5000
4 CPUs Available
##############################################
64 Bit MP SSE MFLOPS Benchmark 1, 4 Threads, Sun Dec 11 15:22:37 2022
Test 4 Byte Ops/ Repeat Seconds MFLOPS First All
Words Word Passes Results Same
Data in & out 102400 2 10000 0.086061 23797 0.764063 Yes
Data in & out 1024000 2 1000 0.096334 21259 0.970753 Yes
Data in & out 10240000 2 100 0.597981 3425 0.997008 Yes
Data in & out 102400 8 10000 0.068533 119533 0.850919 Yes
Data in & out 1024000 8 1000 0.069136 118490 0.982347 Yes
Data in & out 10240000 8 100 0.593080 13813 0.998205 Yes
Data in & out 102400 32 10000 0.304694 107544 0.660093 Yes
Data in & out 1024000 32 1000 0.304863 107484 0.953624 Yes
Data in & out 10240000 32 100 0.620384 52819 0.995219 Yes
End of test Sun Dec 11 15:22:40 2022
7zip
Встроенный тест архиватора 7z.
Запускается так:
7z b
Вывод теста 7z на 3A5000
7-Zip (a) 16.02 : Copyright (c) 1999-2016 Igor Pavlov : 2016-05-21
p7zip Version 16.02 (locale=zh_CN.UTF-8,Utf16=on,HugeFiles=on,64 bits,4 CPUs LE)
LE
CPU Freq: 64000000 - - - - - - - -
RAM size: 16165 MB, # CPU hardware threads: 4
RAM usage: 882 MB, # Benchmark threads: 4
Compressing | Decompressing
Dict Speed Usage R/U Rating | Speed Usage R/U Rating
KiB/s % MIPS MIPS | KiB/s % MIPS MIPS
22: 11279 327 3352 10973 | 130124 396 2803 11102
23: 10681 325 3346 10883 | 127682 393 2810 11048
24: 11183 353 3406 12025 | 126626 395 2815 11116
25: 11099 360 3525 12673 | 124248 394 2805 11058
---------------------------------- | ------------------------------
Avr: 341 3407 11638 | 395 2808 11081
Tot: 368 3108 11360
Вывод теста 7z на 3A6000
# 7z b
7-Zip 17.04 : Copyright (c) 1999-2021 Igor Pavlov : 2017-08-28
p7zip Version 17.04 (locale=en_US.UTF-8,Utf16=on,HugeFiles=on,64 bits,8 CPUs LE)
LE
CPU Freq: - - - - - - - - -
RAM size: 64995 MB, # CPU hardware threads: 8
RAM usage: 1765 MB, # Benchmark threads: 8
Compressing | Decompressing
Dict Speed Usage R/U Rating | Speed Usage R/U Rating
KiB/s % MIPS MIPS | KiB/s % MIPS MIPS
22: 21911 721 2958 21316 | 236360 798 2525 20161
23: 20562 710 2950 20950 | 233677 798 2535 20222
24: 19949 714 3005 21450 | 228709 796 2522 20073
25: 20072 738 3107 22918 | 225272 797 2517 20048
---------------------------------- | ------------------------------
Avr: 721 3005 21659 | 797 2525 20126
Tot: 759 2765 20892
STREAM
Тест производительности ОЗУ.
Вывод теста STREAM на 3A5000
Function Best Rate MB/s Avg time Min time Max time
Copy: 16748.3 0.009969 0.009553 0.010576
Scale: 18735.0 0.009437 0.008540 0.010660
Add: 16333.2 0.015492 0.014694 0.016449
Triad: 17796.0 0.014789 0.013486 0.015294
Вывод теста STREAM на 3A6000
Function Best Rate MB/s Avg time Min time Max time
Copy: 31521.7 0.040964 0.040607 0.041237
Scale: 31019.0 0.041808 0.041265 0.043131
Add: 31299.9 0.061691 0.061342 0.063623
Triad: 31452.7 0.061352 0.061044 0.061736
Версия компилятора, ядра Linux
Ядро Linux на 3A5000:
Linux 4.19.167-rc5.lnd.1-loongson-3 #1 SMP Sat Apr 17 07:32:32 UTC 2021 loongarch64 loongarch64 loongarch64 GNU/Linux
Версия компилятора на 3A5000:
gcc version 8.3.0 (Debian 8.3.0-6.lnd.vec.20).
Ядро Linux на 3A6000:
Linux 6.6.0-aosc-main #1 SMP PREEMPT Sun Oct 22 23:09:21 PDT 2023 loongarch64
Версия компилятора на 3A6000:
cc (GCC) 13.2.0 20230727 (AOSC OS, Core)
Заключение
Процессор Loongson 3A6000 на архитектуре Loongarch64 имеет значительный прирост в однопоточных тестах в сравнении с Loongson 3A5000 и практически догоняет современные процессоры на архитектуре AMD64 (X86-64).
Ссылки
Комментарии (29)
checkpoint
04.01.2024 19:10+3Спасибо!
Есть ли какие-то обьяснения показателям теста STREAM ? От чего такой рывок вперед ? Сколько каналов SDRAM на 3A5000 и 3A6000 ?
EntityFX Автор
04.01.2024 19:10На плате c 3A6000 установлено 2 модуля DDR4 по 32 ГБ. Про 3A5000 -- уточню, тестировал удалённо, нужно спрашивать китайцев из чатика Loongson в TG.
SlFed
04.01.2024 19:10+1Спасибо ! А на каком Linux делали тесты ?
И небольшое замечание по первой таблице: у 3A6000 4 физических ядра, а 8 логических получаются за счет поддержки ими 2 потоков одновременно (SMT2).
EntityFX Автор
04.01.2024 19:10Спасибо, уточнил. Там, получается в кластере из 2 ядер 2 ALU и 1 FPU общий. Картинки внятной структуры кристалла нет.
aborouhin
04.01.2024 19:10+1А толку в сравнениях без указания цены? Для многих задач производительности, наверняка, хватит, да и с экзотической архитектурой можно прожить. Но если за это придётся заплатить существенно больше, чем за тот же четырехлетний i5, и вы при этом - не китайский госорган, чтобы импортозамещение перевешивало все остальные факторы, - то зачем оно?..
fire64
04.01.2024 19:10+1Если я правильно понимаю это как раз не экспортные модели. Они предназначены для их внутреннего импортозамещения.
BugM
04.01.2024 19:10+5Цена пока не важна. Нерыночный товар еще. У следующего поколения есть шанс стать массовыми.
Инвестиции там меряются десятками, а то и сотнями миллиардов долларов. Себестоимости можно считать тоже нет.
clicky
04.01.2024 19:10+11На 30% быстрее предшественника при увеличенном более чем в 2 раза потреблении и вдвое большем количестве ядер? И сравнивать с задушенным T-интелом при медленной памяти? Делать это без замеров релаьного потребления из розетки? Ну, это даже не тесты ради теста, это что-то весьма экстравагантное. Какая гипотеза проверялась-то? Что он может считать? Ну да, умеет. Круто.
EntityFX Автор
04.01.2024 19:10Потребление LS 6000 момент проведения тестов
ex_ineris
04.01.2024 19:10+1Ммм мисье извращенец, а где райзен? С современными i5 10500, ему уже 4 года, хм в каком месте он современный? Ну китайцы прогрессируют.
EntityFX Автор
04.01.2024 19:10+1Наберитесь терпения, добавлю позже, как коллеги протестируют своё современное. В репозитории уже имеется современное. На Tom's Hardware вообще сравнивали с 10100F.
EntityFX Автор
04.01.2024 19:10Вот есть тесты AMD Ryzen 9 7950X 16-Core Processor , AMD Ryzen 9 3900X 12-Core Processor
gummybeer
04.01.2024 19:10+3Спасибо!
По поводу странного выбора i5-10500T - понятно что выбор из категории "что было в наличии", но с другой стороны тестов 10500T более чем предостаточно, чтобы сравнить его с любым другим процессором и сделать свои выводы. Я, например, понял чего ждать от процессора за6000 и где он может оказаться полезным.
EntityFX Автор
04.01.2024 19:10Чуть позже добавлю что-то современное сбоку. 8-ядерное. Попросил товарищей протестить. Но у меня в репозитории есть тесты современного, можете глянуть. Там всякое имеется (начиная с крайне древнего).
CBET_TbMbI
04.01.2024 19:10+2Думаю, тут интереснее сравнить надёжность и подержку разного ПО (ОС, драйверов, программ и прочего).
shigorin
04.01.2024 19:10См. тж. левую колонку и поиск на packages.altlinux.org -- для loongarch64 в альте пока есть только сизиф (как и для всего остального неинтеловского, кроме ppc64el, армов и эльбрусов), но с большой вероятностью стабильная ветка p11 тоже будет (моя оценка).
CrazyCat69
04.01.2024 19:10-1Сравнили две RISC халтуры 4 и 8 ядер с соотв. TDP - это понятно. А каким боком тут CISC интель не первой свежести 6 ядер, с TDP меньше всех и всех нагнувший :) сравнивали хотя-бы с другими RISC халтурами :)
vicsoftware
>> "практически догоняет современные процессоры на архитектуре AMD64 (X86-64)."
При всём уважении, назвать процессор почти четырехлетней давности - "современным" - это надо сильно постараться. При том, что от него он отстаёт процентов на двадцать, несмотря на лучший техпроцесс и повышенный TDP. Хотя по сравнению с предыдущей моделью прогресс, конечно, ощутимый.
dartraiden
Прикол ещё в том, что за эти 4 года архитектура изменилась аж дважды: 10500 это многострадальный Skylake с многочисленными доработками, после этого сначала поменялась архитектура производительных ядер, а затем ещё и экономичных насыпали кучу.
Так что да, процессор 4-летней давности заметно уступает современным.
Dynasaur
Это спор - стакан наполовину полон или наполовину пуст.
Отставание на 4 года при том, что 2 года назад оставание было лет на 10, а три года назад лет на 15 - это очень хороший результат.
И думается, резервов для улучшения характеристик ещё много. Интел и АМД шли к своим вершинам лет 30-40, если не ошибаюсь, совершенствуя технологии и компетенции.
И с практической точки зрения, процессор 4-летней давности как правило пригоден для выполнения всех насущных задач. Многие прямо сейчас сидят на более древних камнях и не страдают от этого. Я, к примеру.
Zara6502
поддерживаю, дома R7 1700, R5 3600, на работе i5-2400 - всё летает и крутится без проблем.
EntityFX Автор
Ага, аналогично. Дома 3770K, на работе i7-2600. Не жалуюсь, оснащён 16 ГБ ОЗУ и SATA SSD, для разработки достаточно.
hapcode
Я тоже сидел на 4770К и думал что не страдаю). Пару лет назад опробовал 12700 - совсем другие ощущения от отзывчивости системы и приложений. Не говоря уже о скорости сборки тяжелых проектов.
Но все равно создать свой процессор, даже 4-летней давности это хорошее достижение.
EntityFX Автор
Ради интереса выживал полгода на Байкал-М 8 ядер 1.5 ГГц, работал в Rider и Visual Studio Code, звонил в Teams -- производительности хватало (было установлено 8 ГБ ОЗУ, памяти вот не хватало).
EntityFX Автор
Нет современного процессора в наличии, пользуюсь Core i7 3770K. Остальное где выхватил или другие энтузиасты предоставили.