Введение
Иногда, и чаще всего спонтанно, у меня появляется дикое желание реализовывать что-либо на языке ассемблера, а потом прикручивать это "что-либо" на уровни выше. Так например, ранее из-за такого желания я написал сначала стековую виртуальную машину, которая могла принимать в себя байт-код и непосредственно его исполнять, далее написал ассемблер, который мог бы транслировать язык ассемблера в этот самый байт-код, а после и написал высокоуровневый LISP-подобный язык, который компилировался в ассемблерный код ранее написанной виртуальной машины.
И примерно на такой же реактивной тяге желания у меня появилась идея реализовать с нуля функцию printf, которую можно было бы далее подключать к языку Си и пользоваться ею на здоровье без стандартных библиотек. И здесь можно задаться вполне логичным вопросом - зачем и для чего? Для этого вопроса я подготовил два ответа: 1) просто было интересно; 2) printf может помочь студентам, изучающим ассемблер.
Второй пункт всё же требует более детальных пояснений. На предметах ОАиП (основы алгоритмизации и программирования) или ААС (архитектура аппаратных средств) студентам иногда может потребоваться написать что-либо на языке ассемблера, чтобы сдать успешно лабораторную работу. И когда появляются ошибки, то студент может потратить несколько минут/часов на поиск бага. С отладчиками не все умеют работать, но с принтами все справляются отлично. И данный printf может как раз выполнять эту самую роль - чтобы буквально выводить числа, строки, символы хранимые в регистрах.
Реализация
Наш printf будет минималистичным и ограниченным лишь тремя-четырьмя спец-символами: %s
, %c
, %d
и %%
. Я не стал писать реализацию с плавающими числами %f
, а также удалил реализации с %x
(hex, 16-ыми), %o
(oct, 8-ыми) и %b
(bin, 2-ыми) числами, чтобы конечный код можно было легко понять и прочитать. Также весь нижеизложенный код не будет претендовать на оптимизированность вычислений, скорее даже наоборот, он будет действовать исключительно ради простоты своего объяснения.
Первое с чего следует начать - это непосредственно с самой печати символов, а следовательно с системных вызовов. Весь последующий код будет представлен на Linux платформе с 64-битной архитектурой. Но не стоит пугаться того факта, если у вас ОС не является Linux'ом. Суть заключается в том, что в моей реализации обращение к системным вызовам происходит лишь из одной части кода. Весь же оставшийся код - это чистый алгоритм. Следовательно, чтобы код заработал на другой платформе, например Windows, необходимо будет изменить лишь эту малую часть кода, не затрагивая при этом всё остальное.
Функция печати одного символа у нас будет выглядеть следующим образом. На этой функции все дальнейшие системные вызовы собственно и заканчиваются. Таким образом, если код будет адаптироваться под другую платформу, то всё что необходимо будет сделать - это переписать print_char
.
section '.print_char' executable
; | input
; rax = char
print_char:
push rax
push rdx
push rsi
push rdi
push rax
mov rsi, rsp ; начало области памяти
mov rdi, 1 ; 1 байт
mov rdx, 1 ; stdout
mov rax, 1 ; write
call do_syscall
pop rax
pop rdi
pop rsi
pop rdx
pop rax
ret
section '.do_syscall' executable
do_syscall:
; syscall rewrite (rcx, r11)
push rcx
push r11
syscall
pop r11
pop rcx
ret
В архитектуре amd64 нет инструкций по подобию pusha / popa, которые бы автоматически загрузили значения регистров в стек и выгрузили их, поэтому приходится делать всё вручную. Далее, значение регистра rax кладётся в стек, для того, чтобы 64-битный системный вызов смог успешно считать один символ из стека. Более подробно с большинством системных вызовов под Linux x86-64 можно ознакомиться здесь.
Системный вызов syscall был обёрнут в отдельную процедуру do_syscall. Суть такого манёвра заключается в том, что 64-битный syscall изменяет неявно регистры rcx и r11, что может в будущем повлиять на некорректную работу.
Пример работы `print_char`
Код
; main.asm
format ELF64
public _start
section '.text' executable
_start:
mov rax, 'h'
call print_char
mov rax, 'e'
call print_char
mov rax, 'l'
call print_char
mov rax, 'l'
call print_char
mov rax, 'o'
call print_char
mov rax, 0xA
call print_char
exit:
mov rax, 60
xor rdi, rdi
syscall
section '.print_char' executable
; | input
; rax = char
print_char:
push rax
push rdx
push rsi
push rdi
push rax
mov rsi, rsp
mov rdi, 1
mov rdx, 1
mov rax, 1
call do_syscall
pop rax
pop rdi
pop rsi
pop rdx
pop rax
ret
section '.do_syscall' executable
do_syscall:
push rcx
push r11
syscall
pop r11
pop rcx
ret
Запуск
$ fasm main.asm && ld main.o -o main && ./main
flat assembler version 1.73.31 (16384 kilobytes memory, x64)
3 passes, 1168 bytes.
hello
Теперь из печати одного символа мы можем выразить печать целой строки. Хоть системный вызов write и может вывести сразу всю строку, что несомненно уменьшает итоговое количество затратных системных вызовов, тем не менее, вывод строки из посимвольного вывода символов даёт два преимущества: 1) вывод строки становится независим от системных вызовов; 2) нам не нужна доп. информация в лице количества символов в строке - достаточно будет читать лишь до нулевого символа (старый добрый Сишный стиль).
section '.print_string' executable
; | input
; rax = string
print_string:
push rbx
xor rbx, rbx
.next_iter:
cmp [rax+rbx], byte 0
je .close
push rax
mov rax, [rax+rbx]
call print_char
pop rax
inc rbx
jmp .next_iter
.close:
pop rbx
ret
Алгоритм процедуры print_string
крайне прост:
Прочитать i-ый символ в строке,
Если i-ый символ равен нулевому, тогда закрыть выполнение,
Напечатать символ (print_char),
Инкрементировать значение i,
Перейти на пункт [1].
Пример работы `print_string`
Код
; main.asm
format ELF64
public _start
section '.data' writeable
string db "hello", 0xA, 0
section '.text' executable
_start:
mov rax, string
call print_string
exit:
mov rax, 60
xor rdi, rdi
syscall
section '.print_string' executable
; | input
; rax = string
print_string:
push rbx
xor rbx, rbx
.next_iter:
cmp [rax+rbx], byte 0
je .close
push rax
mov rax, [rax+rbx]
call print_char
pop rax
inc rbx
jmp .next_iter
.close:
pop rbx
ret
section '.print_char' executable
; | input
; rax = char
print_char:
push rax
push rdx
push rsi
push rdi
push rax
mov rsi, rsp
mov rdi, 1
mov rdx, 1
mov rax, 1
call do_syscall
pop rax
pop rdi
pop rsi
pop rdx
pop rax
ret
section '.do_syscall' executable
do_syscall:
push rcx
push r11
syscall
pop r11
pop rcx
ret
Запуск
fasm main.asm && ld main.o -o main && ./main INT ✘
flat assembler version 1.73.31 (16384 kilobytes memory, x64)
4 passes, 1240 bytes.
$ hello
Таким образом, мы реализовали уже вывод символа, вывод строки и остаётся реализовать лишь вывод числа и после уже всё это имплементировать в printf функцию. Вывод числа представляет собой более сложную процедуру, потому как нужно не только печатать посимвольно цифра-за-цифрой всё число, но и также учитывать какое число - отрицательное или положительное.
section '.print_decimal' executable
; | input:
; rax = number
print_decimal:
push rax
push rbx
push rcx
push rdx
xor rcx, rcx
cmp rax, 0
jl .is_minus
jmp .next_iter
.is_minus:
neg rax
push rax
mov rax, '-'
call print_char
pop rax
.next_iter:
mov rbx, 10
xor rdx, rdx
div rbx
push rdx
inc rcx
cmp rax, 0
je .print_iter
jmp .next_iter
.print_iter:
cmp rcx, 0
je .close
pop rax
add rax, '0'
call print_char
dec rcx
jmp .print_iter
.close:
pop rdx
pop rcx
pop rbx
pop rax
ret
Алгоритм процедуры print_decimal
следующий:
Если число меньше нуля, тогда напечатать символ минус,
Разделить число на 10, взять частное и остаток от деления,
Положить остаток в стек,
Инкрементировать значение i,
Если частное не равно 0, тогда перейти на пункт [2],
Если значение i равно 0, тогда закрыть выполнение,
Выгрузить число из стека (остаток),
Прибавить к остатку символ '0' (число 48 по ASCII),
Напечатать получившийся символ (print_char),
Декрементировать значение i,
Перейти на пункт [6].
В этой реализации стоит учитывать один момент - процедура print_decimal
работает с 64-битными числами, а следовательно и отрицательное число она будет трактовать лишь когда таковое будет 64-битным. В противном случае, если число 32-битное отрицательное, то оно со стороны 64-битного числа будет трактоваться как unsigned, то есть число без знака.
Пример работы `print_decimal`
Код
; main.asm
format ELF64
public _start
section '.text' executable
_start:
mov rax, 571
call print_decimal
mov rax, 0xA
call print_char
exit:
mov rax, 60
xor rdi, rdi
syscall
section '.print_decimal' executable
; | input:
; rax = number
print_decimal:
push rax
push rbx
push rcx
push rdx
xor rcx, rcx
cmp rax, 0
jl .is_minus
jmp .next_iter
.is_minus:
neg rax
push rax
mov rax, '-'
call print_char
pop rax
.next_iter:
mov rbx, 10
xor rdx, rdx
div rbx
add rdx, '0'
push rdx
inc rcx
cmp rax, 0
je .print_iter
jmp .next_iter
.print_iter:
cmp rcx, 0
je .close
pop rax
call print_char
dec rcx
jmp .print_iter
.close:
pop rdx
pop rcx
pop rbx
pop rax
ret
section '.print_char' executable
; | input
; rax = char
print_char:
push rax
push rdx
push rsi
push rdi
push rax
mov rsi, rsp
mov rdi, 1
mov rdx, 1
mov rax, 1
call do_syscall
pop rax
pop rdi
pop rsi
pop rdx
pop rax
ret
section '.do_syscall' executable
do_syscall:
push rcx
push r11
syscall
pop r11
pop rcx
ret
Запуск
$ fasm main.asm && ld main.o -o main && ./main ✔
flat assembler version 1.73.31 (16384 kilobytes memory, x64)
4 passes, 1224 bytes.
571
И наконец-то мы приступаем к финалу - написанию функции printf. Здесь логика выполнения уже достаточно простая, потому как основные алгоритмические действия были выполнены. Остаётся лишь добавить все вышеописанные функции в одну композицию.
section '.printf' executable
; | input:
; rax = format
; stack = values
; | output:
; rax = count
printf:
push rbx
push rcx
; call/ret = 8byte
; rax+rbx+rcx = 24byte
mov rbx, 32
; count of format elements
xor rcx, rcx
.next_iter:
cmp [rax], byte 0
je .close
cmp [rax], byte '%'
je .special_char
jmp .default_char
.special_char:
inc rax
cmp [rax], byte 's'
je .print_string
cmp [rax], byte 'd'
je .print_decimal
cmp [rax], byte 'c'
je .print_char
cmp [rax], byte '%'
je .default_char
jmp .is_error
.print_string:
push rax
mov rax, [rsp+rbx]
call print_string
pop rax
jmp .shift_stack
.print_decimal:
push rax
mov rax, [rsp+rbx]
call print_decimal
pop rax
jmp .shift_stack
.print_char:
push rax
mov rax, [rsp+rbx]
call print_char
pop rax
jmp .shift_stack
.default_char:
push rax
mov rax, [rax]
call print_char
pop rax
jmp .next_step
.shift_stack:
inc rcx
add rbx, 8
.next_step:
inc rax
jmp .next_iter
.is_error:
mov rcx, -1
.close:
mov rax, rcx
pop rcx
pop rbx
ret
Несмотря на более масштабное количество кода в сравнении с прошлыми кодами, логика остаётся простой:
Прочитать i-ый символ в строке,
Если символ равен %, тогда перейти на пункт [7],
Если символ равен нулю, тогда завершить выполнение,
Иначе, напечатать i-ый символ,
Инкрементировать значение i,
Перейти на пункт [1],
Инкрементировать значение i,
Если i-ый символ равен %, тогда напечатать его,
Если i-ый символ равен d, тогда взять из стека значение и напечатать число (print_decimal),
Если i-ый символ равен s, тогда взять из стека значение и напечатать строку (print_string),
Если i-ый символ равен c, тогда взять из стека значение и напечатать символ (print_char),
Иначе, вернуть ошибку и перейти на пункт [3],
Инкрементировать значение i,
Перейти на пункт [1].
В этом алгоритме я не рассказал лишь об одном действии - подсчёте количества обработанных формат-строк, то есть %c
, %s
, %d
, %%
.
Пример работы `printf`
Код
; main.asm
format ELF64
public _start
extrn printf
section '.data' writeable
input db "{ %s, %d%c }", 0xA, 0
string db "hello", 0
decimal dq 571
symbol dq '!'
section '.text' executable
_start:
mov rax, input
push [symbol]
push [decimal]
push string
call printf
exit:
mov rax, 60
xor rdi, rdi
syscall
; printf.asm
format ELF64
include "print_decimal.asm"
include "print_string.asm"
include "print_char.asm"
public printf
section '.printf' executable
; | input:
; rax = format
; stack = values
; | output:
; rax = count
printf:
push rbx
push rcx
; call/ret = 8byte
; rax+rbx+rcx = 24byte
mov rbx, 32
; count of format elements
xor rcx, rcx
.next_iter:
cmp [rax], byte 0
je .close
cmp [rax], byte '%'
je .special_char
jmp .default_char
.special_char:
inc rax
cmp [rax], byte 's'
je .print_string
cmp [rax], byte 'd'
je .print_decimal
cmp [rax], byte 'c'
je .print_char
cmp [rax], byte '%'
je .default_char
jmp .is_error
.print_string:
push rax
mov rax, [rsp+rbx]
call print_string
pop rax
jmp .shift_stack
.print_decimal:
push rax
mov rax, [rsp+rbx]
call print_decimal
pop rax
jmp .shift_stack
.print_char:
push rax
mov rax, [rsp+rbx]
call print_char
pop rax
jmp .shift_stack
.default_char:
push rax
mov rax, [rax]
call print_char
pop rax
jmp .next_step
.shift_stack:
inc rcx
add rbx, 8
.next_step:
inc rax
jmp .next_iter
.is_error:
mov rcx, -1
.close:
mov rax, rcx
pop rcx
pop rbx
ret
; print_char.asm
section '.print_char' executable
; | input
; rax = char
print_char:
push rax
push rdx
push rsi
push rdi
push rax
mov rsi, rsp
mov rdi, 1
mov rdx, 1
mov rax, 1
call do_syscall
pop rax
pop rdi
pop rsi
pop rdx
pop rax
ret
section '.do_syscall' executable
do_syscall:
; syscall rewrite (rcx, r11)
push rcx
push r11
syscall
pop r11
pop rcx
ret
; print_string.asm
section '.print_string' executable
; | input
; rax = string
print_string:
push rbx
xor rbx, rbx
.next_iter:
cmp [rax+rbx], byte 0
je .close
push rax
mov rax, [rax+rbx]
call print_char
pop rax
inc rbx
jmp .next_iter
.close:
pop rbx
ret
; print_decimal.asm
section '.print_decimal' executable
; | input:
; rax = number
print_decimal:
push rax
push rbx
push rcx
push rdx
xor rcx, rcx
cmp rax, 0
jl .is_minus
jmp .next_iter
.is_minus:
neg rax
push rax
mov rax, '-'
call print_char
pop rax
.next_iter:
mov rbx, 10
xor rdx, rdx
div rbx
push rdx
inc rcx
cmp rax, 0
je .print_iter
jmp .next_iter
.print_iter:
cmp rcx, 0
je .close
pop rax
add rax, '0'
call print_char
dec rcx
jmp .print_iter
.close:
pop rdx
pop rcx
pop rbx
pop rax
ret
Запуск
$ fasm main.asm && fasm printf.asm
flat assembler version 1.73.31 (16384 kilobytes memory, x64)
1 passes, 816 bytes.
flat assembler version 1.73.31 (16384 kilobytes memory, x64)
6 passes, 1592 bytes.
$ ld main.o printf.o -o main
$ ./main
{ hello, 571! }
Таким образом, мы успешно написали функцию printf. Пожалуй из нюансов данной реализации здесь только тот момент, что printf читает аргументы не сверху-вниз, а наоборот - снизу-вверх. Связано это непосредственно с тем, что в качестве аргументов мы использовали стек, где последнее внесённое значение в стек являлось первым взятым из стека. Иными словами, нами использовалась структура LIFO (last in, first out). Данный момент не настолько критичен, как может показаться на первый взгляд. Со стороны высокоуровневых языков, а именно Сишки, его можно будет исключить.
Подключаем printf к языку Си
Основной нашей целью в данном разделе будет являться вызов функции printf без использования стандартной библиотеки языка Си. Задача лёгкая и сводится лишь к соблюдению ABI (application binary interface) со стороны Сишного компилятора. В моём случае это компилятор gcc. Трактовка правил ABI для совместного использования процедур языка ассемблера и Сишных процедур следующая:
Первые шесть аргументов должны находиться в регистрах: rdi, rsi, rdx, rcx, r8, r9,
Оставшиеся аргументы должны помещаться в стек,
Возвращаемое значение должно помещаться в rax.
Для таких правил нам будет нужно создать процедуру-обёртку под уже имеющуюся функцию printf. Назовём эту обёрточную функцию как c_printf
.
; c_printf.asm
format ELF64
extrn printf
public c_printf
section '.c_printf' executable
c_printf:
pop r10
push r9
push r8
push rcx
push rdx
push rsi
mov rax, rdi
call printf
pop rsi
pop rdx
pop rcx
pop r8
pop r9
push r10
ret
Здесь происходит всё по логике ABI, но значения в стек кладутся в обратном порядке. Теперь, если мы вспомним как реализована нами написанная процедура printf, то такое поведение играет нам лишь на пользу, потому как со стороны Сишного кода аргументы будут идти слева-направо, собственно как и нужно.
Помимо чисел в стеке здесь также присутствует некий хак в лице регистра r10 и комбинации инструкций call / ret. Суть этого хака в том, что ABI читает все последующие аргументы уже из стека, но в стеке у нас в качестве седьмого элемента хранилось бы не нужное значение, а адрес возврата, которое ставит call и к которому обращается ret. Данное значение необходимо для правильной работы, поэтому здесь я жертвую регистром r10.
Далее, если мы будем компилировать Сишный код с опцией -nostdlib
, то у нас сбросятся все точки входа (то есть функция main), а также если таковая будет являться точкой входа, то при возвращении нуля она не будет вызывать автоматического завершения всего цикла программы, а потому последующее поведение будет UB (undefined behaviour). С этой целью нам также нужно реализовать процедуру c_exit
, которая бы завершала выполнение программы аналогично функции main с кодом результата.
; c_exit.asm
format ELF64
public c_exit
section '.c_exit' executable
c_exit:
mov rax, 60
syscall
В регистр rdi со стороны Сишного кода передастся значение и оно сразу же будет интерпретироваться системным вызовом. Поэтому здесь нам не нужно ничего писать кроме самого номера системного вызова = 60 (exit).
Перфекционистам не читать!
На самом деле есть небольшой минус в метке c_exit
. Это есть не что иное, как метка, но Си будет вызывать c_exit как процедуру через инструкцию call, а не jmp. Из-за этого в стек будет помещаться лишнее значение. Фактически оно никак не влияет ни на выполнение, ни на завершение работы, но просто потрепать нервы перфекционистам может.
И теперь, всё что нам остаётся сделать - это написать Сишный код, который бы вызывал две ассемблерные процедуры: c_printf
и c_exit
.
// main.c
typedef long long int int64_t;
extern void c_exit(int ret);
extern int64_t c_printf(char *fmt, ...);
void _start(void) {
char *string = "hello";
int64_t decimal = 571;
char symbol = '!';
int64_t ret = c_printf(
"{ %s, %d%c }\n",
string, decimal, symbol
);
c_printf("%d\n", ret); // 3
c_exit(0);
}
Стоит здесь заметить следующие специфичные детали:
Я использую тип int64_t в качестве возвращаемого значения функцией
c_printf
, в то время как оригинальная функция возвращает значение типа int. Связано это непосредственно с тем, чтобыc_printf
на 16 строчке мог выводить отрицательные числа, если произойдёт ошибка форматирования. Связано это с тем, что %d в нашей реализации есть число 64-битное,Вместо функции main используется функция _start. Связано это с тем, что при опции компилирования
-nostdlib
пропадает точка входа в лице функции main. Таким образом, мы фактически обращаемся к первичной точке входа _start напрямую.Стандартная функция
printf
возвращает количество всех напечатанных символов, в то время как нами написанная процедура возвращает количество обработанных специальных символов (взаимодействующих со стеком). Иными словами, если бы использовалась стандартнаяprintf
, то вместо результата = 3, мы получили бы результат = 16.
Компилируем, линкуем, запускаем и смотрим результат.
$ fasm printf.asm && fasm c_printf.asm && fasm c_exit.asm
flat assembler version 1.73.31 (16384 kilobytes memory, x64)
6 passes, 1592 bytes.
flat assembler version 1.73.31 (16384 kilobytes memory, x64)
1 passes, 584 bytes.
flat assembler version 1.73.31 (16384 kilobytes memory, x64)
1 passes, 440 bytes.
$ gcc -nostdlib -o main printf.o c_printf.o c_exit.o main.c
$ ./main
{ hello, 571! }
3
Заключение
И вот таким образом мы успешно смогли реализовать функцию printf
на языке ассемблера FASM. Хоть данная функция является более урезанной версией в сравнении с оригинальной функцией printf, тем не менее она проста в понимании и способна легко расширяться, вбирая в себя новые функции, такие как печать чисел с плавающей точкой, чисел в формате hex, oct и т.п. Весь исходный код, с сопутствующими примерами, можно найти в репозитории Github.
Комментарии (5)
Habronavt
31.10.2023 22:28+4Тоже когда-то написал printf на ассемблере: https://github.com/minilogic/xprintf В моем случае это было сделано для микроконтроллеров с архитектурой i8051, где каждый байт на счету (в итоге вложился 500 байт памяти программ).
cdriper
31.10.2023 22:28помню, что когда сто лет назад работал с IAR под 8-ми битные AVR, там были разные варианты включения printf в библиотеку и там легко можно было добиться чуть ли не +10Kb по расходу flash памяти (возможно там начинало тянуться много еще чего, типа поддержки чисел с плавающей точкой)
AndreyDmitriev
31.10.2023 22:28Я этим летом упражнялся с AVX2/AVX512 на ассемблере, и в рамках компиляции несложной DLL библиотеки под Windows сделал это упражнение практически на всех ассемблерах, до которых смог дотянуться. Но остановился, как ни странно на EuroAssembler. Довольно любопытная, очень легковесная и в чём-то необычная штука, в учебных целях - самое оно, как по мне.
aborouhin
Усердно набивая сто первый push, автор, тем не менее, мужественно воздерживался от использования макросов :)
alxsad
дженерики надо было использовать :)