Всем привет! Мы продолжаем запуски новых потоков по уже полюбившимся вам курсам и сейчас спешим сообщить о том, что у нас стартует новый набор по курсу «Администратор Linux», который запустится в конце апреля. К этому событию и будет приурочена новая публикация. С оригиналом материала можно ознакомиться тут.

Виртуальные файловые системы выполняют роль некой волшебной абстракции, которая позволяет философии Linux говорить, что «всё является файлом».



Что такое файловая система? Опираясь на слова одного из первых контрибьюторов и авторов Linux Робера Лава, «Файловая система – это иерархическое хранилище данных, собранное в соответствии с определенной структурой». Как бы то ни было, это определение в равной мере хорошо подходит для VFAT (Virtual File Allocation Table), Git и Cassandra (база данных NoSQL). Так что именно определяет такое понятие, как «файловая система»?

Основы файловой системы

Ядро Linux имеет определенные требования к сущности, которая может считаться файловой системой. Она должна реализовывать методы open(), read() и write() для постоянных объектов, которые имеют имена. С точки зрения объектно-ориентированного программирования, ядро определяет обобщенную файловую систему (generic filesystem) в качестве абстрактного интерфейса, а эти три большие функции считаются «виртуальными» и не имеют конкретного определения. Соответственно, реализация файловой системы по умолчанию называется виртуальной файловой системой (VFS).



Если мы можем открывать, читать и записывать в сущность, то эта сущность считается файлом, как мы видим из примера в консоли сверху.
Феномен VFS лишь подчеркивает наблюдение, характерное для Unix-подобных систем, которое гласит, что «всё является файлом». Подумайте, насколько странно, что тот маленький пример сверху с /dev/console показывает, как на самом деле работает консоль. На картинке изображена интерактивная Bash сессия. Отправка строки в консоль (virtual console device) отображает ее на виртуальном экране. VFS имеет другие, еще более странные свойства. Например, она дает возможность осуществлять поиск по ним.

Знакомые нам системы, такие как ext4, NFS и /proc имеют три важные функции в структуре данных С, которая называется file_operations. Кроме того, определенные файловые системы расширяют и переопределяют функции VFS привычным объектно-ориентированным способом. Как отмечает Роберт Лав, абстракция VFS позволяет пользователям Linux беспечно копировать файлы в или из сторонних операционных систем или абстрактных сущностей, таких как pipes, не беспокоясь об их внутреннем формате данных. Со стороны пользователя (userspace) с помощью системного вызова процесс может копировать из файла в структуры данных ядра с помощью метода read() одной файловой системы, а затем использовать метод write() другой файловой системы для вывода данных.

Определения функций, которые принадлежат к базовым типам VFS, находятся в файлах fs/*.c исходного кода ядра, в то время как подкаталоги fs/ содержат определенные файловые системы. В ядре также содержатся сущности, такие как cgroups, /dev и tmpfs, которые требуются в процессе загрузки и поэтому определяются в подкаталоге ядра init/. Заметьте, что cgroups, /dev и tmpfs не вызывают «большую тройку» функций file_operations, а напрямую читают и пишут в память.
На приведенной ниже диаграмме показано, как userspace обращается к различным типам файловых систем, обычно монтируемых в системах Linux. Не показаны такие конструкции как pipes, dmesg и POSIX clocks, которые также реализуют структуру file_operations, доступ к которым проходит через слой VFS.



VFS — это «слой оболочки» между системными вызовами и реализациями определенных file_operations, таких как ext4 и procfs. Функции file_operations могут взаимодействовать либо с драйверами устройств, либо с устройствами доступа к памяти. tmpfs, devtmpfs и cgroups не используют file_operations, а напрямую обращаются к памяти.
Существование VFS обеспечивает возможность переиспользовать код, так как основные методы, связанные с файловыми системами, не должны быть повторно реализованы каждым типом файловой системы. Переиспользование кода – широкоприменяемая практика программных инженеров! Однако, если повторно используемый код содержит серьезные ошибки, от них страдают все реализации, которые наследуют общие методы.

/tmp: Простая подсказка

Простой способ обнаружить, что VFS присутствуют в системе – это ввести mount | grep -v sd | grep -v :/, что покажет все смонтированные (mounted) файловые системы, которые не являются резидентами на диске и не NFS, что справедливо на большинстве компьютеров. Одним из перечисленных маунтов (mounts) VFS, несомненно, будет /tmp, верно?



Все знают, что хранение /tmp на физическом носителе – безумие! Источник.

Почему нежелательно хранить /tmp на физическом носителе? Потому что файлы в /tmp являются временными, а устройства хранения медленнее, чем память, где создается tmpfs. Более того, физические носители более подвержены износу при перезаписи, чем память. Наконец, файлы в /tmp могут содержать конфиденциальную информацию, поэтому их исчезновение при каждой перезагрузке является неотъемлемой функцией.

К сожалению, некоторые скрипты инсталляции Linux дистрибутивов создают /tmp на устройстве хранения по умолчанию. Не отчаивайтесь, если это произошло и с вашей системой. Выполните несколько простых инструкций с Arch Wiki, чтобы это исправить, и помните о том, что память выделенная для tmpfs , становится недоступной для других целей. Другими словами, система с гигантской tmpfs и большими файлами в ней может израсходовать всю память и упасть. Другая подсказка: во время редактирования файла /etc/fstab, помните о том, что он должен заканчиваться новой строкой, иначе ваша система не загрузится.

/proc и /sys

Помимо /tmp, VFS (виртуальные файловые системы), которые наиболее знакомы пользователям Linux – это /proc и /sys. (/dev располагается в общей памяти и не имеет file_operations). Почему именно эти два компонента? Давайте разберемся в этом вопросе.

procfs создает снимок мгновенного состояния ядра и процессов, которые он контролирует для userspace. В /proc ядро выводит информацию о том, какими средствами оно располагает, например, прерывания, виртуальная память и планировщик. Кроме того, /proc/sys – это место, где параметры, настраиваемые с помощью команды sysctl, доступны для userspace. Статус и статистика отдельных процессов выводится в каталогах /proc/.



Здесь /proc/meminfo — это пустой файл, который тем не менее содержит ценную информацию.

Поведение /proc файлов показывает, какими непохожими могут быть дисковые файловые системы VFS. С одной стороны, /proc/meminfo содержат информацию, которую можно посмотреть командой free. С другой же, там пусто! Как так получается? Ситуация напоминает знаменитую статью под названием «Существует ли луна, когда на нее никто не смотрит? Реальность и квантовая теория», написанную профессором физики Корнельского университета Дэвидом Мермином в 1985 году. Дело в том, что ядро собирает статистику памяти, когда происходит запрос к /proc, и на самом деле в файлах /proc ничего нет, когда никто туда не смотрит. Как сказал Мермин, «Фундаментальная квантовая доктрина гласит, что измерение, как правило, не выявляет ранее существовавшего значения измеряемого свойства.» (А над вопросом про луну подумайте в качестве домашнего задания!)
Кажущаяся пустота procfs имеет смысл, поскольку располагающаяся там информация динамична. Немного другая ситуация с sysfs. Давайте сравним, сколько файлов размером не менее одного байта есть в /proc и в /sys.



Procfs имеет один файл, а именно экспортированную конфигурацию ядра, которая является исключением, поскольку ее нужно генерировать только один раз за загрузку. С другой стороны, в /sys лежит множество более объемных файлов, многие из которых занимают целую страницу памяти. Обычно файлы sysfs содержат ровно одно число или строку, в отличие от таблиц информации, получаемой при чтении таких файлов, как /proc/meminfo.

Цель sysfs – предоставить свойства доступные для чтения и записи того, что ядро называет «kobjects» в userspace. Единственная цель kobjects – это подсчет ссылок: когда удаляется последняя ссылка на kobject, система восстановит ресурсы, связанные с ним. Тем не менее, /sys составляет большую часть знаменитого «stable ABI для userspace» ядра, которое никто никогда, ни при каких обстоятельствах не может «сломать». Это не означает, что файлы в sysfs статичны, что противоречило бы подсчету ссылок на нестабильные объекты.
Стабильный двоичный интерфейс приложений ядра (kernel's stable ABI) ограничивает то, что может появиться в /sys, а не то, что на самом деле присутствует в данный конкретный момент. Листинг разрешений на файлы в sysfs обеспечивает понимание того, как конфигурируемые параметры устройств, модулей, файловых систем и т.д. могут быть настроены или прочитаны. Делаем логический вывод, что procfs также является частью stable ABI ядра, хотя это не указано явно в документации.



Файлы в sysfs описывают одно конкретное свойство для каждой сущности и могут быть читаемыми, перезаписываемыми или и то и другое сразу. «0» в файле говорит о том, что SSD не может быть удален.

Вторую часть перевода начнем с того, как наблюдать за VFS с помощью инструментов eBPF и bcc, а сейчас ждем ваши комментарии и традиционно приглашаем на открытый вебинар, который уже 9 апреля проведет наш преподаватель — Владимир Дроздецкий.

Комментарии (17)


  1. chupasaurus
    03.04.2019 14:11

    К сожалению, некоторые (примером у меня был popcorn-desktop) думают иначе насчёт /tmp и забрасывают туда гигабайтные файлы (а тот самый popcorn-desktop — торрент-клиент, и удаляет скачанное только при закрытия программы).


    1. pda0
      03.04.2019 16:18

      А не надо от свапа отказываться. Тогда tmpfs не проблема.


      1. chupasaurus
        03.04.2019 16:30

        Тогда смысл в VFS, если не только данные упадут на диск, но ещё и можем пару приложений отправить страдать если у вас своп не на NVMe SSD.


        1. pda0
          03.04.2019 22:52

          Как бы вам сказать, 90-е кончились. Современный Linux не использует подкачку как это делает Windows 95. То, что падает в swap не удаляется из памяти. Оно лишь может быть резко выброшено, если возникнет срочная потребность в памяти. При достатке памяти для повседневных задач, как и должно быть у вас, если вы отказываетесь от него, у вас не возникнет тормозов. Зато можно будет пользоваться преимуществами его наличия, спокойно используя tmpfs и не беспокоясь, что туда кто-нибудь понапишет гигабайтов.


          1. chupasaurus
            04.04.2019 03:00

            То, что падает в swap не удаляется из памяти.
            Зато то, что падает в swap, обычно из него уже не возвращается.
            При достатке памяти для повседневных задач, как и должно быть у вас, если вы отказываетесь от него, у вас не возникнет тормозов.
            Пример я уже дал, возможность хапнуть гигабайты в /tmp в моих повседневных задачах предостаточно, благо SATA SSD прекрасно справляется. И swap у меня есть, просто кроме ядра, которому он нужен, никто туда и не попадает. Problem solved.


            1. ivanrt
              04.04.2019 15:21

              Хозяин — барин. Преимущества tmpfs + swap — нет журналирования данных/метаданных, не нужно писать на диск изменения списка блоков/каталогов. В простых случаях запись на диск вообще не производится и происходит гораздо быстрее SSD. tmpfs + swap на SSD замечательно справляются в моих повседневных задачах.


              1. glowingsword
                06.04.2019 22:20

                А у меня и swap нет. Если пару гигов упадёт в tmpfs — не страшно, так как памяти свободной хватает. В наше время на ПК(а часто и на ноут) проще воткнуть памяти побольше, чем терпеть тормоза при резкой активации файла подкачки.


          1. ValdikSS
            06.04.2019 11:31

            При достатке памяти для повседневных задач, как и должно быть у вас, если вы отказываетесь от него, у вас не возникнет тормозов.
            Увы, на современных ядрах система встает колом, и почти ничего сделать нельзя.
            bugzilla.kernel.org/show_bug.cgi?id=196729


            1. pda0
              06.04.2019 20:14

              Трудно пока сказать почему у него такое происходит, я с таким не сталкивался, но он с самого начала признаётся, что у него не хватает памяти (без свапа приходит OOMKiller), т.е. он по определению работает с недостатком ресурсов.


              1. ValdikSS
                06.04.2019 20:15

                Вы про автора бага? У меня то же самое, достаточно открыть много программ.


                1. pda0
                  06.04.2019 20:24

                  Тоже на нехваткe памяти? (Когда без свапа OOM будет?) В Windows 9x был эффект (у которого было красивое английское название, но я его забыл), когда при свапе производительность резко проваливалась из-за того, что страницы постоянно выгружались, чтобы дать работать одному процессу и тут же загружались, чтобы дать поработать другому, вызывая толчею и затык на шине IDE. Возможно здесь есть похожий эффект, когда в свап попадают страницы критически важных для десктопа процессов, вызывая их блокировку и какие-нибудь отвалы по timeout. В конце-концов выбор страниц для помещения в свап — эвристика, а у эвристик могут появляться худшие случаи.
                  В качестве попытки решения могу предложить параллельно настроить zswap, отдав ему четверть или даже треть памяти и назначить ему большие приоритет, чем свапу на ssd. По идее сжатый свап в памяти не сможет создавать таких затыков и ситуация может сильно сгладиться.


                  1. ValdikSS
                    06.04.2019 21:10

                    Это называется thrashing.
                    Я пробовал уже все что можно, и zram, и zswap. На ядре 4.9 ещё сносно, на ядрах новее — невозможно пользоваться. На Windows гораздо лучше работает система при недостатке памяти.
                    Вот человек не может использовать Linux на планшете с 1 ГБ RAM, т.к. всё тормозит сразу после установки — www.reddit.com/r/linux/comments/94u116/gnulinux_on_12gb_ram_tablets_how_it_really_works
                    А вот человек пытается это починить — gist.github.com/constantoverride/84eba764f487049ed642eb2111a20830


    1. kenjichka
      04.04.2019 10:47

      Поддержу и дополню: «некоторые» делают так, что, даже при перезагрузке ОС, в /tmp (в случае когда раздел на блочном устройстве, а не в памяти) не очищается и на кой-то ляд хранят в этой точке монтирования временные (возможно для них «время» — понятие относительное :-) ) файлы.


      1. bliznezz
        04.04.2019 14:24

        Современный systemd это подчистит согласно настройкам в tmpfiles.d.


  1. zorn_v
    03.04.2019 19:09
    +3

    Все знают, что хранение / tmp на физическом носителе – безумие!

    «Все» — это лично Вы?
    Очень приятно словить «глюк» если «не подрасчитал» — пример выше показателен.
    Как kubuntu может ввести ступор обычный firefox когда сожрет всю память, если открывать что попало (например гиговые html :)) я не по наслышке знаю.


    1. 027
      04.04.2019 21:03

      У меня как-то основной процесс firefox выжрал 12 с лишним гигабайт и полез в своп. Система колом, гуй не откликается, кое как в tty1 смог разглядеть, что происходит, и убить процесс. А своп, между прочим, на ssd Samsung 740, нон пенис канина.
      Никаких гиговых хтмль, пару суток несколько роликов в ютубе стояли на паузе, и вдруг у лисы случилась течка.
      Квантум такой квантум.


  1. trapwalker
    04.04.2019 17:44
    +1

    Вот не хватает понятных простых примеров. Рассказали бы про замечательный PingFS, про то, как быстренько на питончике превратить в файловую систему что угодно (скажем текстовый файл с выхлопом `ls -Rs`), как примонтировать tar-файл или ftp в качестве каталога…
    Практической пользы и понимания от таких примеров было бы в разы больше.