Автор статьи: Александр Колесников

Вирусный аналитик

Одна из самых сложных и интересных задач, с которыми сталкивается реверс инженер — это анализ бинарных файлов. Зачастую это может быть просто уже известный формат, и интерес с точки зрения анализа здесь появляется в тот момент, когда нужно написать свой просмотрщик и/или сделать более наглядной структуру файла. В данной статье попробуем проанализировать несколько бинарных файлов.

Основные понятия для начинающих

Любой кусочек информации в компьютере записан в двоичном формате, поэтому для того чтобы сохранить что-то полезное, нужно информацию преобразовать в этот самый вид. Для понимания что именно скрывается в бинарных файлах критически важно:

  • не бояться читать большое количество цифр.

  • понимать зачем и как структурированы цифры внутри файла.

Основной единицей представления данных, которые обычно используют для того чтобы хотя бы приблизительно продемонстрировать информацию в "сыром" виде, являются байты. Выглядеть это может вот так:

Просто так прочитать такую информацию практически невозможно, однако, были придуманы специальные правила, какие именно данные должны находиться на какой позиции в файле. То есть это все еще просто нули и единицы, просто их скомпоновали так, чтобы было проще читать.

Что за правила используют для описания файла? Это спецификации форматов файлов, их можно найти в сети, обычно формат файла разрабатывается для ОС, либо для конкретного программного обеспечения. В обоих случаях ресурсы разработчиков софта должны содержать спецификацию. Попробуем найти спецификацию для формата файлов PE, которые используются для работы приложений в ОС Windows. Вот здесь лежит эта самая спецификация. Обычно это очень массивное писание, где по каждому параметру есть хотя бы общие замечания. Что можно или нужно сохранять, но эти правила не носят обязательный характер, так как сам разработчик программного обеспечения может отдельные параметры в файлах использовать под свои задачи. Поэтому в сети очень часто можно найти исследования обычных форматов файлов, но там будет описываться какая‑то особенность, которую не записали в спецификации.

Стоит так же отметить, что даже сами разработчики для более простого восприятия бинарного формата файла могут представлять его в виде таблицы. Это только общее представление которое позволяет добавить визуальную составляющую или некую абстракцию, чтобы проще было создавать парсеры для разбора таких файлов. Кстати вот здесь можно найти у самих MS схематичное представление PE файла когда он хранится на диске и когда попадает в оперативную память.

Давайте попробуем рассмотреть инструменты для быстрого просмотра файлов, которые есть в наличии.

Инструменты для просмотра структуры и данных

Универсальным способом просмотра бинарных файлов является открытие файлов с помощью шестнадцатеричного рекдатора. Одними из наиболее популярных в этой области являются:

  • 010 Hex Editor

  • Hiew

  • WinHex Editor

Этими инструментами можно пользоваться в двух случаях. Первый — если для написания своего разборщика нужно понять что именно записано в файле. Второй случай — у некоторых приложений есть функции разметки файла. Попробуем как раз задействовать второй вариант.

Для теста возьмем вот этот файл. Откроем его в Hiew:

Это приложение позволяет смотреть сырые данные, но так же содержит дизассемблер, поэтому если мы будем смотреть бинарный файл, в котором есть команды для процессора, то возможно их увидеть. Для этого достаточно нажать кнопку Enter.

В общем‑то процедура рассмотрения файла закончена, но это далеко не все возможности. Hiew так же поддерживает плагины, поэтому можно проводить дополнение функционала. Плагинов на самом деле существует очень много, но для нашей статьи наиболее интересен вот этот. Это плагин, который собрали на основе фреймворка для разбора форматов файлов и сетевых протоколов KaiTai Struct. Что же умеет этот плагин? Посмотрим на файл через него. Делать дополнительных настроек не нужно, достаточно просто скопировать файл hem из репозитория в директорию с hiew и открыть файл. Чтобы убедиться, что все работает как нужно, нажмите кнопку F11. Должен появиться список плагинов, который показан на картинке ниже:

А теперь просто выбираем плагин и смотрим, что он показывает. Как видно, у плагина есть целый список заготовленных форматов файлов, которые можно изучать с точки зрения структуры файла. Работает это так — KaiTai позволяет написать формат файла, так как это видит разработчик, а затем он самостоятельно подсвечивает отдельные части, которые могут быть подписаны или преобразованы для чтения. Выглядеть это может вот так для исполняемого файла ELF:

Теперь при наведении на определенную зону файла будет показываться её название. Это удобно, когда нужно понять какая часть файлика сейчас может быть считана приложением или просто для того чтобы понимать что записано в файл.

Попробуем на других форматах:

PNG:

PE:

Кстати, нечто подобное можно делать и для Hex 010, но там для описания формата файла можно пользоваться так называемыми шаблонами, они пишутся с помощью языка программирования C. Можно сказать, это просто заголовочный файл, который определяет структуру файла, а Hex 010 заполняет его данными. Выглядит это так:

Таким образом можно наметить структуру для будущего приложения, которое сможет просматривать отдельные характеристики файла или пытаться его прочитать и отобразить. В следующей статье попробуем разобраться с сетевыми протоколами и методами их разбора.

А сейчас приглашаю вас на бесплатный урок, в рамках которого рассмотрим способы, с помощью которых, можно перехватить API функции.

Комментарии (8)


  1. perfect_genius
    04.04.2023 15:57

    Забавно, добавление в хекс-редактор переход на новую строку как в текстовом редакторе (например, при нажатии Enter) уже само по себе сильно облегчило бы разбор внутренностей файла.
    Не знает ли кто — есть ли такой хекс-редактор?


    1. qw1
      04.04.2023 15:57

      Есть такой: https://github.com/solemnwarning/rehex/
      Но я плотно не пользовался, не могу сказать, насколько он лучше/хуже типичных утилит для разбора бинарников.


  1. crackedmind
    04.04.2023 15:57
    +2

    Из опенсорсных есть ImHex у которого тоже есть свой язык описания структур.


    1. lgorSL
      04.04.2023 15:57
      +1

      Круто, ImHex много всего умеет.

      Могу ещё https://kaitai.io/ посоветовать.


      1. perfect_genius
        04.04.2023 15:57

        В тексте он упомянут.


    1. DrGluck07
      04.04.2023 15:57

      За ImHex спасибо. Давно хотел что-то такое опенсорсное.

      Поставил, удивился настройке интерфейса "FPS Limit". Первый раз вижу такое в обычном редакторе.


      1. crackedmind
        04.04.2023 15:57

        ибо он использует imgui, а он обычно в opengl/directx/vulkan рисуется с аппаратным ускорением)


        1. DrGluck07
          04.04.2023 15:57

          Жаль только эта штука падает в разных местах