После публикации первой части и практического опыта, сделал небольшие доработки в свой онлайн инструмент для сравнения двух Excel , также можно сравнить Excel и CSV файлы без преобразований.

Начну с небольшого вступления, почему я начал делать данный инструмент. Я работаю инженером данных и довольно многое автоматизировал в своей работе. В последнее время я занимаюсь миграцией различных скриптов из SAS в Databricks. Для сравнения таблиц есть несколько готовых инструментов типа datacompy, а также свои наработки. Там всё просто, можно преобразовать любые форматы и сравнить. Но вот появилась необходимость сравнить Excel, как результат работы скрипта и CSV выгруженный из Databricks. Есть несколько способов сделать это:

  1. Загрузить Excel в датабрикс через pandas и сравнить две таблицы, но нужно правильно определять форматы и тд. Долго и лениво. Также из минусов это результат выводится в виде таблицы через .display() и нужно глазами искать расхождения.

  2. Также можно открыть всё в Excel, преобразовать даты в один формат, прописать формулы и тд. Долго и под каждый новый файл необходимо всё прописывать заново. Нужно создавать агрегирующие таблицы с результатами.

В итоге решил попробовать сделать сайт для сравнения, который ничего не куда не загружает и сравнивает всё в оперативной памяти. Мне встречались комментарии, что нужно делать оффлайн инструмент. На мой взгляд в exe файл можно спрятать всё что угодно и вы даже не будете знать, что он делает. А во-вторых, на проектах часто закрыта возможность устанавливать новый софт. У сайта даже нет сервера, весь код лежит в GitHub, к которому подключен домен.

Какие проблемы он решает на данный моент:

  1. Сравнить можно как два Excel файла так Exceд и CSV. Также можно выбрать вкладки для сравнения.

  2. Перед сравнением все форматы дат приводятся к единому формату.

  3. Все названия столбцов приводятся к верхнему регистру.

  4. Для сравнения не важен порядок строк.

  5. Также столбцы в двух файлах могут быть в разном порядке.

  6. В конце мы получаем итоговую таблицу с расхождениями.

  7. Также есть подробная таблица с визуальной раскраской в различии строк.

  8. Можно исключить из сравнения столбцы, чтобы убедится что только в нём проблема.

  9. Также теперь появилась возможность Экспортировать итоговую таблицу сравнения вместе с раскрашенными различиями.

Вот пример двух файлов, которые мы сейчас сравниим:

Excel файл
Excel файл
CSV файл
CSV файл

Как видим даты имеют разный формат и колонки в разном порядке. Выбираем файлы и нажимаем сравнить:

Для меня это удобный инструмент, если нужно быстро и без заморочек сравнить два Excel файла, визуально быстро найти отличия и отправить кому-то таблицу с различями,

Если вам данный инструмент окажется полезным, достаточно поставить плюс посту, или написать комментарий чего ещё не хватает.

Комментарии (0)