После публикации первой части и практического опыта, сделал небольшие доработки в свой онлайн инструмент для сравнения двух Excel , также можно сравнить Excel и CSV файлы без преобразований.
Начну с небольшого вступления, почему я начал делать данный инструмент. Я работаю инженером данных и довольно многое автоматизировал в своей работе. В последнее время я занимаюсь миграцией различных скриптов из SAS в Databricks. Для сравнения таблиц есть несколько готовых инструментов типа datacompy, а также свои наработки. Там всё просто, можно преобразовать любые форматы и сравнить. Но вот появилась необходимость сравнить Excel, как результат работы скрипта и CSV выгруженный из Databricks. Есть несколько способов сделать это:
Загрузить Excel в датабрикс через pandas и сравнить две таблицы, но нужно правильно определять форматы и тд. Долго и лениво. Также из минусов это результат выводится в виде таблицы через .display() и нужно глазами искать расхождения.
Также можно открыть всё в Excel, преобразовать даты в один формат, прописать формулы и тд. Долго и под каждый новый файл необходимо всё прописывать заново. Нужно создавать агрегирующие таблицы с результатами.
В итоге решил попробовать сделать сайт для сравнения, который ничего не куда не загружает и сравнивает всё в оперативной памяти. Мне встречались комментарии, что нужно делать оффлайн инструмент. На мой взгляд в exe файл можно спрятать всё что угодно и вы даже не будете знать, что он делает. А во-вторых, на проектах часто закрыта возможность устанавливать новый софт. У сайта даже нет сервера, весь код лежит в GitHub, к которому подключен домен.
Какие проблемы он решает на данный моент:
Сравнить можно как два Excel файла так Exceд и CSV. Также можно выбрать вкладки для сравнения.
Перед сравнением все форматы дат приводятся к единому формату.
Все названия столбцов приводятся к верхнему регистру.
Для сравнения не важен порядок строк.
Также столбцы в двух файлах могут быть в разном порядке.
В конце мы получаем итоговую таблицу с расхождениями.
Также есть подробная таблица с визуальной раскраской в различии строк.
Можно исключить из сравнения столбцы, чтобы убедится что только в нём проблема.
Также теперь появилась возможность Экспортировать итоговую таблицу сравнения вместе с раскрашенными различиями.
Вот пример двух файлов, которые мы сейчас сравниим:


Как видим даты имеют разный формат и колонки в разном порядке. Выбираем файлы и нажимаем сравнить:


Для меня это удобный инструмент, если нужно быстро и без заморочек сравнить два Excel файла, визуально быстро найти отличия и отправить кому-то таблицу с различями,
Если вам данный инструмент окажется полезным, достаточно поставить плюс посту, или написать комментарий чего ещё не хватает.