Я продемонстрирую как с помощью JavaScript прямо в браузере можно извлечь и проанализировать данные из QR кодов содержащихся в документах сформированных порталами электронного правительства Республики Казахстан (к примеру https://egov.kz).
В электронных документах присутствует следующая формулировка:
*штрих-код содержит данные, полученные из информационной системы ГБД РН и подписанные электронно-цифровой подписью Филиала НАО «Государственная корпорация «Правительство для граждан».
На сколько мне известно, готовых инструментов для извлечения и анализа данных в QR кодах не существует.
Конечную цель ставлю следующую: извлечь подписанные данные и подпись, проверить целостность подписанных данных. О проверке цифровой подписи в этой заметке речи идти не будет, только о проверке хеша. Детали проверки цифровых подписей могут быть описаны в будущем, в том случае, если публика проявит интерес к этой тематике.
Важно: эта заметка не описывает методик взлома и не помогает получать несанкционированного доступа к данным, речь будет идти о конвертации данных из одних представлений в другие.
Я покажу как обрабатывать оригинальные PDF файлы которые формируют и предоставляют для скачивания порталы электронного правительства РК. Эти PDF файлы содержат QR коды как отдельные внедренные изображения.
Экспериментировать я буду на справке об отсутствии судимости.
Я воспользуюсь следующими библиотеками:
- PDF.js для извлечения изображений из PDF документа;
- jsQR для декодирования QR кодов;
- JSZip для распаковки ZIP файлов;
- XMLDSIGjs для обработки XML;
- WebCrypto GOST (gostCrypto) для вычисления хешей и кодирования/декодирования данных.
0. Считывание PDF файла в ArrayBuffer
Получить доступ к PDF файлу возможно стандартными средствами HTML с помощью тега <input type="file">
и его атрибута files
.
В современных браузерах получить содержимое файла в виде ArrayBuffer
можно следующим образом:
const fileContents = await fileInput.files[0].arrayBuffer();
1. Извлечение изображений из PDF документа
Библиотеку PDF.js необходимо инициализировать перед началом работы, примеры приведены в документации https://mozilla.github.io/pdf.js/examples/index.html#interactive-examples
const pdfjsLib = window['pdfjs-dist/build/pdf'];
pdfjsLib.GlobalWorkerOptions.workerSrc = 'pdf.worker.js';
В PDF.js объекты описываются с точки зрения выполняемых над ними операций. Так как меня интересуют изображения, то нужно искать следующие операции:
const ops = [
pdfjsLib.OPS.paintJpegXObject,
pdfjsLib.OPS.paintImageXObject,
];
Реализация извлечения изображений со всех страниц PDF документа:
const loadingTask = pdfjsLib.getDocument(fileContents);
const pdf = await loadingTask.promise;
const objIDs = [];
const images = [];
await (async function () {
for (let pageIndex = 1; pageIndex <= pdf.numPages; pageIndex += 1) {
const page = await pdf.getPage(pageIndex);
// Страница содержит набор операторов, нужно найти интересующие.
const operators = await page.getOperatorList();
for (let i = 0; i < operators.fnArray.length; i++) {
const fn = operators.fnArray[i];
if (ops.indexOf(fn) !== -1) {
// По индексу оператора можно получить его параметры, первый параметр - идентификатор объекта.
const objID = operators.argsArray[i][0];
// Над одним и тем же объектом могут выполняться несколько операций, дубликаты не нужны.
if (objIDs.indexOf(objID) === -1) {
objIDs.push(objID);
// Объект изображения можно получить по его идентификатору.
try {
const imageInfo = page.objs.get(objID);
images.push(imageInfo);
} catch (err) {
console.log(err);
}
}
}
}
}
})()
2. Декодирование QR кодов
Библиотека jsQR поддерживает изображения только в RGBA в то время как в PDF файлы они могут быть внедрены и как RGB, потребуется функция приводящая RGB к RGBA:
function extractRGBAData(image) {
if (image.kind === 3) { // ImageKind.RGBA_32BPP из https://github.com/mozilla/pdf.js/blob/master/src/shared/util.js
return image.data;
}
if (image.kind !== 2) { // ImageKind.RGB_24BPP из https://github.com/mozilla/pdf.js/blob/master/src/shared/util.js
throw new Error(`Image kind "${image.kind}" is not supported.`);
}
const data = new Uint8ClampedArray(image.width * image.height * 4);
let destPosition = 0;
for (let srcPosition = 0; srcPosition < image.data.length;) {
data[destPosition++] = image.data[srcPosition++];
data[destPosition++] = image.data[srcPosition++];
data[destPosition++] = image.data[srcPosition++];
data[destPosition++] = 255;
}
return data;
}
Попробую декодировать все полученные изображения:
const qrCodes = [];
images.forEach((image) => {
if (image.data) {
const data = extractRGBAData(image);
try {
const code = jsQR(data, image.width, image.height);
console.log(code);
qrCodes.push(code);
} catch (err) {
console.log(err);
}
}
});
В результате в консоль браузера выведено 7 строк — по одной на каждый QR код на странице. Одна из строк содержит URL документа — QR код с ней размещен в верхней правой части документов, она меня не интересует. Остальные 6 строк содержат XML следующего формата (персональные данные удалены):
<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<BarcodeElement xmlns="http://barcodes.pdf.shep.nitec.kz/">
<creationDate>...</creationDate>
<elementData>...</elementData>
<elementNumber>1</elementNumber>
<elementsAmount>6</elementsAmount>
<FavorID>...</FavorID>
</BarcodeElement>
Из этого меня интересуют следующие теги:
<elementData>...</elementData>
— часть данных<elementNumber>1</elementNumber>
— индекс текущей части<elementsAmount>6</elementsAmount>
— общее количество частей на которые разделены данные
3. Извлечение частей данных
Для распределения частей данных по соответствующим позициям я воспользуюсь следующей функцией:
const qrCodesBlocks = [];
function addQRCodeBlock(code) {
if (!code || !code.data) {
return;
}
// Получу общее количество частей.
const elementsAmountRegexp = /<elementsAmount>((.|\r|\n)+?)<\/elementsAmount>/;
const elementsAmountResult = elementsAmountRegexp.exec(code.data);
if (!elementsAmountResult || elementsAmountResult.length <= 2) {
return;
}
const elementsAmount = +elementsAmountResult[1];
if (!Number.isSafeInteger(elementsAmount)) {
throw new Error('Не удалось извлечь общее количество частей из тега <elementsAmount>');
}
// При обработке первой части нужно инициализировать массив.
if (qrCodesBlocks.length === 0) {
for (let i = 0; i < elementsAmount; i++) {
qrCodesBlocks.push('');
}
} else {
if (qrCodesBlocks.length !== elementsAmount) {
throw new Error(`В разных QR кодах указано разное общее количество QR кодов: "${qrCodesBlocks.length}" и "${elementsAmount}"`);
}
}
// Получу индекс части.
const elementNumberRegexp = /<elementNumber>((.|\r|\n)+?)<\/elementNumber>/;
const elementNumberResult = elementNumberRegexp.exec(code.data);
if (!elementNumberResult || elementNumberResult.length < 2) {
throw new Error(`В QR коде отсутствует "<elementNumber>"`);
}
const elementNumber = +elementNumberResult[1];
if (!Number.isSafeInteger(elementNumber)) {
throw new Error(`"<elementNumber>" в QR коде не является числом`);
}
// Защита от внештатных ситуаций.
if (elementNumber > elementsAmount) {
throw new Error(`Индекс QR кода "${elementNumber}" больше общего количества QR кодов "${elementsAmount}"`);
}
if (qrCodesBlocks[elementNumber - 1] !== '') {
throw new Error(`Индекс QR кода "${elementNumber}" обнаружен более одного раза`);
}
// Помещу часть в соответствую позицию.
const elementDataRegexp = /<elementData>((.|\r|\n)+?)<\/elementData>/;
const elementDataResult = elementDataRegexp.exec(code.data);
if (!elementDataResult || elementDataResult.length < 2) {
throw new Error('В QR коде отсутствует "<elementData>"');
}
const elementData = elementDataResult[1];
qrCodesBlocks[elementNumber - 1] = elementData;
}
Осталось получить части и проверить что распределение прошло успешно.
qrCodes.forEach(addQRCodeBlock);
if (qrCodesBlocks.length === 0) {
throw new Error('Ошибка при извлечении данных из QR кодов: не обнаружено ни одного QR кода с поддерживаемыми данными');
}
const foundBlocks = qrCodesBlocks.filter((block) => !!block);
if (qrCodesBlocks.length !== foundBlocks.length) {
throw new Error('Ошибка при извлечении данных из QR кодов: не удалось получить данные всех QR кодов');
}
4. Восстановление данных
Анализ частей данных показал что это ZIP архив разрезанный на части каждая из которых закодирована в Base64.
В первую очередь нужно декодировать части из Base64:
const zippedParts = qrCodesBlocks.map(block => new Uint8Array(gostCrypto.coding.Base64.decode(block)));
Далее соединить их:
const totalLength = zippedParts.reduce((accumulator, part) => accumulator + part.length, 0);
const zippedData = new Uint8Array(totalLength);
let zippedDataIndex = 0;
zippedParts.forEach((part) => {
zippedData.set(part, zippedDataIndex);
zippedDataIndex += part.length;
});
И распаковать архив:
const zip = await JSZip.loadAsync(zippedData, { checkCRC32: true });
В архиве находится единственный файл с именем one
, его содержимое меня и интересует:
const file = zip.file('one');
if (!file) {
throw new Error('В архиве отсутствует ожидаемый файл "one"');
}
const recoveredContents = await file.async("string");
5. Подготовка данных к анализу
Восстановленные данные — это XML следующего формата (персональные данные удалены):
<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<p1001Response>
<SystemInfo>
<messageId xsi:nil="true" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"/>
<chainId>...</chainId>
<messageDate>...</messageDate>
`1`
<responseInfoRu>Запрос обработан</responseInfoRu>
<responseInfoKz>Запрос обработан</responseInfoKz>
<digiSign>...</digiSign>
</SystemInfo>
<ResponseData>
<ResponseType>UNJUDGED</ResponseType>
<Person>
<IIN>...</IIN>
<SurName>...</SurName>
<Name>...</Name>
<MiddleName>...</MiddleName>
<BirthDate>...</BirthDate>
<BirthPlace>
<Country>...</Country>
<CountryKz>...</CountryKz>
<District>...</District>
<DistrictKz>...</DistrictKz>
<City>...</City>
<CityKz>...</CityKz>
<Locality>...</Locality>
<LocalityKz>...</LocalityKz>
</BirthPlace>
</Person>
<Untried/>
<CheckDate>...</CheckDate>
</ResponseData>
</p1001Response>
Из всего перечисленного меня интересует только digiSign
— это еще один XML закодированный в Base64. На остальные данные я не обращаю внимания, так как они будут продублированы глубже.
Извлеку и декодирую внутренний XML:
const regexp = /<digiSign>((.|\r|\n)+?)<\/digiSign>/;
const regexpResult = regexp.exec(recoveredContents);
if (!regexpResult && regexpResult.length !== 2) {
throw new Error('В XML отсутствует "<digiSign>"');
}
const digiSignBytes = gostCrypto.coding.Base64.decode(regexpResult[1]);
const xmlDataAndSignature = gostCrypto.coding.Chars.encode(digiSignBytes, 'utf8');
6. Анализ данных
Содержимое внутреннего XML выглядит следующим образом (персональные данные удалены):
<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<ResponseData>
<ResponseType>UNJUDGED</ResponseType>
<Person>
<IIN>...</IIN>
<SurName>...</SurName>
<Name>...</Name>
<MiddleName>...</MiddleName>
<BirthDate>...</BirthDate>
<BirthPlace>
<Country>...</Country>
<CountryKz>...</CountryKz>
<District>...</District>
<DistrictKz>...</DistrictKz>
<City>...</City>
<CityKz>...</CityKz>
<Locality>...</Locality>
<LocalityKz>...</LocalityKz>
</BirthPlace>
</Person>
<Untried/>
<CheckDate>...</CheckDate>
<ds:Signature xmlns:ds="http://www.w3.org/2000/09/xmldsig#">
<ds:SignedInfo>
<ds:CanonicalizationMethod Algorithm="http://www.w3.org/TR/2001/REC-xml-c14n-20010315"/>
<ds:SignatureMethod Algorithm="http://www.w3.org/2001/04/xmldsig-more#gost34310-gost34311"/>
<ds:Reference URI="">
<ds:Transforms>
<ds:Transform Algorithm="http://www.w3.org/2000/09/xmldsig#enveloped-signature"/>
<ds:Transform Algorithm="http://www.w3.org/TR/2001/REC-xml-c14n-20010315#WithComments"/>
</ds:Transforms>
<ds:DigestMethod Algorithm="http://www.w3.org/2001/04/xmldsig-more#gost34311"/>
<ds:DigestValue>...</ds:DigestValue>
</ds:Reference>
</ds:SignedInfo>
<ds:SignatureValue>...</ds:SignatureValue>
<ds:KeyInfo>
<ds:X509Data>
<ds:X509Certificate>...</ds:X509Certificate>
</ds:X509Data>
</ds:KeyInfo>
</ds:Signature>
</ResponseData>
Это XML подпись с внедренными данными в которых, судя по всему, указано что судимостей у субъекта нет <ResponseType>UNJUDGED</ResponseType>
, а так же приведены данные для идентификации субъекта в теге <Person>...</Person>
.
7. Проверка целостности подписанных данных
Проверка целостности данных будет заключаться в сравнении приведенного в XML подписи значения хеша с вычисленным.
Создание объекта XML документа:
const xml = XmlDSigJs.Parse(xmlDataAndSignature);
Значение хеша приведено в теге <ds:DigestValue>...</ds:DigestValue>
:
const xmlSignatures = XmlDSigJs.Select(xml, "//*[local-name(.)='Signature' and namespace-uri(.)='http://www.w3.org/2000/09/xmldsig#']");
if (xmlSignatures.length === 0) {
throw new Error(`В распакованных данных отсутствует цифровая подпись (тег "<Signature>"): "${xmlDataAndSignature}"`);
}
if (xmlSignatures.length > 1) {
throw new Error(`В распакованных данных присутствует несколько цифровых подписей (тег "<Signature>"): "${xmlDataAndSignature}"`);
}
const hashElementsInSignature = XmlDSigJs.Select(xmlSignatures[0], "//*[local-name(.)='DigestValue']");
if (hashElementsInSignature.length === 0) {
throw new Error(`В XML подписи отсутствует хеш (тег "<DigestValue>"): "${xmlDataAndSignature}"`);
}
if (hashElementsInSignature.length > 1) {
throw new Error(`В XML подписи присутствует несколько хешей (тег "<DigestValue>"): "${xmlDataAndSignature}"`);
}
const hashInSignature = hashElementsInSignature[0].textContent;
Данные необходимо подготовить к хешированию — выполнить над ними трансформации приведенные в теге <ds:Transforms>...</ds:Transforms>
XML подписи:
const xmlDsigEnvelopedSignatureTransform = new XmlDSigJs.XmlDsigEnvelopedSignatureTransform();
xmlDsigEnvelopedSignatureTransform.LoadInnerXml(xml.documentElement);
xmlDsigEnvelopedSignatureTransform.GetOutput();
const xmlDsigC14NWithCommentsTransform = new XmlDSigJs.XmlDsigC14NWithCommentsTransform();
xmlDsigC14NWithCommentsTransform.LoadInnerXml(xml.documentElement);
const signedDataXML = xmlDsigC14NWithCommentsTransform.GetOutput();
const dataToHash = gostCrypto.coding.Chars.decode(signedDataXML, 'utf8');
В подписи указан алгоритм хеширования "http://www.w3.org/2001/04/xmldsig-more#gost34311"
, это ГОСТ 34.311-95 что аналогично GOST R 34.11-94
в библиотеке gostCrypto
. В РК совместно с ним обычно используют набор параметров D-TEST
.
Вычисление значения хеша:
const hashBytes = await gostCrypto.subtle.digest({name: 'GOST R 34.11-94', version: 1994, sBox: 'D-TEST'}, dataToHash);
const signedDataXMLHash = gostCrypto.coding.Base64.encode(hashBytes);
Проверка целостности данных в моем документе прошла корректно:
if (signedDataXMLHash !== hashInSignature) {
throw new Error(`Хеш вычисленный из данных XML документа "${signedDataXMLHash}" не соответствует значению в подписи "${hashInSignature}"`);
}
Заключение
Эксперимент завершился успешно, поставленная цель достигнута. Но нужно упомянуть о том, что без проверки цифровой подписи говорить о целостности данных несколько лукаво — нет уверенности в том, что значение хеша данных в XML подписи не было изменено.
Еще одним нюансом оказалось то, что разные типы документов электронного правительства РК имеют разную структуру: в некоторых случаях восстановленный документ сразу является XML подписью, в других в digiSign
подпись не закодирована в Base64, а вместо этого представлена в HTML кодировке, бывают и другие варианты. В связи с чем приведенный выше алгоритм не является универсальным и требует доработки под разные типы документов.
Полезные ссылки:
Sanctuary_s
Bloody well done!