В этом цикле (надеюсь) статей я постараюсь расказать и показать, как «необычно» можно применить возможности современного GPU, при разработке игр, помимо графических эффектов. Первая часть будет посвящена анимационной системе. Все что описано, основано на практическом опыте, реализовано и работает в реальных игровых проектах.
Ууууу, опять анимации. Про это уже сто раз написано и описано. Что там сложного? Пакуем матрицы костей в буфера/текстурки, и используем для скиннига в вертекс шейдере. Это было описано еще в GPU Gems 3 (Chapter 2. Animated Crowd Rendering). И реализовано в недавней Unite Tech Presentation. А можно ли по-другому?
Технодемка от Unity
Много хайпа, но так ли круто на самом деле? На хабре есть статья, где подробно описано, как сделана и работает скелетная анимация в данной технодемке. Параллельные джобы это все хорошо, мы их не рассматриваем. Но надо выяснить, что и как там, с точки зрения рендера.
В масштабной битве сражаются две армии, каждая состоящая… из одного типа юнита. Слева скелеты, справа рыцари. Разнообразие так себе. Каждый юнит состоит из 3-х LOD (~300, ~1000, ~4000 вершин на каждый), и на вертекс влияют всего 2 кости. Система анимаций состоит из всего 7 анимаций на каждый тип юнита (напомню, что их аж 2). Анимации не блендятся, а переключаются дискретно из простого кода, который исполняется в job'ax, на которые делается акцент в презентации. Никакой стейт машины нет. Когда у нас два типа меша, то и рисовать всю эту толпу можно за два instanced draw call. Скелетная анимация, как я уже писал, основана на технологии описанной в далеком 2009 году.
Новаторски? Хм… Прорыв? Эм… Подходит для современных игр? Ну, разве что, соотношением фпс к количеству юнитов хвастаться.
Основные недостатки данного подхода (пребейк матриц в текстуры):
- Зависимость от фреймрейта. Захотели в два раза больше кадров анимации — пожалуйте в два раза больше памяти.
- Отсутствие блендинга анимаций. Их конечно можно сделать, но в шейдере скиннига будет образовываться сложная каша из логики блендинга.
- Отсутствие привязки к Unity Animator стейт машине. Удобный инструмент для настройки поведения персонажа, который можно подключить к любой системе скинннига, но в нашем случае, по причине пункта 2, все становится очень сложно (представьте как блендить вложенные BlendTree).
GPAS
GPU Powered Animation System. Название только что придумал.
К новой системе анимаций предъявлялось несколько требований:
- Быстро работать (ну понятно). Нужно анимировать десятки тысяч различных юнитов.
- Быть полным (или почти) аналогом системы анимцаии Unity. Если там анимация выглядит так, то и в новой системе должно выглядеть точно также. Возможность переключения между built-in CPU и GPU системами. Это необходимо часто для отладки. Когда анимации «глючат», то переключением в классический аниматор можно понять: это глюки новой системы, или стейтмашины/самой анимации.
- Все анимации настраиваются в Unity Animator. Удобный, проверенный, а главное готовый к использованию, инструмент. Мы будем строить велосипеды в другом месте.
Переосмыслим подготовку и запекание анимаций. Матрицы мы использовать не будем. Современные видеокарты хорошо работают с циклами, нативно поддерживают int помимо float, так что мы будем работать с кейфреймами как на CPU.
Рассмотрим пример анимации в юнити Animation Viewer:
Видно, что кейфреймы заданы отдельно для позиции, масштаба и вращения. Для каких-то костей надо их много, для каких-то всего несколько, а для тех костей, что не анимируются отдельно, просто задан начальный и конечный кейфрейм.
Позиция — Vector3, кватернион — Vector4, масштаб — Vector3. Структура кейфрейма у нас будет одна общая (для упрощения), так что нам нужно 4 float, чтобы уместить любой из вышеперечисленных типов. Еще нам надо InTangent и OutTangent для правильной интерполяции между кейфреймами согласно кривизны. Ах да, и нормализированное время не забыть:
struct KeyFrame
{
float4 v;
float4 inTan, outTan;
float time;
};
Для получения всех кейфреймов используем AnimationUtility.GetEditorCurve().
Также, мы должны запомнить имена костей, так как надо будет сделать ремап костей анимации в кости скелета (а они могут не совпадать) на этапе подготовки гпу данных.
Заполнив линейные буфера с массивами кейферймов, мы запомним смещения в них, для того чтобы найти те, которые относятся к нужной нам анимации.
Теперь интересное. Анимация скелета на GPU.
Подготавливаем большой («количество анимированных скелетов» Х «количество костей в склете» Х «эмпирический коэффициент максимального количества блендов анимаций») буффер. В нем будем хранить позицию, вращение и масштаб кости в данный момент анимации. И для всех запланированных анимированных костей в этом кадре запускаем compute shader. Каждый thread выполняет анимацию своей кости.
Каждый кейфрейм, вне зависимости к какой величине он пренадлежит (Translate, Rotation, Scale), интерполируется абсолютно одинаково (поиск линейным перебором, да простит меня Кнут):
void InterpolateKeyFrame(inout float4 rv, int startIdx, int endIdx, float t)
{
for (int i = startIdx; i < endIdx; ++i)
{
KeyFrame k0 = keyFrames[i + 0];
KeyFrame k1 = keyFrames[i + 1];
float lerpFactor = (t - k0.time) / (k1.time - k0.time);
if (lerpFactor < 0 || lerpFactor > 1)
continue;
rv = CurveInterpoate(k0, k1, lerpFactor);
break;
}
}
Кривая представляет собой cubic Bezier curve, так что функция интерполяции будет следующая:
float4 CurveInterpoate(KeyFrame v0, KeyFrame v1, float t)
{
float dt = v1.time - v0.time;
float4 m0 = v0.outTan * dt;
float4 m1 = v1.inTan * dt;
float t2 = t * t;
float t3 = t2 * t;
float a = 2 * t3 - 3 * t2 + 1;
float b = t3 - 2 * t2 + t;
float c = t3 - t2;
float d = -2 * t3 + 3 * t2;
float4 rv = a * v0.v + b * m0 + c * m1 + d * v1.v;
return rv;
}
Посчитали локальную позу (TRS) кости. Далее, отдельным compute shader'ом, сблендим все нужные анимации для данной кости. Для этого у нас есть буффер с индексами анимаций и весами каждой анимации в финальном бленде. Эту информацию мы получаем из стейт машины. Ситуация BlendTree внутри BlendTree решается так. Например есть такое дерево:
BlendTree Walk будет иметь вес 0.35, Run — 0.65. Соответственно, финальная позиция костей должна определяться 4-мя анимациями: Walk1, Walk2, Run1 и Run2. Их веса будут иметь значения (0.35 * 0.92, 0.35 * 0.08, 0.65 * 0.92, 0.65 * 0.08) = (0.322, 0.028, 0.598, 0.052) соответственно. Следует отметить, что сумма весов всегда должна быть равна еденице, не то волшебные баги обеспечены.
«Сердце» функции блендинга:
float bw = animDef.blendWeight;
BoneXForm boneToBlend = animatedBones[srcBoneIndex];
float4 q = boneToBlend.quat;
float3 t = boneToBlend.translate;
float3 s = boneToBlend.scale;
if (dot(resultBone.quat, q) < 0)
q = -q;
resultBone.translate += t * bw;
resultBone.quat += q * bw;
resultBone.scale += s * bw;
Теперь можно перевести в матрицу трансформации. Стоп. Про иерархию костей забыли совсем.
По данным из скелета строим массив индексов, где ячейка с индексом кости содержит индекс своего parent'a. В root записываем -1.
Пример:
float4x4 animMat = IdentityMatrix();
float4x4 mat = initialPoses[boneId];
while (boneId >= 0)
{
BoneXForm b = blendedBones[boneId];
float4x4 xform = MakeTransformMatrix(b.translate, b.quat, b.scale);
animMat = mul(animMat, xform);
boneId = bonesHierarchyIndices[boneId];
}
mat = mul(mat, animMat);
resultSkeletons[id] = mat;
Вот, в принципе и все основные моменты просчета и блендинга анимаций.
GPSM
GPU Powered State Machine (вы правильно угадали). Система анимаций, описанная выше, прекрасно работала бы с Unity Animation State Machine, но в таком случае все усилия станут бесполезны. При возможностях просчета десятков (если не сотен) тысяч анимаций в кадр, UnityAnimator не вытянет и тысячи одновременно работающих стейт машин. Хм…
Что представляет собой стейт машина в Unity? Это замкнутая система состояний и переходов, которая управляется простыми численными свойствами. Каждая стейт машина работает независимо друг от друга, и по одному и тому же набору входных данных. Постойте-ка. Это же идеальная задача для GPU и compute shader'ов!
Baking phase
Сначала нам надо собрать и разместить в GPU friendly структуры все данные стейт машины. А это: состояния (states), переходы (transitions) и параметры (parameters).
Все эти данные размещаются в линейные буфера, и адресуются по индексам.
Каждый compute thread считает свою стейт машину. AnimatorController предоставляет интерфейс ко всем нужным внутренним структурам стейт машины.
Основные структуры стейт машины:
struct State
{
float speed;
int firstTransition;
int numTransitions;
int animDefId;
};
struct Transition
{
float exitTime;
float duration;
int sourceStateId;
int targetStateId;
int firstCondition;
int endCondition;
uint properties;
};
struct StateData
{
int id;
float timeInState;
float animationLoop;
};
struct TransitionData
{
int id;
float timeInTransition;
};
struct CurrentState
{
StateData srcState, dstState;
TransitionData transition;
};
struct AnimationDef
{
uint animId;
int nextAnimInTree;
int parameterIdx;
float lengthInSec;
uint numBones;
uint loop;
};
struct ParameterDef
{
float2 line0ab, line1ab;
int runtimeParamId;
int nextParameterId;
};
struct Condition
{
int checkMode;
int runtimeParamIndex;
float referenceValue;
};
- State содержит скорость с которой проигрывается состояние, и индексы условий прехода в другие согласно стейт машине.
- Transition содержит индексы состояния «из» и «в». Время перехода, время выхода и ссылку на массив условий входа в это состояние.
- CurrentState — это runtime data block с данными о текущем состояние стейт машины.
- AnimationDef содержит описание анимации со ссылками на другие, связанные с ней, по BlendTree.
- ParameterDef — это описание параметра управляющего поведением стейт машины. Line0ab и Line1ab — это коэффициенты уравнения прямых, для определения веса анимации по значению параметра. Отсюда:
- Condition — спецификация условия для сравнения runtime значения параметра и reference value.
Runtime Phase
Главный цикл каждой стейт машины можно отобразить с помощью следующего алгоритма:
В Unity animator 4 типа параметров: float, int, bool и trigger (которая bool). Всех их мы представим как float. При настройке условий есть возможность выбрать один из шести типов сравнения. If == Equals. IfNot == NotEqual. Так что мы будем использовать только 4. Индекс оператора передаем в поле checkMode структуры Condition.
for (int i = t.firstCondition; i < t.endCondition; ++i)
{
Condition c = allConditions[i];
float paramValue = runtimeParameters[c.runtimeParamIndex];
switch (c.checkMode)
{
case 3: if (paramValue < c.referenceValue) return false;
case 4: if (paramValue > c.referenceValue) return false;
case 6: if (abs(paramValue - c.referenceValue) > 0.001f) return false;
case 7: if (abs(paramValue - c.referenceValue) < 0.001f) return false;
}
}
return true;
Чтобы начать переход, необходимо, чтобы все условия были true. Странные case labels — это просто (int)AnimatorConditionMode. Interruption logic это хитрая логика прерывания и откатывания перехода.
После того как мы обновили состояние стейт машины и прокрутили time stamp'ы на delta t кадра, пора подготовить данные про то, какие анимации следует считать в этом кадре, и соответствующие веса. Этот этап пропускается, если моделька юнита не в кадре (Frustum culled). Зачем нам считать анимации того, чего не видно? Пробегаемся по blend tree source state, по blend tree destination state, добавляем все анимации из них, а веса считаем по нормализированному времени перехода из source в destination (времени пребывания в transition). C подготовленными данными в дело вступает GPAS, и считает анимации для каждой анимированной сущности в игре.
Из логики управления юнитами поступают параметры управления стейт машиной. Например надо включить бег, устанавливаем параметр CharSpeed, а правильно настроенная стейт машина плавно сблендит анимации перехода из «ходьбы» в «бег».
Естественно, что полной аналогии c Unity Animator не получилось. Внутренние принципы работы, если они не описаны в документации, приходилось реверсить и делать аналог. Некоторый функционал еще не доделан (может быть и не будет). Например BlendType в BlendTree поддерживается только 1D. Сделать другие типы, в принципе, не сложно, просто это сейчас не нужно. Нет animation event'ов, так как надо делать readback c GPU, а «правильный» readback будет отставать на несколько кадров, что не всегда приемлемо. Но тоже можно.
Рендер
Рендер юнитов осуществляется с помощью инстансинга. По SV_InstanceID, в вертексном шейдере, получаем матрицы всех костей которые влияют на вертекс, и трансформируем его. Абсолютно ничего необычного:
float4 ApplySkin(float3 v, uint vertexID, uint instanceID)
{
BoneInfoPacked bip = boneInfos[vertexID];
BoneInfo bi = UnpackBoneInfo(bip);
SkeletonInstance skelInst = skeletonInstances[instanceID];
int bonesOffset = skelInst.boneOffset;
float4x4 animMat = 0;
for (int i = 0; i < 4; ++i)
{
float bw = bi.boneWeights[i];
if (bw > 0)
{
uint boneId = bi.boneIDs[i];
float4x4 boneMat = boneMatrices[boneId + bonesOffset];
animMat += boneMat * bw;
}
}
float4 rv = float4(v, 1);
rv = mul(rv, animMat);
return rv;
}
Итоги
Быстро ли все это хозяйство работает? Явно медленнее, чем семплинг текстурки с матрицами, но, все же, кое-какие цифры я могу показать (GTX 970).
Вот 50000 стейтмашин:
Вот 280000 анимированных костей:
Разработка и отладка всего этого настоящая боль. Куча буферов и смещений. Куча компонентов и их взаимодействия. Бывало руки опускались, когда бъешься несколько дней о проблему головой, а найти, в чем неполадка, не можешь. Особенно «приятно», когда на тестовых данных все работает как надо, а в реальной «боевой» ситуации нет, да проскочит какой-то глюк анимации. Несоответствия работы стейтмашин Unity и своей, тоже не сразу видны. В общем, если решите сделать у себя аналог, то я вам не завидую. Собственно, вся разработка под GPU она такая, чего жаловаться.
P.S. Хочется кинуть камень в огород разработчиков Unite TechDemo. У них на сцене большое количество одинаковых моделей руин и мостов, а они никак не оптимизировали их отрисовку. Вернее они попытались, поставив галочку «static». Только вот, в 16 битные индексы не запихнешь много геометрии (три раза хаха, 2017 год) и ничего не объеденилось, так как модели высокополигональные. Я проставил всем шейдерам «Enable Instancing», и снял галку «Static». Ощутимого буста не произошло, но, блин, вы же технодемку делаете, боретесь за каждый фпс. Нельзя так лажать.
*** Summary ***
Draw calls: 2553
Dispatch calls: 0
API calls: 8378
Index/vertex bind calls: 2992
Constant bind calls: 648
Sampler bind calls: 395
Resource bind calls: 805
Shader set calls: 682
Blend set calls: 230
Depth/stencil set calls: 92
Rasterization set calls: 238
Resource update calls: 1017
Output set calls: 74
API:Draw/Dispatch call ratio: 3.28163
298 Textures - 1041.01 MB (1039.95 MB over 32x32), 42 RTs - 306.94 MB.
Avg. tex dimension: 1811.77x1810.21 (2016.63x2038.98 over 32x32)
216 Buffers - 180.11 MB total 17.54 MB IBs 159.81 MB VBs.
1528.06 MB - Grand total GPU buffer + texture load.
*** Draw Statistics ***
Total calls: 2553, instanced: 2, indirect: 2
Instance counts:
1:
2:
3:
4:
5:
6:
7:
8:
9:
10:
11:
12:
13:
14:
>=15: ******************************************************************************************************************************** (2)
*** Summary ***
Draw calls: 1474
Dispatch calls: 0
API calls: 11106
Index/vertex bind calls: 3647
Constant bind calls: 1039
Sampler bind calls: 348
Resource bind calls: 718
Shader set calls: 686
Blend set calls: 230
Depth/stencil set calls: 110
Rasterization set calls: 258
Resource update calls: 1904
Output set calls: 74
API:Draw/Dispatch call ratio: 7.5346
298 Textures - 1041.01 MB (1039.95 MB over 32x32), 42 RTs - 306.94 MB.
Avg. tex dimension: 1811.77x1810.21 (2016.63x2038.98 over 32x32)
427 Buffers - 93.30 MB total 9.81 MB IBs 80.51 MB VBs.
1441.25 MB - Grand total GPU buffer + texture load.
*** Draw Statistics ***
Total calls: 1474, instanced: 391, indirect: 2
Instance counts:
1:
2: ******************************************************************************************************************************** (104)
3: ************************************************* (40)
4: ********************** (18)
5: ****************************** (25)
6: ********************************************************************************************* (76)
7: *********************************** (29)
8: ************************************************** (41)
9: ********* (8)
10: ************** (12)
11:
12: ****** (5)
13: ******* (6)
14: ** (2)
>=15: ****************************** (25)
P.P.S. Во все времена игры были, в основном, CPU bound, т.е. CPU не успевал за GPU. Слишком много логики и физики. Пренося часть игровой логики с CPU на GPU, мы разгружаем первый и нагружаем второй, т.е. делаем ситуацию GPU bound более вероятной. Отсюда и название статьи.
Комментарии (4)
atri1
26.09.2019 21:21Очень полезная статья. Как будто эволюция вертекс-анимации.
Без понятия как это в реальных проектах будет работать(и использоваться, учитывая сложность), когда и post-processing, и screen-space шейдеры, и сглаживание теней, теперь еще и RTX, все использует видеокарту. И все хотят 200+ кадров/сек. И чем нагружать процессор тогда, ведь игровая логика не ушла дальше первых игр с PS.
Кстати, интересно можно ли перенести подобную логику на Intel SPMD, я сам думал попробовать чтото подобное, но чет пока нет мотивации этим заниматься…
В общем, если решите сделать у себя аналог, то я вам не завидую. Собственно, вся разработка под GPU она такая, чего жаловаться.
Могу понять. Поражают такие проекты, откуда у людей мотивация только берется.DenisLaletin
28.09.2019 22:18Походу из детства, любовь к играм ведь именно от туда ;)
Но статья конечно прям "Докторская", можно даже без кавычек — я бы поставил зачёт автоматом :)
basilbasilbasil
27.09.2019 01:57если вынести на отдельный gpu начального уровня, типа 1050, работающий только над анимацией, параллельно с более мощным gpu для отрисовки, то овчина стоит выделки
picul