Machine Learning в экологии, или где живёт снежный человек / forpes.ru

Главная
Machine Learning в экологии, или где живёт снежный человек

Machine Learning в экологии, или где живёт снежный человек +4

09.01.2026 09:19

kaichou 0 6300 Источник

В экологии происходит настоящая ML-революция.

Число публикаций с использованием матмоделирования растёт по закону Мура, а наличие ML‑моделей и прогнозов становится стандартом в статьях про биологические виды и их будущее.

Появились модели, предсказывающие распространение видов в пространстве и во времени — на 100 лет вперёд или на 6000 лет назад. Экологи начали моделировать взаимодействие видов, сообществ — и целых экосистем.

Расскажу, почему это произошло, как работают такие модели на практике — и к чему всё это нас приведёт.

Как моделируют распространение видов

Главную идею экологического моделирования можно описать в одном абзаце:

Представьте, у вас есть питомец, кот или собака. Вы знаете, что собака любит спать на мягком коврике у окна, а кот - на тёплом подоконнике над батареей. Вы интуитивно понимаете, в каких местах им комфортно, а где им не нравится. Переводим интуицию на язык статистики - вот и получилась матмодель -:)

Этот подход масштабируется вплоть до всей Земли. Для его работы достаточно определить одно понятие и одну гипотезу:

экологическая ниша — это геоклиматические предпочтения вида (“тёплая батарея”) и отношения с другими видами(«коты едят мышей»);
гипотеза консервативности экологической ниши («котам нравятся тёплые батареи и есть мышей — и они постоянны в своих вкусах»).

Весь прошлый век биологи при описании вида фиксировали его экологическую нишу:

трофическая ниша: хищник, травоядный;
климат: тепло, холодно, влажно, сухо;
рельеф местообитания: горы, равнины, моря;
почва: песок, глина, ил;
растительность: лес, луг, степь;
и многое другое.

Биологи интуитивно чувствовали, что каждый вид нужно описывать набором таких переменных — этот подход назвали «экологическим конвертом» (похоже на кортежи в программировании, правда?)

Появилась даже гипотеза, что эти наборы уникальные — и один «конверт» может описывать не более одного вида.

Дальше. А что если взять все места на земле с такими же условиями — и обвести их по контуру? Получится что‑то очень похожее на ареал этого вида животного/растения. А ведь эти условия могут встречаться в разных местах на Земле — на разной высоте, на разных континентах.

Эта идея витала в воздухе весь XX век, и авторов у неё — как у радио, в каждой стране. И тут на сцену выходит…

SDM - Species distribution modelling (*)

* SDM, Species Distribution Modelling - моделирование распространения видов.

- Я построил ML-модель, которая предсказывает этому виду 1000 лет жизни!
- Но в мире осталось всего три особи. И все три - самцы...

Теоретический аппарат экологического моделирования был разработан, в целом, к началу XX века. Первые практические модели стали появляться только в 1940-е годы - и были они … ручными!

Расскажу, как специалисты по Machine learning работали до появления Machine:

Представьте, у вас есть 20-30 сообщений о наблюдениях редкого животного. Каждое сообщение сопровождается координатами.

Этап №1: берём контурную карту — и аккуратно отмечаем на ней все наблюдения.

Этап № 2: идём к метеорологам, просим у них карту изотерм — среднегодовых температур за последние, скажем, 5 лет. Накладываем нашу карту на изотермы (буквально накладываем, на просвет через стекло) — и в отдельную табличку выписываем значения температур для наших точек.

Этап № 3: аналогичным образом получаем значения высот над уровнем моря. И нам очень повезло, если все три карты в одном масштабе. Если нет — штош, увидимся через неделю…

В результате получается примерно такая таблица:

Наблюдение	Широта	Долгота	Температура	Высота
1	45.95	72.18	+7.3	184
2	46.03	73.84	+7.1	253

Этап №4: переносим получившиеся данные по температуре и высоте на график:

Этап №5: обводим результат по контуру, отбрасывая явно выбивающиеся значения.

Ура, мы получили эмпирическую экологическую нишу (ЭЭН) вида. Это грубая модель в пространстве двух факторов (температура-высота), её точность в лучшем случае могла составлять 70-75% - и всё же это лучше, чем ничего.

Метод трудоёмкий. Моделирование ниши на двух слоях для сотни наблюдений могло занять целый месяц, а до следующего этапа доходили вообще единицы:

Этап №6: берём интересующую область на карте, размечаем клетки с шагом в 1 градус (или даже 0.1градус!) - и для каждой клетки составляем таблицу высота-температура. Если значение попадает в ЭЭН, значит, вид может встречаться в этом месте. Наносим все положительные результаты на карту - и получаем модель ареала вида.

В домашинную эпоху такой расчёт мог занять до года, и по объёму работ тянул на докторскую. Сколько там могло быть ошибок - понятно.

Что изменилось в XXI веке?

Удачно наложились четыре фактора. Появились они ещё в конце XX века, но массовыми стали в последние 5-10 лет:

Спутники дистанционного зондирования Земли. Они составили подробные карты всей планеты - рельеф, физ и хим состав почвы, покрытие растительностью, климат, речная сеть и дороги - и множество других. Точность этих карт (т.н. “слои предикторы”) иногда измеряется в метрах!

GPS-навигаторы в каждом смартфоне. Учёные и натуралисты получили возможность фиксировать наблюдения также с метровой точностью, а не 0.01-0.1 градуса, как раньше.

Платформы для натуралистов. iNaturalist, ebird - и другие платформы сделали регистрацию/валидацию научных наблюдений максимально простой, часто в игровой форме. GBIF с 3.5 млрд наблюдений (2025) - это GitHub мира экологии.

Компьютеры и методы Machine learning. Достаточно мощные, чтобы обсчитать миллионы точек на сотнях слоёв предикторов. И происходит это за минуты, а не за годы, как раньше.

А при чём здесь ML?

На первый взгляд кажется, что для построения карты ареала достаточно методов статистики, машинное обучение не нужно. Так ли это?

Вопрос справедливый. Допустим, мы взяли пачку слоёв-предикторов. Наложили точки на карту, извлекли значения из всех слоёв. Получили распределения, как на этой картинке:

Дальше определили средние значения по каждому предиктору. Определили ширину распределения. Получили оптимальный набор переменных для каждого вида (включая допустимое отклонение).

Отфильтровали все нужные точки на карте - всё, готово. И зачем тут учить какую-то модель, достаточно посчитать чисто средние значения и отфильтровать результаты? Pandas справится!

Проблема в том, что реальность оказывается…

Вот типичная гистограмма. Это серая ворона, регион моделирования - Семиречье, Алматинская область.

Серым цветом дана гистограмма для высот в регионе. Минимальная высота - 300-400 метров, и чем выше - тем меньше точек с такой высотой. Логично.

Голубой цвет - частота встречаемости высот в точках наблюдения.

Видно, что чаще всего ворона встречается на высоте ~700 метров. И есть … ещё один пик на ~1600 метров. Два максимума? Это вообще легально?

А среднее значение тут ~1100 метров - это практически минимум распределения. Если отобрать на карте точки с высотой 1100 метров, вороны там как раз и не будет.

Другой пример. Это белая лазоревка и количество осадков тёплого квартала.

Если вы изучали статистику, знаете, что распределение случайных величин похоже либо на колокол (нормальное), либо плавно снижается (как “серая” высота в прошлом примере). А что если гистограмма равномерно “размазана” по всем значениям? И каково оптимальное значение на этом графике?

Экологический смысл такого графика - наш вид от этого фактора практически не зависит. Ему комфортно при любом количестве осадков, если только их не больше ~200 мм в квартал.

А что можно сказать о графике с двумя максимумами? Тут мы имеем дело либо с двумя разорванными популяциями (подвидами) - и каждая из них адаптировалась к своим условиям. Либо мы наблюдаем … миграцию. Большинство предикторов усреднены по году, а летом и зимой видам нравится разное.

Но подождите, а как миграция сочетается с гипотезой консервативности экологической ниши? Да никак, нужно переходить от моделирования по среднегодовым факторам - к хотя бы среднемесячным. Честно говоря, и другое фундаментальное экологическое понятие (ниша) испытывает трудности при столкновении с реальностью.

- Объясните, как работают эти ваши ML-модели!
- Сначала вы дайте строгое определение экологической ниши!

И тут встаёт вопрос, а что именно мы моделируем? Это точно не экологические ниши (иногда говорят “местообитания”). Это точно не ареал.

Но задача поставлена. Вот точки наблюдения вида, вот набор геоклиматических переменных. Много входных переменных -> чёрный ящик -> результат в формате “да/нет”. Это типичная задача бинарной классификации. И не применить ли для её решения методы машинного обучения?

Как прогнозируют будущее?

Вот общий сценарий современной SDM:

Собираем точки - координаты встреч животного или растения. Точки можно взять из собственных наблюдений, из научных работ - или из международных биологических баз данных, например, GBIF.org.
Собираем слои-предикторы - высота над уровнем моря, пересечённость и уклон поверхности, среднегодовая температура, влажность, состав почвы, удалённость от речной сети и т.д.
Накладываем координаты встреч на слои-предикторы. Получаем “конверты” биогеографических переменных.
Учим модель предсказывать вероятность встречи вида по этим “конвертам” - получаем экологическую нишу вида (местообитание).
“Проецируем” ЭЭН вида на карту - получаем ареал вида

С определением ареала в настоящем времени примерно понятно. А как прогнозируют будущее?

Слои-предикторы делятся на две категории:

статические - которые глобально не изменятся в обозримом будущем. Высота над уровнем моря, уклон, физический состав почвы, расстояние от рек и т.д.;
динамические - температура, влажность, осадки, солнечная радиация, скорость ветра и т.д. - эти значения усреднены за несколько лет.

В 2021 году рабочая группа ОНН по изменению климата IPCC предложила пять наиболее вероятных сценариев до 2100 года: SSP, Shared Socioeconomic Pathways, Общие социально-экономические сценарии:

Для каждого из этих сценариев доступен набор биоклиматических переменных - предикторов с разрешением до 30 угловых секунд (примерно 1х1 км). Вообще, сценариев гораздо больше, и они разделяются на ветки, но для начала берут какую-то одну “среднюю из средних”, а дальше всё зависит от решаемых задач.

Общая логика прогнозирования ареала вида в будущем:

обучаем модель на статических переменных + динамические переменные для текущего периода;
запускаем прогноз по всей карте на тех же самых статических переменных, а динамические выбираем для будущих периодов.

Прогнозы идут пачками: 2021-2040, 2041-2060, 2061-2080 и 2081-2100. Таким образом, распространение вида можно оценить в динамике.

Например, прогноз распространения в Центральной Азии обыкновенной майны, или саранчового скворца. В списке агрессивных инвазивных видов от Международного союза охраны природы майна находится на втором месте.

Видно, что к 2100 ареал майны увеличится на 59-242%. Также видно, что по наиболее вероятному сценарию SSP3-7.0 через пару десятилетий майна придёт в Южную Сибирь. Местным птицам от неё придётся несладко…

И зачем всё это нужно?

Подведу промежуточные итоги:

С помощью SDM можно находить редких животных и растения. Биогеографические модели помогают понять, где ещё может скрываться редкий вид, в каком местообитании его искать. С помощью этого метода были обнаружены многие ранее неизвестные популяции.
Гистограммы (помните как немного выше про ворону?) помогают изучить экологию и предпочтения вида, буквально не выходя из дома. Какой климат, рельеф, почва ему комфортны - и всё это с минимумом полевых исследований.
SDM помогают защищать природу. С помощью моделей мы можем увидеть, какие территории важны для жизни многих видов, т.н. “горячие точки биоразнообразия” - и решить, какие из них нужно охранять.
Прогнозировать будущее видов - изменение местообитаний животных и растений, когда климат изменится. Какие местообитания могут быть утрачены - и куда “переедут” обитающие там виды. Причём SDM строит не один прогноз, а обычно целую пачку под разные сценарии.
Но прогнозировать можно не только будущее. Методика позволяет “отмотать время назад” - и понять, как жили животные тысячи лет назад. Как сформировались уязвимые биотопы, например, степи. С помощью SDM можно смоделировать даже эволюцию видов и целых биосистем.

Дальнейшее развитие идей SDM

1. Учёт соседей

Коту для хорошей жизни нужен не только тёплый подоконник над батареей (местообитание), но и две мышки в день (добыча), и чтобы собаки (конкуренты) жили подальше.

Следующий уровень - jSDM (joint) - учитывает взаимодействие между видами, точнее, моделирует их совместное распространение. В таких моделях учитываются связи между видами, например, хищник-жертва, конкуренция, симбиоз, распространение семян растений.

Говоря на "языке SDM", в модели для каждого вида добавляется распространение других видов как слои-предикторы.

Дальнейшее развитие jSDM:

clSDM - Community-level species distribution modelling - фокусируется на целых сообществах, а не на отдельных видах;
MCM - Metacommunity modelling - как локальные сообщества видов связаны друг с другом через миграцию и как эти связи влияют на их распространение и разнообразие.

2. Оценка численности видов

PAE - Population Abundance Estimation, DAM - Density/Abundance Modelling.

Тут сразу три метода:

IPM - Integrated Population Models - объединяет данные о пространственном распределении, обнаружении/необнаружении, чтобы одновременно оценить численность, популяционные параметры (рождаемость/смертность) и их связь с окружающей средой;
DS/OM - Distance Sampling with occupancy models - тут дистанционная выборка (distance sampling) используется для оценки плотности популяции (density) на основе наблюдаемых расстояний до особей, а модель занятости (occupancy) используется для учёта вероятности обнаружения вида, что повышает точность оценки численности;
RSF - Resource Selection Functions, HUM - Habitat Use Models с оценкой численности - эти методы моделируют выбор местообитаний и ресурсный баланс, давая оценку “энергетическими” методами.

3. Учёт эволюции

Как виды могут приспосабливаться к меняющимся условиям, например, климату?

ASDM - Adaptive SDM, ESDM - Evolutionary SDM.

Эти методы расширяют SDM, включая в себя процессы естественного отбора и эволюции. Они пытаются спрогнозировать, как изменения окружающей среды (климат, ландшафт) могут привести к изменениям физиологических или поведенческих характеристик видов (адаптациям), что, в свою очередь, повлияет на их экологические ниши и на их распространение.

Методы включают в себя моделирование пластичности и эволюции признаков. И, как и все методы экологического моделирования, могут работать “назад” во времени.

4. Продвинутые модели прогнозирования будущего

MSDM - Mechanistic Species Distribution Modelling - в дополнение к традиционным методам SDM пытается моделировать прямые причинно-следственные связи между условиями окружающей среды и жизнедеятельностью организмов.

DSDM - Dynamic Species Distribution Modelling - учитывают динамику популяций, включая рождаемость, смертность, миграцию, а также изменения среды во времени. Эти модели позволяют оценить скорость адаптации и мобильность видов.

5. Помощь в сохранении видов

Эти методы нельзя назвать развитием SDM, однако, результаты SDM часто используются в моделях природоохранной деятельности:

VAM - Vulnerability assessment modelling - оценка уязвимости видов к конкретным угрозам;
SM - Scenario modelling - моделирование различных сценариев и мер (изменение землепользования, эффективности природоохранных мер) для оценки их влияния на сохранение видов;
CPS - Conservation planning software - модели и целые программные комплексы для планирования и приоритезации действий в природоохранной биологии.

В общем, матмоделирование в последние годы здорово помогает биологам, особенно в плане обоснования природоохранных мер.

Фактически, эти методы позволили перейти от простого картирования ареалов к пониманию экологических процессов в цифрах - и их влиянию на биоразнообразие.

Сейчас я разрабатываю "SDM для всех" - программный комплекс, где любой желающий может за несколько минут смоделировать ареал интересующего вида. Ресурс открыт и доступен через браузер. Код опубликован в github как библиотека для языка Python, его можно запустить локально.

Постараюсь подробно ответить на вопросы по биогеографическому моделированию.

PS. Где же живёт снежный человек?

В США есть организация свидетелей Бигфута - местного снежного человека. Они задались целью собрать все точки наблюдений Бигфута от очевидцев.

Группа учёных попробовала обучить смоделировать ареал Бигфута на основании этих точек. Вывод у них политкорректный: ареал Бигфута удивительно совпадает с ареалом одного широко известного животного...

Так свидетели Бигфута поучаствовали в научном доказательстве, что его не существует.