В этом дайджесте мы собрали 50 знаковых научных работ в области ИИ за последние годы. Подборка охватывает десять ключевых направлений разработки нейросетей: от промтинга и проектирования бенчмарков до файнтюнинга и компьютерного зрения.
Материал будет полезен как для опытных ИИ-инженеров, которые хотят прокачать свои навыки разработки, так и тем, кто только начинает свое знакомство с нейросетями и находится в поисках точки входа в ту или иную тему.
Оглавление
Передовые LLM
Научные статьи по GPT1, GPT2, GPT3, Codex, InstructGPT и GPT4 от разработчиков из OpenAI. Здесь вряд ли нужны дополнительные пояснения. По GPT3.5, 4o, o1 и o3 вместо таких статей компания выпускала уже презентации и системные карты.
Статьи по Claude 3 и Gemini 1, чтобы понять, что под капотом у конкурентов OpenAI. Последние версии — это Claude 3.5 Sonnet и Gemini 2.0 Flash/Flash Thinking. Также обратите внимание на работу по Gemma 2.
Научные работы по LLaMA 1, Llama 2, Llama 3 помогут в понимании передовых открытых моделей. Если вас интересует именно эта категория LLM, можете также почитать про Mistral 7B, Mixtral и Pixtral.
Статьи по DeepSeek V1, Coder, MoE, V2, V3. Передовая лаборатория открытых моделей.
Статья по Apple Intelligence. Эта система теперь есть на всех Mac и iPhone.
Кроме того, можно и использовать другие LLM и учиться на них, это очень объемная тема.
В частности, недооцененными рабочими лошадками оказались модели семейства BERT: из этих постов о ModernBERT и ColBERT можно почерпнуть много полезного.
Еще несколько LLM, о которых стоит знать: AI2 (Olmo, Molmo, OlmOE, Tülu 3, Olmo 2), Grok, Amazon Nova, Yi, Reka, Jamba, Cohere, Nemotron, Microsoft Phi, HuggingFace SmolLM. В основном они ниже в рейтингах, научные статьи есть тоже не по всем.
Если позволяет время, рекомендуем прочесть литературу по законам масштабирования: Kaplan, Chinchilla, Emergence, Mirage, Post-Chinchilla.
В 2025 году в авангарде (o1, o3, R1, QwQ/QVQ, f1) будут думающие модели (reasoning models). По ним еще нет научных статей, но базовые знания можно получить из работ Let’s Verify Step By Step и STaR, а также докладов Ноама Брауна. Наиболее практические знания аккумулируются сторонними исследователями и в Твиттере.
Бенчмарки и тесты
MMLU — ведущий бенчмарке общей эрудиции моделей, который стоит в одном ряду с GPQA и BIG-Bench. В 2025 году передовые лаборатории будут использовать MMLU Pro, GPQA Diamond и BIG-Bench Hard.
MuSR — датасет для оценки качества работы с долгим контекстом. Сравним с LongBench, BABILong и RULER. Работа будет полезна тем, кто интересуется проблемой Lost in the Middle и другими проблемами, которые лечат с помощью метода Needle in a Haystack.
MATH — компиляция задач с математических соревнований. Передовые лаборатории делают упор на FrontierMath и сложные разделы MATH: MATH level 5, AIME, AMC10/AMC12.
IFEval — ведущий бенчмарк, проверяющий навык следования инструкциям, а также единственный внешний бенчмарк, принятый на вооружение Apple. MT-Bench тоже можно считать разновидностью IFEval.
Челлендж ARC AGI — знаменитый бенчмарк для «IQ-теста» навыков к абстрактному рассуждению, который долгое время не теряет актуальности.
Многие из этих бенчмарков рассматриваются в статьях Benchmarks 101 и Benchmarks 201. В статьях о Carlini, LMArena и Braintrust рассказывается о закрытых бенчмарках и бенчмарк-аренах (см. LLM-as-Judge и эссе Applied LLM). Если вы хотите разобраться в этой теме, советуем также побольше узнать о датасетах.
Промтинг, In-Context Learning и Chain of Thought
Выше мы уже упоминали статью о GPT3, в которой рассматривается In-Context Learning (ICL) — концепция, близкая к промтингу. Для более полного понимания темы стоит также разобраться в инъекциях промтов (например, о них писали Лилиан Венг и Саймон Виллсон).
The Prompt Report — обзор научных статей о промтинге (здесь можно послушать подкаст на эту тему).
Статья по Chain of thought — одна из множества работ, популяризировавших этот метод, наряду со статьями по Scratchpads и Let’s Think Step by Step.
Tree of Thought — знакомство с lookahead и backtracking (подкаст на эту тему).
Prompt Tuning — возможно, вам не нужны промты; можно применять тюнинг префиксов, управление декодированием (допустим, с помощью энтропии) или инженерию представлений (representation engineering).
Автоматический промтинг (automatic prompt engineering) — становится все очевиднее, что люди ужасно справляются с zero-shot prompting и что LLM могут улучшить самостоятельный промтинг. Самую любопытную реализацию такого подхода можно найти в исследовательской статье/фреймворке DSPy.
Чтение разрозненных статей из этого раздела может оказаться не таким полезным, как изучение практических руководств: мы рекомендуем работы Лилиан Венг, Юджина Яна, Anthropic’s Prompt Engineering Tutorial и AI Engineer Workshop.
Генерация с дополненной выборкой (RAG)
Введение в информационный поиск — немного несправедливо рекомендовать книгу, но мы хотим подчеркнуть, что RAG — это задача информационного поиска, история которого длится уже шестьдесят лет и включает в себя TF-IDF, BM25, FAISS, HNSW, а также другие «скучные» методики.
Публикация о RAG за 2020 год — именно в ней впервые появился этот термин. Авторы оригинального исследования стали основателями Contextual и ввели в обиход подход RAG 2.0. Современные популярные техники для RAG — HyDE, chunking, rerankers, мультимодальные данные — лучше сформулированы в других источниках.
MTEB — этот бенчмарк известен своим переобучением, поэтому его автор считает его неактуальным. Тем не менее, де-факто он остается бенчмарком. О многих эмбеддингах существуют исследовательские статьи, так что можете выбирать сами: SentenceTransformers, OpenAI, Nomic Embed, Jina v3, cde-small-v1, ModernBERT Embed; все более стандартными становятся эмбеддинги Matryoshka.
Статья по GraphRAG — решении Microsoft по добавлению графов знаний в RAG, теперь выведенном в open source. Один из самых популярных трендов в RAG в 2024 году, наряду с ColBERT/ColPali/ColQwen (подробнее об этом в разделе 7).
RAGAS — простой фреймворке для оценки RAG, рекомендованный OpenAI. Также см. фреймворк Nvidia FACTS и Extrinsic Hallucinations in LLMs — обзор причин/оценок галлюцинаций за авторством Лилиан Венг.
В 2024 году RAG стала одной из основных технологий в разработке ИИ, поэтому советуем изучить по ней как можно больше отраслевых ресурсов. Вероятно, наиболее ценными образовательными ресурсами будут LlamaIndex (курс) и LangChain (видео). Еще RAG часто сравнивают по эффективности с Long Context — вот неплохое исследование на эту тему.
Агенты
Статья по SWE-Bench (подкаст на эту тему) — после того, как его начали использовать Anthropic, Devin и OpenAI, сегодня это, вероятно, самый высокорейтинговый бенчмарк агентов (по сравнению с WebArena и SWE-Gym). Строго говоря, это бенчмарк кодинга, но в большей степени тест агентов, чем сырых LLM. Также рекомендуем почитать про SWE-Agent, SWE-Bench Multimodal и Konwinski Prize.
Статья по ReAct (подкаст) — ReAct стал началом длинной серии исследований LLM, использующих внешние инструменты и вызывающих функции, в том числе Gorilla и BFCL Leaderboard. Из исторического интереса можно изучить Toolformer и HuggingGPT.
MemGPT — одна из примечательных методик эмуляции долговременной памяти агентов, применяемая в ChatGPT и LangGraph. Сегодня ее используют для всех систем агентов: от MetaGPT до AutoGen и Smallville.
Voyager — разработанный Nvidia способ реализации трех компонентов когнитивной архитектуры (curriculum, skill library, sandbox) для повышения производительности. Если хотите погрузиться в эту тему, рекомендуем также ознакомиться с работой Agent Workflow Memory.
Материал Anthropic на тему создания эффективных агентов — отличный обзор за 2024 год с упором на важность chaining, маршрутизации, параллелизации, оркестрации, оценки и оптимизации. См. также статьи Лилиан Венг (бывшей сотрудницы OpenAI), Сунью Яо (теперь работающего в OpenAI) и Чипа Хуэна.
Генерация кода
The Stack — открытый датасет-близнец The Pile с упором на код, с которого начинается родословная прекрасных открытых датасетов по генерации кода, таких как The Stack v2 и StarCoder.
Работы по модели Open Code — можете выбирать между DeepSeek-Coder, Qwen2.5-Coder и CodeLlama. Многие считают лучшей моделью генерации кода 3.5 Sonnet, но по ней не выпускали научных работ.
HumanEval/Codex — этот бенчмарк перестал быть вызовом для современных архитектур, но он остается ключевым для понимания принципов работы с моделями в области генерации кода. Сегодня в этой сфере более знаменит SWE-Bench, но он затратен и оценивает агентов, а не модели. Современные аналоги этого бенчмарка — Aider, Codeforces, BigCodeBench, LiveCodeBench и SciCode.
Статья по AlphaCodeium — Google выпустила AlphaCode и AlphaCode2 , хорошо справляющиеся с задачами программирования. Рассматриваемый в статье метод Flow Engineering позволяет существенно повысить эффективность любой базовой модели.
CriticGPT — как известно, LLM способны генерировать код, имеющий проблемы с безопасностью. OpenAI обучила для их выявления CriticGPT, а Anthropic использует разреженные автоэнкодеры, чтобы отслеживать, почему LLM совершает такие ошибки.
Генерация кода — еще одна область, для понимания которой лучше погрузиться в практику, а не в теоретические исследования. Рекомендации по разработке генерации кода и кодовых агентов наподобие Devin можно найти только в отраслевых постах и докладах.
Компьютерное зрение
Работы по компьютерному зрению, не связанные с LLM, по-прежнему актуальны: здесь, например, следует ознакомиться с научной работой по YOLO (теперь он имеет версию 11, но его родословную следует иметь в виду). При этом все более важную роль начинают играть трансформеры (наглядный пример — статья DETRs Beat YOLOs).
Статья по CLIP — первом успешном ViT. На данный момент его вытеснили BLIP/BLIP2 и SigLIP/PaliGemma, но о нем все равно стоит знать.
Бенчмарк MMVP (LS Live) — выполняет количественную оценку важных проблем CLIP. Также обратите внимание на мультимодальные версии MMLU (MMMU) и SWE-Benc.
Segment Anything Model и статья по SAM 2 — очень успешная фундаментальная модель сегментации изображений и видео. На одном уровне с GroundingDINO.
Исследования early fusion: в противовес работам по малозатратному «late fusion» наподобие LLaVA, early fusion охватывает Flamingo, Chameleon, AIMv2 от Apple, Core от Reka и так далее. На самом деле, существует как минимум четыре направления работ по визуальным языковым моделям (VLM).
Подавляющее большинство передовых исследований VLM в наши дни не публикуется (из последнего были системная карта GPT4V и сопутствующие исследования). Мы рекомендуем иметь опыт работы с функциями зрения 4o (в том числе с файнтюнингом зрения этой модели), Claude 3.5 Sonnet/Haiku, Gemini 2.0 Flash и o1. Среди прочих: Pixtral, Llama 3.2, Moondream, QVQ.
Голос
Статья по Whisper — популярной модели Алека Рэдфорда по распознаванию речи. Whisper v2, v3, distil-whisper и v3 Turbo имеют открытые веса, но научных работ по ним не найти.
Статья по NaturalSpeech — одному из ведущих подходов к преобразованию текста в речь. Недавно выпущена v3.
AudioPaLM — последний пример размышлений Google о голосовых технологиях до того, как PaLM превратился в Gemini.
Kyutai Moshi — впечатляющая модель по преобразованию речи в текст (с открытыми весами и качественным демо). Рекомендуем также почитать обзор Hume OCTAVE.
OpenAI Realtime API: The Missing Manual — научных работ по передовой «омнимодели» нет, но зато вы можете ознакомиться с манулом по Realtime API, подготовленном Latent Space.
Здесь мы рекомендуем не ограничиваться изучением наработок крупных лабораторий и копнуть чуть глубже — попробуйте Daily, Livekit, Vapi, Assembly, Deepgram, Fireworks, Cartesia, Elevenlabs и так далее. Также почитайте обзор State of Voice 2024.
Генерация изображений и видео
Работа по Latent Diffusion — по сути, статья о Stable Diffusion. См. также статьи о SD2, SDXL, SD3 (сейчас многие из этих исследователей работают над BFL Flux).
Статьи по DALL-E / DALL-E-2 / DALL-E-3 — генеративная модель OpenAI.
Статьи по Imagen / Imagen 2 / Imagen 3 — генеративная модель Google. Также можно заглянуть в этот тред про Ideogram.
Статья про Consistency Models — эта работа в декабре 2023 года привлекла к себе немало внимания. Сегодня она дополнена еще одним исследованием.
Обзор Sora от OpenAI — нейросеть для преобразования текста в видео. Как обычно, никаких научных работ на эту тему, за исключением статьи о DiT (та же команда), но это все равно один из важнейших релизов года, имеющий множество конкурентов с открытыми весами наподобие OpenSora (обзор от Лилиан Венг).
Также рекомендуем ознакомиться с ComfyUI (вот интервью с ее разработчиками). Диффузия текстов/музыки и авторегрессивная генерация изображений пока остаются нишевыми, но постепенно набирают популярность.
Файнтюнинг
Статьи по LoRA и QLoRA — самом популярном способе бюджетного файнтюнинга моделей, как локальных, так и 4o (подтверждено в этом подкасте). В образовательных целях также можно познакомиться с проектом FSDP+QLoRA.
Работа по прямой оптимизации предпочтений (DPO) — популярная, но чуть более слабая альтернатива PPO, поддерживаемая OpenAI.
Статья по тонкой настройке представлений — вместо тонкой настройки нескольких слоев упор делается на признаки.
Orca 3/AgentInstruct — отличный способ получить данные для файнтюнинга (также рекомендуем этот подкаст).
Работы по обучению с подкреплением (RL) и Reasoning Tuning — RL-файнтюнинг для o1 пока находится на стадии обсуждения, но работа Let’s Verify Step By Step и доклады Ноама Брауна помогут вам разобраться в том, как он работает.
Мы рекомендуем изучить заметки по Unsloth и статью How to fine-tune open LLM от HuggingFace, чтобы получить более полное представление о процессе. Очевидно, что это бесконечно глубокая тема: файнтюнинг может быть как прикладной задачей для инженеров, так и переходить в научные исследования, где создаются новые подходы и методы.
С чего начать
Столь объемный список может выглядеть пугающе для новичка. Мы рекомендуем сконцентрироваться на разделах, которые представляют для вас наибольший интерес, и постараться придерживаться намеченного плана.
Можете выработать собственный подход к обучению или использовать руководство «Как читать научные публикации за час». Пару полезных советов на данную тему также есть в этом треде, а здесь вы найдете дневник одного из читателей с полезными заметками по ключевым статьям из этой подборки. Если вы хотите заниматься изучением в компании единомышленников, можете также присоединиться к Discord-серверу Latent Space.
Вспомнили научную работу, которую обязательно стоило включить в этот список? Делитесь предложениями в комментариях!
Комментарии (5)
parus-lead
24.01.2025 14:19Спасибо за отличный структурированный список. Очень удобно иметь под рукой, чтобы ничего не забыть
pocoZ
Положу в закладки, чтобы и потом не прочитать
full_moon Автор
;)