В этом дайджесте мы собрали 50 знаковых научных работ в области ИИ за последние годы. Подборка охватывает десять ключевых направлений разработки нейросетей: от промтинга и проектирования бенчмарков до файнтюнинга и компьютерного зрения. 

Материал будет полезен как для опытных ИИ-инженеров, которые хотят прокачать свои навыки разработки, так и тем, кто только начинает свое знакомство с нейросетями и находится в поисках точки входа в ту или иную тему.

Оглавление

Передовые LLM

  1. Научные статьи по GPT1, GPT2, GPT3, Codex, InstructGPT и GPT4 от разработчиков из OpenAI. Здесь вряд ли нужны дополнительные пояснения. По GPT3.5, 4o, o1 и o3 вместо таких статей компания выпускала уже презентации и системные карты.

  2. Статьи по Claude 3 и Gemini 1, чтобы понять, что под капотом у конкурентов OpenAI. Последние версии — это Claude 3.5 Sonnet и Gemini 2.0 Flash/Flash Thinking. Также обратите внимание на работу по Gemma 2.

  3. Научные работы по LLaMA 1, Llama 2, Llama 3 помогут в понимании передовых открытых моделей. Если вас интересует именно эта категория LLM, можете также почитать про Mistral 7B, Mixtral и Pixtral

  4. Статьи по DeepSeek V1, Coder, MoE, V2, V3. Передовая лаборатория открытых моделей.

  5. Статья по Apple Intelligence. Эта система теперь есть на всех Mac и iPhone.

Кроме того, можно и использовать другие LLM и учиться на них, это очень объемная тема.

Бенчмарки и тесты

  1. MMLU — ведущий бенчмарке общей эрудиции моделей, который стоит в одном ряду с GPQA и BIG-Bench. В 2025 году передовые лаборатории будут использовать MMLU Pro, GPQA Diamond и BIG-Bench Hard.

  2. MuSR — датасет для оценки качества работы с долгим контекстом. Сравним с LongBench, BABILong и RULER. Работа будет полезна тем, кто интересуется проблемой Lost in the Middle и другими проблемами, которые лечат с помощью метода Needle in a Haystack.

  3. MATH — компиляция задач с математических соревнований. Передовые лаборатории делают упор на FrontierMath и сложные разделы MATH: MATH level 5, AIME, AMC10/AMC12.

  4. IFEval — ведущий бенчмарк, проверяющий навык следования инструкциям, а также единственный внешний бенчмарк, принятый на вооружение Apple. MT-Bench тоже можно считать разновидностью IFEval.

  5. Челлендж ARC AGI — знаменитый бенчмарк для «IQ-теста» навыков к абстрактному рассуждению, который долгое время не теряет актуальности.

Многие из этих бенчмарков рассматриваются в статьях Benchmarks 101 и Benchmarks 201. В статьях о Carlini, LMArena и Braintrust рассказывается о закрытых бенчмарках и бенчмарк-аренах (см. LLM-as-Judge и эссе Applied LLM). Если вы хотите разобраться в этой теме, советуем также побольше узнать о датасетах.

Промтинг, In-Context Learning и Chain of Thought

Выше мы уже упоминали статью о GPT3, в которой рассматривается In-Context Learning (ICL) — концепция, близкая к промтингу. Для более полного понимания темы стоит также разобраться в инъекциях промтов (например, о них писали Лилиан Венг и Саймон Виллсон).

  1. The Prompt Report — обзор научных статей о промтинге (здесь можно послушать подкаст на эту тему).

  2. Статья по Chain of thought — одна из множества работ, популяризировавших этот метод, наряду со статьями по Scratchpads и Let’s Think Step by Step.

  3. Tree of Thought — знакомство с lookahead и backtracking (подкаст на эту тему).

  4. Prompt Tuning — возможно, вам не нужны промты; можно применять тюнинг префиксов, управление декодированием (допустим, с помощью энтропии) или инженерию представлений (representation engineering).

  5. Автоматический промтинг (automatic prompt engineering) — становится все очевиднее, что люди ужасно справляются с zero-shot prompting и что LLM могут улучшить самостоятельный промтинг. Самую любопытную реализацию такого подхода можно найти в исследовательской статье/фреймворке DSPy.

Чтение разрозненных статей из этого раздела может оказаться не таким полезным, как изучение практических руководств: мы рекомендуем работы Лилиан Венг, Юджина Яна, Anthropic’s Prompt Engineering Tutorial и AI Engineer Workshop.

Генерация с дополненной выборкой (RAG)

  1. Введение в информационный поиск — немного несправедливо рекомендовать книгу, но мы хотим подчеркнуть, что RAG — это задача информационного поиска, история которого длится уже шестьдесят лет и включает в себя TF-IDF, BM25, FAISS, HNSW, а также другие «скучные» методики.

  2. Публикация о RAG за 2020 год — именно в ней впервые появился этот термин. Авторы оригинального исследования стали основателями Contextual и ввели в обиход подход RAG 2.0. Современные популярные техники для RAG — HyDE, chunking, rerankers, мультимодальные данные — лучше сформулированы в других источниках.

  3. MTEB — этот бенчмарк известен своим переобучением, поэтому его автор считает его неактуальным. Тем не менее, де-факто он остается бенчмарком. О многих эмбеддингах существуют исследовательские статьи, так что можете выбирать сами: SentenceTransformers, OpenAI, Nomic Embed, Jina v3, cde-small-v1, ModernBERT Embed; все более стандартными становятся эмбеддинги Matryoshka.

  4. Статья по GraphRAG — решении Microsoft по добавлению графов знаний в RAG, теперь выведенном в open source. Один из самых популярных трендов в RAG в 2024 году, наряду с ColBERT/ColPali/ColQwen (подробнее об этом в разделе 7).

  5. RAGAS — простой фреймворке для оценки RAG, рекомендованный OpenAI. Также см. фреймворк Nvidia FACTS и Extrinsic Hallucinations in LLMs — обзор причин/оценок галлюцинаций за авторством Лилиан Венг.

В 2024 году RAG стала одной из основных технологий в разработке ИИ, поэтому советуем изучить по ней как можно больше отраслевых ресурсов. Вероятно, наиболее ценными образовательными ресурсами будут LlamaIndex (курс) и LangChain (видео). Еще RAG часто сравнивают по эффективности с Long Context — вот неплохое исследование на эту тему.

Агенты

  1. Статья по SWE-Bench (подкаст на эту тему) — после того, как его начали использовать Anthropic, Devin и OpenAI, сегодня это, вероятно, самый высокорейтинговый бенчмарк агентов (по сравнению с WebArena и SWE-Gym). Строго говоря, это бенчмарк кодинга, но в большей степени тест агентов, чем сырых LLM. Также рекомендуем почитать про SWE-Agent, SWE-Bench Multimodal и Konwinski Prize.

  2. Статья по ReAct (подкаст) — ReAct стал началом длинной серии исследований LLM, использующих внешние инструменты и вызывающих функции, в том числе Gorilla и BFCL Leaderboard. Из исторического интереса можно изучить Toolformer и HuggingGPT.

  3. MemGPT — одна из примечательных методик эмуляции долговременной памяти агентов, применяемая в ChatGPT и LangGraph. Сегодня ее используют для всех систем агентов: от MetaGPT до AutoGen и Smallville.

  4. Voyager — разработанный Nvidia способ реализации трех компонентов когнитивной архитектуры (curriculum, skill library, sandbox) для повышения производительности. Если хотите погрузиться в эту тему, рекомендуем также ознакомиться с работой Agent Workflow Memory.

  5. Материал Anthropic на тему создания эффективных агентов — отличный обзор за 2024 год с упором на важность chaining, маршрутизации, параллелизации, оркестрации, оценки и оптимизации. См. также статьи Лилиан Венг (бывшей сотрудницы OpenAI), Сунью Яо (теперь работающего в OpenAI) и Чипа Хуэна.

Генерация кода

  1. The Stack — открытый датасет-близнец The Pile с упором на код, с которого начинается родословная прекрасных открытых датасетов по генерации кода, таких как The Stack v2 и StarCoder.

  2. Работы по модели Open Code — можете выбирать между DeepSeek-Coder, Qwen2.5-Coder и CodeLlama. Многие считают лучшей моделью генерации кода 3.5 Sonnet, но по ней не выпускали научных работ.

  3. HumanEval/Codex — этот бенчмарк перестал быть вызовом для современных архитектур, но он остается ключевым для понимания принципов работы с моделями в области генерации кода. Сегодня в этой сфере более знаменит SWE-Bench, но он затратен и оценивает агентов, а не модели. Современные аналоги этого бенчмарка — Aider, Codeforces, BigCodeBench, LiveCodeBench и SciCode.

  4. Статья по AlphaCodeium — Google выпустила AlphaCode и AlphaCode2 , хорошо справляющиеся с задачами программирования. Рассматриваемый в статье метод Flow Engineering позволяет существенно повысить эффективность любой базовой модели.

  5. CriticGPT как известно, LLM способны генерировать код, имеющий проблемы с безопасностью. OpenAI обучила для их выявления CriticGPT, а Anthropic использует разреженные автоэнкодеры, чтобы отслеживать, почему LLM совершает такие ошибки.

Генерация кода — еще одна область, для понимания которой лучше погрузиться в практику, а не в теоретические исследования. Рекомендации по разработке генерации кода и кодовых агентов наподобие Devin можно найти только в отраслевых постах и докладах.

Компьютерное зрение

  • Работы по компьютерному зрению, не связанные с LLM, по-прежнему актуальны: здесь, например, следует ознакомиться с научной работой по YOLO (теперь он имеет версию 11, но его родословную следует иметь в виду). При этом все более важную роль начинают играть трансформеры (наглядный пример — статья DETRs Beat YOLOs).

  • Статья по CLIP — первом успешном ViT. На данный момент его вытеснили BLIP/BLIP2 и SigLIP/PaliGemma, но о нем все равно стоит знать.

  • Бенчмарк MMVP (LS Live) — выполняет количественную оценку важных проблем CLIP. Также обратите внимание на мультимодальные версии MMLU (MMMU) и SWE-Benc.

  • Segment Anything Model и статья по SAM 2 — очень успешная фундаментальная модель сегментации изображений и видео. На одном уровне с GroundingDINO.

  • Исследования early fusion: в противовес работам по малозатратному «late fusion» наподобие LLaVA, early fusion охватывает Flamingo, Chameleon, AIMv2 от Apple, Core от Reka и так далее. На самом деле, существует как минимум четыре направления работ по визуальным языковым моделям (VLM).

Подавляющее большинство передовых исследований VLM в наши дни не публикуется (из последнего были системная карта GPT4V и сопутствующие исследования). Мы рекомендуем иметь опыт работы с функциями зрения 4o (в том числе с файнтюнингом зрения этой модели), Claude 3.5 Sonnet/Haiku, Gemini 2.0 Flash и o1. Среди прочих: Pixtral, Llama 3.2, Moondream, QVQ.

Голос

  • Статья по Whisper — популярной модели Алека Рэдфорда по распознаванию речи. Whisper v2, v3, distil-whisper и v3 Turbo имеют открытые веса, но научных работ по ним не найти.

  • Статья по NaturalSpeech — одному из ведущих подходов к преобразованию текста в речь. Недавно выпущена v3.

  • AudioPaLM — последний пример размышлений Google о голосовых технологиях до того, как PaLM превратился в Gemini. 

  • Kyutai Moshi — впечатляющая модель по преобразованию речи в текст (с открытыми весами и качественным демо). Рекомендуем также почитать обзор Hume OCTAVE.

  • OpenAI Realtime API: The Missing Manual — научных работ по передовой «омнимодели» нет, но зато вы можете ознакомиться с манулом по Realtime API, подготовленном Latent Space.

Здесь мы рекомендуем не ограничиваться изучением наработок крупных лабораторий и копнуть чуть глубже — попробуйте Daily, Livekit, Vapi, Assembly, Deepgram, Fireworks, Cartesia, Elevenlabs и так далее. Также почитайте обзор State of Voice 2024.

Генерация изображений и видео

Также рекомендуем ознакомиться с ComfyUI (вот интервью с ее разработчиками). Диффузия текстов/музыки и авторегрессивная генерация изображений пока остаются нишевыми, но постепенно набирают популярность.

Файнтюнинг

Мы рекомендуем изучить заметки по Unsloth и статью How to fine-tune open LLM от HuggingFace, чтобы получить более полное представление о процессе. Очевидно, что это бесконечно глубокая тема: файнтюнинг может быть как прикладной задачей для инженеров, так и переходить в научные исследования, где создаются новые подходы и методы.


С чего начать

Столь объемный список может выглядеть пугающе для новичка. Мы рекомендуем сконцентрироваться на разделах, которые представляют для вас наибольший интерес, и постараться придерживаться намеченного плана. 

Можете выработать собственный подход к обучению или использовать руководство «Как читать научные публикации за час». Пару полезных советов на данную тему также есть в этом треде, а здесь вы найдете дневник одного из читателей с полезными заметками по ключевым статьям из этой подборки. Если вы хотите заниматься изучением в компании единомышленников, можете также присоединиться к Discord-серверу Latent Space

Вспомнили научную работу, которую обязательно стоило включить в этот список? Делитесь предложениями в комментариях! 

Комментарии (5)


  1. pocoZ
    24.01.2025 14:19

    Положу в закладки, чтобы и потом не прочитать


    1. full_moon Автор
      24.01.2025 14:19

      ;)


  1. Jijiki
    24.01.2025 14:19

    сеть Хопфилда, в вики что-то есть


  1. parus-lead
    24.01.2025 14:19

    Спасибо за отличный структурированный список. Очень удобно иметь под рукой, чтобы ничего не забыть


  1. astenix
    24.01.2025 14:19

    @full_moonВы все это прочитали?