Современная наука не могла бы существовать без онлайн-хранилища научных данных, известного как arXiv. Спустя три десятилетия его создатель всё ещё не может с ним расстаться.

«Я только решил, что выбрался, а меня продолжают затягивать обратно!» С лукавой ухмылкой, к которой я скоро привыкну, Пол Гинспарг цитирует Майкла Корлеоне из «Крёстного отца». У Гинспарга, профессора физики Корнельского университета и стипендиата Макартура, может быть, и мало общего с мафиози в исполнении Аль Пачино, но обоих объединяет чувство, что им отказали в изящном уходе из созданной каждым из них организации.

Почти 35 лет назад Гинзпарг создал arXiv, цифровое хранилище, где исследователи могли делиться своими новыми результатами — до того, как эти результаты уходили на систематические обзоры или проверки. Зайдите сегодня на сайт arXiv.org (он произносится как «архив»), и вы всё ещё увидите его старый дизайн в стиле Web 1.0 с красным баннером и печатью Корнельского университета, который является институциональным домом платформы. Но за непритязательным фасадом arXiv скрывается тектоническая перестройка, которую он вызвал в научном сообществе. Если бы arXiv перестал функционировать, учёные со всех уголков планеты испытали бы немедленное и глубокое потрясение. «Все математики и физики пользуются им, — сказал мне Скотт Ааронсон, компьютерный учёный из Техасского университета в Остине. — Я этот сайт сканирую каждый вечер».

В каждой отрасли есть определённые особенности, с которыми, по всеобщему признанию, есть проблемы: страхование в здравоохранении, лицензирование в музыке, стандартизированное тестирование в образовании, чаевые в ресторанном бизнесе. В академической сфере это издательское дело. В академических изданиях доминируют такие гиганты, как Elsevier и Springer. Назвать их практику формой бандитизма — не столько оскорбление, сколько экономическое наблюдение. Представьте себе, если бы книжное издательство потребовало от авторов писать книги бесплатно и, вместо того чтобы нанимать штатных редакторов, поручило бы другим авторам редактировать эти книги, тоже бесплатно. И это не всё: конечный продукт затем продавался бы по непомерно дорогим ценам обычным читателям, а учреждения были бы вынуждены платить непомерную плату за доступ к нему.

«Свободное редактирование», которому способствуют академические издательства, называется рецензированием — процессом, в ходе которого коллеги-исследователи проверяют новые результаты. На это могут уйти месяцы, а то и год. Но с помощью arXiv учёные могли размещать свои работы — известные на этом непроверенном этапе как препринты — для мгновенного и бесплатного доступа к ним всех желающих. Одним из величайших достижений arXiv было «показать, что можно отделить фактическую передачу результатов от процесса рецензирования», — говорит Пол Фендли, один из первых модераторов arXiv, а ныне физик из Колледжа всех душ в Оксфорде. Во время таких кризисов, как ковид-пандемия, важные открытия быстро распространялись, в частности, с помощью платформ bioRxiv и medRxiv, вдохновлённых arXiv, что, по оценкам одного исследования, могло спасти миллионы жизней.

Хотя работы, подаваемые в arXiv, не рецензируются, они модерируются экспертами в каждой области, которые добровольно тратят своё время на то, чтобы обеспечить соответствие работ основным академическим стандартам и соблюдение рекомендаций arXiv: только оригинальные исследования, никаких фальсифицированных данных, достаточно нейтральный язык. Материалы также проходят автоматическую проверку для базового контроля качества. Без этого платформу заполонили бы псевдонаучные статьи и любительские работы.

В 2021 году журнал Nature назвал arXiv одним из «10 компьютерных кодексов, которые изменили науку», высоко оценив его роль в развитии научного сотрудничества. (Статья, кстати, находится за пэйволом — разблокировать её можно за 199 долларов в год.) По последним подсчётам, в arXiv размещено более 2,6 миллиона работ, ежемесячно поступает 20 000 новых заявок и насчитывается 5 миллионов ежемесячных активных пользователей. Многие из самых значительных открытий XXI века впервые появились на этой платформе. Статья «Трансформеры», положившая начало современному буму ИИ, выложена на arXiv. Там же было размещено решение гипотезы Пуанкаре, одной из семи задач премии тысячелетия, известной своей сложностью и вознаграждением в 1 миллион долларов. То, что статья выложена на arXiv, не означает, что когда-нибудь она не появится в престижном журнале, но часто именно там исследования дебютируют и остаются в открытом доступе. Статья о трансформерах до сих пор доступна через arXiv.

Для учёных представить себе мир без arXiv — всё равно что для остальных представить его без публичных библиотек или GPS. Но если взглянуть на его внутреннюю работу, становится ясно, что он не является утопией открытого доступа к знаниям. За годы существования arXiv его постоянству угрожало всё: от бюрократических разборок до устаревшего кода и даже шпионского скандала. По словам Гинспарга, который обычно перенаправляет запросы на интервью в документ с часто задаваемыми вопросами – который и сам лежит на arXiv – и который пытался отговорить меня от личной встречи с ним, arXiv — это «ребёнок, которого я отправил в колледж, но который продолжает возвращаться, чтобы пожить в моей гостиной и похулиганить».


Мы с Гинспаргом встретились в течение нескольких дней прошлой весной в Итаке, штат Нью-Йорк, где находится Корнельский университет. Признаюсь, я испытывал опасения перед нашей встречей. Джеффри Уэст, бывший начальник Гинспарга в Лос-Аламосской национальной лаборатории, однажды описал его как «человека с весьма сложным характером», который «печально известен в обществе» как «довольно трудный тип». Он также сказал, что он «чрезвычайно забавный» и «отличный парень». Во время нашего раннего обмена электронными письмами Гинспарг сразу же сказал мне, что рассказы об arXiv никогда его не впечатляют: «Так много статей, так мало понимания», — написал он.

В свои 69 лет Гинспарг имеет худощавое телосложение пенсионера-триатлониста, его колени испещрены шрамами, полученными за всю жизнь походов, альпинизма и езды на велосипеде. (Он до сих пор иногда руководит походами, и молодые учёные с трудом поспевают за ним). Его одежда всегда была свободной, как будто он только что прошёл путь Святого Иакова, из-за чего моя повседневная одежда казалась слишком нарядной. Большую часть времени мы проводили вместе, катаясь на велосипеде по холмам города, и максимальная скорость на арендованном мной электровелосипеде не позволяла мне угнаться за его эффективной работой с педалями.

Приглашённый однажды днём в офис Гинспарга в физическом корпусе Корнелла, я обнаружил, что там не то чтобы «бардак» — такое определение предполагает, что там можно навести порядок. Вместо этого предметы в комнате казались инертными, давно смирившимися со своей участью: нераспечатанные коробки 1990-х годов, кипы журналов Physics Today, непонятный ЭЛТ-монитор, валяющееся в углу приглашение в Белый дом от Обамы. Время от времени в кучу добавлялись новые предметы. Я заметил копию недавней книги Стивена Вольфрама «Второй закон» с запиской от Вольфрама: «Раз уж вы не можете найти её на arXiv :)». Единственным предметом, который, казалось, активно использовался, была доска, испещрённая символами и уравнениями, относящимися к квантовой теории измерений, и испещрённая обозначениями Дирака.

Показывая мне здание и свои обычные места обитания, Гинспарг был очень разговорчив и не упускал ни одной детали: гнездования местных краснохвостых ястребов, приходы и уходы сотрудников столовой, планы нового здания, возводимого за его офисом. Он был игрив, даже шаловлив. Рассказывая мне о подкасте, который он слушал, Гинспарг вдруг остановился и сказал: «Кстати, мне нравится ваш цвет волос, он вам идёт» — мои волосы окрашены в пепельно-серый, если кому-то интересно, — после чего плавно перешёл к рассказу о жёстком диске, который его подвёл.

На диске, который он отправил на восстановление, записана большая языковая модель — последнее интеллектуальное увлечение Гинспарга. Среди его длинного перечня жалоб есть и такая: поскольку в последнее время в arXiv наблюдается резкий рост числа присылаемых работ, особенно в категории ИИ, количество некачественных работ следует аналогичной кривой, и у arXiv не хватает добровольцев, чтобы проверить их всё. Поэтому он возится с диском, пытаясь отловить некачественные работы с помощью того, что он называет «фильтром от психов, ищущих Святой Грааль». И Гинспарг считает, как это часто бывало за тридцатилетнюю историю arXiv, что итоговое качество не будет на высоте, если он не будет заниматься всем сам.


Задолго до того, как arXiv стал критически важной инфраструктурой для научных исследований, он представлял собой набор скриптов, запущенных на компьютере Гинспарга под управлением NeXT. В июне 1991 года Гинспарг, работавший в то время научным сотрудником Лос-Аламосской национальной лаборатории, посетил конференцию в Колорадо, где произошла судьбоносная встреча.

Началось всё с того, что Джоанн Кон, подруга Гинспарга и постдок в Институте перспективных исследований в Принстоне, вела список рассылки препринтов по физике. В то время не существовало централизованного способа доступа к этим препринтам. Если исследователи не были включены в определённые списки рассылки, которые зависели от их принадлежности к престижным институтам, или не знали, с кем именно связаться по электронной почте, им приходилось ждать месяцами, чтобы ознакомиться с новыми работами в опубликованных журналах.

Затем появился случайный комментарий физика, обеспокоенного тем, что во время поездок память его компьютера заполняется присланными по электронной почте статьями.

Гинспарг, который занимался программированием ещё в школе, спросил у Кон, не думала ли она об автоматизации процесса рассылки. Её это не заинтересовало, и она посоветовала ему заняться этим самому. «Я помню, что на следующий день он набросал скрипты и выглядел очень довольным тем, что сделал это так быстро, — рассказала мне Кон. — Трудно передать, насколько всё было по-другому в то время. Пол действительно многое предвидел».

Слушая рассказы от Гинспарга и про него, невозможно не увидеть в нём своего рода Форреста Гампа эпохи Интернета, который оказался в нужных местах в переломные моменты и пересекался с революционными фигурами. Будучи студентом Гарварда, он учился в одной группе с Биллом Гейтсом и Стивом Балмером; его старший брат был аспирантом в Стэнфорде, где учился Терри Виноград, пионер ИИ. У обоих братьев были адреса электронной почты и доступ к Arpanet, предшественнику Интернета, в то время, когда мало у кого это было.

Получив докторскую степень по теоретической физике в Корнелле, Гинспарг начал преподавать в Гарварде. Карьера там не задалась: его не зачислили в штат — в Гарварде с этим вообще сложно — и он начал искать работу в другом месте. Тогда Гинспарга пригласили в Лос-Аламос, где он мог заниматься исследованиями в области теоретической физики высоких энергий целыми днями, не имея других обязанностей. Кроме того, Нью-Мексико идеально подходило для его активного образа жизни.

Когда arXiv только начинал свою работу, это был не сайт, а автоматизированный сервер электронной почты (а через несколько месяцев и FTP-сервер). Затем Гинспарг услышал о чем-то, что называется «Всемирной паутиной». Изначально скептически настроенный — «я не могу интересоваться всеми причудами подряд» — он был заинтригован, когда в 1993 году вышел браузер Mosaic. Вскоре после этого Гинспарг создал веб-интерфейс для arXiv, который со временем стал основным способом доступа к серверу. Он также иногда консультировался с программистом из Европейской организации ядерных исследований (CERN) Тимом Бернерсом-Ли — ныне сэром Тимом «Изобретателем Всемирной паутины» Бернерсом-Ли, которого Гинспарг с нежностью вспоминает за приготовление вкуснейшей рыбы-меч на гриле в его доме во французской глубинке.

В 1994 году, получив грант Национального научного фонда, Гинспарг нанял двух человек для преобразования shell-скриптов arXiv в более надёжный Perl-код. Оба они были технически одарёнными, но, возможно, слишком одарёнными, чтобы остаться в проекте надолго. Один из них, Марк Дойл, позже перешёл в Американское физическое общество и стал его главным информационным директором. Другой, Роб Хартилл, одновременно работал над проектом по сбору данных о развлечениях: Internet Movie Database. (После IMDb Хартилл продолжил работу в Apache Software Foundation, став там заметной фигурой).

До того, как arXiv стал называться arXiv, доступ к нему осуществлялся по имени хоста xxx.lanl.gov («xxx» не имело тех явных коннотаций, что сегодня, подчёркивает Гинспарг). Во время поездки на машине он и его жена устроили мозговой штурм, придумывая более приятные названия. Архив? Уже занято. Может быть, они могли бы заменить греческий эквивалент X — чи (произносится как «кай»). Она записала его и вычеркнула «е» на конце слова, чтобы сделать название более симметричным с центром на «Х», — говорит Гинспарг. «Так появился arXiv». На этом этапе не было особой формальной структуры. Число разработчиков обычно оставалось на уровне одного-двух человек, а модерацией занимались в основном друзья, знакомые и коллеги Гинспарга.

В начале своей работы Гинспарг рассчитывал пополнять arXiv примерно на 100 работ в год. Оказалось, что их количество приближается к 100 в месяц и продолжает расти. «В первый день что-то произошло, во второй день что-то произошло, на третий день Эд Виттен опубликовал статью, — так однажды выразился Гинспарг. — Тогда всё сообщество присоединилось к проекту». Эдвард Виттен — признанный специалист по теории струн и, вполне возможно, самый умный человек на свете. «arXiv позволил физикам гораздо быстрее общаться по всему миру», — написал мне Виттен в электронном письме. Со временем добавились такие дисциплины, как математика и информатика, и Гинспарг начал осознавать значимость этой новой электронной штуковины. К тому же, по его словам, «это было весело».

По мере роста использования arXiv столкнулся с проблемами, подобными тем, что возникают в других крупных программных системах, особенно в области масштабирования и модерации. Приходилось бороться с замедлениями, например, когда на arXiv обрушился слишком большой трафик с сайта «stanford.edu». Виновниками оказались Сергей Брин и Ларри Пейдж, которые в то время были заняты индексированием Интернета для проекта, который в итоге превратился в Google. Спустя годы, когда Гинспарг посетил штаб-квартиру Google, Брин и Пейдж лично извинились перед ним за этот инцидент.


Самая большая загадка заключается не в том, почему arXiv добился успеха. Скорее, в том, как он не был убит корыстными интересами, стремящимися защитить традиционные академические издания. Возможно, это произошло благодаря решению, которое Гинспарг принял в самом начале: при подаче заявки пользователи подписывали договор, который давал arXiv неисключительную лицензию на распространение работы в течение всего времени, даже в случае будущей публикации в другом месте. Этот стратегический шаг гарантировал, что ни одно крупное издательство, известное своими обычно агрессивными действиями по сохранению феодального контроля, никогда всерьёз не попытается закрыть arXiv.

Но даже когда влияние arXiv росло, высшие чины в Лос-Аламосе никогда особенно не поддерживали проект, который становился, можно сказать, более влиятельным, чем сама лаборатория. (Конечно, это было уже давно после расцвета Оппенгеймера, о котором рассказывается в докудраме Кристофера Нолана 2023 года). Первые годы работы в Лос-Аламосе были «сказочными и райскими», подчёркивает Гинспарг, это была лучшая работа в его жизни. Но в 1999 году коллегу-физика по лаборатории, Вэнь Хо Ли, обвинили в сливе секретной информации в Китай. С Ли, американца тайваньского происхождения, впоследствии сняли обвинения, а дело широко критиковалось за расовое профилирование. В то время скандал привёл к внутренним потрясениям. Были введены ограничения на поездки, чтобы предотвратить утечку информации, и даже обсуждался вопрос о том, чтобы подвергнуть сотрудников проверке на детекторе лжи. «Обстановка становилась только хуже и хуже», — говорит Гинспарг. Не помогло и то, что в аттестации, проведённой в том году, он был отмечен как «посредственный исполнитель», «не обладающий особыми компьютерными навыками, способствующими работе с лабораторными программами». Кроме того, у него только что родилась дочь, а школ поблизости не было. Он был готов уйти.

Гинспарг не стал говорить прямо, что «забрал» arXiv с собой, но факт остаётся фактом: в итоге он вернулся в свою альма-матер, Корнелл, — на этот раз на должность, и arXiv вместе с ним. Он поклялся, что освободится от проекта в течение «максимум пяти лет». В конце концов, его основной работой должно было быть не управление arXiv, а преподавание и исследования. В университете arXiv нашёл себе пристанище в библиотеке. «Они распространяют материалы среди учёных, — говорит Гинспарг, — так что это казалось естественным решением».

Но это было не так. Под капотом arXiv находилась сложная программная платформа, которая требовала технических знаний, намного превышающих те, что обычно имеются в университетской библиотеке. Одна только логика процесса подачи заявок включала в себя огромное количество потенциальных сценариев и крайних случаев, что делало код запутанным. Гинспарг и другие ранние сотрудники arXiv, с которыми я общался, считали, что библиотека не понимает значимости arXiv и относится к нему скорее как к чему-то второстепенному.

В библиотеке некоторые считали, что Гинспарг был слишком практичен. Другие говорили, что он был недостаточно терпелив. По словам человека, давно работающего в arXiv, он был «хорошим менеджером низшего звена», «но его методы управления не масштабировались». Большую часть 2000-х годов arXiv не мог удержать у себя больше нескольких разработчиков за раз.

Бумажный след

Нет никакого парадокса в том, что arXiv — это одновременно и неоценимый ресурс для новейших исследований, и своего рода Reddit для учёных, где сталкиваются глубокие и абсурдные мысли. Разборки по теории струн? Да. Судебные иски по поводу отклонённых работ? Естественно. Вот семь самых запоминающихся моментов в его истории.

1991: «Ground Ring of Two-Dimensional String Theory», автор Edward Witten

Первая работа теоретика струн, опубликованная в arXiv. Участие Виттена на ранних этапах помогло придать платформе веса.

1994: «Мир как голограмма», Леонард Сасскинд

Настоящий взрыв мозга: подобно тому, как голограмма создаёт трёхмерное изображение на плоской поверхности, всё, что находится внутри некоего пространства, может быть полностью описано информацией, расположенной на его двумерной границе.

2001: «Flaws in the Big Bang Point to GENESIS, A New Millennium Model of the Cosmos», Роберт Джентри

Когда эта «креационистская» статья была отклонена, а доступ Джентри к arXiv аннулирован, он подал иск против платформы, заявив о нарушении конституционных прав.

2002-2003: «Работы по темам Пуанкаре», Григорий Перельман

С их помощью российский математик решил одну из семи задач премии тысячелетия (единственную, решённую на сегодняшний день). Он отказался от премии в 1 миллион долларов и живёт в уединении.

2013: «Две работы о представлении слов», Миколов и др.

В этой работе была представлена word2vec — вербальная математика, позволяющая машинам понимать слова. Примерно в это время статьи по информатике стали доминировать на arXiv.

2017: «Attention Is All You Need» («Внимание — это всё, что вам нужно»), восемь исследователей Google

Статья, которая запустила тысячу чат-ботов.

2023: «Первый сверхпроводник комнатной температуры при атмосферном давлении», группа южнокорейских учёных

Сверхпроводник комнатной температуры? Исследователи по всему миру пытались воспроизвести результаты, но в итоге развенчали это утверждение.


У пионеров вычислительной техники есть два пути. Один — это жизнь в советах директоров, выступления с докладами и прибыльные консалтинговые услуги. Другой путь — это путь практикующего специалиста, который по-прежнему пишет и проверяет код. Понятно, на каком из них находится Гинспарг — и насколько противен для него другой путь. Как он сказал мне: «Ларри Саммерс тратит один день в неделю, консультируя какой-нибудь хедж-фонд, — это просто неприлично».

Но слишком долго оставаться на одном месте – такое тоже можно назвать неприличным поведением. К середине 2000-х годов, по мере развития Интернета, arXiv, по словам его нынешнего программного директора Стефани Орфан, стал «больше, чем все мы». Физик-креационист подал на него в суд за отклонение работ по креационистской космологии. Возникли и другие мини-скандалы, включая плагиат, а некоторые пользователи жаловались, что модераторы-добровольцы, являющиеся экспертами в своих областях, обладают слишком большой властью. В 2009 году Филип Гиббс, независимый физик, даже создал viXra (arXiv пишется наоборот), более или менее нерегулируемый Дикий Запад, где статьи по квантово-физико-гомеопатии могут найти своего читателя, и рассказать всем желающим, почему «пи» — это ложь.

Затем возникла проблема управления массивной кодовой базой arXiv. Хотя Гинспарг был способным программистом, он не был профессионалом в области программного обеспечения, придерживающимся таких отраслевых норм, как сопровождаемость и тестирование. Подобно строительству здания без надлежащих структурных опор или регулярных проверок безопасности, его методы позволяли быстро продвигаться вперёд, но впоследствии приводили к задержкам и осложнениям. Не раскаиваясь, Гинспарг часто в обход сотрудников библиотеки зарывался в код, чтобы проверить его на наличие ошибок. Сотрудники воспринимали это как оскорбление, обвиняя его в микроменеджменте и создании атмосферы недоверия.

В 2011 году, когда исполнилось 20 лет с момента создания arXiv, Гинспарг решил, что ему пора двигаться дальше, и написал в Nature статью под названием «ArXiv в 20 лет», которая задумывалась как прощальная заметка: «Для меня хранилище должно было стать трёхчасовой экскурсией, а не пожизненным заключением. Изначально ArXiv задумывался как полностью автоматизированный, чтобы не портить мою научную карьеру. Но ежедневная административная деятельность, связанная с его управлением, может занимать несколько часов в каждый будний день, круглый год без выходных».

Гинспарг планировал остаться в консультативном совете, и передать ежедневные операции сотрудникам библиотеки Корнельского университета.

Этого так и не произошло, и со временем некоторые обвинили Гинспарга в «вождении с заднего сиденья». Один человек сказал, что он держит определённый код в «заложниках», отказываясь делиться им с другими сотрудниками или на GitHub. Гинспарг был расстроен, потому что не мог понять, почему на реализацию функций, на которые раньше уходил один день, теперь уходят недели. Я поинтересовался у него, есть ли какая-нибудь документация для разработчиков по внедрению новой кодовой базы. Когда Гинспарг ответил: «Я изучал Фортран в 1960-х годах, а настоящие программисты не пишут документацию», — у меня, как у кодера, от таких слов чуть инфаркт не случился.

Технические проблемы усугублялись административными. В 2019 году Корнелл передал arXiv в ведение школьного отделения вычислительной техники и информационных наук, чтобы через несколько месяцев снова передать его в другие руки. Затем его возглавила новая женщина-директор, имеющий опыт работы, в частности, в сфере коммерческих академических изданий; она продержалась полтора года. «Это был переломный момент, — сказал один из сотрудников arXiv. — Это был не самый лучший период».

Но наконец наступило облегчение: В 2022 году Фонд Саймонса выделил финансирование, которое позволило arXiv начать набор сотрудников. Рамин Забих, профессор из Корнелла, который долгое время был его поклонником, стал директором факультета. При новой структуре управления миграция arXiv в облако и рефакторинг кодовой базы на Python наконец-то пошли в гору.


Однажды субботним утром я встретился с Гинспаргом у него дома. Он тщательно осматривал велосипед своего сына, который я одолжил для трёхчасовой поездки, которую мы запланировали в Маунт-Плезант. Рассказывая мне о маршруте, Гинспарг настойчиво и несколько иронично выражал сомнения в моей способности поспевать за ним. У меня возникло искушение упомянуть, что в старших классах я в одиночку проехал на велосипеде через всю Японию, но я воздержался и молча наслаждался моментом, когда на последнем подъёме в тот же день он сказал: «Возможно, я переоценил сложность этого мероприятия».

За несколько месяцев общения с Гинспаргом я столкнулся с тем, что его сложно было перебивать — простой вопрос часто выводил его на длинный монолог. Только в конце велосипедной прогулки мне удалось сказать ему, что он кажется мне упорным и упрямым и что, если бы во главе стоял кто-то более кроткий, arXiv мог бы и не выжить. Я был поражён его ответом.

— Знаете, для одного человека упорство — это терроризм для другого, — сказал он.

— Что вы имеете в виду? — спросил я.

— Я слышал, как сотрудники иногда жалуются, что их прямо терроризируют.

«Вы?» ответил я, хотя более правдивым ответом было бы «Ну ещё бы». Гинспарг, видимо, не расслышал вопроса и начал говорить о чём-то другом.

Помимо драматизма, если не терроризма, связанного с повседневной деятельностью, arXiv сталкивается с множеством других проблем. Лингвист Эмили Бендер обвинила его в «раковой опухоли» за то, что он продвигает «нездоровую науку» и «быструю науку». Иногда это действительно кажется слишком быстрым: В 2023 году нашумевшая статья, в которой утверждалось, что удалось достичь сверхпроводимости при комнатной температуре, оказалась совершенно ошибочной. (Но столь же быстрым было именно это развенчание — доказательство того, что arXiv работает так, как задумано). Есть и противоположные случаи, когда arXiv «цензурирует» — так говорят критики — идеально хорошие результаты, например, когда статью физика Хорхе Хирш, известный своим «индексом Хирша», отозвали за «подстрекательское содержание» и «непрофессиональный язык».

Как Гинспарг относится ко всему этому? Ну, он не из тех, кто поэтично рассказывает о своей миссии, продвижении идеологии или пионерах «открытой науки». Думаю, ему небезразличны эти вещи, но он не желает придавать своей работе грандиозные масштабы.

В какой-то момент я спросил, хочет ли он когда-нибудь по-настоящему освободиться от arXiv. «Знаете, я должен быть предельно честным — есть разные аспекты этой работы, которые остаются невероятно увлекательными, — сказал Гинспарг. — У меня есть идеальная платформа для тестирования идей и игры с ними». Хотя он больше не возится с продакшн-кодом, на котором работает arXiv, он всё ещё упорно работает над своим «святым Граалем» по отсеиванию фиктивных заявок. Это проект, в который он вовлечён и который поддерживает его активность. Возможно, с появлением новых языковых моделей он разберётся с этим. «Это как в той цитате Аль Пачино: меня продолжают затягивать обратно», — говорит он. Знакомая улыбка расплылась по лицу Гинспарга. «Но Аль Пачино в итоге начал находить удовольствие в убийствах».

Комментарии (19)


  1. stay_protected
    11.05.2025 14:30

    у них своё пикабу


  1. Refridgerator
    11.05.2025 14:30

    Я слышал, что ArXiv - не единственный проект подобного рода. А когда сам заглянул туда из любопытства, после новости о Перельмане - то не смог найти ничего, хоть как-то значимого по интересующим меня темам. А вот откровенного бреда (в частности, математического) - там прям навалом.


    1. MarySem
      11.05.2025 14:30

      Конечно, там много препринтов и вообще сомнительного, но это примерно то же самое как говорить, что пабмед - помойка :) +Возможно, зависит от конкретной темы и что именно/как ищете? А так я нереально благодарна ArXiv, что туда выкладываются нерецензируемые препринты статей, которые потом в чуть изменённом виде публикуются в платных журналах. Очень облегчает жизнь (ИИ, биоинформатика, молекулярная биология, генетика, медицина)


    1. kaptnemo
      11.05.2025 14:30

      Другие репозитарии научных препринтов: bioRxiv, chemRxiv, EarthArXiv, engrXiv, medRxiv, PsyArXiv, preprints.org, HAL.


  1. GidraVydra
    11.05.2025 14:30

    Я склонен согласиться с тем, что препринты - это научный фастфуд. Сервисы препринтов завалены информационным мусором, это факт. При этом абсолютно непонятно, чем выкладывание материала в свой бложик или соцсеть хуже, чем в препринт-сервис? Нормального поиска по препринтам всë равно нет.


    1. MishaRash
      11.05.2025 14:30

      При этом абсолютно непонятно, чем выкладывание материала в свой бложик или соцсеть хуже, чем в препринт-сервис? Нормального поиска по препринтам всë равно нет.

      • Многие учёные стараются следить за новыми работами на arXiv в своём разделе, более узком (скажем, astro-ph.CO) или более широком (например, весь astro-ph). В блоге или соцсети меньше аудитория, особенно если регулярно ими не заниматься.

      • Материалы с arXiv индексируются в других базах данных публикаций (например, NASA Astrophysics Data System и INSPIRE для физики высоких энергий), где лучше поиск. При этом ещё считаются цитирования, и впоследствии сопоставляются с версией той же работы, опубликованной в журнале.


      1. CBET_TbMbI
        11.05.2025 14:30

        Я слышал наоборот, мало кто из настоящих учёных читает его. Слишком много хрени. Научные журналы намного лучше. В них хоть какое-нибудь резензирование есть.


        1. haqreu
          11.05.2025 14:30

          Как раз научным работникам зачастую проще, у них уже есть устоявшееся мнение о коллегах, которых не так и много для каждой взятой области.


        1. MishaRash
          11.05.2025 14:30

          Я слышал наоборот, мало кто из настоящих учёных читает его. Слишком много хрени.

          Как в другом ответе указали, стоило уточнить, что я имел в виду астрономию, хотя вроде бы в физической космологии и физике частиц тоже уделяют большое внимание arXiv'у.

          И учёные (конечно) не обязательно читают подробно каждую работу, а скорее просматривают заголовки, списки авторов и иногда абстракты, чтобы определить, интересно ли разбираться дальше. Многие (вроде бы больше среди студентов и молодых постдоков) пользуются рекомендательными системами для arXiv (с ИИ или без), перекладывая на них часть работы по фильтрации.


      1. GidraVydra
        11.05.2025 14:30

        У вас в астрономии какая-то особая атмосфера. И публикации у вас платные, и препринты у вас кто-то читает.

        В химии и материаловедении вообще не так. Да и в биологии тоже. Я за все свои 20+ лет научной карьеры цитирования препринтов раза три видел, наверное. Никто из моих коллег специально препринты не читает (ну или тщательно скрывают). Только если наткнулись на препринт конкретной статьи в ходе поисков, что редкость.

        Ну и текстовый поиск - это несерьезно. Серьезные научные поисковики, которые предоставляют что-то помимо текстового поиска, не индексируют препринты.


        1. Pshir
          11.05.2025 14:30

          Так архив, как раз, и выполняет ровно свою функцию: оперативно оповещать свою узкую область о свежих результатах, находящихся в процессе рецензирования. Ну и цитирования случаются, если процитировать уже имеет смысл, а статья в журнале всё ещё не опубликована. В экспериментальной физике это меньше распространено, но в теоретической - это, кажется, стандартный путь вообще всех статей.


        1. MishaRash
          11.05.2025 14:30

          У вас в астрономии какая-то особая атмосфера. И публикации у вас платные, и препринты у вас кто-то читает.

          В химии и материаловедении вообще не так. Да и в биологии тоже.

          Препринты вроде читают не только в астрономии, но и в физической космологии, физике частиц (включая экспериментальную) и квантовых вычислениях. Кажется, в машинном обучении тоже, но там есть особенности с качественными публикациями в основном через материалы конференций.

          В космологии есть такой фактор: многие работы, особенно экспериментальные, делаются большими формализованными коллаборациями, многие из которых требуют внутренней рецензии для статей (использующих ещё не общедоступные результаты или другие специальные ресурсы коллаборации) перед их выходом в свет (обычно на arXiv с подачей в журнал вскоре). Это не всегда так строго, как журнальная рецензия (например, у нас в DESI внутриколлаборационные рецензенты скорее рекомендуют, чем требуют), но на практике получается достаточно сильный контроль качества.

          А в химии, материаловедении и биологии публикации бесплатные для авторов и при этом доступные не только подписчикам журнала?


          1. GidraVydra
            11.05.2025 14:30

            В большинстве журналов - бесплатные. Платные в основном помойки, есть несколько, которые вроде не помойки, но на них всё равно косо смотрят. Многие считают наличие статей в таких журналах серьезным косяком в CV, а некоторые даже сразу отклоняют кандидатов, у которых заметный процент статей в платниках.

            По поводу доступа - у научных учреждений и крупных коммерческих R&D есть подписки на большинство актуальных журналов по соответствующей области знаний.


    1. avshkol
      11.05.2025 14:30

      В куче "жирного грунта" отыскиваются жемчужины - за это его и читают... и мы даже сейчас не можем оценить, сколько идей, взятых с arXiv, привели или уже сейчас приводят к продвижениям в разных областях...


    1. MarySem
      11.05.2025 14:30

      Выкладывание в бложик хуже тем, что на пост в бложике всё же никак нельзя сослаться в научной статье, а на препринт хоть как-то можно. Так что отличается.


      1. GidraVydra
        11.05.2025 14:30

        Никаких проблем сослаться на бложик в научной статье нет. Ссылка на интернет-ресурс - совершенно нормальный вид цитирования, я регулярно его использую. В темплатах большинства журналов даже есть отдельный шаблон для ссылки на интернет-ресурс. А вот на препринты ни разу не было необходимости ссылаться.


        1. MishaRash
          11.05.2025 14:30

          Никаких проблем сослаться на бложик в научной статье нет. Ссылка на интернет-ресурс - совершенно нормальный вид цитирования, я регулярно его использую. В темплатах большинства журналов даже есть отдельный шаблон для ссылки на интернет-ресурс. А вот на препринты ни разу не было необходимости ссылаться.

          Проблемы не принципиальные, но

          • arXiv при этом заботливо выдаёт BibTeX для препринта, можно его достать в немного другом формате и из баз данных публикаций (NASA ADS, INSPIRE-HEP) по быстрым ссылкам.

          • У препринтов в этих базах считаются цитирования и потом суммируются с журнальной версией (когда и если она появляется). Правда, может, популярный интернет-ресурс и проиндексируют в других системах, скажем, Google Scholar (может быть, это стандарт в вашей области).


          1. Refridgerator
            11.05.2025 14:30

            Может, в этом и суть, что кому-то важнее индекс цитирования, а не качество публикации? Даже если это цитирование носит негативный оттенок, типа "вопреки статье А мы получили результаты Б, которые полностью нивелируют выводы из статьи Ц".


  1. flx0
    11.05.2025 14:30

    Статья о трансформаторах до сих пор доступна через arXiv.

    Конечно, именно о трансформаторах. Зачем редакторам хабра вычитывать за гугл-транслейтом?