Александр Нозик, директор Scientific Programming Centre, о научном программировании, open source в России и не только / forpes.ru

Главная
Александр Нозик, директор Scientific Programming Centre, о научном программировании, open source в России и не только

Александр Нозик, директор Scientific Programming Centre, о научном программировании, open source в России и не только +11

14.01.2025 08:53

dmitrykabanov 11 1300 Источник

Если бы это двигали только ученые, то всю идею можно было бы класть в гроб и закапывать. Ученые — отличные генераторы идей и кадров, чтобы эти идеи реализовать.

Но как только мы выходим за рамки чистой идеи, и становится нужен минимальный менеджмент ресурсов, все оказывается плохо.

— Александр Нозик @darksnake, директор Scientific Programming Centre (SPC)

Александр Нозик, директор Scientific Programming Centre (фото из личного архива)

«Астрологи объявили» месяц научного open source, и это — большое интервью c Александром о развитии сферы научного программирования на основе открытых разработок. Говорим об истории вопроса, проблемах, менеджменте и не только.

Кстати, тут собрал ожидания экспертов на этот год в open source.

Расскажите, пожалуйста, о собственном профессиональном опыте и развитии в научном программировании. Чем вас заинтересовала эта сфера деятельности?

Наверное, тут надо начать, как учили позитивисты, с терминов. Что такое это «научное программирование». Центр научного программирования был «придуман» в 2021 году, а формально создан в 2022 году. И если поискать, то до этого момента термин почти не встречался, была пара книг с таким названием, но на этом все. Поэтому нам пришлось не столько «присоединиться к явлению», сколько в какой-то мере его изобрести.

Если взглянуть не на название, а на содержание, то тут корни уходят в гораздо более раннее время. Я поступил в МФТИ в 2002 году. У меня уже был некоторый опыт программирования на Pascal, С++ и Delphi так как в моем доме компьютер появился по российским меркам очень рано (в районе 1993 года), и мой отец осваивал программирование и немного учил меня.

В 2004 году я пришел на кафедру ИЯИ РАН к академику Лобашеву. Какое-то время я пытался приткнуться к какой-то полезной работе, но ни у кого не было на меня времени, поэтому мне предложили самому найти, чем заняться. И я занялся тем, с чем был уже более или менее знаком — программированием и анализом данных.

По мере того, как я разбирался с этой «дисциплиной» и смотрел на то, что делают в этой сфере люди вокруг, я понимал, что качество программного обеспечения в науке крайне низкое, и есть многие вещи, которые можно было бы улучшить. В районе 2007 года мне стало совсем тесно в экосистеме «учебного» языка Оберон, который всячески проповедовал мой тогдашний наставник Федор Васильевич Ткачев, и я начал искать более индустриальные (хотя тогда я такого слова не знал) решения. И начал пробовать писать на Java.

По мере того, как я погружался в эту экосистему, мне все больше и больше становилось очевидно, что программы и методы, которые используют в науке, необратимо устарели и стали бы куда лучше, если в них можно было бы использовать современные (на тот момент) инструменты из прикладного программирования — но этого не получается добиться, потому что ученые в принципе не хотят и не умеют заниматься программированием.

А потом произошел обратный эффект. В 2016–2017 годах, перепробовав несколько разных языков, я начал активно писать на Kotlin и, что более важно, активно общаться в комьюнити. И обнаружил удивительную вещь: не только научные программы могут много выиграть от индустрии, но и в индустриальном программировании только-только начинают внедрять методы, которые я для своих поделок разрабатывал за несколько лет до этого.

То есть и индустрия может получить много пользы от науки.

Мои сотрудники прошли примерно тот же путь, хотя быть может и в более сжатые сроки. Большинство начинало в академической среде, но в какой-то момент смотрело в сторону индустриальных подходов и приходило к выводу о том, что «тут надо что-то делать».

Как это часто бывает с новыми идеями, пробиться было непросто. Я пытался создать маленькую лабораторию (сектор) в ИЯИ РАН для того, чтобы разрабатывать более эффективные и современные программы, но оказалось, что там просто нет программистов. При том, что потребность в более качественном ПО уже ощущалась, писать его было некому. Сейчас почти все мои сотрудники — это в той или иной мере мои ученики. В 2016 фундамента для такой работы не было. Пришлось его построить самостоятельно.

Коллеги Александра по MIPT-NPM и SPC (фото из личного архива)

В общественном сознании переломными, наверное, можно считать «пандемические годы». За два года в мире появилось несколько групп, так же, как и мы, осознавших, что подход к разработке ПО в науке надо менять. Общество стало готово воспринимать эту идею. Хотя полного признания и инструментов для внедрения нет до сих пор.

Сейчас для нас «научное программирование» — это возможность привносить инструменты и методы из индустрии в ПО для науки, а также возможность привносить исследовательский подход и модельное мышление в индустриальную программную инженерию.

С учетом вашего опыта, можно ли утверждать, что сфера научного программирования становится более структурированной и понятной: как с позиции проблем, над которыми можно работать, так и карьерных возможностей?

Определенно наблюдается улучшение ситуации. Сейчас понимание того, что качество ПО в науке неудовлетворительное, является консенсусом. Принимаются меры для того, чтобы это изменить. Также в индустрии предпринимаются попытки приложить исследовательскую методологию к совершенствованию методов программной инженерии. К сожалению, понимание проблемы — не значит работающая система.

В академии главной проблемой является наукометрия. Много статей на разработке ПО не сделаешь. Журналы по тематике начали появляться, но их все еще очень и очень мало, и методология для «научной» публикации ПО отработана плохо. Кроме того, как минимум в России очень туго с грантами. Заявки все время «проваливаются мимо рубрикатора» — попадают либо к «физикам старой закалки», которые просто не признают программирование за что-то серьезное, либо в раздел computer science, который тоже не имеет почти ничего общего с программной инженерией и посвящен в основном разработке алгоритмов, а не реализации инженерных систем. [Интервью по теме — тут.]

В индустрии проблема другая. Многие компании пытаются создавать исследовательские подразделения, но сталкиваются с тем, что структура такого подразделения и методология его работы радикально отличается от того, что делается в индустриальной разработке. Для создания таких подразделений нужны люди с опытом и в академической науке, и в индустрии, а таких все еще очень мало. [Запись по теме — тут.]

Тем не менее мы видим вполне определенный и направленный процесс. И я уверен, что в течение нескольких лет эти проблемы будут решены и это понятие научного программирования станет неотъемлемой частью как НИИ, так и коммерческих компаний. Мы сами не сидим, сложа руки. Скоро будет третий выпуск нашей магистратуры. Мы каждый год ищем самых мотивированных студентов и привлекаем все новых академических и индустриальных партнеров.

Как вы могли бы охарактеризовать положение дел в мировом и российском научном программировании? В чем заключаются основные отличия? Что сейчас на переднем крае? Какие есть сложности? Какое место в этой истории занимает open source?

Последняя череда кризисов разной природы больно ударила не только по России. Многие инициативы по развитию научного ПО, которые возникли во время пандемии, не получили должного развития. Но общая тенденция везде одинаковая. Потребность в более плотной интеграции исследовательской деятельности и индустрии возрастает.

«Революция AI» сыграла в этом и хорошую, и плохую роль. Хорошая в том, что повысился интерес программистов (и, как следствие, богатых компаний) к науке. А плохая в том, что фокус опять перенесся с программной инженерии на алгоритмы, и такие вещи как архитектура и качество кода остались за бортом. Но эта волна сейчас везде спадает, и важность инфраструктуры (доставка данных для тех же ML-моделей, распределенные вычисления и так далее) опять выходит на первый план.

Open source играет во всей этой истории ключевую роль. Наука создается сообществом. Возможность исследовать что-то исключительно «в компании и для компании» давно не существует. А open source является единственным отработанным и принятым обществом вариантом сотрудничества между компаниями. Как я говорил до этого, инфраструктура и организационные формы для этого не идеальны как в академической среде (код это не публикация), так и в компаниях (каждая компания хочет сделать что-то «открытое, но свое»). Но, как минимум, проблемы эти осознаны и решаются.

В России, дополнительно ко всему вышеперечисленному, всегда была и есть проблема государства, которое часто пытается вмешаться туда, куда его не звали. Но необходимость быстро создавать замену многим проприетарным технологиям неожиданно подстегнула эту машину в нужном направлении. Государственные инициативы в области как open source вообще, так и научного ПО — все еще скорее бесполезная трата времени и денег, но и откровенного вредительства, как было со многими научным и образовательными инициативами до этого, вроде нет.

Какими разработками занимается ваш центр? Можно ли говорить об определенной специализации — например, на решениях для анализа и визуализации данных?

Для нашей команды 2024 год стал в своем роде переломным. Мы начали всерьез коммерчески внедрять наши open-source разработки. В первую очередь это Controls-kt — фреймворк для сбора данных с приборов и управления оборудованием (можно назвать это SCADA-системой, хотя трактовка этого термина у разных людей очень разная).

Фреймворк для визуализации VisionForge хотя все еще находится в экспериментальной стадии, тоже получил свои внедрения сразу в нескольких проектах. И под конец года у нас появился проект, где мы внедряем в банке наш самый старый проект: KMath (на самом деле самый старый — это DataForge, с него все начиналось, но он в основном составляет основу для других проектов). Есть и новые проекты: Maps-kt, по сути, появился только в этом году. И это, пожалуй, первая разработка, которая была сделана не под фундаментальную науку и не под «а почему бы нет», а под конкретный коммерческий проект (проект пока в полной мере не запустился, но разработка оказалась удачной и обрела свою собственную жизнь).

И отдельный интерес представляет маленький и очень экспериментальный, но идейно важный для нас проект snark. Когда мы начинали его, мы не очень понимали, зачем он нужен (впрочем, с остальными фундаментальными проектами то же самое), и главное его использование на сегодняшний день — это сайт центра. Но я не удивлюсь, если через 10 лет выяснится, что это самое главное, что мы сделали. Дело в том, что в этом проекте мы пытаемся понять, как должен выглядеть «научный журнал будущего» и как технически это обеспечить. Подробнее об этом можно почитать в дипломе Сергея Терентьева.

Александр Нозик, директор SPC, на конференции JPoint (фото из личного архива)

Переход к «режиму внедрения» — это в чем-то и плохо. Наши open-source проекты во многом — наши кормильцы, и мы теперь уже не можем себе позволить развивать все подряд. Каким-то проектам мы уделяем больше внимания, каким-то (например, tables-kt) — меньше. Да и наши флагманы часто получают кусок рабочего времени, только когда их надо куда-то «воткнуть». Это не тот режим, в котором нравится работать над проектами.

Но пока нет какого-то целевого финансирования под open source разработку, мы имеем то, что имеем. Хуже всего, конечно, с документацией. На нее вообще не хватает времени. А документация очень важна для расширения комьюнити. У нас обычно очень непростая архитектура, и понять ее без описания может далеко не каждый.

В какой момент вы приняли решение о развитии ваших проектов в open source-формате? С какими сложностями вы столкнулись на первых порах? Как решали их?

Наши проекты никогда не были закрытыми (не считая времен, когда мой mercurial-репозиторий существовал у меня на флешке). Почти все наши проекты начинались как части фундаментальных исследований. Их просто не было смысла делать закрытыми.

Тут, скорее, обратная история: в прошлом году у нас начали появляться закрытые проекты. То, что делается на заказ. Разумеется, мы стараемся, чтобы закрытые проекты основывались на наших открытых.

Самым больным ударом за последнее время было, разумеется, блокирование аккаунтов, ассоциированных с МФТИ гитхабом (в частности, моего персонального аккаунта, хотя с МФТИ он вообще-то никак не связан). Это никак не помешало нашей разработке технически (мы сейчас отлично живем на собственной gitea). Но психологически это было очень обидно. И коммуникация (а github — это, в первую очередь, социальная сеть) усложнилась. Я уверен, что в будущем появятся системы федераций для репозиториев с кодом, комментариев и «звездочек» (хотя напомню, что звездочки ничего не говорят о качестве и о востребованности, только об интересе). Но, к сожалению, пока этого нет.

Вы используете лицензию Apache 2.0 для большинства проектов — почему выбор пал именно на неё? Какие еще лицензии вы считаете востребованными?

Apache 2.0 — это одна из наиболее используемых permissive-лицензий, и она используется в Kotlin-сообществе. Я неоднократно говорил о том, что являюсь категорическим противником GPL-идеологии. Когда эта идеология создавалась, целью было не дать «корпорациям» зарабатывать на сообществе. Но с тех пор ситуация радикально поменялась. Корпорации являются главным финансовым двигателем open source.

Ставя заградительные вирусные лицензии, разработчики блокируют самую эффективную модель монетизации и развития своего кода. Корпорациям давно уже не выгодно «воровать» код, им лучше прийти к разработчику и заплатить за поддержку. История о том, что можно просто обратиться к держателю GPL-лицензии и заплатить, не работает. Потому что надо найти всю цепочку всех держателей лицензий транзитивных зависимостей.

Мы стараемся не делать зависимостей от GPL-проектов или делать их «отцепляемыми». Мы уже неоднократно сталкивались с ситуациями, когда нас специально просят подобрать открытые решения, в которых не было бы GPL-зависимостей.

Участвуют ли в open source-инициативах другие сотрудники вашего центра? Или же не все коллеги погружены в open source специфику?

Наши проекты полностью открыты. Мы приглашаем в них всех желающих. Ограничение есть, но оно скорее «естественное»: дело в том, что проекты, которыми мы занимаемся, как правило, очень сложные с точки зрения архитектуры и реализации. У сторонних контрибьютеров просто не всегда получается разобраться с ними, чтобы внести туда какой-то ощутимый вклад. Есть и те, кому это удавалось. Часть из них теперь в командах JetBrains, а часть мы взяли к себе на работу в коммерческие проекты.

Своего рода квалификационное испытание. По мере того, как уменьшается разрыв в квалификации между нашими самыми опытными и не самыми опытными сотрудниками, я надеюсь, что проектов и «контрибуций» будет становиться больше.

В какой момент вы начали системно развивать сообщество? Какие вы используете инструменты в онлайне (новостной канал, чат, что-то еще) и оффлайне (конференции, встречи)? Планируете ли вы расширять этот список?

Для того, чтобы определить момент, пришлось лезть в историю. Мы начали развивать комьюнити в районе 2017-2018 года. Практически сразу было понятно, что это очень важная часть функций тогда еще даже не лаборатории, а рабочей группы без какого-то юридического оформления. Причины, почему это важно, я кратко описал в статье.

Для создания своего комьюнити я опирался на опыт сообщества Kotlin. Опыт показывает, что организация комьюнити — это тоже своего рода «наука». Есть многие мелочи, которые надо учитывать. Нельзя пускать все на самотек, надо постоянно подкидывать какие-то идеи и мысли на обсуждение, чтобы у сообщества была «пища».

Кроме телеграм канала, есть еще YouTube. Это тоже очень важная площадка, которой уделяется (точнее, уделялось до последнего времени) недостаточно много внимания. Есть еще LinkedIn, которым вообще не занимались и занялись только в последний месяц.

В нашей сфере деятельности публичность — это не просто приятный бонус, но и вопрос денег и буквального выживания. Наш источник дохода — выполнение исследований и разработок на заказ. Для этого, у нас должна быть известность и репутация. В каком-то смысле можно сказать, что мы зарабатываем репутацию и потом ее монетизируем. Тем и живем. То, что наши сообщества полезны для людей — это тоже важный фактор роста. Так что работа сообщества и публичная активность была и будет одним из ключевых аспектов нашей работы.

Как бы вы объяснили управленцам российских научных центров и университетов ключевые преимущества работы в формате open source? Зачем им это? С чего стоит начинать подобные эксперименты и как оценивать их эффективность?

Правда в том, что мы пока не объяснили. Наши разработки на данный момент являются только нашими, университет не вложил туда ни капли. Я с начала года довольно активно лоббирую эту тему в МФТИ и надеюсь, что рано или поздно процесс увенчается результатом. Я написал несколько программных документов и «питчей» на эту тему.

Помимо очевидных слов об улучшении репутации и встраивании open source в образовательный процесс есть один специфический для России аспект. Промышленность столкнулась с тем, что надо разрабатывать многие решения, которые все привыкли покупать. Сейчас компании пытаются заниматься совершенно, на мой взгляд, дурной работой, связанной с попыткой самостоятельно «заместить» эти решения (например, в области АСУ) и монополизировать рынок.

Разумеется, ресурсов на это ни у кого нет, да и мало кто хочет сменить одного монополиста на другого. Тут, казалось бы, надо собраться и силами нескольких больших компаний сделать общее открытое решение (открытость тут критична, потому что других способов коллабораций больших компаний нет). Но сразу возникает вопрос — а какая компания организует платформу для такой разработки? Как об этом договориться?

В России всего полторы компании, которые имеют опыт открытой разработки собственных проектов с нуля. Да и работать на платформе чужой компании многим религия не позволяет. И вот тут вузы, казалось бы, являются идеальной платформой. Они нейтральны, они уже имеют связь со многими компаниями, есть хороший источник кадров (бесплатных! дипломы и практики сами себя не сделают) и идей.

Все, что нужно — немного вложиться в эту историю. Но нет, все время встает вопрос «а что нам с этого будет до конца года и как это отразится в KPI».

Не буду тут приводить полный текст аналитических записок, которые писал на эту тему (кому надо, приходите — все контакты открытые), но приведу очень краткую «дорожную карту» действий, которые вуз мог бы сделать для развития open source экосистемы:

Информационная поддержка. Реклама среди промышленных компаний, организация хакатонов, семинаров и конференций (можно на деньги тех же компаний).
Программная инфраструктура — репозитории кода, общие чаты, хранилище для файлов (например, для MLщиков это очень важно, им модели хранить надо), CI/CD. А также single sign on и техподдержка этих систем.
Стипендии и гранты.

Обращаю внимание, что гранты тут на третьем месте, они нужны, когда система уже создана и развивается. Начать можно с совсем маленьких вложений. Достаточно просто признать существование такого направления.

Оценка эффективности — это всегда сложный вопрос. Царица всех оценок — экспертиза. Хотя экспертов по open source в России и немного. Из простых (и зачастую неправильных) критериев можно взять количество вовлеченных людей как внутри вуза, так и снаружи.

Справедливо ли говорить о том, разработки в научном программировании и решения для науки развивают исключительно ученые? Как вы оцениваете корпоративную активность в этой сфере? Можем ли вы увидеть больше вовлеченности со стороны компаний?

Я бы сказал так, если бы это двигали только ученые, то всю идею можно было бы класть в гроб и закапывать. Ученые — отличные генераторы идей и кадров, чтобы эти идеи реализовать. Но как только мы выходим за рамки чистой идеи, и становится нужен минимальный менеджмент ресурсов, все оказывается плохо.

Александр Нозик, директор SPC, на профильном семинаре (фото из личного архива)

К счастью, интерес со стороны компаний огромный. У них есть потребность и ресурсы, чтобы заниматься разработкой open source и научного программирования. Чего нет — это умения работать с учеными и с комьюнити, а также умения этому учиться (которое как раз характерно для ученых). Я думаю, что в каком-то скором времени в компаниях возникнут должности научных и open source амбассадоров. Точно так же, как возникли должности developer relations и developer advocate. О том, как я вижу это будущее, я подробно писал в статье.

Как только это случится, движение станет стремительным.

Людей, которые могут стать такими амбассадорами, сейчас немного. Но тут уже я очень рассчитываю на те сообщества, которые мы создаем, на наших студентов, которых мы обучаем в магистратуре, да и сам готов предложить свои услуги.

Если говорить об open source в России в целом, в каких сферах деятельности наиболее вероятно — на ваш взгляд — появление новых открытых проектов?

Сейчас самыми горячими мне видятся системы менеджмента (в разных сферах), управления ресурсами и управления процессами. Это ниша была занята проприетарными решениями, которые стали недоступны. Я ожидаю в ближайшее время очередного прорыва в области open hardware (переход его с любительского на индустриальный уровень) и соответствующего софта. Ожидаю чего-то интересного в системах управления знаниями. Возможно что-то в области мультиплатформенной разработки приложений и «возврата на desktop». Возможно, что-то связанное с полиглотным программированием на Wasm и смежными технологиями.

Какие еще российские open source-технологии были бы полезны для страны? В каком формате можно было бы организовать коллективную работу над ними?

Я глубоко убежден, что не может быть никакого «национального open source». Так же как не может быть в 21 веке сугубо национальной науки. И то, и другое развивается настолько успешно, насколько много участников процесса и связей между ними. Возможно, Китай может себе позволить что-то подобное, просто потому что там живет очень много людей, но мы видим, что даже Китай пытается интегрироваться в мировую систему разработки и науки, а не изолироваться от нее. Поэтому историю о том, что «нам не нужен американский open source, мы сделаем свой» я считаю исходно бредовой. Продвигать ее могут только совершенно далекие от реальности политики.

Тем не менее, есть ряд действий, которые можно предпринять, чтобы open source-разработки и их внедрение в России шли активнее. В первую очередь речь об информационной политике. В России у компаний нет культуры собственной разработки, много лет они занимались тем, что покупали готовые (в основном американские) продукты, чем снимали с себя все риски.

Сейчас до многих внезапно (а что случилось?) дошло, что зависимость от проприетарных решений, у которых нет альтернатив — вещь опасная. А разрабатывать свои не умеем. Да и не то, что разрабатывать, адаптировать готовый open source не умеем. Потому что для адаптации тоже надо иметь какую-то свою разработку и брать на себя риски за нее.

Считаю, что (как минимум) в больших компаниях должны появиться офисы по исследованиям и разработкам, которые бы, в том числе, занимались развитием и адаптацией open source решений. Эти офисы могут работать с вузами и, возможно, другими типами инжиниринговых хабов, которые станут поставщиками новых решений.

Я категорически против того, чтобы какую-то активную роль в процессе занимало государство. Государство может говорить, что это полезно. Но любая регуляция тут будет мешать. Все превратится в рисование отчетности и коррупцию. Чисто теоретически возможно создание налоговых льгот для R&D-компаний, которые подстегнут и науку, и разработку открытых проектов, но я не верю, что российское государство в нынешнем виде способно сделать такой механизм эффективным, а не очередным «попилом».

В целом, для развития open source (и исследований тоже, тут очень много общего) главным требованием является наличие квалифицированного заказчика, который понимает, как использовать результаты этих разработок. Вот с этим и надо в первую очередь работать. Сейчас в России таких квалифицированных заказчиков очень мало.

В одном из комментариев по теме вы говорили о необходимости поддержки малых open source-проектов. Как вы видите этот процесс? Требуется ли здесь участие государства или сообщество может обойтись своими силами?

Спасибо за этот вопрос. На мой взгляд очень важный момент в том, что open source-решения бывают разные. Когда люди начинают говорить об open source-решениях, в первую очередь приходят в голову такие монстры, как Linux, Postgres, Hadoop или Kafka. Огромные индустриальные решения, над которыми работают сотни человек по всему миру. Как правило, каждый разработчик добавляет очень небольшую модификацию, и самое сложное тут — пройти все этапы согласования и тестирования такого изменения. В России довольно много компаний, которые занимаются этими решениями. То есть адаптируют и интегрируют их для индустрии со сравнительно небольшими изменениями.

Но есть и совсем другой open source — сравнительно небольшие проекты, которые создаются «с нуля» группами до пяти человек, как правило, не афиллированными с компанией. Такие решения очень важны как сами по себе (детали, из которых потом можно создавать какие-то индустриальные конструкции), так и как технологическая база, на которой строится развитие всей технологии и людей, которые в ней задействованы.

Действительно, ведь главным капиталом, как ни крути, являются люди. На добавлении двух строчек в Postgres (при всей важности этих двух строчек для индустрии) многому не научишься. Для того, чтобы люди становились высококлассными специалистами и создавали новые сложные системы, надо практиковаться на каких-то проектах с меньшим фактором риска. Также не надо забывать, что есть отдельные проекты, а есть экосистемы. Экосистемы (наборы инструментов для разных целей на определенных языках и фреймворках) сейчас куда важнее, чем, скажем, языки программирования. Потому что напрямую влияют на эффективность разработки.

Так вот с этими малыми проектами в России очень плохо. Буквально пара компаний вообще делает какой-то чисто свой open source, а не только патчи к чему-то «большому». Народные умельцы, разумеется, есть везде, и куча небольших библиотек делается такими умельцами из России. Но тут нет никакой системности. Нет фондов наподобие Apache, которые бы спонсировали бы подобные проекты, и нет хорошей поддержки со стороны компаний. Даже правила хакатонов обычно устроены так, что нормальный свой проект на них не поднимешь. Или вообще забирают код себе по итогу, или делают призы в виде купона на пользование облачными услугами компании (серьезно?!).

Я опять же категорически против вмешательства государства в эту область. Но создание некоммерческих фондов для развития независимых проектов и open source-хабов в вузах (например, для продвижения студенческих разработок) было бы очень полезным.

Могли бы вы порекомендовать пару книг материалов или ресурсов иного формата для погружения в специфику и тренды научного программирования?

Я бы не сказал, что сейчас есть какие-то тренды в данной области. Просто потому, что тема, как это не смешно, совершенно новая. Обычно, когда люди приходят с вопросами в первую очередь мы их отправляем смотреть, как делать НЕ надо. Например, ROOT. Про его проблемы я могу говорить часами. Люди, которые его писали, ставили перед собой задачу уйти от фортрановского кода предыдущего фреймворка PAW на более современный на тот момент (а это конец 90-х) С++. Проблема в том, что учились программировать они параллельно с написанием.

Огромное количество ошибок проектирования (например нарушение single responsibility практически везде), варварская работа со структурами данных (достаточно сказать, что основная структура TTree — это не дерево, а таблица, в ячейках которой могут быть другие таблицы) и многое другое. Самая большая проблема — сериализация. Формат представления данных (как говорит Алексей Худяков, испорченный дамп памяти). Я думаю, что его исходно делали в основном для тестирования, но в какой-то момент оказалось, что практически все физические эксперименты завязаны на этот формат. Он нормально читается только самим рутом, ломается при практически любых изменениях кода и, вопреки заявлениям любителей фреймворка, довольно неэффективен. Но убрать его уже никуда нельзя, потому что это означает перелопатить петабайты данных и переучить тысячи людей пользоваться человеческими системами. Но обучение от противного — это, вероятно, плохая практика.

Весной прошлого года я сделал некоторую первую попытку немного систематизировать мой опыт в проектировании API для библиотек в виде мини-курса лекций. Это все еще не систематизированный подход, которого бы мне хотелось, но какой-то первый шаг к осмыслению проблемы.

Мы стараемся обсуждать вопросы, связанные с научным программированием (а также с наукой вообще и с программированием вообще) здесь. И любой вклад в коммуникацию будет полезен. Наука состоит не из ответов, а из вопросов, так что приходите со своими вопросами.

Комментарии (11)

adeshere
14.01.2025 17:19
#27782390
А можно ли тут задать пару вопросов Александру, или он на Хабр не заглядывает?

Я - типичный научный сотрудник, который сам пишет программы для решения разных задач, и сам же их применяет. В результате появился очень узконишевый пакет программ, который умеет решать много нестандартных задач по анализу геофизических временных рядов едва ли не лучше всех в мире (примеры таких задач и их решений в опубликованных научных статьях), но при этом страдает весьма старомодным интерфейсом в стиле Norton Commander и достаточно высоким порогом вхождения. Мы хотели бы присоединиться со своей разработкой к сообществу open source (исходные коды пакета открыты и доступны всем пользователям), но непонятно, как это проще сделать и, главное, будет ли от этого какая-то польза: не хочется тратить ресурсы и время на то, что никогда никому не понадобится. Ведь шансы, что кто-то подключится к разработке,

ничтожно малы

по целому ряду причин. Во-первых, сам пакет полностью русскоязычный. Это сразу резко ограничивает его возможную нишу. Нет никакого смысла бороться за увеличение своей доли на "рынке", если весь этот рынок - это десяток научных групп, треть из которых и так уже с нами сотрудничают ;-)

Во-вторых, основа пакета - это легаси с обильными русскоязычными комментариями, в котором никто, не владеющий языком, разобраться не сможет в принципе.

Ну и сам код: он преимущественно написан на ~~древнем~~ современном, но никому не известном фортране, да еще и страдает проприетарностью компилятора...

И еще про стиль разработки. Сначала авторов было трое, а сейчас их осталось полтора человека. Поэтому вся разработка (она идет до сих пор, и довольно активно) ведется локально. Учитывая размер коллектива, нам нет никакого смысла задействовать инструменты коллективной разработки.

Что посоветуете таким, как мы?
1. VirtsOff
  14.01.2025 17:19
  #27782612
  Я конечно не Александр, но понимаю вашу проблему. Советую её декомпозировать и решать по частям.
  
  Перевести для начала все комментарии на английский язык, отформатировать код - это можно доверить и ИИ.
  1. adeshere
    14.01.2025 17:19
    #27783650
    Спасибо за идеи, но...
    
    Перевести для начала все комментарии на английский язык,
    
    Это совершенно точно не первоочередная задача. Программа полностью русскоязычная. Поэтому привлекать иностранное комьюнити абсолютно бессмысленно, пока не реализована многоязычность. Тут если уж начинать, то с перевода интерфейса. В принципе, ничего сложного... но
    
    объем работы ОЧЕНЬ приличный.
    
    Я не знаю, как это сейчас обычно принято делать, но в фортран-программе для этого проще всего заменить все литералы в программе на ключи (для простоты, ключ может повторять текст сообщения на одном из языков), а сами сообщения (точнее, их переводы на разные языки) собрать в соответствующий файл словаря. В принципе, ничего сложного... только вот таких литералов в программе около 10 тыс. И автопереводом точно не обойдешься (задачи специфические, поэтому и сообщения несколько отличаются от стандартных, которые хорошо переводятся). А еще многие сообщения для эстетики выровнены "прямоугольником", и при переводе придется думать еще и об этом...
    
    Но главная проблема в том, что переход на такую систему - это не единоразовое "вложение", а постоянная дополнительная нагрузка на всю оставшуюся жизнь. В частности, резко осложнится любой новый кодинг: если сейчас я просто вбиваю текст сообщения в код, то в мультиязычной версии любая такая операция будет стоит втрое дороже (и это если не задумываться о качестве перевода). Причем, "платить" придется уже сейчас, а возможные бонусы от многоязычности наступят лишь в отдаленном будущем (если вообще наступят).
    
    А еще мне придется перевести справку, в которой более 500 топиков. Каждый в среднем на пару экранов текста. Не повредив при этом 10 тыс. ее внутренних гиперссылок. Причем, сейчас все это оформлено в виде документа старого Word (формат doc). Я это чудо не то что в автоперевод не умею засунуть (ни один из известных мне способов не сохраняет гиперссылки), я его даже сконвертировать в docx не умею. (Пробовал пару десятков методов такой конвертации с использованием разных программ и разных промежуточных форматов, но внутренние гиперссылки во всех вариантах теряются). А расставлять их вручную заново - это отдельная песня...)
    
    Причем никаких бонусов мне за это
    
    не светит
    Зарплату мне платят за публикации и отчеты, а вовсе не за разработку ПО. Поэтому несмотря на то, что это самое ПО является моим основным и даже чуть ли не единственным инструментом (Тотал + офис не в счет), тратить на его развитие слишком большую часть рабочего времени я не могу...
    А вот дальнейшее развитие и поддержка многоязычной программы в будет мне "стоить" гораздо дороже, чем моноязычной. Ведь при любом изменении (дополнении) в проге придется переводить и все новые сообщения, и, главное, все затронутые фрагменты справки. Если учесть, что английским я владею
    
    очень-очень условно,
    Например, я не могу оценить качество автоперевода на английский даже в нулевом приближении. Для этого я делаю обратный перевод в другом переводчике и сравниваю два русских текста. Если есть разница - то упрощаю свой русский текст и повторяю операцию до сходимости...
    то это становится почти непосильной задачей.
    
    .
    
    отформатировать код - это можно доверить и ИИ.
    
    А вот эта задача точно на повестке дня не стоит. Для иностранного комьюнити код будет абсолютно непонятен вне зависимости от форматирования (у меня размер шапки функции с ее описанием часто составляет половину размера функции. И без нее там хрен что поймешь). А для русскоязычного - наоборот, понятен вне зависимости от форматирования. Так как весь пакет написан микроскопическим коллективом, изначально придерживавшимся определенного
    
    единого стиля
    
    Да, этот стиль самопальный (когда это все начиналось, понятие "стиль" в широких массах было еще практически неизвестно ;-)
    
    Но как мне неоднократно говорили коллеги, в плане читаемости стиль не самый плохой, несмотря на его самопальность и древность. А главное, автоформатирование вряд ли может что-то существенно в этом стиле улучшить... Вот для примера случайно выбранный фрагмент кода примерно 10-летней давности (функция предлагает юзеру еще раз подумать, если он собирается прерывать "опасную" операцию на полпути, рискуя при этом испортить редактируемую копию сигнала):
    
    cccccccccccccccc L*4 DANGEROUS_USER_ABORT() ccccccccccccccccc c Аналог USER_ABORT для команды сдвига фрагмента ряда. c c Если последней была нажата клавиша F1, выводит справку (топик задан в MAIN).c c Иначе выводит dos_line_wait() с предупреждением о том, что операция c c не завершена, и датой Irec (cptr=1). с c Если юзер все равно командует "аборт", то результат $True. c c...............................................................................c LOGICAL*4 FUNCTION DANGEROUS_USER_ABORT() USE ABD_INC; USE HEADERS, Dummy_dangerous_user_abort => dangerous_user_abort integer*4 i if (scan_cod == $F1) then; call show_help(); return; end if c dos_line='Предупреждение: ряд был сдвинут только частично! Операция еще не закончена!|'// + 'Если сейчас прервать вычисления, то в сигнале появится дополнительный разрыв|'// + '(дополнительный скачок = сдвиг уровня) примерно в момент:' c c Выровняем сообщение для украшения текста: select case(int_type) case ($SType_sec); call subst2to1(dos_line,' =','=') case ($SType_msec,$SType_mks); call subst_substr(dos_line,' = сдвиг уровня)',')') end select cptr=1; call set_discret_date(Irec) ! дата вычисляется для текущего ряда i=set_date_string(abd_date,extr_date_len) ! Дата в строке date_string, i = длина даты call append(date_string); call append('|') call dos_line_wait() call kbdclr(); call putkey($Space,0); call delay(0.3) DANGEROUS_USER_ABORT=user_abort(); call kbdclr(); end
    
    Конечно, не имея доступа к описанию использованных глобальных переменных, понять этот код будет проблематично... но некоторое представление о стиле он, надеюсь, дает
1. darksnake
  14.01.2025 17:19
  #27782666
  Ну давайте начнем со слона в комнате, ваш пакет написан на Fortran. Живых людей вне метеорологии, кто писал бы на Fortran уже осталось очень мало. Это означает, что без дополнительных усилий будет довольно сложно привлечь комьюнити. Какие дополнительные усилия можно предпринять? Сделать поставку ядра приложения таким образом, чтобы другие люди могли ей пользоваться. Например сделать обертку на Python. В Python экосистеме это довольно распространенная практика, весь ScipPy так сделан. Сразу предупреждаю, что это не просто если вы до этого никогда этим не занимались. Надо разобраться с тем, как работают более или менее стабильные сборщики, научиться более или менее автоматически делать релизы и сделать минимальные тесты. Не просто, но и не фантастически сложно. Мотивированный студент за полгода должен разобраться.
  
  Дальше вопрос о том, зачем и имеет ли смысл. Тут надо понять, востребован ли ваш пакет за пределами вашей задачи. Для этого лучше всего поискать профессиональные сообщества в вашей теме и закинуть туда вашу идею. У нас есть свое сообщество, и мы иногда занимаемся геоданными, но боюсь не настолько углубленно, чтобы был нужен отдельный пакет для анализа. Если сообщества нет, то можно его создавать. Это тоже не так уж просто (и именно этому могут существенно помочь open source хабы в вузах), но как минимум надо начать с того, чтобы опубликовать код в удобном виде. Можно на Github, возможно у вашего института или вузов, с которыми вы работаете есть какие-то свои хранилища. При этом, как вам уже писали, надо позаботиться о том, чтобы ваш код было удобно и приятно читать.
  
  Теперь о шансах. Шансы, что кто-то со стороны быстро придет и начнет что-то добавлять в ваш сложный код на мертвом по сути языке довольно низкие. При этом если возникнут пользователи, то так или иначе качество кода будет улучшаться. Хотя бы потому, что люди будут приходить и задавать вопросы, по которым будут видны недостатки существующего кода. Может быть и критика, но критика означает в том числе интерес. Даже если сторонних контрибьютеров не будет, будут ваши собственные студенты, для которых публичный вклад в проект будет хорошим опытом и хорошей добавкой в портфолио.
  1. darksnake
    14.01.2025 17:19
    #27782692
    Кстати, куча свободных компиляторов фортрана. Кто мешает протестировать на любом из них?
    
    adeshere
    14.01.2025 17:19
    #27783660
    Кстати, куча свободных компиляторов фортрана. Кто мешает протестировать на любом из них?
    
    Тестировали. Все компилируется, если убрать некоторые мелкие расширения стандарта, допустимые в Интел фортране. Но это нарушит стиль и ухудшит (имхо) читаемость кода. Например, сейчас у нас все имена констант начинаются с $ - сразу понятно, где что. Можно заменить на S, но тогда появятся неблагозвучные сочетания в именах. А если на "s_", то это длиннее, ну и стиль портится (для других переменных такого префикса нету).
    
    Во-вторых, код у интел-фортрана получается ощутимо быстрее (если сравнивать компиляторы одного возраста). У нас ряды длинные, это существенно.
    
    В общем, когда припрет по-настоящему - перейдем. Но зачем бежать впереди паровоза?
  1. adeshere
    14.01.2025 17:19
    #27783732
    Сделать поставку ядра приложения таким образом, чтобы другие люди могли ей пользоваться
    
    Увы, это малореально. Основной интерес пакета - это не ядро, а алгоритмы обработки рядов. Без них все остальное бессмысленно. Но у нас почти все методы работают не с памятью, а с диском (предполагается, что в память ряды не влезают). В ОП читается только скользящее окно. Плюс к этому почти у каждого алгоритма свои специфические диалоги. Причем эти вопросы часто нельзя задать юзеру заблаговременно, и передать расчетному модулю готовое задание с исчерпывающим набором опций. В результате возникает куча взаимных зависимостей, и вычленить из пакета какие-то фрагменты, имеющие самостоятельную ценность (в отрыве от всего остального), очень проблематично.
    
    Например сделать обертку на Python. В Python экосистеме это довольно распространенная практика
    
    Знаю... Но тоже не выйдет, только уже по другой причине. У нас одна из базовых идей - это визуально-ориентированная среда обработки данных. При этом ряды часто имеют длину в гигабайты. Например, у меня прямо сейчас в рабочем пространстве висит 30 временных рядов, в каждом из которых около 200 млн. значений. Рабочий процесс - это первичная обработка рядов. Он состоит в просмотре графиков с разным временным разрешением (развертка экрана от нескольких минут до многих лет), выборе и применении разных преобразований к отдельным фрагментам сигнала или к рядам целиком (пока идет этот счет, я и сижу в соцсетях ;-). При этом на экране могут одновременно отображаться миллиарды значений данных (на моем не слишком современном компьютере это занимает секунды), а могут - небольшие фрагменты из пары миллионов значений, между которыми я хочу переходить по временной оси "на лету". Плюс мне постоянно нужна такая штука, как визуальное редактирование данных, причем границы фрагментов я задаю с точностью не до экранного пиксела, а до одного значения данных. Сейчас у нас это все работает методом "подсоса" нужных фрагментов сигнала из рабочего пространства (в теории это диск, но на практике часто кэш) в ОП, и т.д.
    
    Чтобы все это реализовать с использованием стандартных библиотек Питона, потребуется очень глубокая интеграция с интерфейсом. А то и вовсе лезть внутрь (например, у нас полно Nan-ов, и они должны обрабатываться, как штатные значения данных, то есть по-своему в каждом конкретном случае в зависимости от текущей задачи). В общем, "тупой" подход, чтобы просто отдать-получить массив данных (ряд целиком) - работать явно не будет. Поэтому даже простое переписывание графических экранов (которых у нас всего лишь пара десятков) уже потребует несоразмерных усилий, чтобы только не потерять наиболее востребованную функциональность.
    
    И это я еще даже не начал песню про генерализацию изображения. Обертка ведь должна включать графику, иначе какой в ней смысл? К примеру, у нас одна из наиболее востребованных команд - это переключение
    
    режима генерализации
    Когда ширина экрана по X всего две тысячи пикселов, но при этом надо показать миллион точек, то приходится выбирать из двух вариантов: либо в каждой точке рисуется среднее значение сигнала в пределах текущих 500 точек, либо размах его вариаций за тот же период. А если нам постоянно нужно и то, и другое? Я еще не видел программ, которые бы это делали удобно и быстро. Как максимум, можно передать графической подсистеме вместо одного ряда два длиной по 2000 точек с заранее предвычисленными значениями. И делать это снова и снова при каждом смещении окна просмотра. При этом сперва надо все эти сигналы предвычислить, потом их отдать, и только потом начнется отображение. У нас же все это реализовано динамически, с учетом точного размера отведенной под графики экранной области в пикселах. Причем если ряды большие, то первый сигнал отображается практически сразу же, - так что можно его порассматривать, пока отрисуются остальные.
    Ну и куча других мелких трюков буквально на каждом углу, которые сильно
    
    повышают удобство и скорость работы
    Вот для примера еще одна фича: для статьи/презентации график должен быть красиво оформлен. Поэтому разметку осей принято делать снаружи бокса. На это уходит существенная доля экрана, но это общий стандарт. Но при работе гораздо важнее, чтобы график был нарисован максимально подробно. Чтобы использовать весь экран, у нас ось Y идет по самому краю окна, а цифры мы пишем внутри поля графика. Благодаря чему график начинается фактически от края экрана. Поскольку у нас вся графика векторная, это не слишком мешает при последующем дооформлении этих рисунков (ну или можно переключиться в "презентационный" режим, но лично я его практически никогда не использую).
    и которые замучаешься переписывать под другую среду. Которая еще не факт, что вообще сможет с этими задачами справиться. Ну или даже в конце концов справится, а через два года безнадежно умрет, и начинай все сначала (вспомним переход с версии 2 на 3).
    
    А самое главное, что даже после изготовления этой "обертки" основой все равно останется код на фортране и С++. Только теперь все причастные должны будут, помимо этих двух языков, владеть еще и Питоном, включая все прилагающиеся к нему атрибуты (среду и зависимости). Чем-то мне это напоминает анекдот про стандарты ;-)
    
    В общем, Питон - это явно не вариант.
    
    adeshere
    14.01.2025 17:19
    #27783862
    И продолжение ответа вторым сообщением (в первое не успел, время редактирования истекло).
    
    Дальше вопрос о том, зачем и имеет ли смысл. Тут надо понять, востребован ли ваш пакет за пределами вашей задачи.
    
    В этом-то и вопрос. Геодинамическим мониторингом в научных целях занимается считанное число людей на планете. Из них заметное, но еще более крохотное подмножество занимается этим в РФ. И это почти на 100% научники, а не программисты. Как максимум, они могут использовать готовый пакет (и используют), но не участвовать в чужой разработке. Самые продвинутые пишут что-то свое, строго под текущую решаемую ими задачу. Остальные пытаются комбинировать какие-то готовые среды, начиная от Матлаба и кончая файлами в Excell. Но все они и так про наш пакет знают. Тут поля для расширения нет.
    
    Что же касается более широких задач, то я просто не знаю: интересен ли там кому-нибудь такой инструмент, или нет. Все-таки, у нас много специфики, и она совсем не бесплатная, особенно в плане порога вхождения. А они, соответственно, ничего о нашем пакете не знают и никогда не узнают. Попросту негде. Как известно, в Африке нет никакого смысла продавать обувь - там все босиком ходят :-)
    
    как минимум надо начать с того, чтобы опубликовать код в удобном виде.
    
    Мысль понятная, но она мне кажется спорной. Какой смысл читать код, если тебе не интересна задача, которую он решает? Польза могла бы быть от попадания в какие-то обзоры... только ведь систематизация все равно должна идти по задачам. А в нашем случае это кратно более узкая ниша, чем "временные ряды вообще". Я просто не знаю, как такие обзоры
    
    устроены на практике
    Если там ориентир - число звезд, то шансов нет никаких. Это как сравнивать цитируемость в разных областях науки: простенькая, но массовая утилита, заточенная на одно элементарное действие, заведомо обгонит любую узконишевую систему.
    Конечно, кругозор расширять полезно, но в моем случае монолингва это сопряжено еще и с языковым барьером :-( Я никогда на гитхабы не лазил, и даже
    
    не представляю, с чего начать
    чтобы не утонуть в море бесполезных для меня знаний. В общем, пока кто-нибудь умный не ткнет меня носом "читай сюда", рак на горе не свистнет...
    Теперь о шансах. Шансы, что кто-то со стороны быстро придет и начнет что-то добавлять в ваш сложный код на мертвом по сути языке довольно низкие. При этом если возникнут пользователи, то так или иначе качество кода будет улучшаться. Хотя бы потому, что люди будут приходить и задавать вопросы, по которым будут видны недостатки существующего кода. Может быть и критика, но критика означает в том числе интерес.
    
    Да, именно так все и происходит сейчас. Примерно половину проблем/заявок я обнаруживаю в коде сам (как наиболее активный эксплуатант), еще столько же общими усилиями собирают все прочие пользователи. Из этих проблем я 2/3 решаю практически сразу, а треть откладываю на to_do, чтобы вернуться к ним, когда будет возможность. Но в прошлом году один из разработчиков пакета нас печально покинул, поэтому в 2024 папка to_do осталась наполовину несделанной... :-(
    
    Даже если сторонних контрибьютеров не будет, будут ваши собственные студенты, для которых публичный вклад в проект будет хорошим опытом и хорошей добавкой в портфолио.
    
    Мысль очень правильная. Спасибо, что напомнили. Проблема в том, что хотя формально я сотрудник московского института, но живу в 100км от Москвы и фактически уже много лет работаю удаленно. А со студентами надо общаться, причем регулярно. Поэтому я даже не думал о том, чтобы двинуться в эту сторону. Хотя мне уже намекали, что это неправильно. Похоже, пришло время задуматься...
    
    darksnake
    14.01.2025 17:19
    #27783906
    То, что вы описываете - довольно типичная ситуация в ПО для науки. Ну и тут два пути, либо тянуть ту же историю, которая есть сейчас, при этом, разумеется, у вас есть "конкуренты" и если ваша область востребована, они будут вас очень быстро догонять (для поточной обработки в памяти существует уже довольно много инструментов, и главным блокером для появления новых является, как это ни удивительно пакет Pandas). Или вы понимаете, что вам нужно развитие, и тогда вам придется заняться поэтапной модернизацией проекта, которая требует довольно много усилий.
1. ViacheslavNk
  14.01.2025 17:19
  #27787382
  будет ли от этого какая-то польза: не хочется тратить ресурсы и время на то, что никогда никому не понадобится. Ведь шансы, что кто-то подключится к разработке,
  
  Вот тут вам должно быть виднее, сколько будет пользователей у вашей программы, если допустим ее переписали с фортрана на С++, сделали современный удобный UI условно уровня Matlab с диалогами, графиками и пр, на мой взгляд нужно от этого отталкиваться.
  1. adeshere
    14.01.2025 17:19
    #27788104
    сколько будет пользователей у вашей программы, если допустим...
    
    Не думаю, что я смогу ответить на вопрос о числе пользователей хоть сколько-нибудь правдоподобно. Может, будет разлетаться. как горячие пирожки (при хорошем пиаре), а может - ни одного нового, сколько бы и чего б мы не сделали ;-)
    
    ее переписали с фортрана на С++,
    
    Вот именно эта опция на число юзеров не повлияет вообще никак ;-)
    Юзеру вообще пофиг, на чем оно все написано - лишь бы работало быстро, и делало то, что нужно ;-)
    
    Что же касается скорости, то тут С++ фортрану при прочих равных
    
    скорее проигрывает, чем наоборот
    
    Точнее, вычислительная эффективность у обоих языков имхо примерно сравнима... только вот чтобы написать высокоэффективную программу без багов на С++, квалификация программиста должна быть на две-три головы повыше ;-) В фортране же для этого достаточно знать массивные операторы, ну и изолировать разные подразделы кода в отдельных модулях (= классах). Все остальное сделает компилятор ;-)
    
    Учитывая, что сейчас вычисления у нас написаны на фортране, и что для основного разработчика этот язык - родной, такое переписывание вообще никакой пользы не даст, кроме вреда (с). Что же касается потенциального круга комьюнити, то писать дополнения-расширения к нашей программе можно фактически на любом языке. Так как основное взаимодействие между модулями идет через файлы и системные сообщения - их даже не обязательно компилировать в единый exe-шник. Чтобы начать, достаточно
    
    оформить С++ -интерфейсы к библиотекам ядра программы
    обеспечивающим доступ к данным и пр. Кстати, один из юзеров это реально сделал какое-то время назад, и его приложения напрямую работают с нашей базой... Только сейчас он уже совсем не в науке :-((
    Да, там довольно много всяких структур, но они переписываются на С++ один к одному. Ну и еще там примерно под сотню минималистичных функций типа
    
    открытия-закрытия входных-выходных потоков
    Для скорости и для аккуратного обслуживания NaN-значений мы работаем с файлами данных и скользящими по ним окнами через отдельный промежуточный уровень
    Единственное, чего не сможет делать человек с другим стеком - это полноценно рефакторить вычислительные алгоритмы. Но тут уж ничего не поделаешь...
    
    Что же касается GUI
    
    он у нас, разумеется, есть,
    так как основная идея программы - это визуально-ориентированная среда анализа данных. Где главную роль играет эксперт, а не алгоритмы. Поэтому 99% времени он видит перед собой не таблицы из списков методов и сигналов, а графики временных рядов в разных видах и представлениях. Которые занимают 99% экрана. А все элементы управления утрамбованы в самом минималистичном формате. Например, для настройки оси координат надо не лезть в меню (которое еще попробуй найди - изначально оно свернуто в один символ), а щелкнуть по этой оси. А для управления окном просмотра (если хочется получить расширенный доступ к настройкам) - щелкнуть по спрятанному в status line инфотексту с параметрами текущего окна. И так далее. Кстати, это тоже вызывает ступор у новичков, привыкших к современным стандартам. Особенно на начальном этапе, когда рука так и тянется к мышке (я сам при работе практически все делаю через хоткеи, но их же еще надо запомнить)
    то GUI у нас и так написан на С++. Причем с определенным количеством разных трюков, без которых было бы невозможно обеспечить необходимую скорострельность при интерактивной визуализации совсем уж объемных данных.
    
    сделали современный удобный UI условно уровня Matlab с диалогами, графиками и пр,
    
    Ту есть ключевое слово "удобный". Лично для меня "современный удобный UI" (типа матлабовского) при работе с нашими данными гораздо менее удобен, чем уже сделанный у нас. Сейчас я практически любое действие могу выполнить через пару нажатий на клавиши. Ну изредка приходится что-нибудь выбрать мышкой прямо на графике, если, к примеру,
    
    перемещать рамку выделения клавиатурно медленнее, чем мышкой
    Хотя именно для того, чтобы уменьшить количество перехватов мышка-клавиатура, у нас одновременно работают три типа "горячих сочетаний" клавиш, которые двигают эту рамку с тремя разными скоростями. Причем эти скорости еще и немного подстраиваются динамически в зависимости от данных, показанных на экране
    Проблема не в неудобстве нашего UI (на мой вкус, он, наоборот, максимально удобен), а в его нестандартности. Все заточено не просто под конкретные задачи, но фактически под конкретный стиль работы.
    
    Или скажем диалоги. С одной стороны, они реализованы в виде всплывающих текстовых окон, что сильно ограничивает возможность донастроить оформление "под себя". С другой стороны, это оформление изначально настроено так, чтобы нескольким "приоритетным" пользователям было максимально удобно. Вплоть до побитовой подгонки цветовых масок. Для тех, кому это не нравится, есть единственный предустановленный альтернативный стиль - т.н. "светлая тема". Но донастроить ее под себя точно так же нельзя. И не потому, что это сложно реализовать (как раз прописать эти таблицы в конфиге и прикрутить к ним минимальный редактор - это вообще ерундовая фича). А потому, что работу с этими настройками придется описывать в справке, делать там защиту от дурака (чтобы какие-то важные вещи не стали невидимыми), и т.д., и т.п. У нас в пакете и так хватает всякой труднопонятной для нормального человека зауми. Усугублять ее еще и настройками интерфейса нам показалось излишним.
    
    Или другой пример про удобство. У нас еще в 1980-х годах каждый диалог стал запоминать ввод юзера, и при следующем открытии диалога этот ввод автоматически подставляется
    
    в качестве умолчания
    Причем вне зависимости от того, открывался ли этот диалог в прошлый раз минуту назад или в прошлом году (т.к. ответы хранятся в специальном собственном файле, который легко можно перекинуть в другую папку или на другой комп вместе с программой простым копированием всей папки).
    Если, конечно, данные не изменились настолько, что предыдущий ввод потерял всякий смысл (тогда умолчание корректируется "по мотивам" предыдущего ввода). Но строка ввода в любом случае точно не будет пустой - там с гарантией будет записан шаблон ответа, который точно прокатит при фактических характеристиках имеющегося набора сигналов. Для меня остается загадкой, почему такой стиль до сих пор не реализован во всех остальных программах, как общее правило. Ведь есть куча случаев, когда юзер решает похожие задачи неоднократно. А если вдруг нет, то никто не мешает начать ввод строки с нажатия символа, после чего шаблон исчезает, и все выглядит так, будто изначально поле ввода было пустым.
    
    А уж как там в матлабе реализованы вектора timestamp-ов - это вообще за гранью добра и зла. Если бы мы использовали аналогичный подход, то потеряли бы в скорости (а также в требованиях к памяти) минимум втрое. Хорошо, что когда мы лишь начинали писать наш пакет (в 1985-м!), мы о матлабе просто
    
    не знали ;-))
    Я совершенно не говорю, что матлаб - это плохо! Но главные задачи у него откровенно другие, поэтому и оптимизация под нашу нишу попросту никакая. Одна только проблема с Nan-ами уже практически обнуляет шансы его сюда приспособить...
    Единственное, чего мне сейчас реально не хватает в реализованном интерфейсе, это полноценного языка макросов. Де-факто наши макрокоманды запоминают нажатые клавиши, после чего записанный макрос можно применять многократно, или отредактировать-сохранить и т.д. Поскольку у нас очень часто приходится выполнять похожие процедуры с разными наборами рядов данных, без таких макросов была бы нудятина. Только вот чтобы превратить их во что-то более полноценное, нужно потратить серьезное время. Которое мне никак не удается найти... То есть, работать как-то работает, но нормальному юзеру непривычно. Ну и набор возможностей ограничен.