Давеча отечественный государственный заказчик разместил интересный заказ. (Документация)

Суть заказа: создание блокчейна и сопутствующей инфраструктуры для управления авторскими правами и обмена знаниями. Под знаниями в данном случае понимаются тексты научных и образовательных материалов, схемы, чертежи, формулы 2D- и 3D-модели и прочий образовательный и научный информационный контент.


Поскольку мы с вами, участники сего сообщества, имеем знания и навыки, и часто являемся гражданами целевого государства, предлагаю обсудить:


  • Целесообразность проекта
  • Необходимость в этом проекте технологии типа "блокчейн"
  • Варианты архитектуры и способы реализации проекта
  • Прочие мысли по этому поводу

На чём можно ставить кат, под коим я оставлю некоторые свои мысли и интересные выдержки из текста.


Выдержки о сути проекта

В результате реализации проекта будет создана совершенно новая университетская сетевая платформа, позволяющая:


  1. Создавать и правомерно вводить в оборот значительный по объему, достоверный и актуальный по содержанию комплекс информационных ресурсов, включающий в себя «критическую массу» электронных научных, учебных и учебно-методических ресурсов.
  2. Обеспечить авторам «безбарьерный» ввод знаний в систему, минуя традиционные механизмы создания и публикации контента и предлагая автоматическое участие в последующих цепочках обращения объекта интеллектуальной собственности.
  3. Исключить из процессов оборота интеллектуальной собственности для нужд науки и образования посредников, повысив рациональность использования финансовых ресурсов университетов для информационного обеспечения.
  4. Повысить качество образовательной и научной деятельности за счет организации коллаборационной деятельности сотрудников университетов по созданию научных, учебных и методических материалов, введения в оборот данных исследований.
  5. Ввести систему объективной оценки востребованности произведений науки, литературы и искусства по множеству показателей (скачиваемости, цитируемости, используемости и др.), сформировав тем самым принципиально новую систему метрических оценок в университетской среде.
  6. Ввести элементы геймификации системы, привязав внутреннюю активность к комплексу материальных и нематериальных поощрений, обеспечив заслуженное вознаграждение, прозрачность и общественный контроль над знаниями, оборачиваемыми в формируемой экосистеме.
  7. Внедрить эффективные механизмы управления правами на результаты интеллектуальной деятельности в университетах, соответствующие гражданскому законодательству РФ, и одновременно – сформировать принципиально новую, прогрессивную культуру работы с интеллектуальной собственностью, необходимую для решения задач развития цифровой экономики.
  8. Сформировать эффективную систему распределенного депонирования и фиксации прав на основе технологий блокчейн, обеспечив агрегацию и легализацию оборачиваемого в университетской среде цифрового контента.
  9. Создать обособленную виртуальную экосреду на основе системы цифровых правил, позволяющую не только повысить прозрачность и результативность ученого (коллективов, коллабораций), но и получить необходимый опыт и апробировать практики, которые станут основой для развития всей национальной системы интеллектуальной собственности.

Цель и задачи проекта:
а) цели проекта:


Цель проекта – создание цифровой платформы обмена знаниями и управления авторскими правами на основе агрегации объектов авторского права, создаваемых в высших учебных заведениях, и обеспечения оборота таких объектов и прав на них на базе технологий распределенных реестров.


Новизна проекта заключается:


  • в создании комплексной платформы, реализованной в русле парадигмы открытой науки (Open Science), построенной на распределенном реестре, сочетающей фиксацию авторских прав, депонирование объектов, систему поиска и безвозмездного и (или) условно безвозмездного обмена объектами между обучающимися, преподавателями и исследователями, работающими в ведущих университетах;
  • замещении экономического института посредничества платформой, предоставляющей потребителям возможность осуществлять прямое взаимодействие с производителями контента, в том числе гибкое изменение их ролей;
  • формировании экосистемы, где в качестве основы экономических отношений будет апробирована система реального и виртуального стимулирования на основе принципов геймификации социальных систем.

б) задачи проекта:
Для достижения поставленной цели необходимо решить следующие основные задачи.


  1. Выработать форматы ввода знаний (депонирования объектов) в систему, разработать стандарты для размещения новых форм описания цифровых объектов, пригодных для производства различных объектов (в том числе неполных) интеллектуальной деятельности, создаваемых в университетах.
  2. Организовать устойчивое взаимодействие участников проекта, в том числе процессов депонирования объектов в депозитариях участников и фиксации фактов депонирования, сведений о правах, их передаче и использовании объектов с помощью распределенного реестра на основе технологий блокчейн.
  3. Разработать цифровую платформу обмена знаниями и управления авторскими правами (далее – цифровая платформа, система), включающую функции:
    а) размещения в распределенном виде знаний как в формате целостного объекта, так и в формате неполных объектов (фрагменты данных, текстов, моделей, кода и др.);
    б) верификации подлинности совершенных действий и достоверности информации в отношении объектов интеллектуальной собственности, в том числе фиксации приоритета без участия человека;
    в) ввода в оборот новых форм описания цифровых объектов, создаваемых университетами, необходимых для реализации приоритетов научно-технологического развития – генетических ресурсов, трехмерных, информационных моделей и т.д.;
    г) развития моделей интеллектуального сопоставления и сравнение записанных в цифровой форме объектов права, позволяющих определить их уникальность полностью или в отдельных элементах;
    д) монетизации, включающей условно свободное использование и отложенную монетизацию, а также возможность выплаты справедливого вознаграждения лучшим авторам из различных университетских фондов стимулирующих выплат.
  4. Апробировать и внедрить модуль геймификации с целью сформировать новую виртуальную экосистему для ученых, в которой появляются стимулы к интенсивной генерации знаний, исследований, услуг, взаимного рецензирования, оценки творчества.

Мысли на тему


Государство предлагает создать децентрализованную инфраструктуру, позволяющую однозначно установить авторство и получать доступ к содержимому. Уже есть система, которая это может: Handle System, поверх которой работает известные всем людям науки DOI. Некоторое время назад государство было заинтересовано в создании собственного регистратора DOI, и даже публиковало книжку по этому поводу. Однако, проект и фонд, за него ратующий, были свёрнуты и реорганизованы, а на суд народу был предъявлен уже текущий проект с блокчейном в главной роли.


Ключевой вопрос: имеет ли смысл использовать блокчейн в данном контексте. Чтобы понять, нужно разбить систему на части и рассмотреть их подробнее.


Научная среда создаёт много данных. Очень много данных. Нет никакой возможности хранить их централизованно. Значит, хранить надо распределённо. И распространять распределённо. Лучшим в такой задаче показал себя протокол torrent, очень неплохо выглядит IPFS. Для установления авторства каждый объект в системе подписывается ключом автора.


В заказе речь идёт о фрагментарности и возможности разбиения и слияния объектов содержимого. Для таких задач в большинстве случаев отлично подходит git. Если отдельный файл можно адресовать по его хешу в IPFS, то с git мы имеем возможность адресовать до конкретного состояния файла, присовокупив идентификатор коммита. Коммиты, понятное дело, подписываются. Фактически, дерево коммитов репозитория и становится тем, что нам нужно для однозначного установления авторства и однозначной адресации. Однако, git не предусматирвает возможности передачи авторства. Переподписанный коммит становится другим коммитом.


Именно эту проблему, теоретически, имеет смысл решать блокчейном. Блокчейн существует параллельно с системой адресации и распределёнными репозиториями, и хранит в себе сделки в отношении авторских прав на объекты системы. Объектом в данном случае считается конкретное состояние (хеш файла + id коммита). Таким образом, не составляет сложности узнать, кто создал объект, и кто владеет правами на него.


Однако, в этой системе проблемы современной системы авторского права будут видны в полной мере. Например:


Исследователь A работает над оптимальным способом извлечения нефти из земных недр и публикует черновики работ в системе. Исследователь B создаёт на основе черновиков собственные разработки. Компания Р в определённый момент замечает, что исследования А дают сильное конкурентное преимущество, выкупает работы А и переносит их в статус коммерческой тайны либо делает патент. Однако работы В коммерческой ценности для Н не имеют, зато имеют ценность фундаментальную, и ценность для потенциальных конкурентов Н. Внимание, вопрос: кто и как теперь определяет судьбу работ исследователя В?


Исследователь Ю разработал и продал некую свою работу компании Д. Однако, уже после продажи обнаружил, что работа может иметь фундаментальную ценность, если внести в неё несколько изменений. Имеет ли право Ю внести такие изменения и опубликовать новое фундаментальное исследование, если таковое затрагивает коммерчески ценные данные, которые Д купило у Ю?


Мысли по мелочам


Очень интересно выглядит перспектива встраивания системы идентификации контента напрямую в редакторы. Чтобы, например, Inkscape или OpenOffice автоматически регистрировали за человеком вновь созданный документ.


Проблем с авторским правом бы не было, если бы вместо конкуренции предприятия кооперировались для создания новых методов и научных разработок. Не было бы смысла эти разработки прятать и препятствовать развитию науки. И блокчейн в такой системе был бы не нужен.


Геймификация… да какая, блин, геймификация, если можно сделать лайки. Мы же социальные существа, за лайки лоб расшибём быстрее, чем за ачивки.


Ещё интересных госзаказов про образование


Разработка архитектуры информационных научно-образовательных ресурсов — то, о чём шла речь в эпопее Необразованная молодёжь. Государство иногда нас слышит. Но сделать ничего не может. Распилено до нас.


Создание ресурса для агрегации научно-образовательного контента — Тоже интересная затея. Навигация по образовательным каналам в ютубе, группам ВК и, тем более, индивидуальным ресурсам — нетривиальная задача. Ибо порой нет даже кросс-ссылок. Беда в том, что в государственной системе будут собираться только дозволенные государством создатели контента.


А если задуматься

почему вообще государство собирается агрегировать энтузиастов, вместо создания системы, которая и без энтузиастов от образования была бы хороша?


Warning: политота

Почему госзаказы — не для нас


Завершу на грустном. Госзаказы, которые я показал, неплохи в своей сути. Однако, получить их практически невозможно. Приведу простой пример: стартап-школы, пусть я их и не люблю, дают до 60 дней на подачу заявки. Проекты для госзаказа значительно сложнее того, с чем приходят в стартап-школы. Однако — 20 дней. То есть, для получения такого госзаказа нужно знать о его создании заранее. Либо создавать отдел немедленного реагирования, который будет заниматься только отслеживанием и подготовкой заявок.

Комментарии (22)


  1. maslyaev
    09.10.2017 19:27
    +1

    Обещал «Другие (в комментариях)»: WikiMedia.


  1. ippromek
    09.10.2017 19:31

    по поводу правильности выбора — мне кажется вам нужно посмотреть вот здесь
    https://medium.com/@sbmeunier/when-do-you-need-blockchain-decision-models-a5c40e7c9ba1


    1. SBKarr Автор
      09.10.2017 19:47

      Тут как раз зарыта интересная собака в виде различных интересов науки и государства. Наука заинтересована в сборе и обработки информации из всех источников, и в регуляции всех со всеми. Государству же нужны только доверенные и разрешённые. Выбирая различные стороны мы будем получать различные решения.

      Блокчейн, очевидно, не нужен, если вся система идёт в опенсурс и Open Science (про это тоже есть в документации). В этой концепции не нужна система, гарантирующая доверие сторон друг к другу. WikiMedia в качестве примера.

      Многие факторы в выборе сами по себе спорные. Например, про небольшое количество данных на транзакцию. Когда речь идёт о государственной юридической системы, единственный ответ, который можно дать: «Мы не знаем». Систему нужно проектировать с расчётом на 25 лет существования минимум. Как за это время поменяются государственные требования и вообще государственные технологии — мы не знаем.


      1. Temmokan
        10.10.2017 06:03

        Государству же нужны только доверенные и разрешённые.


        Государству нужны полностью подконтрольные. Такие, которые можно когда угодно добавить, изменить, заменить, удалить.

        Блокчейн в данном случае «слышал звон...», модное словечко. Затрудняюсь представить себе этот оксюморон — «государственный блокчейн».


  1. SADKO
    09.10.2017 20:56

    Как-то глупо всё слепили в кучу… (у гос заказчиков это хроническая болезнь)
    … ИМХО главный смысл блокщейна, удостоверять что-либо, применительно к авторскому праву можно удостоверять приоритет и при поддержке государства, это был-бы не плохой инструмент…
    Старые изобретатели не дадут соврать, был такой хороший механизм, отправлять самому себе документацию по почте (физической), и хранить её в закрытых конвертах, что-бы иметь возможность в случае чего доказать свой приоритет, и вроде бы даже были судебные прецеденты.

    Однако авторское право не сводится только к установлению и охране приоритета, это лишь аргумент, один из… Так что на самом деле всё сложно.


  1. Adium
    10.10.2017 12:07

    Да это же очередное рассовывание бабла по карманам


    1. SBKarr Автор
      10.10.2017 13:20
      +1

      Это как раз очевидно. Но я всё-таки думал, что техническая интеллигенция должна из всего извлекать рациональное зерно. А здесь оно есть. Глупо это игнорировать.


      1. DrPass
        11.10.2017 13:19

        Рациональное зерно здесь есть, сорт называется «Нетратьтеденьгиналогоплательщиков».


  1. erwins22
    10.10.2017 17:16
    +1

    Так как это система управления правами:
    1. Создается сайт государственный.
    2. Любой человек может разместить там данные на публичное/приватное хранение безотзывные данные по госключу (что получаем для работы с госорганами) Оплачиается хранение 1 раз и навсегда.
    3. Занесенные данные обладают приоритетом и юридической значимостью в суде.


  1. INK495
    10.10.2017 22:06
    +1

    Вставлю пять копеек от науки, ибо универсальны для любой области знаний.

    1. Платформ сугубо для обмена знаний хватает (ResearchGate, например). А вот если бы такая платформа еще защищала авторство (т.е., что идею и данный текст предложил именно Вася) — такое было бы весьма интересно. В идеале, это должно работать с полным текстом, а не в виде обычного идентификатора, то есть интегрировать функцию антиплагиата.

    2. Выложить статью в серьезный журнал в открытый доступ — около 2 000 USD, в ответ журнал дает определенную гарантию, что такая статья имеет некую научную ценность. Можно выложить и бесплатно (платить будут покупатели), но остается ключевая функция журнала — оценка научной ценности статей. Предлагаемая система этого не делает, соответственно, предложенный функционал — очередной вариант библиотеки.

    2.1 Вопрос о качестве научных знаний — вообще достаточно больная тема. Современная (сложившаяся в 1970-е) система фильтров представляет собой следующее: отсев научным руководителем, отсев внешним рецензентом, отсев экспертом журнала, отсев сообществом (aka актуальность и востребованность). Так вот, медианное значение доли не востребованных сообществом публикаций от всех опубликованных — 53% (данные доклада А. Немцова, Е. Кузнецовой-Моревой на примере исследований в медицине, сентябрь 2017, МЦНТИ). На предыдущих этапах отсеивается не меньше, но тут могу опираться только на субъективные данные. Кстати, упомянутая "Необразованная молодежь" имеет к этому определенное отношение.

    3. К мысли о приоритете государства и приоритете науки. В предложенной форме приоритеты совпадают (если не брать технологии двойного и оборонного назначения, тут — отдельная песня). Я бы формулировал этот вопрос таким образом: если проект взлетит, то в какую сторону пойдет его развитие? Вот тут действительно возможно расхождение интересов.

    3.1 Есть не только национальные, но и международные инициативы на эту тему, желающие могут глянуть, например п. 70 Повестки дня 2030 ООН, вторая точка. Несмотря на всю критику Организации грамотно позиционированная международная платформа серьезно снижает вероятность конфликта интересов.

    Завершая мысль. Извиняюсь за некоторый отход от темы, но продиктовано это тем, что все те проекты, которые направлены на решение сложившегося в науке застоя не решают проблемы комплексно (по крайней мере те, которые довелось просмотреть, включая настоящий). Мне кажется, что было бы интересно обсудить, как могла бы такая система выглядеть.


    1. SBKarr Автор
      10.10.2017 22:27

      Мы тут на мозговом штурме где-то описывали прототип комплексного решения. Интересно то, что госзаказы, ссылки на которые я давал, словно дёргают оттуда отдельные части. Правда, наша работа скорее образование, чем наука.


      Интересно то, что заказчики, в том числе, государственные, готовы платить за разработку отдельных частей, но не системы целиком. Отчасти потому, что система целиком может нарушать государственные интересы. Например, если некий профессор Попов напишет учебник по философии, такой учебник может в режиме честной социальной конкуренции обойти государственные учебники. Но это будет марксистский учебник с марксистской философией, ибо профессор Попов — марксист. А государство капиталистическое.


      По другим вопросам альтернативные решения давно уже есть. Для антиплагиата есть ContentID. Научную ценность можно подтверждать по концепции WikiTribune. А вот с международностью есть определённые плохо разрешимые проблемы. Ибо, во-первых, практически все государства вознамерились решать, какую информацию граждане получать могут, а какую — нет. Во-вторых, государства напрямую заинтересованы в необразованности и антинаучности вероятного противника, а таких пар вероятных противников в мире наберётся с десяток.


      1. INK495
        11.10.2017 13:03

        Я так понял, под «мозговым штурмом» подразумевалась эта статья с комментариями?

        Например, если некий профессор Попов напишет учебник по философии, такой учебник может в режиме честной социальной конкуренции обойти государственные учебники. Но это будет марксистский учебник с марксистской философией, ибо профессор Попов — марксист. А государство капиталистическое.

        Встречал я такие вещи, хотя и не в отношении пары «марксизм-капитализм». Но мне кажется, что тут суть немного в другом: учебник должен быть априори аполитичен (например — технические специальности), а если такое невозможно из-за самой сути предмета (история, международка), то представлять на своих страницах аргументы 2-4 наиболее крупных школ в данном вопросе, чтобы заставить учащегося включить собственные мозги. Либо это должна быть пара учитель+учебник, но вот хороших учителей, в отличие от учебника, не размножишь.

        А вот с международностью есть определённые плохо разрешимые проблемы.

        Проблемы, конечно, есть. Только вот в отличие от национального уровня с его хотелками по контролю и укладыванию проекта в русло национальных и государственных интересов, на международном уровне эти проблемы имеют как минимум теоретическое решение. Кстати, практическое решение (одна из ключевых частей) — финансовая независимость проекта.

        Пара примеров от образования
        Довелось мне поучаствовать в проекте создания и сопровождения совместных международных программ по политологии и международным отношениям, то есть априори политизированным дисциплинам. Господдержки там, естественно, не было, противодействия, правда, тоже. А вот после окончания обучения студенты были нарасхват в бизнесе, было даже два случая когда одна немаленькая немецкая компания оплачивала обучение.

        Второй пример — европейские программы Эразмус. Ориентированы они больше на язык, но стандартной полугодичной программы более чем хватает, чтобы избавить ребят от подавляющего большинства стереотипов.


  1. Gryphon88
    11.10.2017 17:43

    Несколько проблем, причем общих, а не только описываемой системы:
    1. «Ветви»: допустим, в 80е была написана статья, ставшая классической, и от неё потянулась цепочка цитирований. В 00е на новом уровне инструментации метод классической статьи был проверен и была показана его ошибочность, и от этой публикации потянулась новая цепочка, при этом старая не прервалась. Очевидно, что точки противоречивы, и верной может быть только одна (описанный случай лично я видел дважды: «точный и быстрый» кальциевый сенсор Fura-2/3 и «потенциал чувствительный» Rhodamine123). Сходные проблемы могут быть внутри одного исследователя: когда в следующей (или текущей, если препринт публиковался) работе он себя опроверг, или если объект изучения менялся с течением времени (например, Страуструп про С++).

    2. Аудитория. В том же Researchgate есть полностью виртуальные исследователи, которые от действительных участников внешне отличаются только отсутствием ответ на вопросы. Данные грамотно скрейпятся: у автора проверена почта по Google Scholar — активируется кнопочка «message» в профиле, появились в пабмеде/скопусе статьи — публикуется статья в списке, статья стала открытой — подтягивается файлик, вроде бы даже новости проверяются, что «recent projects» обновить. Дергаются теги и соавторы, и на странице появляется предложение подписаться на такого фантома, подписавшимся приходят нотификации по описанным выше пунктам.
    — я не в курсе, как относиться в данном случае к авторскому праву и приватности
    — это удобно, потому что не требует лишних действий от участника и популяризует людей и исследования, которые даже не слышали про ResearchGate

    3. Полнота данных. Для воспроизведения требуются исходники; сейчас их требует журнал, а если не теребить, все ли приложат? В старых статьях, в первую очередь доинтернетовских, исходники по определению недоступны

    4. Описательные науки. Про научность истории вообще много споров, в том числе потому, что если взять дневники/отчеты нескольких очевидцев, они могут не совпасть, в том числе полностью. Плюс историю регулярно переписывают.

    5. Вес авторитетов. Что можно считать фактом? Были ученые с великолепными работами, которые, тем не менее, сделали ряд закрытий, например, Ньютон, Аристотель и лорд Релей. Если сделать голосование, то их (ошибочное или недоказуемое) мнение по определенным вопросам перевесит мнение противников.

    6. Тематичность. Что есть тема? Про многие вещи, особенно философские, математические и теоретические, очень сложно сказать, про что они вообще. Или. например, если метод применим к такому-то объекту, его примение (с иными выводами) к другому объекту — это новая тема, или та же? Не хотелось бы писать статьи в Owl, но как-то семантику надо размечать. Тут ещё описание может не соответствовать графикам или картинкам, что ещё интереснее, тогда совсем весело.


    1. SBKarr Автор
      11.10.2017 18:59

      1. По проблеме ветвления, я странным делом технический консультант в диссертации по сущностному анализу научных статей (да, всё в жизни связано). Проблема в целом решаемая за счёт алгоритма поиска комплектов «тезис-антитезис-синтезис», проявляющихся в одном и том же контексте. При наличии определённой базы онтологических (не совсем онтологических, но это долгая история) данных задача решается без участия человека. Но это пока тема исследований, а не созданная на практике система.

      2. Проблема аудитории на уровне, например, РФ, решается привязкой через госуслуги. Не знаю, где как, но в нашем региональном захолустье жить без госуслуг нереально.

      3. Проблема исходников государством упущена напрочь. Хотя, например, АФК Система некоторое время работала над отечественным автотранскрибтером, чтобы переводить аудиозаписи в текстовую форму. По инсайду, проект мёртв. А вот распознавание и хранение сканов вполне себе работает посредством технологий ABBYY. Лучший способ заставить прицеплять исходные материалы — внедрить соответствующую культуру и сделать процесс достаточно удобным за счёт современных технологий. С автотранскрибтером можно было бы хоть диктофонные записи цеплять.

      4. У «описательных» наук есть отличный научный аппарат. «История не наука» и «Историю переписывают» — обычные мифы, послушать про которые можно, например, на мероприятии «Учёные против мифов». Пользователей научного аппарата учёный-историк за два предложения способен отличить от шарлатана так же, как математик — формулу от произвольных каракуль. Отличие в том, что историк на месте сложносочинённых формул видит не очень красивый, но безобидный узор, а математик на полном серьёзе может видеть исторические данные у Фоменко.

      5. Наука не про мнения. И в целом даже не про факты. Наука про закономерности и предсказания. Ваша закономерность работает в положенных для неё рамках — вы авторитет в этих рамках. Другая ваша же закономерность в другом месте не работает — в этом месте вы не авторитет. Наука вообще не про демократию, она изначально была иерархической, сейчас иерархическая, и, скорее всего, такой и будет. Иначе действительно будем выбирать учёных «авторитетным голосованием».

      6. Снова тема работы моего технического консультирования. Раньше всё было понятно, там у нас математика, здесь история, а тут астрономия. Сейчас же человек не в состоянии это дело кластеризовать. Однако, оказалось, что машина-то в состоянии. И из машинно-определённого контекста статьи вполне можно сделать вывод: к какому направлению и дисциплине, и в какой мере статья относится. Присутствующий на хабре Александр Болдачёв этим напрямую занимается.

      P.S. Сам я, каюсь, не очень скромный инженегр, но чуть ближе большинства инженегров к научной деятельности. Что вижу — то вещаю.


      1. Gryphon88
        11.10.2017 22:10

        1. Великолепно! Я потыкался в проблему, но так и не понял, как её решать. Попросите, пожалуйста, своего курируемого скинуть мне диссер после предзащиты, глядишь, и напитоню чего (конечно, если он сам не планирует монетизировать идею). Вообще, можно ли создать онтологию, одновременно достаточно полную и при этом проще описываемого объекта?

        2. Вопрос был не про то, откуда система узнает меня, а как я узнаю о системе и почему буду ей пользоваться. ResearchGate хорош тем, что им можно пользоваться, не зная, что он вообще существует. И вы же сами предлагали делать не связанную с государством структуру, какие госуслуги?

        3. Культура — это хорошо, но ненадежно. К тому же эти данные надо где-то хранить, если использовать торренты, то это может как минимум поначалу лечь на автора. Для моего диплома исходники — это полтора терабайта (нежатых) фотографий. Объём данных статей, сделанных на LHC, мне страшно даже представить.

        4. Верю, иного не остаётся, поскольку я в этом не разбираюсь аж совсем. Проблема в том, что в учебниках по истории каждые лет 10-20 многое меняется, например, ответ на вопрос «Кто такой Л.Д.Троцкий?» в 1917 и 1937 звучит оочень по-разному. Надо будет провести черту между наукой и не наукой, что особенно сложно, когда свидетельств просто не сохранилось.

        5. К предыдущему пункту: кто и как будет отделять науку от ненауки, а истинное от ложного? Или этот вопрос не затрагивается, в центре только авторство идеи\работы? Чтобы каждый знал, кто на чьих плечах стоял? Меня очень насторожили геймификация и лайки в теле пубикации, с ними можно построить соцсеть, но сложнее систему коллективного принятия решения.

        6. Тут вам всяко виднее. Я с большим интересом читаю статьи на тему, но ничего, чем можно гордиться, не написал.


        1. SBKarr Автор
          12.10.2017 00:45

          1. Онтологию — нельзя. Но онтология исключает из рассмотрения динамику, рассматривает только статическую картину. Что порождает целый каскад проблем, основная из которых — эффект послезнания. То есть, онтология видит те понятия, которые были созданы уже после рассматриваемой работы, и анализ работы проводится в контексте зафиксированного в онтологии времени. В итоге мы при контекстном анализе с помощью онтологии получаем совсем не то. что видел и хотел выразить автор. Чем больше разница во времени — тем больше искажение. Ключевой момент в решении — создать диалектическое представление понятий, в котором будет учтена динамика контекстов и вывод понятий друг из друга. Это можно рассматривать либо как своеобразные онтологические слои, либо как дерево развития понятий. Древовидное представление как раз позволяет отслеживать ветви развития. А по поводу сложности при таком подходе в полной мере проявляется эффект «сложное есть сложенное из простых»: сложность зачастую декомпозируется в пересечение нескольких достаточно простых «ветвей».

          2. Государство это всегда принудиловка, но для эффекта это должна быть удобная принудиловка. А без государства и подход ResearchGate вполне хорош, зачем переизобретать? Разве что, приучить всех подписывать всё приватным ключом. С авторским правом в нашем капиталистическом мире в любом случае будут возникать вполне конкретные коллизии, я их описал в статье. Единственный способ таких коллизий избежать — жить в мире, в котором кооперация и открытые данные выгоднее конкуренции и секретов производства.

          3. Вопросы хранения может решить отлаженная IPFS. Институт разворачивает ноду, которая будет автоматически сгребать в себя всё, что сделано сотрудниками, на основе подписей сотрудников. Что-то похожее вроде даже было в ЦЕРНе. Поскольку IPFS это гибрид торрента и CDN, с постоянно активной нодой и хорошим каналом доставлять данные до нужной точки даже при больших объёмах не должно быть проблемой.

          4. Учебники истории во все времена не имели отношения к науке, это чистой воды политподготовка. И такой подход имеет под собой научное обоснование (смотреть в «Тысячеликом герое» Кэмпбелла). У исторической науки первый критерий это грамотная опора на источники. Точнее, на комплексы источников. Яркий пример это недавняя книга «Война на уничтожение» Яковлева. Всем рекомендую любой претендующий на научный исторический подход труд сравнивать с ней. Ибо, с одной стороны, написано достаточно популярно, чтобы понять мог рядовой читатель. А, с другой, различия научного подхода и голой публицистики будут налицо. (Особенно всех забавляет Mein Kampf в качестве нарративного источника)

          5. В статье есть выдержки от государственного заказчика, и мои мысли по поводу того, как эти посылы стоит преобразовать. Про защиту системы от атаки лженаучников госзаказчик не задумывался. Хотя такая атака в некоторых отраслях вполне возможна. Собственно, я предлагаю заменить геймификацию на лайки просто потому, что на, скажем, гитхабе аналоги лайков замечательно работают и стимулируют к деятельности. Геймификация здесь — очевидный оверинженеринг. Но лайки это чисто стимулирующий момент. А вот реальную авторитетность нужно определять по классической академической иерархии. Не даром этот способ организации учёных сообществ оказался столь живучим.

          P.S. Это я по полученному высшему инженегр. А по заброшенному — гуманитарий. Оттого порой несу гуманитарно-технический фарш.


          1. Gryphon88
            12.10.2017 01:06

            1. А всегда ли послезнание — это плохо? Во многих первых статьях описывалось явление (теория и т.п.), которое получало ставший впоследствии общепринятым название/термин потом, у последователей. Если послезнание есть, то базовая статья ложится в ветвь, иначе из неё нельзя извлечь тег. С другой стороны, термин меняет общеринятое значение со временем, как «либерал», «патриот» или «интеллигент», тогда послезнание, наоборот, должно порвать цепочку, что не факт, что хорошо. Не хочу скатываться в спор о словах, так что прервусь.

            5. Должен быть механизм отзыва/порицания работы, в идеале — с потомками, форками и зависимостями. Сейчас это делается журналом под давлением сообщества, но если исключить журнал, то в принципе любую статью можно затоптать. Та же проблема, что с войной правок в вики: или туда-сюда, или придёт ветеран и заморозит в понравившемся ему виде.
            Классическая иерархия может консервироваться отдельными людьми с помощью 3 простых приёмов: статья-паровоз (много авторов, и один из них всегда, например, завлаб), эстафетное цитирование (группа договаривается цитировать друг друга) и давление авторитета (патриарх включается в соавторы). Консервирование очень сложно сломать в одиночку, а спор между группами идёт часто не из-за правоты, а из-за личностей, aka холивар

            Кстати, такой вопрос: есть много авторов, как определить чья идея, а если общая, то в какой пропорции, если contribution не указан?


            1. INK495
              12.10.2017 10:44

              5. Предположу, что если делать такую оценку, то неплохо было бы сначала обкатывать параллельные схемы — экспертный анализ и машинный. Понадобится это для взаимной верификации оценок и обкатки/доводки машинного анализа. Недостаток — упомянутая уже субъективность экспертного анализа и его ресурсоемкость во времени и деньгах.

              По приемам. Из того, как их пытаются преодолеть в тех же WoS/Scopus — установка граничных значений на количество авторов и цитирований группы с последующим отсевом всех неугодных. Схема весьма примитивная и холиварная, но единственная, массово реализованная на практике, насколько я в курсе. Кстати, это же является самым простым ответом на вопрос «если есть много авторов...». Следующий в цепочке вопрос — а нужен ли более сложный метод вообще? И смежный — а каков алгоритм появления идеи хотя бы в самом общем виде.

              механизм отзыва/порицания работы, в идеале — с потомками, форками и зависимостями

              Помимо оценки это еще и хороший механизм поиска и структурирования информации, особенно по междисциплинарке. Был у меня один пример написания статьи на стыке четырех дисциплин, который просто потонул в куче ненужной информации, которую надо было проработать, даже консультанты не помогли.

              SBKarr, так сложилось, что тоже работаю по сущностному анализу статей, но в другой плоскости — экспертная оценка и принятие управленческих решений. Посему присоединяюсь к просьбе Gryphon88 «почитать диссер», если это возможно.

              PS: не знаю, были ли мысли о монетизации и если были, то какие, но в чистом виде описанное монетизировать не стоит, система попадет на проблему «разницы между одной копейкой и халявой».


              1. Gryphon88
                12.10.2017 11:21

                5. Это да, но понадобится специалист (ы), разбирающиеся в методологии науки

                Про накрутки и отзыв: способ действительно холиварный, но как-то работает. Мне кажется, другой способ нужен, но я не очень понимаю, как различить семейственность от просто узкой темы, где цитировать некого, кроме друг друга.

                Про монетизацию: имхо, потенциал есть. В первую очередь в голову приходит метаанализ типа «метод-объект-результат», или хотя бы «метод-объект», если не получается вычленить результат. Недавно искал статьи по онкомаркерам и противораковой терапии, ушло очень много времени, но я не уверен, что нашел все мнения.


                1. INK495
                  12.10.2017 13:24

                  5. Да, и именно специалистЫ. Предложил бы первым этапом делать просто дерево статей, чтобы можно было прослеживать логику не только в направлении последователи=>первоисточник, но и обратно. А уже на построенное дерево накладывать аналитику.

                  Еще предположу, что если делать проект, то строго на открытых и полнотекстовых данных, тенденция со сканированием и выкладыванием ПДФ, кажется, тут не пройдет. По сразу возникающему вопросу с авторским правом — право на идею не нарушается (проектом по крайней мере), а с имущественным правом в науке легче всего — на статьях зарабатывают не столько ученые, сколько журналы, а это не нарушение права, а конкуренция.

                  Про монетизацию. Согласен с тем, что потенциал есть, более того, он весьма приличен. В чем я не очень уверен, так это в том, что именно такой метаанализ будет самым простым из востребованных, надо прикинуть, какие данные уже есть в доступе помимо статей.

                  А так, предложил бы сделать немного хитрее: базовый анализ, достаточный для отдельных пользователей, бесплатно и расширенная версия для юрлиц и коллективов платно. Только вот тут надо подумать над репутацией и как этих юрлиц заинтересовать, тут пока идеи очень черновые.


                  1. Gryphon88
                    12.10.2017 13:40

                    Решения с построением деревьев цитирования и их визулизации уже существуют, они пока тяжеловесные. Отдельная тонкость, что временами цитируют, чтобы покритиковать или опровергнуть.
                    В журналах определеный смысл есть: они выступают как реклама, координирую рецензирование и сбор отклика от сообщества, влияют на формирование рейтинга авторов и обеспечивают доступ к текстам и supplementary data. Правда, с их ценовой политикой я совсем не согласен, но это несколько другой вопрос


                1. INK495
                  12.10.2017 17:19

                  как различить семейственность от просто узкой темы, где цитировать некого, кроме друг друга.

                  Самое простое, что приходит в голову. Сначала отсекаются априори узкие темы, где существует не более N авторов за время Т. Время нужно для определения границы в темах, которые сначала были узкие, а потом внезапно обрели популярность или наоборот.

                  В крупных темах проверка такая. Строится социальный граф всех авторов в теме. Сила связи — количество цитирований. В логике, при нормальном распределении должно получиться несколько «корифеев», которых цитируют все и вокруг них формируются несколько слоев остальных авторов по мере уменьшения цитирования. Для слоя распределение цитирования будет довольно однородным. А вот выявленные аномалии могут быть искомым.

                  Из недостатков: очень грубо, нет проверки по другим методикам, обозначенные аномалии могут быть вызваны другими причинами (языковой принадлежностью, например). И еще проблемы с выборкой: если слишком мало людей — низкая достоверность. Если слишком много — начнут появляться под-темы.