Правда ли то, что национальный корпус русского языка «приватизирован» Яндексом? / forpes.ru

Главная
Правда ли то, что национальный корпус русского языка «приватизирован» Яндексом?

Правда ли то, что национальный корпус русского языка «приватизирован» Яндексом? +112

20.10.2023 05:55

snakers4 62 16000 Источник

Где-то неделю назад на Хабре увидел тезис другого автора о том, что мол НКРЯ поддерживается на бюджетные средства, но де-факто контролируется компанией Яндекс, которая ведёт себя как собака на сене и де-факто приватизировала корпус и никому его не даёт. Такое же примерно мнение слышал от людей, обозревающих интернет-тематику, мол национализация убытков, приватизация прибылей.

Статья была немного на другую тему и по сути про неё все бы забыли на следующий день, но есть один нюанс. Разработчики корпуса почему-то даже появились в комментариях той статьи. Хм, с чего бы это? Обычно системные игроки не отвечают на Хабре на критику.

У меня сейчас довольно мало понимания, что там вообще происходит, но думаю довольно яркая позиция менеджмента и менеджеров высшего звена Яндекса всем вам известна, не будем ее дублировать, чтобы не нарушать правила Хабра (и прошу быть сдержанным в комментариях). Интерес представляют 3 вопроса. Кто там реально на сене? Кто всё-таки может получить доступ к НКРЯ? И последний, дискуссионный вопрос, а как правильно?

Финансирование

У меня до этого в голове была чёткая ассоциация, что НКРЯ === Яндекс, если судить по их старому сайту. Есть вот такой пресс-релиз на сайте вышки. Приведем пару цитат (курсив мой):

В числе победителей конкурса – проект «Компьютерно-лингвистическая платформа нового поколения для цифровой документации русского языка: инфраструктура, ресурсы, научные исследования», представленный консорциумом вузов и научных организаций. Объем финансирования на три года составит 236 млн рублей. Основной исполнитель – Институт проблем передачи информации РАН, в состав консорциума вошли Институт русского языка им. В. В. Виноградова РАН, Институт лингвистических исследований РАН, Воронежский государственный университет и Высшая школа экономики, которую представляли ученые из Школы лингвистики.

Грант выделен на комплексную работу, связанную с обновлением платформы Национального корпуса русского языка - информационно-справочной системы, основанной на собрании русских текстов разных типов и жанров в электронной форме. Корпус предназначен, прежде всего, для обеспечения научных исследований лексики и грамматики языка и уникален тем, что содержит особую дополнительную информацию о свойствах этих текстов – так называемую разметку. В 2004 году, когда Национальный корпус создавался Институтом русского языка и компанией Яндекс, разметка была беспрецедентной даже по сравнению с зарубежными аналогами и с тех пор сохранила свою уникальность.

Так отлично, большой грант выделяется не Яндексу. Расходимся? Еще минуточку.

Заходим на сайт НКРЯ, он обновился. Там в разделе контакты находим новое юрлицо - ООО "Национальный корпус русского языка". Простой поиск по ЕГРЮЛ и сервисам проверки компаний не находит такую компанию. Хм странно. Но находится НЕКОММЕРЧЕСКОЕ ПАРТНЕРСТВО ПО СОДЕЙСТВИЮ РАЗВИТИЮ НАУКИ И ОБРАЗОВАНИЯ "НАЦИОНАЛЬНЫЙ КОРПУС РУССКОГО ЯЗЫКА".

В ЕГРЮЛ почему-то учредители этого НП не указаны. Но некоторые сайты "за честный бизнес", работающие в том числе на АПИ налоговой, показывают Яндекс в качестве учредителей без долей. Видим также последний отчет этого юрлица в ФНС, там вносят по 5 миллионов рублей в год, но без управленки куда они идут - неясно.

Пока понятнее от этого не становится. В сухом остатке - информации о новом ООО просто нет, а старое НП, вероятно было создано вместе с Яндексом и получало по 5 миллионов рублей в год на свою деятельность. Информация об учредителях из ЕГРЮЛ пропала, но возможно вступили в силу какие-то законы, и какие-то сайты просто не обновили свою базу. Тут если кто-то знает, напишите в комментариях.

Но почему-то в современной редакции сайта корпуса присутствует логотип Яндекса:

Вообще если зайти на страницу о корпусе и о сотрудниках, то увидим:

Название последнего гранта совпадает с названием на сайте вышки;
Существенное количество технических специалистов, поддерживавших сайт корпуса за всё это время, аффилированы с Яндексом;

Пробуем получить доступ легально

Обычно в такой ситуации люди просто машут рукой, мол всё же уже и ежу и ужу понятно, и просто предлагают спарсить. Но пользовательское соглашение естественно это прямо запрещает (см. разделы 2 и 3).

Поскольку мы пользовательские соглашения уважаем и ни в коем случае не нарушаем, доступ к корпусу нужно получить только легально. Нас интересует акцентологический корпус, а в идеале без стихов и без фонетических стихотворных прочтений. Но и честно говоря если пытаться решать задачу расстановки ударений для омографов, то и "неправильный" корпус может подойти, если должным образом извернуться.

Врать не буду, какое раньше было пользовательское соглашение - не помню, да и какая разница? Еще давно знакомые писали для диплома (корпус же для физических лиц, судя по всему, увидите дальше) - и никакого ответа естественно не получали, равно как и отказа. Ситуация с тех пор как мы видим поменялась и, видимо, продолжает меняться.

Мы написали от лица нашей компании. Сказали, что хотели бы решить задачу расстановки ударений для омографов. Нам ответили (это уже прогресс), послали на страничку и дали ряд комментариев (привожу почти точные цитаты):

Датасета на основе акцентологического корпуса, предоставляемого по лицензии, действительно не существует и в ближайшее время его изготовление не планируется;
По лицензионным соглашениям, представленным на странице https://ruscorpora.ru/page/corpora-datasets/ датасеты предоставляются только физическим лицам (п.1.1) и не предполагают передачи третьим лицам (п.4.1). Также согласно ст. 1235 ГК РФ лицензионный договор заключается в определенных пределах, то, что прямо не предусмотрено договором, означает, что оно не разрешено, поэтому использование датасета в коммерческих целях текущей лицензией не предполагается. Кроме того, основанием для заключения соглашения о получении доступа к данным на безвозмездной основе служит указание на учебные или научные цели использования, о чем говорится в начале страницы. К коммерческим проектам такая лицензия неприменима;

Простыми словами - даем только физикам, использование только некоммерческое, нужного корпуса нет и не будет, хотя может он где-то в глубинах содержится, если должным образом отфильтровать. В качестве решения - посоветовали поездить по библиотекам страны, пособирать детские книги с расставленными ударениями.

Давайте соберём факты воедино

Пунктирно:

Когда знакомые обращались от имени физлиц для написания диплома - им просто не отвечали (хотя корпус по идее сделан для физлиц), но это было давно;
Корпус в данный момент живет и развивается на государственном финансировании;
Для практических и прикладных задач его использование "невозможно" по целому ряду причин: спарсить нельзя, лицензировать или купить нельзя, передавать третьим лицам нельзя, использовать в коммерческих целях нельзя;
Яндекс был также в какое-то время соучредителем НП;
Сотрудники, поддерживающие сайт, в существенной степени (были?) аффилированы с Яндексом;
Решения Яндекса довольно сносно обрабатывают те же омографы (не готов сейчас дать нормальное количественное исследование);

На этом с фактической частью повествования закончим и перейдем к оценочным суждениям. Все описанное выше - в большей степени фальсифицируемо и проверяемо, все описанное ниже - моё личное мнение.

Моё мнение

Ну тут довольно просто. Когда-то давно еще тот, другой Яндекс вложил деньги в создание корпуса (если кто-то знает какие были бюджеты - отпишитесь), и вероятно без поддержки государства тоже не обошлось. Сейчас судя по сайту НКРЯ и пресс-релизу, финансирование корпус получает приличное и государственное.

Верен ли тезис, что корпус по сути приватизирован Яндексом? Юридически скорее всего там всё максимально красиво и без задоринки. Но информации практически на эту тему нет.

Но де-факто доступ для любого практического применения фактически закрыт. Выгодно ли это Яндексу? Конечно да. Так они по сути ставят большой барьер на пути любой организации, которая хочет сделать какой-то прикладной и полезный продукт для работы с языком, предсказуемо работающий в продакшене, прикрываясь красивыми лозунгами. Можно сколько угодно с пеной изо рта спорить используют ли они корпус для своих продуктов, но для меня этот вопрос является риторическим.

В качестве причин, почему всё так а не иначе обычно приводят следующие причины:

Нет денег и ресурсов. Ну камон, неужели на этапе проектирования из 236 миллионов нельзя было выделить 1 штатного сотрудника для такой задачи? И сидеть там понемногу выкладывать?
Авторские права. Перемешивание, обфускация и рандомизация данных по сути его обнуляют. Для многих прикладных задач достаточно корпусов из предложений. Никто не будет пытаться собрать из корпуса роман по кусочкам. Этот тезис также рассыпается о то, что рандомизованные корпуса уже сейчас прекрасно выдаются по лицензии;
Лингвистика в западных странах так не работает, все выкладывают сайты с корпусами. Честно говоря в современном мире как-то даже смешно всерьез рассматривать это как аргумент. Ну делают, а мы давайте будем делать как лучше для нас всех вместе;
Корпус - это не датасет. Вопрос целеполагания. Любая система сама по себе без внешних импульсов управления заинтересована только в поддержании системы. Но если не будет базовых датасетов для решения прикладных задач - то цифровые технологии или не будут развиваться, ну или будут развиваться только внутри Яндекса или Сбера;

Получается типичная ситуация, в которой налогоплательщики не могут получить доступ к общественному благу, которое было профинансировано из их кармана. При этом эта ситуация максимально выгодна Яндексу. Эта парадигма называется "национализация убытков, приватизация прибылей". Точнее конечно могут, но только на условиях, которые не создадут помех опять же Яндексу.

При этом юридически скорее всего там всё так оформлено, что комар носу не подточит. Но мы же все хотим, чтобы было много новых прикладных продуктов, больших и маленьких, косых и красивых, сырых и не очень, для решения конкретных задач для русского языка, верно?

И знаете спросу было бы ноль, если бы они сами на свои частные средства сделали свой частный корпус и давали бы его по усмотрению (или не давали). Но ведь финансирование-то сейчас в большей степени государственное.

Как делать правильно?

Правильно создавать условия, чтобы люди могли делать свои прикладные полезные продукты в сфере обработки языка (а не все эти ваши "Chat-GPT4 go brrr"). Выкладывайте всё, что сделано на общественные средства и не прибито гвоздями, конечно с должной степенью обфускации и рандомизации. Правильно не давать монополии частной компании на ресурс, поддерживаемый на общественные средства. Правильно создавать условия для создания новых многочисленных продуктов. Сейчас как раз хорошее время, чтобы не держаться за пережитки прошлого и начать уверенно смотреть в будущее.

А как вы считаете? Вопрос дискуссионный, но большая просьба, уважать других собеседников при комментировании.

Комментарии (62)

AnGord
20.10.2023 07:01
#26074494
+13
Вот насчет юридической чистоты я сомневаюсь. Яндекс известен тем, что составляет очень удобные для себя соглашения которые работают до тех пор пока все зажмуриваясь отворачиваются в другую сторону, потому что так принято.. И сломать эту стену крайне непросто (и дорого), но после образования первой дырки, бартер быстро рассыпается.
1. snakers4 Автор
  20.10.2023 07:01
  #26074538
  +3
  А кто-то может накидать кейсов, судов, ссылок? Интересно аж стало.
  1. AnGord
    20.10.2023 07:01
    #26074572
    +31
    Ищите по именам "Яндекс Такси" и "Елена Гращенкова " - человек чуть ли не в одиночку сломал в судах позицию "Яндекс это просто информационный сервис, который ни за что не отвечает и никому ничего не должен ."
    
    snakers4 Автор
    20.10.2023 07:01
    #26077668
    Елена молодец. Как говорится, самый справедливый суд в мире.

onyxmaster
20.10.2023 07:01
#26074570
+4
Аналогичное ощущение сложилось, когда я искал нормальные наборы данных по русскому языку.

Greenback
20.10.2023 07:01
#26074946
+18
Получается типичная ситуация, в которой налогоплательщики не могут получить доступ к общественному благу, которое было профинансировано из их кармана.

В этом вся соль статьи.

Интересно, будет ли реакция Яндекса и чиновников. Хочется знать не что они думают, а что они собираются сделать чтобы доступ к корпусу был полностью открытым.

IMO на сайте должна быть актуальная torrent ссылка на весь корпус и производные, без смс и регистрации.
1. MAXH0
  20.10.2023 07:01
  #26075032
  +7
  На самом деле НЕТ такого положения, что в результате гос.финансирования получается общественно достояние. Государство вполне может давать безвозмездные гранты на развитие областей, которые считает ключевыми, но не получать доли госсобственности и уж тем более не передавать продукт в общественное достояние.
  
  Это вопрос даже не законодательства, а идеологии. Вполне распространена версия, что государство неэффективный собственник и индустрию надо развивать поддерживая лидеров индустрии. А государственное, а уж тем более общественное - это пережитки совка и синоним стагнации.
  
  А нас вполне либеральное государство в этом плане.
  1. snakers4 Автор
    20.10.2023 07:01
    #26075094
    Это кстати правда. Иногда грант выдается, просто чтобы ты что-то сделал и отчитался. Но такая большая "штука" просто не может никому не принадлежать.
    
    MAXH0
    20.10.2023 07:01
    #26075180
    +1
    Знаете, среди современных гос.чиновников РФ я наблюдаю активную секту "цифровизаторов", которые продвигают именно озвученную мною идеологию государственно-частного партнерства. Из других примеров можно привести, например, скандал вокруг навязывания мессенджера "Сферум" через региональные управления образования.
    
    Мне кажется это сигнал к постепенному принятию идеологии гос.капитализма на государственном уровне.
    
    Полагаю здесь так же все формально относительно чисто. За подробностями надо читать контракт...
  1. spirit1984
    20.10.2023 07:01
    #26075134
    +10
    Ну даже в образце либерализма США вовсе не считается, что что-то профинансированное на деньги налогоплательщиков можно от них закрыть. Вот последние вести с американских полей по этому поводу:
    
    As per the guidance, all US federal agencies must put in place policies and plans so anyone anywhere can immediately and freely access the peer-reviewed publications and data arising from research they fund.
    
    PanDubls
    20.10.2023 07:01
    #26075500
    -5
    что-то профинансированное на деньги налогоплательщиков можно от них закрыть
    
    А квартира, купленная по программе льготной ипотеки, т.е. субсидированная государством, тоже является общественным достоянием?
    
    sergeyns
    20.10.2023 07:01
    #26075576
    -1
    del
    
    spirit1984
    20.10.2023 07:01
    #26075600
    +4
    О, ложные аналогии в чате). Вы еще спросите "А если кто-то получил от государства еду по талонам, можно я эту еду отниму и сам съем?".
    
    На самом деле пример с квартирой очень даже уместен. Одно дело, когда вы просите помощи у государства, чтобы было где жить. Другое дело - если вы приходите в госучреждение и говорите "У моей семьи хата уже есть, дайте денег на ипотеку для еще одной, мы ее сдавать будем и стричь бабло" - тут вас развернут сразу.
    
    Это как раз и есть разграничительная линия, как мне кажется. Т.е. некая компания с помощью госфинансирования что-то разработала, а затем за статьи об этом исследовании просят денег. Особенно тот же elsevier радует своими расценками на статьи, особенно 50-летней давности. Государство как инвестор имеет право на доступ к результатам исследования, и как инвестор имеет право раскрыть эти результаты тому, кому подотчетно - в данном случае налогоплательщикам. Если не нравится - исследуйте на свои, и потом просите за публикации об этом денег.
    
    UPDATE. Кстати, правила ипотеки зачастую прямо запрещают пытаться сдавать в аренду жилье, купленное в ипотеку - вот пример Нидерландов. То есть да, прямо общественным достоянием такое жилье не является, но и просто так распоряжаться им без разрешения кредитора Вы не можете
    
    snakers4 Автор
    20.10.2023 07:01
    #26075690
    По льготной ипотеке пока не выплатишь, квартира в залоге, то есть не твоя. Так что не надо тут. И платишь ты за нее свои деньги, просто процент тебе частично "прощают".
    
    SergeyMax
    20.10.2023 07:01
    #26075896
    +1
    Как это "прощают"? Ничего не прощают, оплачивают из моих налогов.
    
    Mitya78
    20.10.2023 07:01
    #26076122
    +4
    Залог не делает собственность не твоей.
    
    snakers4 Автор
    20.10.2023 07:01
    #26077676
    Формально да. Но есть один нюанс ... Продать ты не можешь. Не заплати банку - и узнаешь - твоя она или нет.
    
    nevzorofff
    20.10.2023 07:01
    #26076284
    +2
    Залог не меняет собственника. Иначе все, что можно отобрать по суду - не твоё.
    
    MAXH0
    20.10.2023 07:01
    #26076436
    +1
    Это замечательно, но несколько про другое. В общественное достояния, если я правильно понял, переводятся публикации об исследованиях, а не сами результаты. Это скорее про судебное преследование проекта Sci-Hub и идеи его организатора Александры Элбакян
    
    vadimr
    20.10.2023 07:01
    #26076578
    -2
    Это плод какого-то недопонимания терминологии, даже если учесть, что это только пожелания на 2025 год. Я даже не буду спрашивать, где немедленно и свободно можно ознакомиться с документацией на термоядерную боеголовку W88. Но и вообще никаких нетривиальных технических расчётных данных никто никому не даёт.
    
    pdkdrp
    20.10.2023 07:01
    #26076830
    +1
    С экспериментальными данными NACA вполне можно ознакомиться. Очень даже нетривиальные технические данные.
    
    snakers4 Автор
    20.10.2023 07:01
    #26077678
    Вы корпус языка ещё бы с секретными данными разведки бы сравнили.
    
    vadimr
    20.10.2023 07:01
    #26078372
    +1
    Попробуйте найти хотя бы точную модель гравитационного поля Луны и планет в численном виде. Только зашитые в библиотеки с закрытым кодом.
    
    Tanriol
    20.10.2023 07:01
    #26080190
    Имеется в виду, например, вот такая модель (lbl, собственно таблица коэффициентов)?
    
    vadimr
    20.10.2023 07:01
    #26080234
    +1
    Обратите внимание, что доступны там модели до 900 точек, а сами они работают по 1200 точкам. И почему-то 2.5 Тб данных по 900 точкам, 711 Гб по 660 точкам и т.д. они сочли возможным выложить, а 8 Тб по 1200 точкам оказались “extremely large [...] and was not archived”.
    
    Tanriol
    20.10.2023 07:01
    #26080282
    +1
    Коэффициенты гравитационного поля там доступны до 1200 порядка, а 900 порядком ограничены только сохранённые матрицы ковариации. Я не работаю с моделированием гравитационного поля Луны, поэтому не уверен, насколько данный конкретный продукт критичен с точки зрения применения этих данных, но у меня не создаётся впечатления целенаправленного сокрытия информации.
    
    vadimr
    20.10.2023 07:01
    #26080288
    +1
    Я тоже не работаю с этим вопросом, но слышал мнение специалистов. Проблема существует.
    
    В целом, гравитационное поле Луны очень неравномерно, и малейшие вариации оказывают большое влияние на орбиты космических аппаратов.
  1. Dolios
    20.10.2023 07:01
    #26076018
    +2
    А государственное, а уж тем более общественное - это пережитки совка и синоним стагнации.
    
    Например, НАСА выкладывает медиа в открытый доступ и разрешает их использовать бесплатно. Там какие-то ограничения только на фото людей, насколько я помню.
    
    vadimr
    20.10.2023 07:01
    #26076538
    +1
    Так медиа, а не численные данные для моделей.
    
    pdkdrp
    20.10.2023 07:01
    #26076842
    +1
    На JPL сайте по марсианскому вертолету отчеты с огромными таблицами экспериментальных данных. Там же продувки квадрркоптеров в трубе. Выкладывают все что гос. заказчик требует.
  1. Greenback
    20.10.2023 07:01
    #26076762
    +4
    На свои деньги яндекс может делать что вздумается.
    
    Оплата частных интересов из общественного кармана - это ненормально. В этом идея статьи, как я понял. И я с этим согласен.
    
    Интересно другое:
    
    Странно что статья с этой идеей появилась в 2023м, после тысячи дней отсидки того, кто посвятил жизнь продвижению этой же идеи.
    
    themen2
    20.10.2023 07:01
    #26077358
    А кто сидит?
    
    snakers4 Автор
    20.10.2023 07:01
    #26077680
    Вы ошиблись сайтом.
1. IvArt123
  20.10.2023 07:01
  #26075042
  +3
  С одним сидом с отдачей 16 kb/s
  1. lgorSL
    20.10.2023 07:01
    #26075142
    +7
    да и не страшно, если есть другие сиды, достаточно отдать каждый кусочек по одному разу, другие сиды сами друг с другом поделятся
1. snakers4 Автор
  20.10.2023 07:01
  #26077670
  Пока я написал в минцифры, они вроде активно впрягались за подданных в 2022 году.
  
  Попробовал заманить челика из нкря, кто активно комментировал нашу позицию в чате как "агрессивную и малообразованную", но он пока не реагирует.

Vsevo10d
20.10.2023 07:01
#26075028
+3
Мне думается, надо курить договор к грантовому соглашению. В таких документах четко прописываются права на получаемый продукт, а также количество выпускаемых объектов интеллектуальной собственности (тех же отчетных статей и патентов, например). То есть, с самого начала там как по прописи должно быть указано, на что выделены государственные деньги, какие ожидаемые результаты, кто их правообладатель. Но такой договор вряд ли видел кто-то, кроме участников и утверждающих чиновников министерства.
1. snakers4 Автор
  20.10.2023 07:01
  #26075082
  Умора будет, если окажется, что формальный правообладатель - казахская компания.
  1. Areso
    20.10.2023 07:01
    #26075332
    +10
    Израильская же, с казахскими корнями =)
1. ifap
  20.10.2023 07:01
  #26075622
  +1
  Должно - не значит указано, вон Счетка провела ревизию и внезапно выяснилось, что государство не обладает достаточными правами на оплаченный за госсчет "Гостех", гы.
1. karavan_750
  20.10.2023 07:01
  #26077658
  +1
  Если здесь бывают лица с удостоверениями журналистов и читают комменты, у меня к вам вопрос.
  Как думаете, поможет ли журналистский запрос, например в РАН, для поиска ответов на вопросы в контексте статьи, которые я выделил в цитату?
  
  на что выделены государственные деньги, какие ожидаемые результаты, кто их правообладатель

kryvichh
20.10.2023 07:01
#26075058
+11
Интересно, что корпус назван "национальным". Надо было назвать просто КРЯ.

Что касается корпуса ударений, думаю, не вам одним он был бы полезен. Может, кинули бы клич, да объединили усилия с другими компаниями и исследователями. Для акцентуированного корпуса не нужно так много усилий, как вложено в НКРЯ.
1. ainoneko
  20.10.2023 07:01
  #26075210
  +1
  Видимо, "КРЯ" звучит слишком по-утиному?
  1. MAXH0
    20.10.2023 07:01
    #26077714
    И сильно напоминает про домик для уточки!
1. slonoten
  20.10.2023 07:01
  #26075556
  +28
  КРЯ КРЯ - корпус русского языка, который радует Яндекс

ifap
20.10.2023 07:01
#26075612
+4
Там в разделе контакты находим новое юрлицо - ООО "Национальный корпус русского языка".

и там же уже находим НП и внизу приписку:

Обновлено

20.10.2023

Совпадение? Не думаю...

В ЕГРЮЛ почему-то учредители этого НП не указаны

Верный признак, что это физики, а не юрлицо и обратите внимание на запись в строке 81 выписки:

Представление сведений о регистрации физического лица по месту жительства

Впрочем, речь может идти и о директоре.

Но пользовательское соглашение естественно это прямо запрещает

Мне кажется, Вы пропустили одну деталь: в какой момент у НП возникают авторские или смежные права на НКРЯ и оно становится правомочно что-то запрещать? Получение финансирования на содание корпуса таким моментом ни секунды не является самом по себе.

Я бы на Вашем месте запросил инфу на основе 8-ФЗ у того, кто спонсировал весь этот праздник за бюджетный счет.
1. snakers4 Автор
  20.10.2023 07:01
  #26077682
  А у кого запросить, и должны ли мне ответить?
  1. ifap
    20.10.2023 07:01
    #26078330
    +1
    Как следует из приведенного Вам релиза, запрашивать следует Минобрнауки, т.к. бюджетные деньги выделялись через них. Ответить обязаны в пределах информации, произведенной или находящейся в распоряжении Минобрнауки (см. закон). А вот как Минобрнауки будет в данном случае творчески интерпретировать требования закона, предсказать не берусь.

vadimr
20.10.2023 07:01
#26075926
+2
Надо разбираться в правовой и финансовой структуре этого проекта. Пока что описанное в статье очень напоминает государственно-частное партнёрство. Если это так, то понятно, почему имеющие коммерческую ценность результаты не выдаются другим организациям, кроме соинвестора (концессионера?). Условно, работали программисты яндекса на оборудовании яндекса – яндекс и получил доступ к результирующим файлам на каких-то условиях. А государству в таком случае важно только то, чтобы результаты были сохранены и ими пользовался Институт русского языка. Как коммерческая автодорога, по которой бесплатно ездит полиция. Но это просто мои предположения.

Тут можно при желании дойти до глубочайших софистических размышлений, вплоть до того, является ли нормативный русский язык интеллектуальной собственностью общества или государства. Языки программирования, вот, вообще часто находятся в частной собственности.
1. CTheo
  20.10.2023 07:01
  #26076766
  +1
  Насколько я знаю, ЯП не патентуются и не копирайтятся, так что вряд ли находятся в частной собственности. По крайней мере, Mono vs .NET, Google vs Oracle Java намекают, что ЯП и даже API можно использовать. Конкретную реализацию компилятора и фреймворка - тут да, могут быть закрытыми, но думаю что сделать свою реализацию с нуля запретить невозможно.
  1. vadimr
    20.10.2023 07:01
    #26076778
    +1
    https://www.python.org/about/legal/
    
    CTheo
    20.10.2023 07:01
    #26077184
    +1
    Название и логотип, да, скорее всего могут. Сами же языки - вряд ли. Можно ли будет писать, что сделал компилятор языка Python? Думаю, да, как минимум в формате "совместимо с".

Evengard
20.10.2023 07:01
#26076016
+10
Всю статью можно сократить до одного скрина:
1. mzinal
  20.10.2023 07:01
  #26081412
  +2
  На домене yandex.ru почту может зарегистрировать кто угодно, это примерно как считать сотрудником VK любого пользователя с адресом на mail.ru

Dolios
20.10.2023 07:01
#26076060
+6
По лицензионным соглашениям, представленным на странице...

Ну, у них, по крайней мере, эти лицензионные соглашения есть. А вы в прошлой теме так и не ответили, где посмотреть ваше и написано ли там, что вы будете читать и использовать по своему усмотрению тексты пользователей. Может, сейчас подскажете?

nehrung
20.10.2023 07:01
#26076922
+1
Раз уж подкатила такая языковая оказия, подброшу ещё языковую тему для обсуждения, давно интересующую меня. Заинтересовало, кем и каким порядком происходит управление массивом языковых данных, который является основой для интернет-словарей и интернет-переводчиков. А возник этот интерес, когда я попытался разобраться, каким образом простой пользователь может повлиять на наполнение этих словарей, или исправить пролезшие туда ошибки. Ведь никаких кнопок с надписью "Техподдержка" в этих словарях и переводчиках нет. Куда писать? На деревню дедушке?

Ну например, как правильно: "флешка" или "флэшка"? По мне, второй вариант правильнее (хотя бы потому, что он вернее соответствует звучанию русской речи), но интернет-сервисы правильным помечают первый и зачастую автоматом исправляют второй. А поскольку интернет пронизал всю нашу жизнь, то диктуемое им, будучи правильным де-факто, через некоторое время становится правильным де-юре, причём через головы всяческих официальных лиц типа составителей академических словарей и пр., что бы там они ни писали в этих своих словарях.

Теперь - к печальной практике жизни. Откуда интернет-сервисы берут себе право влиять на развитие "великого-могучего"? Да что там сервисы, там ведь конкретные люди сидят на техподдержке этих словарей и переводчиков. И если в случае с Яндексом, пусть и с неимоверными трудностями, до этих людей как-то можно докопаться, то как достучаться до тех, кто ведёт аналогичную деятельность в Гугле? А если добраться до них нельзя, то получается, что текущей деятельностью по поддержанию русского языка управляет неизвестно кто, сидящий неизвестно где, но уж точно не в России. По-моему, это недопустимо.
1. Areso
  20.10.2023 07:01
  #26077338
  +2
  Правильное написание слова "модем" никак не мешает правильному произношению через "э".
  1. boldape
    20.10.2023 07:01
    #26077674
    +1
    Всегда было интересно, а за чем сначало учить "правильно" писать, а потом ещё и учить "правильно" читать/произносить. Может всем будет проще сразу делать и то и то просто правильно? Ответ - так исторически сложилось конечно все объясняет, но тогда где же наши твердые знаки на концах слов и прочие "правильные" вещи?
    
    sibirier
    20.10.2023 07:01
    #26078468
    +2
    Может всем будет проще сразу делать и то и то просто правильно?
    
    Давайте:
    "... а зачем сначала...", "... и то, и то..."
    
    Где же наши твердые знаки на концах слов?
    
    Сейчас вместо них пробелы (разделение слов). Твёрдые знаки нужны были для записи на бересте, чтобы экономить место (бересту сложно было делать): некоторые слова твёрдые знаки на конце не требовали, т.к. понятно как разделить слова, поэтому символов было меньше, чем если использовать пробелы. Затем этот же текст начали печатать в газетах, а там экономия была обратной - нужно было экономить чернила, поэтому стали вместо твёрдых знаков использовать пробелы (бумагу делать проще/выгоднее, чем чернила).
    В век компьютеров можно писать любые символы и любое их количество - электроны "дешёвые", экраны переиспользуемые.
    
    ...так исторически сложилось...
    
    Первичны слова и звуки. Затем это нужно было как-то уместить в разумное кол-во букв. Разумное это сколько? Минимально возможное, чтобы не было путаницы что за слово при прочтении в контексте, но и чтобы произнести его можно было "правильно" (если знать правила), чтобы другие люди, знающие такие же "правила", могли его понять.
    Поэтому в разных языках в алфавитах сильно разное количество букв - там разная фонетика. И чем более сложнее фонетика и проще правила чтения, тем больше различных символов для записи слов (египетские иероглифы, китайский язык, японский язык).
    
    Наоборот: английский язык - мало букв, сложные правила чтения, простая/короткая запись слов, уникальные смыслы задаются и уникальными словами, и сочетаниями слов (фразовые глаголы, залоги), порядок слов в предложении фиксирован;
    
    немецкий язык - букв чуть больше, правила чтения проще некуда, запись слов и их чтение - затруднительны, много диграфов, триграфов и так далее, правила словообразования простые, уникальные смыслы часто задаются разным сочетанием слов (или составными словами), а не уникальными словами, порядок слов в предложении фиксирован.
    
    Промежуточный вариант: русский язык - правила чтения несложные, букв относительно "много", правила словообразования сложные (очень много форм слов), правила сочетаний слов - сложные, уникальность смыслов передаётся в т.ч. сложными формами слов (иногда форм достаточно, неважно какие корни, мат поэтому так популярен, и поэтому же запрещён), неуникальные словоформы приобретают свой смысл в контексте, в правилах много исключений, порядок слов в предложении в общем случае неважен, иногда встречаются фразы, когда это влияет на смысл (при неизменности словоформ), ударения могут влять на значения слова.
    
    vadimr
    20.10.2023 07:01
    #26082056
    В китайском языке фонетика не имеет никакого отношения к лексике (кроме правила “один знак – один слог”). Да и нет общей китайской фонетики.
    
    Areso
    20.10.2023 07:01
    #26078788
    +2
    Когда-то, будучи школотой, я мечтал провернуть реформу русской орфографии (и не только русской). Потом вырос, окончил универ, и смирился =)
    
    Akkord11
    20.10.2023 07:01
    #26081408
    +2
    Многие мечтали об этом )

Правда ли то, что национальный корпус русского языка «приватизирован» Яндексом? +112

Финансирование

Пробуем получить доступ легально

Давайте соберём факты воедино

Моё мнение

Как делать правильно?

Комментарии (62)

snakers4 Автор

snakers4 Автор

snakers4 Автор

snakers4 Автор

snakers4 Автор

snakers4 Автор

snakers4 Автор

snakers4 Автор

snakers4 Автор

snakers4 Автор