Yarrow AI учит языкам и в своей основе это не LLM, а логическая машина. Такие системы эффективны, но их очень сложно наполнить данными: приходится каждое знание/правило вносить в базу данных вручную. Это было одной из причиной их вымирания 30 лет назад. Мне удалось решить эту проблему попутно убив одним выстрелом еще пару зайцев.
Изначально я сгенерировал курс английского языка с помощью GPT, он содержал море галлюцинаций. Были наняты профессиональные переводчики для выверки, но они пропускали много ошибок и быстро отваливались: "Это работа не для естественного интеллекта". И вот, редакторами стали сами пользователи приложения: я объединил их в большую команду с помощью ядра Yarrow AI, а вместо зарплаты они получают возможность учиться бесплатно.
Система отслеживает целостность своей базы знаний (смыслы - слова - формы) и при необходимости просит пользователей выполнять несколько видов простых заданий:

Чтобы снизить количество ошибок (в том числе намеренных) каждое задание выполняется несколькими пользователями, их результаты сравниваются и по итогу пересчитываются рейтинги пользователей. Иногда попадаются очень спорные задания, для этих случаев были добавлены обсуждения (анонимные):

Готовы ли пользователи в этом участвовать? Оказалось, что да, примерно 75% предпочли редактировать курсы, а не платить. За первый месяц 300 человек выполнили более 15000 заданий, до этого момента мне такая продуктивность даже не снилась. Вредители конечно тоже нашлись, но это были единичные случаи, и рейтинговая система их быстро заблокировала.
Многие редактируют курс английского языка просто чтобы дополнительно попрактиковаться в нем, т.к. приходится разбирать большое количество нюансов и есть возможность получить обратную связь на свои корректировки.
Примерно половина моих редакторов работает над курсом русского языка. Они добавляют слова, для каждого слова вносят все его возможные формы (падежи, склонения, времена и т.д.), для каждой формы добавляют несколько предложений, для каждого предложения записывают несколько аудио. Как вы видите, всего одно русское слово порождает сотни отдельных заданий, а для хорошего курса требуются тысячи слов.
В мире нет людей, которые смогли бы эффективно заниматься этим полный рабочий день. LLM здесь также не справляются: процент ошибок для русского языка катастрофический, а полученный контент "слишком пресный". Пока что краудсорсинг выглядит как единственное работающее решение.
Комментарии (9)
octoMax
02.07.2025 07:46у вас на сайте есть пример с "Она приглашает..." и правильный вариант указан как "asks"
А вы в проге объясняете "почему в данном случае именно такой вариант правильный"?
Ведь именно этот аспект важен - почему именно конкретный ответ считается верный
В указанном примере именно invite самый правильный вариант. Можно использовать ask но тогда из контекста должно быть понятно, что она обращается неформально к собеседникуZashibis Автор
02.07.2025 07:46Курс все еще не идеален. Когда поьзователей станет больше, и в целом на платформе появятся англоязычные нэйтивы, тогда я добавлю задания "прокомментируй, почему здесь именно так". Первые комментарии/обсуждения я уже собираю с пользователей, и их можно просмотреть в некоторых случаях.
Нам нужно больше крауда для качественного сорсинга, именно поэтому эта статья на хабре.
NeriaLab
Вы сами до этого дошли или использовали какие-то наработки? Мы со словоформами работаем с самого начала и разрабатываем не ЛЛМ
Слово - это общее понятие, а словоформа - это конкретное его проявление в речи, с учетом грамматических характеристик, таких как падеж, число, время и т.д
Zashibis Автор
Дошел сам, идея постепенно эволюционировала в то, что есть. Я эту тему прорабатываю уже больше 5 лет с переменным успехом. Около двух лет назад начал разработку движка (по выходным), сейчас оно функционирует на реальных пользователях.
Главная единица в моей базе - Смысл, какой-то предмет/свойство/действие/итд, к нему уже цепляются слова на разных языках, а к ним формы/примеры/переводы.
Слова в этой цепочке - абстрактная вещь, просто промежуточная сущность в базе данных, чтобы объединить словоформы.
NeriaLab
Мы использовали наработки из 80ых и для английского языка (оригинальная разработка была представлена англичанином), но быстро адаптировали под немецкий и португальский языки. Изменения в формулах заняло меньше недели. С русским стало тяжелей. Трудней всего нам было с японским. Почти год заняло усложнение формул для работы со словоформами для русского. Почему эти языки? Так как у нас команда "разношерстная" американцы, немец, австриеец, бразильцы, русские и один японец. Но у нас нет баз для переводов и примеров, они не нужны и мало того, они мешают (это мнение только нашей команды, не истина в первой инстанции)
P.S.: Мы пошли по пути наименьшего сопротивления. Зачем придумывать свой велосипед, когда люди уже думали над аналогичными задачами. Их надо просто взять и актуализировать с учетом современных знаний и технологий
Zashibis Автор
Примеры и переводы - это уже специфика моего приложения, в первую очередь это инструмент для пополнения словарного запаса.
А что именно вы создаете, можно где-то почитать?
NeriaLab
О самом подходе, а именно Real AI, в разные годы, было опубликовано много информации. О нашей разработке, пока нет официальной информации. Если все будет хорошо, как запланировала команда, то через несколько месяцев мы начнем делать первые официальные заявления. Итогом всех заявлений будет полное, официальное, согласно всем стандартам, прохождение не одного, а нескольких тестов Тьюринга
Zashibis Автор
Не удалось найти описания среди кучи рекламы (очень много компаний которые "реально AI"). Не поделитесь ссылкой на какую-нибудь публикацию?
NeriaLab
Мало того, что много рекламы, так и направление, Real AI начали смешивать с LLM, т.е. упоминать в рамках концепции LLM, хотя еще в начале 2010 это было два разных направления, со своими течениями, последователями. Хотя, на некоторых китайских сайтах учебных учреждений, есть описание того, как они понимают концепцию Real AI, но без LLM. В этой книге, есть часть того, какова была история становления ИИ, течения ИИ и этическая сторона ИИ в разные годы: https://link.springer.com/article/10.1007/s43681-023-00258-9
Мы опубликуем все материалы, которые у нас есть, чтобы перестали смешивать два подхода LLM и Real AI, а также предтечи Real AI - проект "Niagara", но только перед тестами. Слишком много времени мы потратили на то, чтобы их собрать. Я бывало смотрю на Ютубе видео и натыкаюсь на то, что вся история ИИ - это только история нейронных сетей и как будто больше ничего и не было. Для нас важно, чтобы люди знали полную историю ИИ.