Я играл с языковой моделью SalesForce CodeGen. Она генерирует новый код по подсказкам. Но я хотел посмотреть, как она будет анализировать уже написанный код.

Я попросил модель посмотреть на существующий код и оценить вероятность появления каждого слова с учетом предыдущих слов. Далее я сравнил вероятность появления моего слова с вероятностью слова предсказанного моделью

Я взял один из файлов моего проекта. Яркость отражает маловероятность каждого слова. Красный цвет показывает, насколько более вероятен токен модели.

Зеленый - Алгоритм не уверен, но не может предложить другого более вероятного варианта,

Красный - Алгоритм может предложить другой вариант, которое ему больше нравится.
Серый - Алгоритм ничего не изменил

Хотя сами комментарии являются сюрпризом для алгоритма, краснота вокруг них уменьшилась. За исключением оператора return, который очень сильно выделяется на фоне остальных токенов.

Как оказалось, в моем коде была ошибка. Когда listener события удаляется во время dispatch, я возвращаюсь из функции. Алгоритм же правильно предлагает continue, вместо return.

Теперь этот алгоритм можно использовать для регулярной проверки моего кода.

Еще больше примеров использования ML в современных сервисах можно посмотреть в моем телеграм канале. Я пишу про ML, стартапы и релокацию в UK для IT специалистов.

Комментарии (2)


  1. plFlok
    24.12.2022 12:38
    +1

    тесты этот баг не находили?


  1. Drayden
    24.12.2022 15:48
    +1

    И как там сейчас с релокацией в UK ?

    Спрашиваю, т.к. складываются в совокупность неблагоприятные факторы - в т.ч. спад найма ИТ в Англии, слабость фунта, плохой климат, исторически сильные анти-ru настроения...