Проверка текста на орфографию: рейтинг лучших AI-корректоров. Часть 1 / forpes.ru

Главная
Проверка текста на орфографию: рейтинг лучших AI-корректоров. Часть 1

Проверка текста на орфографию: рейтинг лучших AI-корректоров. Часть 1 +3

29.05.2025 10:10

dmitrifriend 0 2000 Источник

Вы когда‑нибудь ловили себя на том, что отправляете важное письмо или сообщение, а спустя мгновение замечаете ошибку? Такое ощущение, словно невидимая красная ручка уже начала зачёркивать текст... В статье я исследую инструменты, способные сберечь от этих неприятностей. Всё это нацелено на одну задачу: найти лучший инструмент для проверки орфографии и пунктуации.

Эта тема важна для всех, кто взаимодействует с текстом, независимо от того, редактируете ли вы роман, готовите отчёт или пишете пост в соцсетях (да, даже твиты требуют идеальной подачи).

Для обзора я выбрал 13 самых популярных онлайн‑сервисов, приложений и нейросетей, чтобы определить, кто лучше сможет проверить правописание (орфографию и пунктуацию). Мы разберём их по косточкам, выявим силу и слабость каждого участника и, конечно, определим победителя.

(Ну правда, почему ошибки всегда выпрыгивают на глаза только после отправки?)

Проверка текста на орфографию: рейтинг лучших AI‑корректоров, часть 1 ← вы находитесь тут.
Проверка текста на орфографию: рейтинг лучших AI‑корректоров, часть 2

Обзор участников

В этом тесте я сравнил сразу множество LLM (крупные языковые модели), LRM (рассуждающие языковые модели), приложений и онлайн‑сервисов. Вот они: DeepSeek‑R1, Claude-3.7-Sonnet, Claude-3.7-Sonnet‑Thinking, Grok-3-Beta, ChatGPT-4o, ChatGPT‑o1, ChatGPT-4.1, ChatGPT‑o3, Gemini-2.5-Pro, YandexGPT-5-Pro, «Яндекс браузер», Text.ru, «Мистер корректор». «Яндекс» предоставляет два разных инструмента, тюнингованные под великий и могучий, в которых можно проверить правописание: бесплатный в «Нейроредакторе» «Яндекс браузера» и платный в YandexGPT-5-Pro. Качество проверки в них различается очень сильно.

Я запускал модели на BotHub — там доступны больше половины сегодняшних участников! Кстати, вот вам для старта: 100 000 токенов по этой ссылке (работает без VPN).

Как проводилось тестирование и критерии оценки

Специально для этой подборки я создал сложный тест на корректуру, который включает в себя самые разные случаи ошибок: от орфографических недочётов до запутанных пунктуационных конструкций. Чтобы дать моделям возможность проявить себя, я выбрал только самые прокачанные нейросети. Почему так? Всё просто: орфография и пунктуация — это вовсе не базовый уровень сложности, особенно если вы хотите учесть все нюансы русского языка. Здесь нужно не только знание правил, но и умение видеть контекст, понимать структуру текста и правильно интерпретировать намерения автора. Легко ли это для нейросетей? Спойлер: не всегда.

Вот как выглядел исходный промт, с помощью которого проводилось тестирование:

Ты профессиональный корректор с обширными познаниями в русской филологии. Вычитай предоставленный текст, исправь орфографические, грамматические и пунктуационные ошибки.

Типографика. Рисунок кавычек для первого уровня вложенности: « », для второго уровня вложенности (кавычки в кавычках): „ “ — и так далее. Используй длинное тире (—) вместо дефиса или среднего тире, а в диапазонах чисел пиши среднее тире. Примени букву Ё во всех словах, где она имеется.

Дополнительные пожелания:
• Не нужно переводить/транслитерировать названия и термины с иностранного на русский и наоборот.
• Не заменяй числительные словами.
• Не выделяй исправления полужирным либо курсивом.

<ТЕКСТ ДЛЯ ПРОВЕРКИ>

Уважаемые партнеры и потенциальные клиенты компании АльфаМаркет!

Мы рады представить вам нашу новую революционную стратегию интернет-маркетинга, разработанную совместно ведущих экспертов в области диджитал-продвижения. Наша команда предлогает инновационные решения, которые помогут вашему бизнесу достичь новых высот.

В современном мире успех приходит неслучайно, а целенаправленно, благодаря грамотному планированию и последовательным действиям. Мы предлагаем вам воспользоваться нашими услугами по продвижению в соцсетях, к которым с обеих сторон вели, тщательно изученные, рекламные каналы. Наш специалист сфотографирует ваш продукт в анфас, чтобы подчеркнуть все его преимущества.

Директор компании АльфаМаркет часто говорит "Наша задача - помочь клиентам достичь максимальной эффективности в бизнесе" и мы полностью разделяем эту философию. "Каждый клиент для нас особенный" добавляет он, что подтверждается индивидуальным подходом к каждому проекту.

После проведения маркетингового исследования, охватившего более четырехста компаний, мы выявили основные тенденции рынка. Ваш бизнес непременно развиваеться в правильном направлении, если вы пользуетесь нашими услугами.

Все, что нам требуется — это ваше доверие и готовность к сотрудничеству. Мы не знаем, чтобы мы стали делать без наших клиентов, ведь если разобраться, именно ваши запросы помогают нам совершенствоваться.

Что касаемо ценовой политики, мы предлагаем гибкую систему скидок. У нашего предложения есть несколько ньюансов, которые делают его особенно привлекательным. Компания АльфаМаркет гарантирует качество услуг на самом высоком уровне. При работе с компанией Гугл мы достигли значительных результатов в области SEO-продвижения.

Акция, стартующая 25-го декабря 2024 года, позволит вам получить максимальную выгоду. Подробности можно узнать в 5 разделе нашего предложения.

Недавний опрос показал улучшение узнаваемости бренда на 30--35% - это отличный результат. В новом продукте всем нашим клиентам будет доступен 3-х кнопочный интерфейс. Поздравляем всех женщин с 8 мартом и дарим дополнительную скидку в этот праздник!

Мы стремимся к постоянному совершенствованию, при чём стараемся учитывать все пожелания клиентов. В нашей компании работают опытные маркетологи, а так же дизайнеры высокого класса. Вы остались довольны сотрудничеством, и у вас появились новые идеи?

Наши специалисты сообщили, что презентация прошла успешно, и все участники остались довольны. Кстати говоря, клиент получил полную информацию и никаких вопросов не возникло.

Используйте возможности, которые дарит интернет на все сто. Для этого мы создали специальные инструменты с интуитивным понятно интерфейсом.

С уважением, Команда АльфаМаркет
</ТЕКСТ ДЛЯ ПРОВЕРКИ>

Здесь версия с исправленными ошибками — вариант, по которому оценивались результаты:

В случае LLM/LRM‑моделей применялся весь вышеприведённый промт, а с приложениями и онлайн‑сервисами было немного иначе — текст отправлялся без дополнительных указаний, только часть внутри тега <ТЕКСТ ДЛЯ ПРОВЕРКИ>…</ТЕКСТ ДЛЯ ПРОВЕРКИ>. Также я специально добавил несколько уточнений, чтобы минимизировать эффекты разночтений и чтобы было удобнее сравнивать между собой нейромодели, приложения и онлайн‑сервисы.

Но! Были и аспекты, которые я всё равно решил не учитывать в итоговой таблице. Например:

Буква Ё. Вопреки распространённому мнению, употребление буквы Ё в русском языке необязательно. Решил убрать исправление этой буквы из итогового рейтинга, иначе некоторые сервисы и приложения недополучили бы 3 балла лишь из‑за того, что в них нет галочки «Ставить букву Ё».
Написание «Гугл». Большинство моделей склонялись к версии Google. Почему? Частотность в датасетах: многие современные нейросети предпочитают распространённые варианты написания. Так как оба варианта правильны, в конце концов я решил просто не подсчитывать этот случай в результатах проверки (тоже чтобы «обезопасить» приложения и сервисы).
Одна стилистическая ошибка — разговорное выражение что касаемо (вместо что касается), не соответствующее тону текста, — и одна лексическая ошибка — успех может достигаться целенаправленно, а не приходить. Всё‑таки речевые ошибки более субъективны и оценивать по ним нейросети было бы ещё сложнее.

Многие предложения теста — настоящие орфографические и пунктуационные западни для корректора: незаметные опечатки, контексты с пересекающимися главными и придаточными частями, запятые при общих членах предложения — всё буквально проверяло нейросети на выживаемость. Правильно ли это? Думаю, да, ведь, с одной стороны, такие ошибки всё равно в какой‑то момент встречаются в текстах. И вообще сегодняшние модели уже достигли очень многого, поэтому корректура — та область, в которой они уже, на мой взгляд, смогут разруливать различные вопросы правописания.

Кстати, хотите сделать свои проверки ещё детальнее? Просто добавьте в промт следующие указания (например, в список «Дополнительные пожелания»), чтобы не только исправлять орфографию/грамматику/пунктуацию, а проводить корректуру с элементами редактуры:

• Устрани речевые ошибки, включая, но не ограничиваясь: лексические; употребление слова в несвойственном значении; нарушение норм лексической сочетаемости; расширение и сужение значения слова; неразличение паронимов; неправильное употребление омонимов, антонимов, синонимов; не устранённая контекстом многозначность и так далее.
• Исправь стилистические ошибки.
• Скорректируй смысловые неточности, сохраняя авторский замысел. Устрани логические противоречия, если они есть.
• Унифицируй названия и единицы измерения.
• Исправь разбивку на абзацы, если нужно.
• Отметь фразы, которые лучше перефразировать. Выведи их списком после текста.
• Спорные места и прочие комментарии тоже можешь написать списком.

Итак, тестовые данные подготовлены, а инструкции чётко сформулированы. Теперь пришло время отправить наши умные машины на дуэль «все против всех». Кто из них проявит себя лучшим образом, это и предстоит узнать, а пока делаем ставки :‑)

DeepSeek-R1

? Исправлено ошибок: 29.
? Пропущено ошибок (или исправлено некорректно): 9.
? Внесено новых ошибок: 1.
? Сделано стилистических правок, перефразировок: 1.

Вывод DeepSeek-R1

DeepSeek‑R1 уверенно удерживает свои позиции среди топовых языковых моделей, и его способности в генерации текста подтверждаются успешными результатами многих бенчмарков (вот один из примеров). В задачах корректуры он также показал отличный результат.

Порадовала способность модели выделить кавычками имена собственные («АльфаМаркет»), однако «Гугл» оказался переведён на английский (Google). В данном случае модель сориентировалась на частотность употребления в датасетах, а не инструкцию в промте.

Ещё интересный момент — фраза со словами благодаря грамотному планированию и последовательным действиям была модифицирована, и вместо запятой модель предложила отделить эту часть тире. Звучит как незаконное вмешательство, но это абсолютно согласуется с правилами.

Также R1 не разобрался с правилом про кавычки, а именно вторым уровнем вложенности: чат‑бот перепутал её с очерёдностью и применил новый рисунок кавычек для второго фрагмента прямой речи.

Claude-3.7-Sonnet

? Исправлено ошибок: 25.
? Пропущено ошибок (или исправлено некорректно): 13.
? Внесено новых ошибок: 1.
? Сделано стилистических правок, перефразировок: 0.

Вывод Claude-3.7-Sonnet

Начнём с досадных промахов. Ошибка с 8 мартом одна из самых элементарных в этом тесте, а ещё модель проигнорировала окончание в словосочетании в 5 разделе. Прибавляем сюда 3-х кнопочный интерфейс и 25-го декабря 2024 года — и начинает казаться, что «Не заменяй числительные словами» нейросеть прочла как «Не изменяй ничего, что содержит цифры».

Модель попалась на одну из ловушек теста — поставив запятую между простыми предложениями при наличии общего вводного кстати говоря. Это трудное правило, о котором редко вспоминают. Не всегда с ходу можно оценить, относится ли элемент к обоим простым предложениям или лишь к первому, но в этом случае ответ очевиден — запятая лишняя.

Claude-3.7-Sonnet-Thinking

? Исправлено ошибок: 25.
? Пропущено ошибок (или исправлено некорректно): 13.
? Внесено новых ошибок: 0.
? Сделано стилистических правок, перефразировок: 1.

Вывод Claude-3.7-Sonnet-Thinking

Claude-3.7-Sonnet‑Thinking, будучи рассуждающим вариантом своей линейки, выдал результаты, сильно напоминающие базовую версию модели. Но давайте посмотрим, как же его выводы всё‑таки отличаются.

Во‑первых, Claude удалось избежать оплошностей со словосочетаниями с 8 Марта, 25 декабря и 3-кнопочный интерфейс. Отсюда возникает ощущение, что модель действительно анализирует правила гораздо глубже, хотя и не всегда: в то же время название АльфаМаркет осталось без кавычек, что обернулось потерей 4 баллов. Возможно, модель ожидала более явных указаний в промте для этого правила.

Grok-3-Beta

? Исправлено ошибок: 31.
? Пропущено ошибок (или исправлено некорректно): 7.
? Внесено новых ошибок: 1.
? Сделано стилистических правок, перефразировок: 2.

Вывод Grok-3-Beta

Grok-3-Beta — модель с громким именем и поддержкой, ведь Илон Маск ещё незадолго до релиза называл её «самым умным ИИ на земле». Этот статус, судя по результатам корректуры, подтверждается.

Сразу нескольким моделям, включая Grok-3, не приглянулось слово вели (вели тщательно изученные рекламные каналы), которое они заменили на вариант в настоящем времени (ведут). Дополнительная перефразировка здесь — замена кстати говоря на кстати. Ошибка в словосочетании в 5 разделе на этом фоне вызывает лёгкое недоумение — на мой взгляд, базовый орфографический случай.

Нельзя не упомянуть огромные вычислительные мощности 200 000 80-гигабайтных графических единиц Nvidia‑H100, которые используются Grok-3 для обучения и работы. Благодаря длительному и масштабному процессу обучения, модель демонстрирует завидное качество обработки даже для неанглийских языков. И именно поэтому Grok-3 уверенно закрепляет свою позицию в нашем рейтинге на втором месте — наравне с ChatGPT-4o.

ChatGPT-4o

? Исправлено ошибок: 31.
? Пропущено ошибок (или исправлено некорректно): 7.
? Внесено новых ошибок: 1.
? Сделано стилистических правок, перефразировок: 0.

Вывод ChatGPT-4o

Самая популярная и сбалансированная нейросеть линейки ChatGPT — 4o — набирает идентичные с Grok-3-Beta показатели (31/7/1/0), и второе место присваивается сразу двум моделям.

Модель отлично справилась с большинством пожеланий в промте: здесь мы видим написания в 5-м разделе, 3-кнопочный. Однако нейросеть немного запуталась в пересекающихся инструкциях («Используй длинное тире (—) вместо дефиса или среднего тире, а в диапазонах чисел пиши среднее тире») и применила длинное тире в числовом диапазоне (30—35%).

ChatGPT-4.1

? Исправлено ошибок: 29.
? Пропущено ошибок (или исправлено некорректно): 9.
? Внесено новых ошибок: 1.
? Сделано стилистических правок, перефразировок: 0.

Вывод ChatGPT-4.1

ChatGPT-4.1 появился совсем недавно, в апреле 2025-го. Модель радует огромным контекстным окном в 1 000 000 токенов, что способно впечатлить самых продвинутых профессионалов. Кроме того, ощутимые улучшения коснулись способностей в кодинге.

Но как насчёт уровня корректуры? Вот как обстоят дела у линейки 4.1 с языковыми улучшениями (две нижние строки):

MMLU (Massive Multitask Language Understanding) — обширный тест на понимание и обобщение знаний по 57 академическим предметам, включая историю, медицину, юриспруденцию и математику; используется для оценки широких когнитивных возможностей модели. Multilingual MMLU — версия бенчмарка MMLU, переведённая на различные языки, предназначена для оценки способности модели понимать и обрабатывать задания в международном контексте

Модель набирает идентичные показатели с DeepSeek‑R1. Мелкие ошибки всё же просочились:

Как и 4o, модель 4.1 не распознала точный замысел промта‑инструкции и написала длинное тире в числовом диапазоне;
Допущен промах с отсутствием наращения в словосочетании в 5 разделе;
Интерфейс всё‑таки стал трёхкнопочный — можем предположить, что нейросеть не сочла компонент сложносоставного слова за отдельное имя числительное, поэтому не применила к нему уточняющие детали, записанные в промте.

Вторая часть статьи здесь.