Наступил новый учебный год. Студенты получили расписание занятий и стали задумываться о пьянках-гулянках-девушках-гитарах будущей сессии. Написание курсовых, дипломов, статей и диссертаций не за горами. А значит, грядут и анализ текстов на наличие заимствований, и отчеты о проверке, и прочая головная студенческая и администраторская боль. И у сотен тысяч людей (без шуток – мы посчитали!) уже возникает закономерный вопрос – как же обмануть «Антиплагиат». В нашем случае практически все способы обмана так или иначе связаны с искажениями текста. Мы уже научили «Антиплагиат» обнаруживать текст, «искаженный » с помощью перевода с английского на русский (мы писали об этом в первой статье нашего корпоративного блога). Сегодня речь пойдет о том, как обнаруживать самый эффективный, хотя и трудоемкий способ искажения текста – парафраз.




С русского на русский, или кстати сказать


С точки зрения нормального обычного человека, парафраз (перефразировка) – это переписывание текста другими (чаще всего своими) словами. При перефразировке стараются максимально сохранить смысл исходного текста, лишив при этом сам текст формального сходства с оригиналом. В целом все парафразы подчиняются определенным правилам, которые люди используют чаще всего, при этом даже не отдавая себе в этом отчета (см. например, статью Alberto Barron-Cedeno).

Рассмотрим подробнее на примере всем известного рассказа «Муму» [ как и в названии статьи, в нем тоже фигурируют собака, люди и лодка :-) ], что же можно сделать с текстом, чтобы его смысл сохранился, а предложения выглядели по-другому.

1. Первое, что приходит в голову – это заменить большую часть слов синонимами. Это самое простое, что можно сделать с текстом. Смысл это не поменяет, а текст на первый взгляд изменится. Такой трюк и используют программы синонимайзеры. При этом они заменяют слова, не учитывая контекст, а просто выбирая слово из списка синонимов, поэтому обработанное такой программой предложение очень часто выглядит довольно несуразно. К этому способу парафраза относится и перИфраз – описательное обозначение объекта на основе выделения какого-либо его качества, признака, особенностей, например, «голубая планета» вместо «Земля», «однорукий бандит» вместо «игральный автомат» и т.п.
Оригинал Парафраз
Барыня начала ее ласковым голосом подзывать к себе. Боярыня начала ее обходительным голосом звать к себе.

2. Замена одних частей речи другими тоже позволяет изменить структуру предложения. Например, очень часто заменяют глагол на существительное и наоборот.
Оригинал Парафраз
В один прекрасный летний день барыня с своими приживалками расхаживала по гостиной. Прогулка барыни с своими приживалками происходила в прекрасный летний день.

3. Еще один простой способ изменить структуру текста – просто делить предложения на более простые, или же наоборот, объединять в длинные.
Оригинал Парафраз
Герасим немного изумился, однако подозвал Муму, поднял ее с земли и передал Степану. Герасим немного удивился, однако после подозвал Муму. Он поднял ее с земли и передал Степану.

4. Существенно и весьма оригинально предложение изменяется при помощи страдательного залога.
Оригинал Парафраз
Барыня велела позвать к себе старшую приживалку. Старшая приживалка была позвана барыней.

Это только типовые приемы. Очевидно, что хороший парафраз обнаружить очень сложно. Иногда это под силу только специалистам с глубокими знаниями в предметной области текста. Но для задачи, которую мы решаем, это и не требуется. Ведь глубокая перефразировка требует значительных усилий, а значит, и больших затрат времени. Скорее всего, студенту будет проще написать свою работу, чем тратить время на серьезную перефразировку чужого текста, которая, несмотря на затраты, может быть обнаружена при проверке.

Поэтому наша цель – это относительно простой парафраз, который может быть выполнен «спинным мозгом», т.е. без больших затрат мыслительных усилий и времени.

По сути перефразировка – это «родная сестра» перевода на другой язык. Слова меняются, но смысл остается. Можно сказать, что парафраз русскоязычного текста – это фактически перевод с русского на русский.

Именно поэтому алгоритм детектирования парафраза получился «близким родственником» алгоритма детектирования переводных заимствований. Итак, как же происходит процесс детектирования заимствований в данном случае:

1. Русскоязычный проверяемый документ поступает на вход.

2. Выполняется машинный перевод русского текста на английский язык.

3. Происходит поиск кандидатов в источники заимствований по проиндексированной коллекции англоязычных русскоязычных документов.

4. Производится сопоставление каждого найденного кандидата с английской версией проверяемогоым документаом – определение границ заимствованных фрагментов.

5. Границы фрагментов переносятся в русскоязычную версию проверяемый документа. При завершении процесса формируется отчет о проверке.

Важное отличие – настройка параметров алгоритма производится на других данных и с учетом специфики русского языка. При этом мы сохраняем стратегию настройки с ориентацией на точность, жертвуя полнотой. Наша задача ? минимизировать количество ложноположительных срабатываний, пусть даже ценой пропуска «некоторых целей».

Тюнинг от «высокого портного»


Парафраз – это, безусловно, трудоемкий способ искажения текста. При этом далеко не все способы переписывания одинаково полезны делают текст неузнаваемым. Пытаясь сократить затраты времени, автор использует самые простые способы модификации текста, которые детектируются алгоритмами системы и результата не приносят. Поэтому, после первой неудачной попытки завысить оригинальность, текст начинают «тюннинговать». Как это работает: используются различные комбинации способов, и после каждой такой комбинации модифицированный текст загружается в систему – для проверки того, насколько успешной была перефразировка и смог ли пользователь получить заветный процент оригинальности. В итоге получается цепочка текстов, каждый из которых был перефразирован с той или иной степенью тяжести. Извлечь такую цепочку – довольно простая инженерная задача. Наше исследование таких «цепочек» выявило (заодно подтвердив результаты того же Alberto Barron-Cedeno) наиболее частые способы модификаций и дало богатый материал для обучения новых алгоритмов.

Проведем небольшой эксперимент. Возьмем небольшой отрывок из уже упомянутого рассказа Тургенева:
Спустя час после всей этой тревоги дверь каморки растворилась и показался Герасим. На нем был праздничный кафтан; он вел Муму на веревочке. Ерошка посторонился и дал ему пройти. Герасим направился к воротам. Мальчишки и все бывшие на дворе проводили его глазами, молча. Он даже не обернулся; шапку надел только на улице. Гаврила послал вслед за ним того же Ерошку в качестве наблюдателя. Ерошка увидал издали, что он вошел в трактир вместе с собакой, и стал дожидаться его выхода

Попытаемся обмануть «Антиплагиат». Для начала попробуем автоматический синонимайзер текста. Такие программы не отличаются особым интеллектом качеством – они просто берут слова и заменяют их синонимами из словаря, не учитывая контекст. Поэтому тексты, обработанные такой программой, часто выглядят довольно топорно. Вот что получилось после обработки одной из таких программ:
Через время после данного беспокойства двери конурки рассосались, и представился Герасим. На нем был торжественный кафтанчик; некто вел Муму в веревочке. Ерошка посторонился и предоставил ему проделать путь. Герасим устремился к воротам. Мальчишки и все без исключения прежние в дворе провождали его очами, не говоря ни слова. Он в том числе и никак не повернулся: головной убор надел только лишь в улице. Гаврила отправил следом за ним этого же Ерошку в свойстве наблюдающего. Ерошка увидал издалека, то что некто вступил в таверну совместно с псиной, и начал ждать его выхода

Заметим, что в каждом предложении заменено хотя бы одно слово. Такого, казалось бы, небольшого изменения достаточно, чтобы «обычный Антиплагиат» перестал сопоставлять переписанные предложения с оригиналом.

Теперь попробуем сравнить пары предложений исходного текста и переписанного с помощью нашего алгоритма. Для этого будем использовать косинусную меру сходства. Как и в алгоритме детектирования переводных заимствований, каждое предложение представляется в виде вектора большой размерности. Измеряя косинус угла между парой таких векторов, можно делать вывод, насколько эти векторы «похожи» друг на друга, и, соответственно, насколько похожи предложения, которым соответствуют эти векторы.

Вот что получилось после сравнения предложений нашим алгоритмом:

Для наглядности мы изобразили величину косинуса в виде тепловой шкалы. То есть, чем «горячее» цвет между парой предложений, тем больше величина косинуса и тем более похожими считаются предложения из этой пары. Заметим, что наименьшее значения косинуса получили предложения, в которых замены на синонимы очень плохо подходят к контексту. Например, «так» и «таким образом и» действительно очень часто являются синонимами, однако в данном контексте такая замена совсем не к месту.

Попробуем теперь себя сами в роли синонимайзеров и перепишем текст с сохранением смысла. Но в отличие от программы, все наши изменения грамматически согласованы и хорошо вписываются в контекст. Вот что у нас получилось:

И в этом случае алгоритм выдает достаточно высокую оценку похожести для большей части предложений. Предложения же, получившие низкую оценку, были подвержены достаточно глубокой трансформации: в них сильно изменена грамматическая структура. Даже человек не сразу ответит, похожи ли эти предложения, быстро пробежавшись по ним глазами.

И что теперь со всем этим делать?


Естественно, лучший способ понять, работает новый алгоритм или нет – это исследовать качество его работы на реальных данных. Поэтому мы поставили новый модуль обнаружения парафраза в продакшн и прогнали через него реальные запросы (пока не показывая результаты пользователям). Работы проверялись как действующим алгоритмом поиска заимствований – «дословное сравнение», так и новым алгоритмом – «обнаружение парафраза». Затем мы сравнили около 10 тысяч отчетов о проверках загружаемых работ, созданных обоими алгоритмами. Результаты получились интересные.

На это графике приведено распределение процента заимствований для обоих алгоритмов. Видно, что «обнаружение парафраза» в среднем на 10 процентов больше заимствований, чем «дословное сравнение».

На втором графике по горизонтальной оси отложена абсолютная разница между процентом заимствований предлагаемого алгоритма и текущего. Разница больше 0 означает, что «обнаружение парафраза» нашло больше, чем «дословное сравнение».


Выводы


  1. Парафраз как способ искажения текста реально используется при написании работ;
  2. Количество «срабатываний» не выросло радикально, алгоритм находит действительно перефразированный текст;
  3. Как и в случае с переводными заимствованиями, система Антиплагиат получила новый модуль – систему обнаружения парафраза;
  4. Ну и конечно, наше классическое — лучше творить собственным умом!

Архитектура алгоритма обнаружения парафраза и первые результаты работы были показаны на воркшопе Big Scholar, посвященном анализу научных данных, который в этом году проходил в рамках одной из главных конференций по машинному обучению – KDD 2018.

Модуль обнаружения парафраза развернут на продакшне и уже используется преподавателями и студентами при проверках текстов на заимствования.

Статья подготовлена в соавторстве с Rita_Kuznetsova, Oleg_Bakhteev, Камилем Сафиным и chernasty. Исходное изображение для создания входной иллюстрации было взято отсюда: demotivators.cc.

Комментарии (160)


  1. alexxisr
    11.09.2018 16:03
    +6

    Вот странные эти гумманитарии — сначала дают одно и то же задание тысячам студентов, а потом удивляются, что решения примерно одинаковые. Если нужны уникальные тексты, то нужно давать уникальные задания, которые списывать не откуда.


    1. yury_chekhovich Автор
      11.09.2018 20:12

      Одинаковые задания — это проблема не только гуманитариев. Регулярно видим это и в других специальностях. Это проблема преподавателей низкого качества.


      1. Livid
        11.09.2018 20:32
        +1

        Я не то чтобы спорю с "преподавателями низкого качества", хоть и звучит это несколько оскорбительно. Но скажем если хотя бы 100 человек в год проходят институтский курс, по которому предусмотрена курсовая работа, оригинальные темы заканчиваются очень быстро, в зависимости от тематики хорошо если не в первый же год. При этом бывают формальные требования к оригинальности работ (спущенные сильно сверху), которые оцениваются только цифрой. Способов описать по сути одно и то же, особенно в рамках технической специальности — весьма ограниченное количество. На правах жалобы на жизнь.


        1. yury_chekhovich Автор
          11.09.2018 20:58

          Я полностью согласен, что «преподаватель низкого качества» звучит оскорбительно. Но еще более оскорбительно, что они учат нас и наших детей. Точно также как «низкого качества водители» управляют такси или автобусами, а «низкого качества врачи» нас лечат.
          С курсовыми давайте разберемся. Какая основная задача студента в курсовой работе — как правило разобраться в той или иной теме. От него не требуется большой оригинальности. Как правило речь идет о работе реферативного или обзорного плана. В чем проблема, если оригинального текста будет не много. Теперь по поводу формальных требований к оригинальности. «Сильно сверху» они не спущены. Каждый вуз устанавливает сам. Более высокого уровня в этом вопросе нет. И если говорить о критериях для курсовых работ, то (1) я бы не устанавливал бы общий критерий уровня оригинальности, а накладывал бы требования на структуру заимствований, например, не должно быть источников из которых заимствовано более 15%-20%-25% текста; (2) даже такие требования сделал бы «мягкими», то есть на усмотрение преподавателя.


          1. Livid
            11.09.2018 21:19

            Да Вы-то может быть и сделали бы. А вот руководство моего ВУЗа почему-то склонно делать на уровне "хотим x%" не вникая в детали от слова совсем (до курсовых, слава всем богам, дело не дошло, но я смутно подозреваю, что не от недостатка рвения, а просто не до того стало после очередной реструктуризации, инициированной министерством). Для меня — старшего преподавателя левой задней кафедры правого заднего факультета — руководство ВУЗа это "сильно сверху", и точно так же оно для большей части коллег, диктовать свои условия мало кто может.


            А насчёт "качества" — всё-таки про людей немного не принято так рассуждать. "Низкой квалификации", "непрофпригодные" и тп — сколько угодно. А вот разговоры про "качество" уж очень чем-то нехорошим отдают, как будто Вы о кусках мяса на рынке рассуждаете.


            1. yury_chekhovich Автор
              11.09.2018 21:26

              С поправкой по терминологии согласен.


            1. domix32
              12.09.2018 13:18

              Особенно весело когда работа связана с правом и в тексте присутствуют выписки из различных нормативных документов.


              1. yury_chekhovich Автор
                12.09.2018 14:20

                Здесь нет никаких проблем. В Антиплагиате есть коллекции нормативно-правовых актов (Гарант, Лекспро), которые выступают при проверке в режиме «белой коллекции». То есть, если находятся юридические документы, то они автоматически подсвечиваются как корректные заимствования.


                1. Exchan-ge
                  12.09.2018 16:51

                  нормативно-правовых актов (Гарант, Лекспро)


                  Ссылаются не только на законодательство РФ


                  1. yury_chekhovich Автор
                    12.09.2018 18:21

                    С законодательством зарубежья пока не очень, а вот НПА субъектов РФ и некоторых стран СНГ — есть. Так ведь и зарубежка чаще всего не на русском.
                    Честно не сталкивался с проблемой некорректного отнесения текстов из зарубежного законодательства. Когда проблема проявится, будем решать.


                    1. Exchan-ge
                      12.09.2018 22:54

                      Так ведь и зарубежка чаще всего не на русском


                      Есть зарубежка, у которой почти половина слов пишется точно так же, как и в русском. При этом есть документы, в которых список литературы занимает от 30 до 50% от всего объема текста.


                      1. yury_chekhovich Автор
                        13.09.2018 19:54

                        О каких странах идет речь? Украина?


                1. domix32
                  12.09.2018 23:29

                  различные СНИПы, ГОСТы и различные штуки вроде гидрологических, природоохраных и прочих отраслевые спец. документы в том числе?


                  1. yury_chekhovich Автор
                    13.09.2018 19:55

                    Со СНИПами и ГОСТами (в плане выделения их в отдельную коллекцию) пока не очень хорошо, но работаем в этом направлении


      1. RiseOfDeath
        12.09.2018 10:04
        +2

        Проблема еще в том, что в некоторых областях невозможно оригинальничать.

        Пример из практики:

        Диплом (среднее специальное) на тему рассчета заработной платы на предприятии.

        1. Вся теория на 60-80% базируется на законах — плагиат с законодательства. (да, цитаты с законов, и письменных источников считаются плагиатом)
        2. Остальные 40-20 на словоблудстве вокруг первых 60-80% — опять же тут ничего нового не придумать (ну нельзя придумать новое там, где есть закон и ему надо следовать. Если только речь не идет об способах обхода закона, конечно)
        3. Методика рассчета квадратно-гнездовая. Это зарплата, шаг в сторону от методики — уголовная статья.

        И неважно в конторе 5, 10 или 1000 человек; Есть-ли (или нет) там те кто в дикерте, на больничном, на учебе, еще что-то там. В Симпсонахдругих работах это все уже было.

        Внимание вопрос. Что делать бедному студенту?
        Причем насколько я увидел, п.3 особенно сильно «каратся» системой оценки. (по моим наблюдениям, и по наблюдениям знакомых преподов антиплагиаты вообще очень любят формулы и таблицы.)


        1. yury_chekhovich Автор
          12.09.2018 14:24

          1. Для законов в Антиплагиате есть специальный механизм «белых коллекций». Они сразу идут в корректные заимствования.
          2. Здесь действительно должен быть оригинальный текст
          3. Методика расчета — отключается на уровне источников.
          Если все преподавателем делается правильно, то у студента проблем не возникает. На практике, бывает всякой. Самый частый вариант — преподаватель посмотрел на процент и, не заглядывая в отчет, отправил на переписывание.
          Не ведитесь на это!


          1. RiseOfDeath
            12.09.2018 14:39

            Цитата из ТК РФ, взята из Консультнанта:

            image

            Цитирования нет вообще. Я думаю препод даже не будет смотреть отчет, там «и так все ясно»?

            К стати, откуда там оригинальность взялась, если я на 100% скопировал это текст?


            1. yury_chekhovich Автор
              12.09.2018 16:10

              Скриншот бесплатной версии. Преподаватель использует инструмент, которые приобретен вузом — платную версию. Результат будет отличаться.
              Кусочек оригинальности, скорее всего из-за «краевых эффектов» — я не знаю какой текст вы загружали.


              1. pasetchnik
                12.09.2018 16:43
                +1

                А как студенту узнать, что он написал нечто похожее на кого-то? Студентам не дают доступ к этой «приобретенной ВУЗом» версии. (по крайней мере, заочникам. И отдавать по 20 раз преподавателю — тоже не очень.)
                Беда конечно же не в самом АП, а в методике использования ее ВУЗ-ом. Особенно, когда говорят мол «оригинальность курсовой >85%».
                Как это сделать, если даже список литературы — уже «отъедает» кусок оригинальности…


                1. yury_chekhovich Автор
                  12.09.2018 18:25

                  Уверяю, что когда студент напишет нечто похожее на кого-то он будет об этом знать. Так как в акте написания будет задействован копипаст. Пока не один из тех, кто кричал, что он сам писал и получилось близко к тексту с Кантом (Ницше, Толстым, Достоевским и т.д. можно выбрать по вкусу) не смог это сакральное действо повторить. Чаще всего выяснялось, что «писал сам с учебника, которого нет в интернете». Поэтому доступ к вузовской версии будет использован только для тюнинга. Чтобы Кант ничего не заподозрил.
                  Насчет методики использования согласен на 146%.
                  Список литературы сейчас выделяется отдельно и заимствованием не считается.


                  1. pasetchnik
                    13.09.2018 10:42

                    Зачем вы в пример приводите художественную литературу?

                    Вот смотрите: какой-нибудь диплом нацеленый на практику (по бухучету, например, или маркетингу).
                    Первая глава — теоретическая. То есть по сути — парафраз учебников и статей.
                    Потом идет описание специфики конкретного предприятия (тоже половина фраз — стандартные, не говоря о всяких бух. отчетах).

                    Потом НЕБОЛЬШОЙ кусочек — собственные предложения — суть диплома. (около 10-15% от объема)
                    И наконец — экономическое обоснование этих предложение — читай расчеты (которые тоже делаются по методике — а значит весь текст между формулами — тоже сплошной «плагиат»)

                    Студент уверен что написал предложения — сам. Но быть уверенным, что остальная часть попала именно в цитирование — не может никак.

                    И это я еще не говорю про право — где фразы строятся специфическим образом и в целых предложениях «оригинального» текста может от отличаться лишь пара слов…

                    До этого года ребята загоняли свой диплом в АП / ETXT, ужасались от того, что придуманный ими в муках текст — оригинален на 60% и шли «рерайтить».

                    — Но кстати, есть надежда, что эта ваша доработка про парафраз — поможет: Увидев, что 95% студентов — плагиатчики, может быть ВУЗы поймут, что дело не в студентах, а в неправильном использовании инструмента…


                    1. yury_chekhovich Автор
                      13.09.2018 19:58

                      Зачем вы в пример приводите художественную литературу?

                      Чтобы примеры были понятны всем и не зависели от какой-то одной предметной области. Все-таки Тургенев — это школьная программа.

                      — Но кстати, есть надежда, что эта ваша доработка про парафраз — поможет: Увидев, что 95% студентов — плагиатчики, может быть ВУЗы поймут, что дело не в студентах, а в неправильном использовании инструмента…

                      Согласен с вами. Возлагаю на такой эффект определенные надежды.


    1. Sergey6661313
      11.09.2018 20:57

      Когда я в одном из предыдущих постов написал вашу же мысль то получил минус 5.
      Поэтому я считаю своим долгом повторить тот ответ что написали мне, но для вас:

      «По моему личному опыту, если попросить десять умных людей написать работу на одну и ту же тему, получится десять разных работ. Каждый пропускает работу через себя и вносит что-то своё. В гуманитарных науках в особенности.»


      1. yury_chekhovich Автор
        11.09.2018 20:59

        Не вижу противоречий.


      1. Barafu_Albino_Cheetah
        12.09.2018 13:33

        Получится десять разных работ, составленных из одинаковых слов. Робот не способен понять, что работы разные: он увидит только одинаковые слова.


        1. yury_chekhovich Автор
          12.09.2018 14:27

          Вообще все тексты составлены из одинаковых слов. При этом многие слова встречаются очень часто. Проблемы здесь нет. Одинаковость тем не приводит автоматически к одинаковой последовательности изложения мыслей в работе. Поэтому если 10 человек получат одну тему и пойдут честно писать, то в результате будет 10 разных текстов, которые пересекутся лишь на корректных цитатах.


          1. Exchan-ge
            12.09.2018 16:58

            Поэтому если 10 человек получат одну тему и пойдут честно писать, то в результате будет 10 разных текстов


            Эти 10 человек воспользуются одними и теми же ссылками, полученными в одной и той же поисковой системе.
            В одной и той же университетской библиотеке им выдадут одинаковый список книг.

            Плюс им антиплагиат припишет «парафраз».

            Оригинальные мысли студентов займут процентов 10..20, так как они не Спинозы и не Жан-Жак Руссо.


            1. yury_chekhovich Автор
              12.09.2018 18:18

              Минуточку. Я сказал «честно писать», а не «честно переписывать» с книг. Вот каждый «не Спиноза и не Жан-Жак Руссо» честно напишет то, что сможет и это действительно будут 10 разных текстов.


              1. Exchan-ge
                12.09.2018 23:14

                Я сказал «честно писать», а не «честно переписывать» с книг.


                Для того чтобы написать что-то свое — надо это свое каким-то образом получить (провести исследование в лаборатории, протестировать по MMPI несколько сот человек, получить длительный опыт работы с определенным оборудованием, и т.д. и т.п.)
                В большинстве ВУЗов это и некогда, и не на чем.
                Да и задача другая — дать человеку знания и научить его этими знаниями пользоваться.
                Вместо самостоятельных исследований в лаборатории — дают выполнять лабораторные работы.
                Выполнит — сможет провести и самостоятельное исследование.
                Поэтому объем знаний у студента обычно ограничен тем, что ему было дано — в книгах, в сети, на лекциях и занятиях (это, к слову — в лучшем случае )

                И написать он сможет только из того, что знает (а если начнет отсебятину нести — это часто бывает еще хуже, полный инет примеров )

                " Городничий.… О, я знаю вас: вы если начнете говорить о сотворении мира, просто волосы дыбом поднимаются.

                Аммос Федорович. Да ведь сам собою дошел, собственным умом.

                Городничий. Ну, в ином случае много ума хуже, чем бы его совсем не было. Впрочем, я так только заметил"


                1. yury_chekhovich Автор
                  13.09.2018 20:08

                  И написать он сможет только из того, что знает (а если начнет отсебятину нести — это часто бывает еще хуже, полный инет примеров )

                  А может быть тот факт, что человек не в состоянии на основе прочитанного и понятого сгенерировать собственные мысли, является признаком того, что высшее образование — это не для него?
                  Хотите эксперимент? Берем группу 10 студентов-гуманитариев, даем им какое-нибудь не очень длинное произведение. Да хоть бы и «Муму» Тургенева. И ставим какой-нибудь вопрос. Например, «мотивы поступка Герасима». Интернетом не пользуются, друг у друга не списывают. Цитаты выделяют кавычками — все как положено.
                  Мой прогноз: мы получим разных 10 текстов, которые будут совпадать только на цитатах и может быть в каких-то мелочах вроде общеупотребительных фраз.


                  1. Exchan-ge
                    13.09.2018 21:24

                    Берем группу 10 студентов-гуманитариев, даем им какое-нибудь не очень длинное произведение. Да хоть бы и «Муму» Тургенева. И ставим какой-нибудь вопрос. Например, «мотивы поступка Герасима».


                    Это в теории или в реале?

                    Если в теории — то да, напишут примерно по 1 стр (14, полтора) текста, причем собственного текста будет 1-2 абзаца.
                    При этом это будут вполне способные к обучению студенты — просто им не откуда будет взять данные, кроме как из текста «Муму».
                    Будет тот же самый парафраз текста книги.
                    Дело в том, что Герасим и его поступки запредельно далеки от их собственного жизненного опыта, а больше им черпать в такой ситуации неоткуда (в текущей реальности животных без проблем усыпляют либо кастрируют).

                    Если в реале — напишут заяву в деканат или накатают жалобу в инстанции (соц. сети).
                    Мол, препод заставляет заниматься какой-то х… й.


    1. Exchan-ge
      11.09.2018 21:59
      +2

      Если нужны уникальные тексты, то нужно давать уникальные задания, которые списывать не откуда.


      А откуда преподавателям брать уникальные задания — для каждого из 256 студентов?
      А в следующем семестре — еще 256, и еще и еще…

      Вся беда в том, что создатели всех видов Антиплагиатов не понимают главного — Цели и Задачи.

      А цель и задача у обучения — предотвратить простое списывание 1:1.
      Все.
      Нет задачи добиться 70...100% оригинальности — это большинству студентов не под силу.
      Если человек начал парафразничать — он уже что-то прочел и запомнил.
      А потом до него дойдет, что самому и проще и легче )


      1. Livid
        11.09.2018 22:59

        Вся беда в том, что создатели всех видов Антиплагиатов не понимают главного — Цели и Задачи.

        Да ну нет, создатели антиплагиатов как раз, похоже, понимают. Чего-то "не понимают", видимо, люди в среднем звене, которые разрабатывают всякие нормативы вида "оригинальность не менее x%" и потом по ним отчитываются — очень часто именно на этом этапе происходит превращение антиплагиатов (да и вообще чего угодно) в формальную метрику в очередном формальном отчёте.


        Вообще замечу, что всякие антиплагиаты — они не только для учебной работы как таковой предназначены, и может даже не столько. Когда речь идёт о печатной работе, претендующей на научность (в т.ч. дипломы и диссертации), одним из основных критериев оценки качества работы является новизна. И при правильном применении антиплагиат — мощный и полезный инструмент, помогающий эту самую новизну оценить (подчёркиваю, не оценивающий, а помогающий!). Использование одной циферки в качестве формальной метрики — применение неправильное.


        Нет задачи добиться 70...100% оригинальности — это большинству студентов не под силу.

        Смотря где, смотря в чём. Как минимум магистерские дипломы и уж тем более кандидатские диссертации должны обладать новизной и уж тем более должны быть оригинальными. Иначе, мягко говоря, непонятно, зачем оно всё вообще. С другой стороны, скажем, рефераты, конечно, не должны обладать оригинальностью вообще — если у Вас реферат с оригинальностью 70..100%, то это попросту никакой не реферат.


        1. kinall
          11.09.2018 23:06

          Для кандидатской диссертации есть вполне официальный термин «апробация результатов». Фактически это означает, что куски диссертации уже публиковались в открытой печати, причём скорее всего в соавторстве. И если этой самой апробации нет, то диссертацию могут к защите и не принять.
          Ну а новизна так и вовсе выносится в отдельный список, который проверяет диссертационный совет (точнее, группа экспертов из его состава) – таки новизна или не новизна.


          1. Livid
            12.09.2018 00:05

            Для кандидатской диссертации есть вполне официальный термин «апробация результатов».

            Не пойму, к чему это. Самоцитирования по идее на оригинальность не должны бы влиять. Самоплагиат — это нонсенс. Я специально оговорил, что использование одной циферки — неправильное использование.


            Ну а новизна так и вовсе выносится в отдельный список, который проверяет диссертационный совет (точнее, группа экспертов из его состава) – таки новизна или не новизна.

            Тут, Вы, пожалуй, правы, несколько я смешал понятия.


            1. kinall
              12.09.2018 09:32

              Самоцитирования по идее на оригинальность не должны бы влиять.

              А, то есть система отслеживает, откуда именно «списано»? Не знал, думал, просто проверяется, был уже конкретный текст в печати или не был. Тогда да, возражение снимается.


              1. yury_chekhovich Автор
                12.09.2018 14:29

                Это не система отслеживает, а отслеживает тот, кто проверяет. Зачастую только он знает, чья работа проверяется.


          1. aknew
            12.09.2018 11:52

            Вроде как один из вариантов новизны — применение уже известных технологий к новой области, например, огромный процент технологий медицинского ультразвука является переложением того же из радаров. Сдается мне, что при такой новизне местами таки будет парафраз.
            Вообще, меня давно волнует вопрос — является ли антиплагиат оспариваемым или же его применяют чисто механически? К слову, два раза видел бредовые ответы от рецензентов и они не оспариваемые, точнее, ответы на претензии были в стиле «посмотрели — да, что-то рецензент не то написал и мы его пожалуй даже не будем больше использовать как эксперта в этой области, но поезд уже ушел»


            1. yury_chekhovich Автор
              12.09.2018 14:33

              И Антиплагиат и рецензент являются оспариваемыми. Только по-разному. Антиплагиат — это поисковик. Интерпретация результатов — задача специалиста.
              А оспорить выводы рецензента можно на защите (если речь идет о квалификационной работе) — для этот соискателю дают слово. Если речь идет о рецензии на статью, то это вообще многостадийный процесс. И если рецензент будет писать бредовую рецензию, то нормальный журнал его заменит.


              1. aknew
                12.09.2018 14:43

                Про антиплагиат — спасибо за ответ. Про рецензента — один на статью (причем это JASA так работает), другой на грант, заменить-то их вроде как пообещали, но на сам факт отказа это уже не влияло, потому и есть опасения что косяк будет не в работе при апелляции могут послать


        1. Exchan-ge
          12.09.2018 00:11

          Вообще замечу, что всякие антиплагиаты — они не только для учебной работы как таковой предназначены, и может даже не столько


          Я говорил именно про студенческие работы.
          А ценность научной статьи может заключаться всего в одной оригинальной и интересной мысли, особенно когда речь идет об общественных и гуманитарных науках.

          Это к тому, что ценность научной работы не зависит от ее размера и процента оригинальности.


        1. VIPDC
          12.09.2018 04:50

          Антиплагиат изжил себя. Вот загнали мою кандидатскую в него.
          Он выдал оригинальность 50%, начинаем смотреть. 10% Это ссылки на мои же работы., 10% это всякие стандартные определения не требующие отсылки к источнику, остальные 30% это плагиат списка литературы. В итоге после обработки имеем 96% оригинальность. Так зачем такая система которая за которую всё вручную надо обрабатывать.
          Такие системы усложняют жизнь нормальным специалистам, и ни как не мешают тем кто хотел обмануть


          1. 3aicheg
            12.09.2018 07:50

            Что же, и поисковые системы, гугль и т. п. изжили себя? Всё равно за ними самому проверять, то ли они нашли.

            Видел результат обработки собственной диссертации какой-то системой антиплагиата (не той, что описана в данной статье, но не суть). Система изначально показала достаточно низкий процент заимствований, мне сказали, что с таким процентом, в принципе, уже всё ОК, можно глубже не копать, но если самому интересно, то вот на, посмотри. Было интересно, взял, посмотрел. Оно помечало куски текста разноцветными комментариями вида «с вероятностью X% это цитата из Y». Если цитата была длинная и прямая, как рельс, то цвет комментария был красный, а процент приближался к 100. Если непрямая цитата с суровым парафразом (не с целью плагиата — просто надо было кратко изложить суть чьей-то чужой работы парой предложений) — там было жёлтеньким-зелёненьким, и процент колебался туда-сюда между 30 и 70 (не помню точные цифры, но как-то так). Система оставила впечатление весьма годной вспомогательной тулзы для того, чтобы быстро проглядеть работу, уделяя особое внимание «заимствованным» кускам и тому, указал ли на факт заимствования сам автор работы. Стоит ли ссылка на Y рядом с цитатой из Y. Находится ли основная масса заимствований во введении и обзоре чужих работ на схожие темы. Вот это вот всё. Использовать подобную систему для автоматического вынесения последнего окончательного вердикта по плагиату — нет, конечно, это надо быть идиотом высшей пробы. Помочь ревьюеру, который более-менее шарит в теме, но не обладает феноменальной фотографической памятью — да, вполне.


            1. yury_chekhovich Автор
              12.09.2018 14:37

              Все верно. Ни одна система не предназначена для вынесения окончательного решения. Решение принимает человек.
              Что же касается использования «какой-то другой системы», то скорее всего проверяли на ограниченной базе источников. И низкий процент найденных заимствований говорит именно об этом.
              Извините за саморекламу, но Антиплагиат сейчас обладает самой большой русскоязычной базой для проверки на заимствования.


              1. 3aicheg
                12.09.2018 15:41
                +1

                Просто моя диссертация не была русскоязычной. Извините, что испортил саморекламу :)


                1. yury_chekhovich Автор
                  12.09.2018 15:48

                  Нет проблем. Тогда, возможно, это был действительно годный инструмент :)


              1. Exchan-ge
                12.09.2018 17:04

                Решение принимает человек


                Вот именно.
                1. Надо просмотреть большое количество работ — процесс принятия решения будет упрощен (такова человеческая натура)
                2. Над человеком, принимающим решение — стоит администратор, которому тонкости ни к чему. В результате следует ЦУ — смотреть на процент, и точка.


                1. 3aicheg
                  13.09.2018 04:36

                  Слушайте, ну можно и стамеской, при желании, пробить себе голову, но значит ли это, что стамеска — плохой, принципиально негодный инструмент?


          1. wataru
            12.09.2018 11:58

            Еще веселее со всякими дипломами.


            На каком-то этапе их загоняют в этот антиплагиат для проверки. Но потом работу могут завернуть по другим причинам и потребовать небольшое переписывание. При этом диплом опять возвращается на этап проверки на списывание.


            НО! Во время первой проверки текст добавлятеся в базу антиплагиата и следующая проверка даст >90% заимствования. А в некоторых вузах есть тупо формальное требование, чтобы было меньше x% списывания.


            Вот и сидят бедные студенты парафразят сами себя. Теперь будут вешатся, наверно.


            1. yury_chekhovich Автор
              12.09.2018 14:40

              На промежуточных этапах ничего в базу не добавляется! Если где-то не так, то какой-то вуз криво выстроил процесс — не по фэн-шую. Напишите в личку о каком вузе идет речь — мы им поможем сделать все нормально.
              Если используют в соответствии с документацией, то все отъедет в индекс только после защиты.


      1. yury_chekhovich Автор
        12.09.2018 14:28

        Первая посылка весьма спорна. Это достаточное условие, но не необходимое.


    1. wataru
      12.09.2018 11:51

      Похожая ситуация была у нас в университете: задание всему потоку было написать простенький урезанный http сервер. У многих была почти идентичная функция вывода http сообщения по коду, сделанная на switch/case. Препод обвинил весь поток в списывании. Так что это не только гуманитариев касается.


  1. ximik666
    11.09.2018 16:04
    +4

    image
    Ваш текст, проверенный в Антиплагиате, в бесплатной версии.
    Вещь, конечно, полезная и нужная, но прибавляет кучу проблем студенту: пишет своими словами, пишет названия документов или законов, а ему — 60% плагиата. И преподаватель и коммиссия не разбирается, в чем причина, просто не допускает такую работу.


    1. yury_chekhovich Автор
      11.09.2018 20:13

      А может быть проблем добавляют те, кто не разбираются?


      1. Livid
        11.09.2018 20:41

        Выше уже написал, но повторюсь, бывают "сильно сверху" спущенные формальные требования, которые оцениваются только цифрой. Никаких разбирательств не предусмотрено бюрократической машиной. Это не то чтобы Вам камень в огород, но сами понимаете, когда на работу, в которой треть — литобзор и прочий prior art, которые вроде как регламентированы и общеприняты, получается оригинальность меньше 70%, как-то грустно становится.


        1. yury_chekhovich Автор
          11.09.2018 21:21

          Мы воспринимаем, что это камень и в «наш огород». Пока мы не научили всех пользоваться системой обнаружения заимствований правильно. Но пытаемся!
          Формальный подход к обнаружению заимствований (как и к многим другим вопросам) — это зло. Подробности, например, здесь: www.unkniga.ru/innovation/tehnology/8136-kak-najti-ploschad-lenina-ili-razmyshleniya-o-praktike.html


          1. BelerafonL
            12.09.2018 14:30

            Может быть, научить систему не считать плагиатом оформленные в кавычки цитаты со ссылкой на оригинал и список литературы? Это, конечно, тот еще челендж, но глядя на семимильные шаги, кажется, уже можно пробовать.


            1. yury_chekhovich Автор
              12.09.2018 14:41

              Уже сделано. Работает.


          1. pasetchnik
            12.09.2018 17:02

            А есть у вас где-нибудь пошаговая демонстрация, как должна происходить проверка на АП?
            Может, в платной подписке даёте какой-то инструмент — редактор, который позволяет преподавателю в тексте отметить, что мол вот эти вот куски — не являются плагиатом. Эти тоже — т.к. взяты из конспекта лекции. Словарь добавить свой с какими-то специфическими фразами-терминами для специальности.

            И после этого всего отправить текст на повторную проверку, в результате чего — получить отчет об оригинальности с цифрой, которую уже можно будет официально «прицеплять» к дипломной (например) работе и говорить — «допущен».


          1. wataru
            13.09.2018 16:30

            Единственное решение этой пробемы, которое я вижу — это вообще не выдавать этот несчастный процент уникальности. Если кто-то хочет проверить работу на списывание, пусть смотрят полный отчет. Если вы даете "эффективным менеджерам" одно число, к которому можно просто формально ставить требования, то эти требования будут.


            Вы много раз присали в этой теме, что нельзя просто смотреть на этот процент, надо смотреть в полный отчет. Это преподаватели/вузы неправильно используют Ваш продукт. В таком случае вообще выдвавть это число смысла нет. Само по себе оно, как вы говорите, пользы не несет но искушает делать дебильные системы оценок.


            1. Exchan-ge
              13.09.2018 16:34

              Если кто-то хочет проверить работу на списывание, пусть смотрят полный отчет.


              Именно так и делают тогда, когда нет директив сверху.

              но искушает делать дебильные системы оценок.


              Вы правы.


  1. suharik
    11.09.2018 16:09
    -2

    Давать уникальные задания? Разбираться, в чем причина? Для этого же надо мысль думать головой. Не созрел еще российский учитель до использования таких инструментов, уж простите. Обезьяна гранатой меньше навредит обществу.


    1. suharik
      11.09.2018 17:35
      +3

      Аргументов против не будет, просто "-"? Ну ок. Средний возраст российского педагога — 52 года. Это статистика. В этом возрасте освоить что-то новое проблематично, в основном из-за проблем с мотивацией. Исследования на эту тему есть, например в MIT. И вот теперь мой вывод — среднестатистический учитель действительно просто запорет работу ученика/студента, не став разбираться в причинах, по которым он увидит в антиплагиате «заимствования 70%». Так ему проще. И я в своей практике такое проходил и в школе, и в ВУЗе.


      1. HunterNNm
        11.09.2018 17:37
        +2

        Полагаю, аналогия с обезьяной и гранатой не всем по душе.


        1. suharik
          11.09.2018 17:44
          +1

          Это намек на попадание тонкого и опасного инструмента в неопытные руки. Как еще подобное расписать, чтобы было ясно? Вот конкретный случай. У моей учительницы по химии была присказка, что на «5» может знать только Менделеев, на «4» — учитель, а вам всем «тройки» в радость должны быть. 60+ было, когда учились у нее. Что человек с таким подходом будет вытворять с помощью антиплагиата? Да еще один аргумент доказать свою и только свою правоту. И, к сожалению, таких много. Не хочу, чтобы мои дети напоролись на подобную проверку без права подачи аппеляции. Не стоит давать обезьянам гранаты.


    1. y023rus
      11.09.2018 18:19

      Уникальность заданий здесь ни при чем, система оценивает прежде всего правомерность заимствований и хоть трижды все задания будут найуникальнейшими, «ток короткого замыкания» им и останется во всех заданиях, что естественно не добавит оригинальности работам. Можно конечно его назвать ТКЗ или по-другому, но это на один-два раз и глупо — как минимум в технических дисциплинах система антиплагиата сбоит. Особенно усугубляет проблему то, что часто в учебных заведениях не видят разницы между оригинальностью и правомерностью заимствований, а именно они, насколько я знаю, устанавливают планки. А учитель дорос и способен использовать, только инструмент так себе, особенно в совокупности с перегибами на местах.


      1. yury_chekhovich Автор
        11.09.2018 20:16

        Система как раз не оценивает (и не должна!) правомерность заимствований. Это должен делать преподаватель. Задача системы подсветить заимствованный текст. Сейчас стало бессмысленно заниматься рерайтом.


    1. Livid
      11.09.2018 21:05
      +3

      Я вот Вам не только в комментарий, но и в карму минусану. Но объясню почему. Возьмём институтский курс по технической дисциплине, скажем какая-нибудь схемотехника. Пусть в год этот курс проходят около 100 студентов (для простоты). По курсу предусмотрена курсовая работа в довольно конкретной форме — спроектировать, сделать, описать какую-то сравнительно простую схему (потому что фигли сложную если задание по сути учебное). Как Вы думаете, на какой год у преподавателя закончатся "уникальные задания"? Количество вариантов конечно. И количество способов описать одно и то же — особенно в технической сфере — невелико. Как следствие, год на 5-й "оригинальность" работ по версии системы "Антиплагиат" стремительно пойдёт вниз.


      Ну и если Вы думаете, что средний "российский учитель" по собственной инициативе лезет что-то там проверять в антиплагиате — Вы зря так думаете. Плохой педагог просто поленится, а хороший и без антиплагиата видит где там оригинальное, а где содрано откуда-то. Обязательная проверка антиплагиатом — исключительно инициатива "эффективного менеджмента" — причём навязывается директивой "сверху" как обязательный пункт. И вот эти "эффективные менеджеры" явно не вникают, как работает антиплагиат, что надо в чём-то там разбираться, где-то что-то экспертно оценивать и тп — разбираться не эффективно, эффективно циферки красивые всем показывать, типа "оригинальность всего и вся не меньше 75%".


      1. Exchan-ge
        11.09.2018 22:03

        Плохой педагог просто поленится, а хороший и без антиплагиата видит где там оригинальное, а где содрано откуда-то.


        Точно!

        исключительно инициатива «эффективного менеджмента» — причём навязывается директивой «сверху» как обязательный пункт


        Так оно и есть.


      1. suharik
        11.09.2018 22:56

        Ну и толку тогда с этой системы проверки, если она попадает не в те руки и, по сути, наносит обществу вред? Эффективные менеджеры гонятся за цифрой, подчиненные им преподаватели (в большинстве слабо понимающие принцип работы инструмента, им навязанного) рисуют эти цифры. А обучаемому что делать? В сфере гуманитарной извращаться с сочинениями и текстами, парясь по поводу каждой цитаты и формулы? Ведь плохой или просто спешащий домой препод не будет, как я уже говорил, разбираться в причинах неоригинальности сданной работы. И если в той же приведенной вами схемотехнике трудно добиться оригинальности ок, черт с ней. Но вы не думаете, что этот сервис может стать в руках злодея инструментом для решения задачи типа «студент, у вас 35% лажи — несите 35$ или не сдадите предмет»?


        1. Livid
          11.09.2018 23:52

          Это был конкретно ответ вот на этот Ваш вброс:


          Давать уникальные задания? Разбираться, в чем причина? Для этого же надо мысль думать головой.

          У Вас основной посыл получился что учителя — злонамеренные дураки. Что в целом неправда, на мой взгляд.


          А обучаемому что делать?

          Обучаться. Главное же это, нет? По моему опыту, хорошему студенту кафедра всегда готова пойти на встречу в спорных ситуациях, даже в случае личных конфликтов с конкретным преподавателем. А если раздолбай и ещё права качает — то да, может неприятно получиться.


          просто спешащий домой препод не будет, как я уже говорил, разбираться в причинах неоригинальности сданной работы

          Просто спешащий домой препод просто разберётся дома. Или в другой день. Это я Вам говорю как часто "просто спешащий домой препод". Вы какого-то очень резко негативного мнения о преподавателях вообще, я даже боюсь спросить, кто Вас так обидел.


          в руках злодея

          Сгущаете краски. Злодеев не так много, а тех, которые есть — надо бы по-хорошему под трибунал. Но у нас почему-то принято молча нести $35, а не докладную начальству этих самых "злодеев".


          Впрочем, спорить не буду, проблема профпригодности и квалификации кадров в образовании есть и стоит довольно остро; но проблема это системная — легко она не решается. Это, однако, не повод впадать в крайности в ключе "запретить антиплагиат потому что им не умеют пользоваться" — с таким подходом вообще любую инновацию нужно запрещать как вредную/опасную, а это понятно к каким результатам приведёт.


          1. suharik
            12.09.2018 06:07

            Запретить потому, что им не умеют пользоваться — это как раз подход эффективных менеджеров. Как насчет запретить до тех пор, пока не обучены пользоваться? Этот инструмент не как любая инновация, может не только навредить. Он может стать инструментом шантажа, и здесь сам механизм проверки позволяет такое. Как алкотестер в руках нечестивого инспектора. Сам по себе алкотестер вещь вполне хорошая, призван определять степень опьянения. Но сколько уже случаев подлога результатов было, и разумеется, с целью наживы, а не лишения пьяницы прав? Думаете здесь иначе получится?
            Я не думаю, что стоит запрещать все инновации, но и пихать все без разбора в тираж тоже нельзя.


            1. OldGrumbler
              12.09.2018 07:20

              Строго говоря, алкотестер НЕ определяет степень опьянения. Если человеку прополоскать рот спиртом, не глотая, а потом «дунуть в трубочку» — он покажет зашкальные цифры у совершенно трезвого.И даже наличие в крови спирта не значит опьянения — которое не биохимия, а психофизиология.
              Так же и антиплагиацкiя цифири и проценты должны быть не приговором, а поводом к детальному уточнению, откуда они взялись и что значат.

              ЗЫЖ Несложно, кстати, изготовить из любого текста документ, который будет 100% оригинален с т.зр. АП. Всего-то полная замена символов (сдвигом по таблице) + специально обученный фонт, с которым этот текст выглядит как исходный — и все это в PDF с прицепленным фонтом. )))


              1. suharik
                12.09.2018 09:59

                Не хочу вдаваться в логику работы алкотестера, речь не об этом, а о том, какие последствия несет его применение для автовладельца. А так да, он всего лишь инструмент в чьих-то руках. Как и система «Антиплагиат». Но почему одни инструменты можно давать в руки кому попало, а за право пользоваться другими надо потрудиться? Надо получать некоторое количество справок на охотничье оружие. Надо сдавать экзамен на право управления ТС. Да, и оружие, и автомобиль в неумелых руках могут навредить, поэтому не стоит доверять их кому попало. На электронику, как правило, прилагается инструкция к пользованию. Сломал что-то, пытаясь делать вопреки? Тут уж сам дурак, читать надо было.
                Но в случае с антиплагиатом речь о системе, которая позволяет одним людям судить о качестве выполнения работы другими людьми. И почему для обладания таким инструментом достаточно тупо заплатить денег? Будет человек разбираться досканально, что там да как? Сильно сомневаюсь, а почему бы тогда не научить пользоваться? Есть на сайте инструкция, знаю. А кто проверит, читал ли ее пользователь прежде, чем загружать в базу работу и судить затем автора?
                Тут один преподаватель утверждал, что трудно по ряду предметов выдать оригинальное задание. Расскажу, как это было у меня. Рассказ нудный, пусть живет под спойлером.

                Вот под этим
                Сперва список предметов: теормех, сопромат, гидравлика, насосные станции, защита окр. среды, гидротехника, орг. химия, строительные машины и детали машин. Это только те, по которым точно были методички для написания курсовых проектов. Дисциплины технические на 100%. Как поступали преподаватели в моем, да и в большинстве других ВУЗов? Есть журнал со списком студентов, есть список вариантов в методичке. Как правило, трех десятков достаточно. Итак, первое исходное данное — номер студента. Второе — последняя цифра его зачетки. Третье — дата его рождения, для 31-го принимаем 1-е. Четвертое исходное данное выберете сами, оставшееся — вторая буква вашей фамилии. Таким образом получали достаточно разнообразное количество вариантов заданий, что исключало возможность списать, разве что решать задачу совместно. И в той же методичке было дано описание решения. Что делает большинство студентов? Правильно, списывает оттуда текст. В итоге получается, что весь поток друг у друга списывал? Да черта с два. Но система антиплагиат именно это покажет, ведь отличаться будут только формулы и числа.
                Так что приведенный здесь пример о схемотехнике считаю несостоятельным. У хорошего преподавателя варианты не закончатся никогда, и задача вовсе не трудная, придумать такую вот систему выдачи заданий по номерам в журнале, датам и фамилиям. А вот запихивать результат курсового по технической дисциплине в антиплагиат хороший преподаватель не станет.


              1. yury_chekhovich Автор
                12.09.2018 14:47

                ЗЫЖ Несложно, кстати, изготовить из любого текста документ, который будет 100% оригинален с т.зр. АП. Всего-то полная замена символов (сдвигом по таблице) + специально обученный фонт, с которым этот текст выглядит как исходный — и все это в PDF с прицепленным фонтом. )))

                Все хорошо, но преподаватель заглянет в отчет, увидит там кашу и внимательнее посмотрит на ваш PDF. А это уже посерьезнее, чем «забыл поставить ссылки и кавычки». Это осознанный подлог и мошенничество. С соответствующими последствиями для обучающегося — чаще всего они прописаны в локальных актах вуза.


                1. OldGrumbler
                  12.09.2018 15:03

                  То, для чего предназначен PDF, работает? На экране и в распечатке читается?
                  Естессно. А что копипаст в разные стремные системы ломается — так это защита от копирования. Свежая и оригинальная. Как и диплом.
                  Не думаю, что в локальных актах вуза что-то сказано про то, что из документа должно что-то вообще копироваться )))


                  1. yury_chekhovich Автор
                    12.09.2018 15:11

                    Защита стара как мир как Антиплагиат (не в обиду).
                    А в локальных актах используется требование «машинночитаемости» — это как раз наш кейс.
                    Ну и еще один маленький нюанс: в Антиплагиат уже больше года встроен OCR…


                    1. OldGrumbler
                      12.09.2018 17:07

                      в локальных актах используется требование «машинночитаемости»

                      Машина читает и отображает. «машиннонечитаемость» — это, например, битая флешка или поцарапанный диск )))

                      Защита стара как мир как Антиплагиат (не в обиду).


                      Эта идея у мну родилась лет 18 назад) Не думаю, что АП тогда был )))


                      1. yury_chekhovich Автор
                        12.09.2018 18:14

                        На столь преклонный возраст не претендую :)


                    1. Exchan-ge
                      12.09.2018 17:10

                      уже больше года встроен OCR…


                      О да, великий OCR… который стабильно распознает «США» как «СИЛА» ))
                      и «30» как «ЗО» («лучшая программа распознавания текстов в мире»)

                      Причем речь идет об идеально распечатанных и отсканированных текстах.


                      1. suharik
                        12.09.2018 17:27

                        О да, великий OCR… который стабильно распознает «США» как «СИЛА» ))
                        и «30» как «ЗО» («лучшая программа распознавания текстов в мире»)

                        Здесь на помощь может придти NLP. И знание того, что у Сектора Газа нет песни «Золет».


                        1. Exchan-ge
                          12.09.2018 23:31

                          И знание того, что у Сектора Газа нет песни «Золет».


                          Появлению такого знания не способствует даже многократное обращение в техподдержку.


                          1. suharik
                            13.09.2018 06:08

                            Но вполне можно научить машину понимать, что полученная в результате распознавания фраза «СИЛА — государство в северном полушарии» не имеет смысла, и вместо силы надо что-то другое подобрать. Или, как в случае с антиплагиатом, сажать человека для вычитки результатов распознавания и корректировки.


                            1. Exchan-ge
                              13.09.2018 14:45

                              Но вполне можно научить машину понимать


                              Тут не могут научить тому, что вероятность встретить в тексте слово «ЗО» на порядок-другой ниже, чем число «30».

                              А вы про такие сложные фразы )


                              1. suharik
                                13.09.2018 15:06

                                Слова то можно подключить, было бы велено. А вот ваш следующий пример действительно хорош, с таким машина навряд ли справится. В свободное время надо бы почитать про OCR, в чем в принципе там могут быть сложности. Если уж отдельные системы могут эмоцию человека распознать, в чем проблема с символами, хз.


                                1. Exchan-ge
                                  13.09.2018 16:41

                                  Слова то можно подключить, было бы велено


                                  Беда в том, что таких слов много.
                                  А ведь есть еще и фамилии и, самое страшное — инициалы, которые OCR перевирают со страшной силой.

                                  с таким машина навряд ли справится


                                  Есть сайт, где можно посмотреть, что получится из вашего текста (и бесплатно):
                                  www.newocr.com


                                  1. suharik
                                    13.09.2018 17:14

                                    Спасибо, попробовал.

                                    Результат плачевный.
                                    (Joan. xv). » Nam ct. tanta est illa uuio pcrsunalis
                                    inter divinam et humanam, naturam, ut in hypo-
                                    stasi Vet-bi, propter assumentem divinitatem, hu-
                                    manitas etiam adoretur assumpta, secundum illud
                                    propheticum: « Adorate scabellum pedum ejus,
                                    quoniam sanctum est (Psal. xcvm). » Cmtera vero
                                    Bacra vel sancta non adorada sunt latria, scd dulia
                                    veneranda, ne forte sub specie pietatis Gaosee’sza con-
                                    vertatur in idololatriam,et ita subintret vitium pro
                                    virtute.
                                    Apertis ergo thesauris suis, non utique thesauris
                                    -_,,pecunia=., dc quibus illa muncra proforuntur, quze
                                    f « oculos sapientum excecant et pervertunt verba


                      1. yury_chekhovich Автор
                        12.09.2018 18:15

                        Так нам же не издавать потом распознанные тексты, а заимствования искать. Точности хватает.


                        1. Exchan-ge
                          12.09.2018 23:25

                          Так нам же не издавать потом распознанные тексты, а заимствования искать.


                          Так ведь и не найдете, при такой точности.

                          Точности хватает


                          Я описал практически идеальный вариант. Большинство систем OCR выдают мусор, сталкиваясь с текстом типа №1-с/122-ВА/222в


  1. Neuromantix
    11.09.2018 16:20
    +6

    Особенно весело проверять через антиплагиат текст, в котором 50 и более процентов — это термины или химические названия — сразу указывает сходство с кучами статей, к которым исходный текст отношения не имеет.


    1. Rita_Kuznetsova
      11.09.2018 17:26

      Сейчас в системе проходит аппробацию модуль часто-употребимых фраз и терминов, призванный справиться с этой проблемой. В любом случае, корректность и правомерность обнаруженного заимствования определяется не системой, а человеком.


    1. Rikkitik
      11.09.2018 19:05
      +1

      У меня как-то раз возникли проблемы с рефератом по методологии науки. Потому что у меня подзаголовки разделов и тексты определений имели много совпадений. Впрочем, преподавательница была дамой адекватной и согласилась, что прямые цитаты с указанием источника должны быть именно дословными, а заголовок должен отражать суть проблемы, поэтому ожидаемо, что он будет очень похож на заголовки любых статей по теме.


      1. yury_chekhovich Автор
        11.09.2018 20:18

        Ваша преподавательница поступила совершенно правильно. Тем более, что такой жанр как реферат по определению подразумевает большое количество заимствований. Вопрос в том, как распределен заимствованный текст по источникам. Если 80% из одного источника, то реферат списан, а если по 10% из 8-ми источников, то реферат ваш.


  1. Ermit
    11.09.2018 16:37
    +2

    Статья хорошо демонстрирует две вещи: технологии синонимизации оставляют желать много лучшего, но технологии смыслового сравнения текстов еще хуже.


    1. Rita_Kuznetsova
      11.09.2018 17:35
      +1

      Нет предела совершенству, существующие технологии уже позволяют сделать то, что до этого было невозможным. В любом случае, область сейчас активно развивается — это можно видеть, например, по ежегодному конкурсу SemEval, посвященному семантической оценке близости текстов и по огромному количеству публикаций по этой теме.


  1. kinall
    11.09.2018 17:05
    +2

    А чем плох перефразированный текст? Человек его прочитал, понял, да ещё и своими словами изложил – разве это не называется «создать своё»?
    Я правда не понимаю и искренне интересуюсь. Сам никогда с Антиплагиатом не сталкивался.


    1. Ametrin
      11.09.2018 20:19

      Насколько я понял статью, то в ситуации, когда человек прочитал текст, а потом пересказал — Антиплагиат заимствований не найдет. Ловятся случаи, когда идет, грубо говоря, перефразирование каждого предложения.


      1. yury_chekhovich Автор
        11.09.2018 20:21

        Все зависит от степени переработки. Естественно всегда будет существовать такая степень обработки текста, которую не обнаружит ни один алгоритм, да и человек вряд ли.


      1. Rikkitik
        11.09.2018 23:37

        Мне один раз пришлось брутфорсить систему антиплагиата. Потерялась ссылка на один из источников для диссера, а нужно было кровь из носу тезис отсылкой к исследованию подтвердить. Гугл выдаёт тонны левых сайтов. Но я-то примерно помню, какой абзац надо процитировать… ну и давай я перефразить ключевые обороты так и эдак. И что бы вы думали? Попыток через 10-15 система таки выдала нужную ссылку! А сейчас бы и быстрее сработало.


        1. nvv
          12.09.2018 11:54

          Это яркий пример, что инструментом надо уметь пользоваться, понимать как он работает, тогда можно эффективно использовать его для решения задач.
          Корректная постановка задач и введение адекватных метрик это не такая простая работа, как многим кажется.


    1. yury_chekhovich Автор
      11.09.2018 20:20

      Парафраз чужого текста — это не «создание своего». Здесь достигается образовательный эффект, но в ряде типов работ требуется новизна, а с помощью парафраза ее не добьешься.


      1. OldGrumbler
        12.09.2018 15:08
        -1

        Да какая, в конце концов, может быть «новизна» при использвании букв, которыми не пользовался только безграмотный? )))
        Предлагаю пойти дальше — до букв, и выдавать списки документов, в которых они уже использовались )))))))


        1. yury_chekhovich Автор
          12.09.2018 15:12

          Ха. Ха. Ха.


  1. HunterNNm
    11.09.2018 17:36
    +2

    Вот если бы исключили из проверки всё, что есть в википедии, официальных сайтах ведомств, сайтах исследователей — цены бы не было. Как можно термин, закон, определение — своими словами? Особенно у юристов/экономистов/it-шников/физиков/математиков? И да, никто не разбирается почему % высок. А если бы писалось, почему — еще более бесценным стал бы ваш продукт. А пока что — у многих вызывает только определенные чувства, уж извините.


    1. Rita_Kuznetsova
      11.09.2018 17:49

      Выше писала про модуль детектирования часто-употребимых фраз (в том числе законов, длинных терминов, названий организаций), призванный справится с этим. Также, не стоит забывать про правила корректного оформления цитат со ссылкой на источник (касается известных фактов и тех же законов), цитаты система помечает отдельно, на процент заимствований они не влияют.


      1. namikiri
        11.09.2018 17:54

        Частоупотребимые фразы это одно, а вот «кольцо вузов» — это немного другое. Когда два студента пишут работу по одному (своему) вузу, пальма первенства достаётся первому написавшему, а остальные страдают от занижения баллов, потому что своими словами описали то же самое: организационную структуру вуза.


      1. HunterNNm
        11.09.2018 18:05
        +1

        Я всецело поддерживаю Вас и вашу компанию в ваших начинаниях, исследованиях и разработках, но тут(полагаю, что многие со мной согласятся) — вы даете инструмент, на итоги которого смотрят и ставят свой вердикт. Если написано — 70% плагиата(даже с ссылками на первоисточники, сам свидетель такого) — значит переписывать. Казалось бы, интсрументом, направленным делать сдачу диплома более честной, студентов просто шантажируют(да-да, чтобы был правильный % кое-где просят денег, это тоже не секрет). Поэтому пока ваша система работает так, как работает(модуль этот желательно было бы сразу с первым релизом выпускать, а не сейчас), никто не стремится написать качественную работу, все стремятся обмануть систему или копят денег экзаменаторам. Вот такая она, суровая реальность.


        1. yury_chekhovich Автор
          11.09.2018 20:27

          Сложно выпустить все модули с первым релизом. О каких-то проблемах 13 лет назад мы даже не подозревали. Тем не менее, за это время ту суровую реальность (напомню: скачал диплом, поменял титульный лист, прочитал (опционально), принес на защиту) мы серьезно поменяли. Поменяем и эту. Для этого и работаем.


        1. Exchan-ge
          11.09.2018 22:06

          все стремятся обмануть систему


          Именно. Причем самый популярный способ обхода в статье вообще не упомянут )


          1. yury_chekhovich Автор
            12.09.2018 14:49

            Именно. Причем самый популярный способ обхода в статье вообще не упомянут )

            Появится статья, посвященная и ему :)


      1. balexa
        11.09.2018 18:38
        +1

        У меня стажеры жаловались, что ваша система проверяет в т.ч. исходный код, который часто включают как приложение. Вот например полностью сплагиаченная строчка кода.

        import java.io.File

        и вот еще одна
        public static void main(String[] args) {

        И куча таких.

        Как вы собираетесь это помечать цитатами? Проблема в том, что антиплагиат — это инструмент, который дает только сырые данные. В теории, конечное решение о том, плагиат это или нет должно оставаться за преподавателем. А на практике имеем то что имеем.


        1. yury_chekhovich Автор
          11.09.2018 20:44

          С исходниками пока сложно — работа с ними еще впереди. Постараемся что-то придумать.


          1. namikiri
            12.09.2018 13:47

            Пока вы «что-то придумываете», студенты страдают и не могут пройти ваш антиплагиат, без которой не допускают до защиты диплома.


        1. remzalp
          12.09.2018 08:26

          Скриншотами хранить? :)
          Или приложением


          1. RiseOfDeath
            12.09.2018 10:18

            Я в своем дипломе делал приложением. Правда это было до всяких антиплагиатов, препод сказала что 140 страниц диплома это слишком дохрена, и потребовала вынести все исходники в приложения. (в результате пришлось лить воду, т.к. диплому не хватало почти 10 страниц до «нужного» объема. а сказать по сути вопроса уже было больше нечего).


            1. nvv
              12.09.2018 12:03

              Сколько же кода было и, главное, зачем, если не для "массовки"?
              Интересна, как правило, алгоритмическая часть, если нет задачи уложиться в экстремальные ограничения (объем, скорость и др.)


          1. Superl3n1n
            12.09.2018 12:46

            Да это же гениально! Сдавать курсовую в картинках!


            1. yury_chekhovich Автор
              12.09.2018 14:50

              На всякий случай, OCR проверяемых документов у нас тоже реализован.


  1. Eagle_NN
    11.09.2018 18:03
    +2

    Бедные студенты. Приходится извращаться кто как может. Только вот не ведет это к более глубоким знаниям, к сожалению.


  1. HappyGroundhog
    11.09.2018 18:44
    +1

    Как бывший преподаватель скажу, что если просто читать работу, то уже ясно видно, как и какими кусками её клеили… Антиплагиат использовался только в качестве дополнительного средства, при наличии серьёзных сомнений или особенной упрямости студента. Самое смешное и обидное, это когда ты студентам 5-го курса рассказываешь про языковые шаблоны, лексические отпечатки и характеристики текста, а они тебе приносят работу в которой радостно соседствуют отрывки вроде «Я тут это, как его, настроил компутер» и «Основной проблематикой получения высокообученной сверточной сети...». Хотя в моем топ10 до сих пор лидирует кусок диссертации женщины, написанный в женском роде и от женского лица, но сданный парнем. Фразы «я провелА исследование» его не смущали. И статья трех экспертов из Касперского (мужчин), сданная девушкой, в которой встречались обороты «Мы, как отраслевые эксперты… считаем». Это и смешно и печально одновременно, потому как ты стараешься нести им передовые знания, недоступные зачастую на русском языке, а они считают, что у тебя «прокатит» как у всех. Увы, в дипломах и курсовых так никто не предложил на 10-й странице деревянные гвозди или ящик коньяка :)


    1. yury_chekhovich Автор
      11.09.2018 20:31

      Спасибо за хорошие примеры. :) Надеюсь, что ваш ящик коньяка еще впереди.
      Тем не менее, не всегда очевидно из чего именно работу клеили. Расскажу свой случай: как-то занимался экспертизой заявки на грант в один из научных фондов. Читаю какой-то странный текст: очень много знакомых слов и оборотов, но общего смысла в текст нет — каша какая-то. Проверил с помощью Антиплагиата. Выяснилось, что заявитель скомпилировал заявку из текстов трех диссертаций: моего научного руководителя, моего коллеги и моей. А без системы было не очень понятно.


      1. HappyGroundhog
        11.09.2018 20:52

        Да, я тоже для этих целей Антиплагиат и использую, когда есть подозрения или хочется найти первоисточник, а в поисковике он по фразам не ищется…
        У меня вот моему начальнику особо ретивый студент пытался его же статью сдать! Не глянул на фамилию…


    1. RiseOfDeath
      12.09.2018 10:22

      Фразы «я провелА исследование» его не смущали.


      Гнать его тряпками! Как минимум не приемлимо в научном тексте писать «Я». Вот следовал бы канонам и написал «Было проведено исследование» и т.п. и не спалился бы.


    1. DaneSoul
      12.09.2018 14:38

      Знаю случай, когда девушка принесла на защиту курсовую с кучей логарифмических расчетов. А когда преподаватель спросил «А что такое логарифм?» не смогла ответить и на этом ее защита закончилась.


      1. Happy_Forever
        14.09.2018 02:24

        К слову: бывает, что сильно зарываешься в работу, получаешь не только теоретические, но и материально существующие результаты — а если спросят что-нибудь банальное, то зависаешь, хотя это в фундаменте работы всей, но сложно переключиться из-за волнения. Редко, но бывает.


        1. Rikkitik
          14.09.2018 09:52

          У меня как-то на экзамене по информатике в ВУЗе попросили в виде доп. вопроса на листочке найти определитель матрицы 3х3 (основной вопрос был по мат.вычислениям). Я визуал, так что схему из школьного учебника до старости помнить буду, и это заняло полминуты — а вот спросили бы что такое определитель и получили бы «ну это такое число, которое однозначно определяет матрицу, типа проекции на (n-2)-мерное пространство»… тут бы меня с лестницы и спустили.


  1. Androniy
    11.09.2018 20:07

    Реферат подразумевает обзор существующих фактов и знаний из авторитетных источников, а не самостоятельное исследование. Следовательно реферат — и должен быть во многом заимствованным из различных источников. Как можно запрещать заимствования, особенно пересказанные своими словами?


    1. yury_chekhovich Автор
      11.09.2018 20:37

      Никто и не запрещает. См. выше ответ про реферат.


    1. nvv
      12.09.2018 12:10
      +1

      Реферат подразумевает обзор некоторого количества источников (зависит от тематики и др.) Антиплагиат упрощает задачу проверки реального количества источников, а не перечисленных в списке литературы. Подчеркну, помогает, а не делает всё за преподавателя.


  1. MaxxONE
    11.09.2018 20:14

    Хороший, конечно, инструмент — если им грамотно пользоваться. А то ведь у меня в вузе требуют, чтобы диплом набрал не менее определенного процента оригинальности. Ну и что делать студентам, если половина дипломов моей старой кафедры — это проектирование релейной системы мохнатых годов, где вся разница только в чертежах?


    1. yury_chekhovich Автор
      11.09.2018 20:38

      Мы работаем с вузами. Убеждаем, что подходить к оценке работы механистически — только одним процентом — неправильно!


  1. AleksiyT
    11.09.2018 20:32

    Вот вы где, есть вопрос вам:

    У человека опубликовано много научных статей, но при написании диссера, он столкнулся с проблемой — диссертация не проходит проверку в системе Антиплагиат, что с одной стороны логично…
    С другой, получается, что человек не может использовать собственные статьи в своей же работе.
    Как быть с этим?


    1. yury_chekhovich Автор
      11.09.2018 20:34

      Диссертация не может «не проходить проверку в системе Антиплагиат» в связи с заимствованиями из собственных статей автора. Проблема в том, что диссертационный совет ленится заглянуть в отчет и убедиться, что неправомерных заимствований в работе нет.
      Наоборот, у меня всегда вызывает много вопросов диссертация с высоким процентом оригинальности. Возникает вопрос: где статьи?


      1. Rikkitik
        11.09.2018 23:51

        У меня было на 100 листов текста 97, кажется, ссылочных источников, было бы и больше, да 101 лист уже по требованиям к оформлению магистерской не проходил бы. Тут хочешь не хочешь, а перефразируешь сам себя 10 раз: сперва выбрасываешь лишние параграфы, заменяя ссылками на свои статьи, потом выкашиваешь не слишком нужные абзацы, рисунки, цитаты вообще все в топку (ах, эти учёные так длинно пишут, совсем не экономят бумагу, негодники), под конец предложения уже укорачиваешь — в итоге, когда выбросить совсем нечего, становится 99% уникальности как-то само собой.


      1. AleksiyT
        12.09.2018 07:07

        Спасибо за ответ.
        Пока не готов предоставить факты, я говорю о другом человеке.
        Но он говорит, что вы скорее всего правы, проблема в «людях».


    1. yury_chekhovich Автор
      11.09.2018 20:35

      Если есть возможность пришлите в личку информацию о какой организации/совете идет речь — собираю материалы для общения с председателем ВАК.


  1. axe_chita
    11.09.2018 20:34

    Мне система антиплагиат напоминает одно устройство из анекдота, ну то самое — для массового бритья. Ведь все лица будут разными только до первого бритья.

    Машинка для бритья
    Изобретатель приносит в в патентное бюро механическую машинку для автоматического бритья. Эксперт патентного бюро робко замечает, что «у всех людей лица отличаются и по форме, и размеру», на что изобретатель гордо отвечает «Да, до первого бритья отличаются, а потом как по маслу!»


    1. yury_chekhovich Автор
      11.09.2018 20:42

      Спасибо за анекдот и личную историю — интересный кейс.
      В реальном мире ЛЮБОЙ инструмент может быть использован неправильно. Лопатой можно канаву выкопать, а можно ударить по голове.
      В чем мы видим свою задачу: в том, чтобы (1) правильная работа с заимствованиями давала преимущества по сравнению с неправильной, т.е. списыванием; (2) правильная работа с системой Антиплагиат давала бы преимущества по сравнению с неправильной.


    1. Exchan-ge
      11.09.2018 22:14

      разрешал открыто пользоваться шпорами на экзамене, но при одном условии — эти шпоры должны были быть зашифрованы,


      Лет 35...40 назад все было проще.
      Преподаватель отлавливал шпороносителя, отнимал сложенную гармошкой шпаргалку, проверял почерк и ставил условия — если сложенная гармошкой шпора при отпускании развернется и достанет вторым концом до пола — будет 3.
      Нет — тогда до свидания.

      Система работала — выучить оказалось легче.


  1. Decticus
    11.09.2018 20:35

    Во многих случаях при приёме работ (проектов, заявок на гранты, отчётности) требуют «по антиплагиату — не менее XX процентов». Никто даже не пошевелится открыть и посмотреть, что именно входит в «заимствования». Странно ожидать обратного.


    1. yury_chekhovich Автор
      11.09.2018 20:36

      Сообщайте нам, где требуют такого. Будем бороться с идиотизмом вместе.


      1. Superl3n1n
        12.09.2018 12:49

        Можно узнать предположительные способы борьбы?


        1. yury_chekhovich Автор
          12.09.2018 14:53

          Исключительно убеждение. Насилие — не наш метод


  1. olgerdovich
    12.09.2018 01:19

    Но почему же авторы не прокомментировали, а в комментариях никто до сих пор не спросил про выбросы на предпоследней гистограмме при 80 % плагиата по прежнему алгоритму поиска и при 85 % по новому алгоритму? Спрошу тогда я — что это за чудовищные аномалии?


    1. dimonoid
      12.09.2018 08:37

      Какая-то конкретная статья нагло скопирована тысячу раз, и отличия только в имени студентов?) Самому интересно.


    1. Rita_Kuznetsova
      12.09.2018 14:52
      +1

      Верно подмечено. Данные выгружались как есть, чтобы отразить текущую ситуацию и выброс соответствует нашему роботу, который проверяет работоспособность сервиса.


  1. scifinder
    12.09.2018 06:54

    Как хорошо, что в тот жизненный период, когда я проходил обучение, не было никакого Антиплагиата (или был, но мы о нём не слышали ничего). Правда, один фиг — в моей дипломной работе кроме меня и моего научного руководителя всё равно никто бы без бутылки не разобрался — уж больно новой эта тема тогда была.

    А вообще, сейчас над учениками/студентами всё больше и больше издеваются, по моему мнению. Вместо того, чтобы учить наукам, их всех постоянно проверяют и перепроверяют и требуют каких-то красивых циферок вместо знаний.


  1. 8street
    12.09.2018 13:43

    Где-то видел, по-моему, тут, на хабре:
    "Цитата одной работы — плагиат. Цитата многих — научная работа."
    И не могу не согласиться. Система антиплагиат годится, по моему мнению, только для проверки того, что студенты не друг у друга посписывали в одном потоке.


  1. nfw
    12.09.2018 14:56

    Это все конечно хорошо, но по словам одного знакомого, он просто скопировал чужую теоретическую часть для дипломной, а чтобы пройти антиплагиат, просто добавлял в пустые места случайный текст белого цвета. Разумеется, никто электронный вариант не проверял, все смотрят только бумажный вариант. Правда, я, сам текст не видел, но и смысла врать ему тоже не вижу.


    1. yury_chekhovich Автор
      12.09.2018 14:57

      Если не смотреть в отчет, то и не такие варианты возможны. Мы же все-таки говорим о том, что инструмент надо использовать и использовать правильно.


  1. ManWithGun
    12.09.2018 14:57

    Big data накопится, и через 5 — 10 лет, как бы ты не переставлял слова, смешивая с другим языком, тебе не удастся написать хоть сколько нибудь уникальный текст. Мне кажется, что вскоре этот способ получения дивидендов будет закрыт по очевидной причине его абсолютной непригодности для применения на практике.


    1. yury_chekhovich Автор
      12.09.2018 14:58
      +1

      Договорились! Встречаемся здесь через 10 лет и я на спор пишу оригинальный текст.


      1. OldGrumbler
        12.09.2018 15:13

        на спор пишу оригинальный текст.


        Оригинальный текст, не являющийся выводом генератора случайных букв, осмысленный и раскрывающий заданную тему. Случайным образом взятую из какого-нить «банка рефератов» (или его вебархивной копии, буде банки к тому времени Вашими молитвами почиют).


        1. yury_chekhovich Автор
          12.09.2018 15:31

          Не готов раскрывать абсолютно любую тему. Я пишу по теме, попадающей в мою профессиональную область.


  1. akademik21
    12.09.2018 14:58

    Замечательная система «Антиплагиат». Только она тебе честно скажет, что текст, который ты только что взял из головы, оказывается уже на 40% плагиат. Ты ведь посмел использовать ускоспециализированные термины по теме.

    Спасибо, что я уже получил высшее.


    1. yury_chekhovich Автор
      12.09.2018 14:59

      Если вы действительно будете писать свой осмысленный текст, а не вспоминать, чьи-то фразы, то процент оригинальности будет близок к 100%.


      1. Rikkitik
        12.09.2018 18:27

        Ну да, ну да… У меня была диссертация, связанная со средовой реконструкцией в архитектурном проектировании. При этом каждое использование словосочетаний «реконструкция архитектурной среды», «градостроительные решения», «средовая реконструкция», «архитектурное проектирование» и им подобных было засчитано как плагиат. Просто без контекста. Словосочетания и термины, вырванные из предложения были помечены как списанные из каких-то совершенно левых статей из студопедии или какой-то другой помойки. Так что даже без цитирования полностью набранный из головы текст тянул где-то на 76%, а ведь ещё цитаты, определения и прочее неизбежное. Может, сейчас это не так работает, но тогда аж пар из ушей пошёл. В итоге пришлось играть в литературную игру «я не использую профессиональный жаргон». Из-за этого текст читался не на одном дыхании, зато был абсолютно лишён «воды».

        PS Особенно меня добило, что кто-то из моих студентов не поленился набрать и залить в рефератопомойку конспекты нескольких моих же лекций, и мне пришлось перефразировать собственный текст, чтобы не замараться связью с таким непотребством, как ноунейм-статьи.


        1. yury_chekhovich Автор
          12.09.2018 18:36

          1. Антиплагиат ничего не засчитывает «как плагиат» — это может сделать проверяющий.
          2. Просто за 1-2-3 слова Антиплагиат «не зацепит» источник. Должно было быть хотя бы значимое пересечение с каждым источником размером 1-2 предложения (для диссертации даже больше). Терминология «цеплялась» потом, когда АП сопоставлял полный текст диссера с найденными источниками. И там вполне могли вылезать эффекты, о которых вы говорите.
          А со студентами, заливающими на сайты конспекты лекций, — это, можно сказать, классика.


          1. Rikkitik
            12.09.2018 19:04

            «Помечены как плагиат» — это просто выделение красным с указанием ссылок на 15 статей, где это словосочетание тоже используется. Само собой, у меня хватило ума проверить текст дома, и это мои личные впечатления, так что к финальной версии никаких претензий у руководителя и рецензентов не было. А «подтянулся» весь мусор, скорее всего, из-за таких шаблонных вещей, как названия глав («ретроспективный анализ использования бла-бла-блы в зарубежной практике бла-бла-бления»), известных арх. объектов («ярким примером обострения проблемы такой-то в результате неудачной реконструкции является район такой-то в городе N-бурге, авторы Икс и Игрексон»), цитат (в том числе из моих статей и лекций). Потом в ходе сокращения текста оно всё незаметно само поотваливалось.


        1. Exchan-ge
          12.09.2018 23:38

          кто-то из моих студентов не поленился набрать и залить в рефератопомойку конспекты нескольких моих же лекций


          О, да! Есть такое явление. Стоит что-то выложить в электронной форме — и готово.
          Бонусы им за это начисляют, что ли?