Интернет-издательство «Контрольный листок»
Среда, 25.12.2024, 10:29
Меню сайта
Наш опрос
Оцените мой сайт
Всего ответов: 1167
Статистика

Онлайн всего: 1
Гостей: 1
Пользователей: 0
Форма входа

Контрольный листок, 2015, № 10
 
Актуальная тема
 
Использование систем антиплагиата в образовании

 

© Е. С.Чиркин

 

Страница 2, вернуться на страницу 1

 

Антиплагиат от ЗАО «Форексис». По опыту использования и декларируемой независимости от языка документа [38], вероятно, используется метод шинглов на основе N-грамм (возможно, триграмм). Согласно их форуму и отчетам, можно предположить, что дополнительно используется нормализация текста по словарю синонимов и нахождение плагиата локально имеет эффект триггера для защиты от ложных срабатываний.

Поверхностный анализ результатов экспертиз сообщества «Диссернет» показывает, что в них производится поиск по точным совпадениям по шинглам с L = 3.

Характеристики системы «Антиплагиат» от ЗАО «Форексис». Самой известной и, вероятно, самой крупной самостоятельной системой проверки на плагиат в России является «Антиплагиат» от ЗАО «Форексис». По [16] на 1 мая 2012 г. их база включает в себя:

- интернет-коллекция: свыше 40 млн существенно уникальных документов;

- коллекция полных текстов авторефератов и диссертаций РГБ: свыше 700 тыс. документов, в т. ч. практически все диссертации, защищенные в России с 2000 г.;

- коллекция нормативных и юридических документов Лекспро: свыше 7 млн.

Критика систем проверки на плагиат. Все претензии к системам антиплагиата можно свести к следующим основным положениям (приведены по порядку убывания количества претензий по каждому пункту).

1. Явное несовершенство. Не включая в себя последующие претензии, обычно данный пункт подразумевает незначительное наполнение баз, целые темы или даже отрасли не включены в базы системы, дается положительное заключение на работы, целиком списанные по 1-2-5 весьма старым источникам. Также данный пункт включает в себя ложные срабатывания по распространенным стилистическим и речевым оборотам. Особенно сильное возмущение вызывает срабатывание системы по стилевым оборотам, характерным для научной речи.

2. Учитываются служебные части документов. В зависимости от документа, от системы и времени проверки, проверка одного и того же документа, включающего либо не включающего список использованных источников, дает принципиальную разницу (более ±15 % найденных заимствований).

3. Обычно с течением времени «уникальность текста» падает. Чаще всего это связано с пополнением баз системы антиплагиата, однако в некоторых случаях - с изменениями алгоритма проверки.

4. Закрытость алгоритмов проверки. Закрытость алгоритмов работы не является принципиальным недостатком, однако ввиду их явного несовершенства они, скорее, являются проблемой для уникальных творческих и научных работ, чем для списанных, причем при изменении первых для успешной «проверки на плагиат» теряется их уникальность.

5. Закрытость баз. Закрытость баз (пусть даже и неполных) автоматически предполагает злоупотребления со стороны администрации системы антиплагиата или ответственных лиц по работе с ней.

6. Учет правомерных заимствований, учет самоцитирования. Ни одна из существующих в мире систем антиплагиата не учитывает правомерное заимствование, цитирование, самоцитирование (считает их, соответственно, плагиатом), а также следующие важные моменты:

- законченная научная работа предполагает промежуточные публикации, в которых содержатся ее основные положения, полученные в процессе работы над ней. На практике содержание промежуточных публикаций полностью и неоднократно покрывает основную работу. Строго говоря, это не совсем правильно, но это повсеместная практика;

- при работе ученого над одной темой в течение некоторого промежутка времени появляются, в терминах авторского права, производные произведения, основанные на одном или нескольких произведениях того же автора - возникает проблема самоцитирования и большого количества местами повторяющихся работ. Строго говоря, это, опять же, не совсем правильно, но это - результаты новых итераций работы, все результаты которой и не должны быть новыми;

- научная работа ведется по определенным принципам, полагающим, что в основе конкретной работы лежит идея, концепция, эксперимент, работа, кем-то когда-то где-то уже высказанная или выполненная, что в обязательном порядке предполагает ее цитату, пересказ или упоминание.

1) Высокие требования к работам. Конкретные цифры - см. ниже. Самый часто называемый минимально допустимый процент «оригинальности» работы - 80 % (для системы «Антиплагиат»). По опыту проверок, это очень высокая величина, достигнутая искусственным путем. Возможно, гуманитарная творческая работа типа школьного сочинения по литературному произведению способна показать столь высокий процент, но большинство уникальных научных работ, например, по информатике, покажет меньшую величину.

2) Некоторые типы работ подразумевают «плагиат» - в технических вузах есть работы, которые можно охарактеризовать как «повторить по образцу» - речь идет, например, о вычислительных задачах и расчетнографических работах, суть которых можно свести к «скопировать фрагмент методички, подставить числа из своего варианта, посчитать». Другой известный крайний вариант - работы юридической направленности, которые должны включать фрагменты законов. Разумеется, при проверках системами антиплагиата будет обнаружено 95-100 % плагиата.

3) Изменчивость алгоритма. Помимо того, что алгоритм закрыт, он еще и обычно меняется с течением времени, причем изменения могут быть как в сторону ужесточения проверки, так и в сторону смягчения требований. Это порождает определенное недовольство теми, для кого изменение оказалось принципиальным.

В дополнение, следует отметить повсеместное использование термина «оригинальность» («процент оригинальности» или «процент уникальности работы»), который подменяет собой изначальное значение данного слова и на самом деле означает лишь «не найдено в базе». Правильно употреблять, по означенной причине, слово «заимствование».

Критика системы «Антиплагиат» от ЗАО «Форексис». Система «Антиплагиат» от ЗАО «Форексис» ввиду систематического (с момента появления в 2005 г. [16]) наличия недостатков и ее известности в России (включая сотрудничество с вузами) удостоена дополнительной критики от общества и должностных лиц государства.

Критика № 1. Об единственном показателе «оригинальности» текста - «проценте оригинальности»: «Но ни в коем случае не должно быть механической стрижки под одну гребенку, тем более с использованием несовершенных систем контроля контента в диссертациях», - премьер-министр РФ Д.А. Медведев о системе «Антиплагиат» [22].

Критика № 2. Претензии по принципам организации работы и доступа по Д. Леванову [23]: а) неизвестно, как именно работает «Антиплагиат»; б) «Антиплагиат», будучи закрытой системой, позволяет манипулировать базами данных и исключать из баз диссертации.

Критика № 3. Почему именно «Антиплагиат»? «<...> Генпрокуратура России направила ответ на депутатский запрос Бурматова. «Документ уверил меня в мысли, что те вопросы, которые мы задавали в отношении законности деятельности этого ЗАО, были не напрасны. В частности, в своем ответе первый замгенпрокурора сообщает, что в ходе проверки, которую проводила прокуратура города Москвы, сотрудники ведомства в принципе не смогли обнаружить ЗАО «Антиплагиат» по месту его регистрации», - прокомментировал ситуацию Бурматов. <...> Бурматов считает, что в ходе судебного процесса станет известно, кто причастен к «лоббированию интересов» ЗАО «Антиплагиат». «Ливанову на суде придется объяснить, кто в минобре слал по вузам письма с требованием подключаться к услугам ЗАО, все встанет на свои места» [24].

Критика № 4. «На данном этапе идет уже не пересказ учебников своими словами, а тупой перебор различных формулировок одной и той же мысли, - какая пройдет. Сейчас студенческие работы представляют собой немыслимый бред, потому что нормальные формулировки на грамотном русском языке уже кто-то однажды использовал» [25].

Борьба с системами антиплагиата. Борьбу с системами антиплагиата можно разделить на два основных подхода - технический и нетехнический.

Технические методы включают в себя: замену букв одного алфавита на букву сходного начертания другого («а» русскую на «а» английскую), перекрашивание в цвет фона пробелов, отдельных букв, точек или других символов. Вставка невидимого текста. Добавление (орфографических) ошибок. Использование синонимайзеров (программ для автоматической или полуавтоматической замены слов на синонимы). Возможно использование уязвимостей в системах антиплагиата, приводящих к требуемому «проценту уникальности» текста (например, программы AntiPlagiatKiller). Более совершенный продукт (на момент своего создания) - AntiPlagiatKiller v2 анализирует текст и выводит рекомендации по изменению текста - такие, как убрать старое слово, добавить новое слово, «следует что-нибудь поменять» и др.

Достоинства технических методов обхода проверок на антиплагиат - их массовость, доступность, высокая скорость работы. Обычно технические методы обхода легко нейтрализуются создателями системы антипла- гита даже без получения в пользование соответствующего продукта. Но, опять же, на это требуется время, за которое получат положительное заключение множество работ.

Нетехнические способы обхода заключаются в переписывании текста. В настоящее время простейшие преобразования текста - соединение/разъединение предложений, перестановка слов местами, замена слов на синонимы, расшифровка сокращений или, наоборот, их использование, переписывание отдельных фрагментов - не оказывают значительного влияния на проверку. Говоря о переписывании, нельзя не упомянуть о поисковой оптимизации.

Поисковая оптимизация (searchengineoptimization) - комплекс мер по изменению формы и содержания (текста, веб-сайта) с целью повышения его позиции в выдаче поисковой системой. Помимо всего прочего включает в себя уникализацию текста и наполнение его ключевыми словами. Рерайтинг (rewriting) - переписывание текста с изменением формы изложения и сохранением оригинального смысла. Копирайтинг (copywriting) - профессиональное написание текстов (часто - рекламных). В SEO часто противопоставляется рерайтингу с точки зрения получения на выходе текста более высокого качества, с заданными наполнением и уникальностью.

Поисковая оптимизация существует более 15 лет. В настоящее время это целая индустрия, включающая в т. ч. обучение непосвященных. То есть в настоящее время существует множество руководств по переписыванию текстов непрофессионалами, по которым любое заинтересованное, никогда ранее не занимавшееся этим лицо может переписать текст, сделав его «уникальным». Разумеется, в данной индустрии существуют и услуги по «уникализации» текстов курсовых, дипломных и др. работ. Цены - от низких (30-100 руб./стра- ница [26] и 200 руб./работа [27]) до правдоподобных (5000-7000 руб./работа [27, 28]) при ручной обработке текста, скорость выполнения заказа - высокая.

Известные граничные значения проверок текстов через системы антиплагиата. В данном пункте собраны известные граничные значения из разных источников. Помимо этого, известна фраза «80 % оригинальности» (в контексте про систему «Антиплагиат»):

- положение об обеспечении самостоятельности выполнения письменных работ в МГУ им. М.В. Ломоносова на основе системы «Антиплагиат» [29] не содержит ни одной конкретной величины и отсылок на их существование;

- с форума студентов Современной гуманитарной академии: «скажите, правда что нужно получить не менее 70 % уникальности в антиплагиате? иначе из Москвы придет оценка 2??» [30];

- декан факультета социологии и политологии Финансового университета при Правительстве РФ Александр Шатилов: «Как правило, мы считаем, что когда «Антиплагиат» находит 70 % оригинального текста - это норма. Но учитывая постоянные сбои в работе программы, а также специфику некоторых тем нормой может быть и 50 %» [31];

- «без специального оформления фрагмента, полной и точной ссылки на источник, обширного объема заимствований (свыше 1500 печатных знаков)» из отчета, опубликованного на официальном сайте Росфиннадзора (отчет на сайте недоступен) - по статье «В НИОКР обнаружен научный плагиат на 160 миллионов рублей» от 19-01-2011 [32].

Замечание к последнему пункту: на одной странице формата A4 помещается, в зависимости от оформления, 1500-2000 знаков.

 

Разное

 

1. Согласно информационному сообщению по вопросам процедур защиты и проверки текстов диссертаций [33], ВАК РФ не пользуется системами антиплагиата. Оттуда же: «делать выводы о качестве научного исследования только по результатам компьютерной проверки невозможно и неправомерно» и «создание системы проверки использования заимствованного материала без ссылки на автора и (или) источник заимствования относится к полномочиям образовательной (научной) организации, на базе которой действует диссертационный совет, и осуществляется в инициативном порядке».

2. Изучая системы антиплагиата, можно обоснованно сделать вывод, что не все их разработчики подозревают о существовании много байтовых кодировок, манипулируя отдельными служебными символами которых, в специфичных случаях, возможно создание эффективных технических средств обхода систем антиплагиата.

3. С появлением централизованных баз с контрольными, курсовыми, дипломными, диссертациями существует следующая опасность автоматизированной проверки работ на наличие плагиата. Дело в том, что работы, логично предположить, должны храниться в их оригинальном виде - в том виде, в котором они создавались. Вероятно, это будет один из шести самых распространенных форматов (т. н. «форматы» файлов .doc, .docx, .rtf, .pdf, .odt или специально предназначенный для архивного хранения документов формат PDF/A). Общеизвестно, что в файлах форматов PDF [34] (в т. ч. PDF/A [35, 36]), а также DjVu [37] текстовый слой отделен от его представления, аналогичного назначения манипуляцию можно произвести и с другими форматами (но в них это сложнее). Таким образом, не представляет особой сложности создание документов специального формата, имеющих разное видимое (напечатанное) и текстовое (индексируемое) представления. Более того, учитывая поведение программ для распозна-вания символов [38], вероятно предположить, что этот же специальный текстовый слой и будет использован для проверки документа системой антиплагиата вместо распознавания страницы (выход один - проверять только отсканированные печатные работы либо текст, но с доработкой проблемы из предыдущего пункта).

 

Заключение

 

Следует напомнить, что факт плагиата устанавливается через суд, согласно действующему законодательству в области авторского и смежного права. Краткие выводы по работе:

1. Учитывая складывающуюся в стране ситуацию, использовать какую-либо систему проверки на плагиат (даже со всеми ее недостатками) - необходимо.

2. Используемая обычно методика проверки через «Антиплагиат» (от ЗАО «Форексис») в виде единого «процента» неприменима, требуется выработка более совершенных критериев, включающих в себя отношение к служебному содержимому документов (титульный лист, содержание, введение - выводы - заключение, список источников, приложения), к объему документов, стилистике речи, отрасли науки и др.

3. Учитывая принципы работы, особенности совершенствования систем антиплагиат и наполнения их баз, результаты повторных проверок, не связанные с апелляцией оценки или повторной защитой работы, не должны иметь обратной силы.

4. Обязателен контроль качества текста (особое внимание - научной стилистике и семантической грамотности) со стороны преподавателей по причине сложившейся индустрии рерайтинга и копирайтинга текстов, включающей обучение не вовлеченных в нее лиц (см. критику № 4).

5. Алгоритм применяемой системы антиплагиата должен быть подстроен под применяемую отрасль, что, в свою очередь, при правильном подходе привлекает все сопутствующие проблемы экспертных систем и машинного обучения - выбор экспертов и подготовка ими обучающей и контрольных наборов документов, а также создание или выбор адекватного по быстродействию алгоритма.

6. Даже в простейшем случае система антиплагиата должна оперировать семантическими или смысловыми единицами как противодействие переработке текстов с использованием аббревиатур и сокращений (для естественно-технических наук) и переформулировок (для гуманитарных наук).

Базовые рекомендации по повышению качества работ:

1) необходимо привитие культуры правомерного заимствования: использование соответствующих норм русского языка (помещение текста в кавычки, указание ссылки на источник в квадратных скобках после цитаты (для будущих систем)) и прикладных технологий (например, использование HTML-тегов <Q> и <BLOCKQUOTE> везде, где это следует), использование, по возможности, первоисточников;

2) в учебных работах следует придерживаться мнения, что синтетическая работа реферативного типа по множеству источников, состоящая из большого количества цитат и, возможно, имеющая не очень значительную самостоятельную ценность, лучше скомпилированной по одной-двум другим работам;

3) повышение качества учебных работ возможно за счет снижения требований по величине их объема: использование ссылок и цитирования в минимально достаточном объеме;

4) следует повышать оригинальность работ с точки зрения (научной) новизны и отсутствия аналогов.

 

Список источников (в ПДФ) можно посмотреть здесь

 

Страница 2, вернуться на страницу 1

 

В оглавление номера

Поиск
Календарь
«  Декабрь 2024  »
ПнВтСрЧтПтСбВс
      1
2345678
9101112131415
16171819202122
23242526272829
3031
Архив записей
Друзья сайта
  • Официальный блог
  • Сообщество uCoz
  • FAQ по системе
  • Инструкции для uCoz
  • Издательство «Контрольный листок» © 2024 Бесплатный хостинг uCoz