«Контрольный листок»: образование, культура, общество - Тестирование как искажение результатов

Дипломный проект, 2013, № 8

Дискуссионный клуб

Искажение результатов объективных тестов: источники и способы выявления

© К.В. Сугоняев

К объективным относят такие тесты, в которых возможен правильный ответ (соответственно, все прочие считаются ошибочными). Измеряемые ими психологические характеристики относятся к категории общих (интеллектуальных) и специальных способностей (в англоязычной литературе – abilities, aptitudes).

В настоящей статье рассматриваются ситуации, связанные с систематическими тестовыми ошибками, снижающими валидность измерения, источником которых является исключительно респондент (обследуемый). Таким образом, предполагается, что:

· тест сконструирован и отнормирован надлежащим образом и его валидность доказана;

· процедура проведения тестирования единообразна для всех испытуемых, т.е. используются одинаковые и качественные тестовые материалы или технические средства; проводится одинаковый и четкий инструктаж (включающий, в том числе, мотивирующую часть, призванную добиться от испытуемого сотрудничества и соответствия их реакций целям тестирования); четко соблюдается временной регламент; минимизируются помехи и отвлекающие факторы и т.п.

Тем не менее, даже если все эти условия соблюдены, остается вероятность искажения тестовых результатов и получения неадекватных тестовых оценок, особенно в ситуациях психодиагностической экспертизы.

Помимо намеренных искажений результатов, о которых речь пойдет ниже, имеются общие факторы, влияющие на результаты тестирования вне зависимости от типа применяемого теста, это – тестовая искушенность и тестовая тревожность.

Тестовая искушенность, т.е. приобретение обширной практики выполнения тестов, дает лицу, обладающему такими навыками, определенные преимущества перед теми, кто участвует в тестировании впервые. Отчасти это связано с более позитивным отношением к тестированию и развившейся уверенности в себе, отчасти – с тем, что содержание и форма многих тестов перекрываются. Данная проблема обостряется в тех случаях, когда возникает необходимость интерпретации результатов тестирования, например, урбанизированной молодежи и аналогичных результатов, полученных при обследовании жителей сельских районов или компактно проживающих национальных меньшинств.

Разработка специальных тестовых норм для меньшинств не решает проблемы, так как требует значительных затрат и не имеет конечного решения в условиях столь разнообразной по культурным и географическим условиям страны, как Россия. Более продуктивным в данной ситуации может быть разработка специальных ознакомительных материалов (печатных, мультимедийных) и их доведение до менее искушенных категорий обследуемых, что позволило бы нивелировать различия в предшествующем опыте тестируемых. Например, в США издаются специальные материалы, призванные помочь потенциальным респондентам подготовиться к прохождению таких массовых тестовых батарей, как SAT, ASVAB, GATB и др. ([1], с.41-42). Неоднократно продемонстрировано, что такого рода подготовка к тестированию, хотя и несколько снижает дисперсию результатов, не оказывает существенного влияния на валидность тестов [2-4].

Тестовая тревожность, по крайне мере отчасти, может быть следствием недостаточной тестовой искушенности. В структуре тестовой тревожности выделяют 2 компонента: аффективный (эмоциональность) и когнитивный (озабоченность). Эмоциональный компонент охватывает чувства и физиологические реакции, такие как напряжение и увеличение частоты сердечных сокращений. Озабоченность включает негативные мысли (такие, как ожидание неудачи при выполнении теста и озабоченность последствиями провала), отвлекающие тестируемого от заданий теста и тем самым нарушающие его выполнение.

Считается, что связь между тревожностью и результатами тестирования носит нелинейный характер: умеренная тревога благотворно сказывается на результативности, тогда как сильная – пагубно. Если задача обследования состоит в возможно более точной оценке психологических характеристик, не связанных с эмоциональной устойчивостью, необходимо предпринять усилия, направленные на предварительное ознакомление кандидата с предстоящей процедурой и устранение излишних эмоций (например, ободряющий инструктаж). Если же одной из задач тестирования является скрининг лиц с чрезмерным уровнем тревожности, то снижение тестовых результатов (прежде всего, при выполнении тестов способностей) может оказаться артефактом, созвучным с целями обследования (хотя и затрудняющим точную интерпретацию его результатов).

Можно ожидать некоторого выравнивания тестовой искушенности и снижения тестовой тревожности кандидатов в результате повсеместного внедрения в практику среднего образования Единого государственного экзамена (ЕГЭ), формат которого мало чем отличается от формата большинства объективных тестов, применяемых при отборе. Следует также учитывать, что абсолютное большинство юношей в рамках процедур первоначальной постановки на воинский учет подвергаются тестированию и, таким образом, приобретают дополнительный опыт выполнения психологических тестов и вытекающие из этого некоторые преимущества перед девушками. В настоящее время издается также немалое количество популярных брошюр на тему «как пройти тестирование», этой же цели посвящен ряд Интернет-сайтов, однако они, в силу ограниченности их тиражей и доступности, скорее увеличивают неравенство кандидатов, чем устраняют его. Вместе с тем, закрепление практики психологического тестирования при отборе на престижные позиции в государственном и частном секторе без сомнения приведет к росту интереса граждан к подобной информации, так что уже в самое ближайшее время следует ожидать обострения проблем, связанных с утечкой конфиденциальной информации о содержании тестовых процедур, таких как неравная готовность кандидатов к тестированию и снижение валидности тестов, применяемых в течение длительного времени.

Возможности выявления намеренных искажений результатов обследования при использовании неавтоматизированных методов тестирования крайне ограничены и их обсуждение в настоящее время лишено практического смысла. Поэтому материал, изложенный ниже, посвящен методам выявления искажений результатов тестирования, которое полностью или на этапе обработки первичных данных компьютеризировано.

Хотя среди тестов способностей встречаются методики с открытыми ответами, наибольшее распространение в экспертных обследованиях – в связи большей простотой обработки – приобрели все же тесты с закрытым форматом ответов, который предусматривает наличие в каждом пункте нескольких вариантов ответа, лишь один из которых является правильным. Также для экспертной психодиагностики характерна тенденция применять объективные тесты с лимитированным временем выполнения. Абсолютное большинство объективных тестов являются монометрическими, т.е. каждый из них оценивает лишь одно качество (способность). Эта оценка традиционно рассчитывается как суммарное число правильно решенных заданий теста (Nпр.), причем за каждое правильное решение присуждается 1 балл. Обычно предполагается, что чем больше Nпр., тем выше уровень развития измеряемой способности. Однако это справедливо лишь в том случае если испытуемый: а) внутренне мотивирован на достижение наилучшего результата по тесту; б) не имел доступа к отборочным тестовым материалам, включая ключи, т.е. не проходил предварительного натаскивания (coaching) на выполнение данных тестов.

Отсутствие мотивации к наилучшему выполнению теста проявляется обычно в хаотической, бездумной тактике реагирования на пункты. При этом – в силу законов вероятности – такой недобросовестный респондент набирает Nпр., близкое к Nотв./α, где Nотв. – общее количество отреагированных пунктов, α – среднее число альтернатив (вариантов ответа) в тестовом пункте. Как правило, это приводит к низкой результативности выполнения объективного теста и вытекающей из этого отбраковки кандидата. Однако при определенном сочетании условий подобная тактика может дать применившему ее лицу выигрыш, а именно:

· в тесте установлен слишком жесткий лимит времени, который не соответствует либо относительно высокой трудности теста, либо чрезмерно большому количеству пунктов;

· количество альтернатив в тесте относительно невелико.

Обычно при этом средние тестовые оценки в выборке стандартизации смещены в область низких значений (меньше N/2, где N – количество пунктов в тесте).

Добросовестно выполняющий подобный тест испытуемый обычно за отведенное время успевает ответить лишь на часть пунктов, тогда как реагирующий хаотически дает ответы на все (или почти все) пункты и набирает Nпр. ≈ N/α, которое может оказаться выше «срезающей» оценки. В результате данный индивид имеет шанс успешно пройти процедуру отбора.

Пример представления результата подобного выполнения объективного теста представлен на рисунке. Полученный испытуемым результат – 3 стэна по показателю продуктивности (суммарному числу правильно решенных задач) – превышает «срезающую» оценку (2 стэна), так что испытуемый с таким результатом не будет отсеян.

Таким образом, данный стиль реагирования создает проблему различения лиц со средним или ниже среднего (но все-таки, «проходным») уровнем развития способности от тех, кто либо обладает реально низким уровнем способности, либо – обладая неизвестным уровнем способности – не имеет мотивации к прохождению отборочной процедуры. Реконструирование теста (увеличение лимитного времени или сокращение числа пунктов, включение в состав теста менее сложных пунктов) позволяет минимизировать область перекрытия этих групп испытуемых, однако технически это не всегда возможно. В последнем случае защитится от ошибки второго рода (зачисления непригодного) можно с помощью более «интеллектуальных» способов оценивания тестовых результатов, некоторые из которых представлены в верхней части таблицы 1.

Использование диалогового формата обследования значительно облегчает выявление недостоверных данных, так как при этом анализу доступна информация о времени, затраченном на решение каждого задания. Возможности использования этой дополнительной информации в интересах выявления недостоверных данных представлены в нижней части таблицы 1.

Наибольшей различительной мощностью обладают меры сопряженности вероятности правильного ответа (и его латентности) с трудностью пунктов (т.е. вероятностью его решения на репрезентативной выборке стандартизации). Все прочие признаки хотя и не являются патогномоничными, но в совокупности позволяют достичь достаточно высокой точности определения хаотической тактики реагирования и лишить прибегающих к ней лиц незаслуженных преимуществ при вынесении экспертных решений. В настоящее время соответствующие механизмы реализованы в компьютерных психодиагностических комплексах ряда «Мультипсихометр» (НПЦ «ДИП»).

Натаскивание на выполнение теста (coaching) является значительно более серьезной проблемой: если описанная выше тактика хаотического реагирования дает лишь незначительный шанс на прохождение отбора, то результатом натаскивания должно стать, по замыслу прибегающего к ней кандидата, получение гарантированно высокой оценки профпригодности.

Таким образом, в данном случае имеет место не стилистическая особенность реагирования на тест, а проявление более глобальной поведенческой характеристики, имеющей отношение к нравственно-этическим убеждениям личности. Эксперт должен отдавать себе отчет в том, что успешное прохождение подобными лицами отборочной процедуры создает предпосылки для последующих проявлений ими морального релятивизма и в других ситуациях и – если таких сотрудников окажется достаточно много – к размыванию корпоративной этики. В любом случае подобное тестовое поведение должно быть идентифицировано. Задача в этом случае состоит в различении «натасканных» респондентов от лиц с реально высокими уровнями развития способности.

Натаскивание может иметь два уровня. Поверхностный (и потенциально имеющий более деструктивные последствия в случае необнаружения) сводится к заучиванию тестовых «ключей», иногда – даже использованию «шпаргалок». Более серьезное натаскивание предусматривает заучивание решений для каждого тестового задания, однако оно само по себе предполагает наличие у кандидата достаточно высокого уровня памяти и сообразительности, поэтому может рассматриваться как проявление высокой мотивации достижения (возможно, сочетающейся с повышенной тревожностью).

Тестовый протокол в случае натаскивания характеризуется тем, что ответы даны на все или почти все пункты; абсолютное большинство из них – правильные.

При использовании бланкового формата обследования надежных признаков, позволяющих отличить выполнение теста «натасканным» респондентом от результатов индивида с высоким уровнем способности, нет. Косвенными признаками, которые должны насторожить эксперта, являются: а) исключительно высокие результаты теста, в том числе наличие правильных ответов на максимально трудные пункты, на которые правильные ответы даются крайне редко; б) отсутствие связи между локализацией отдельных ошибочных ответов (если они все же встречаются) с их трудностью. Однако рассчитать статистически значимые индексы несоответствия в этом случае обычно не удается.

Контроль достоверности результатов в этом случае осуществляется с помощью ряда дополнительных мер:

· результаты лиц, продемонстрировавших исключительно высокие результаты выполнения объективных тестов, следует сопоставить со средним баллом аттестата (диплома) или иных показателей успешности предшествующего обучения;

· испытуемому может быть предложен дополнительный по отношению к стандартной тестовой батарее и близкий по содержанию тест достаточно высокого уровня сложности.

Существенное расхождение между оценками, полученными в ходе «планового» обследования, и контрольными (дополнительными) оценками с высокой вероятностью указывает на факт натаскивания.

Достаточно эффективным методом противодействия поверхностному натаскиванию при диалоговом тестировании является простая рандомизация порядка предъявления заданий. При бланковом обследовании аналогичную задачу могут выполнять параллельные формы одного и того же теста, однако их разработка, доказательство эквивалентности и применение в составе единой регламентированной тестовой батареи сопряжены с определенными техническими сложностями.

В случае диалогового формата обследования – даже в отсутствие рандомизации – задача выявления натаскивания упрощается, так как некоторые его признаки совпадают с таковыми при хаотическом реагировании (см. нижнюю часть табл. 1) и выявляются аналогичным образом.

Радикальное решение, практически лишающее натаскивание какого-либо смысла, состоит в разработке адаптивных версий объективных тестов, в которых и последовательность предъявления, и сам набор заданий индивидуализированы.

Применение в тестировании современного психодиагностического инструментария, обеспечивающего надежное выявление недостоверных тестовых результатов и адекватное реагирование на факт их появления, не только позволит предотвратить зачисление кандидатов, не обладающих требуемыми характеристиками, но и будет способствовать повышению качественного уровня потенциальных кандидатов, а также формированию их отношения к процедуре отбора как справедливой и объективной [5].

Литература

1. Анастази А., Урбина С. Психологическое тестирование / 7-е международное издание. – СПб.: Питер, 2003, c. 409-414.

2. Palmer D.R., Busciglio H.H. Coaching on the ASVAB: Analysis of posttest questionnaire responses // Military Psychology, 1996, V.8, N.4, p.267-278.

3. Te Nijenhuis J., Voskuijl O.F., Schijve N.B. Practice and coaching on IQ tests: Quite a lot of g // International Journal of Selection & Assessment, 2001, V.9, N.4, p.302-308.

4.Powers D.E. Coaching for the SAT: A summary of the summaries and an update // Educational Measurement: Issues and Practice, 1993, V.12, N.1, p.24-39.

5.Hausknecht J.P., Day D.V., Thomas S.C. Applicant reactions to selection procedures: An updated model and meta-analysis // Personnel Psychology, 2004, V.57, N.3, p.639-683.

В оглавление номера