46 ошибки по заповеди тестирования психологические аспекты тестирования

3.2.1. основные правила тестирования в рамках комплексного психологического обследования ребенка в психодиагностике вопросу о правилах тестирования придается чрезвычайно большое значение,

3.2.1. основные правила тестирования в рамках комплексного психологического обследования ребенка

В психодиагностике вопросу о правилах тестирования придается чрезвычайно большое значение, так как объективность оценки ответов или результатов действий испытуемого в огромной степени зависит от соблюдения полного единообразия условий тестирования [29; 33; 36]. Суть теста — в своего рода «заочном» сравнении результатов обследуемого ребенка (или взрослого) с результатами, полученными на выборке испытуемых, с помощью которых производилась стандартизация данного теста и были получены его нормы. Сравнительная природа тестовых методик диктует специфические особенности их применения. Сформулировано несколько обязательных правил обследования детей с помощью стандартизованных методик.

Первым правилом (заповедью) всех тестологов является правило, согласно которому нельзя менять инструкции, материалы, время, отведенное для решения теста, или вносить в стандартизованную процедуру какие-либо другие изменения, даже, казалось бы, естественно «подсказываемые» конкретной ситуацией. Требуется строго одинаковое, единообразное предъявление заданий всем испытуемым, вплоть до сохранения одинаковой интонации в инструкциях [29; 215]. Тем более нельзя делать никаких пояснений или задавать наводящие вопросы, помимо тех, возможность которых специально предусмотрена и оговорена в описании процедуры теста. При проведении теста не следует даже несколько раз повторять вопрос в случае, когда ребенок не понял его с первого раза, если такая возможность специально не оговорена в инструкции к методике. Чем же диктуются столь «неудобные» для практики применения тестовых методик ограничения, которые начинающим психологам часто кажутся необязательными?

Помимо необходимости соблюдения равенства условий тестирования для всех, кто его проходит, абсолютная недопустимость произвольного видоизменения инструкций обосновывается авторами тестов также и тем, что очень многие из них построены как «тесты выполнения инструкций», например шкала Стенфорд—Бине и многие другие. Поясняя это обстоятельство, С.Берт писал, что важно знать, как ребенок реагирует на определенные стандартные формулировки, а не только то, как он выполняет определенные операции [193]. Сказанное правомерно в отношении не только старых, но и многих современных тестов. К примеру, в шкале Стенфорд—Бине ребенку дается задание: «Составь предложение из трех таких слов…». Считается неправомерным даже столь простое пояснение инструкции: «Скажи так, чтобы были использованы эти три слова», поскольку во второй формулировке опущено слово «предложение» и понимание задания облегчилось. Тем более недопустимо объяснять отдельные слова, входящие в инструкции к заданиям, или сами задания. Буквальной точности воспроизведения стандартных инструкций к тестам придается настолько большое значение, что в отношении начинающих психологов считается предпочтительным зачитывать инструкции, лишь бы не вносить в них каких-либо не предусмотренных изменений [215].

Второе важное правило тестового варианта обследования, существенно отличающее его от клинического, заключается в том, что в ходе выполнения теста ребенка нельзя ни учить, ни критиковать, ни даже усиленно хвалить. Это объясняется тем, что критика сбивает и расстраивает, зачастую резко снижая интерес ребенка к заданию. Замечания могут сильно изменить отношение ребенка к последующим тестам, они преждевременно истощают интерес, внимание ребенка. Каковы бы ни были ответы и решения ребенка, психолог должен сопровождать их сдержанным одобрением, кроме тех случаев, когда аналогичное задание повторяется и, таким образом, одобрение неправильного решения может вызвать повторение ошибки. Считается, что ребенка можно хвалить за его старание, но не за сами ответы или результаты решения. В целом же следует стремиться к тому, чтобы ребенок не имел представления о допущенных им ошибках. Если ребенок настаивает на том, чтобы ему сообщили оценку его ответов, нужно пообещать это сделать в конце обследования [там же].

Третье общее правило предписывает с особым вниманием относиться к эмоциональному и физическому состоянию ребенка: обследование проводится только в том случае, если ребенок хорошо себя чувствует, у него нет признаков утомления, излишнего волнения, проявлений упрямства и т.д. Как писал С. Берт, «психолог не должен забывать, что любой интеллектуальный тест — это одновременно и тест эмоциональный. Игнорирование эмоционального аспекта может привести к тому, что многие нормальные дети окажутся в специальных учреждениях» [193, с. 15]. В связи с этим рекомендуется отмечать, например, такие особенности эмоционального реагирования ребенка в процессе тестирования: испытывает ли он радость или даже гордость от решения задачи; проявляет ли любопытство или, напротив, безразличие; относится ли с доверием к экспериментатору или, напротив, у него преобладают негативные эмоции — тревожность, страх, огорчение, неудовольствие, ощущение неуспеха и т.д. Данные такого рода не входят прямо в оценку по стандартизованной процедуре, но учитываются при интерпретации полученных оценок. К примеру, низкие результаты могут быть представлены как следствие неадекватной или недостаточной мотивации, что предполагает повторную проверку.

Важные вопросы возникают по поводу порядка предъявления различных заданий в процессе обследования. Поскольку первые тесты должны снять возможное волнение и эмоциональную напряженность ребенка, а также вызвать интерес к обследованию, маленьким детям целесообразно предлагать задания с ярким материалом или картинками. Тесты на запоминание фраз, цифр и другого аналогичного материала надо давать после того, как ребенок привыкнет к голосу экспериментатора. Тесты, требующие особого напряжения внимания, не следует предлагать в конце обследования. Длительность одного сеанса обследования дошкольников обычно не должна превышать 40—50 мин. В случае необходимости предпочтительнее разделить обследование на два-три сеанса, но не перегружать ребенка. Методические материалы следует держать закрытыми от ребенка и показывать их только по мере необходимости. Для этого нужен экран или отдельный столик. Не следует также позволять играть принадлежностями методик.

Тестологи настоятельно рекомендуют избегать присутствия взрослых в процессе тестирования ребенка, в том числе родителей или других близких. Исключения, разумеется, составляют те случаи, когда ребенок категорически отказывается расстаться с ними. Присутствующим запрещается как-либо реагировать на ответы ребенка, вмешиваться в процедуру обследования. Лучше всего, чтобы ребенок сидел к ним спиной. В целом же вопрос о присутствии родителей при обследовании ребенка в консультации решается по-разному в зависимости от возраста детей, характера проблем и некоторых других условий. Оптимальным представляется сочетание трех возможных вариантов: беседы психолога с ребенком один на один, специальных проб на совместную деятельность ребенка с родителями и выполнения ребенком определенных заданий в присутствии родителей, имеющих возможность в этом случае наблюдать за происходящим, никак, однако, в него не вмешиваясь. В последнем случае родители получают уникальную возможность по-новому, как бы со стороны, увидеть своего ребенка, лучше понять его мысли, чувства, отношения к значимым проблемам и лицам. В целом это дает весьма важный материал для более глубокого и содержательного обсуждения психологом с родителями трудностей ребенка.

Обобщая многочисленные правила и рекомендации относительно условий тестирования, А. Анастази подчеркивает три главных требования: «Во-первых, необходимо следовать процедурам стандартизации даже в самых незначительных подробностях… Во-вторых, следует регистрировать любые нестандартные условия тестирования, какими бы второстепенными они ни казались В-третьих, при интерпретации результатов теста важно учитывать условия тестирования. При подробном обследовании личности методом индивидуального тестирования опытный экспериментатор иногда отступает от стандартной процедуры проведения теста с тем, чтобы выявить дополнительные данные. Поступив таким образом, он теряет право интерпретировать ответы испытуемого в соответствии с тестовыми нормами. В этом случае тестовые задания используются только для качественного исследования; и ответы испытуемых необходимо рассматривать точно так же, как любые другие неформальные наблюдения за их поведением или данные интервью» [7, т. 1, с. 41].

Таким образом, весьма жесткие требования к корректности применения тестов накладывают серьезные ограничения на возможности их практического использования в консультативном обследовании ребенка. Большими преимуществами в этом плане обладают методики клинического типа.

3.2.2. Особенности стратегии клинического обследования ребенка

Рассмотрим далее особенности клинического варианта обследования. В современной психологической литературе (особенно после работ Ж. Пиаже, исследовавшего развитие интеллекта на основе клинического метода) понятия «клинический метод», «клинический подход» и т.д. употребляется в гораздо более широком значении, чем «ориентированный на патологию». Клинический подход направлен на интенсивное, качественное и целостное изучение отдельных индивидуальных случаев. По нескольким существенным характеристикам он противоположен стандартизованным процедурам тестового обследования и имеет как свои преимущества, так и сложности. В отечественной психологии имеются прочные традиции в разработке вопросов клинического метода исследования [36]. Несмотря на то что соответствующие руководства касаются главным образом проблем детской патопсихологии, представленный в них опыт чрезвычайно полезен для изучения индивидуальных случаев и в пределах нормы [112; 139]. Сопоставим основные черты тестового и клинического вариантов обследования.

Как уже подчеркивалось, тестовое обследование базируется на жестко фиксированном способе получения данных, предполагает однозначно формулируемую инструкцию, оценку успешности выполнения заданий за строго ограниченный период времени (в большинстве тестов), специальные количественные показатели и т.д. В то же время клинический подход делает акцент на качественном анализе ответов и действий ребенка. Это означает анализ способов выполнения испытуемым заданий, учет характера и причин ошибок испытуемого, определение возможностей их устранения в результате модификации задания или оказания ребенку определенного рода помощи. Указанная направленность клинического обследования предполагает совершенно иную (по сравнению с проведением теста) позицию экспериментатора — активную и гибкую, а не нейтральную. По существу, психолог стремится к реализации принципов взаимодействия с ребенком, активного сотрудничества, а не просто к нейтрально-доброжелательному опросу с целью выяснения имеющихся знаний.

В силу этого при клиническом типе обследования не только допускается, но и специально широко используется изменение инструкций в заданиях — их пояснение, уточнение, помощь разной степени развернутости и полноты и т. д. В результате это позволяет оценить такую важную характеристику психического развития ребенка, как его обучаемость, в частности способность к переносу вновь усвоенного элемента на решение последующего задания, способность к самостоятельному применению того, что было усвоено при помощи взрослого.

В ходе клинического обследования практикуется отказ от ограничений испытуемого во времени (при сохранении учета этой характеристики). Кроме того, если при проведении теста ребенка не только нельзя учить, но и делать ему какие-либо замечания или активно подбадривать, то при клиническом обследовании, напротив, это обязательные и важнейшие приемы получения информации. Таким образом выясняются критичность ребенка к своим ошибкам, особенности мотивации, самооценки и т.д. Реакция на замечание, например, может обнаружить эмоциональную устойчивость ребенка и другие важные характеристики.

Снимая жесткую фиксированность и регламентацию теста, клиническая процедура позволяет психологу прицельно и гибко реагировать на все ответы ребенка. В клиническом варианте можно эффективно использовать самые различные задания, в том числе взятые из известных тестов. Теряя в этом случае право применять количественные нормы, психолог получает возможность гибко варьировать ранжированными по сложности заданиями.

Клиническое обследование предполагает умение экспериментатора фиксировать не только результат выполнения задания, но и многообразные качественные особенности психической деятельности ребенка, проявляющиеся при этом. Одно и то же задание Может обнаружить и особенности внимания испытуемого, и организованность его деятельности, и его работоспособность, и многие другие качества. Возможность разностороннего анализа составляет важное преимущество клинического обследования. Однако, как справедливо подчеркивают многие исследователи, это преимущество может проявиться только при условии значительного опыта и высокой квалификации психолога, позволяющих ему одновременно видеть и фиксировать разные качества деятельности ребенка [100].

В практике консультативной работы оптимальной стратегией представляется гибкое сочетание психометрического и клинического методов в процессе обследования. Такое сочетание позволяет не только получить разностороннюю характеристику развития ребенка, но и решить задачу верификации слабо формализованных методик, требующих от психолога большого опыта и высокой квалификации, результатами стандартизированных процедур.

Тестирование ПС
— это процесс выполнения его программ
на некотором наборе данных, для которого
заранее известен результат применения
или известны правила поведения этих
программ. Указанный набор данных
называется тестовым или просто тестом.
Таким образом, отладку можно представить
в виде многократного повторения трех
процессов: тестирования, в результате
которого может быть констатировано
наличие в ПС ошибки, поиска места ошибки
в программах и документации ПС и
редактирования программ и документации
с целью устранения обнаруженной ошибки.

Тестирование –
процесс многократного повторения
программы с целью обнаружения ошибок.
Тестирование – составная часть отладки.

Заповеди, предложенные
Майерсом, по тестированию ПС.

  • Заповедь 1. Считайте
    тестирование ключевой задачей разработки
    ПС, поручайте его самым квалифицированным
    и одаренным программистам; нежелательно
    тестировать свою собственную программу;

  • Заповедь 2. Хорош
    тот тест, для которого высока вероятность
    обнаружить ошибку, а не тот, который
    демонстрирует правильную работу
    программы;

  • Заповедь 3. Готовьте
    тесты как для правильных, так и для
    неправильных данных;

  • Заповедь 4.
    Документируйте пропуск тестов через
    компьютер; детально изучайте результаты
    каждого теста; избегайте тестов, пропуск
    которых нельзя повторить;

  • Заповедь 5. Каждый
    модуль подключайте к программе только
    один раз; никогда не изменяйте программу,
    чтобы облегчить ее тестирование;

  • Заповедь 6.
    Пропускайте заново все тесты, связанные
    с проверкой работы какой-либо программы
    ПС или ее взаимодействия с другими
    программами, если в нее были внесены
    изменения (например, в результате
    устранения ошибки).

Существуют следующие
методы тестирования ПС:

  1. Статическое
    тестирование – ручная проверка программы
    за столом.

  2. Детерминированное
    тестирование – при различных комбинациях
    исходных данных.

  3. Стохастическое
    – исходные данные выбираются произвольно,
    на выходе определяется качественное
    совпадение результатов или примерная
    оценка.

Имеется два подхода
к тестированию:

  1. Структурное
    тестирование – метод «белого ящика»,
    тестируется логика программы, внутренняя
    структура программы.

  2. Функциональное
    тестирование – метод «черного ящика»-
    тестируется спецификация, т.е. вход/выход
    без учета знаний о ее структуре.

Структурное
тестирование

При данном подходе
считается, что текст программы виден
(белый ящик).

Тестируются блоки
ветвлений, циклы и т.д.

Существует несколько
типов структурного тестирования:

  • покрытие операторов;

  • покрытие решений;

  • покрытие решений
    / условий;

  • комбинаторное
    покрытие условий;

  • тестирование
    циклов.

Функциональное
тестирование

При данном подходе
считается, что текст программы не виден,
и программа рассматривается как черный
ящик, т.е. известны входные и выходные
условия, а также общая схема работы.
Программа проверятся по ее спецификациям.

Существуют несколько
видов функционального тестирования:

  • эквивалентные
    классы;

  • анализ граничных
    значений;

  • тестирование на
    предельных нагрузках;

  • тестирование на
    предельных объемах;

  • тестирование
    защиты;

  • эксплуатация
    системы самим разработчиком (если
    возможно);

  • опытная эксплуатация.

35 Тестирование
модулей: тестирование путей, структур
управления, ветвлений, специальных
значений (примеры).

  1. Тестирование
    путей — самая подробная проверка —
    должны быть выялены всевозможные пути
    прохождения по модулю;

рисунок

  1. Тестирование
    структуры управления;

При тестировании
управляющих структур считается, что
одного прохода по циклу достаточно.

  1. Тестирование
    ветвлений — анализируются точки
    ветвления управляющего графа;

  2. Тестирование
    специальных значений — деление на
    ноль, потеря значимости и так далее;

36 Автономная
отладка ПС. Комплексная отладка ПС.

В нашей стране
различаются два основных вида отладки
(включая тестирование): автономную и
комплексную отладку ПС.

Автономная отладка
ПС означает последовательное раздельное
тестирование различных частей программ,
входящих в ПС, с поиском и исправлением
в них фиксируемых при тестировании
ошибок. Она фактически включает отладку
каждого программного модуля и отладку
сопряжения модулей.

Автономная отладка
ПС — последовательное раздельное
тестирование различных частей программ
с поиском и исправлением в них фиксируемых
при тестировании ошибок. Комплексная
отладка — тестирование ПС в целом с
поиском и исправлением фиксируемых при
тестировании ошибок во всех документах.

При автономной
отладке тестируется всегда некоторая
программа (тестируемая программа),
построенная специально для тестирования
отлаживаемого модуля. В процессе
автономной отладки ПС производится
наращивание тестируемой программы
отлаженными модулями (интеграция
программы).

При восходящем
тестировании окружение содержит только
один отладочный модуль, головной в
тестируемой программе — ведущий (или
драйвер). Ведущий отладочный модуль
подготавливает информационную среду
для тестирования отлаживаемого модуля,
осуществляет обращение к отлаживаемому
модулю и выдает необходимые сообщения.

При нисходящем
тестировании окружение в качестве
отладочных содержит отладочные имитаторы
(заглушки) некоторых еще не отлаженных
модулей. Некоторые из этих имитаторов
при отладке одного модуля могут изменяться
для разных тестов.

На практике в
окружении отлаживаемого модуля могут
содержаться отладочные модули обоих
типов, если используется смешанная
стратегия тестирования.

Достоинства
восходящего тестирования:

  1. Простота подготовки
    тестов;

  2. Возможность полной
    реализации плана тестирования модуля.

Недостатки
восходящего тестирования:

  1. Тестовые данные
    готовятся, как правило, не в той форме,
    которая рассчитана на пользователя;

  2. Большой объем
    отладочного программирования;

  3. Необходимость
    специального тестирования сопряжения
    модулей.

Достоинства
нисходящего тестирования:

  1. Большинство тестов
    готовится в форме, рассчитанной на
    пользователя;

  2. Во многих случаях
    относительно небольшой объем отладочного
    программирования;

  3. Отпадает
    необходимость тестирования сопряжения
    модулей.

Недостатком
нисходящего тестирования является то,
что тестовое состояние информационной
среды перед обращением к отлаживаемому
модулю готовится косвенно — оно является
результатом применения уже отлаженных
модулей к тестовым данным или данным,
выдаваемым имитаторами.

Прежде всего,
необходимо организовать отладку
программы таким образом, чтобы как можно
раньше были отлажены модули, осуществляющие
ввод данных. Пока модули, осуществляющие
ввод данных, не отлажены, тестовые данные
поставляются некоторыми имитаторами:
они либо включаются в имитатор как его
часть, либо вводятся этим имитатором.

При нисходящем
тестировании некоторые состояния
информационной среды, при которых
требуется тестировать отлаживаемый
модуль, могут не возникать при выполнении
отлаживаемой программы ни при каких
входных данных. Чаще же пользуются
модифицированным вариантом нисходящего
тестирования, при котором отлаживаемые
модули перед их интеграцией предварительно
тестируются отдельно.

Однако, представляется
более целесообразной другая модификация
нисходящего тестирования: после
завершения нисходящего тестирования
отлаживаемого модуля для достижимых
тестовых состояний информационной
среды следует его отдельно протестировать
для остальных требуемых состояний
информационной среды.

Часто применяют
также комбинацию восходящего и нисходящего
тестирования, которую называют методом
сандвича. Сущность этого метода
заключается в одновременном осуществлении
как восходящего, так и нисходящего
тестирования, пока эти два процесса
тестирования не встретятся на каком-либо
модуле где-то в середине структуры
отлаживаемой программы.

Весьма важным при
автономной отладке является тестирование
сопряжения модулей.

При нисходящем
тестировании тестирование сопряжения
осуществляется попутно каждым пропускаемым
тестом, что считают достоинством
нисходящего тестирования. При восходящем
тестировании обращение к отлаживаемому
модулю производится не из модулей
отлаживаемой программы, а из ведущего
отладочного модуля.

Автономное
тестирование модуля целесообразно
осуществлять в четыре последовательно
выполняемых шага.

  • Шаг 1. На основании
    спецификации отлаживаемого модуля
    подготовьте тесты для каждой возможности
    и каждой ситуации, для каждой границы
    областей допустимых значений всех
    входных данных, для каждой области
    изменения данных, для каждой области
    недопустимых значений всех входных
    данных и каждого недопустимого условия.

  • Шаг 2. Проверьте
    текст модуля, чтобы убедиться, что
    каждое направление любого разветвления
    будет пройдено хотя бы на одном тесте.
    Добавьте недостающие тесты.

  • Шаг 3. Проверьте
    текст модуля, чтобы убедиться, что для
    каждого цикла существуют тесты,
    обеспечивающие, по крайней мере, три
    следующие ситуации: тело цикла не
    выполняется ни разу, тело цикла
    выполняется один раз и тело цикла
    выполняется максимальное число раз.
    Добавьте недостающие тесты.

  • Шаг 4. Проверьте
    текст модуля, чтобы убедиться, что
    существуют тесты, проверяющие
    чувствительность к отдельным особым
    значениям входных данных. Добавьте
    недостающие тесты.

Комплексная
отладка

означает тестирование ПС в целом с
поиском и исправлением фиксируемых при
тестировании ошибок во всех документах
(включая тексты программ ПС), относящихся
к ПС в целом. К таким документам относятся
определение требований к ПС, спецификация
качества ПС, функциональная спецификация
ПС, описание архитектуры ПС и тексты
программ ПС.

Тестирование при
комплексной отладке — применение ПС к
конкретным данным, которые могут
возникнуть у пользователя, но, возможно,
в моделируемой (а не в реальной) среде.

Тестирование
архитектуры ПС. Целью тестирования
является поиск несоответствия между
описанием архитектуры и совокупностью
программ ПС. К моменту начала тестирования
архитектуры ПС должна быть уже закончена
автономная отладка каждой подсистемы.

Тестирование
внешних функций. Целью тестирования
является поиск расхождений между
функциональной спецификацией и
совокупностью программ ПС. Несмотря на
то, что все эти программы автономно уже
отлажены, указанные расхождения могут
быть.

Тестирование
качества ПС. Целью тестирования является
поиск нарушений требований качества,
сформулированных в спецификации качества
ПС. Завершенность ПС проверяется уже
при тестировании внешних функций.

Тестирование
документации по применению ПС. Целью
тестирования является поиск
несогласованности документации по
применению и совокупностью программ
ПС, а также выявление неудобств,
возникающих при применении ПС. Этот
этап непосредственно предшествует
подключению пользователя к завершению
разработки ПС (тестированию определения
требований к ПС и аттестации ПС).

Тестирование
определения требований к ПС. Целью
тестирования является выяснение, в
какой мере ПС не соответствует
предъявленному определению требований
к нему. Особенность этого вида тестирования
заключается в том, что его осуществляет
организация-покупатель или
организация-пользователь. Обычно
производится с помощью контрольных
задач — типовых задач, для которых
известен результат решения.

37 Необходимость
коллективной разработки ПО. Метод
бригады главного программиста. Состав
бригады. Обязанности главного программиста.

Если

  1. Некоторые задачи
    очень сложны , чтобы справиться с ними
    нужно решить много подзадач. К моменту
    формирования исходной задачи решение
    этих подзадач не найдено. Человек
    последовательно занимающийся этими
    задачами не закончит их в срок.

  2. Некоторые задачи
    очень объемные Прогнозируемые задачи
    можно закончить раньше если работать
    параллельно

  3. Некоторые задачи
    требуют кооперации программистов,
    обладающих специальными знаниями

Задача может
потребовать коллективного решения.

Миллс «Бригада
главного программирования»

Создается группа
из 5 10 человек Бригада состоит и з главного
програмера , помошника главного програмера
, секретарь (библиотекарь) , программисты
исполнители. Идея — работает как один
программист высокой квалификации.

Главный програмер
несет 100% ответственность за проектирование
ПС. Распределяет работу, принимает
решения. Отвечает за успех .Пишет важные
процедуры и функции, определенные
спецификацией для остальных модулей,ю
объединяет результаты в единое целое.
Руководство персоналом, соблюдение
условий контракта, регулирование
отношений с заказчиком .Решает когда и
сколько программистов может понадобиться.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #

Классическая работа Анны Анастази «Психологическое тестирование» по праву считается «энциклопедией западной тестологии». При подготовке 7-го издания, выпущенного в США в 1997 году, текст книги был основательно переработан. Появилось несколько новых глав, написанных соавтором А. Анастази — С. Урбиной. Содержательные изменения отражают новейшие тенденции развития психологического тестирования, в частности возрастающее влияние компьютеризации как фактора интеграции психологической науки в целом и методов тестирования в частности. В новом издании уделено значительное внимание компьютеризированному адаптивному тестированию, метаанализу, моделированию структурными уравнениями, использованию доверительных интервалов, кросс-культурному тестированию, применению факторного анализа в разработке тестов личности и способностей и другим широко используемым и быстро развивающимся понятиям и процедурам, которые будут оказывать влияние на психометрическую практику в XXI веке.

Мы не можем предоставить возможность скачать книгу в электронном виде.

Информируем Вас, что часть полнотекстовой литературы по психолого-педагогической тематике содержится в электронной библиотеке МГППУ по адресу http://psychlib.ru. В случае, если публикация находится в открытом доступе, то регистрация не требуется. Часть книг, статей, методических пособий, диссертаций будут доступны после регистрации на сайте библиотеки.

Электронные версии произведений предназначены для использования в образовательных и научных целях.

1. Тесты, их классификация

46 ошибки по заповеди тестирования психологические аспекты тестирования

Тесты – это специализированные методы психологического диагностического исследования, применяя которые можно получить точную количественную или качественную характеристику изучаемого явления.

От других методов исследования тесты отличаются тем, что: 1) предполагают стандартизованную, выверенную процедуру сбора и обработки данных, а также их интерпретации; 2) с помощью тестов можно изучать и сравнивать между собой людей, давать оценки их психологии и поведению.

1. Тест-опросник основан на системе заранее отобранных и проверенных с точки зрения их валидности и надежности вопросов, по ответам испытуемых, на которые определенно можно судить об их психологических качествах.

2. Тест-задание предполагает оценку психологии и поведения человека не на основе того, что он говорит, а на базе того, что он делает. В тестах этого типа человеку дается серия специальных заданий, по итогам, выполнения которых судят об изучаемом качестве.

Тесты-опросники и тесты-задания – применимы к людям разного возраста, принадлежащим к различным культурам, имеющим разный уровень образования, разные профессии и неодинаковый жизненный опыт. Это положительная черта данных тестов.

Недостаток состоит в том, что при использовании их испытуемый при желании может сознательно повлиять на получаемые результаты, особенно если он знает, как устроен тест и каким образом по его результатам будут оценивать его психологию и поведение.

Тесты-опросники и тесты-задания неприменимы в тех случаях, когда изучению подлежат свойства и характеристики, в существовании которых испытуемый не может быть полностью уверен, не осознает или не хочет признавать их наличие у себя. Такими характеристиками являются, например, многие отрицательные качества и мотивы поведения, другие свойства, наличие которых осуждается.

3. Проективные тесты​ обычно предназначены как раз для изучения тех психологических и поведенческих особенностей человека, которые им слабо осознаются или вызывают к себе с его стороны крайне отрицательное отношение.

В основе проективных тестов лежит механизм проекции, согласно которому не осознаваемые человеком положительные и особенно отрицательные характеристики он склонен приписывать не себе, а другим людям, “проецировать” их на других.

При применении тестов подобного рода об испытуемом судят на основе того, как он оценивает ситуации, других людей, какие свойства им приписывает.

Пользуясь проективными тестами, психологи вводят испытуемых в неопределенную ситуацию, из которой они должны самостоятельно найти выход. Такими ситуациями могут быть:

1) поиск определенного смысла в сюжетно-неопределенных картинах;

2) завершение незаконченных предложений;

3) оценка поведения и поступков незнакомых людей в неясных ситуациях и т.п.

Тесты проективного типа:

1) предъявляют повышенные требования к уровню образованности и интеллектуального развития испытуемых, и в этом заключается их основной недостаток;

2) требуют при их применении высокой профессиональной квалификации психолога и большого опыта работы.

Все рассмотренные методы исследования можно использовать для сбора данных о психологии и поведении людей как в реальной жизни, так и в специальных экспериментальных условиях. В силу множества причин, которые могут оказать влияние на психологию и поведение человека, и того, что в обычных условиях эти причины трудно контролировать, психологи в течение последних 40-50 лет чаще обращались к эксперименту как самому надежному средству получения достоверной информации об изучаемых явлениях.

2. Направления тестирования

Идея квантования как отрезка различения была очень эвристичной. Ее восприняли и стали применять для разработки объективных методов оценки практически во всех направлениях психологии.

В основе метода объективной психологической оценки лежит тест (или проба), который может представлять собой:

1) стимул определенной модальности, если это психофизическое исследование;

2) задачи разного уровня сложности, если это педагогическая психология;

3) задания, связанные с исследованием внимания, памяти, сообразительности и т.д. в общей и возрастной психологии.

Для того, чтобы эти тесты (пробы) могли дать объективные и измеримые данные, они предварительно проверяются на большом числе испытуемых. Например, в педагогической психологии – на детях одного возраста или людях одного уровня образования и т.д.

При этом из всех предложенных задач отбираются те, которые успешно решаются значительным числом всех испытуемых (например, двумя третями).

Эта процедура называется нормированием, или определением “нормы”. С ней впоследствии сравниваются решения тех испытуемых, знания, умения и навыки которых измеряются.

Результаты этих измерений оцениваются в условных баллах (или в ранговых оценках), объединенных в шкалу порядка и указывающих, какое место данный испытуемый мог бы занять по отношению к соответствующей группе испытуемых (то есть к “норме”).

Задача психологических тестов, таким образом, – измерить различия между индивидами или между реакциями одного индивида в разных условиях. Решение этой задачи привело к развитию дифференциальной психологии. Велико значение психологических тестов и для других направлений психологии.

Количество и разнообразие различного рода тестов, опросников и шкал в настоящее время огромно. А начиналось тестирование с разработок Ф. Гальтона (1822-1911), который первым их:

1) применил для измерения психических свойств;

2) разработал методы математической статистики для анализа данных по индивидуальным различиям.

В дальнейшем заметный вклад в развитие психологического тестирования внесли работы Джеймса Кеттела (1860-1944) с его “умственными тестами”, которые содержали измерение мышечной силы, скорости движения, чувствительности к боли, остроты зрения и слуха, времени реакции, памяти и т.д.

Измерением памяти у школьников занимался Г. Эббингауз (1897).

Во Франции в 1908 г. свою первую шкалу умственного развития для детей создали А. Бине и Т. Симон.

Когда США вступили в Первую мировую войну, под руководством Р.М. Йеркса (1876-1956) были разработаны армейские так называемые “альфа и бета тесты”, позволяющие отобрать годных к военной службе лиц. Впоследствии эти тесты неоднократно перерабатывались и стали образцом для большинства групповых тестов интеллекта. Тестирование получило мощнейший стимул для своего развития, и вскоре были разработаны групповые тесты интеллекта для всех возрастов и уровней образованности (от дошкольников до аспирантов). Их начали широко использовать в школах, колледжах. Коэффициент интеллекта учитывался при приеме в учебные заведения и на работу. Однако вскоре стало ясно, что применяемые тесты являются очень грубым инструментом и область их применения весьма ограничена. Тем не менее они широко распространены, продолжают совершенствоваться и применяться для разных целей.

Наряду с тестами интеллекта в ответ на запросы практики возникли также тесты достижений. Их еще называют тестами объективного контроля успешности: школьной, профессиональной, спортивной и т.п. От разных типов контроля знаний и умений (устных и письменных) эти тесты отличаются своей формой. Учащимся предлагается вопрос, ответ на который в нескольких вариантах представлен на этом же бланке. Один из ответов верный, остальные – нет. Нужно отметить верный ответ. При подготовке тестов достижений практикуется экспертная оценка знаний, которая проводится параллельно с тестированием. Когда тест отработан и стандартизован, необходимость в этом отпадает. К сожалению, применение теста достижений ограничено только той областью знаний, которая поддается формализации.

Применение тестов

Как методический инструмент тесты широко используются в современных исследованиях. Однако прежде чем решить, какой из сотен имеющихся тестов может быть применен для исследования, психолог задается вопросом:

1) какова цель теста?

2) для какой группы лиц он лучше подходит?

3) чем он отличается от других методов изучения индивидуальности человека?

4) насколько ответственно он конструировался?

5) насколько он точен?

6) насколько адекватны и действительны его результаты?

От каждого измерительного инструмента требуется, чтобы он был как можно более точным, чтобы на полученные результаты можно было положиться как на данные, близкие к “настоящей” величине измеряемого признака. Следовательно, точность можно понимать как меру достоверности, с какой тест измеряет ее. Существует ряд источников погрешностей, которые снижают точность тестов и надежность результатов. К ним относятся:

1) неблагоприятные условия тестирования;

2) недостаточное внимание к состоянию испытуемых в момент испытания;

3) неверное поведение экспериментатора;

4) субъективность в истолковании результатов теста.

Кроме учета и устранения источников погрешностей, надежность теста (то есть его согласованность) повышают посредством повторного испытания с последующим вычислением коэффициента корреляции между данными первого и второго тестирования. Подобная тщательная и объективная проверка надежности теста необходима психологам, чтобы знать, для каких целей и в каких пределах его можно применять.

Наряду с надежностью к тесту предъявляется требование валидности, или адекватности. Валидность – это степень, в которой тест является инструментом, измеряющим то, для чего он предназначен.

Для установления валидности обычно требуется независимый внешний критерий по отношению к тому, что тест должен измерить. Например, если тест предназначен для измерения склонности к риску, то он может быть валидизирован проверкой этой склонности в группе мотогонщиков, каскадеров и т.д. Совокупность таких внешних показателей риска будет критерием, с которым следует соотнести исходные тестовые показатели риска. Далее определяется коэффициент валидности с помощью коэффициента корреляции. При конструировании тестов применяется еще целый ряд специальных статистических процедур, позволяющих сделать тест более чувствительным и надежным инструментом.

При работе с тестами следует отметить также и этический аспект. Использование, проведение и интерпретация психологических тестов обязательно должны идти под контролем квалифицированного психолога. В руках недобросовестного или некомпетентного экспериментатора тесты могут принести серьезный вред. Особенно это касается личностных тестов или опросников, в связи с чем важно предотвратить доступность их содержания для любого желающего.

Описанные выше базовые методы исследований, а также методы измерения и тестового оценивания индивидуальных различий лежат в основании многих современных объективных методов эмпирических исследований. К основным из них относятся методы опроса, проективный и отраженной субъективности.

Технология тестирования

Метод тестов является одним из основных в современной психологии. По уровню популярности в образовательной и профессиональной психодиагностике он прочно удерживает первое место в мировой психодиагностической практике уже фактически в течение столетия.

Договоримся понимать под тестами в этом разделе технологии, которые состоят из серии заданий с выбором из готовых вариантов ответа. При подсчете баллов по тесту выбранные ответы получают однозначную количественную интерпретацию и суммируются. Суммарный балл сравнивается с количественными тестовыми нормами, и после этого сравниваются стандартные диагностические заключения.

Достоинства метода тестов

Популярность метода тестов объясняется следующими главными его достоинствами.

1. Стандартизация условий и результатов

Тестовые методики относительно независимы от квалификации пользователя (исполнителя), на роль которого можно подготовить даже лаборанта со средним образованием. Это однако не означает того, что для подготовки комплексного заключения по батарее тестов не надо привлекать квалифицированного специалиста с полноценным высшим психологическим образованием.

2. Оперативность и экономичность

Типичный тест состоит из серии кратких заданий, на выполнение каждого из которых требуется, как правило, не более полуминуты, а весь тест занимает не более часа (в школьной практике это один урок); тестированию одновременно подвергается сразу группа испытуемых, таким образом, происходит значительная экономия времени (человеко-часов) на сбор данных.

3. Количественный дифференцированный характер оценки

Дробность шкалы и стандартизованность теста позволяют рассматривать его как “измерительный инструмент”, дающий количественную оценку измеряемым свойствам (знаниям, умениям в данной области). Хороший тест позволяет различать не только три категории учеников – отличников, “середнячков” и “хвостистов”, но и хорошо дифференцировать испытуемых на полюсах шкалы – отличать просто способных от очень способных и талантливых, а среди отстающих отличать небезнадежных от “безнадежных” (или совершенно неподготовленных). Кроме того, количественный характер тестовых результатов дает возможность применить в случае тестов хорошо разработанный аппарат психометрии, позволяющий оценить, насколько хорошо работает данный тест на данной выборке испытуемых в данных условиях.

4. Оптимальная трудность

Профессионально сделанный тест состоит из заданий оптимальной трудности. При этом средний испытуемый набирает примерно 50 процентов из максимально возможного количества баллов. Это достигается за счет предварительных испытаний – психометрического эксперимента, или пилотажа. Если в ходе пилотажа становится известно, что с заданием справляется примерно половина из обследуемого контингента, то такое задание признается удачным и его оставляют в тесте.

5. Надежность

Это, может быть, самое главное достоинство тестов. “Лотерейный” характер современных экзаменов с вытягиванием “счастливых” или “несчастливых” билетиков давно стал притчей во языцех. Лотерейность для экзаменующегося здесь оборачивается низкой надежностью для экзаменатора – ответ на один фрагмент учебной программы, как правило, не показателен для уровня усвоения всего материала. В отличие от этого любой грамотно построенный тест охватывает основные разделы учебной программы (тестируемой области знаний или проявлений какого-то умения или способности). В результате возможность для “хвостиков” выбиться в отличники, а для отличника вдруг “провалиться” резко сокращается.

Назовем также ряд достоинств, которые в логическом смысле являются следствиями, производными от перечисленных выше, но заслуживают самостоятельного упоминания.

6. Справедливость

Справедливость является важнейшим социальным следствием перечисленных выше достоинств метода тестов. Ее следует понимать как защищенность от предвзятости экзаменатора. Хороший тест ставит всех испытуемых в равные условия. Наиболее сильно субъективизм экзаменаторов проявляется, как известно, не в трактовке уровня решенности задачи (не так просто можно назвать черное белым, решенную задачу – нерешенной), а в тенденциозном подборе заданий: своим – полегче, чужим – труднее. Во введении к настоящему пособию уже говорилось, что именно тесты обеспечивают важнейшую функцию школы как социального фильтра, функцию “социально-профессиональной селекции”. То, насколько справедливой оказывается подобная селекция, имеет гигантское значение для развития общества. Поэтому так важно всем, кто имеет доступ к тестам и их результатам, учиться культуре грамотного и гуманного их применения. Ибо только добросовестное и квалифицированное отношение пользователей к тестам превращает их в инструмент, повышающий, а не понижающий уровень справедливости в обществе.

7. Возможность компьютеризации

В данном случае это не просто дополнительное удобство, сокращающее живой труд квалифицированных исполнителей при массовом обследовании. В результате компьютеризации повышаются все параметры тестирования (например, при адаптивном компьютерном тестировании резко сокращается время тестирования). Специально подчеркнем, что компьютеризация – это мощный инструмент обеспечения информационной безопасности (достовер­ности диагностики). Компьютерная организация тестирования, предполагающая создание мощных информационных “банков тестовых заданий”, позволяет технически предотвратить злоупотребления со стороны недобросовестных экзаменаторов. Выбор заданий, предлагаемых конкурентному испытуемому, может производить из такого банка сама компьютерная программа прямо в ходе тестирования, и предъявление данному испытуемому определенного задания в этом случае является таким же сюрпризом для экзаменатора, как и для испытуемого.

8. Психологическая адекватность

Это важнейшее психологическое следствие оптимальной сложности. Наличие в тесте (по сравнению с традиционными экзаменационными вариантами) большого количества кратких заданий средней трудности дает многим испытуемым (особенно тревожным, не уверенным в себе) шанс “зацепиться”, поверить в себя, активизировать психологически оптимальную установку “на преодоление”. Ведь когда такой испытуемый остается лицом к лицу с одной-двумя очень сложными и большими задачами и не видит, как можно с ними справиться вообще, то он падает духом и не раскрывает всех своих возможностей. А если заданий много и часть из них явно начинает “поддаваться” (испытуемый уверен, что он с ними справится), человек в процессе тестирования ободряется и начинает “бороться” за максимальный результат. Уже упомянутое нами свойство оптимальной сложности важно для теста тем, что оно обеспечивает не только измерительную (различающую) силу тесту, но и оптимальный психологический настрой испытуемых. Человек не является пассивным объектом измерений при тестировании (подобно гире при взвешивании), а он всегда остро эмоционально реагирует на тест. Тестовая ситуация оптимальной сложности является оптимальным возбудителем – люди испытывают нормальный уровень стресса (напряжения), необходимый для того, чтобы показать наивысший результат. Недостаток стресса (в случае легкого теста), а тем более избыток (в случае трудного) искажают результаты измерения. Этого, как правило, совершенно не понимают организаторы наших конкурсных экзаменов, пытающиеся в случае высокого конкурса дать абитуриентам задачки посложнее (“на засыпку”), что создает избыточный стресс, который не дает возможности проявить себя людям, подготовленным хорошо, но обладающим пониженной стрессоустойчивостью.

Во многих странах внедрение методов тестирования (равно как и сопротивление этому внедрению) тесно связано с социально-политическими обстоятельствами. Внедрение технически хорошо оснащенных тестовых служб в образовании – важнейший инструмент в борьбе с коррупцией, поражающей правящую элиту (номен­клатуру) во многих странах. На Западе тестовые службы работают независимо от “выпускающих” (школы) и “принимающих” (вузы) организаций и снабжают абитуриента независимым сертификатом по результатам тестирования, с которым он может отправляться в любое учреждение. Эта независимость службы тестирования от выпускающих и принимающих организаций является дополнительным фактором демократизации процесса селекции профессиональных кадров в обществе, дающая талантливому и просто работоспособному человеку лишний шанс проявить себя.

Однако все перечисленное выше не означает, что метод тестов не обладает некоторыми весьма серьезными недостатками, не позволяющими свести всю диагностику способностей и знаний исключительно к тестированию.

Недостатки тестирования

Как всегда, определенные недостатки метода тестов являются продолжением его достоинств.

1. Опасность “слепых” (автоматических) ошибок

Слепая вера низкоквалифицированных исполнителей в то, что тест должен сработать правильно автоматически, порождает иногда тяжелые ошибки и казусы: испытуемый не понял инструкцию и стал отвечать совсем не так, как требует стандартная инструкция, или по каким-то причинам применил искажающую тактику, возник “сдвиг” в приложении трафаретки-ключа к бланку ответов (при ручном, некомпьютерном подсчете баллов) и т.п. Мораль – пользователь не должен подходить к тесту с “магической установкой”, будто этот волшебный “черный ящик” должен всегда работать исправно без всякого контроля со стороны человека.

2. Опасность профанации

Это эффект деятельности “профанов” в буквальном смысле слова. Не секрет, что внешняя легкость проведения тестов прельщает людей, непригодных к квалифицированному труду. Оснастившись тестами, им самим непонятного качества, но с громкими рекламными названиями, профаны от тестирования агрессивно предлагают свои услуги всем и вся. В результате все проблемы предполагается решать с помощью 2-3 тестов – “на все случаи жизни”.

К количественному тестовому баллу приклеивается новый ярлык – заключение, создающее видимость соответствия диагностической задаче. Ходовой пример – повальное использование клинического теста MMPI для отбора кадров в нашей стране. В этом случае высокий балл по восьмой шкале “Шизофрения” интерпретируется как “оригинальность мышления”, по четвертой шкале “Психопатия” – как “импульсивность” и т.п. Мысль о том, что нормальный здоровый испытуемый настораживается при виде многих вопросов MMPI, в которых откровенно называются психиатрические симптомы (“Я часто слышу голоса”) и выдают чисто “защитный” профиль, профанов не тревожит.

Еще раз подчеркнем, что недобросовестная профанация и элементарное невежество идут в области тестирования рука об руку.

3. Потеря индивидуального подхода, “стрессогонность”

Тест – самая общая “гребенка”, под которую подгоняют всех людей. Возможность упустить уникальную индивидуальность нестандартного человека (тем более ребенка), к сожалению, довольно вероятна. Это чувствуют сами испытуемые, и это их нервирует – особенно в ситуации аттестационного тестирования.

У людей с пониженной стрессоустойчивостью возникает даже определенное нарушение саморегуляции – они начинают волноваться и ошибаться в элементарных для себя вопросах (просто из-за “мандра­жа”). Вовремя заметить такую реакцию на тест – задача, которая под силу квалифицированному исполнителю.

4. Потеря индивидуального подхода, “репродуктивность”

Тесты знаний апеллируют, прежде всего, к стандартному применению готовых знаний. Отсутствие возможности раскрыть свою индивидуальность при наличии стандартных, заданных ответов – ничем не восполнимый недостаток метода тестов. С точки зрения выявления творческого потенциала большинство тестов весьма ограничены именно тем, что они не апеллируют к творческой, конструктивной деятельности. Во всяком случае, отдельные стандартизированные творческие тесты имеют дело с весьма абстрактным материалом, а тесты достижений (знаний), адаптированные на жизненно важном материале (профессионально релевантном), как правило, выполнены в форме стандартного набора заданий с заданным ответом.

5. Отсутствие доверительной обстановки

Бездушный и формализованный характер процедуры тестирования, конечно, оборачивается тем, что испытуемый лишается ощущения того, что психолог заинтересован в нем лично, в том, чтобы помочь ему. Диалогические методы (беседа, игра и т.п.) в этом плане имеют несомненные преимущества: непосредственно общаясь с испытуемым, квалифицированный психолог может установить доверительный контакт, проявить персональное участие, создать атмосферу, снимающую напряжение и защиту.

6. Потеря индивидуального подхода, неадекватная сложность

Иногда неквалифицированные “тестологи” обрушивают на ребенка тесты слишком трудные, сложные для его возраста. У него еще не сложились необходимые понятия и понятийные навыки, чтобы адекватно осмыслить как общую инструкцию к тесту, так и смысл отдельных вопросов. Мы уже говорили о драматических казусах резкой недооценки умственного развития детей при применении вербальных тестов. Но многие “невербальные” тесты также требуют развития речевого мышления хотя бы для осмысления того, что говорит взрослый в своей инструкции. Альтернатива “взрослому” тестированию в детской психологии – игровой подход к тестированию, когда тест включается в контекст игры, и ребенок выполняет его как бы играя.

Таким образом, тесты нельзя делать единственным исчерпывающим методом любой диагностики (и образовательно-профес­сиональной, и личной). Они требуют параллельного использования свободных письменных работ (в личностной диагностике место сочинений занимают проективные тесты со свободным ответом), а также устного собеседования (интервью). То есть место тестов – дополнять указанные выше традиционные методы. В этом качестве тесты незаменимы, так как не имеют многих недостатков, свойственных традиционным методам.

Спокойное рациональное осознание достоинств и недостатков метода тестирования освобождает всех (исполнителей, заказчиков, испытуемых) как от чрезмерных упований на метод тестов, так и от пренебрежения к нему.

Лучшая гарантия от профанов и профанации – серьезный и квалифицированный интерес к тому, какую экспериментально-научную работу проделали разработчики теста, как полно эта работа и ее результаты отражены в сопутствующей документации. Это прежде всего вопросы надежности, выносливости и репрезентативности.

Надежность теста

Надежность – одно из трех главных психометрических свойств любой измерительной психодиагностической методики (теста). Надежность – это помехоустойчивость теста, независимость его результатов от действия всевозможных случайных факторов. К числу таких факторов следует отнести:

  • разнообразие внешних материальных условий тестирования, меняющихся от одного испытуемого к другому (время суток, освещенность, температура в помещении, наличие посторонних звуков, отвлекающих внимание и т.п.);
  • динамичные внутренние факторы, по-разному действующие на разных испытуемых в ходе тестирования (время так называемой “вырабатываемости” – выхода на стабильные показатели темпа и точности действий после начала тестирования, скорость утомления и т.п.);
  • информационно-социальные обстоятельства (различная динамика в установлении контакта с психологом или лаборантом, проводящим тестирование; возможное наличие других людей в помещении; наличие предыдущего опыта знакомства с данным тестом; наличие какого-то знания и отношения к тестам и т.п.).

Разнообразие и изменчивость всех этих факторов так велики, что они обусловливают появление у каждого испытуемого непрогнозируемого по размерам и направлению отклонения – измеренного тестового балла от истинного тестового балла (который можно было бы в принципе получать в идеальных условиях). Средняя относительная величина этого отклонения определяется как “стандартная ошибка измерения” (Se). Величина ошибки измерения указывает на уровень неточности или ненадежности тестовой шкалы (специально подчеркнем, что в психометрической теории надежность и точность оказываются синонимами).

Ошибка измерения (Se) и надежность измерения (R), согласно общепринятой психометрической теории, связаны следующей формулой:

R= 1 – S e2/ S x2, (1)

где Sх – дисперсия тестовых показателей Х.

Формула (1) является чисто теоретической, и на ее основе нельзя определить степень надежности теста, так как величина Se оказывается также неизвестной величиной. Поэтому на практике применяют корреляционные методы. Самый известный из них – метод перетестирования (тест-ретест), или метод измерения ретестовой надежности. На одной и той же выборке испытуемых (не менее 30 человек, участвующих в пилотажном психометрическом экспериментальном исследовании) проводят первое тестирование Х, а затем повторное тестирование Y. Интервал, как правило, – две недели, что гарантирует забывание вопросов теста.

где SX, SY – стандартные отклонения Х и Y;

Cov (х, y) – ковариация двух переменных Х и Y.

В этой книге мы не ставим целью научить студентов-педагогов корреляционным методам и пытаемся изложить лишь принципиальную суть дела. Интересующиеся найдут все необходимые формулы и вычислительные примеры в любом учебнике по статистике, а также в специализированных изданиях по психодиагностике и психометрике (“Общая психодиагностика”, 1987; Клайн, 1994).

Что важно для сути теории надежности тестов, так это возможность определить ошибку измерения после того, как подсчитана корреляция “тест-ретест” по формуле (3), полученной путем простого преобразования формулы (1):

Se = Sх Ч V1 – R. (3)

Таким образом, если стандартное отклонение в тесте составило 10 очков (среднее отклонение, которое в среднем допускают испытуемые от среднего балла для выборки), а корреляция “тест-ретест” оказалась равной лишь 1,5, то ошибка измерения оказывается очень большой:

Se=10ЧV1-0,5»7,1. (4)

То есть оказывается, что ошибка измерения перекрывает большую часть разброса тестовых показателей, так как истинный балл по тесту может отклоняться от измеренного балла на целых 7 очков! И если испытуемый набрал на 6 очков больше, чем “средний” испытуемый, мы не можем с достаточной уверенностью (статистической достоверностью) говорить о том, что он значимо превзошел среднего испытуемого, так как это отклонение оказывается в пределах стандартной ошибки измерения.

Таким образом, низкая корреляция результатов теста между первым и повторным тестированием говорит о том, что случайные факторы существенно искажают результаты теста. Это значит, что тест не обладает необходимой помехоустойчивостью и его нельзя использовать как измерительный инструмент.

Показатель надежности R, который принято считать достаточно высоким, равен или превышает 0,95. Хотя в личностных тестах часто пользуются значительно менее надежными тестами с показателями 0,8-0,9.

Метод измерения “ретестовой надежности” пригоден только для психических свойств, стабильных во времени. Надежность тестов на психические состояния и динамичные установки личности нельзя проверить таким образом. В этом случае применяют различные методы “расщепления” теста на отдельные пункты, освещение которых выходит за пределы настоящего пособия

Валидность теста

Соответствие теста измеряемому психическому свойству называется валидностью теста. Это, без преувеличения, важнейшее психометрическое свойство теста. Если высокая надежность теста говорит нам о том, что тест действительно “что-то” измеряет, то высокая валидность указывает на то, что тест измеряет именно то, что мы хотим. Конечно, на валидность теста также негативно влияют случайные факторы. Поэтому в психометрике принято следующее основное психометрическое неравенство:

ВАЛИДНОСТЬ< НАДЕЖНОСТЬ,

что означает, что валидность не может превышать надежности теста.

Но в отличие от надежности, помимо случайных факторов, на валидность теста влияют систематические факторы. Они привносят систематические искажения в результаты. Эти факторы есть другие психические свойства, которые мешают проявиться в результатах теста тому свойству, на которое тест направлен.

Например, мы хотим измерять “потенциал обучаемости” (важнейший компонент общих интеллектуальных способностей человека), но даем испытуемому тест с жестким ограничением времени исполнения и отсутствием возможности вернуться и исправить допущенную ошибку. Совершенно очевидно, что искомое психическое свойство оказывается смешанным в тесте с ложным психическим свойством – “стрессоустойчивость”: испытуемые с высокими показателями стрессоустойчивости будут лучше выполнять тест. В этом проявится эффект систематического искажения.

В современной психометрике разработаны буквально десятки разнообразных теоретических и экспериментальных методов проверки валидности тестов. Основным элементом практически всех этих методов является так называемый критерий валидности – это независимый от теста, внешний по отношению к тесту источник информации об измеряемом психическом свойстве. Мы не можем судить о валидности теста до тех пор, пока не сравним его результаты с источником истинной (или хотя бы заведомо более валидной) информации об измеряемом свойстве – с критерием.

В научных исследованиях преобладают специальные лабораторные критерии. Например, конструируется компактный тест-опросник на тревожность. А в качестве критерия валидности для него используется специальный трудоемкий объективный лабораторный эксперимент, в котором воспроизводится реальная ситуация тревожности (испытуемым-добровольцам угрожают за ошибочные действия ударами тока и т.п.).

На практике очень часто в качестве критерия валидности используются прагматические критерии – показатели эффективности той деятельности, ради прогнозирования которой предпринимается тестирование. В школе самый типичный критериальный показатель – это успеваемость. Но для социально-психологической адаптации ребенка внешним критериальным показателем может быть уровень популярности в классе.

Очень часто в качестве критерия валидности используется экспертная оценка. Например, мы хотим убедиться, что короткий тест на измерение уровня дисциплинированности валиден. Для этого опрашиваем учителей об уровне дисциплинированности хорошо известных им учеников. И после этого сравниваем (коррелируем) результаты теста и экспертный рейтинг учеников по дисциплинированности.

Остановимся чуть подробнее на этом последнем примере. Здесь мы имеем один из самих простых и популярных методов эмпирического (статистического) измерения валидности. Это метод “известных групп”. К участию в психометрическом эксперименте по проверке валидности теста приглашаются испытуемые, про которых известно, к какой группе по критерию они относятся. В случае с тестом дисциплинированности подбираются ученики, заведомо дисциплинированные, по данным экспертной оценки учителей (“высокая” группа по критерию), и заведомо недисциплинированные (“низкая” группа по критерию). Ученики со средними показателями по критерию в тестировании не участвуют.

После проведения теста мы рассчитываем, например, простейшую четырехклеточную корреляцию между тестом и критерием. Для этого заполняется следующая четерехклеточная таблица.

46 ошибки по заповеди тестирования психологические аспекты тестирования

Элемент “А” в этой табличке – это число испытуемых, попавших в “высокую” группу по тесту и по критерию, элемент В – число испытуемых, попавших в высокую группу по тесту, но в низкую группу по критерию и т.д.

Очевидно, что при полной валидности теста элементы В и С таблички должны быть равны нулю. То есть тест не должен давать ошибок – говорить о том, что ученик низкодисциплинированный, когда учителя говорят о том, что ученик высокодисциплинированный (случай С).

Меру совпадения (корреляции) между крайними группами по тесту и по критерию оценивают с помощью самого простого Фи-коэффициента Гилфорда:

При численности протестированной группы в 30 человек (это минимальная выборка для проверки валидности) статистически значимую связь теста с критерием мы можем констатировать, когда Phi>=0,36. Хотя это, конечно, невысокая валидность, но все же тест в этом случае дает значительно лучшие результаты, чем случайное гадание. То есть, если в вашем учебном заведении есть конкурс и вы хотите отобрать не только одаренных, но и дисциплинированных учащихся, вы можете использовать тест, валидность которого вы проверили, и она оказалась значимой.

Но… Метод “известных групп” обладает серьезным недостатком. Он не всегда позволяет использовать тест для прогноза, ведь при формировании “известных групп” оценивается поведение в прошлом, а мы хотим сделать тест дня прогноза поведения в будущем. Многие тесты, используемые в образовательной психодиагностике, обладают указанным недостатком. Они прошли в лучшем случае проверку по методике “известных групп” и не обладают так называемой прогностической валидностью (или по крайней мере эта валидность строго экспериментально не доказана). Конечно, на местном уровне задачу обеспечения прогностической валидности не решить. Это под силу только крупным научно-методическим центрам. Ведь к психометрическому исследованию по проверке прогностической валидности надо привлекать примерно на порядок больше испытуемых – не 30, а минимум 300. Ведь мы просто не знаем, кто из этих 300 попадет в будущем в крайние группы.

Например, мы хотим использовать тест для прогноза готовности школьников к обучению в вузах. Это типичная прогностическая психодиагностическая задача. Кто-то должен взяться за нелегкую многолетнюю программу проверки прогностического потенциала этого теста. Нужно протестировать 300-500 школьников, а затем подождать, кто из них поступит в вуз и будет успешно там учиться. После двух-трехлетнего интервала можно сформировать критериальные группы и подсчитать корреляцию группы с прежними тестовыми показателями этих бывших школьников. Только после реализации такой схемы психометрического эксперимента можно.

Стандартизация тестов

Что, несомненно, должен знать и уметь делать каждый грамотный пользователь теста – это понимать, что такое тестовые нормы и как ими пользоваться.

Первоначальный суммарный балл, подсчитанный с помощью ключа, не является показателем, который можно диагностически интерпретировать. Его называют в тестологии “сырым тестовым баллом”. Применение тестовых норм в профессионально организованной психодиагностике основывается на переводе тестовых баллов из “сырой” шкалы в “стандартную”. Эта процедура называется “стандартизацией тестового балла”.

Пусть мы провели тест из 20 заданий и испытуемый дал 12 правильных ответов. Можно ли при этом сказать, что способность у испытуемого выражена лучше или хуже, чем в среднем? Нет. Для такого вывода нужно сравнить балл 12 со средним баллом по представительной выборке испытуемых.

Выборка, на которой определяются статистические тестовые нормы, называется выборкой стандартизации. Ее численность, как правило, не меньше 200 человек. Столько людей должно принять участие в психометрическом эксперименте по определению тестовых норм – в эксперименте по стандартизации теста.

Если после стандартизации теста выясняется, к примеру, что среднее арифметическое по сырой шкале теста равно 14, то оказывается балл 12 – это не лучше, а хуже среднего (хотя испытуемый и справился больше чем с половиной заданий). Просто в данном случае тест содержит слишком простые задания, несколько отклоняясь по этому параметру от оптимальной трудности.

Простейшая линейная стандартизация тестового балла производится по формуле

где Z – стандартный балл на так называемой стандартной шкале Z (с центром 0 и отклонением 1);

Х – сырой балл по тесту;

– средний балл по выборке стандартизации,

Sх – стандартное отклонение по выборке стандартизации.

После получения стандартного балла Z можно перевести тестовый балл в любую стандартную тестовую шкалу, принятую в психодиагностике. Например, перевод в шкалу IQ производится по формуле

IQ=Z..15=100.

Напомним, что в шкале IQ центр равен 100, а отклонение – 15.

Если перевод требуется в так называемую шкалу “стенов” (от англ. “ standart ten” – стандартная десятка), то формула пересчета из шкалы Z выглядит так:

Sten = Z..2 +5,5,

так как в шкале стенов центр равен 5,5, а отклонение равно 2.

Обобщенная формула перевода сырого балла в заданную стандартную шкалу имеет вид:

Y = SsЧZ+M, (7)

где Y – стандартный балл, по произвольной шкале, с центром М и отклонением Ss.

Для серьезных профессиональных тестов вместо описанной здесь простейшей линейной стандартизации используется более сложная процедура нелинейной нормализации (форсированный переход к нормальному распределению). В результате этой, более точной процедуры разработчики снабжают пользователей теста так называемой конверсионной таблицей для перевода сырых баллов в стандартные баллы по заданной шкале. В ней приводится полный перечень соответствий между интервалами сырой шкалы и стандартной.

Ниже приведен пример того, как может выглядеть конверсионная таблица для некоторого теста арифметических вычислений из 30 заданий. Простейшая процедура подсчета баллов (за правильный ответ – 1 очко, за ошибку –0) дает нам сырую шкалу от 0 до 30.

Таблица 1

Пример фрагмента конверсионной таблицы для перевода сырых баллов в стены

46 ошибки по заповеди тестирования психологические аспекты тестирования

Как пользовались таблицей? Если испытуемый показал 5 сырых очков (решил только 5 заданий), то ему ставится минимальный стандартный балл 1. Если испытуемый решил 25 заданий, то получает балл 9.

После того, как балл по тесту стандартизирован, можно выносить диагностическое заключение. Общее правило здесь таково: если стандартный балл Y превышает единицу “верхней” (или “высокой”) группы M+Ss, то данному испытуемому приписывается повышенное значение измеренного психического свойства. Например, про ученика говорят, что он является определенно более дисциплинированным, чем средний ученик в российской школе (или московской, или иркутской – в зависимости от того, на какой выборке стандартизации получены нормы). Если же стандартный балл Y ниже границы “нижней” (“низкой”) группы M-Ss, то о данном испытуемом формулируется заключение, соответствующее низкому полюсу измеряемого свойства. Если стандартный тестовый балл Y заключен в пределах центрального интервала (M-Ss, M+Ss), то про испытуемого говорят, что у него измеренное свойство выражено в средней степени – как у большинства людей.

На шкале стенов граница “верхней” группы равна 7,5, а “нижней” – 3,5, то есть при получении 8 стенов и больше испытуемый зачисляется в “верхнюю” группу, а при получении 3 стенов и меньше – в “нижнюю”.

Если мы имеем дело с биполярным (двухполюсным) психическим свойством, например, “гибкость – ригидность”, то для “высокой” группы формулируется заключение как для “гибких” людей, а для “низкой” группы – как для ригидных людей. Соответственно средняя группа из центрального интервала признается нейтральной, неполяризованной по данному тестовому параметру.

Любые тестовые заключения при использовании статистических тестовых норм являются относительными. Они зависят от той выборки, на которой производилась стандартизация теста. То, насколько выборка стандартизации позволяет применять тест на широкой популяции, называется репрезентативностью тестовых норм. Репрезентативность – третье важнейшее психометрическое свойство теста. Понимание смысла этого требования к тесту помогает правильно учитывать ограничения в сфере его применения.

Например, если тест проходил стандартизацию на студентах, то перед его применением на школьниках следует вначале произвести рестандартизацию, то есть снова собрать тестовые нормы на представительной выборке, сформированной именно из школьников. В противном случае диагностические выводы, произведенные по неадекватным тестовым нормам, будут неточны и неверны.

Проверка репрезентативности тестовых норм осуществляется с помощью анализа так называемого распределения частот тестовых баллов. Одним из простейших методов является проверка нормальности этого распределения. Более сложный и универсальный подход предполагает сравнение двух распределений, построенных для двух случайных половин выборки стандартизации. Если эти два распределения оказываются практически тождественными, то можно говорить о репрезентативности тестовых норм.

Введение понятия репрезентативности позволяет нам дать более строгое определение того, что такое стандартизация теста. О стандартизации теста в строгом смысле можно говорить, когда задана полная таблица соответствия сырой шкалы и стандартной шкалы и содержание этой таблицы обосновано статистической структурой распределения тестовых баллов на выборке стандартизации.

Кроме статистических тестовых норм в современных тестах часто используются критериальные нормы. Они особенно важны для сферы образования. Действительно, что дает нам знание о том, что Петров выполнил тест лучше среднего испытуемого, если средний испытуемый тоже не справился с большинством заданий? Мы прогнозируем, что подавляюще большинство испытуемых без специального дополнительного обучения не смогут показать требуемого уровня эффективности в будущей деятельности.

При построении так называемого “теста по критерию” шкала сырых тестовых баллов калибруется особыми реперными точками, которые соответствуют уровням рассчитанной вероятности достижения какого-то критерия (заданной эффективности деятельности). Например, если оператор АЭС был точен в 45 из 48 процентов заданий, то это может еще и не соответствовать требуемому уровню критериальной “надежности оператора” (в данном случае “надеж­ность” – измеряемое свойство), а вот если он был точен в 47 из 48 заданий, то это может считаться достаточным уровнем “надеж­ности”. Таким образом, при построении диагностических заключений по критериальным тестам мы интересуемся не степенью отклонения балла от центра шкалы, а достижением или недостижением какого-то критического уровня на шкале.

Достоверность теста

Особой разновидностью валидности является достоверность, которая не всегда выделяется в учебниках по психодиагностике, хотя требует специальных усилий и процедур по обеспечению. Речь идет о сознательных или бессознательных искажениях, которые вносит в тестовые результаты сам испытуемый, руководствуясь в ходе теста особой мотивацией, отличающейся от той, которая присуща ему в реальном поведении. Способность теста защищать информацию от мотивационных искажений и есть достоверность теста. Особенно остро проблема достоверности стоит в случае тест-опросников, которые допускают больше свободы в выборе испытуемым любого варианта ответа.

Типичный прием обеспечения достоверности – наличие в тест-опросниках ШКАЛ ЛЖИ. Эти шкалы основываются главным образом на феномене социальной желательности – стремлении испытуемых давать в ходе тестирования социально одобряемую информацию.

Если испытуемый набрал по шкале лжи балл выше критического, то его протокол объявляется недостоверным и ему предлагается либо выполнить данный тест еще раз более откровенно, либо выполнить другой тест. Многие более специфичные “ловушки”, направленные на измерение достоверности, часто входят как компонент в структуру конкретного теста, а иногда даже не подлежат разглашению как элемент “ноу-хау” (информационного изобретения) и профессиональной тайны, разделяемой разработчиками только с лицензированными пользователями методики, подписавшими особое лицензированное соглашение при приобретении теста.

Достоверность тестирования тесно связана со степенью доверительности общения, которую психолог смог установить с данным испытуемым. Здесь полезно различать две диагностические ситуации: консультативную (ситуация клиента) и аттестационную (ситуация экспертизы). В первом случае испытуемый участвует в тестировании на добровольной основе и сам заинтересован получить рекомендации по результатам тестирования (как, например, в профориентационной консультации). Во втором случае тестирование проводится по инициативе педагога или администрации, психолога, родителей, то есть других лиц, и эти другие больше заинтересованы в результатах, чем сам испытуемый.

Понятно, что в аттестационной ситуации вопрос о достоверности особенно актуален. И опросники, не снабженные шкалами лжи, использовать в таких ситуациях бесполезно. Наоборот, в ситуации клиента могут быть использованы такие методики, на которые испытуемый заведомо будет отвечать некорректно в ситуации экспертизы.

Вопросы достоверности и стандартизации тесно связаны между собой. Очень часто даже объективные тесты достижений, если они проходили стандартизацию на добровольцах (в ситуации консультации), должны быть рестандартизированы для того, чтобы их использовали в аттестационной ситуации.

утверждать, что тест прошел проверку на прогностическую валидность. Без этого мы исходим просто из доверия к научной интуиции разработчика теста и не имеем независимых доказательств того, что тест можно использовать для прогноза.

Различие обычной дешевой схемы валидизации теста (по “из­вестным группам”) и дорогой прогностической схемы валидизации теста – важнейший элемент психодиагностической грамотности не только для психологов, но и для педагогов, как, впрочем, и для любых заказчиков психодиагностической информации.

Когда заказчик твердо знает, каких доказательств эффективности предлагаемого теста можно потребовать от тестолога, он будет надежно застрахован от профанации.

В заключение данной темы подчеркнем, что измерение психометрических характеристик теста, конечно, является прежде всего обязанностью разработчиков тестов. Но квалифицированный школьный психолог-методист с полным курсом университетского образования должен по своей подготовке уметь самостоятельно провести простейший психометрический эксперимент и пересчитать тестовые нормы, а также психометрические индексы надежности и валидности теста на своей собственной выборке (в своем регионе, обладающем определенной национально-культурной и социальной спецификой). Без этой проверки никто не может гарантировать, что тест действительно работает в данных условиях.

На сегодня подобная психометрическая работа с тестами облегчается, так как от массы рутинных вычислений специалиста освобождает компьютер. Научная фирма “Гуманитарные технологии” (МГУ) распространяет с 1993 года специализированный пакет программ ТЕСТАН (разработчик – А.Г. Шмелев) для психометрического АНализа ТЕСТов. Задача пользователя такой программы – не тратить время на вычисления, а только содержательно разбираться в том, что означает тот или иной коэффициент.

A. Anastasi, S. Urbina

PSYCHOLOGICAL

TESTING

PRENTICE HALL

А. Анастази, С. Урбина

ПСИХОЛОГИЧЕСКОЕ

ТЕСТИРОВАНИЕ

7-е международное издание

Москва • Санкт-Петербург ■ Нижний Новгород ■ Воронеж

Ростов-на-Дону • Екатеринбург • Самара

Киев • Харьков ■ Минск

2005

ББК 88.3в6 УДК 159.9.072 А64

Анастази А., Урбина С.

А64 Психологическое тестирование. — 7-е изд. — СПб.: Питер, 2005. — 688 с: ип. — (Серия «Мастера психологии»).

ISBN 5-272-00106-0

Классическая работа Анны Анастази «Психологическое тестирование» по праву считается «энциклопедией западной тестологии». При подготовке 7-го издания, выпущенного в США в 1997 году, текст книги был основательно переработан. Появилось несколько новых глав, написанных соавтором А. Анастази — С. Урби-ной. Содержательные изменения отражают новейшие тенденции развития психологического тестирования, в частности, возрастающее влияние компьютеризации как фактора интеграции психологической науки в целом и методов тестирования в частности. В новом издании уделено значительное внимание компьютеризированному адаптивному тестированию, метаанализу, моделированию структурными уравнениями, использованию доверительных интервалов, кросс-культурному тестированию, применению факторного анализа в разработке тестов личности и способностей и другим широко используемым и быстро развивающимся понятиям и процедурам, которые будут оказывать влияние на психометрическую практику в XXI веке.

ББК 88.3в6 УДК 159.9.072

Права на издание получены по соглашению с Prentice Hall.

Все права защищены. Никакая часть данной книги не может быть воспроизведена в какой бы то ни было форме

без письменного разрешения владельцев авторских прав.

©1997 by Prentice Hall ISBN 0-02-303085-2 (англ.) © Перевод на русский язык ЗАО Издательский дом «Питер», 2003

ISBN 5-272-00106-0 © Издание на русском языке, оформление ЗАО Издательский дом «Питер», 2005

СОДЕРЖАНИЕ

Предисловие к русскому изданию…..8

Предисловие………………………………12

Часть 1. ФУНКЦИИ И ИСТОКИ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ…………………………15

1. Природа и назначение

психологических тестов………………………16

Области применения и разновидности

тестов……………………………………………………..16

Что такое психологический тест?……….18

Почему необходим контроль

за использованием психологических

тестов?……………………………………………………24

Проведение тестирования……………………..28

Характеристики тестирующего

и ситуационные переменные……………..33

Тестирование глазами тестируемых……35

Влияние практического обучения

на выполнение тестов…………………………39

Источники информации о тестах………..44

2. Исторические предпосылки современного тестирования…………..48

Первые попытки классификации

и обучения умственно отсталых………….49

Первые психологи-экспериментаторы . 50

Вклад Френсиса Гальтона……………………51

Джеймс Кэттелл и первые «умственные

тесты»…………………………………………………….52

А. Бине и появление тестов интеллекта 53

Групповое тестирование………………………..54

Тестирование способностей………………….56

Стандартизованные тесты достижений 58 Оценка личности……………………………………60

Часть 2. ТЕХНИЧЕСКИЕ И МЕТОДОЛОГИЧЕСКИЕ ПРИНЦИПЫ……..63

3. Нормы и смысловое значение тестовых показателей…………………..64

Статистические понятия………………………65

Возрастные нормы…………………………………71

Внутригрупповые нормы………………………75

Относительность норм………………………….84

Компьютеры и интерпретация тестовых показателей………………………….91

Интерпретация предметно-ориентированных тестов…………………….93

Минимальные квалификационные требования и критические показатели.. 98

4. Надежность…………………………..ЮЗ

Коэффициент корреляции………………….104

Типы надежности…………………………………НО

Надежность тестов скорости………………121

Зависимость коэффициентов

надежности от обследуемой

выборки……………………………………………….124

Стандартная ошибка измерения………..127

Оценка надежности в тестировании

владения предметом и критические

показатели…………………………………………..131

5. Валидность: основные понятия 133

Развитие понятий валндности теста .. 133

Методы описания содержания…………..135

Методы предсказания критерия…………139

Методы идентификации конструкта .. 147 Общий обзор и интеграция понятий … 158

6. Валидность: измерение

и интерпретация………………………..162

Коэффициент валндности и ошибка

оценки…………………………………………………..163

Валидность теста и теория принятия

решений………………………………………………..166

Объединение данных различных

тестов……………………………………………………179

Использование тестов для принятия

классификационных решений………..183

Статистический анализ

систематической ошибки теста……..188

7. Анализ заданий………………………196

Трудность заданий………………………………197

Различительная способность заданий ■•• 203

Теория «задание — ответ»……………………211

Анализ заданий тестов скорости……217

Перекрестная валидизация…………………218

Дифференцированное

функционирование заданий……………..221

Поисковые исследования

в области разработки заданий………224

Часть 3. ТЕСТИРОВАНИЕ СПОСОБНОСТЕЙ ………………………227

8. Индивидуальные тесты ……………228

Шкала интеллекта Стэнфорд—Бине .. 229

Шкалы Векслера…………………………………..239

Шкалы Кауфмана………………………………..248

Дифференциальные шкалы

способностей……………………………………….252

Система когнитивной оценки Даса—

Наглиери……………………………………………..260

9. Тесты для специфических популяций………………………………..261

Тестирование младенцев

и дошкольников………………………………….262

Комплексная оценка лиц с задержкой

психического развития………………………274

Тестирование лиц с физическими

недостатками………………………………………281

Мультикультурное тестирование………289

10. Групповое тестирование………….300

Групповые тесты в сравнении с индивидуальными………………………….301

Адаптивное тестирование и компьютеризованное проведение тестов……………………………………………………304

Многоуровневые батареи……………………307

Измерение множественных способностей……………………………………….317

11. Природа интеллекта………………324

Значение IQ,………………………………………….325

Наследуемость и изменчивость ………327

Мотивация и интеллект…………………….330

Факторный анализ интеллекта……….333

Теории организации черт…………………..340

Природа и развитие черт……………………..348

12. Психологические проблемы тестирования способностей…………353

Лонгитюдные исследования

интеллекта детей………………………………..353

Интеллект в раннем детстве……………….357

Проблемы тестирования интеллекта взрослых………………………………………………361

Изменение показателей тестов интеллекта на уровне популяции……368

Культурное разнообразие…………………….372

Часть 4. ТЕСТИРОВАНИЕ ЛИЧНОСТИ……………………………….379

13. Стандартизованные самоотчеты как метод изучения личности………. 380

Методики, основанные на отборе

релевантного содержания………………..381

Привязка к эмпирическому критерию .. 382 Применение факторного анализа

при разработке тестов………………………..396

Теория личности в разработке тестов … 401 Аттитюды тестируемых

и систематическая ошибка

в ответах………………………………………………409

Черты, состояния, люди и ситуации … 414 Современное состояние личностных

опросников…………………………………………..421

14. Измерение интересов

и аттитюдов ……………………………..422

Инвентари интересов: текущее

состояние……………………………………………..423

Инвентарь интересов Стронга

(Strong Interest Inventory™- Sll)…. 425 Инвентари интересов: общий обзор

и некоторые отличительные

признаки………………………………………………433

Некоторые важные тенденции………….440

Опросы мнений и шкалы аттитюдов.. 442 Локус контроля……………………………………..446

15. Проективные методики………….449

Природа проективных методик…………..449

Методики чернильных пятен……………..450

Рисуночные методики………………………….458

Вербальные методики…………………………465

Автобиографические воспоминания… 467

Методики действия……………………………..469

Оценка проективных методик…………….473

16. Прочие методики психологической оценки…………….484

Средства определения стилей

и типов…………………………………………………484

Ситуационные тесты………………………….492

Представления о себе и личные

конструкты………………………………………….496

Отчеты наблюдателей………………………..505

Биографические сведения……………………512

Часть 5. ОБЛАСТИ ПРИМЕНЕНИЯ ТЕСТИРОВАНИЯ……………………….515

17. Основные области применения тестов в наше время……………………516

Тестирование в образовании……………….516

Типы образовательных тестов………….524

Тестирование в сфере профессиональной деятельности…..535

Использование тестов в клинической психологии и психологическом консультировании………………………………556

18. Этические и социальные

аспекты тестирования…………………583

Этические проблемы психологического тестирования и психологической оценки…………………………………………………..585

Оценка квалификации пользователей и профессиональная компетентность…………………………………..586

Профессиональная ответственность

издателей тестов………………………………..588

Защита неприкосновенности

личной жизни……………………………………..590

Конфиденциальность………………………….592

Сообщение результатов теста……………..594

Тестирование особых популяций………595

ПРИЛОЖЕНИЕ А……………………….602

Алфавитный перечень тестов и других оценочных инструментов…. 602

ПРИЛОЖЕНИЕ Б……………………….607

Адреса издателей, распространителей и организаций, связанных с вопросами разработки и использования тестов…………………….607

ЛИТЕРАТУРА……………………………..609

АЛФАВИТНО-ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ……………………………….674

ПРЕДИСЛОВИЕ

К РУССКОМУ ИЗДАНИЮ

В 1982 г. издательство «Педагогика» выпустило русский перевод книги Анны Ана-стази «Психологическое тестирование», которую редакторы перевода — К. М. Гуре-вич и В. И. Лубовский — по праву назвали «энциклопедией западной тестологии». Выход книги такого масштаба — всегда событие, а если учесть время и место — событие, как модно сейчас говорить, знаковое, поскольку ее появление было тогда воспринято как снятие негласного табу на широкое использование тестов в практической работе психологов, дефектологов, педагогов и других специалистов. Хотя со времени принятия печально известного постановления ЦК ВКП(б) о педологических извращениях в системе наркомпросов прошло более 45 лет, в начале 1980-х гг. его последствия были еще весьма ощутимы в советской психологии и педагогике. Так или иначе, книга Анастази стала для многих из нас не только источником знаний, но и тем долгожданным глотком свободы, который партия и правительство расчетливо давали сделать советской интеллигенции, дабы она не деградировала в изоляции от остального мира.

С тех пор прошло почти 20 лет. Многое изменилось в нашем обществе, однако потребность в книгах такого уровня, к счастью, осталась прежней, а если говорить о психологах, то, возможно, даже возросла вместе со значительным увеличением их числа. Издание 1982 г. с тиражом в 15 000 экземпляров стало библиографической редкостью почти сразу после выхода в свет. И хотя к настоящему времени выпущенный издательством «Педагогика» знаменитый двухтомник Анастази явно устарел, он по-прежнему пользуется большой популярностью у студентов, аспирантов и практических работников, связанных с тестированием. Мне не совсем понятно, почему наши — теперь уже не следующие директивам партии — издательства не воспользовались столь благоприятной маркетинговой ситуацией и не предприняли попыток выпустить перевод более свежего издания Psychological Testing, которая разошлась бы моментально. Возможно, потому что последнее, шестое, издание книги Анастази вышло в 1988 г. и могло показаться нашим издателям в середине 1990-х гг. не совсем «свежим». Возможно, были и другие причины, — книги, в которых встречаются формулы и графики, не пользуются любовью издателей. Как бы то ни было, это шестое издание оказалось на данный момент последним изданием «Психологического тестирования» Анны Анастази, ибо вышедшее в 1997 г. седьмое издание книги с тем же названием представляет собой в корне переработанный вариант, уже в соавторстве с Сюзаной Урбиной, и является, по существу, новой книгой. Именно этот вариант издательство «Питер» предложило мне для перевода.

Эта новая книга отличается от предыдущих изданий авторского учебника Анны Анастази в нескольких важных отношениях. Самые заметные перемены связаны с уменьшением объема. При незначительном изменении структуры глав, книга стала гораздо компактнее — теперь это один том, хотя и весьма солидный. Сокращению подверглись, в основном, подробности, касающиеся построения конкретных тестов и их психометрических характеристик. Однако тем, кто только начинает знакомиться

Предисловие к русскому изданию

9

с такой сложнейшей областью деятельности, как психологическое тестирование, излишние подробности только мешают. К тому же конкретная информация о тестах, публикуемая в книгах учебного характера, даже для специалистов представляет скорее исторический интерес, поскольку устаревает с неимоверной скоростью. Для свежей информации существует периодика. Поэтому, если быть объективным, от сокращения объема книга только выиграла как учебник начального уровня.

С другой стороны, любое сокращение учебника влечет за собой снижение его самодостаточности. Современные учебники, особенно западные, встроены в систему информационного обеспечения через разветвленную систему ссылок на многочисленные источники, в которых подробно рассматриваются затрагиваемые в них вопросы. Книга Анастази и Урбины тоже построена в этом ключе и содержит обширную библиографию источников на английском языке, ссылки на которые даются практически в каждом абзаце текста. Для отечественных читателей это оборачивается двумя проблемами: получением доступа к таким источникам и необходимостью достаточно хорошо знать английский язык, чтобы быстро ознакомиться с их содержанием. Если последнюю проблему каждый человек решает самостоятельно, то решить первую проблему, даже с учетом развития Интернета, далеко не так просто. На мой взгляд, паллиативным решением могло бы быть создание собственного — минимального — информационного обеспечения для каждой заслуживающей того переводной книги. «Психологическое тестирование», несмотря на свой энциклопедический характер, относится к книгам типа «знаю что», и в этом ее достоинство. Но есть еще книги типа «знаю как», на которые, помимо нормативных документов, чаще всего и ссылаются А. Анастази и С. Урбина. К сожалению, именно таких книг не хватает нашим студентам, аспирантам и практикам. Разумеется, речь идет не о рецептурных поделках, а о серьезной литературе, написанной, однако, не для зрелых специалистов (такая литература у нас все же есть), а для тех, кто хочет стать таковым. Если говорить конкретно об издаваемой книге, то в качестве ее сопровождения хорошо было бы своевременно перевести ряд книг учебного характера по конструированию тестов, современным методам анализа заданий, метаанализу, многомерному шкалированию, факторному и кластерному анализу, методу моделирования структурными уравнениями, да и по отдельным типам тестов тоже. Это значительно бы повысило ее эффективность как учебника. Пока же в качестве такого сопровождения можно рекомендовать единственную книгу Пола Клайна «Справочное руководство по конструированию тестов» (1994), переведенную Е. П. Савченко под ред. Л. Ф. Бурлачука, — и то в принципе, поскольку она уже стала библиографической редкостью.

Изменения в содержании книги отражают основные тенденции развития психологического тестирования, которые авторы связывают с непрерывно возрастающим влиянием компьютеризации на эту область и с ее превращением в сферу политических и правовых интересов. Причем, как мне показалось, авторы придают компьютеризации статус фактора интеграции психологической науки в целом, и методов тестирования в частности, приводя в качестве примеров развитие психологической оценки, объединяющей два традиционно противопоставлявшихся подхода — психометрический и клинический; тенденцию к объединению нейропсихологических (косвенных) методов диагностики локальных поражений головного мозга с прямыми методами нейроинтроскопии; попытки учесть при разработке новых тестов неразрывное единство когнитивных и личностных переменных, и др. Все это действительно так, но, на мой взгляд, роль компьютеризации во всем этом гораздо скромнее. Интегративные

10

Предисловие к русскому изданию

тенденции в психологии — результат ее собственного внутреннего развития. Психологи наконец-то стали понимать, что психоанализ и когнитивная психология — два совместимых аспекта описания сложнейшей природы человеческого поведения, а теория деятельности должна существовать не вместо всех научных школ, а вместе с другими подходами к объяснению человеческой психики. Компьютеризацию же лучше рассматривать как условие, облегчающее проявление интегративных тенденций, выстраданных в ходе короткой, но полной драматизма истории психологической науки.

Социальным, этическим и правовым аспектам тестирования в этом издании уделяется еще больше внимания, чем в прежних. Некоторые из затрагиваемых проблем, безусловно, специфичны для Америки и обусловлены содержанием конкретных законов. Тем не менее за всеми частностями скрывается ряд общих тенденций, крайне важных для развития психологического тестирования в нашей стране. Укажу лишь на одну, главную, на мой взгляд. Три составляющих ситуацию тестирования элемента — тестируемый, тестирующий и тест — по своему значению окончательно выстроились в указанном порядке. Из этого, казалось бы, тривиального факта вытекает множество отнюдь не тривиальных следствий методического, этического, социального и даже политического характера. С тестов постепенно снимаются обвинения во всех смертных грехах. Тесты — всего лишь инструменты в руках людей, и как любые другие инструменты — лопаты, пилы, топоры — могут быть хорошими и не очень, а иногда вообще бракованными. Для пользователей тестов все более очевидным становится факт, что все люди разные. Отсюда непременным условием подбора тестов, организации тестирования и, что особенно важно, интерпретации его результатов является учет истории развития индивидуума, особенностей его жизненного опыта и другой информации, релевантной целям тестирования. Взгляд на тестирование как экономящий время заменитель психологической оценки индивидуума уходит в прошлое. Все это резко повышает профессиональную, моральную и правовую ответственность тестирующего, распространяющуюся на весь процесс тестирования, от выбора подходящего для конкретных целей и конкретного человека теста до сообщения заключения по результатам теста получателю. В связи с этим повышаются и квалификационные требования к пользователям тестов. К слову сказать, просто купить профессиональный тест в Америке, пожалуй, сложнее, чем револьвер, поскольку в обществе давно осознали, насколько опасным в руках неопытных или безответственных людей может быть этот психологический инструмент. Вряд ли нужно убеждать читателей в остроте и актуальности подобных вопросов для сложившегося в нашей стране положения дел в области психологической практики.

Работая над переводом этой книги, я, естественно, пользовался русским изданием 1982 г., которое представляет собой перевод с четвертого издания Psychological Testing, вышедшего в 1976 г. Когда я сравнил оба оригинала — 1976 и 1997 гг., — то оказалось, что их текст, в среднем, совпадает примерно на 50% (естественно, в одних главах этот процент значительно меньше, в других — больше). Это вселяло оптимизм, сокращая работу вдвое. Однако, сравнив русский перевод издательства «Педагогика» с книгой, которую мне предстояло перевести, я обнаружил, как это ни покажется странным, гораздо меньше совпадений. Парадокс объясняется просто — временем. Этот перевод делался в конце 1970-х — начале 1980-х гг., и он просто устарел — как в отношении научного языка, так и в плане смысловых акцентов. К тому же текст глав, посвященных статистическим аспектам тестирования, содержал изрядное количество терминоло-

Предисловие к русскому изданию

11

гических ошибок и смысловых неточностей, допущенных (по понятным причинам) переводчиками и пропущенных (по непонятным причинам) редакторами. Поэтому ничего не оставалось, как перевести всю книгу заново, сохраняя в совпадающих частях отдельные предложения и небольшие куски из старого перевода в тех случаях, когда они вписываются в современное прочтение текста.

Если говорить о трудностях перевода, то основная и, пожалуй, единственная трудность связана с лексически точным и кратким переводом названий тестов, нормативных документов, организаций и законов. В этой области нет устоявшихся образцов, зафиксированных в словарях, и потому возможны многочисленные варианты. Что касается названий тестов, то, как справедливо подчеркивают авторы этой книги, по ним нельзя судить о том, что измеряет тот или иной тест. Тем не менее большинство непрофессионалов судят о тестах как раз по их названию. Проблема усугубляется тем, что даже на языке оригинала названия тестов далеко не всегда точно соответствуют их содержанию и назначению, а при переводе вносятся дополнительные искажения. К примеру, вряд ли стоит называть тест, проверяющий понимание элементарных законов механики, изучаемых в средних классах школы, «тестом технических способностей», как это делается в русском издании 1982 г. В этом издании при переводе названий тестов я следовал, во-первых, принципу точности, и только во-вторых — принципу «красивости» названий товара (а то, что тесты — это товар, теперь хорошо известно и российским пользователям). В скобках после каждого названия теста, документа, организации или важного термина приведены соответствующее название или термин на языке оригинала. Это не только позволяет проверить работу переводчика, но и выполняет роль вспомогательного словаря для тех студентов и аспирантов, которые читают литературу по психологии на английском языке. Что касается математико-статистических терминов, то, в целом, они приведены в соответствие со стандартной терминологией в данной области.

Надеюсь, что эта книга послужит благородному делу преумножения знаний и повышению профессиональной культуры в области психологического тестирования, по меньшей мере, для нескольких поколений наших студентов, аспирантов и практических работников.

9 января 2001 г.

А. А. Алексеев

ПРЕДИСЛОВИЕ

Памяти Джона Портера Фоули-младшего, внесшего существенный вклад в подготовку всех предыдущих изданий этой книги, посвящается.

АннаАнастази Сюзанна Урбан

Девяностые годы свидетельствовали о неуклонном повышении и расширении интереса к психологическому тестированию, обнаружившегося в восьмидесятые. На это указывает как разработка новых тестов, часть которых отражает принципиально новые подходы, так и непрекращающиеся исследования существующих тестов наряду с систематическим пересмотром их более ранних версий. Главная цель, которую мы преследовали при отборе психодиагностического инструментария, заслуживающего упоминания или обсуждения на страницах этой книги, — раскрыть перед читателями многообразие измерительных инструментов, доступных в этой области на сегодняшний день, а также показать ряд тестов и методик, важных в историческом плане. Любая попытка дать исчерпывающее описание всей области психологического тестирования, или даже сколько-нибудь значительной ее части, потребовала бы книги иного объема.

Повышенное внимание уделяется людям, проходящим тестирование. Пользователи тестов побуждаются к поиску причин качества выполнения конкретного теста конкретным человеком в том, с какими событиями ему пришлось столкнуться в своей жизни и как он на них реагировал. Например, какие биографические сведения о данном человеке могли бы помочь понять его ответы на тест и повысить точность осуществляемого на основе полученных оценок прогнозирования последующего поведения — в школе, на работе и в других повседневных ситуациях? Из этого следует, что пользователь теста несет повышенную ответственность при выборе подходящих для конкретного человека тестов и методов проведения тестирования, равно как и при сообщении и использовании полученных результатов. Именно поэтому данный учебник задумывался, в основном, с целью обеспечить основу для правильного пользования тестами.

Эффективное использование тестов требует хотя бы элементарного знакомства с их конструированием. Такие знания необходимы для того, чтобы пользователь мог оценить различные тесты, выбрать среди них подходящие для определенных целей и конкретных обследуемых и правильно интерпретировать результаты тестирования. Хотя эта книга не адресована конкретно профессиональным разработчикам тестов, тем не менее, она содержит достаточно сведений о том, как создавать тесты, отвечающие потребностям пользователя.

В данном издании также даются простые объяснения некоторых широко используемых и быстро развивающихся понятий и процедур, которые, по всей вероятности, будут оказывать влияние на психометрическую практику в XXI в. Примерами таковых служат: компьютеризированное адаптивное тестирование, метаанализ, моделирование структурными уравнениями, использование доверительных интервалов вместо традиционной статистической значимости, кросс-культурное тестирование и все более широкое применение факторного анализа в разработке тестов личности и спо-

Предисловие

13

собностей. Применение различных моделей и техник факторного анализа в практике тестирования обеспечило получение норм, которые допускают интерпретацию оценок на разных уровнях специфичности или обобщенности, так что пользователь теста может выбрать тот уровень, который наиболее подходит для данного конкретного человека или конкретной ситуации.

В настоящее время в тестировании достаточно явно обнаруживаются две долгосрочные тенденции; вместо того чтобы посвятить им отдельные главы, мы обращаемся к их обсуждению на протяжении всей книги, всякий раз, когда рассматриваемый материал представляет для этого удобный случай. Первая тенденция — это постоянно возрастающее влияние компьютеризации на развитие, создание и проведение тестов, в добавление к твердо установившейся практике использования компьютеров для подсчета набранных баллов и последующей обработки результатов тестирования. Скорость технического прогресса столь велика, что он, по-видимому, опережает развитие существующих областей психологии. Однако технология оказывает мощное содействие психологии в ее продвижении на передовые позиции как в теории, так и в методах исследования. Например, в наше время происходит быстрое объединение и «перекрестное оплодотворение» различных областей психологии, чему в немалой степени способствует та легкость, с какой исследователи всего мира могут получать необходимую информацию, обрабатывать ее и обмениваться между собой полученными данными. Переосмысление когнитивных и личностных черт как взаимодействующих и неразделимых сторон индивидуума, который, в свою очередь, неотделим от его физического «Я», жизненных событий и среды, — один из самых ярких и многообещающих примеров этой тенденции к интеграции.

Вторая тенденция, весьма серьезно сказывающаяся на психологическом тестировании, отражает нарастающее вторжение политических и правовых интересов в эту область. Несмотря на то что эта тенденция сеет разногласия и несет в себе потенциальную опасность для развития тестологии, она все же имеет ряд позитивных последствий в виде побуждения к творчеству и повышенной бдительности в отношении планируемых и непредвиденных последствий использования тестов. Ссылки на ряд законов, оказавших влияние на практику тестирования, приведены на протяжении всего текста учебника, вместе с указанием их названий и года принятия; с их содержанием можно ознакомится по отчетам конгресса США и другим периодическим изданиям, которые можно найти в справочных отделах большинства библиотек.

Если на обложке первых шести изданий этого учебника стояло имя одного автора, то седьмое его издание подготовлено в соавторстве. Два автора вместе составляли план реорганизации глав и перечень охватываемых ими главных тем. Конкретная работа по пересмотру и переписыванию глав учебника была распределена следующим образом: Анастази — главы 1-7 и 10-12, Урбина — главы 8, 9 и 13-18. Кроме того, Урбина взяла на себя основные административные функции и ведение переписки. Однако, каждый из авторов знакомился с черновыми вариантами глав другого и вносил предложения, которые обычно принимались и вносились в окончательный текст книги.

Очевидно, что эта книга не могла быть написана, если бы авторы не имели доступа к результатам исследований и публикациям многих психологов из различных уголков США и других стран. Их имена встречаются на протяжении всей книги: при цитировании публикаций, при указании источников конкретных данных и в сводном перечне ссылок на использованную литературу. Внутри этой впечатляющей группы не-

14

Предисловие

сколько человек все же выделяются на общем фоне благодаря своей постоянной готовности к бескорыстному сотрудничеству и величине сделанного ими вклада в наше общее дело. Среди них мы должны в первую очередь упомянуть Дайану Браун (Di-anne Brown) из научной дирекции Американской психологической ассоциации (АРА), Аурелио Прифитеру (Aurelio Prifitera) и Джоан Ленке (Joanne Lenke) из Психологической корпорации (Psychological Corporation), Лоран Летандр (Lorin Letendre) из издательства Consulting Psychologists Press, Кэрол Уотсон (Carol Watson) из корпорации NCS (National Computer Systems), Дугласа Джексона (Douglas Jackson) из корпорации SAS (Sigma Assessment Systems), Элизабет Мак-Грэт (Elizabeth McGrath) и Джона Освальда Gohn Oswald) из издательства Riverside Publishing Company, а также Уэйна Камару (Wayne Camara) из Совета колледжей (College Board). Наконец, мы выражаем глубокую благодарность персоналу библиотек Университета Фордхама и Университета Северной Каролины за удовлетворение наших запросов, постоянно менявшихся в процессе работы над этой книгой.

А. Анастази С. Урбина