Как трансформируется понятие валидности

Развитие технологий определяет трансформацию многих областей и сфер, и психометрика не исключение. Новые подходы и методологии, новые инструменты тестирования и оценки — их количество растёт в геометрической прогрессии. Как разобраться, что из новых оценочных решений сможет заменить привычное — чтобы не пользоваться устаревшими инструментами? В то же время — как не переплатить за неоправданно дорогое решение в тех случаях, когда задачу можно решить проверенными способами? На что обращать внимание при выборе провайдера или разработчика психометрического инструмента?

Мы запускаем серию материалов о психометрике — о тех трендах и изменениях, которые будут определять эту область, а значит, и оценку персонала в ближайшие несколько лет. Сегодня расскажу о валидности: как трансформируется это понятие, почему привычный подход к определению валидности становится малоинформативен и что именно про валидность HR-специалисту полезно уточнять у провайдера при выборе инструмента.

Чётких границ между разными типами валидности больше нет

Сегодня о валидности часто говорят как о конечном показателе: провайдеры оперируют цифрой, чтобы подтвердить качество своего инструмента. Нередко указывают показатели по разным типам валидности, например:

  • конвергентной (когда результаты проведённой оценки сравниваются с результатами оценки тех же характеристик, но с помощью другого инструмента)
  • критериальной (когда результаты оценки сравниваются с показателями эффективности или результативности сотрудника)
  • инкрементной (когда сравнивается, насколько повысилась корреляция при добавлении нового инструмента в уже существующую оценочную процедуру)

Посчитать валидность разных типов — это скорее утилитарный подход. Сегодня мы наблюдаем преобразование этого понятия. Исследователь Мессик предложил подход, который стирает чёткие границы между типами валидности и концентрируется на расширении способов и источников получения свидетельств валидности результатов тестов (Messick, S. Standards of validity and the validity of standards in performance asessment. Educational measurement: Issues and practice, 1995).

Получать разные свидетельства валидности разными способами и на всех этапах создания инструмента — суть нового подхода. Перечислю, на чём могут быть основаны разные свидетельства валидности:

1. На содержании теста — эти свидетельства показывают, насколько хорошо контент (то есть задания) теста отражает содержательную область (знания, умения, навыки, модель компетенций), которая должна быть измерена.

2. На внутренней структуре теста — они демонстрируют, насколько хорошо структура теста отражает те знания, умения, компетенции и их индикаторы, которые мы можем наблюдать в ситуации тестирования и на рабочем месте.

3. На выявлении когнитивных процессов, задействованных при ответе на задания — отражают, какие стратегии используют тестируемые и насколько хорошо эти стратегии позволяют сделать те выводы, которые хотят сделать разработчики теста.

4. На связи с другими переменными или результатами другого теста — показывают, насколько тест и измеряемый им конструкт ведёт себя так, как ожидается в соответствии с уже проведёнными исследованиями и накопленными знаниями.

5. На последствиях (запланированных и незапланированных) применения теста — отражают то, как используются результаты теста: какие решения в отношении тестируемых принимаются и насколько они правомерны.

Важно отметить, что в соответствии с новым представлением о валидности, она перестаёт быть конкретным числом, а становится более многогранным показателем, ведь свидетельством валидности может быть как коэффициент корреляции, так и, например, экспертное заключение о качестве тестовых заданий.

Сбор разных свидетельств обеспечивает обоснованный вывод о том, что по результатам теста можно выносить соответствующие суждения об участниках оценки

Это напрямую связано с экологической валидностью, которая в оценке персонала пока недооценена. Она показывает, насколько использование теста и те решения, которые принимаются на его основе, соответствуют той цели, для которой он разрабатывался (American Educational Research Association, American Psychological Association, & National Council on Measurement in Education. Standards for educational and psychological testing. American Educational Research Association, 1999).

Можно привести пример из сферы образования: ЕГЭ как один из самых известных инструментов в нашей стране разрабатывался для оценки знаний учеников. Однако результаты единого экзамена иногда становятся основой рейтинга регионов по успешности школьников. Это пример низкой экологической валидности: нельзя использовать инструмент, предназначенный для индивидуальной оценки, в целях ранжирования федеральных субъектов и определения успешности системы образования в регионах. Точно так же нельзя использовать для оценки потенциала инструмент, который разработан для отбора сотрудников.

Если цель — отбор, при разработке теста авторы собирали все возможные свидетельства и настраивали все методы обработки результатов для того, чтобы доказать, что на основе результатов правомерно проводить именно отбор кандидатов. При этом неизвестно, насколько качественной окажется оценка потенциала с помощью этого же инструмента.

Новый подход к валидности: что это значит для HR

Цель оценки и принимаемые по её результатам решения, вероятно, будут определять, какие именно свидетельства валидности собирает провайдер. И если вы выбираете оценочный инструмент, полезно уточнить у провайдера следующие вопросы:

Может ли провайдер, опираясь на проведённые исследования и расчёты, предъявить свидетельства экологической валидности, то есть показать, как доказывается обоснованность выводов, которые делаются по результатам теста? Насколько обширные цели применения инструмента указывает провайдер? До недавнего времени на рынке довольно редко встречались инструменты, которые содержали чёткое описание целей их применения. Ещё реже можно встретить тесты и опросники, в описании которых разработчики указывают, для принятия каких решений этот инструмент использовать нельзя. Однако сейчас ситуация меняется, провайдеры движутся в сторону определения экологической валидности. Поэтому если в описании психометрического инструмента нет целей его применения — это тревожный знак. А если их слишком много и они разрозненны, это риск того, что на выходе вы получите размытые, мало отражающие реальность результаты. 

Может ли провайдер помимо конечных показателей предъявить механику получения свидетельств валидности? Например, показать, как была составлена выборка апробации инструмента, соответствует ли она целевой аудитории, которая впоследствии будет проходить тестирование. Какие методы использовались для вывода о том, что результатам теста можно доверять.

Очевидно, мы всё больше будем уходить от конкретного показателя валидности инструмента к оценке того, как этот инструмент может быть использован. Стандартные параметры валидности / надёжности инструмента будут малоинформативны, так как свидетельства валидности будут определяться целями оценки.

Написать нам
Обращаясь к нам по телефону (по электронной почте), Вы даёте согласие ООО «Форматта» на обработку содержащихся в обращении персональных данных в соответствии с Политикой конфиденциальности
Прочитайте еще:

Сайт Formatta.ru использует файлы cookies и собирает пользовательские данные.

В целях обеспечения Вашего взаимодействия с сайтом, сбора статистики и проведения ретаргетинга. Продолжая использовать сайт, Вы даёте согласие на обработку указанных данных. Узнать подробнее →