Для обеспечения валидности и надежности наблюдения что предпринимают

Обновлено: 14.05.2024

Так, в опытах Г. Мюнстерберга с вагоновожатыми оценивалась именно конкурентная валидность. Такого рода показатели валид-ности ориентированы в большей мере на оценку актуального состояния измеряемых свойств и в меньшей мере пригодны для прогноза. Однако такие оценки также имеют право на существование; они особенно уместны в случаях, когда профессиональное обучение достаточно длительное, а организация заинтересована в ско-

рейшем получении способа дифференцирования работников по субъектным параметрам их пригодности. Роль таких оценок может быть тем более значительной, чем в меньшей степени измеряемые свойства подвержены упражнению, развитию, т.е. являются относительно устойчивыми; при этом есть основания предполагать сохранность их влияния и в будущей профессиональной деятельности работников. В подобных случаях следует учитывать также многообразие факторов, влияющих на эффективность труда (особенности квалификации, опыта, мотивацию труда, состояние здоровья и пр.).

На рис. 11 представлены виды валидности, учитываемые в оценке и прогнозировании профпригодности. Максимальная величина валидности теста (батареи тестов) ограничивается мерой точности проводимых измерений (показателями надежности теста) и мерой точности внешнего критерия (в нашем случае — степенью надежности оценки показателей профессиональной успешности).

Эмпирическая валидность тестов может оцениваться с помощью подсчета коэффициента корреляции или по проценту совпадения рангов успешности, определяемой с помощью тестов, и успешности выполнения профессиональной работы. Минимально допустимым считают коэффициент корреляции, равный 0,36. Если процент совпадения выше 75 %, тест высоко валиден; методика валидна в средней степени при 50 — 75% совпадения; методика обладает низкой валидностью при проценте совпадения тестовых данных и успешности работы менее 50 %.

В опытах Г. Мюнстерберга с телефонистками лишь в трех случаях из тридцати было обнаружено несовпадение успешности девушек по тестам и успешности выполнения их работы. Таким образом, совпадение оценок составило 90 %, что является высоким показателем внешней критериальной валидности, причем валидности прогностической, ориентированной на будущие события, на проспективный критерий (Основы психодиагностики. 1996, с. 147).

Рис. 11. Виды валидности тестов в профессиональной психодиагностике

Вторым базовым свойством психологического теста после валидности является надежность теста. Надежность теста в ситуации прогнозирования профессиональной пригодности (успешности)

В профессиональной психодиагностике используют также критерий дифференцированности тестовых методик (если применяет-

ся не один тест, а батарея тестов). Согласно этому критерию применяемые психодиагностические методы должны дополнять друг друга и по возможности не дублировать получаемые с их помощью сведения.

Оценивают также экономичность психодиагностической процедуры. Оценка экономичности предполагает учет финансовых затрат на проведение психодиагностического обследования разными методами. Однако не стоит ограничиваться только замерами текущих процедурных затрат, полезно оценивать итоговый экономический эффект психологического отбора, который может быть получен от снижения стоимости профессионального обучения, сокращения сроков профессиональной адаптации, снижения брака, аварийности, текучести кадров.

А. Г. Шмелев (Основы психодиагностики, 1996) выделяет несколько типичных ситуаций, требующих от психолога-практика, занимающегося проблемами подбора и оценки персонала, разного уровня компетентности:

ситуацию применения уже разработанных кем-то тестов,
имеющих показатели надежности, валидности, когда важно до
казать, что тест валиден по отношению к конкретной обследуе-
мой профессии, а не довольствоваться показателями валидности
теста по отношению к другим видам труда;

ситуацию адаптации теста, когда необходимо создавать тес
товые нормы;

ситуацию конструирования нового теста; при этом есть кон-
цепция требуемых в профессии психологических свойств — ПВК,
но нет процедуры их исследования и измерения; в этом случае
необходимы самая высокая квалификация психолога, трудоемкая
работа по созданию теста, проверке его валидности и надежно
сти, разработке тестовых норм.

Психодиагностические тесты могут быть разных типов:

стандартизованные (указаны нормативные значения показа-
телей, учитываемые при интерпретации данных) (нестандарти
зованные тесты;

тесты поведенческие (требующие выполнения двигательной,
перцептивной задачи, функциональные пробы и пр.) (вербаль-
ные тесты-опросники;

критериально-ориентированные (когда заданы граничные
значения скорости работы или качества).

Этические принципы в профессиональной психодиагностике

В работе с персоналом при использовании методов психодиагностики важно соблюдать принципы профессиональной этики

психологическое тестирование могут проводить только диш
ломированные специалисты-психологи, этим обеспечивается
принцип компетентности психодиагностики;

необходимо иметь доказательство содержательной связи тес-
товых заданий и профессиональной деятельности;

должен выдерживаться принцип объективности тестовой
обследования;

должна быть соблюдена конфиденциальность (в процессе про-
ведения тестирования, в обработке данных, в хранении и исполь-
зовании персональных сведений);

обследуемый должен иметь право посмотреть на результаты сво-
его теста (в соотнесении с принятыми в организации нормами);

форма предоставления информации испытуемому должна
помогать в решении его проблем;

тестирование не должно наносить ущерба личности, досто-
инству обследуемого человека (принцип суверенитета испытуе-
мого) (Крылов А. А., Юрьев А. И., 2000, с. 545 — 552).

Критерии и способы оценки профессиональной эффективности работника

Одна из важных задач психологов в работе с персоналом состоит в оценке эффективности трудовой деятельности работника. Процедуры аттестации персонала и прогнозирования профпригодности с необходимостью опираются на количественную оценку эффективности труда. В последние годы эффективность труда работника не ограничивается собственно продуктом его деятельности. Труд не может оцениваться как эффективный, если работники не удовлетворены его содержанием, оплатой, отношениями в коллективе, если их благополучие оказывается в целом сомнительным, если высоки профессиональная заболеваемость и травматизм, если персонал не проявляет лояльности к своей организации, не интересуется вкладом в достижение целей организации.

К способам оценки профессиональной эффективности работников могут быть отнесены следующие:

оценка результатов трудовой деятельности в тех случаях,
когда продуктивность и качество труда относительно легко под
даются измерению (например, показатели производительности
труда, частота случаев брака, ошибок по вине работника, число
аварий за определенный период времени для шоферов; количе-
ство обслуженных телефонисткой клиентов в единицу времени
и т.д.);

оценка уровня владения профессиональными знаниями (оце-
нивается с помощью критериально-ориентированных тестов оп
росников);

оценка уровня выполнения типовых профессиональных за
дач, владения профессиональными умениями (могут использо-
ваться также критериально-ориентированные тесты);

экспертная оценка успешности деятельности работника;

оценка мотивации труда, показатели здоровья, трудовой дис-
циплины.

Способы получения экспертных оценок и пути повышения их

Эксперты, оценивающие количественно уровень профессиональной эффективности работников, используют балльные шкалы (с градацией шкал от 5 до 7). Если градаций меньше 5, то возникают трудности в различении работников по успешности; если градаций больше 7 — возникают трудности в работе экспертов, снижающие точность оценок. Наряду с дискретными балльными шкалами используют также графические шкалы, когда эксперт имеет возможность выбрать плавную, непрерывную оценку оцениваемого феномена.

Разработаны технологии работы экспертов, повышающие точность их оценок. К ним относятся шкалы рейтинга поведения и шкалы наблюдения за поведением.

Разработка шкал рейтинга поведения включает следующие этапы:

выявление профессиональных задач и ситуаций (в процессе
психологического анализа профессии);

описание форм поведения, характеризующихся как хоро-
шее, среднее или плохое выполнение данной работы;

присвоение численных показателей в порядке уменьшения
значения (10 — отличное поведение, 1 — очень плохое) конкрет-
ным формам поведения;

устранение тех форм поведения, по поводу которых у экс-
пертов возникает много разногласий;

5) упорядочение шкалы поведения таким образом, чтобы она
отражала весь значимый спектр поведения (Купер Д., Робертсон А.,
2003, с. 58).

При разработке шкал учитывается мера согласия экспертов в отнесении данного утверждения к разным категориям. Для 7-балльных шкал разность между квартилями распределения не должна превышать 1,5 балла (для 9-балльной шкалы — 2 баллов).

Квартилем называют границу на шкале измеряемого свойства, отделяющую 25 % испытуемых от выборки стандартизации. Выделяют три разновидности квартилей: Qi — первые 25 %; Q 2 — 50 % (медиана); СЬ— 75 %) (Основы психодиагностики. 1996, с. 484).

Когда шкала оценки поведения подготовлена, эксперты по ней отмечают утверждения, которые правильно характеризуют данного субъекта. Затем балльные оценки по совокупности суждений суммируют и получают показатель профессиональной успешности.

Шкалы наблюдения за поведением строятся на основе метода наблюдения и последующего ранжирования работников по степени их профессиональной успешности (пригодности). Порядок работы:

составляется список группы по алфавиту;

выбирают субъекта с максимальной эффективностью и при-
сваивают ему ранг 1, его фамилию вычеркивают и заносят в но
вый список;

выбирают субъекта с минимальной эффективностью (ранг = п,
где п — число лиц в группе), его фамилия вычеркивается;

из оставшихся выбирают субъекта с максимальной эффек-
тивностью, присваивают ему ранг 2 и т.д.

Процедура продолжается, пока не будут проранжированы все, и, таким образом, все члены рабочей группы оказываются оценены по эффективности.

Используется также способ ранжирования работников по эффективности методом парных сравнений. При этом каждый субъект сравнивается с каждым другим, входящим в группу, и указывается, кто из них имеет большую профессиональную эффективность (пригодность). Далее подсчитывается число пар, в которых было отмечено преобладание данного субъекта и по этому показателю ему присваивается ранг.

N (число пар сравнения) =

где n — численность группы.

Типичные ошибки экспертов:

эффект ореола, человеку, получившему высокую оценку по какому-либо параметру, присваивают и далее (уже незаслуженно) высокие оценки по другим параметрам;

эффект снисходительности: эксперт склонен всегда давать завышенные оценки;

ошибка центральной тенденции: эксперт предпочитает исполь-зовать средние оценки, избегая крайних показателей;

эффект контраста: эксперты оценивают не показатели компе-тентности человека (по отношению к некоторому установленному требуемому уровню), а показатели оцениваемого человека по отношению к окружающим его людям (Купер Д., Робертсон А., 2003).

Для повышения точности работы экспертов их следует специально подбирать (учитывая их компетентность), обучать, по возможности четко и однозначно определять особенности субъекта, подлежащие оценке, учитывать мнение не одного, а нескольких экспертов, оценивать всю группу работников поочередно по каждому свойству, а не по всем свойствам сразу (Кулагин Б. В., 1984).

Технология центров оценки персонала

В течение последних 20 лет за рубежом (а в 90-е гг. и в нашей стране) получила распространение технология ассессмент-цент-ров, или центров оценки персонала. Суть данной технологии состоит в подборе для кандидатов тестовых заданий, моделирующих реальные профессиональные задачи и ситуации, и оценке группой экспертов-наблюдателей за ходом и результатами выполнения этих заданий. Подбор тестовых заданий строится на основе предварительного психологического изучения профессии. Так, например, для оценки компетентности кандидатов на должности менеджеров-руководителей им предлагают следующие задания: составление делового письма; прием посетителя; выступление перед аудиторией с речью; организация делового совещания и т.д. По сути, речь идет об использовании идей естественного эксперимента, объективном наблюдении за процессом и результатом профессионального поведения. Здесь нашли отражения идеи метода критических инцидентов, а также методы экспертной оценки, точности экспертных оценок, построение оценочных шкал (Базаров Т.Ю., 1995; Джуэлл Л., 2001; Маничев С. А., 2001; Купер Д., Робертсон А., 2003; Пугачев В. П., 2000; Сергиенко С. К., 2003 и др.).

Вопросы и задания

Назовите субъектные компоненты профпригодности.

Каковы задачи аттестации персонала организации?

Каковы цели профотбора персонала?

Каковы этапы разработки системы психологического прогнозиро-
вания профпригодности?

Перечислите критерии применимости методов психологического
профотбора.

Каковы приемлемые границы надежности и валидности методов
прогнозирования профпригодности?

Оценивал ли Г. Мюнстерберг в опытах с вагоновожатыми и телефо-
нистками показатели валидности и надежности?

Какие сведения относятся к персональным данным работника?

В чем состоят этические требования в практике психологического
прогнозирования профпригодности?

Как оценить эффективность профессиональной деятельности ра-
ботников?

Каковы типичные ошибки экспертов в оценке эффективности тру-
да? Как их минимизировать?

В табл. 23 приведены результаты прогнозирования профессиональ-
ной успешности курсантов в качестве будущих строительных рабочих (ар-
матурщиков, каменщиков, плотников) с помощью психологических те-
стов (Воронов Н., 1930).

Этапы работы психотехников: психологическое изучение профессий, выявление профессионально важных качеств, общих для трех указанных профессий; разработка тестовых заданий по моделированию ПВК; обследование курсантов по тестам до начала обучения (сентябрь); обследование тех же курсантов по тем же тестам в конце обучения (декабрь); разбиение курсантов на группы профессиональной успешности по результатам сдачи ими выпускного квалификационного экзамена (декабрь).

Вопрос: Как можно оценить данные табл. 23 с точки зрения применимости использованной батареи тестов в прогнозировании профпригодности строительных рабочих, если учитывать требования современной профессиональной психодиагностики?

Таблица 23. Данные о психологическом тестировании курсантов

Группы профессиональной успешности курсантов, образованные по итогам сдачи квалификационного экзамена (декабрь)

Вы здесь: Студенты Билеты Общая психология Надёжность и валидность психодиагностических методик

Прежде чем психодиагностические методики могут быть использованы для практических целей, они должны пройти проверку по ряду формальных критериев, доказывающих их высокое качество и эффективность. К числу основных критериев оценки психодиагностических методик относятся надежность и валидность.

Большой вклад в разработку этих понятий внесли зарубежные психологи (А. Анастази, Е. Гизелли, Дж. Гилфорд, Л. Кронбах, Р. Торндайк, Е. Хаген и др.). Ими были разработаны формально-логический и математико-статистический аппарат (прежде всего корреляционный метод и фактический анализ) обоснования степени соответствия методик отмеченным критериям.

Надёжность методики – это критерий, который говорит о точности психологических измерений, то есть позволяет судить о том, насколько внушают доверие полученные результаты.

Это согласованность результатов тестирования испытуемых в разные моменты времени, при первичном и вторичном тестировании и с использованием разных по эквивалентности, по содержанию заданий. Надежность характеризует тесты свойств, но не состояний. Свойства:

  1. Воспроизводимость рез-тов исследования.
  2. Точность измерения.
  3. Устойчивость результатов.

Степень надёжности методик зависит от многих причин. Среди негативных факторов наиболее часто называются следующие:

Одним из важнейших средств повышения надежности методики является единообразие процедуры обследования, его строгая регламентация: одинаковая обстановка, однотипный характер инструкций, одинаковые для всех временные ограничения, способы и особенности контакта с испытуемыми и так далее.

На характеристику надёжности методик большое влияние оказывает исследуемая выборка. Она может, как снижать, так и завышать этот показатель, например, надежность, может быть искусственно завышена, если в выборке небольшой разброс результатов, т.е. если результаты по своим значениям близки друг к другу. Поэтому в руководстве обычно делается описание выборки, на котором определялась надёжность методики.

В настоящее время надежность все чаще определяется на наиболее однородных выборках, т.е. на выборках, схожих по полу, возрасту, уровню образования, профессиональной подготовке и т.п.

Разновидностей надёжности методик так же много, как и условий, влияющих на результаты диагностических испытаний. Так как все виды надёжности отражают степень согласованности двух независимо полученных рядов показателей, то математико-статистический приём, с помощью которого устанавливается надёжность методики, - это корреляции (по Пирсону или Спирмену). Надёжность тем выше, чем больше полученный коэффициент корреляции приближается к единице, и наоборот.

К.М. Гуревич предложил толковать надёжность как:

  1. надёжность самого измерительного инструмента (коэффициент надежности);
  2. стабильность изучаемого признака (коэффициент стабильности);
  3. константность, т.е. относительную независимость результатов от Личности экспериментатора (коэффициент константности).

Показатель, характеризующий измерительный инструмент, предлагается называть коэффициентом надёжности; показатель, характеризующий стабильность измеряемого свойства, - коэффициентом стабильности; а показатель оценки влияния Личности экспериментатора – коэффициентом константности. Именно в таком порядке рекомендуется осуществлять проверку методики: целесообразно сначала проверить инструмент измерения. Если полученные данные удовлетворительны, то можно переходить к установлению меры стабильности измеряемого свойства, а уже после этого при необходимости заняться критерием константности. (Надёжность: ретестовая, параллельных форм, частей тела, по внутренней согласованности, факторно-дисперсионная).

Определение надежности измерительного инструмента. От того как составлена методика, насколько правильно подобраны задания, насколько она однородна зависит точность, объективность измерения.

Для проверки надежности измерительного инструмента, говорящего о его однородности (гомогенности) используют метод расщепления. Задания делят на четные и нечетные (необходимо выполнение всех заданий), а затем результаты коррелируются между собой. Если методика однородна, то большой разницы в успешности по этим половинам не будет, коэффициент будет высоким. Можно сравнивать по частям, но лучше по четным и нечетным, т.к. этот способ не зависит от тренировки, утомления и т.д.

Методика надежна, если коэффициент не ниже 0,75 – 0,85, лучше 0,90 и выше.

Определение стабильности изучаемого признака. Также необходимо установить насколько устойчив, стабилен признак, который исследователь намерен измерять. Признак со временем может меняться, но колебания его не должны иметь непредсказуемый характер.

Для проверки используется прием, который называется тест-ретест. Он заключается в повторном обследовании испытуемых с помощью этой же методики. О стабильности судят по коэффициенту корреляции между результатами первого и второго обследования. Он будет свидетельствовать о сохранении или не сохранении каждым испытуемым своего порядкового номера в выборке.

На степень устойчивости влияет разнообразие фактора. Необходимо соблюдать единообразие процедуры обследования.

При определении стабильности признака большое значение имеет промежуток времени между 1 и 2 обследованиями. Чем короче этот промежуток, тем больше шансов, что этот признак сохраняет уровень первого испытания. Целесообразно проводить повторное тестирование через короткий срок после тестирования. Экспериментатор сам устанавливает этот срок, но чаще в психологической литературе указывают на интервал от нескольких месяцев (но не более полугода). Вопрос о стабильности измеряемого свойства решается не всегда единообразно. Решение зависит от сущности диагностируемого признака.

Если измеряемое свойство уже сформировано, то коэффициент должен быть не ниже 0,80.

Определение константности, т.е. относительная независимость результатов от Личности экспериментатора. Так как методика разрабатывается для дальнейшего использования ее другими психодиагностами, необходимо определить в какой мере ее результаты поддаются влиянию личности экспериментатора. Коэффициент константности определяется путем корреляции результатов двух опытов, проводимых на одной и той же выборке, но разными экспериментаторами. Коэффициент корреляции не должен быть ниже 0,80.

Вопрос о валидности решается после того, как установлена надежность, так как ненадежная методика не может быть валидной.

Валидность теста – понятие, указывающее нам, что тест измеряет и насколько хорошо он это делает (А. Анастази). Валидность по своей сути – это комплексная характеристика, включающая, с одной стороны, сведения о том, пригодна ли методика для измерения того, для чего она была создана, а с другой стороны, какова её действенность, эффективность, практическая полезность.

По этой причине не существует какого-то единого универсального подхода к определению валидности. В зависимости от того, какую сторону валидности хочет рассмотреть исследователь, используются и разные способы доказательства. Другими словами, понятие валидности включает в себя разные ее виды, имеющие свой особый смысл. Проверка валидности методики называется валидизацией.

Валидность – соответствие конкретного исследования принятым стандартам (безупречному эксперименту).

Валидность в первом ее понимании имеет отношение к самой методике, т.е. это валидность измерительного инструмента. Такая про-верка называется теоретической валидизацией. Валидность во втором ее понимании уже относится не столько к методике, сколько к цели ее использования. Это прагматическая валидизация.

При теоретической валидизации исследователя интересует само свойство, измеряемое методикой.

Так как для определения теоретической валидизации тяжело найти какой-нибудь независимый критерий, лежащий вне методики, и поэтому раньше принимались на веру голословные утверждения о валидности этой методики. Так как теоретическая валидизация направлена на доказательство того, что методика измеряет именно свойство, которое она должна измерить. Для теоретической валидизации кардинальной проблемой является отношение между психологическими явлениями и их показателями, по средствам которой эти психологические явления пытаются познать. Она показывает, что замысел автора и результаты методики совпадают.

Не столь сложно осуществить теоретическую валидизацию новой методики, если для измерения данного свойства уже имеется методика с известной, доказанной валидностью. Наличие корреляции между новой и аналогичной старой методиками указывает на то, что разработанная методика измеряет то же психологическое качество, что и эталонная.

Для проверки теоретической валидности важно, с одной стороны, установить степень связи с родственной методикой (конвергентная валидность), а с другой – отсутствие этой связи с методиками, имеющими другое теоретической основание (дискриминантная валидность).

Важную роль для понимания того, что методика измеряет, играет сопоставление ее показателей с практическими формами Деятельности. Важно чтобы методика была проработана в теоретическом плане.

Проверяется практическая эффективность, значимость, полезность методики, так как методикой можно пользоваться только тогда, когда доказано, что измеряемое свойство проявляется в определенных видах Деятельности.

Для проверки прагматической валидности используется независимый внешний критерий – показатель проявления изучаемого свойства в повседневной жизни. В качестве такого критерия могут выступать успеваемость (для тестов способностей к обучению, тестов достижений, тестов интеллекта), производственные достижения (для методик профессиональной направленности), эффективность реальной Деятельности – рисования, моделирования и так далее (для тестов специальных способностей), субъективные оценки (для тестов Личности).

Американские исследователи Тиффин и Маккормик выделили 4-е типа внешнего критерия:

Внешний критерий должен обладать 3 основными требованиями:

  1. Должен быть релевантным, то есть должна быть уверенность, что в критерии задействованы именно те особенности индивидуальной психики, которые измеряет диагностическая методика. Внешний критерий и диагностическая модель должны находиться во внутреннем смысловом соответствии.
  2. Должен быть свободным от помех (контаминации). Следует отбирать для исследования такие группы людей, которые находятся в более или менее одинаковых условиях.
  3. Должен быть надежен. Постоянство и устойчивость исследуемой функции.

Оценка валидности методики может носить количественный и качественный характер.

Для вычисления количественного показателя (коэффициента валидности) сопоставляются результаты, полученные при применении диагностических методик, с данными тех же лиц, полученные по внешнему критерию. Используются разные виды линейной корреляции (по Спирмену, по Пирсену).

Качественное описание сущности измеряемого свойства. Здесь не используют статистическую обработку.

Существуют несколько видов валидности, обусловленных особенностями диагностической методики, а также временным статусом внешнего критерия:

Внутренняя согласованность (консистентность, конгруэнтность)

Отражает то, насколько последовательны, преемственны ответы участников выборки на вопросы теста.

Существует масса подходов к расчёту коэффициентов надёжности. В результате появляется некий статистический коэффициент, который затем интерпретируется в соответствующем контексте. Например, очень популярный метод измерения внутренней консистентности на рынке тестирования — это коэффициент α (альфа), изначально выведенный Кронбахом. Он много лет исследовал педагогическую психологию в Стэнфорде.

Разные методы расчёты надёжности в разных ситуациях могут приводить к разным по смыслу и количествам статистическим коэффициентам. Современные исследователи, в том числе и Кронбах, предлагают более стабильный метод — коэффициент ω (омега), разработанный Макдональдом, который долго занимался исследованием количественных методов в психологии в Университете Иллиноиса.


Временная консистентность (стабильность)

Если внутренняя консистентность определяет то, насколько последовательно респонденты отвечают на отдельные вопросы теста, то временная консистентность показывает то, насколько постоянны набираемые респондентами баллы на протяжении времени.

Однако нас интересует тест, как инструмент, а не респондент. Можно применить такой же подход к группе или выборке. Измерим зависимость между полученными баллами в результате первого и второго тестирований. Если сопоставимость результатов хорошая — что бы это ни означало (это предмет отдельной статьи) — можно с уверенностью утверждать, что тестирование консистентно или стабильно во времени.

Необходимо принять во внимание ещё пару моментов:

  • Во-первых, должно пройти разумное количество времени между заполнениями вопросников теста. Если человек проходит тест снова лишь через короткое время, то он может просто запомнить данные ранее ответы и именно поэтому набрать схожее число баллов.
  • Во-вторых, чем длиннее период времени между заполнением вопросника в первый и во второй раз, тем больше вероятность, что в жизни человека уже могли произойти важные события. Такие значимые события могут повлиять на респондента и, возможно, на результаты его теста.


Сравнительная надежность или метод изучения альтернативных форм

Надёжность альтернативных форм требует как минимум двух версий того же тестирования, которые имеют примерно одинаковую эффективность в измерении нужного параметра.

Идея в том, чтобы группа респондентов прошла оба теста в относительно короткий промежуток времени между ними. Баллы, набранные респондентами, затем изучаются с точки зрения корреляции или другого похожего метода, чтобы определить степень связи версий теста между собой. Высокий уровень корреляции говорит о высокой степени надёжности альтернативных форм.


Это целая сфера исследований сама по себе. Идея заключается в том, чтобы искать возможные источники ошибок измерений за пределами границ одной предметной области или понятия.

Например, внутренняя консистентность рассматривает в основном только зависимость между объектами, а временная консистентность — только постоянство на протяжении времени. Генерализация же одновременно может показывать измерения, например, зависимость между объектами и сопоставимость во времени. Более полное описание темы генерализации выходит за рамки данной статьи.

Изменения в методах исследования надежности

Ранние исследования надёжности, проведённые TTISI, были направлены на изучение внутренней согласованности в виде коэффициента альфа Кронбаха, а также на получение описательных статистик.

Теперь TTISI периодически проводит исследования временной консистентности ещё и путём повторных тестирований.

В современной западной литературе уже часто говорится о том, что для измерения внутренней консистентности существуют более эффективные методы, чем коэффициент альфа Кронбаха с доверительными интервалами, не говоря уже про давно устаревшее изучение всего и вся только через коэффициенты корреляции. TTISI планирует в будущем продолжить использовать доверительные интервалы, но также определять зависимость с использованием коэффициента омега.

А вот компоненты

для определения валидности:

Считается, что существует несколько подтипов валидности:

  • Внутренняя валидность — характеризует меру влияния на изменение зависимой переменной тех условий (независимой переменной), которые варьирует экспериментатор, т. е. она тем выше, чем больше вероятность того, что изменение зависимого свойства вызвано изменением независимой переменной. От неё зависит достоверность экспериментальных результатов.
  • Внешняя валидность — мера соответствия проведённой экспериментальной процедуры реальности, переносимость результатов из лабораторных условий в реальные процессы и экстраполяция их на другие сферы.
  • Конструктная валидность — правильность употребления терминов теории при интерпретации данных эксперимента.

Для обеспечения качества мы контролируем шесть её компонентов:

  1. Тестовый материал — теоретическое его обоснование, разработка вопросника, его адаптация, предметное поле, конструкт и др.
  2. Внутреннюю структуру вопросника — данные должны согласовываться с теоретическими основами содержания (конструкта).
  3. Внешние переменные — соотношение с реальностью (что ещё может повлиять на результат).
  4. Процесс анкетирования — сопротивление тестовому материалу при анкетировании: согласен ли мозг с тем, что пытается измерить тест.
  5. Управление последствиями тестирования — всеми возможными положительными и отрицательными последствиями и необходимыми стратегиями их смягчения.
  6. Нормы Международной комиссии по переводу и адаптации инструментов оценки, поскольку личностная диагностика TTISI переводится на множество языков и происходит глобальная дистрибуция отчётов TTISI.

Почему шесть компонетнтов?

Чтобы соответствовать высоким стандартам Американской психологической ассоциации (APA), изложенным в её трёхтомном руководстве по психологической оценке и тестированию, которое во многом пересекается с похожими руководствами, опубликованными Европейской федерацией психологических ассоциаций (EFPA) и Британским психологическим обществом (BPS), Международной комиссии по тестированию и Ежегодником психических измерений Бюроса.

Перечисленные выше трудности связаны с одной общей проблемой достоверности результатов наблюдения. Большое значение имеют также и проблемы надежности и обоснованности (валидности) наблюдений.

Одним из важных, хотя и недостаточных условий достоверности получаемой при проведении наблюдения информации является требование надежности и обоснованности проводимого наблюдения, а также его результатов. Как отмечает Л.А. Петровская, «наблюдение (наблюдательная процедура, результаты наблюдения) называется надежным, если, будучи повторенным в одних и тех же условиях с тем же объектом оно даст одни и те же результаты, независимо от того, кем наблюдение повторяется — первоначальным наблюдателем или любым другим.

Надежность данных наблюдения зависит, во–первых, от того, как ведется регистрация событий, а во–вторых, от того, как контролируется обоснованность и устойчивость полученной информации.

Обычно применяются самые простые, надежные и экономичные способы записи. Универсальных рекомендаций нет, ведь иногда при включенном наблюдении фиксация результатов бывает связана с определенным риском для наблюдателя. Разные исследователи ведут регистрацию результатов по–разному, все зависит от навыка и изобретательности. Одни, обладая хорошей памятью, делают все записи после окончания наблюдения, для этого иногда используют пишущую машинку или магнитофон. Другие записывают при первой возможности во время наблюдения определенные, заранее разработанные кодовые слова или символы, которые после расшифровывают. Третьи делают вид, что выполняют какую–то связанную с записями работу, спокойно фиксируют происходящее (например, наблюдатель - “стажер” на предприятии).

Исследователь обязательно должен ежедневно упорядочивать все свои записи по разработанной программе, т.е. разносить по карточкам и протоколам описание ключевых ситуаций, событий, лиц. Необходимо соблюдать оптимальную частоту записи. Очень часто ошибки наблюдения возникают из–за того, что наблюдатель очень редко фиксирует собранную информацию. Психологи уже давно доказали, что разрыв в записях более чем в сутки приводит к уменьшению запоминаемой информации, которая относится к социальным явлениям и процессам, примерно на 50%, в то же время частые записи приводят к распылению внимания и не позволяют сосредоточиться на наиболее существенных моментах.

Поэтому для повышения надежности (обоснованности и устойчивости) данных, как указывает В.А. Ядов, необходимо выполнять следующие правила:

«а) Максимально дробно классифицировать элементы событий, подлежащих наблюдению, пользуясь четкими индикаторами. Их надежность проверяется в пробных наблюдениях, где несколько наблюдателей регистрируют по единой инструкции одни и те же события, происходящие на объекте, аналогичном тому, который будет изучаться.

б) Если основное наблюдение осуществляется несколькими лицами, они сопоставляют свои впечатления и согласовывают оценки, интерпретацию событий, используя единую технику ведения записей, тем самым повышается устойчивость данных наблюдения.

в) Один и тот же объект следует наблюдать в разных ситуациях (нормальных и стрессовых, стандартных и конфликтных), что позволяет увидеть его с разных сторон.

г) Необходимо четко различать и регистрировать содержание, формы проявления наблюдаемых событий и их количественные характеристики (интенсивность, регулярность, периодичность, частоту).

д) Важно следить за тем, чтобы описание событий не смешивалось с их интерпретацией. Поэтому в протоколе следует иметь специальные графы для записи фактуальных данных и для их истолкования.

е) При включенном или невключенном наблюдении, выполняемом одним из исследователей, особенно важно следить за обоснованностью интерпретации данных, стремясь к тому, чтобы перепроверить свои впечатления с помощью различных возможных интерпретаций. Например, бурная реакция собрания на выступление может быть следствием одобрения, недовольства по поводу высказанного оратором, реакцией на его шутку или реплику из зала, на допущенную им ошибку или оговорку, на постороннее действие во время выступления. Во всех этих случаях делаются особые заметки, поясняющие протокольную запись.

Для того чтобы сократить возможность субъективистских искажений, Петровская, кроме перечисленного выше, рекомендует исследователю для записей результатов наблюдения использовать описательные, операциональные термины и исключать термины оценочные, а также явно формулировать свою систему отсчета, в которой проводилась интерпретация и отбор фактов.

«1. Наблюдение начинается без специально подготовленной программы, ведется случайно.

2. Выделенные признаки наблюдения не связаны с проблемной ситуацией и гипотезой исследования.

3. В состав регистрируемых признаков наблюдения в карточке наблюдения не вошли часто повторяющиеся и довольно значимые свойства наблюдаемой ситуации.

4. Не введены ограничения на условия наблюдения, и наблюдатели столкнулись в ходе наблюдения с принципиально различными ситуациями.

5. Введены только оценочные или только описательные категории наблюдения.

6. В терминологическом обозначении категорий наблюдения имеется двусмысленность, в одну и ту же категорию наблюдения попадают различные классы признаков.

7. Не подготовлены и не апробированы методические документы, и в ходе сбора данных возникли трудности регистрации признаков.

8. В качестве наблюдателей выбраны лица, не прошедшие специальной подготовки. Не проведен инструктаж наблюдателей, не отрепетирована с ними процедура наблюдения.

9. Кодировка признаков карточки наблюдения не соответствует программе обработки данных.

Читайте также: