Переменные нарушающие внутреннюю валидность. Что будем делать с полученным материалом

Главная

Лето

Одно из наиболее распространенных определений валидности связывает это понятие с ответом на вопрос, насколько хорошо процедура исследования позволяет изучить тот предмет, для изучения которого она применяется, или же насколько хорошо выводы исследования обоснованы процедурами получения и обработки данных.

Валидность высока в том случае, когда независимая и зависимая переменные наилучшим образом операционализированы, точно измерены, никакие побочные переменные не влияют на зависимую переменную, все измерения правильно обработаны статистически, а выводы сделаны с учетом всех дополнительных переменных. Низкая валидность означает, что полученные результаты не содержат никакой информации о том, что хотел изучать исследователь, а если и содержат информацию, то о чем-то другом.

В качестве шуточного примера надежного, но абсолютно инвалидного исследования можно привести анекдот про таракана. Исследователь предполагает, что у таракана уши находятся на ногах. Если посадить таракана на стол и хлопнуть в ладоши, таракан убежит. Если оторвать таракану лапку, посадить на стол и хлопнуть в ладоши, таракан тоже будет убегать, но медленнее. По логике исследователя, это происходит потому, что таракан стал хуже слышать. Если оторвать таракану две лапки, он будет убегать еще медленнее, видимо, потому что еще хуже стал слышать. Если оторвать все лапки, то таракан вообще не убежит, но той же логике - потому что не слышит хлопков. Такой "эксперимент" абсолютно надежен - он будет воспроизводиться в 100% случаев, любыми экспериментаторами на любых членистоногих и не только членистоногих животных. Но он абсолютно не валиден, так как исследователь не имел права делать выводы про слух таракана, в то время как реально воздействовал на его двигательные органы.

Понятие валидности применяется не только к эксперименту, но и к любой исследовательской процедуре. Например, случается так, что, заполнив психологический тест, люди недоумевают: получившийся результат совсем не соответствует их представлениям о себе. Тогда они обращаются к вопросам теста и сами задаются вопросом о том, действительно ли, например, такие действия, как "схожу с ума", "говорю сам с собой", "бегаю или хожу пешком", "дразню кого-нибудь", помогают преодолеть стресс? Действительно ли, если они не делают всего этого, это значит, что они не умеют преодолевать свой стресс и не справляются с ним? Такие вопросы выражают сомнение в валидности теста.

В зависимости от нарушения, допущенного исследователем при получении или оценке данных и, соответственно, при формулировании выводов, выделяются разные виды валидности. Некоторые нарушения приводят к тому, что из данных невозможно сделать никаких выводов про гипотезу - ни подтверждающих, ни опровергающих ее. Другие нарушения лишь накладывают ограничения на эти выводы или области и способы их применения.

Далее мы будем обсуждать четыре вида валидности: внутреннюю, внешнюю, конструктную и статистическую. Мы обсудим также угрозы, связанные с их нарушением, рекомендации по их избеганию и особенности выводов из исследования при угрозе каждому виду валидности.

Внутренняя валидность

Внутренняя валидность отражает то, насколько результаты измерения зависимой переменной обусловлены изменением независимой переменной, а не каким-нибудь другим неконтролируемым фактором. Такой неконтролируемый фактор, как уже отмечалось выше, называется побочной переменной.

Таким образом, чем больше побочных переменных продумал и постарался избежать исследователь, тем выше внутренняя валидность, т.е. тем выше доверие к выводам исследования о причинах изменения зависимой переменной. При неподтверждении гипотезы валидного эксперимента (подтверждении контргипотезы) исследователь может быть вполне уверен,

что проверяемая в его исследовании независимая переменная не влияет на зависимую.

Например, в психологических исследованиях в психиатрической клинике очень часто побочной переменной, угрожающей внутренней валидности, являются лекарства, которые принимают пациенты. Скажем, исследователь хочет выяснить, влияет ли заболевание шизофренией на продуктивность внимания. Для этого он набирает три группы для сравнения: здоровых людей, пациентов с небольшим стажем заболевания и пациентов с многолетним стажем. Таким образом, его независимая переменная - это стаж заболевания шизофренией, имеющая три уровня: нулевой стаж, маленький и многолетний. Зависимая переменная - эго успешность прохождения теста на внимание.

Для того чтобы доказать, что заболевание шизофренией влияет на продуктивность внимания. исследователь должен показать, что три группы сильно отличаются по результатам теста на внимание. Допустим, результаты исследования покажут, что это так: здоровые люди выполняют тест наиболее успешно, пациенты с маленьким стажем - существенно менее успешно, а пациенты с большим стажем заболевания - еще менее успешно. Значит ли это, что заболевание шизофренией сказывается на том, как работает внимание? Не обязательно. Возможно, не заболевание провоцирует ухудшение внимания испытуемых, а лекарства, которые они принимают. Здоровые испытуемые хорошо выполняют тест не потому, что они здоровые, а потому что не принимают психотропные препараты. Пациенты с маленьким стажем заболевания выполняют тест хуже не потому, что больны, а потому что принимают такие препараты, но они выполняют этот тест лучше, чем пациенты с многолетним стажем, потому что принимают более слабые препараты и в меньшей дозировке.

В итоге исследователь не знает точную причину ухудшения внимания испытуемых: заболевание шизофренией или действие лекарств. Оба фактора с равной вероятностью могут быть такой причиной, так как действуют одновременно и одинаково.

В данном примере влияние лекарств является побочной переменной, не проконтролированной исследователем. Исследователь не может сделать никаких выводов о своей гипотезе. Он не может утверждать, что гипотеза о влиянии заболевания шизофренией на продуктивность внимания подтвердилась, так как, возможно, влияет не заболевание шизофренией, а лекарства, принимаемые при этом заболевании. Но он также не может утверждать, что гипотеза не подтвердилась, и заболевание шизофренией никак не сказывается на продуктивности внимания, потому что возможно, что лекарства все-таки не причем, а на продуктивность внимания влияет именно заболевание.

Поскольку выводы о гипотезе в данном исследовании сделать невозможно, ценность полученных в нем результатов стремится к нулю но причине низкой внутренней валидности проведенного эксперимента, которая явилась следствием систематического смешения эффектов переменной, рассматриваемой в качестве независимой (стаж болезни), и побочной переменной (влияния лекарств).

Побочные переменные особенно неприятны тем, что часто заранее невозможно спрогнозировать, какая особенность испытуемых или какое обстоятельство могут повлиять на зависимую переменную вместо независимой или вместе с ней. Исследователь может даже не знать о присутствии такого обстоятельства. Поэтому невозможно разработать систему мер, соблюдение которых гарантировало бы защиту от побочных переменных.

Для повышения внутренней валидности исследования прежде всего можно сделать две вещи. Во-первых, нужно подробно изучить литературу по теме исследования для того, чтобы выявить факторы, которые могут повлиять на зависимую переменную наряду с независимой. Во-вторых, необходимо проконтролировать известные и наиболее часто встречающиеся угрозы внутренней валидности. Вслед за Кэмпбеллом обычно выделяют семь угроз внутренней валидности, которые представляют собой различные источники побочных влияний на зависимую переменную. Рассмотрим их чуть более подробно.

Влияние истории (фона). Напомним, что общая структура эксперимента обязательно включает в себя предварительный замер зависимой переменной, воздействие на замеряемую переменную со стороны независимой переменной и заключительный замер. Большая проблема, которая возникает при этом у исследователя, состоит в том, чтобы устранить любые побочные воздействия на зависимую переменную между двумя замерами, кроме воздействия независимой переменной. Такие воздействия и называются влиянием истории или влиянием фона. Испытуемых нельзя изолировать от окружающего мира на период исследования, они подвергаются множеству воздействий, о значительной части которых исследователь даже не подозревает. И если одно или несколько из этих событий повлияют на состояние зависимой переменной, то внутренняя валидность исследования будет нарушена, поскольку изменение будет вызвано не независимой переменной, а побочной.

Поскольку устранить все воздействия на испытуемых невозможно, для контроля влияния истории исследователи используют контрольную группу испытуемых. Испытуемые контрольной группы подвергаются тем же замерам (предварительному и заключительному), что и испытуемые экспериментальной группы, но не получают воздействия независимой переменной.

Таким образом, исследователь сначала оценивает, возник ли ожидаемый эффект в экспериментальной группе - различаются ли результаты предварительного и заключительного замеров. Если результаты различаются, значит, некоторое событие повлияло на зависимую переменную между этими замерами. После этого исследователь сравнивает результаты экспериментальной и контрольной группы. Если эти результаты различаются, то за это различие ответственна независимая переменная, так как предполагается, что любые другие факторы влияли на обе группы, а независимая переменная - только на испытуемых экспериментальной группы. В том случае, если причиной изменения зависимой переменной стало некое неконтролируемое событие, то изменения между первым и вторым замером в экспериментальной и контрольной группе существенно различаться не будут.

Например, исследователя интересует, влияет ли хорошее настроение на способность решать задачи. Он фиксирует выраженность разных эмоций у испытуемых, например с помощью опросника "Самочувствие. Активность. Настроение", и просит решить несколько задач, потом показывает им смешной видеосюжет про животных, затем снова измеряет эмоции испытуемых и снова просит решить задачи. Результаты показывают, что испытуемые лучше решают задачи после просмотра видео. Но на качество решения задач могло повлиять нс только видео, но и любые другие факторы тренировка, звуки разговоров из коридора, желание показать себя с лучшей стороны. Поэтому исследователю необходимо набрать контрольную группу, которая будет решать те же задачи, слышать тот же шум из коридора, стремиться к положительной оценке и точно так же прервется на некоторое время, соответствующее длительности видеосюжета, но не будет просматривать его. Только если при прочих равных условиях испытуемые экспериментальной группы покажут лучший прирост в решении задач, исследователь имеет право сделать вывод о том, что его гипотеза подтвердилась. Если же результаты экспериментальной и контрольной группы не будут значительно различаться, значит, к изменениям в качестве решения задач привело не хорошее настроение, а какие-то другие факторы.

Сходное влияние оказывает естественное развитие человека, которое иначе называют эффектом взросления. Если эксперимент достаточно продолжителен или приходится па такие моменты жизни человека, когда созревание протекает быстрее, то исследователь имеет все основания сомневаться, по какой причине изменилась зависимая переменная: в результате воздействия независимой переменной или в результате естественного развития и созревания изучаемой психической функции.

В отличие от эффекта истории, побочной переменной в данном случае является не какое-то конкретное событие, повлиявшее на зависимую переменную, а изменения испытуемых, обусловленные течением времени. Так, например, в возрастной психологии известны периоды быстрых и достаточно глобальных изменений личности и психики, получившие название кризисов; в детском возрасте изменений больше, чем во взрослом.

Аналогичным образом действуют некоторые обстоятельства, такие как приспособление к новым условиям. Например, учащиеся в первые месяцы обучения в любом учебном заведении, работник, недавно принятый на новое место работы, пациент, попавший в больницу, призывник в армии адаптируются к новому месту, режиму, правилам поведения. Трудности, которые они испытывают поначалу, со временем сходят на нет, и трудно назвать конкретное событие, которое к этому приводит. Просто человек изменился, приладился к новым обстоятельствам и правилам.

К факторам взросления Кэмпбелл относит также менее глобальные изменения, такие как изменение физического состояния вследствие усталости, голода, пресыщения осуществляемой деятельностью и т.п. Подобно взрослению, эти факторы сказываются на работоспособности в целом, па функционировании всех психологических процессов, и достаточно сложно установить момент начала их влияния, поскольку у всех людей усталость, голод и т.и. возникают с разной скоростью, и сами люди, будучи занятыми экспериментальным заданием, могут заметить их не сразу.

Эффект взросления нарушает внутреннюю валидность, так как неизвестно, экспериментальное воздействие или изменение самих испытуемых за время эксперимента повлияло на зависимую переменную. Разрешить вопрос о том, какой из этих факторов оказался решающим, снова помогает . Например, оценка программы психологической адаптации на рабочем месте предполагает, что мы замеряем уровень психической напряженности и стресса у людей, только что поступивших на работу в ту или иную организацию. После этого с половиной из них работаем но программе адаптации, а половина адаптируется сама, без помощи психолога. Если по окончании программы обе группы покажут одинаковое снижение уровня психической напряженности и стресса, значит, программа не работает, а снижение негативных переживаний связано с эффектом взросления. Только если экспериментальная группа, работавшая по специальной программе, покажет более сильное снижение негативных переживаний, эту заслугу можно приписать эффективности программы.

Эффект тестирования - это влияние факта участия в исследовании на результаты исследования. Часто люди хотят показать себя с лучшей стороны, и, если, например, им сообщают, что изучается их обучаемость, они мобилизуются и стараются выполнить все задания как можно лучше. Поэтому в эксперименте они действуют так эффективно, как никогда не действуют в повседневной жизни.

Особенно часто эффект тестирования возникает в ситуациях контроля и оценки: при приеме на работу, психологическом отборе персонала, оценке эффективности работы сотрудников, сравнении их по каким-либо психологическим качествам, важным для той сферы, в которой они работают, при психологической экспертизе в клинике, в суде и т.п. Как следствие, перед исследователем встает вопрос о том, почему испытуемые показали определенные результаты: потому что экспериментальное воздействие столь эффективно или потому что испытуемые старались показать себя с лучшей стороны?

Другим источником эффекта тестирования является использование исследователем необычных процедур и заданий. Так, к опросникам, анкетам, интервью, тестам потенциальные испытуемые уже привыкли, они сталкиваются с ними на страницах журналов, на общественных мероприятиях, в Интернете, видят по телевизору. Если же исследователь использует более сложные процедуры, дает необычные задания, то сам факт выполнения такого задания или серии заданий может привести к изменению зависимой переменной. Примерами таких заданий могут быть просьба выполнить привычное действие непривычным способом или составить фигуру человека из ограниченного набора простых геометрических форм, решить хитрую задачу, не похожую па те, которые испытуемый когда-либо решал и т.п. В этом случае зависимая переменная изменится не в результате экспериментального воздействия, а по причине необычности предварительного и заключительного тестирования или необычности самих способов воздействия, и любое другое настолько же необычное воздействие приведет к такому же эффекту.

Использование контрольной группы для устранения этого эффекта не всегда помогает. Предварительное и заключительное тестирование проводятся в обеих группах, и данный факт может привести к тому, что результаты в контрольной группе изменятся так же, как и в экспериментальной, под действием эффекта тестирования. Но если этот эффект сопровождает экспериментальное воздействие, то в контрольной группе оно отсутствует, и испытуемые экспериментальной группы сталкиваются с двумя неразделимыми воздействиями, одно из которых - само экспериментальное воздействие, а второе - непривычность, новизна методики воздействия. В этом случае контрольная группа не поможет против эффекта тестирования.

Способом борьбы с эффектом тестирования является предварительная тренировка испытуемых. Им дают множество заданий, похожих на те, которые впоследствии будут использованы в исследовании, для того чтобы люди привыкли к ним, набрались опыта в обращении с ними, чтобы исчез эффект новизны или страх, неуверенность перед заданиями, с помощью которых их будут оценивать. Такая тренировка позволит уравнять всех испытуемых по опыту обращения с материалами исследования и в случае использования нового незнакомого инструментария позволит устранить влияние умелости и скорости обучения испытуемых.

Однако этот способ борьбы не позволяет оценить наличие или отсутствие эффекта тестирования, а также его силу. Для того чтобы определить, влияет ли данный эффект в ходе исследования и насколько сильно его влияние (нужно его устранять или им можно пренебречь), исследование строится в соответствии с планом Соломона, названного так по имени американского исследователя Р. Соломона. Этот план предполагает использование четырех групп испытуемых - двух экспериментальных (ЭГ1 и ЭГ2) и двух контрольных (КГ1 и КГ2) (табл. 11.1).

Таблица 11.1

План Соломона

Использование этого плана позволяет оценить эффективность экспериментального воздействия при наличии предварительного тестирования и при его отсутствии, поскольку эффект тестирования одинаково проявляется в экспериментальной и контрольной группах , а влияние независимой переменной проявляется только в экспериментальной гругге.

Эффект инструментария. Влияние инструментария (тех процедур, конкретных методик и материалов, которые использует исследователь в работе с испытуемыми) представляет собой особенно болезненную проблему в психологических исследованиях. Поэтому проблемам исследования, связанным с влиянием инструментария, уделяется много внимания при планировании исследования. Выше уже обсуждались проблемы, связанные с влиянием новизны и необычности методик исследования па внутреннюю валидность. Обсуждению специфических искажений результатов исследования, связанных с влиянием инструментария, посвящено особое понятие - "конструктная валидность", речь о которой пойдет впереди.

Также проблемы инструментария образуют важный вопрос при обсуждении надежности исследования, но не надо путать надежность и этот вид валидности. Методика может быть очень надежной в том смысле, что она при воспроизведении дает очень согласованные результаты, однако измерять на самом деле не то, что по замыслу исследователя она должна измерять, если внутренняя валидность низка, в частности, вследствие эффекта инструментария.

Эффект инструментария и его влияние па уровень внутренней валидности исследования проявляются, когда инструментарий недостаточно точен и допускает различие толкований одних и тех же или сходных результатов, если этот инструментарий меняется, дорабатывается, калибруется в процессе проведения исследования или дает разные результаты в зависимости от конкретных условий измерения. В этом случае побочной переменной, угрожающей внутренней валидности, являются флуктуации измерения. Исследователь не может сделать окончательный вывод о том, почему изменилась зависимая переменная - в результате экспериментального воздействия или в результате погрешности инструментария, который периодически давал различающиеся данные.

Например, если в исследовании факторов, влияющих на представления о социальной справедливости, исследователь менял вопросы опросника, диапазон или вид шкал оценки, добавлял и убирал варианты ответов, то пет ничего странного в том, что результаты предварительного и заключительного измерения будут различаться. Если исследователь по-разному дает инструкцию испытуемым, даже не меняя се сути, изменяет способ представления одних и тех же заданий, дает дополнительные комментарии при одном измерении и не дает их при другом - все это может привести к различиям в данных, вызванных не экспериментальным воздействием, а влиянием неточности инструментария.

Для борьбы с эффектом инструментария рекомендуется в первую очередь использовать надежные, хорошо себя зарекомендовавшие психологические методики и процедуры. Также важен размер выборки испытуемых: чем больше выборка, тем меньше влияние каждой отдельной ошибки на конечный результат. Когда инструментарий новый, следует как можно строже формализовать процедуру исследования: заранее сформулировать инструкцию испытуемым, информацию о целях и задачах исследования, четко сформулировать все действия, которые требуются от испытуемого, чтобы ни на шаг не отклоняться от процедуры. Следует заранее продумать несколько уклончивых ответов на вопросы испытуемых, наподобие "действуйте, как вам кажется правильным, здесь нет правильных или неправильных реакций", "какая формулировка (действие) лично вам ближе, то и пишите (так и делайте)" и т.п., чтобы испытуемые не различались по количеству информации об исследовании. Эти действия напрямую нацелены на снижение количества флуктуаций измерения, являющихся источником эффекта инструментария.

Регрессия к среднему, или статистическая регрессия в соответствии с определением Ф. Гальтона - эго эффект возврата системы к среднему состоянию. Влияние эффекта регрессии можно показать на следующем примере.

Представим двух студентов, один из которых в течение всего семестра готовился к семинарам, отвечал на все вопросы и получал высокие оценки, а второй ничего не учил и работал вполсилы. Когда пришло время итогового экзамена, первый студент простудился, заболел и вследствие этого сдал на тройку, а второй студент хорошенько посидел за книгами всю ночь и получил пятерку.

Обе эти оценки отражают отклонение от средней успеваемости каждого студента. Будут ли эти оценки адекватно отражать знания обоих студентов? Конечно, нет, так как первый студент, который учился в течение всего семестра и получал пятерки, доказал свои высокие знания и, попади он на экзамен на другой день или через неделю, в здоровом состоянии, обязательно получил бы пятерку. Второй студент, который выучил материал за ночь, столь же быстро его и забудет, и уже через неделю шансов на повторное получение высокого балла у него не будет. Эффект регрессии возникнет уже при повторной оценке знаний студентов, в которой каждый из них получит оценку, более близкую к его обычной (средней) успеваемости: отличник - более высокую, троечник - более низкую.

Такая же проблема возникает, если отбирать для исследования группы испытуемых с крайними показателями (очень высокими или очень низкими) по результатам однократного измерения. Например, если исследователь считает, что творческие способности испытуемых могут быть усилены с помощью занятий по мозаике, он должен измерить творческие способности у своих испытуемых, отобрать тех, кто продемонстрировал невысокие способности.

Допустим, повторное измерение покажет более высокие результаты но тесту творческих способностей в экспериментальной группе. Возможно, это результат экспериментального воздействия. Но не исключено, что возник эффект регрессии к среднему. Возможно, что испытуемые, отобранные для исследования, при первом замере показали не очень высокие творческие способности, потому что утром не позавтракали, приболели, всю ночь танцевали в клубе, поссорились с близкими, получили шокирующее известие и т.д. На самом деле эти люди имеют гораздо более высокие творческие способности, и, если бы не конкретные обстоятельства, они показали бы их в тесте. При повторном исследовании эти обстоятельства уже не влияли на испытуемых, и они продемонстрировали обычный для себя уровень творческих способностей. При этом результаты повторного измерения не повысились под влиянием независимой переменной (позитивных переживаний испытуемых), а вернулись к нормальному среднему результату, обычному для данных испытуемых.

Повторимся, что опасность регрессии к среднему особенно велика в том случае, когда для исследования отбираются испытуемые с крайней выраженностью исследуемого качества на основе однократного измерения. Если при этом будет набрана эквивалентная контрольная группа, то она покажет такое же изменение зависимой переменной, как и в экспериментальной группе, обусловленное регрессией к среднему. Неэквивалентная контрольная группа влияние регрессии к среднему не покажет (в приведенном выше примере неэквивалентной будет группа, собранная из испытуемых не только с низким, по и со средним и высоким уровнем творческих способностей).

Снизить вероятность возникновения регрессии можно, если отбирать испытуемых на основе многократного измерения исследуемого качества - например, на основе среднего уровня творческой способности но результатам выполнения нескольких эквивалентных субтестов в разные моменты времени. Это сложно и трудоемко, но в некоторых случаях, например, при оценке школьной успеваемости или если испытуемые участвуют в психологическом монторинге, многократные измерения их успеваемости и качеств, подвергаемых мониторингу, имеются в достаточном количестве до начала исследования.

Наконец, в тех случаях, когда уровень зависимой переменной был ниже среднего до экспериментального воздействия и стал выше после (а также наоборот был выше среднего, а после воздействия стал ниже), влияние статистической регрессии можно исключить, так как эффект регрессии к среднему не предполагает перехода за средние значения.

Эффект отбора испытуемых предполагает, что на изменение зависимой переменной может повлиять не только экспериментальное воздействие, но и специфические особенности выборки испытуемых. Этот эффект возникает, когда в экспериментальную и контрольную группы по не зависящим от исследователя причинам попали испытуемые, отличающиеся по определенным качествам.

Например, преподаватель хочет провести исследование на своих студентах и обещает за это поставить дополнительные баллы. Он делает объявление об этом в начале семестра, до проведения всех контрольных работ. Раньше всех на это приглашение откликнутся наиболее тревожные студенты, которые хотят подстраховаться на случай неудачи, недобора баллов на контрольной, а также наиболее мотивированные студенты, которым интересно самим испробовать на себе методы работы психолога. Позже, ближе к середине семестра, подтянутся те студенты, которые поняли, что предмет для них сложноват, что есть риск не набрать баллов на желаемую оценку. Самыми последними примут участие студенты, уже попробовавшие написать контрольную и понявшие, что без дополнительных баллов они не сдадут предмет.

Если преподаватель соберет всех студентов, пришедших первыми, в экспериментальную группу, а всех пришедших последними - в контрольную, то получит даже две побочные переменные. Испытуемые экспериментальной группы будут отличаться от контрольной не только наличием экспериментального воздействия, но и более высокой тревожностью и мотивацией участия в эксперименте. Поэтому исследователь не сможет сделать однозначного вывода, из-за чего изменилась зависимая переменная - в результате экспериментального воздействия или в результате различий в мотивации испытуемых.

Эффект отбора влияет не только сам по себе, часто он вступает во взаимодействие с другими эффектами. Так что если сама неэквивалентность групп не является побочной переменной, то в качестве последней может выступить взаимодействие отбора с другими эффектами. Взаимодействие отбора и эффекта взросления происходит, если в одну группу отбираются люди, которые быстрее или медленнее развиваются, утомляются, начинают испытывать голод и т.д., чем испытуемые другой группы. Допустим, участвовать в эксперименте преподавателя по формированию вторичного стресса в результате просмотра теленовостей первыми вызвались более тревожные студенты, а в контрольную группу были отобраны спокойные студенты. Тревожные студенты быстрее попадут под влияние вторичного стресса, но не потому что воздействие исследователя так эффективно, а потому что быстрее впадают в панику при встрече со стессором, чем спокойные студенты. Иначе говоря, не воздействие исследователя (просмотр теленовостей), а отбор испытуемых вкупе с эффектом взросления приводит к изменению зависимой переменной.

Взаимодействие эффекта отбора с эффектом истории может проявиться в том, что одно и то же событие окажет разное влияние на испытуемых разных групп. Например, исследователя интересует, влияет ли молчаливое присутствие преподавателя на успешность решения задач. Допустим, случайным образом в экспериментальную группу отобрались поклонники рок-музыки, а в контрольную - любители классики, т.е. произошел отбор испытуемых, который сам по себе не повлиял бы на исход эксперимента. Во время проведения эксперимента с улицы до испытуемых донеслись несколько тактов мелодии в стиле рок (случайное событие, которое по-разному скажется на членах двух групп). Это приведет к позитивным впечатлениям в экспериментальной группе и отсутствию таковых в контрольной. В результате нельзя будет сделать однозначный вывод о том, что именно повлияло па изменение качества решения - присутствие (отсутствие) преподавателя или позитивные впечатления, вызванные случайным событием (т.е. совместное действие эффектов отбора и истории).

Точно так же эффект отбора может вступать во взаимодействие с эффектом тестирования, если в одну группу отберутся испытуемые, более подверженные страху оценки и имеющие меньший опыт участия в психологических исследованиях, чем в другую. Эффект отбора и эффект инструментария могут привести к нарушению валидности, если в одну из групп отберутся испытуемые, па которых инструментарий дает меньше сбоев, а в другую - более сложные, критично настроенные или маргинальные испытуемые, на которых инструментарий дает больше сбоев.

Как возникает и как решается проблема неэквивалентности групп, лежащая в основе эффекта отбора, подробнее рассматривается в следующей главе при обсуждении межсубъектных экспериментальных планов. Здесь подчеркнем очевидное: чтобы проконтролировать нарушения внутренней валидности исследования из-за проблемы отбора и последующих проблем взаимодействия отбора и других эффектов, необходимо максимально уравнять экспериментальную и контрольную группы.

Эффект истощения (отсева) представляет собой такую угрозу внутренней валидности, когда испытуемые но каким-то причинам прекращают участие в исследовании между предварительным и заключительным тестированием. В результате перед исследователем встает вопрос: действительно ли изменение зависимой переменной от первого замера ко второму обусловлено действием независимой переменной, или результаты второго замера изменились, потому что часть людей выбыла, а оставшиеся обладают какими-то неизвестными исследователю общими психологическими особенностями, которые и повлияли на результат.

Ситуация, когда испытуемым не понравилось предварительное тестирование, они обиделись, разочаровались и ушли до завершения эксперимента, случается достаточно редко. Но если между предварительным и заключительным тестированием проходит достаточно времени для того, чтобы испытуемому и исследователю потребовалось встретиться несколько раз, то угроза эффекта истощения возрастает многократно.

Для того чтобы возник эффект истощения, не обязательно проводить продолжительные исследования, когда тех же самых испытуемых требуется разыскать через несколько месяцев. Простое опросное исследование на младших школьниках невозможно провести за один раз, если методики требуют от испытуемого усидчивости и внимания на протяжении более 40 мин. Для проведения всех методик исследователю придется встретиться со школьниками несколько раз. И в этом случае всегда возникает некоторое количество детей, которые заболели и по другим причинам не пришли в школу (произошло истощение выборки).

Дети, которые пройдут все методики такого исследования, отличаются, по крайней мере, лучшей посещаемостью школы по сравнению с теми, кто отсеялся. Лучшая посещаемость может быть связана с состоянием здоровья, более высокой мотивацией к учебе, лучшими отношениями с одноклассниками и т.д. Все это и есть возможные побочные переменные, которые возникают в результате отсева, смешиваются с экспериментальным воздействием и приводят к изменению зависимой переменной, в результате чего исследователь оказывается не в состоянии определить истинные причины ее изменения.

Контрольная группа могла бы помочь против эффекта истощения, если бы у исследователя были гарантии, что выбывание испытуемых происходит одинаково и равномерно, т.е. в экспериментальной и контрольной группах остаются психологически одинаковые испытуемые, а все остальные выбывают в обеих группах с одинаковой скоростью. Но, разумеется, таких гарантий нет. В разных группах выбывают разные люди и в разном количестве, и поэтому контрольная группа слабо спасает от эффекта истощения. Другой возможный способ борьбы - исключение из выборки результатов тех испытуемых, которые участвовали в первичном тестировании и не участвовали во втором. Но в этом случае к эффекту истощения добавится еще и эффект отбора испытуемых: исследователь сам в прямом смысле отберет из своих испытуемых только тех, кто по каким-то причинам прошел все исследование от начала до конца.

Очевидно, бороться с эффектом истощения сложно, так как если испытуемые не желают продолжать участие в исследовании, принуждать их к этому было бы как минимум неэтично. Можно снизить риск отсева, создавая дополнительную мотивацию для участия в исследовании. Такой мотивацией не обязательно является оплата; это может быть то, как исследователь представит важность результатов исследования, его конкретную пользу для людей вообще и испытуемых лично, затронет любопытство испытуемых к каким-то аспектам исследования и т.д. Главное, чтобы исследователь мотивировал испытуемых одинаково, чтобы различия в мотивации не выступили в качестве побочной переменной.

Также превентивной мерой отсева будет создание условий, чтобы испытуемому было удобно явиться на повторное исследование. Например, вероятность прихода па повторное исследование будет выше, если испытуемому не нужно специально ехать в лабораторию, если исследование проводится на месте его регулярного присутствия.

Таковы угрозы внутренней валидности. Их достаточно много, и разные способы построения исследования (экспериментальные планы) подвержены им в большей или меньшей степени. При планировании исследования автор обязательно должен учесть и проконтролировать влияние всех этих угроз, чтобы исследование не было напрасным, а по его результатам было возможно сделать надежные содержательные выводы о причинах исследуемых явлений. В табл. 11.2 кратко представлены все обсуждавшиеся выше угрозы внутренней валидности, характер их влияния, особенности исследования, повышающие вероятность их появления, и действия по их контролю.

Таблица 11.2

Угрозы внутренней валидности, особенности исследовательской процедуры, повышающие риск этих угроз, и способы их предотвращения

		Особенности исследовательской процедуры, способствующие появлению аффекта	Способы контроля
	Случайные, непрокон- тролированные воздействия на испытуемых между предварительным и заключительным тестированием	В любой процедуре возможно влияние этого эффекта	Использование контрольной группы
взросления	Общие изменения в личности испытуемых, не связанные с конкретным событием, между предварительным и заключительным тестированием	Молодой возраст испытуемых, смена условий их жизни, требующая быстрой адаптации, скорость смены функциональных состояний (усталость, голод и т.п.)	Использование контрольной группы
тестирова	Непривычность испытуемых к участию в исследованиях, желание показать себя с лучшей стороны, боязнь проявить свои недостатки	Использование методик, провоцирующих социально одобряемое поведение, исследование в ситуации оценки или конкуренции испытуемых (аттестация, экспертиза и т.п.)	Использование плана Соломона. Введение тренировочной серии
инструмен	Погрешности, неточности любых методик, используемых в исследовании	Процедуры исследования с новым, прежде не опробованным инструментарием или способами его использования	Использование надежного, психометрически выверенного инструментария. Максимальная формализация процедуры исследования

Окончание табл. 11.2

	Угроза внутренней валидности (побочная переменная)	Особенности исследовательской процедуры, способствующие появлению эффекта	Способы контроля
Регрессия к среднему	Ошибки в оценке психологических способностей и качеств при отборе испытуемых на основе однократного тестирования	Группы испытуемых отбираются на основе крайних показателей	Использование эквивалентной контрольной группы. Оценка изменений зависимой переменной относительно среднего
испытуемых	Неучтенные психологические различия между испытуемыми экспериментальной и контрольной группы	Все исследования, в которых распределение испытуемых по группам зависит не от исследователя, а от неконтролируемых обстоятельств	Использование всех возможных процедур уравнивания групп (см. главу "Типы экспериментальных планов")
истощения	Психологические различия между первоначальной выборкой (участвовавшей в предварительном тестировании) и пришедшей на заключительное тестирование	Все достаточно продолжительные исследования, в которых исследователь вынужден встречаться с испытуемыми неоднократно	Меры по предотвращению отсева испытуемых (мотивация, удобное место и время проведения и т.п.)

Кэмпбелл Д. Модели экспериментов в социальной психологии и прикладных исследованиях. С. 65.

«Угрозы внутренней валидности» - выражение, относящееся к плану исслед., к-рое интерпретаторы данных используют для описания ряда вопросов, возникающих в связи с возможными неточностями при интерпретации причинно-следственных связей между изучаемыми переменными. Некоторые из этих угроз уже упоминались, в частности, при описании квазиэкспериментов. Выражение регрессия к среднему показателю используется для описания эффекта неточного измерения текущего и будущих наблюдений, и она представляет собой серьезную угрозу для внутренней валидности плана психол. исслед.

Другой угрозой является естественное развитие, поскольку испытуемые подвержены естественным процессам созревания и развития с течением времени независимо от манипуляций, к-рые совершает над ними исследователь. Эта последняя гипотеза, в частности, объясняет необходимость использования в исслед. контрольных групп, позволяющих осуществлять сравнения с естественно развивающимися испытуемыми.

Еще одной угрозой является отсев. Систематическое сокращение количественного состава групп вследствие выбывания, неявок, переезда людей в другой город, незаполненных критериальных опросников, и т. д. может делать менее заметной в результатах исслед. роль тех оставшихся участников, к-рые оказываются в меньшей степени подвержены эксперим. воздействию. А ведь чем более заметны улучшения по критерию, тем лучше выглядит эффективность самого изучаемого воздействия.

Угроза отбора возникает на этапе формирования исслед. состава групп участников. Систематический отбор или пассивный отбор (собственное желание) участников для изучаемого воздействия или условия может приводить к возникновению различий среди некоторых групп перед началом исслед. Эти группы будут по-прежнему отличаться от других и после реализации воздействия - даже когда они сами не подвергались воздействию. Поэтому, для достижения высокой внутренней валидности (причинно-следственных) утверждений в отношении взаимосвязей переменных, необходима формулировка и проверка альтернативной гипотезы о том, какими могли бы быть эти эффекты в отсутствие такого воздействия или условия.

Фон относится к тем изменениям контекста проводящегося исслед., к-рые могут смешиваться с самими изучаемыми воздействиями. Подобное смешение делает невозможным отнесение изменений в испытуемых на счет исследуемого воздействия или внешних изменений.

Инструментальная погрешность яв-ся угрозой внутренней валидности, почти исключительно присущей психологии, поскольку она возникает в результате происходящих со временем изменений стандартов наблюдателя или условий наблюдения. Эти изменения вызывают различия в оценках. Проблема состоит в том, что подобные расхождения в стандартах измерения могут приводить к ошибочным оценкам тех изменений, к-рые являются следствием изучаемых воздействий.

Эффект тестирования яв-ся примером другой, почти исключительно присущей психологии, угрозы внутренней валидности. Она связана с эффектом улучшения показателей испытуемых просто в результате предыдущего прохождения теста.

Нестабильность ,как было указано выше, вытекает из попыток интерпретировать происходящие непосредственно после эксперим. воздействия или спустя к.-л. время естественные изменения испытуемых и измерений.

Существуют также четыре аффективных угрозы внутренней валидности: подражание, компенсаторное соперничество, компенсаторное уравнивание, и деморализация. Они тж присущи исключительно психол. науке, поскольку возникают в результате эмоциональных изменений у испытуемых и проводящего измерения персонала как формы адаптации к тому факту, что они не попали в число «избранных» участников исслед., получающих и осуществляющих эксперим. воздействие.

Внешняя валидность и метаанализ

Наконец, существует понятие внешней валидности - суммы характеристик исслед., к-рая позволяет осуществлять обобщение или распространение получаемых в исслед. (как результат высокой внутренней валидности) причинно-следственных утверждений на сходные категории людей, воздействий и критериев за пределами данного исслед.

Метаанализ. Внешняя валидность результатов исслед. существенно усиливается, когда объединяется и обобщается целый ряд исслед. одной и той же воздействующей переменной. Такая процедура называется метаанализом .В метаанализе определяются величина эффекта, оказываемого эксперим. воздействием и основными условиями исслед. на критериальные переменные. Последние выбираются в зависимости от теоретических интересов проводящего метаанализ исследователя. Т. о., если основной анализ предполагает сравнение связей всех пар переменных, то набор интересующих метааналитика связей является набором из переменных-условий и критериальных переменных, к-рый позволяет судить о величине эффекта изучаемого воздействия на эти критериальные переменные. Величина эффекта для каждого исслед. определяется простым делением разности между средними показателями по критериальной переменной в эксперим. группах и контрольной группе на меру изменчивости индивидуальных показателей в этих группах. В результате такого анализа можно продемонстрировать, что целый ряд изучавшихся переменных условий не оказывают влияния на набор критериев, что позволяет исследователям обобщать результаты своих исслед., не оглядываясь на эти, как было установлено в ходе метаанализа, посторонние условия.

Наконец, можно определить степень влияния каждой переменной-воздействия и их различных сочетаний на критерии. Это представляет особый интерес для прикладных областей, где важно знать не только о том, что одна переменная влияет на другую, но и насколько велико такое влияние.

См. также Контрольные группы, Экспериментальные методы, Проверка гипотезы, Измерение, Статистика в психологии

Дж. Эшер

Методы многомерного анализа (multivariate analysis methods )

Многомерность свойственна психол. данным по природе, поскольку они чаще всего состоят по крайней мере из неск. наблюдений за поведением одного человека или группы лиц. М. м. а. и были созданы для совместной обработки таких данных, напр. для их исслед. с целью обнаружения присущих им базисных характеристик либо, в случае дедуктивного подхода, для проверки или оценки априорных гипотез в отношении этих данных. В своих лучших образцах многомерный анализ представляет собой обобщение одномерного анализа, так что в тех случаях, когда данные состоят из значений только одной переменной, многомерный метод будет давать тот же результат, что и соотв. одномерный метод. Так, есть статистики, базирующиеся на многомерном распределении случайных величин, к-рые можно свести к таким хорошо известным одномерным статистикам, как хи-квадрат или t -критерий.

Многомерный анализ включает широкий спектр мат. и статистических методов и, вообще говоря, не существует общепринятого определения границ этой области. По общей договоренности, однако, такие специализированные предметы, как теория надежности или теория латентных черт, не считаются разделами многомерного анализа в силу их обособленных традиций в сфере психол. исслед. Методы анализа множественных дихотомических переменных часто рассматриваются и изучаются под своими названиями, напр. логлинейные модели. Также анализ повторных наблюдений, проведенных на одном человеке или на каком-то др. объекте, скажем, классе, обычно относится к особой области, наз. анализом временных рядов.

Модели

Многомерный анализ требует соединения трех различных типов информ. в одном методе, к-рый можно применять на практике. С т. зр. психолога, из накопленных в психологии действенных идей и знаний необходимо извлекать наиболее существенное и применять к ситуации анализа исходных данных. Такое очищенное знание, особенно если оно формализовано, наз. психол. моделью. Психол. модель обеспечивает контекст для выбора наиболее подходящего метода из множества многомерных или др. методов анализа (либо статистического описания) данных.

Второй тип используемой информ. - это мат. или структурная модель, устанавливающая отношения между осн. переменными, наблюдениями, параметрами и пр. Структурная модель является формально-математическим представлением, к-рое предполагается релевантным многомерной ситуации в силу психол. модели. В общем, многомерные методы основываются на линейных по своей природе моделях. Т. к. психол. теории часто предполагают существование нелинейных связей, иногда бывает трудно сделать допущение о линейности. И все-таки принятие этого допущения может быть оправданным в тех случаях, когда большинство зависимых (т. е. предсказываемых) переменных имеют аппроксимативно непрерывный характер. Если же эти переменные являются дихотомическими или порядковыми, будет трудно обосновать допущение о линейности иначе как соображениями удобства или аппроксимации.

Третий тип информ. - это статистическая модель. Такую модель нужно разрабатывать всякий раз, когда предполагается что-то большее, чем простое описание данных. В этом случае, помимо статистического описания данных, интерес могут представлять выводы о более широкой совокупности, на выборке из к-рой и были получены изучаемые данные. Осн. вопрос при состыковке структурной и статистической моделей - ошибка, обусловленная структурой наблюдений (error structure of observations ). Недавно полученное обобщение многомерного нормального распределения, допускающее ненулевой, но постоянный эксцесс кривых плотности распределения переменных, оказалось полезным в качестве основы для расширения традиционных методов; был тж введен ряд непараметрических методов.

В добавление к описанию распределения переменных статистическая модель должна описывать модель выборки, используемой для получения наблюдений. Обычно полагают, что таковая является моделью независимых случайных наблюдений, при к-рой на оценки каждого отдельного человека не влияют оценки др. людей. Наконец, статистическая модель должна точно определять границы области действия определенных статистических или случайных процессов.

Хотя М. м. а. можно и нужно использовать как разведочные, для проникновения в суть собранных данных и формулирования гипотез о скрывающихся за ними факторах, большой класс этих методов составляют конфирматорные (подтверждающие) по своему характеру методы, предназначенные для проверки теорий. В общем, конфирматорный подход к многомерному анализу претендует на решение следующих задач: а) оценивание параметров распределения для проверки гипотез об этих параметрах; б) определение доверительных областей измеренных значений переменных на основе обоснованного применения теории выборок и стандартных ошибок; в) оценивание адекватности гипотетической структурной модели; г) сравнение контрастных моделей; д) придание вероятностных формулировок разным результатам и е) доверительное оценивание выводов.

Методы

Осн. многомерные методы можно разбить на 3 категории: методы линейных моделей, методы линейной композиции и линейные структурные методы. Их классиф. зависит от того, в какой степени включаемые в анализ переменные можно считать случайными, а не заданными или известными, и в какой мере можно опираться на теорию малых выборок, а не только на теорию больших выборок, учитывая, что теория линейных моделей является наиболее разработанной, а структурные методы, по крайней мере, достаточно хорошо разработаны в статистическом плане. Как уже упоминалось, существуют еще и нелинейные методы.

См. также Корреляция и регрессия, Статистика в психологии

П. М. Бентлер

Методы тестирования (testing methods )

Психол. тесты разраб. для столь широкого разнообразия целей, что сами М. т. значительно варьируют от теста к тесту. Существует множество континуумов, по к-рым можно классифицировать отдельные тесты.

С т. зр. содержания тест может измерять максимальное выполнение или типичное выполнение, выявлять лучший уровень, к-рого может достичь обследуемый, либо типичный уровень его выполнения. Тесты на максимальное выполнение (maximum performance tests )предполагают правильные и неправильные ответы; тесты на типичное выполнение (typical performance tests )обычно оценивают различия в стилях выполнения, без использования сравнительной оценки ответов с т. зр. их эффективности.

Тесты на максимальное выполнение можно разделить на две категории: тесты способностей и тесты достижений. Чистые тесты способностей (ability tests )измеряют то, что чел. оказывается в состоянии делать, и обычно формулируют тестовые задания в виде проблем, непосредственным опытом решения к-рых тестируемый вряд ли обладает. Чистые тесты достижений (achievement tests )оценивают объем знаний, к-рый чел. усвоил в процессе предшествующего обучения. Однако это различие не всегда является очевидным, поскольку тесты способностей, как правило, тж предполагают использование ранее усвоенных правил и принципов. Большинство споров, касающихся ошибок в тестах способностей, концентрируются вокруг вопроса о том, в равной ли степени все потенциальные обследуемые имели в своей жизни возможность овладеть этими предполагаемыми в качестве предварительного условия умениями.

Тесты способностей и тесты достижений можно классифицировать на континууме скорость - возможность. Чистые тесты скорости (speed tests )состоят из вопросов, на к-рые легко дать правильный ответ, но этот ответ необходимо дать быстро. Чистые тесты возможностей (power tests )состоят из заданий, обычно различающихся по степени трудности, к-рые оценивают максимальное выполнение без ограничений времени на работу с ними.

В соответствии с др. принципом классиф. можно выделить тесты действия, или «практические» (performance tests ), и тесты вербальные, или «теоретические» (nonperformance tests ). Тесты действия обычно требуют явного, активного реагирования, такого как моторные и манипулятивные действия, в то время как вербальные тесты обычно предполагают письменные вербальные ответы на вопросы.

Тесты личности (personality tests )подразделяются на два осн. типа: объективные и проективные. Объективные тесты личности (objective personality tests ), такие как Миннесотский многофазный личностный опросник (ММРI ), обычно включают вопросы, предполагающие ответы в форматах «да/нет» или множественного выбора, к-рые доступны объективной количественной обработке. Эти вопросы (или утверждения), составляющие пункты теста, часто объединяются в шкалы, измеряющие различные аспекты личности. Несмотря на объективность получения оценок по отдельным шкалам, их интеграция в профили для целостного описания личности обычно предполагает привлечение субъективных суждений. Проективные тесты (projective tests )используют неопределенные стимулы, к-рые обследуемый должен интерпретировать, предположительно путем «проецирования» в эту интерпретацию отдельных аспектов своей собственной личности. Классическими проективными тестами являются Тест чернильных пятен Роршаха и Тест тематической апперцепции (ТAT ). Проведение и обработка проективных тестов требует специальной подготовки и значительного профессионального опыта.

Тесты могут разраб. для индивидуального или групп. проведения. Индивидуальные тесты, такие как IQ -тесты Векслера, требуют для проведения больших временных затрат. Групп. тесты, такие как Тест академических способностей (SAT ), требуют меньших временных затрат, но обычно не позволяют тестирующему оценивать аттитюды к тестированию, анализировать стратегию ответов или расспрашивать тестируемого в отношении специфических ответов с целью поиска дополнительной, уточняющей информ.

Тремя осн. подходами в интерпретации тестовых показателей являются нормативный, ориентированный на статистические нормы, критериально ориентированный и ипсативный. Нормативный подход используется наиболее часто и предполагает сравнение индивидуального показателя с групповым, рассматриваемыми в качестве нормы. Критериально-ориентированная система связывает уровень выполнения теста индивидуумом с абсолютными стандартами или критериями. Ипсативный подход предполагает сравнение индивидуальных показателей друг с другом.

См. также Психометрика

М. Эллин

Методы эмпирического исследования (empirical research methods )

Слово «эмпирический» буквально означает «то, что воспринимается органами чувств». Когда это прилагательное употребляется по отношению к методам научного исслед., оно служит для обозначения методик и методов, связанных с сенсорным (чувственным) опытом. Поэтому говорят, что эмпирические методы основываются на т. н. «твердых (неопровержимых) данных» («hard data» ). Кроме того, эмпирическое исслед. твердо придерживается научного метода в противоположность др. исследовательским методологиям, таким как натуралистическое наблюдение, архивные исследования и др. Важнейшая и необходимая предпосылка, лежащая в основе методологии эмпирического исслед. состоит в том, что оно обеспечивает возможность своего воспроизведения и подтверждения/опровержения. Пристрастие эмпирического исслед. к «твердым данным» требует высокой внутренней согласованности и устойчивости средств измерения (и мер) тех независимых и зависимых переменных, к-рые привлекаются с целью научного изучения. Внутренняя согласованность является осн. условием устойчивости; средства измерения не могут быть высоко или хотя бы достаточно надежными, если эти средства, поставляющие сырые данные для последующего анализа, не будут давать высокие интеркорреляции. Неудовлетворение этого требования способствует внесению в систему дисперсии ошибок и приводит к получению неоднозначных или вводящих в заблуждение результатов.

Понятие «валидность» ввел в употребление Д. Кэмпбелл. Различают внутреннюю и внешнюю валидность эксперимента. Существуют также конструктная и операциональная валидности.

Внутренняя валидность характеризует меру влияния на изменение зависимой переменной тех условий (независимой переменной), которые варьирует экспериментатор. Чем больше влияют на изменение зависимой переменной неконтролируемые исследователем условия, тем ниже внутренняя валидность эксперимента. Высокая внутренняя валидность - главный признак хорошего эксперимента. Внутренняя валидность тем выше, чем больше вероятность того, что экспериментальный эффект (изменение зависимой переменной) вызван изменением независимой переменной.

Кэмпбелл выделил несколько основных факторов, нарушающих внутреннюю валидность эксперимента.
1. Селекция - неэквивалентность групп по составу, которая вызывает систематическую ошибку в результатах (например, исследуются группы младших школьников, но одни из обычных классов, а другие - из класса коррекции)
2. Статистическая регрессия - частный случай ошибки селекции, когда группы отбирались на основе «крайних» показателей (допустим, исследовали очень глупых и очень умных детей, а считалось, что взяли «середнячков»).
3. Экспериментальный отсев - неравномерное выбывание испытуемых из сравниваемых групп, приводящее к неэквивалентности групп по составу.
4. Естественное развитие - изменение испытуемых, являющееся следствием течения времени, без связи с конкретными событиями изменение состояния (голод, усталость, болезнь и др.), свойств индивида (возрастные перемены, накопление опыта и т.п.). Также на нарушение внутренней валидности влияет большое количество побочных переменных.

Внешняя валидность определяет, в какой мере результаты, полученные в эксперименте, будут соответствовать жизненной ситуации, послужившей «первообразом» для эксперимента.

Кроме того, внешняя валидность характеризует возможность обобщения, переноса результатов, полученных в эксперименте, на весь класс жизненных ситуаций, к которым принадлежит «первообразная», и на любые другие.

В принципе возможны такие эксперименты, которые не соответствуют никаким реальным жизненным ситуациям, а служат лишь для проверки гипотез, источником которых является развитая теория. Например, эксперименты по сенсорной депривации или выработке классических условных рефлексов у собак не соответствуют никакой жизненной реальности.

Внешняя валидность иногда трактуется как характеристика эксперимента, определяющая возможность переноса (обобщения) полученных результатов на различные времена, места, условия и группы людей (или животных). Однако возможность переноса является следствием двух причин:
- соответствия условий эксперимента его «первообразной» жизненной ситуации («репрезентативность» эксперимента) (например, исследование мотивации учащихся - репрезентативный эксперимент, т.к. все учащиеся находятся в ситуации учебной деятельности и так или иначе мотивированы на учебу);
- типичности самой «первообразной» ситуации для реальности («репрезентативность» ситуации). Выбранная для моделирования в эксперименте ситуация может быть совершенно нерепрезентативной с точки зрения жизни той группы испытуемых, которая участвует в эксперименте, или являться редкой и нетипичной (например, исследование поведения в экстремальных ситуациях пенсионеров села Банниково).

Кэмпбелл называет главные причины нарушения внешней валидности:
1. Эффект тестирования - уменьшение или увеличение восприимчивости испытуемых к экспериментальному воздействию под влиянием тестирования.
2. Условия проведения исследования. Они вызывают реакцию испытуемого на эксперимент. Следовательно, его данные нельзя переносить на лица, не принимавшие участия в эксперименте, этими лицами является вся генеральная совокупность, кроме экспериментальной выборки.
3. Интерференция экспериментальных воздействий. Испытуемые обладают памятью и обучаемостью. Если эксперимент состоит из нескольких серий, то первые воздействия не проходят для них бесследно и сказываются на появлении эффектов от последующих воздействий.

В реальной практике редко возникает возможность провести «правильное» исследование по всем законам и с учетом всех условий и требований. В действительности чаще оказывается невозможным подобрать репрезентативные выборки, исключить эффекты селекции, выбывания, да и возможность переноса результатов на всю популяцию зачастую оказывается нереальной. Поэтому в психологии разработаны так называемые планы квазиэкспериментов.

Квазиэкспериментом является любое исследование, направленное на установление причинной зависимости между двумя переменными («если А, то В»), в котором отсутствует предварительная процедура уравнивания групп или «параллельный контроль» с участием контрольной группы заменен сравнением результатов неоднократного тестирования группы (или групп) до и после воздействия. Выбираются две естественные группы, например два параллельных школьных класса. Обе группы тестируются. Затем одна группа подвергается воздействию (ставится в особые условия деятельности), а другая - нет. Через определенное время обе группы проходят тестирование повторно. В педагогической практике большинство исследований проведено по типу квазиэкспериментальных.

Кэмпбелл ввел еще одно важное понятие, а именно - конструктную валидность. Она характеризует правильность обозначения (интерпретации) причины и экспериментального эффекта с помощью абстрактных терминов из обыденного языка или формальной теории. Кэмпбелл отмечает, что установление внутренней валидности требует отбраковывания альтернативных объяснений связи между зависимой и независимой переменными. Установление конструктивной валидности требует отказа от альтернативных интерпретаций соотношения причины и следствия с понятиями, взятыми из той или иной теории. Таким образом, конструктная валидность определяется правильностью употребления терминов той или иной теории при интерпретации данных эксперимента.

На основе теории выдвигается гипотеза, которая в конечном счете и проверяется в эксперименте. Методики и план эксперимента должны соответствовать проверяемой гипотезе - степень этого соответствия и характеризует операциональную валидность.

Например, исследовать степень притязаний с помощью анализа степени привлекательности спутника (спутницы) испытуемого нельзя.

Вопросы к письменной контрольной работе по итогам семинара.

Надежность теста.

Надежность теста - фундаментальная характеристика теста, которая показывает в какой степени стабильны результаты тестирования при неоднократном обследовании. Надежность теста может определяться путем повторного тестирования (через строго определенный отрезок времени) и вычисления коэффициента корреляции между результатами первого и повторного тестирования. Надежность теста может определяться и путем тестирования с помощью нескольких вариантов одного и того же теста, деления теста на две половины и т.д. Надежность результатов тестирования зависит не только от качества самого теста, но и от процедуры проведения тестирования (она должна быть абсолютно идентичной в первом и во втором случае), социально-психологической однородности выборки (н. т. будет различной для детей, мужчин, женщин, солдат первого года – службы, старослужащих солдат и т.д.). И может получиться, что будучи надежным для одной группы людей, тест окажется ненадежным для другой, результаты тестирования в последнем случае будут неверны. Таким образом, н.т., выражая степень неточности, возможность ошибки, возникающей неизбежно при любом тестировании, заставляет искать пути уменьшения этой ошибки, более конкретного, целеустремленного применения теста. Надежность лучших тестов составляет 0,8 - 0,9.

2. "Тест-ретест".

"Тест-ретест" показывает вероятность возникновения различных результатов при двух замерах одного и того же объекта одинаковым инструментом, но не дает никаких сведений об источнике ошибки. В частности, при повторном интервьюировании очень велика вероятность влияния первого замера на второй и последующие. Нормы морали предписывают держать свое слово, и те, у кого семь пятниц на неделе, не одобряются. Поэтому респондент склонен давать сходный ответ, если он запомнил его при первом опросе. В итоге оценка надежности инструмента будет явно завышена. На самом деле социологические признаки (особенно мнения и оценки) меняются. Если изменения будут зафиксированы, "тест-ретест" в данном случае покажет заниженную надежность.

3.Эквивалентные альтернативные формы (эквивалентные формы теста, equivalent forms of a test) являются подобными по цели и по существу, и для них полностью доказана статистическая однородность распределений вероятностей значений их показателей. В частности, для эквивалентных форм установлено, что средние, дисперсии (средние квадратические отклонения) однородны (для уровня значимости a ≤ 0,05, или то же что Q ≤ 5%), и установлено высокое значение коэффициента корреляции между ними (r ≥ 0,9 для уровня значимости a ≤ 0,05, или Q ≤ 5%).

Таким образом, деление на категории основано на степени доказанности однородности распределений вероятностей значений показателей альтернативных форм: (1) - однородность не доказана, (2) - однородность частично доказана, (3) - однородность доказана полностью.

Применение эквивалентных форм теста позволяет оценить вариативность исследуемой сущности или явления. При использовании в исследовании вероятностной методологии, когда предполагается, что вариативность сама является сущностным психофизиологическим показателем (Трифонов Е.В., 1962, ..., 2002), применение эквивалентных форм теста (или субтестов) является правилом.

4 . Метод расщепления состоит в том, что тест разбивают на две сопоставимые части. Респондент выполняет задания этих двух частей в течение одного сеанса с получением двух результатов (например, тест Равена содержит две части: четные и нечетные задания).

5. Все методы психологической диагностики, начиная со стандартизованных и заканчивая нестандартизованными, направлены на измерение свойств личности и особенностей интеллекта.

Каждый метод предназначен для измерения какого-либо свойства, что и определяет содержание этого метода. Сведения о степени, в которой тест действительно измеряет то, для чего он предназначен, входят в понятие валидности.

Валидность и надежность. Тест может быть надежен, но не валиден. Это означает, что он измеряет какое-то свойство очень точно, но какое именно – остается под вопросом. В такой ситуации необходима более точная валидизация теста, как содержательная, так и практическая.

6. Виды валидности:

Очевидная (внешняя валидность) - отражает, насколько по внешнему впечатлению от методики можно определить её направленность.

Конкурентная валидность - характеризует, как результаты, полученные по данной методике, коррелируют с результатами по другим тестам.

Прогностическая валидность - отражает, как задания данной методики коррелируют с каким-либо поздним временным критерием.

Валидность по внешнему критерию - показывает, как задания методики коррелируют с каким-либо внешним критерием.

Конструктная валидность.Предполагает полное описание измеряемой переменной, выдвижение системы гипотез о связях ее с другими переменными, эмпирическое подтверждение (неопровержение) этих гипотез.

7. Процедура эмпирической валидизации .

Организация выборки при эмпирической валидизации зависит от временного статуса критерия. Если этот критерий - событие в прошлом (ретроспективная валидизация), то к участию в психодиагностическом обследовании достаточно привлечь только тех испытуемых, которые оказались на экстремальных полюсах по этому критерию. В результате применяется метод экстремальных (контрастных) групп. Коррелирование с суммарным баллом по тесту оценивается с помощью бисериального коэффициента по формуле (3.2.17). При этом в статусе дихотомической переменной (на месте отдельного пункта) оказывается сам критерий валидности: x- сумма баллов по тесту, полученных «высокой» группой по критерию; - стандартная ошибка критерия, связанная с численностью «высокой» (р) и «низкой» (q) групп.

8 . Провести теоретическую валидизацию методики – это показать, действительно ли методика измеряет именно то свойство, качество, которое она, по замыслу исследователя, должна измерять. Так, например, если какой-то тест разрабатывался для того, чтобы диагностировать умственное развитие школьников, надо проанализировать, действительно ли он измеряет именно это развитие, а не какие-то другие особенности(например, личность, характер и т.п.). Таким образом, для теоретической валидизации кардинальной проблемой является отношение между психическими явлениями и их показателями, посредством которых эти психические явления пытаются познать. Она показывает, что замысел автора и результаты методики совпадают.

9. Приводится 12 факторов, угрожающих валидности различных экспериментальных планов. Каждый фактор будет подробнее описан при обсуждении тех планов, в которых его действие проявляется наиболее отчетливо, и этот список будет завершен после обсуждения 10 из 16 планов. Основным при составлении этого списка было различение внутренней и внешней валидности.

Внутренняя валидность - это тот минимум, без которого не может быть интерпретирован ни один эксперимент: действительно ли именно это экспериментальное воздействие привело к изменениям в данном эксперименте? Внешняя валидность относится к возможности обобщения вывода: на какие популяции, ситуации, другие независимые переменные, параметры воздействия и переменные измерения могут быть распространены результаты эксперимента. Несомненно, что оба типа критериев являются важными, хотя часто они находятся в противоречии в том смысле, что увеличение валидности одного типа может угрожать валидности другого типа. Хотя внутренняя валидность есть условие sine qua non и хотя проблема внешней валидности, как и проблема индуктивного вывода, никогда не может быть полиостью решена, очевидно, что нашим идеалом является выбор таких экспериментальных планов, которые обеспечивают оба типа валидности. Это особенно важно для педагогических исследований, где весьма желательным является распространение данных на практические ситуации определенного характера. Различия и взаимоотношения между этими двумя видами валидности станут яснее после рассмотрения примеров при обсуждении конкретных типов эксперимента.

Далее будут представлены восемь различных классов внешних переменных, относящихся к внутренней валидности. Если эти переменные не контролируются в экспериментальном плане, то они могут дать эффекты, которые смешиваются с эффектом экспериментального воздействия. Эти переменные представляют влияние:

1) фона (history) - конкретных событий, которые происходят между первым и вторым измерением наряду с экспериментальным воздействием;

2) естественного развития (maturation) - изменений испытуемых, являющихся следствием течения времени per se (не связанных с конкретными событиями), например взросление, усиление голода, усталости и т. п.;

3) эффекта тестирования (testing) - влияния выполнения заданий, применяемых для измерения, на результаты повторного испытания;

4) инструментальной погрешности, нестабильности измерительного инструмента (instrumentation), при которой изменения в калибровке инструмента или изменения, характеризующие наблюдателя или оценочные показатели, могут вызвать изменения в результатах измерения;

5) статистической регрессии (statistical regression), имеющей место тогда, когда группы отбираются на основе крайних показателей и оценок;

6) отбора испытуемых (selection) - неэквивалентности групп по составу, вызывающей появление систематической ошибки в результатах;

7) отсева в ходе эксперимента (experimental mortality) - неравномерности выбывания испытуемых из сравниваемых групп;

8) взаимодействий фактора отбора с естественным развитием и др., которые в ряде квазиэкспериментальных планов с несколькими группами (таких, как план 10) ошибочно принимаются за эффект экспериментальной переменной.

К факторам, ставящим под угрозу внешнюю валидность, или репрезентативность эксперимента, относятся:

9) реактивный эффект, или эффект взаимодействия тестирования, - возможное уменьшение или увеличение сензитивности, или восприимчивости, испытуемых к экспериментальному воздействию под влиянием предварительного тестирования. Результаты лиц, прошедших предварительное тестирование, будут нерепрезентативны по отношению к тем, кто не подвергался предварительному тестированию, то есть тем, из кого состоит генеральная совокупность, из которых были отобраны испытуемые;

10) эффекты взаимодействия фактора отбора и экспериментального воздействия;

11) условия организации эксперимента, вызывающие реакцию испытуемых на эксперимент, которая не позволяет распространить полученные данные о влиянии экспериментальной переменной на лиц, подвергающихся такому же воздействию в неэкспериментальных условиях;

12) взаимная интерференция экспериментальных воздействий, нередко возникающая, когда одни и те же испытуемые подвергаются нескольким воздействиям, поскольку влияние более ранних воздействий, как правило, не исчезает. Это относится особенно к планам экспериментов с одной группой (планы типа 8 и 9).

10. Диагностическая методика отличается от любой исследовательской тем, что она стандартизирована.

10. Стандартизация (по Анастази) – это единообразие процедуры проведения и оценки выполнения теста. Таким образом, стандартизация рассматривается в двух планах: как выработка единых требований к процедуре эксперимента и как определение единого критерия оценки результатов диагностических испытаний. Стандартизация процедуры эксперимента подразумевает унификацию инструкций, бланков обследования, способов регистрации результатов, условий проведения обследования.

11. Требования к проведению теста

1. инструкции следует сообщать испытуемым одинаковым образом, как правило, письменно; в случае устных указаний они даются в разных группах одними и теми же сло-вами, понятными для всех, в одинаковой манере;

2. ни одному испытуемому не следует давать никаких преимуществ перед другими;

3. в процессе теста не следует давать отдельным испытуемым дополнительные пояснения;

4. тест с разными группами следует проводить в одинаковое по возможности время дня, в сходных условиях;

5. временные ограничения в выполнении заданий для всех испытуемых должны быть одинаковыми и так далее.

12. Отдельно следует остановиться на классификации диагностических процедур по такому критерию, как характер оценки . Совершенно естественно, что практически любой вид психологической диагностики можно рассматривать как процедуру экспертизы, то есть «рассмотрение какого-либо вопроса экспертами для вынесения заключения», «исследование какого-либо вопроса, требующего специальных знаний с представлением мотивированного заключения» (Толковый словарь русского языка, 1995 ).
Конечной целью любой экспертизы является ответ на поставленный заказчиком вопрос, который оформляется в виде экспертного заключения. Вопросы, решаемые экспертным исследованием, определяются на основе реальных потребностей практики. Основными форм

13 . Выборка стандартизации - множество испытуемых, на котором собираются диагностические нормы и проводится стандартизация диагностической шкалы.

Всякая большая совокупность людей, которую хотели бы исследовать или относительно которых собираются делать выводы, называется генеральной совокупностью.

14. В общих чертах стандартизация диагностической методики, ориентированной на норму, осуществляется путем ее проведения на большой представительной выборке испытуемых, которая ничем не отличается от той, для которой данная методика предназначена. На этой группе испытуемых, называемой выборкой стандартизации, разрабатываются нормы, указывающие не только средний уровень выполнения, но и его относительную вариативность выше и ниже среднего уровня. В результате можно оценить разные степени успешности или неуспешности в выполнении диагностической пробы. Это позволяет определить положение конкретного испытуемого относительно выборки стандартизации.

Для вычисления статистической нормы психологи-диагносты обратились к давно применяемым в биологии приемам математической статистики.

Рассмотрим пример.

На призывной пункт явилось несколько тысяч молодых людей.

Допустим, что все они примерно одного возраста. Что мы получим при измерении их роста? Обычно оказывается, что большинство почти одного роста, совсем немного будет людей очень маленького и очень высокого роста. Остальные же распределятся симметрично, уменьшаясь по количеству от среднего максимума в ту и другую сторону. Распределение рассматриваемых величин - это нормальное распределение (или распределение по нормальному закону, кривая распределения Гаусса). Математики показали, что для описания такого распределения достаточно знать два показателя - среднюю арифметическую и так называемое стандартное отклонение, которое получается путем несложных вычислений. Назовем среднюю арифметическую х, а стандартное отклонение? (сигма малая). При нормальном распределении все изучаемые величины практически находятся в пределах х + 5 ?.

Рассмотрим как определялась статистическая норма для тестов Стэн-форд-Бине. В группу испытуемых входили 4498 человек от 2,5 до 18 лет. Усилия стэнфордских психологов были направлены на то, чтобы распределение полученных по каждому возрасту данных о выполнении тестов было близко к нормальному. Этого результата удалось добиться далеко не сразу; в некоторых случаях ученым приходилось заменять одни задания другими. В конце концов эта работа была закончена, и были подготовлены тесты по каждому возрасту со средней арифметической, равной 100, и со стандартным отклонением, равным 16. Принимается, что результаты в пределах х ± ? показывают границы наиболее характерной, представительной части распределения, границы нормы для данного возраста. При? = 16 и х = 100 эти границы нормы будут от 84 до 116. Интерпретируется это так: результаты испытуемых, которые не выходят за эти границы, находятся в пределах нормы. Те, чьи результаты менее 84, находятся ниже нормы, а те, чьи результаты более 116, - выше нормы. Нередко этот же прием применяют и для дальнейшей классификации. Тогда результаты в пределах от х - ? до х - 2 ? интерпретируются как «несколько ниже нормы», а от х - 2 ? до х - З? - как «значительно ниже нормы». Соответственно классифицируются результаты, находящиеся выше нормы.

15 . В психодиагностике существует и другой подход к оценке результатов диагностических испытаний. В нашей стране под руководством К. М. Гуревичаразрабатываются тесты, в которых в качестве точки отсчета выступает не статистическая норма, а независимый от результатов испытания, объективно заданный социально-психологический норматив.

Социально-психологический норматив реализуется в совокупности заданий, составляющих тест. Следовательно, сам тест в полном его объеме и является таким нормативом. Все сопоставления индивидуальных или групповых результатов тестирования проводятся с тем максимумом, который представляется в тесте (а это полный набор знаний). В качестве критерия оценки выступает показатель, отражающий степень близости результатов к нормативу. Имеется разработанная схема представления групповых количественных данных.

Для анализа данных относительно их близости к социально-психологическому нормативу, условно рассматриваемому как 100 %-ное выполнение всего теста, все испытуемые подразделяются по результатам тестирования на 5 подгрупп:

Билет № 4.1. Сущность стратегии. Уровни и этапы разработки стратегии. Факторы, влияющие на формирование стратегии

- См. Валидность...
Большая психологическая энциклопедия
- В. в. относится к степени уверенности, с к-рой можно судить о предполагаемой каузальной связи между переменными...
Психологическая энциклопедия
- - соответствие теста целям диагностики...
Педагогический терминологический словарь
- англ. validity; нем. Validitat/Gulltigkeit. Обоснованность и адекватность исследовательских инструментов...
Энциклопедия социологии
- англ. validity, empirical; нем. Validitat, empirische. Степень соответствия переменных и индикаторов эмпирическим данным...
Энциклопедия социологии
- англ. validity, logical; нем. Validitat, logische. Степень взаимосвязи и взаимной выводимости переменных и индикаторов...
Энциклопедия социологии
- от фр. valide в статистике - законность и достоверность исходной информации, надежность методики сбора, получения данных, в том числе и для экономических исследований...
Словарь бизнес терминов
- Степень соответствия переменных и индикаторов эмпирическим данным...
Словарь бизнес терминов
- Вид теоретической валидности, выражающийся в корреляции...
Словарь бизнес терминов
Большой экономический словарь
- применительно к исходной статистической информации, используемой в экономических исследованиях: надежность информации, отсутствие в ней ошибок из-за неточности выбранной методики сбора данных...
Экономический словарь
- вал"...
Русский орфографический словарь
- вали́дность ж. Отсутствие ошибок, связанных с определением исходных посылок при разработке методики исследований; надежность информации...
Толковый словарь Ефремовой
- ВАЛИДНОСТЬ и, ж. validité f. <лат. validus. Действительность, законность, весомость, обоснованность; обладание юридической силой. Комлев 1992. || Способность образовать связную знаковую систему...
Исторический словарь галлицизмов русского языка
- 1) весомость, обоснованность; 2) действительность, законность; обладание юридической силой...
Словарь иностранных слов русского языка
- ...
Словарь синонимов

"Внутренняя валидность" в книгах

4. Правдивость и валидность

Из книги Способы создания миров автора Автор неизвестен

Валидность (Validité)

Из книги Философский словарь автора Конт-Спонвиль Андре

Валидность (Validit?) Употребляемый в логике синоним истины, точнее говоря, ее формальный эквивалент. Вывод считается валидным (верным), если представляет собой переход от истинного к истинному (от истинности посылок к истинности заключения) или остается верным независимо от

НАДЕЖНОСТЬ И ВАЛИДНОСТЬ

Из книги Психология автора Робинсон Дейв

НАДЕЖНОСТЬ И ВАЛИДНОСТЬ Родители Эми обеспокоены тем, что она читает не так хорошо, как складывает и вычитает числа. После обсуждения этого вопроса с ее учителем они решили показать Эми психологу. Психолог предложил девочке пройти тесты, которые должны выяснить ее

Валидность или достоверность

Из книги автора

Валидность или достоверность важнейший критерий качества измерений, обозначающий, что метод, методика или тест измеряет то, для чего он предназначен, т. е. меру соответствия использованного инструментария и полученных результатов поставленным задачам. Данный критерий

Валидность

Из книги Разгони свой сайт автора Мациевский Николай

Валидность Получившийся таким образом CSS-файл абсолютно валиден (так как все mhtml-вставки происходят в комментариях). Каждое CSS-объявление валидно с точки зрения CSS 2.1, и те небольшие приемы, которые позволяют эффективно сжать данные для всех браузеров, не отражаются на

3. Факторная валидность

автора Лучинин Алексей Сергеевич

3. Факторная валидность Факторная валидность. Прямое отношение к характеристике конструктной валидности имеет факторный анализ, позволяющий строго статистически проанализировать структуру связей показателей исследуемого теста с другими известными и латентными

4. Дифференциальная валидность

Из книги Психодиагностика: конспект лекций автора Лучинин Алексей Сергеевич

4. Дифференциальная валидность Дифференциальная валидность – вид конструктной валидности, рассматривающей внутренние взаимоотношения между психологическими факторами, диагностируемыми с помощью психодиагностической методики. Содержание дифференциальной

2. Очевидная валидность

Из книги Психодиагностика: конспект лекций автора Лучинин Алексей Сергеевич

2. Очевидная валидность Очевидная валидность – представление о тесте, сфере его применения, результативности и прогностической ценности, которое возникает у испытуемого или другого лица, не располагающего специальными сведениями о характере использования и целях

24. Факторная валидность

автора Лучинин Алексей Сергеевич

24. Факторная валидность Факторная валидность. Прямое отношение к характеристике конструктной валидности имеет факторный анализ, позволяющий строго статистически проанализировать структуру связей показателей исследуемого теста с другими известными и латентными

25. Дифференциальная валидность. Валидность по возрастной дифференциации

Из книги Психодиагностика автора Лучинин Алексей Сергеевич

25. Дифференциальная валидность. Валидность по возрастной дифференциации Дифференциальная валидность – вид конструктной валидности, рассматривающей внутренние взаимоотношения между психологическими факторами, диагностируемыми с помощью психодиагностической

26. Критериальная валидность

Из книги Психодиагностика автора Лучинин Алексей Сергеевич

26. Критериальная валидность Критериальная валидность – комплекс характеристик, включающий текущую и прогностическую валидности методики и отражающий соответствие диагноза и прогноза определенному кругу критериев измеряемого явления. В качестве критерия

29. Прогностическая валидность

Из книги Психодиагностика автора Лучинин Алексей Сергеевич

29. Прогностическая валидность Прогностическая валидность – информация о том, с какой степенью точности и обоснованности методика (тест) позволяет судить о диагностируемом психологическом качестве спустя определенное время после измерения. Прогностическая валидность

Валидность

автора Миллер Скотт

Валидность В каждом исследовании есть переменные и отношения между ними. Поэтому, когда мы хотим описать исследование, центральным является конструкт переменных: какого вида различия изучаются и какими способами? Если мы хотим выйти за рамки описания и перейти к оценке

Валидность

Из книги Психология развития [Методы исследования] автора Миллер Скотт

Валидность При оценке валидности теста ставится следующий вопрос: измеряет ли тест то, что, как предполагается, он должен измерять? Если это, к примеру, IQ-тест, действительно он измеряет различия в уровне интеллекта или различия показателей испытуемых обусловлены чем-то

Валидность

Из книги Интеллект успеха автора Стернберг Роберт

Валидность Первую важную информацию такого рода, которая будет постоянно обсуждаться в данной книге, часто называют «критерием валидности». Вопрос здесь состоит в том, насколько результаты тестирования измеряют то, что они должны измерять в соответствии со своим

Разделы