Главная

Чехов

Тема семинара: выборка в социологическом исследовании Ключевые понятия. Выборка, её типы и характеристика Результаты выборки представлены

Тема семинара: выборка в социологическом исследовании Ключевые понятия. Выборка, её типы и характеристика Результаты выборки представлены

Элементов, которая охватывается экспериментом (наблюдением, опросом).

Характеристики выборки:

Качественная характеристика выборки - что именно мы выбираем и какие способы построения выборки мы для этого используем.
Количественная характеристика выборки - сколько случаев выбираем, другими словами объём выборки.

Необходимость выборки:

Объект исследования очень обширный. Например, потребители продукции глобальной компании - огромное количество территориально разбросанных рынков.
Существует необходимость в сборе первичной информации.

Энциклопедичный YouTube

1 / 5

✪ Выборка: расчет объема. Достоверность и мощность исследования. Биостатистика.

✪ 02 - Мат. статистика. Выборка.Выборочное пространство. Примеры

✪ Основы SQL для начинающих | Выборка значений из базы данных

✪ SQL для начинающих (DML): Выборка из таблицы (MySql), Урок 4!

✪ Производство SIP панелей. Часть 2. Раскрой и фигурная резка. Выборка пазов. Все по уму

Субтитры

Объём выборки

Объём выборки - число случаев, включённых в выборочную совокупность.

Выборки можно условно разделить на большие и малые, так как в математической статистике используются различные подходы в зависимости от объёма выборки. Считается, что выборки объёма больше 30 можно отнести к большим .

Зависимые и независимые выборки

При сравнении двух (и более) выборок важным параметром является их зависимость. Если можно установить гомоморфную пару (то есть, когда одному случаю из выборки X соответствует один и только один случай из выборки Y и наоборот) для каждого случая в двух выборках (и это основание взаимосвязи является важным для измеряемого на выборках признака), такие выборки называются зависимыми . Примеры зависимых выборок:

пары близнецов,
два измерения какого-либо признака до и после экспериментального воздействия,
мужья и жёны
и т. п.

В случае, если такая взаимосвязь между выборками отсутствует, то эти выборки считаются независимыми , например:

мужчины и женщины ,
психологи и математики .

Соответственно, зависимые выборки всегда имеют одинаковый объём, а объём независимых может отличаться.

Сравнение выборок производится с помощью различных статистических критериев :

Критерий Пирсона (χ 2 )
Критерий Стьюдента (t )
Критерий Вилкоксона (T )
Критерий Манна - Уитни (U )
Критерий знаков (G )
и др.

Репрезентативность

Выборка может рассматриваться в качестве репрезентативной или нерепрезентативной. Выборка будет репрезентативной при обследовании большой группы людей, если внутри этой группы есть представители разных подгрупп, только так можно сделать верные выводы.

Пример нерепрезентативной выборки

Исследование с экспериментальной и контрольной группами, которые ставятся в разные условия.
- Исследование с экспериментальной и контрольной группами с привлечением стратегии попарного отбора
Исследование с использованием только одной группы - экспериментальной.
Исследование с использованием смешанного (факторного) плана - все группы ставятся в разные условия.

Типы выборок

Выборки делятся на два типа:

вероятностные
невероятностные

Вероятностные выборки

Простая вероятностная выборка:
- Простая повторная выборка. Использование такой выборки основывается на предположении, что каждый респондент с равной долей вероятности может попасть в выборку. На основе списка генеральной совокупности составляются карточки с номерами респондентов. Они помещаются в колоду, перемешиваются и из них наугад вынимается карточка, записывается номер, потом возвращается обратно. Далее процедура повторяется столько раз, какой объём выборки нам необходим. Минус: повторение единиц отбора.

Процедура построения простой случайной выборки включает в себя следующие шаги:

1) необходимо получить полный список членов генеральной совокупности и пронумеровать этот список. Такой список, напомним, называется основой выборки;

2) определить предполагаемый объём выборки, то есть ожидаемое число опрошенных;

3) извлечь из таблицы случайных чисел столько чисел, сколько нам требуется выборочных единиц. Если в выборке должно оказаться 100 человек, из таблицы берут 100 случайных чисел. Эти случайные числа могут генерироваться компьютерной программой.

4) выбрать из списка-основы те наблюдения, номера которых соответствуют выписанным случайным числам

Простая случайная выборка имеет очевидные преимущества. Этот метод крайне прост для понимания. Результаты исследования можно распространять на изучаемую совокупность. Большинство подходов к получению статистических выводов предусматривают сбор информации с помощью простой случайной выборки. Однако метод простой случайной выборки имеет как минимум четыре существенных ограничения:

1) нередко сложно создать основу выборочногo наблюдения, которая позволила бы провести простую случайную выборку.

2) результатом применения простой случайной выборки может стать большая совокупность, либо совокупность, распределенная по большой географической территории, что значительно увеличивает время и стоимость сбора данных.

3) результаты применения простой случайной выборки часто характеризуются низкой точностью и большей стандартной ошибкой, чем результаты применения других вероятностных методов.

4) в результате применения SRS может сформироваться нерепрезентативная выборка. Хотя выборки, полученные простым случайным отбором, в среднем адекватно представляют генеральную совокупность, некоторые из них крайне некорректно представляют изучаемую совокупность. Вероятность этого особенно велика при небольшом объёме выборки.

Простая бесповторная выборка. Процедура построения выборки такая же, только карточки с номерами респондентов не возвращаются обратно в колоду.

Систематическая вероятностная выборка. Является упрощенным вариантом простой вероятностной выборки. На основе списка генеральной совокупности через определённый интервал (К) отбираются респонденты. Величина К определяется случайно. Наиболее достоверный результат достигается при однородной генеральной совокупности, иначе возможны совпадение величины шага и каких-то внутренних циклических закономерностей выборки (смешение выборки). Минусы: такие же как и в простой вероятностной выборке.
Серийная (гнездовая) выборка. Единицы отбора представляют собой статистические серии (семья, школа, бригада и т. п.). Отобранные элементы подвергаются сплошному обследованию. Отбор статистических единиц может быть организован по типу случайной или систематической выборки. Минус: Возможность большей однородности, чем в генеральной совокупности.
Районированная выборка. В случае неоднородной генеральной совокупности, прежде, чем использовать вероятностную выборку с любой техникой отбора, рекомендуется разделить генеральную совокупность на однородные части, такая выборка называется районированной. Группами районирования могут выступать как естественные образования (например, районы города), так и любой признак, заложенный в основу исследования. Признак, на основе которого осуществляется разделение, называется признаком расслоения и районирования.
«Удобная» выборка. Процедура «удобной» выборки состоит в установлении контактов с «удобными» единицами выборки - с группой студентов, спортивной командой, с друзьями и соседями. Если необходимо получить информацию о реакции людей на новую концепцию, такая выборка вполне обоснована. «Удобную» выборку часто используют для предварительного тестирования анкет.

Невероятностные выборки

Отбор в такой выборке осуществляется не по принципам случайности, а по субъективным критериям - доступности, типичности, равного представительства и т. д.

Квотная выборка - выборка строится как модель, которая воспроизводит структуру генеральной совокупности в виде квот (пропорций) изучаемых признаков. Число элементов выборки с различным сочетанием изучаемых признаков определяется с таким расчётом, чтобы оно соответствовало их доле (пропорции) в генеральной совокупности. Так, например, если генеральная совокупность у нас представлена 5000 человек, из них 2000 женщин и 3000 мужчин, тогда в квотной выборке у нас будут 20 женщин и 30 мужчин, либо 200 женщин и 300 мужчин. Квотированные выборки чаще всего основываются на демографических критериях: пол, возраст, регион, доход, образование и прочих. Минусы: обычно такие выборки нерепрезентативны, так как нельзя учесть сразу несколько социальных параметров. Плюсы: легкодоступный материал.
Метод снежного кома. Выборка строится следующим образом. У каждого респондента, начиная с первого, просятся контакты его друзей, коллег, знакомых, которые подходили бы под условия отбора и могли бы принять участие в исследовании. Таким образом, за исключением первого шага, выборка формируется с участием самих объектов исследования. Метод часто применяется, когда необходимо найти и опросить труднодоступные группы респондентов (например, респондентов, имеющих высокий доход, респондентов, принадлежащих к одной профессиональной группе, респондентов, имеющих какие-либо схожие хобби/увлечения и т. д.)
Стихийная выборка - выборка так называемого «первого встречного». Часто используется в теле- и радиоопросах. Размер и состав стихийных выборок заранее не известен, и определяется только одним параметром - активностью респондентов. Минусы: невозможно установить какую генеральную совокупность представляют опрошенные, и как следствие - невозможность определить репрезентативность.
Маршрутный опрос - часто используется, если единицей изучения является семья. На карте населённого пункта, в котором будет производиться опрос, нумеруются все улицы. С помощью таблицы (генератора) случайных чисел отбираются большие числа. Каждое большое число рассматривается как состоящее из 3-х компонентов: номер улицы (2-3 первых числа), номер дома, номер квартиры. Например, число 14832: 14 - это номер улицы на карте, 8 - номер дома, 32 - номер квартиры.
Районированная выборка с отбором типичных объектов. Если после районирования из каждой группы отбирается типичный объект, то есть объект, который по большинству изучаемых в исследовании характеристик приближается к средним показателям, такая выборка называется районированной с отбором типичных объектов.
Модальная выборка.
Экспертная выборка.
Гетерогенная выборка.

Стратегии построения групп

Отбор групп для их участия в психологическом эксперименте осуществляется с помощью различных стратегий, которые нужны для того, чтобы обеспечить максимально возможное соблюдение внутренней и внешней валидности .

Рандомизация

Рандомизация , или случайный отбор , используется для создания простых случайных выборок. Использование такой выборки основывается на предположении, что каждый член популяции с равной вероятностью может попасть в выборку. Например, чтобы сделать случайную выборку из 100 студентов вуза , можно сложить бумажки с именами всех студентов вуза в шляпу, а затем достать из неё 100 бумажек - это будет случайным отбором (Гудвин Дж., с. 147)......

Попарный отбор

Попарный отбор - стратегия построения групп выборки, при котором группы испытуемых составляются из субъектов, эквивалентных по значимым для эксперимента побочным параметрам. Данная стратегия эффективна для экспериментов с использованием экспериментальных и контрольных групп с лучшим вариантом - привлечением близнецовых пар (моно - и дизиготных).

Стратометрический отбор

Стратометрический отбор - рандомизация с выделением страт (или кластеров). При данном способе формирования выборки генеральная совокупность делится на группы (страты), обладающие определёнными характеристиками (пол , возраст , политические предпочтения, образование , уровень доходов и др.), и отбираются испытуемые с соответствующими характеристиками.

Приближённое моделирование

Приближённое моделирование - составление ограниченных выборок и обобщение выводов об этой выборке на более широкую популяцию. Например, при участии в исследовании студентов 2-го курса университета, данные этого исследования распространяются на «людей в возрасте от 17 до 21 года». Допустимость подобных обобщений крайне ограничена.

Приближенное моделирование - формирование модели, которая для четко оговоренного класса систем (процессов) описывает его поведение (или нужные явления) с приемлемой точностью.

Исследование обычно начинается с некоторого предположения, требую-щего проверки с привлечением фактов. Это предположение — гипотеза — формулируется в отношении связи явлений или свойств в некоторой сово-купности объектов.

Для проверки подобных предположений на фактах необходимо измерить соответствующие свойства у их носителей. Но невозможно измерить тревож-ность у всех женщин и мужчин, как невозможно измерить агрессивность у всех подростков. Поэтому при проведении исследования ограничиваются лишь относительно небольшой группой представителей соответствующих совокупностей людей.

Генеральная совокупность — это все множество объектов, в отношении ко-торого формулируется исследовательская гипотеза.

Например, все мужчины; или все женщины; или все жители какого-либо города. Генеральные совокупности, в отно-шении которых исследователь собирается сделать выводы по результатам ис-следования, могут быть по численности и более скромными, например, все первоклассники данной школы.

Таким образом, генеральная совокупность — это хотя и не бесконечное по численности, но, как правило, недоступное для сплошного исследования мно-жество потенциальных испытуемых.

Выборка или выборочная совокупность — это ограниченная по численности группа объектов (в психоло-гии — испытуемых, респондентов), специально отбираемая из генеральной совокупности для изучения ее свойств. Соответственно, изучение на выбор-ке свойств генеральной совокупности называется выборочным исследованием. Практически все психологические исследования являются выборочными, а их выводы распространяются на генеральные совокупности.

Таким образом, после того, как сформулирована гипотеза и определены соответствующие генеральные совокупности, перед исследователем возни-кает проблема организации выборки. Выборка должна быть такой, чтобы была обоснована генерализация выводов выборочного исследования — обобщение, распространение их на генеральную совокупность. Основные критерии обо-снованности выводов исследования — это репрезентативность выборки и ста-тистическая достоверность (эмпирических) результатов.

Репрезентативность выборки — иными словами, ее представительность — это способность выборки представлять изучаемые явления достаточно пол-но — с точки зрения их изменчивости в генеральной совокупности.

Конечно, полное представление об изучаемом явлении, во всем его диапа-зоне и нюансах изменчивости, может дать только генеральная совокупность. Поэтому репрезентативность всегда ограничена в той мере, в какой ограни-чена выборка. И именно репрезентативность выборки является основным кри-терием при определении границ генерализации выводов исследования. Тем не менее, существуют приемы, позволяющие получить достаточную для ис-следователя репрезентативность выборки (Эти приемы изучаются в курсе «Экспериментальная психология»).

Первый и основной прием — это простой случайный (рандомизированный) отбор. Он предполагает обеспечение таких условий, чтобы каждый член генеральной совокупности имел равные с другими шансы попасть в выборку. Слу-чайный отбор обеспечивает возможность попадания в выборку самых разных представителей генеральной совокупности. При этом принимаются специ-альные меры, исключающие появление какой-либо закономерности при отборе. И это позволяет надеяться на то, что в конечном итоге в выборке изу-чаемое свойство будет представлено если и не во всем, то в максимально воз-можном его многообразии.

Второй способ обеспечения репрезентативности — это стратифицирован-ный случайный отбор, или отбор по свойствам генеральной совокупности. Он предполагает предварительное определение тех качеств, которые могут вли-ять на изменчивость изучаемого свойства (это может быть пол, уровень дохо-да или образования и т. д.). Затем определяется процентное соотношение чис-ленности различающихся по этих качествам групп (страт) в генеральной совокупности и обеспечивается идентичное процентное соотношение соот-ветствующих групп в выборке. Далее в каждую подгруппу выборки испытуе-мые подбираются по принципу простого случайного отбора.

Статистическая достоверность , или статистическая значимость, результа-тов исследования определяется при помощи методов статистического выво-да.

Застрахованы ли мы от принятия ошибок при принятии решений, при тех или иных выводах из результатов исследования? Конечно, нет. Ведь наши решения опираются на результаты исследования выборочной совокупности, а также на уровень наших психологических знаний. Полностью мы не застрахованы от ошибок. В статистике такие ошибки считаются допустимыми, если они имеют место не чаще чем в одном случае из 1000 (вероятность ошибки α=0,001 или сопряженная с этим величина доверительная вероятность правильного вывода р=0,999); в одном случае из 100 (вероятность ошибки α=0,01 или сопряженная с этим величина доверительная вероятность правильного вывода р=0,99) или в пяти случаях из 100 (вероятность ошибки α=0,05 или сопряженная с этим величина доверительная вероятность правильного вывода р=0,95). Именно на двух последних уровнях и принято принимать решения в психологии.

Иногда, говоря о статистической достоверности, используют понятие «уровень значимости» (обозначается как α). Численные значения р и α дополняют друг друга до 1,000 — полный набор событий: либо мы сделали правильный вывод, либо мы ошиблись. Эти уровни не рассчитываются, они заданы. Уровень значимости можно понимать как некую «красную» линию», пересечение которой позволит говорить о данном событии как о неслучайном. В каждом грамотном научном отчете или публикации сделанные выводы должны сопровождаться указанием значений р или α, при которых сделаны выводы.

Методы статистического вывода подробно рассматриваются в курсе «Математической статистики». Сейчас лишь отметим, что они предъявляют определенные требования к численности, или объему выборки.

К сожалению, строгих рекомендаций по предварительному определению требуемого объема выборки не существует. Более того, ответ на вопрос о не-обходимой и достаточной ее численности исследователь обычно получает слишком поздно — только после анализа данных уже обследованной выбор-ки. Тем не менее, можно сформулировать наиболее общие рекомендации:

1. Наибольший объем выборки необходим при разработке диагностичес-кой методики — от 200 до 1000-2500 человек.

2. Если необходимо сравнивать 2 выборки, их общая численность должна быть не менее 50 человек; численность сравниваемых выборок должна быть приблизительно одинаковой.

3. Если изучается взаимосвязь между какими-либо свойствами, то объем выборки должен быть не меньше 30-35 человек.

4. Чем больше изменчивость изучаемого свойства , тем больше должен быть объем выборки. Поэтому изменчивость можно уменьшить, увеличивая однородность выборки, например, по полу, возрасту и т. д. При этом, естественно, уменьшаются возможности генерализации выводов.

Зависимые и независимые выборки. Обычна ситуация исследования, когда интересующее исследователя свойство изучается на двух или более выборках с целью их дальнейшего сравнения. Эти выборки могут находиться в различ-ных соотношениях — в зависимости от процедуры их организации. Независи-мые выборки характеризуются тем, что вероятность отбора любого испытуе-мого одной выборки не зависит от отбора любого из испытуемых другой выборки. Напротив, зависимые выборки характеризуются тем, что каждому испытуемому одной выборки поставлен в соответствие по определенному критерию испытуемый из другой выборки.

В общем случае зависимые выборки предполагают попарный подбор ис-пытуемых в сравниваемые выборки, а независимые выборки — независимый отбор испытуемых.

Следует отметить, что случаи «частично зависимых» (или «частично неза-висимых») выборок недопустимы: это непредсказуемым образом нарушает их репрезентативность.

В заключение отметим, что можно выделить две парадигмы психологи-ческого исследования.

Так называемая R-методология предполагает изучение изменчивости некоторого свойства (психологического) под влиянием неко-торого воздействия, фактора либо другого свойства. Выборкой является мно-жество испытуемых.

Другой подход, Q-методология, предполагает исследо-вание изменчивости субъекта (единичного) под влиянием различных стимулов (условий, ситуаций и т. д.). Ей соответствует ситуация, когда выборкой явля-ется множество стимулов.

Понятие «репрезентативность» применительно к социологическим опросам - опросам общественного мнения - обладает почти магическим действием на людей. Сам термин «репрезентация» имеет кроме научного еще и явно политическое значение.

В чем причина? Все дело в том, что предполагается, что выборка (группа людей, отобранная для опроса) может репрезентировать (представлять) всю генеральную совокупность. Генеральной совокупностью в случае общероссийских опросов является все население страны. Теперь представим, что речь идет о политическом решении - поддержке законопроекта или голосовании на выборах. С помощью выборочного опроса мы получаем отличный механизм политической репрезентации - механизм, при котором небольшая группа людей может представлять мнение или позицию всего населения страны. Поэтому репрезентативности исследования отводится такое важное место.

Понятие репрезентативности используется, разумеется, не только в политических исследованиях. Термин применяется практически всегда, когда речь идет о больших исследованиях, будь то в сфере маркетинга, экономического поведения или образования.

Методология репрезентативных опросов

Как, опросив 1500 человек, можно делать выводы обо всех россиянах, которых более 140 миллионов (и даже избирателей более 110 миллионов)? Технология, которая стоит за репрезентативными опросами, основана на статистических законах. Ближайшим основанием служит закон больших чисел, или теорема Бернулли.

Упрощенно его смысл можно передать так. Предположим, у нас имеется некоторый признак, например количество осадков за день в Екатеринбурге в течение ХХ века. Если мы выпишем все его значения вместе с их частотой (это называется распределением), а затем случайно возьмем достаточно большое число случаев (то есть не все дни в ХХ веке, но достаточно много), то мы увидим, что распределение в нашей выборке будет очень похожим на распределение за весь ХХ век. Таким образом, если мы отбираем из совокупности некоторые единицы, они действительно могут представлять всю совокупность, и на самом деле нет необходимости собирать данные по всем случаям.

Однако имеется ключевое условие: это верно, только если производить отбор строго случайным образом. Единственной проблемой здесь может быть отклонение от случайности. Так, если мы возьмем только данные по осадкам за последние годы (например, потому что эти данные проще найти) или опросим 1500 своих знакомых (потому что с ними проще связаться), а не случайных людей, то выборка, конечно, не будет репрезентативной.

Представьте, что из 143,5 миллионов россиян вы случайным образом отбираете необходимые вам 1500 человек. Тогда, например, доля менеджеров среднего звена среди них будет приблизительно равна доле менеджеров среднего звена в генеральной совокупности, что и показывает, что ваша выборка может представлять всю совокупность. Может ли так получиться, что эти два показателя будут сильно различаться? Например, среди россиян он составляет 14%, а в выборке он составит только 1%? Теоретически это возможно, однако вероятность этого настолько мала, что ею можно пренебречь (примерно как встретить дракона на улице).

Более того, самое приятное в этой вероятности даже не то, что она мала, а то, что для случайных процессов эту вероятность можно вычислить. Мы можем сказать, с какой вероятностью наше выборочное значение отклонится от значения в генеральной совокупности на 13% (как в примере выше), а с какой, скажем, на 2,5%. Обычно, впрочем, делают наоборот: сначала определяют вероятность, с которой мы хотим, чтобы наше значение не отклонялось от значения в генеральной совокупности (чаще всего его фиксируют на уровне 95%), а потом уже смотрят, какова величина отклонения при том или ином размере выборки. Это отклонение называется доверительным интервалом, иногда его называют ошибкой выборки или статистической погрешностью - его часто приводят рядом с результатами опроса.

Итак, вероятность отклонения, величина отклонения (доверительный интервал) и размер выборки связаны между собой. Исходя из этого, формула для расчета размера выборки выглядит следующим образом:

где n - размер выборки, Δ - доверительный интервал, z - значение функции нормального распределения для данной вероятности отклонения (для вероятности 5% это значение составляет 1,96).

Это упрощенная формула, в реальных опросах используются несколько более сложные формулы. Эта формула также может давать сбой, если значение показателя сильно отличается от 50% (поэтому, например, эта формула не подойдет для того, чтобы оценить долю больных редким заболеванием в стране).

Вот что будет, если подставить в эту формулу некоторые значения:

Иными словами, если мы взяли случайную выборку россиян размером в 1600 человек и оценили какой-то показатель, например готовность голосовать за определенного политика, то с вероятностью 95% наша оценка не будет отличаться от готовности проголосовать за него среди всех россиян более чем на 2,45%.

Размер выборки

Итак, чем больше размер выборки, тем больше вероятность того, что мы будем ближе к доле в генеральной совокупности. Казалось бы, это значит, что нам нужно стараться приблизить выборку к 143,5 млн. На самом деле, как можно видеть из таблицы, природа случайных процессов такова, что с определенного момента вероятность попасть в интервал начинает повышаться очень медленно (и этот момент наступает довольно быстро). После того как мы отбираем 1500 единиц, как бы мы сильно ни увеличивали объем выборки, вероятность, что наше значение по выборке попадет в значение по генеральной совокупности, будет возрастать очень и очень медленно.

Фактически разницы между 1500 и 10 000 опрошенных почти нет. Где-то к 1500 мы уже можем говорить о том, что наши оценки будут отличаться от доли в генеральной совокупности на 2–3%. Если мы увеличиваем выборку дальше, то эта возможная ошибка будет уменьшаться, но очень незначительно. Иными словами, выборка в 100 000 лучше, чем выборка в 2500, но разница настолько мала, что не имеет смысла, а в случае социальных обследований и экономически не обоснована. Обычно увеличение выборки стоит дорого, и поэтому ее не имеет смысла раздувать ради того, чтобы выиграть один процентный пункт в величине доверительного интервала.

Важно, что в формуле вообще не фигурирует размер генеральной совокупности. Дело в том, что, когда генеральная совокупность велика (более 20 000), он практически не влияет на размер выборки. Таким образом, нам не нужно знать, сколько людей живет в России, чтобы построить репрезентативную выборку. Понятно, что выбирать 1500 из 2000, скорее всего, не имеет смысла - проще обследовать 2000 и получить точную оценку. Но, делая в случае необходимости выборку, мы получаем возможность обобщать ее результаты для генеральной совокупности. И по этой же причине размер выборки не будет отличаться для больших и маленьких стран.

Репрезентативность и точность

Чтобы понять смысл понятия «репрезентативность», давайте рассмотрим выборку в 15 человек. Как ни странно, если вы сделали ее случайно, она тоже репрезентативна. Более того, вы можете сделать выборку в одну единицу. Представьте ящик с шарами, откуда вы случайным образом берете один шар. Если это случайно выбранный шар, то он тоже будет репрезентировать все шары, что есть в этом ящике. Просто он будет репрезентировать их неточно . Почему? Потому что есть очень большая вероятность ошибиться. В следующий раз мы можем вытащить другой шар и получить другое представление о шарах в ящике. Репрезентировать неточно означает иметь большой разброс оценок.

Точно так же и 15 человек репрезентируют любую генеральную совокупность, но они репрезентируют ее неточно, потому что погрешность, доверительный интервал очень велики. Нам придется добавлять по +/- 33%, чтобы получить 95% вероятности того, что мы попадем в интервал. Если мы готовы это допустить, то берем 15 человек, выясняем, что 7 из них - это менеджеры среднего звена, а далее получаем оценку, что 7/15 от совокупности, то есть 47% +/- 33%, - это и есть оценка доли менеджеров в генеральной совокупности, и это абсолютно корректный вывод. Просто он не имеет никакой ценности. Это мы могли сказать и без обследования. Поэтому, планируя выборку, имеет смысл достигать такого объема, который будет целесообразным с точки зрения соотношения затрат и эффективности.

Все сказанное призвано донести одну простую мысль, которую очень часто не осознают: объем выборки не связан с ее репрезентативностью .

Маленькая выборка неточна, но она все равно может быть репрезентативной. Объемы выборок, которые используются сегодня в массовых опросах в России, почти всегда обладают достаточно высокой точностью.

Угрожает же репрезентативности выборки не ее объем, а смещение, то есть отклонение от принципа случайности.

Нарушение принципа случайности

Если мы начинаем выбирать единицы неслучайным образом, выборка становится нерепрезентативной. Например, если что-нибудь мешает нам отбирать их случайно. Представим себе, что мы хотим отобрать шары из нашего ящика случайным образом, но тут оказывается, что часть шаров кусается. Механизм, при котором мы будем брать только те шарики, которые даются нам в руки, - это механизм, нарушающий случайность и поэтому нарушающий репрезентативность. В этом случае, сколько бы мы шариков ни взяли из ящика (даже если мы возьмем все шарики, которые не кусаются), у нас будет нерепрезентативная выборка, потому что мы не учтем ни одного из тех, что кусаются, - они просто минуют нашу выборку.

Самая большая проблема с кусающимися шарами состоит в том, что они могут отличаться от тех, которые идут к нам в руки, и отличаться как раз по тому признаку, который нас интересует. Такая ситуация называется систематической ошибкой выборки.

Нужно отличать ситуацию неточной репрезентации, которую мы описали выше, от ситуации нерепрезентативности. Это разные проблемы, и у них разные способы решения. Нельзя решить одну из них путем решения другой. Если выборке не хватает репрезентативности, бесполезно ее увеличивать. Более того, большие выборки в социальных обследованиях имеют свойство накапливать ошибки, поэтому с помощью сильного увеличения выборки проблему репрезентации можно только усугубить.

Почему репрезентативность невозможна

В примечаниях к таблицам с результатами опросов часто можно увидеть, что «объем выборки составляет 1600 человек, выборка репрезентативна по полу и возрасту». Из сказанного выше очевидно, что это два разных параметра: указание на репрезентативность не связано с объемом выборки. На самом деле здесь имеется в виду то, что выполнялись определенные процедуры, для того чтобы обеспечить соответствие между выборкой и генеральной совокупностью. Например, чтобы обеспечить репрезентативность по полу, в выборку набирают мужчин и женщин в таких же соотношениях, какие существуют среди россиян по данным переписи. Но репрезентативность по полу не означает репрезентативности, например, по политическим взглядам.

Почему приходится выравнивать выборку по полу и другим социально-демографическим категориям? Потому что подлинную репрезентативность может обеспечить только случайная выборка, а реализовать ее на практике невозможно по массе причин. Как только вы попытаетесь это сделать, вы столкнетесь с множеством проблем - неважно, каким методом вы захотите воспользоваться. Часть респондентов вообще окажется недоступной для вашего метода (скажем, для личных интервью большой проблемой являются дома с домофонами и охраной), еще часть будет отсутствовать, не отвечать или предпочтет заниматься своими делами. Есть люди, у которых есть языковые проблемы, и они не могут с нами говорить. Есть люди, которые не понимают, зачем это нужно, и они не хотят с нами говорить. Все это - серьезные нарушения случайности, которые делают ее реализацию невозможной.

Те, кто сводит проблему репрезентации в массовых опросах к статистике, забывают о том, что люди - это очень специфические шарики. Есть шарики, которые убегают и прячутся. Есть шарики, которые кусаются. Они не пассивные объекты, они дают сдачи. Они говорят: «Я не хочу участвовать в твоем опросе», тем самым нарушают случайность. Поэтому в строгом смысле слова репрезентативность в массовых опросах, конечно, невозможна ни в каком виде.

Выработан механизм, с помощью которого обычно обеспечивается видимость репрезентативности: мы выравниваем выборку по некоторым категориям и делаем вид, что по всем остальным возможным категориям она тоже выровнена. На самом деле у нас нет никаких оснований это утверждать. Но проблема в том, что нет и никакой возможности это проверить - опять же в силу того, что некоторые шарики кусаются. Для того чтобы проверить наличие систематической ошибки, проверяющему пришлось бы сходить к тем, кого мы не опросили, и опросить их. Но они, как мы помним, совсем не хотят, чтобы их опрашивали. Опросить тех, кто категорически не отвечает, невозможно. Поэтому все работают на предположении, что, если мы выровняли выборку по двум-трем параметрам, она репрезентирует всю совокупность, хотя у этого предположения и нет никаких серьезных оснований.

Репрезентативная выборка - технология, заимствованная социологами из статистики. Поэтому она неизбежно несет в себе элементы математико-статистической картины мира. Пожалуй, самое сильное допущение состоит в том, что сам по себе выборочный опрос политически и социологически нейтрален: участие и неучастие в опросе не несет в себе политического смысла и не связано с другими социологически важными параметрами. Но сегодня опросы стали одним из главных политических институтов и превратились в ключевого посредника между крупными корпорациями и потребителями. В этих условиях верить в их политическую стерильность уже невозможно. Однако мы по-прежнему мало знаем о том, как опросы понимаются в современных обществах и что они в действительности репрезентируют.

Выборка

Выборка или выборочная совокупность - множество случаев (испытуемых, объектов, событий, образцов), с помощью определённой процедуры выбранных из генеральной совокупности для участия в исследовании.

Характеристики выборки:

Качественная характеристика выборки – кого именно мы выбираем и какие способы построения выборки мы для этого используем.
Количественная характеристика выборки – сколько случаев выбираем, другими словами объём выборки.

Необходимость выборки

Объект исследования очень обширный. Например, потребители продукции глобальной компании – огромное количество территориально разбросанных рынков.
Существует необходимость в сборе первичной информации.

Объём выборки

Объём выборки - число случаев, включённых в выборочную совокупность. Из статистических соображений рекомендуется, чтобы число случаев составляло не менее 30-35.

Зависимые и независимые выборки

пары близнецов,
два измерения какого-либо признака до и после экспериментального воздействия,
мужья и жёны
и т. п.

Соответственно, зависимые выборки всегда имеют одинаковый объём, а объём независимых может отличаться.

Сравнение выборок производится с помощью различных статистических критериев:

и др.

Репрезентативность

Выборка может рассматриваться в качестве репрезентативной или нерепрезентативной.

Пример нерепрезентативной выборки

Исследование с экспериментальной и контрольной группами, которые ставятся в разные условия.
- Исследование с экспериментальной и контрольной группами с привлечением стратегии попарного отбора
Исследование с использованием только одной группы - экспериментальной.
Исследование с использованием смешанного (факторного) плана - все группы ставятся в разные условия.

Типы выборки

Выборки делятся на два типа:

вероятностные
невероятностные

Вероятностные выборки

Простая вероятностная выборка:
- Простая повторная выборка. Использование такой выборки основывается на предположении, что каждый респондент с равной долей вероятности может попасть в выборку. На основе списка генеральной совокупности составляются карточки с номерами респондентов. Они помещаются в колоду, перемешиваются и из них наугад вынимается карточка, записывается номер, потом возвращается обратно. Далее процедура повторяется столько раз, какой объём выборки нам необходим. Минус: повторение единиц отбора.

Процедура построения простой случайной выборки включает в себя следующие шаги:

1. необходимо получить полный список членов генеральной совокупности и пронумеровать этот список. Такой список, напомним, называется основой выборки;

2. определить предполагаемый объем выборки, то есть ожидаемое число опрошенных;

3. извлечь из таблицы случайных чисел столько чисел, сколько нам требуется выборочных единиц. Если в выборке должно оказаться 100 человек, из таблицы берут 100 случайных чисел. Эти случайные числа могут генерироваться компьютерной программой.

4. выбрать из списка-основы те наблюдения, номера которых соответствуют выписанным случайным числам

Простая случайная выборка имеет очевидные преимущества. Этот метод крайне прост для понимания. Результаты исследования можно распространять на изучаемую совокупность. Большинство подходов к получению статистических выводов предусматривают сбор информации с помощью простой случайной выборки. Однако метод простой случайной выборки имеет как минимум четыре существенных ограничения:

1. зачастую сложно создать основу выборочногo наблюдения, которая позволила бы провести простую случайную выборку.

2. результатом применения простой случайной выборки может стать большая совокупность, либо совокупность, распределенная по большой географической территории, что значительно увеличивает время и стоимость сбора данных.

3. результаты применения простой случайной выборки часто характеризуются низкой точностью и большей стандартной ошибкой, чем результаты применения других вероятностных методов.

4. в результате применения SRS может сформироваться нерепрезентативная выборка. Хотя выборки, полученные простым случайным отбором, в среднем адекватно представляют генеральную совокупность, некоторые из них крайне некорректно представляют изучаемую совокупность. Вероятность этого особенно велика при небольшом объеме выборки.

Простая бесповторная выборка. Процедура построения выборки такая же, только карточки с номерами респондентов не возвращаются обратно в колоду.

Систематическая вероятностная выборка. Является упрощенным вариантом простой вероятностной выборки. На основе списка генеральной совокупности через определённый интервал (К) отбираются респонденты. Величина К определяется случайно. Наиболее достоверный результат достигается при однородной генеральной совокупности, иначе возможны совпадение величины шага и каких-то внутренних циклических закономерностей выборки (смешение выборки). Минусы: такие же как и в простой вероятностной выборке.
Серийная (гнездовая) выборка. Единицы отбора представляют собой статистические серии (семья, школа, бригада и т. п.). Отобранные элементы подвергаются сплошному обследованию. Отбор статистических единиц может быть организован по типу случайной или систематической выборки. Минус: Возможность большей однородности, чем в генеральной совокупности.
Районированная выборка. В случае неоднородной генеральной совокупности, прежде, чем использовать вероятностную выборку с любой техникой отбора, рекомендуется разделить генеральную совокупность на однородные части, такая выборка называется районированной. Группами районирования могут выступать как естественные образования (например, районы города), так и любой признак, заложенный в основу исследования. Признак, на основе которого осуществляется разделение, называется признаком расслоения и районирования.
«Удобная» выборка. Процедура «удобной» выборки состоит в установлении контактов с «удобными» единицами выборки - с группой студентов, спортивной командой, с друзьями и соседями. Если необходимо получить информацию о реакции людей на новую концепцию, такая выборка вполне обоснована. «Удобную» выборку часто используют для предварительного тестирования анкет.

Невероятностные выборки

Отбор в такой выборке осуществляется не по принципам случайности, а по субъективным критериям – доступности, типичности, равного представительства и т.д.

Квотная выборка – выборка строится как модель, которая воспроизводит структуру генеральной совокупности в виде квот (пропорций) изучаемых признаков. Число элементов выборки с различным сочетанием изучаемых признаков определяется с таким расчётом, чтобы оно соответствовало их доле (пропорции) в генеральной совокупности. Так, например, если генеральная совокупность у нас представлена 5000 человек, из них 2000 женщин и 3000 мужчин, тогда в квотной выборке у нас будут 20 женщин и 30 мужчин, либо 200 женщин и 300 мужчин. Квотированные выборки чаще всего основываются на демографических критериях: пол, возраст, регион, доход, образование и прочих. Минусы: обычно такие выборки нерепрезентативны, т.к. нельзя учесть сразу несколько социальных параметров. Плюсы: легкодоступный материал.
Метод снежного кома. Выборка строится следующим образом. У каждого респондента, начиная с первого, просятся контакты его друзей, коллег, знакомых, которые подходили бы под условия отбора и могли бы принять участие в исследовании. Таким образом, за исключением первого шага, выборка формируется с участием самих объектов исследования. Метод часто применяется, когда необходимо найти и опросить труднодоступные группы респондентов (например, респондентов, имеющих высокий доход, респондентов, принадлежащих к одной профессиональной группе, респондентов, имеющих какие-либо схожие хобби/увлечения и т.д.)
Стихийная выборка – выборка так называемого «первого встречного». Часто используется в теле- и радиоопросах. Размер и состав стихийных выборок заранее не известен, и определяется только одним параметром – активностью респондентов. Минусы: невозможно установить какую генеральную совокупность представляют опрошенные, и как следствие – невозможность определить репрезентативность.
Маршрутный опрос – часто используется, если единицей изучения является семья. На карте населённого пункта, в котором будет производиться опрос, нумеруются все улицы. С помощью таблицы (генератора) случайных чисел отбираются большие числа. Каждое большое число рассматривается как состоящее из 3-х компонентов: номер улицы (2-3 первых числа), номер дома, номер квартиры. Например, число 14832: 14 – это номер улицы на карте, 8 – номер дома, 32 – номер квартиры.
Районированная выборка с отбором типичных объектов. Если после районирования из каждой группы отбирается типичный объект, т.е. объект, который по большинству изучаемых в исследовании характеристик приближается к средним показателям, такая выборка называется районированной с отбором типичных объектов.

6.Модальная выборка. 7.экспертная выборка. 8.Гетерогенная выборка.

Стратегии построения групп

Рандомизация

Попарный отбор

Стратометрический отбор

Приближённое моделирование

Приближенное моделирование – формирование модели, которая для четко оговоренного класса систем (процессов) описывает его поведение (или нужные явления) с приемлемой точностью.

Примечания

Литература

Наследов А. Д. Математические методы психологического исследования. - СПб.: Речь, 2004.

Ильясов Ф. Н. Репрезентативность результатов опроса в маркетинговом исследовании // Социологические исследования. 2011. № 3. С. 112-116.

См. также

В некоторых типах исследований выборку делят на группы:
- экспериментальная
- контрольная
Когорта

Ссылки

Понятие выборки. Основные характеристики выборки. Типы выборки

Wikimedia Foundation . 2010 .

Синонимы :

Щепкин, Михаил Семёнович
Генеральная совокупность

Смотреть что такое "Выборка" в других словарях:

выборка - группа испытуемых, представляющих определенную популяцию и отобранных для эксперимента или исследования. Противоположное понятие совокупность генеральная. Выборка есть часть совокупности генеральной. Словарь практического психолога. М.: АСТ,… … Большая психологическая энциклопедия

выборка - выборка Часть генеральной совокупности элементов, которая охватывается наблюдением (часто ее называют выборочной совокупностью, а выборкой — сам метод выборочного наблюдения). В математической статистике принят… … Справочник технического переводчика

Выборка - (sample) 1. Небольшое количество товара, отобранное, чтобы представлять все его количество. См.: продажа по образцу (sale by sample). 2. Небольшое количество товара, переданное потенциальным покупателям, чтобы дать им возможность провести его… … Словарь бизнес-терминов

Выборка - часть генеральной совокупности элементов, которая охватывается наблюдением (часто ее называют выборочной совокупностью, а выборкой сам метод выборочного наблюдения). В математической статистике принят принцип случайного отбора; это… … Экономико-математический словарь

ВЫБОРКА - (sample) Произвольный отбор подгруппы элементов из основной совокупности, характеристики которых используются для оценки всей совокупности в целом. Выборочный метод используется, когда слишком долго или слишком дорого обследовать всю совокупность … Экономический словарь

Выборка— это множество данных, взятых с помощью определённых процедур из генеральной совокупности для исследовательского анализа. Репрезентативность - это свойство воспроизведения представления о целом по его части. По иному, это возможность распространения представления о части на целое, которое эту часть включает в себя.

Репрезентативность выборки — это показатель, заключающийся в том, что выборка должна полно и достоверно отображать признаки той совокупности, частью которой она является. Её также можно определять как свойство выборки наиболее полно представлять характеристики генеральной совокупности, существенные с точки зрения цели исследования.

Допустим, что генеральная совокупность — все ученики школы (900 человек из 30 классов, по 30 человек в каждом классе). Объект исследования — отношение школьников к курению. Выборочная совокупность, состоящая из 90 учащихся только намного хуже представит всю совокупность, чем выборка из тех же 90 учеников, куда вошли бы из каждого класса по 3 ученика. Главная причина — неравное распределение по возрастам. Таким образом, в первом случае репрезентативность выборки будет низкой. Во втором случае - высокой.

В социологии говорят, что существует репрезентативность выборки и её нерепрезентативность.

В качестве примера нерепрезентативной выборки можно привести классический случай, произошедший в 1936 году в США во время президентских выборов.

Журнал «Литэрари дайджест», который до этого весьма успешно прогнозировал результаты предыдущих выборов, на этот раз ошибся в своих прогнозах, хотя разослал несколько миллионов письменных вопросов подписчикам, а также респондентам, которых они выбрали из телефонных книг и из списков регистрации автомобилей. В 1/4 бюллетеней, которые вернулись заполненные обратно, голоса распределились следующим образом: 57 % отдали первенство кандидату от республиканцев по имени Альф Лэндон, а 41 % отдали предпочтение действующему президенту - демократу Франклину Рузвельту.

В действительности, на выборах победил Ф. Рузвельт, который набрал почти 60 % голосов. Ошибка «Литэрари дайджест» была в следующем. Они захотели увеличить репрезентативность выборки. А так как они знали, что большинство их подписчиков относят себя к республиканцам, то они решили расширить выборку за счёт респондентов, выбранных ими из телефонных книг и автомобильных регистрационных списков. Но они не учли существующих реалий и фактически отобрали ещё больше сторонников республиканцев, потому что во времена иметь автомобили и телефоны мог позволить себе средний и высший класс. А это и были по большей части республиканцы, а не демократы.

Существуют различные виды выборки: простая случайная, серийная, типическая, механическая и комбинированная.

Простая случайная выборка состоит в отборе из всей совокупности изучаемых единиц наугад без какой-либо системы.

Механическую выборку применяют тогда, когда в генеральной совокупности есть упорядоченность, например, имеется некая последовательность единиц работников, избирательные списки, номера телефонов респондентов, номера квартир и домов и другое).

Типический отбор используется тогда, когда всю совокупность можно разделить на группы по типам. При работе с населением такими могут быть, например, образовательные, возрастные, социальные группы, при исследовании предприятий - отрасль или отдельная организация и др.

Серийный отбор удобен тогда, когда единицы объединены в небольшие серии или группы. Такой серией могут быть партии готовой продукции, школьные классы, и другие группы.

Комбинированная выборка предполагает использование всех предыдущих видов выборки в той или иной комбинации.

Разделы