Д. Ю. Кузнецов

Статистические методы анализа результатов психолого-педагогических исследований.

Специфика статистической обработки результатов психолого - педагогических исследований заключается в том, что анализируемая база данных характеризуется большим количеством показателей различных типов, их высокой вариативностью под влиянием неконтролируемых случайных факторов, сложностью корреляционных связей между переменными выборки , необходимостью учета объективных и субъективных факторов, влияющих на результаты диагностики, особенно при решении вопроса о репрезентативности выборки и оценке гипотез, касающихся генеральной совокупности. Данные исследований по их типу можно разбить на 3 группы. Первая - это номинальные переменные (пол, анкетные данные и т. д.). Арифметические операции над такими величинами лишены смысла, так что результаты описательной статистики (среднее, дисперсия) к таким величинам неприменимы. Классический способ их анализа - разбиение на классы сопряженности относительно тех или иных номинальных признаков и проверка значимых различий по классам. Вторая группа данных имеет количественную шкалу измерения, но эта шкала является порядковой (ординальной). При анализе ординальных переменных используется как разбиение на подвыборки, так и ранговые технологии. С некоторыми ограничениями применимы и параметрические методы. Третья группа - количественные переменные, отражающие степень выраженности замеряемого показателя, - это тесты Амтхауэра, Кеттелла, успеваемость и другие оценочные тесты. При работе с переменными этой группы применимы все стандартные виды анализа, и при достаточном объеме выборки их распределение обычно близко к нормальному. Таким образом, разнообразие типов переменных требует применения широкого спектра используемых математических методов.

Одной из главных целей исследования является анализ изменений, происходяших в процессе обучения, оценка значимости и направленности этих изменений и выявление основных факторов, влияющих на процесс. При этом возможны два подхода. Можно рассматривать длительность обучения как случайный параметр и вычислять его корреляцию (линейную или ранговую) с интересующими нас индивидуальными характеристиками испытуемого. Однако проводимые исследования показывают, что в процессе профессионализации изменяются зачастую не сами показатели, а структура взаимосвязей и взаимозависимостей между ними (что, например, при корреляционном анализе проявляется через изменение корреляционных матриц, а при факторном анализе - через изменение факторных нагрузок явных и латентных факторов). Поэтому более предпочтительным методом является разбиение данных на группы (подвыборки), их самостоятельный, а затем сравнительный анализ и проверка значимости различий в группах.

Процедуру анализа можно разбить на следующие этапы:

  1. Подготовка базы данных к анализу. Этот этап включает в себя конвертацию данных в электронный формат, их проверка на наличие выбросов, выбор метода работы с пропущенными значениями.
  2. Описательная статистика (вычисление средних, дисперсий, ассиметрии и эксцесса, центральных моментов, при необходимости моды, медианы, квартилей распределения и разброса, матриц ковариации и корреляции и т.д.). Результаты описательной статистики определяют характеристики параметров анализируемой выборки либо подвыборок, задаваемых тем или иным разбиением.
  3. Разведочный анализ. Задачей данного этапа является содержательное исследование различных групп показателей выборки, их взаимосвязей, выявление основных явных и скрытых (латентных) факторов, влияющих на данные, отслеживание изменений показателей, их взаимосвязей и значимости факторов при разбиении базы данных по курсам, факультетам, учебным заведениям и т. д. Инструментом исследования являются различные методы и технологии корреляционного, факторного и кластерного анализа. Целью анализа является формулировка гипотез, касающихся как данной выборки, так и генеральной совокупности.
  4. Детальный анализ полученных результатов и статистическая проверка выдвинутых гипотез. На этом этапе проверяются гипотезы относительно видов функции распределения случайных переменных, значимости различий средних и дисперсий в подвыборках, т.е. их однородности, значимости различий корреляционных матриц и факторных нагрузок в факторном представлении в подвыборках, интерпретация латентных факторов и т.д. Строятся доверительные интервалы для средних, дисперсий и коэффициентов корреляции, применяются подходящие критерии согласия. Используются методы дисперсионного, факторного и регрессионного анализа. При обобщении результатов исследования решается вопрос о репрезентативности выборки.

Необходимо отметить, что эта последовательность действий, строго говоря, не является хронологической, за исключением первого этапа. По мере получения результатов описательной статистики и выявления тех или иных закономерностей возникает необходимость проверить возникающие гипотезы и сразу перейти к их детальному анализу, так что весь спектр исследований будет проводиться одновременно или в режиме итерационного взаимодействия: результаты реализации более поздних этапов исследования могут содержать выводы о необходимости возвращения к предыдущим этапам. Но в любом случае при проверке гипотез рекомендуется провести их анализ различными математическими средствами, адекватно соответствующими модели, и принимать гипотезу на том или ином уровне значимости следует только тогда, когда она подтверждается несколькими различными методами.

Опишем теперь подробнее предлагаемую процедуру исследования и используемые математические методы.

Подготовка данных к анализу.

Прежде чем приступать к анализу, необходомо выполнить следующие действия: 1) проверить данные на наличие существенных ошибок; 2) выбрать метод работы с пропущенными значениями; 3) при необходимости сгладить выбросы. Рассмотрим каждый из этих моментов.

1) Ошибки ввода можно условно разбить на две категории. Первая - это незначительные (на уровне 20%) ошибки при наборе или шкалировании. Будучи случайным фактором, такие ошибки в силу равной вероятности отклонений в ту или другую сторону не смещают оценки для выборочных средних и не искажают принципиально распределение соответствующих переменных. Ошибки второго рода - это существенные ошибки (>50%), влияющие на распределение (выбросы). Задачей электронной проверки базы данных является полное устранение существенных ошибок. Для этого по каждой из переменных рекомендуется просмотреть диаграмму рассеяния на так называемой "нормальной вероятностной бумаге", отметить выбросы и, проанализировав их, исправить ошибочные значения, либо, если выброс имеет объективную природу, решить вопрос о сглаживании (см. ниже). При этом одновременно решается вопрос о близости выборочного распределения к нормальному. (При детальном анализе и проверке гипотез нормальность распределения необходимо подтверждать критериями согласия).

2) Существует три основных варианта работы с пропущенными значениями. Первый - игнорировать при конкретных вычислениях соответствующие случаи. Однако при этом не используется часть полезной информации и снижается валидность выборки, так что этот способ можно использовать при значительном объеме выборки (>100 человек) и небольшом (0-10%) числе пропусков. Второй способ заключается в замене пропущенных значений переменных их средними значениями. Такая процедура не изменяет валидность и выборочное среднее и незначительно уменьшает дисперсию. К её недостаткам можно отнести смещение оценок элементов ковариационной и корреляционной матриц, что, отражается на результатах корреляционного и факторного анализа. Тем не менее этот способ является самым распространенным при средних объёмах выборки и не слишком большом числе пропусков. Третий вариант работы с пропущенными значениями заключается в их экстраполяции по имеющимся данным. Это осуществляется средствами корреляционно - регрессионного или кластерного анализа. В первом случае по имеющимся данным определяется уравнение множественной регрессии заданных переменных на рассматриваемую, и пропущенные данные заполняются как значения этого уравнения. Второй подход основан на использовании расстояния между парами объектов (случаев) в некоторой метрике, определяемого по значениям переменных, измеренных у этих объектов. Предполагается, что если два случая близки в пространстве измеренных переменных (попадают в один кластер), то из этого следует и их близость по неизвестным переменным. Эти методы технически достаточно сложны и их целесообразно использовать только при небольшом объеме выборки, значительном числе пропусков и высокой значимости проводимого исследования.

3) Иногда выброс - не следствие ошибки, а обьективный результат исследования. Но в любом случае он существенно искажает распределение переменной, поэтому если выброс имеет случайный характер и не отражает некоторую закономерность, рекомендуется сгладить его путем замены соответствующего значения на среднее или экстраполированное одним из перечисленных выше способов.

Описательная статистика.

Результаты проведенного исследования интерпретируются как матрица данных T размера nґ р, строки которой соответствуют участникам исследования (случаи), а столбцы - значениям переменных или параметров. Пусть X - количественная переменная с набором значений xi, i=1,2,...n. Тогда основными параметрами её распределения являются:

  1. Показатели положения. К ним относятся выборочное среднее Xср=(S xi)/n, минимальный и максимальный элементы, верхний и нижний квартили (они определяют границы зоны, в которую попадает 50% выборки), выборочная медиана (квантиль, соответствующая значению p=0.5).
  2. Показатели разброса и ассимметрии. Это в первую очередь исправленное выборочное отклонение s, дисперсия D, коэффициент вариации Квар, размах (разность между максимальным и минимальным элементами), межквартильный размах (разность между верхней и нижней квартилью), центральные отклонения m i, ассимметрия Ass(X), эксцесс Eks(X), вычисляемые по формулам
  3. D = 1/(n-1) ( S (xi - Xср)2)1/2, s = Ц D, (1)

    m k = ( S (xi - Xср)k) / n , Ass( X)= m 3 / s3, Eks(X)= m 4/s4 - 3. (2)

    Отметим, что m 1=0, m 2=s 2, и для нормально распределенной случайной переменной Х справедливы равенства Ass(X)=Eks(X)=0 (значительные отклонения этих параметров от нуля свидетельствуют о ненормальности распределения).

  4. Показатели, описывающие закон распределения. Эта группа показателей включает диаграммы рассеяния, графики гистограммы и эмпирической функции распределения, таблицы частот.

Для двух случайных переменных X, Y параметрами их совместного распределения служат корреляционный момент m xy (или коэффициент ковариации), коэффициент линейной корреляции r, корреляционные отношения h xy , h yx, определяемые следующим образом:

m xy = 1/ n (( S (xi - Xср) (yi -Yср) = (XY) ср - Xср Yср, (3)

r = m xy /(sxsy) = ( S nxy xy - n Xср Yср)/(n sxsy ), (4)

h yx = sмежгр / sy = (( S nx (yx - Y)2/( S ny (y - Y)2)1/2, (5)

h xy = sмежгр / sx = (( S ny (xy - Xср)2/( S nx (x - Xср)2)1/2. (6)

Здесь nx ny - частоты значений соответственно признака x в X и y в Y, xy , yx - условные средние. В большинстве статистических пакетов одновременно с коэффициентом корреляции определяется его уровень значимости a . Основное различие между коэффициентом корреляции r и корреляционными отношениями состоит в том, что первый измеряет тесноту линейной связи между переменными, в то время как корреляционнное отношение служит мерой уровня любой, в том числе и линейной, зависимости. Недостатком же корреляционного отношения является то, что оно не позволяет определить аппроксимирующую кривую связи между X и Y, так как при определении корреляционного отношения конкретный вид зависимости во внимание не принимается. При анализе ординальных переменных вместо коэффициента линейной корреляции К.Пирсона r используются коэффициенты ранговой корреляции Спирмена r и Кенделла t . Для этого набор значений переменных Х и Y предварительно ранжируется, и в качестве значений переменных берутся соответствующие ранги. Таким образом, набор значений ранжированной переменной есть некоторая перестановка натуральных чисел от 1 до n. Коэффициент r для рядов числовых значений xi и yi (i = 1,.., n) вычисляется по формуле r = 1- 6S/(n3 - n), где S = S (xi - yi )2. Для определения коэффициента t вводится статистика Кенделла К, определяемая как число инверсий в ряду xi, упорядоченном значениями yi. Тогда t = 1- 4K/(n(n -1)). Как и r, эти числа удовлетворяют неравенствам -1< r , t < 1, и крайние значения принимаются в случае полной предсказуемости одной ранговой последовательности по другой. Для выявления связи номинальных признаков используются таблицы сопряженности.

Параметрами многомерного распределения системы переменных {Хi}, определяемой матрицей данных T или ее подматрицей Tk, являются вектор средних и матрицы ковариаций М и корреляций R, элементами которых соответственно будут корреляционные моменты m i,j и коэффициенты парной корреляции ri,j. Диагональные элементы m i,i ковариационной матрицы М - это выборочные дисперсии Di. Обе матрицы симметричны , матрица R по сути есть нормирование М и обе они служат базой для последующего регрессионного и факторного анализа.

Регрессионный анализ. Задачей регрессионного анализа является построение модели функциональной связи между группой независимых переменных (это могут быть номинальные параметры - регрессоры либо случайные переменные, называемые предикторами или предсказательными переменными) и одномерной переменной Y, называемой откликом. Рассмотрим уравнение связи Y = f(X1, X2,...Xk , q ) + e (7), где f - n-мерная вектор-функция от k переменных Xi и q - параметра связи; e -n-мерный случайный параметр, отражающий отклонение от функциональной зависимости (вектор остатков или ошибок). В классической модели предполагается, что координаты e независимы и одинаково распределены по нормальному закону N(0,s 2). Рассматрим ситуацию, когда f линейно зависит от q , т.е. задачу линейного регрессионного анализа (с методами нелинейного анализа можно ознакомиться в [4]). Тогда уравнение (7) можно представить в виде Y = q 1 + q 2X1 + q 3X2 +...+ q k+1Xk + e , (8) или в матричной форме Y = Aq + e . Здесь А={ai,j} - матрица размера nґ (k+1) , называемая регрессионной матрицей, в которой ai,1=1, ai,j i,j-1 - компоненты вектора Xj-1 при j>1. Одним из основных методов получения оценки q является метод наименьших квадратов, заключающийся в минимизации остаточной суммы квадратов (RSS) = S e i2 по отношению к q . Применяя его, мы получим значения (q 2 ,... q k+1)= M-1CyX, q 1=Yср - q 2X1 - q 3X2 -...- q k+1Xk , где М - матрица ковариаций для Xi, CyX = ( m Y,Xi , i=1,..k) - вектор оценок ковариаций между Y и Xi. Оценкой для остатка будет е =Y- Aq , a RSS= |e|. Доверительный интервал для q i на уровне значимости a определяется как q i + (D(q i)t1-a /2(n ))1/2, где t1-a /2(n ) - квантиль для t-распределения с n = n-k степенями свободы. Определим квадрат коэффициента множественной корреляции между Y и Xi как R2 = CyXT M-1CyX = (q CyX ) / s Y2. Его статистический смысл можно объяснить, рассмотрев дисперсию условного распределения Y при заданных Xi: (s yXi)2 =s Y2 (1- R2). Таким образом, величина R2 есть доля дисперсии Y, объясненная переменными Xi. Параметры R2, RSS, доверительные интервалы для q и оценки для дисперсий ошибок e и коэффициентов регрессии ([5, 7.1.3]) определяют качество приближения Y уравнением регрессии и являются важными параметрами анализа.

Наряду с изложенным выше параметрическим подходом существуют непараметрические методы построения уравнений регрессии. Их преимуществом является отсутствие предположений относительно нормальности распределения предикторов и ошибок, а недостатком - меньшая мощность критериев. Одни из таких методов используют идею кластерного группирования переменных относительно заданной метрики в пространстве предикторов [5, 7.1.9], другие основаны на ранжировании переменных и используют ранговые коэффициенты корреляции Спирмена и Кендалла [9, 8.5]. Выбор того или иного метода зависит от типа анализируемых переменных и в каждой ситуации решается отдельно.

Дисперсионный анализ (ДА). Предположим, что в уравнении линейной регрессии (8) параметры q i могут принимать значения только 0 или 1. Тогда мы получим модель, в которой учитывается не степень влияния переменных Хi на Y, а сам факт этого влияния - модель дисперсионного анализа. Переменные Хi в этой модели назывются факторами, Y - откликом. В зависимости от числа факторов различают однофакторный, двухфакторный, мультифакторный виды анализа. Предполагается, что остатки e i независимы и одинаково распределены по закону N(0,s 2). Второе существенное условие - переменная Y должна быть нормально распределена. Общая идеология ДА заключается в том, чтобы представить общую дисперсию Y в виде суммы дисперсий, обусловленных влиянием факторов Хi и остаточного случайного параметра e , и, оценивая дисперсионные отношения, определить наличие и степень влияния факторов Хi на Y. Рассмотрим самую простую, и в то же время достаточно распространенную модель однофакторного анализа. Сгруппируем значения Y в k групп, параметризованных значениями фактора Х, обозначим через nj объемы соответствующих групп, через yi,j - i-е значение переменной Y в j-й группе, а yj ср - среднее в j-й группе. Тогда уравнение (8) можно представить в виде yi,j = aj + e i,j, j=1,..,k, i =1,..,n, где аj - неизвестные константы (генеральные средние по группам), e i,j независимы с распределением N(0,s 2). Будет проверяться гипотеза Н0: а1=...=аk. Для этого рассмотрим две оценки дисперсии s 2. Первая имеет вид: s * 2 = (S S (yi,j - yj ср)2 )/(n-k). Она не зависит от гипотезы и ассимптотически стремится к s 2. Вторая оценка получается через разбиение на группы, определяемые значениями фактора: s ў 2 =(S nj (yj ср - Y ср )2)/(k-1). Она зависит от Н0 и при её нарушении имеет тенденцию к возрастанию. Отношение этих оценок F = s ў 2 / s *2 имеет F - распределение с ( k-1, n-k) степенями свободы и не зависит от s . Таким образом, при наблюдаемом значении F большем, чем соответствующая a - процентная точка распределения F ( (1- a ) - квантиль F) гипотеза Н0 отвергается и принимается предположение о влиянии фактора Х на Y. Тогда можно ставить вопрос о доверительных интервалах для аi. Ответ следующий: |yj ср-aj | < s t1-a /Ц nj с доверительной вероятностью 1-2a , где t1-a - квантиль уровня (1-a ) распределения Стьюдента с n-k степенями свободы.

Отметим, что выводы ДА о равенстве или неравенстве сj довольно устойчивы даже при нарушении основных предположений о нормальном распределении и равенстве дисперсий остатков e i,j. Если же распределение переменной Y сильно отличается от нормального, или Y - ординальная переменная, лучше использовать непараметрические критерии связи, такие, как ранговый критерий Фридмана или критерий Пейджа для двухфакторного анализа (см. [8, 7.4.9]), а также ранговые критерии Краскела-Уоллеса и Джонхиера для однофакторного анализа ([8, 6.2]).

Факторный анализ (ФА). Рассмотрим набор нормированных случайных переменных Х1,..,Хk как векторов в n-мерном пространстве V. Задача ФА состоит в том, чтобы представить Хi в виде линейных комбинаций небольшого числа общих факторов Fj , т.е. в виде Хi = S ai,j Fj + Ei (9), где i= 1,..,k, p < k. Переменные Ei называются остатком (невязкой) или остаточными факторами. Обычно предполагается, что общие факторы либо некоррелированные случайные величины с дисперсией 1, либо неизвестные случайные параметры. Остаточные факторы имеют нормальное распределение и не коррелируют между собой и с общими факторами. Коэффициенты ai,j называются факторными нагрузками и совпадают с коэффициентами корреляции между Xi и Fj. Интерпретируя коэффициент корреляции ri,j как скалярное произведение (Xi, Хj), мы при этих предположениях получим геометрическую модель ФА: уравнение (9) есть разложение системы нормированных векторов Х1,...,Хk через ортогональную систему Ei, F1,..,Fp с максимальной суммарной информативностью I = S D(Fj) / S D(Xi). Матрица ковариации М для переменных Xi приводится к диагональному виду в базисе, состоящем из собственных векторов, и в качестве Fj выбираются собственные векторы с максимальными собственными значениями l j (метод главных компонент). При этом l j интерпретируются как дисперсии соответствующих факторов. Критерий информативности I может быть записан в виде I = S l j / k, т.е. он равен доле суммарной дисперсии переменных Хi, обьясненных первыми p главными компонентами - факторами. Чем ближе это значение к 1, тем более точно факторы Fj описывают переменные Хi. Помимо метода главных компонент, существуют и другие способы выделения факторов Fj - методы минимальных остатков, максимального правдоподобия, центроидный метод и др. Все они, как правило, приводят к близким результатам, так что более важным вопросом ФА является не выбор способа извлечения факторов, а определение их количества и интерпретация латентных факторов в содержательном плане (это могут быть психофизиологические свойства личности, а также социальные, экономические факторы и т.п.). При выборе числа факторов полезно руководствоваться следующими соображениями:

  1. Имеет смысл учитывать только те факторы, для которых собственные числа больше 1, т.е. вклад фактора в суммарную дисперсию больше вклада любой переменной.
  2. Критерий "каменистой осыпи" рекомендует ограничиться фактором, после которого убывание собственных чисел замедляется наиболее сильно.
  3. На заданном числе факторов критерий информативности I превышает 0.75 ( т.е. факторы обьясняют 75% разброса переменных).
  4. Матрица интеркорреляции для Ei не имеет значимых на заданном уровне a (обычно a = 0.05) недиагональных коэффициентов.

Построенная факторная структура в пространстве V определена не однозначно. Вращая систему координат в V, можно получать различные разложения переменных Хi через Fj. Существуют различные критерии для определения наилучшей позиции системы координат - критерии согласования с результатами, полученными другими методами, с общей гипотезой относительно природы латентных факторов и т.п. Есть и чисто математический критерий, базирующийся на принципе "простой структуры" Терстона. В его основе лежит идея, что из нескольких равносильных гипотез следует выбирать наиболее простую, что в данном случае означает, что каждая переменная должна иметь максимально простое факторное содержание, то есть в ней доминирует нагрузка одного какого-либо фактора, и наоборот - данный фактор проявляется только в некотором минимальном числе переменных. Другими словами, вращением базиса необходимо получить одновременно наибольшее число максимальных по модулю и минимальных (близких к нулю) факторных нагрузок. Эта процедура реализуется тем или иным итерационным методом (варимакс, квартимакс, эквимакс) в статистических электронных пакетах, содержащих модули ФА (Statistica и др.).

Кластерный анализ (КА). В целом алгоритмы КА можно разделить на два основных направления - это разбиение данных на некоторые группы (кластеры) и иерархическая классификация данных. В качестве объектов анализа могут выступать как случаи (субъекты исследования), так и случайные переменные. Общая идея первого направления КА заключается в том, что случаи (или переменные) рассматриваются как точки векторного пространства с определенной на нем метрикой (функцией расстояний) d(X,Y) и затем разбиваются на группы близких относительно этой метрики обьектов, называемых кластерами. В качестве метрики используются евклидово расстояние (S (xi - yi)2)1/2, расстояние Чебышева max{|xi - yi |} и др. Обьекты анализа определяются исходной матрицей Т либо матрицей расстояний. Пусть задана матрица Т. Выделим классифицирующее множество признаков - переменные Х1,..,Хk. Тогда каждый случай представим как точка в k-мерном пространстве V. Естественно предполагать, что геометрическая близость точек в V соответствует близости соответствующих объектов по своим характеристикам. Это определяет геометрический подход, не требующий никаких вероятностных предположений. Другой подход основан на предположении, что матрица Т определяет выборку из смеси унимодальных распределений, и задача выделения групп сводится либо к оценке параметров этих распределений (параметрические методы), либо к поиску модальных значений (точек локального максимума) непараметрической оценки Парзена для функции плотности вероятности. Параметрические методы, например, алгоритм Дея (см. [5, 9.1.4]), близки методам дискриминантного анализа.Обычно при этом предполагается, что распределение выборки есть взвешенная сумма многомерных нормальных распределений. Во втором случае рассматривается функция Парзена P(X,h) = c(h, p) S exp(-1/h2 (X - Xj)T (X -Xj)), дающая непараметрическую оценку плотности распределения случайных величин Х1,.., Хk. Здесь c(h, p) - нормирующая константа, p - параметр сглаживания. Если данные образуют сгущение в n-мерном пространстве, то P(X,h) будет иметь локальный максимум (модальное значение ) в точке, близкой к центру сгущения. Таким образом, определяя модальные точки функции P(X,h), мы определяем количество классов, на которые можно разбить данные, и центры этих классов, вокруг которых затем группируем данные.

Иерархические методы классификации основаны на включении групп данных Di, рассматриваемых как единичные объекты, в некоторую иерархическую структуру, отражающую близость этих групп. В качестве Di могут выступать отдельный случай или переменная. Определяя расстояние между группами d(Di , Dj) (например, как расстояние между центрами групп d(Ci, Cj )) и рассматривая Di как вершины некоторого графа G с ребрами между Di и Dj длины di,j = d(Di, Dj ), мы получим интерпретацию задачи на языке теории графов. Иерархическая структура на множестве объектов {Di} определяется путем нахождения минимального покрывающего дерева, т.е. графа без циклов, такого, что суммарная длина его ребер минимальна. Эта процедура реализуется по правилу "ближайшего соседа" - выделяется ребро минимальной длины di,j, соответствующая пара объектов Di, Dj объединяется в один объект (т.е. добавляется новая вершина графа, соединенная с вершинами Di, Dj,), в получившемся графе снова выделяется ребро минимальной длины и т.д. В результате мы получаем иерархическое дерево, в котором вершины низшего уровня есть исходные объекты, а остальные вершины определяют уровни иерархической структуры. В других алгоритмах используются методы разрезания дерева по самому длинному ребру (вроцлавская классификация) либо по ребру с максимальным весом w=dn1n2, где d - длина ребра, а n1, n2 - количество вершин поддеревьев, получающихся после разреза дерева, содержащего данное ребро (см. [11]).

Критерии согласия.. Критерии согласия предназначены для обнаружения расхождений между гипотетической моделью и данными, которые эта модель призвана описать. Они используются для проверки применимости предположения о законе распределения случайной величины либо для проверки гипотезы об однородности выборки. Обычно, полагая выборочные среднее и отклонение оценкой параметров гипотетического распределения, используют критерии Колмогорова-Смирнова, омега-квадрат для переменных с большой вариативностью значений, и критерии хи-квадрат К.Пирсона или Р.Фишера для дискретных переменных с небольшим числом значений. Для проверки однородности распределений в подвыборках, извлеченных из генеральной совокупности с нормальным распределением, используют t-критерий Стьюдента для средних и критерий Бартлетта для дисперсий. При проверке однородности выборок относительно ординальных переменных используют ранговые критерии однородности - критерий Вилкоксона и критерий нормальных меток Фишера-Йэтса (см. [2]).

В заключение отметим, что существует большое число различных статистических компъютерных пакетов, позволяющих проводить стандартные виды анализа - Statistica, SPSS, Stadia, Statgraphics и др. Личный опыт автора позволяет рекомендовать в практических исследованиях пакеты Statistica версии 4.5 и выше и SPSS версии 7.0.

Литература

  1. Айвазян С.А., Бухштабер В.М., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: Классификация и снижение размерности. - М.: Финансы и статистика, 1989. - 607с.
  2. Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: Основы моделирования и первичная обработка данных.- М.: Финансы и статистика, 1983. - 471с.
  3. Боровиков В.П., Боровиков И.П. Statistika. Статистический анализ и обработка данных в среде Windows. - М.: Информ.-издат. Дом "Филинъ", 1997. - 608 с.
  4. Демиденко Е.З. Линейная и нелинейная регрессия. - М.: Финансы и статистика, 1982. - 302 с.
  5. Енюков И.С. Методы, алгоритмы, программы многомерного статистического анализа. - М.: Финансы и статистика, 1986. - 232 с.
  6. Кокс Д., Хинкли Д. Теоретическая статистика. - М.: Мир, 1978. - 560 с.
  7. Крамер Г. Математические методы статистики. - М.: Мир, 1975. - 648 с.
  8. Себер Дж. Линейный регрессионный анализ. - М.: Мир, 1980. - 456 с.
  9. Тюрин Ю.Н., Макаров А.А. Статистический анализ данных на компьютере. - М.: ИНФРА-М, 1998. - 528 с.
  10. Факторный, дискриминантный и кластерный анализ. - М.: Финансы и статистика, 1989. - 215 с.
  11. Жамбю М. Иерархический кластерный анализ и соответствия. - М.: Финансы и статистика, 1988.