Статистические методы выявления взаимосвязей общественных явлений

2003 г.

Введение

В настоящее время статистические методы прогнозирования заняли видное место в экономической практике. Широкому внедрению методов анализа и прогнозирования способствовало появление персональных компьютеров. Распространение статистических программных пакетов позволило сделать доступными и наглядными многие методы обработки данных.

В современных условиях управленческие решения должны приниматься лишь на основе тщательного анализа имеющейся информации. Например, банк или совет директоров корпорации примет решение о вложении денег в какой-то проект лишь после тщательных расчетов, связанных с прогнозом состояния рынка, с определением рентабельности вложений и с оценками возможных рисков. В противном случае могут опередить конкуренты, умеющие лучше оценивать и прогнозировать перспективы развития.

Для решения подобных задач, связанных с анализом данных при наличии случайных воздействий, предназначен мощный аппарат прикладной статистики. Эти методы позволяют выявить закономерности на фоне случайностей, делать обоснованные прогнозы и оценивать вероятность их выполнения.

Тема курсовой работы является актуальной, т.к. статистика как наука изучает количественную сторону массовых социально-экономических явлений в неразрывной связи с их качеством.

В теоретическом разделе рассматриваются методы выявления взаимосвязей, в расчетной части выполняется задание в соответствие с методическими указаниями. В аналитической части исследуется статистическая взаимосвязь между урожайностью, количеством удобрений и орудий обработки почвы.

Теоретическая часть

Один из наиболее общих законов объективного мира - закон всеобщей связи и зависимости между явлениями. Естественно, что, исследуя явления в самых различных областях, статистика неизбежно сталкивается с зависимостями, как между количественными, так и между качественными показателями, признаками. Ее задача - обнаружить (выявить) такие зависимости и дать их количественную характеристику.

Среди взаимосвязанных признаков одни могут рассматриваться как определенные факторы, влияющие на изменение других, а вторые - как следствие, результат влияния первых. Соответственно, первые, т.е. признаки, влияющие на изменение других, называют факторными, а вторые - результативными.

Говоря о взаимосвязи между отдельными признаками, следует различать два вида связи: функциональную и стохастическую (статическую), частным случаем которой является корреляционная связь.

Связь между двумя переменными х и у называется функциональной, если определенному значению переменной х строго соответствует одно или несколько значений другой переменной у, и с изменением значения х значение у меняется строго определенно.

Такие связи обычно встречаются в точных науках: математике, физике и др. Например, известно, что площадь квадрата равна квадрату его стороны. При увеличении стороны квадрата в 2 раза, его площадь увеличивается в 4 раза. Это соотношение характерно для любого квадрата, т.е. эта связь проявляется постоянно для каждого единичного случая (квадрата). Это жестко детерминированная связь.

Детерминированные связи можно встретить и в области экономических явлений. Например, при простой сдельной оплате труда связь между оплатой труда у и количеством изготовленных изделий х при фиксированной расценке за одну деталь, например 5 руб., легко выразить формулой у=5х.

Существуют и иного рода связи, встречающиеся в области экономических и некоторых других явлений, где взаимно действуют многие факторы, комбинация которых приводит к вариации значений результативного признака при одинаковом значении факторного признака.

Так, например, при изучении зависимости урожайности определенной культуры от количества выпавших осадков (или внесенных в почву удобрений) последние будут рассматриваться как факторный признак, а урожайность - как результативный. Между ними нет жестко детерминированной связи, т.е. при одном и том же количестве выпавших осадков (или внесенных удобрений) урожайность в разных районах хозяйства, на разных участках земли будет неодинаковой, так как кроме осадков (или удобрений) на урожайность влияет много других факторов (качество семян, густота посева, уход за посевами, своевременность уборки и др.), комбинация которых вызывает вариацию урожайности.

Такие связи можно обнаружить только при массовом наблюдении как статистические закономерности (на основе изучения особенностей распределения, поведения средних и других показателей). Выявленная таким образом связь именуется стохастической или статистической.

Корреляционная связь - понятие более узкое, чем статистическая связь, это, как уже говорилось, частный случай статистической (стохастической) связи.

Предметом изучения статистики являются в основном стохастические и корреляционные связи.

Слово "корреляция" (от английского correlation) означает соотношение, соответствие. Оно удачно отражает особенность зависимости, при которой определенному значению одного факторного признака может соответствовать несколько значений результативного показателя. На основе этих значений можно определить среднюю величину последнего, соответствующую каждому конкретному значению факторного признака.

Связь, проявляющаяся при большом числе наблюдений в виде определенной зависимости между средним значением результативного признака и признаками-факторами, называется корреляционной. Другими словами, корреляционную связь условно можно рассматривать как своего рода функциональную связь средней величины одного признака со значением другого (или других). При этом, если рассматривается связь средней величины результативного показателя у с одним признаком-фактором х, корреляция называется парной, а если факторных признаков два и более (х₁, х₂, ..., х_n) - множественной.

При изучении множественной корреляции вводится еще понятие частной корреляции, под которой понимается зависимость между результативным показателем у и одним из факторных признаков х_i в условиях, когда влияние на них остальных факторов, учитываемых на фиксированном уровне, устранено.

По характеру изменений х и у в парной корреляции различают прямую и обратную связь

При прямой зависимости значения обеих признаков изменяются в одном направлении, т.е. с увеличением значений х увеличиваются и значения у, с уменьшением значений факторного признака уменьшаются и значения результативного. Например, с ростом годового дохода в семье увеличивается (при прочих равных условиях) сумма сбережений за год или при уменьшении расхода электроэнергии на единицу продукции снижается себестоимость продукции.

При обратной зависимости значения факторного и результативного признаков изменяются в разных направлениях: Например, при росте производительности труда себестоимость единицы продукции снижается или при снижении себестоимости продукции прибыль на предприятиях увеличивается и т.п.

Изучение корреляционных связей сводится в основном к решению следующих задач:

Задача выявления наличия (или отсутствия) корреляционной связи между изучаемыми признаками может быть решена на основе параллельного сопоставления (сравнения) значений "х" и "у" у "n" единиц совокупности, а также с помощью группировок путем построения и анализа специальных корреляционных таблиц;

Измерение тесноты связи между двумя (и более) признаками с помощью специальных коэффициентов. Эта часть исследования именуется корреляционным анализом;

Определение уравнения регрессии - математической модели, в которой среднее значение результативного признака у рассматривается как функция одной или нескольких переменных - факторных признаков. Эта часть исследование именуется регрессионным анализом.

Последовательность рассмотрения перечисленных задач, естественно, может меняться в каждом конкретном исследовании.

Общий термин "корреляционно-регрессионный анализ" подразумевает всестороннее исследование корреляционных связей, в том числе нахождение уравнений регрессии, измерение тесноты и направления связи, а также определение возможных ошибок как параметров уравнений регрессии, так и показателей тесноты связи.

Для решения этих задач в статистике разработаны и широко используются различные методы и показатели (коэффициенты), одни из которых простейшие, а другие более сложные, основанные на вероятностных математических оценках.

Использование тех или иных приемов, методов определяется конкретной целью исследования. Так, в одних случаях достаточно просто констатировать факт наличия связи, обнаружения ее на массовых данных, в других - требуется количественно оценить эту связь, выявить роль отдельных факторов в изменении сложного результативного показателя, использовать модели связи для прогнозирования и т.п. Для решения сложных задач корреляционно-регрессионного анализа разработаны специальные компьютерные программы.

Виды взаимосвязей и цели их статистического изучения

Изучение причинно-следственных зависимостей между фактами – важнейшая задача анализа социально-экономических явлений. Это необходимо для принятия обоснованных управленческих решений. Изучение зависимостей – это сложнейшая задача, поскольку социально-экономические явления сами по себе сложны и многообразны. Кроме того, полученные выводы носят вероятностный характер, так как они делаются на основе данных, представляющих собой выборку во времени или пространстве.
Статистические методы изучения зависимости построены с учетом особенностей изучаемых закономерностей. Статистика изучает преимущественно стохастические связи, когда одному значению признака-фактора соответствует группа значений результативного признака. Если с изменением значений признака-фактора изменяются среднегрупповые значения результативного признака, то такие связи называют корреляционными. Не всякая стохастическая зависимость является корреляционной. Если каждому значению факторного признака соответствует строго определенное значение результативного признака, то такая зависимость функциональная. Ее называют еще полной корреляцией. Неоднозначные корреляционные зависимости называют неполной корреляцией.: По механизму взаимодействия различают:

Непосредственные связи – когда причина прямо влияет на следствие;
Косвенные связи – когда между причиной и следствием существуют ряд промежуточных признаков (например, влияние возраста на заработок).

По направлениям различают:

Прямые связи – когда значение факторного и результативного признаков изменяются в одном направлении;
Обратные связи – когда значения факторного и результативного признаков изменяются в разных направлениях.

Бывают:

Прямолинейные (линейные) связи – выражены прямой линией;
Криволинейные связи – выражены параболой, гиперболой.

По числу взаимосвязанных признаков различают:

Парные связи – когда анализируется взаимосвязь двух признаков (факторного и результативного);
Множественные связи – характеризуют влияние нескольких признаков на один результативный.

По силе взаимодействия различают:

Слабые (заметные) связи;
Сильные (тесные) связи.

Задача статистики определить наличие, направление, форму и тесноту взаимосвязи.

Классификация методов исследования взаимосвязей

Для изучения зависимости применяются различные статистические методы. Поскольку зависимости в статистике проявляются через вариацию признаков, то и методы в основном измеряют и сопоставляют вариацию факторного и результативного признаков.
Для изучения функциональных зависимостей в статистке применяют балансовый и индексный методы. Сущность балансового метода выражается формулой:

Данная форма может характеризовать движение материальных, денежных средств, ценностей.
Индексный метод применяется для анализа динамики и сравнения обобщающих показателей, а так же факторов, влияющих на изменение уровней этих показателей.
Изучение неполной корреляции осуществляется двумя группами методов, которые можно определить, как нематематические и математические. Нематематические методы:

Метод параллельных рядов;
Метод аналитических группировок;
Графический метод.

Метод параллельных рядов применяется для определения наличия и направления взаимосвязи при немногочисленных совокупностях (15-20 единиц). При этом методе значение факторного признака располагается в порядке возрастания или убывания и параллельно с ними отражаются соответствующие значения результативного признака. Сопоставляя ряды значений, устанавливается зависимость.
Метод аналитической группировки применяется в случаях, когда совокупность достаточно велика и параллельные ряды не позволяют обнаружить зависимость. Этот метод – это разбиение исходных данных на группы в соответствии со значением признака фактора и расчет для каждой группы соответствующего среднегруппового значения результативного признака с тем, чтобы обнаружить взаимосвязь. Аналитические группировки обычно используются для однородных совокупностей, поэтому в них применяются чаще всего равные интервалы.
Группировка – это распределение единиц по группам в соответствии со следующим принципом: различия между единицами, отнесенными к одной группе должны быть меньше, чем между единицами, отнесенными к разным группам. Сводные показатели для отдельных групп считаются устойчивыми и типичными, если они удовлетворяют двум основным принципам:

Группировка должна быть проведена правильно, для чего устанавливают правила отнесения единицы к одной или другой группе;
Группы должны иметь достаточную численность.

Обязательно, при группировке, используют характеристику, по которой будет проводиться эта группировка – группировочный признак. Для того чтобы отделить одну группу от другой применяют интервалы группировки. Расчленение совокупностей единиц по группам производятся:

По одному признаку, т.е. простая группировка (монотетическая);
По 2-м или более признакам, т.е. сложная группировка (комбинационная, политетическая).

По сравнению с простыми комбинационные группировки обладают дополнительными аналитическими свойствами.
Признак, по которому производится образование групп, называется группировочным признаком или основанием группировки. Выбор ее зависит от решения конкретной задачи. Для многих признаков разрабатываются устойчивые номенклатуры групп и подгрупп, которые называются классификациями. Для образования групп обычно устанавливают интервалы. В статистике интервалы бывают 2-х видов:

Закрытые – это, когда указывается верхняя и нижняя границы интервала. Такая запись предполагает, что единица, у которой значение признака совпадает с верхней границей интервала, относится к следующей группе.
Открытые – имеют неопределенные границы, они сопровождаются словами «до», «свыше», «примерно».

По величине группировочного признака интервалы подразделяются на:

Равные,
Неравные интервалы.

Величину равных интервалов определяют путем деления разности максимального и минимального признака на число образующих групп.
Использование равных интервалов облегчает анализ материалов, полученных в результате группировки. Это позволяет предугадать, к каким изменениям приведет увеличение или уменьшение групировочного признака, положенного в основу группировки. Отсюда - следует прибегать к равным интервалам.
При образовании интервалов внимание надо обращать на обозначение границ. При выделении интервалов по дискретным прерывистым (количественным) признакам следует обозначать их границу так, чтобы верхние и нижние границы 2-х смежных интервалов отличались на единицу (101-200). Если интервалы образуются по непрерывному признаку, т.е. принимаются любые значения в определенных пределах, то в этом случае границы должны быть обозначены, чтобы все группы были строго ограничены одна от другой. Это достигается путем добавления к числовым границам интервалов указаний о том, в какую группу надо отнести ту или иную границу.
Аналитические группировки. Характеризуют взаимосвязь между двумя и более признаками. Причем один рассматривается как результат, а другой, как фактор.
При построении аналитической группировки надежность ее результатов зависит от того, какое число групп мы можем выделить, не натолкнувшись ни на одно исключение в предполагаемом характере взаимосвязи.
Помимо эмпирической линии регрессии, непосредственно определяющей форму и направление взаимосвязей, существует корреляционное поле, на котором отражаются параметрические данные. По корреляционному полю так же можно судить о характере взаимосвязи. Если точки сконцентрированы около диагонали идущей слева направо, снизу вверх – то связь прямая. Если около другой диагонали – обратная. Если точки рассеяны по всему полю графика – связь отсутствует.
При построении аналитической группировки важно правильно определить величину интервала. Если в результате первичной группировки связь не проявляется отчетливо, можно укрупнить интервал. Однако, укрупняя интервалы, можно иногда обнаружить связь даже там, где ее нет. Поэтому при построении аналитической группировки руководствуются правилом: чем больше групп мы можем выделить, не натолкнувшись ни на одно исключение, тем надежнее наша гипотеза о наличии и форме связи.
Нематематические методы дают приближенную оценку о наличии, формы и направлении связи. Более глубокий анализ осуществляется с помощью математических методов, которые развились на базе методов, применяемых статистиками - нематематиками:

Регрессионный анализ, позволяющий выразить с помощью уравнения форму взаимосвязи.
Корреляционный анализ используется для определения тесноты или силы взаимосвязи признаков. Корреляционные методы делят:
- Параметрические методы, которые дают оценку тесноты связи непосредственно на базе значений факторного и результативного признаков;
- Непараметрические методы – дают оценку на основе условных оценок признаков.

Оценка тесноты криволинейных зависимостей дается после расчета параметра уравнения регрессии. Поэтому такой метод называется корреляционно-регрессивным.
Если анализируется зависимость одного факторного и результативного признаков, то в этом случае имеем дело с парной корреляцией и регрессией. Если анализируются несколько факторных и результативных признаков – это множественная корреляция и регрессия.

Парная регрессия

Регрессия – это линия, характеризующая наиболее общую тенденцию во взаимосвязи факторного и результативного признаков.
Предполагается, что аналитическое уравнение выражает подлинную форму зависимости, а все отклонения от этой функции обусловлены действием различных случайных причин. Так как изучаются корреляционные связи, изменению факторного признака соответствует изменение среднего уровня результативного признака. При построении аналитических группировок мы рассматривали эмпирическую линию регрессии. Однако, эта линия не пригодна для экономического моделирования и ее форма зависит от произвола исследователя. Теоретически линия регрессии в меньшей степени зависит от субъективизма исследователя, однако, здесь так же может быть произвол при выборе формы или функции взаимосвязи. Считается, что выбор функции должен опираться на глубокое знание специфики предмета исследования.
На практике чаще всего применяются следующие формы регрессионных моделей:

Линейная ;
Полулогарифметическая кривая ;
Гипербола ;
Парабола второго порядка ;
Показательная функция ;
Степенная функция .

Помимо содержательного подхода существует формальная оценка адекватности подобранной регрессионной модели. Лучшей из них считается та, которая наименее удалена от исходных данных.


Данное свойство средней, гласящее, что сумма квадратов отклонений всех вариантов ряда от средней арифметической меньше суммы квадратов их отклонений от любого другого числа, положено в основу метода наименьших квадратов, позволяющего рассчитать параметры избранного уравнения регрессии таким образом, чтобы линия регрессии была в среднем наименее удалена от эмпирических данных.

Параметр а₀ характеризует условное значение результативного признака при нулевом значении факторного признака (условный объем продаж лука при нулевой цене на него).

Параметры уравнения регрессии оцениваются на вероятностную надежность. Для этого величина каждого из параметров сравнивается с соответствующей средней ошибкой выборки, то есть , где - расчетное значение критерия Стьюдента, а - остаточное среднеквадратическое отклонение, характеризующее вариацию эмпирических значений результативного признака относительно соответствующих им теоретических значений (вариацию около линии регрессии).

Расчетное значение t критерия сравнивается с табличным значением для степеней свободы и заданной вероятности. Если p=0,95 то табличное значение равно t=2,262, то есть , следовательно, параметр а₀ с вероятностью 0,95 надежен. Параметр а₁ оценивается по формуле:

, где - это показатель вариации факторного признака.

По данным регрессионного анализа можно рассчитать коэффициент эластичности, характеризующий пропорцию взаимосвязи между вариацией факторного и результативного признаков.

Коэффициент эластичности показывает, что с ростом цены на 1%, объем реализации лука снижается на 1,7%.

Измерения тесноты связи

Методы измерения тесноты взаимосвязи условно делятся на непараметрические и параметрические.

Непараметрические методы применяются для измерения тесноты связи качественных и альтернативных признаков, а так же количественных признаков, распределение которых отличается от нормального распределения.

Для измерения связи альтернативных признаков применяются коэффициент ассоциации Дэвида Юла и коэффициент контингенции Карла Пирсона. Для расчета этих показателей применяется следующая матрица взаимного распределения частот.

a, b, c, d – частоты взаимного распределения признаков.

1 признак

2 признак

ДА

НЕТ

ДА

НЕТ

При прямой связи частоты сконцентрированы по диагонали a-d, при обратной связи по диагонали b-c, при отсутствии связи частоты практически равномерно распределены по всему полю таблицы.

Коэффициент ассоциации

Коэффициент ассоциации непригоден для расчета в том случае, если одна из частот по диагонали равна 0. В этом случае применяется коэффициент контингенции, который рассчитывается по формуле:

Коэффициент контингенции также указывает на практическое отсутствие связи между признаками (его величина всегда меньше К_ас).

Если значения признака распределены более чем по 2 группам, то для определения тесноты связи применяют коэффициенты взаимной сопряженности признаков Пирсона, Чупрова и др.

Показатель Пирсона определяется по формуле , где - показатель взаимной сопряженности признаков, который рассчитывается на основе матрицы взаимного распределения частот.

	1 гр.	2 гр.	3 гр.	Итого
1 гр.	s₁₁	s₁₂	s₁₃	n₁
2 гр.	s₂₁	s₂₂	s₂₃	n₂
3 гр.	s₃₁	s₃₂	s₃₃	n₃
Итого	m₁	m₂	m₃

Более точным показателем тесноты связи является коэффициент Чупрова, который определяется по формуле:

, где - соответственно число групп, выделенных по каждому признаку.

Непараметрические методы измерения тесноты взаимосвязи количественных признаков были первыми из методов измерения тесноты взаимосвязи. Впервые попытался измерить тесноту связи в 30-ч годах 19 века французский ученый Гиррий. Он сопоставлял между собой среднегрупповые значения факторного и результативного признаков. При этом абсолютные значения заменялись их отношениями к некоторым константам. Полученные результаты ранжировались в порядке возрастания. О наличии или отсутствии связи Гиррий судил сопоставляя ранее по группам и подсчитывая количество совпадений и несовпадений рангов. Если преобладало число совпадений – связь считалась прямой. Несовпадение – обратной. При равенстве совпадений и несовпадений – связь отсутствовала.

Методика Гиррий была использована Фехнером при разработке своего коэффициента, а так же Спирменом при разработке коэффициента корреляции рангов.

Расчет коэффициента Фехнера.

Цена 1 кг лука, руб.	Объем продаж, кг	Знаки отклонений		Сравнение знаков
Цена 1 кг лука, руб.	Объем продаж, кг			Сравнение знаков
3	175	-2,5	59,1	н
3,5	200	-2	84,1	н
4	180	-1,5	64,1	н
4,5	150	-1	34,1	н
5	160	-0,5	44,1	н
5,5	120	0	4,1	с
6	85	0,5	-30,9	н
6,5	90	1	-25,9	н
7	50	1,5	-65,9	н
7,5	40	2	-75,9	н
8	25	2,5	-90,9	н

Коэффициент указывает на наличие весьма тесной обратной связи.

На ряду с коэффициентом Фехнера для измерения взаимосвязи количественных признаков применяются коэффициенты корреляции рангов. Наиболее распространенным среди них является коэффициент корреляции рангов Спирмена.

Вычисление коэффициента Спирмена для измерения тесноты взаимосвязи между товарооборотом и уровнем издержек обращения в магазинах.

Однодневный товарооборот, тыс. руб.	Издержки в % к товарообороту	Ранги		Разность рангов
Однодневный товарооборот, тыс. руб.	Издержки в % к товарообороту			Разность рангов
18	20,5	1	4	-3	9
23	23,4	2	6	-4	16
29	21,2	3	5	-2	4
45	18,9	4	2	2	4
78	19,2	5	3	2	4
93	17,5	6	1	5	25
Всего					62

Коэффициент корреляции рангов может принимать значение в пределах от –1 (обратная связь, близкая к функциональной) до +1 (прямая связь, близкая к функциональной).

Непараметрические методы учитывают направления изменений значений признаков, но не зависят от того, насколько интенсивно колеблются значения результативного признака в результате изменения факторного признака. Это позволяют сделать параметрические методы.

Для измерения тесноты линейной взаимосвязи применяется коэффициент корреляции. Базовая форма коэффициента корреляции следующая:

Фактически, коэффициент корреляции – это среднее произведения нормативных отклонений:

Если связь между признаками отсутствует, то результативный признак не варьирует при изменении факторного признака, следовательно . Такой же результат получается при сбалансированности сумм отрицательных и положительных произведений.

Обычно для расчета коэффициента корреляции применяются формулы, использующие те показатели, которые уже рассчитывались при определении параметров уравнения регрессии. Наиболее удобной для расчетов является формула:

Качественная оценка тесноты связи дается с помощью шкалы Чедока.

Показатель тесноты связи	0,1-0,3	0,3-0,5	0,5-0,7	0,7-0,9	0,9-0,99	1,0
Характеристика связи	Слабая	Умеренная	Заметная	Тесная	Очень тесная	Функциональная

Для оценки значимости коэффициента корреляции применяют критерий t-Стьюдента, расчетная величина критерия определяется по формуле:

Табличное значение критерия t-Стьюдента:

Следовательно, параметр надежен.

Для измерения тесноты криволинейных зависимостей применяются универсальные показатели тесноты связи, коэффициенты детерминации, теоретические корреляционные отношения или индексы корреляции. Эти показатели построены на принципе соизмерения дисперсий результативных признаков.

При этом по правилу сложения дисперсий получается взаимосвязь между дисперсиями: .

Коэффициент детерминации:

Теоретическое корреляционное отношение: .

Для линейной связи величина теоретического корреляционного отношения равна коэффициенту корреляции.

Индекс корреляции, по сути, аналогичен теоретическому корреляционному отношению, его рассчитывают на основе правила сложения дисперсий, используя общую и остаточную дисперсии.

Индекс корреляции:

Множественная корреляция и регрессия

Применяется для изучения влияния двух и более факторов на результативный признак. Процесс исследования включает несколько этапов.

Сначала проводится выбор формы уравнения взаимосвязи, чаще всего выбирается n-мерная линейная формула:

, так как легче считать и интерпретировать полученный результат.

Поскольку расчеты важны и трудоемки, важнейшее значение имеет отбор факторов для включения в регрессионную модель. На основе качественного анализа необходимо отбирать наиболее существенные факторы. На этапе отбора факторов, рассчитывается так же единичная матрица парных коэффициентов корреляции между признаками факторов, отобранных для включения в уравнение регрессии.

1			…		…
	1		…		…
		1	…		…
…	…	…	…	…	…	…
			…	1	…
			…	…	…	…

В уравнение регрессии не включаются оба или хотя бы один из тесно взаимосвязанных между собой факторов, коэффициент корреляции равен или превышает величину 0,8, это делается, чтобы избежать явления мультиколлинеарности, искажающего сущность исследуемого процесса в регрессионной модели.

После подстановки факторов в уравнение, проводятся расчеты его параметров по методу наименьших квадратов, и полученные результаты оцениваются на вероятностную надежность, путем сравнения каждого из параметров неизвестного с величиной соответствующей ошибке выборки. Ненадежные параметры исключаются из уравнений.

Все ненадежные параметры исключаются из уравнения регрессии, и расчеты повторяются до тех пор, пока все оставшиеся параметры или коэффициенты при неизвестных не будут надежны. Такой метод называется пошаговой регрессией. Затем рассчитывается множественный коэффициент детерминации.

Расчетная часть

Корреляционная зависимость между двумя признаками как частный случай стохастической связи выражается в вариации результативного признака y, которая обусловлена изменением определенного факторного признака x в условиях взаимодействия его с множеством других факторов не учитываемых при исследовании, но имеющихся в реальности.

Для выявления наличия и характера такой связи в статистике используется ряд методов: применение параллельных данных (значений x и y у n единиц); графический метод; метод аналитических группировок и корреляционных таблиц; расчет коэффициентов корреляции.

Имеются выборочные данные (выборка 5%-я механическая) о средней годовой стоимости основных производственных фондов и выпуске продукции предприятий отрасли экономики за отчетный период, млн. руб.

№ п/п	Среднегодовая стоимость основных производственных фондов (x)	Выпуск продукции (y)
А	1	2
1	27	21
2	46	27
3	33	41
4	35	30
5	41	47
6	42	42
7	53	34
8	55	57
9	60	46
10	46	48
11	39	45
12	45	43
13	57	48
14	56	60
15	36	35
16	47	40
17	20	24
18	29	36
19	26	19
20	49	39
21	38	35
22	37	34
23	56	61
24	49	50
25	37	38
26	33	30
27	55	51
28	44	46
29	41	38
30	28	35

Необходимо выявить зависимость между среднегодовой стоимостью основных производственных фондов и выпуском продукции. Также необходимо измерить тесноту связи между указанными признаками.

1. Метод параллельных рядов

При небольшом числе наблюдений наличие корреляционной связи между двумя признаками x и y часто можно выявит визуально, путем простого параллельного сравнения их значений у отдельных единиц.

Для этого единицы наблюдения располагают по возрастанию значений факторного признака x и затем сравнивают с ним поведение значений результативного признака y.

По представленному графику можно судить о том, что анализ параллельных рядов свидетельствует о наличии прямой связи.

Коэффициент Фехнера (коэффициент корреляции знаков) - простейший показатель тесноты связи. Он основан на сравнении поведения отклонений индивидуальных значений каждого признака (x и y) от своей средней величины. Определив знаки отклонения от средней величины в каждом ряду, рассматриваем все пары знаков и подсчитываем число их совпадений (С=24) и несовпадений (Н=6).

Сначала необходимо рассчитать средние значения в каждом ряду:

X_ср = X_i/ n = 42

Y_ср = Y_i/ n = 40

Составим таблицу по возрастанию признака x и определим отклонения от средних величин для определения взаимосвязи. Причем во внимание принимаем не сами значения отклонений y_i - y_ср и x_i - x_ср а их знаки.

№ п/п	Среднегодовая стоимость основных производственных фондов (х)	Выпуск продукции (у)	Знаки отклонений от средней величины	Совпадения/несовпадения
А	1	2	Знаки отклонений от средней величины	(х_i - x_ср)	(y_i - y_ср)
1	20	24	-22	-16	C
2	26	19	-16	-21	C
3	27	21	-15	-19	C
4	28	35	-14	-5	C
5	29	36	-13	-4	C
6	33	41	-9	1	Н
7	33	30	-9	-10	C
8	35	30	-7	-10	C
9	36	35	-6	-5	C
10	37	34	-5	-6	C
11	37	38	-5	-2	C
12	38	35	-4	-5	C
13	39	45	-3	5	Н
14	41	47	-1	7	Н
15	41	38	-1	-2	C
16	42	42	0	2	C
17	44	46	2	6	C
18	45	43	3	3	C
19	46	27	4	-13	Н
20	46	48	4	8	C
21	47	40	5	0	C
22	49	39	7	-1	Н
23	49	50	7	10	C
24	53	34	11	-6	Н
25	55	57	13	17	C
26	55	51	13	11	C
27	56	60	14	20	C
28	56	61	14	21	C
29	57	48	15	8	C
30	60	46	18	6	C

Визуальный анализ таблицы говорит о наличие прямой взаимосвязи, т.к. x и y в целом возрастают одновременно:

Коэффициент Фехнера расчитывается следующим образом:

К_ф = (С-Н)/(С+Н)=(24-6)/(24+6)=0,6

Чем ближе К_ф к 1, тем сильнее прямая взаимосвязь, а чем ближе К_ф к -1, тем сильнее обратная взаимосвязь.

К_ф = 0,6 говорит о наличие прямой взаимосвязи.

2. Метод группировок

При большом количестве наблюдений для выявления корреляционной связи между двумя количественными показателями x и y удобнее пользоваться методом группировок.

Чтобы выявить наличие корреляционной связи между двумя признаками, проводиться группировка единиц совокупности по факторному признаку x и для каждой выделенной группы (j) рассчитывается среднее значение результативного признака y_ср_j. Если результативный признак y зависит от факторного x, то в изменении среднего значения результативного признака y_ср_j будет прослеживаться определенная закономерность.

Определим по формуле Стерджесса число групп n в группировке и величину интервала h для группировки с равными интервалами, если число единиц в совокупности равно 30, а максимальное и минимальное значение фактора в совокупности равны соответственно 60 и 20.

№	Алгоритм	Конкретное соответствие данной ситуации предложенному алгоритму
1.	Записать число единиц N в совокупности.	N=30
2.	Определить количество групп по формуле: n=1+3,322*lgN	n=1+3,322*lg30= =5,906997
3.	Записать максимальное значение Xmax, Xmin значение фактора в совокупности	60 и 20
4.	Вычислить величину интервала по формуле h=( Xmax – Xmin)/n	h=(60 – 20)/ 5,906997= =6,771631
5.	Произвести округление по правилам округления	7

Составим таблицу группировок на основании данных задания.

Среднегодовая стоимость основных производственных фондов (x)	Среднегрупповое значение (x_j_ср)	Заначение признака (y_j_ср)	Средне групповое значение выпуска продукции (y_j_ср)	Частота попаданий в интервал f_j
[20-27)	=(20+27)/2=23,5	24	21,5	2
		19
[27-34)	=(27+34)/2=30,5	21	32,6	5
		35
		36
		41
		30
[34-41)	=(34+41)/2=37,5	30	36,2	6
		35
		34
		38
		35
		45
[41-48)	=(41+48)/2=44,5	47	41,4	8
		38
		42
		46
		43
		27
		48
		40
[48-55)	=(48+55)/2=51,5	39	41,0	3
		50
		34
[55-62)	=(55+62)/2=58,5	57	53,8	6
		51
		60
		61
		48
		46
Итого			40,0	30

Ycp = (y_jcp*f_j)/f_j=40,0

Данная таблица свидетельствует об одновременном росте фактора x и признака y, что свидетельствует о наличии прямой связи между х и у.

Тесноту связи определим с помощью эмпирического корреляционного отношения:

Общая дисперсия:

№ п/п	Выпуск продукции (у)	(y_i - y)	(y_i - y_ср)²
1	24	-16	256
2	19	-21	441
3	21	-19	361
4	35	-5	25
5	36	-4	16
6	41	1	1
7	30	-10	100
8	30	-10	100
9	35	-5	25
10	34	-6	36
11	38	-2	4
12	35	-5	25
13	45	5	25
14	47	7	49
15	38	-2	4
16	42	2	4
17	46	6	36
18	43	3	9
19	27	-13	169
20	48	8	64
21	40	0	0
22	39	-1	1
23	50	10	100
24	34	-6	36
25	57	17	289
26	51	11	121
27	60	20	400
28	61	21	441
29	48	8	64
30	46	6	36
итого			3238

=3238/30=107,9333

Межгрупповая дисперсия:

Среднегодовая стоимость основных производственных фондов (x)	Заначение признака (y_j_ср)	Средне групповое значение выпуска продукции (y_j_ср)	fj	(y_j_ср - Y)	(y_j_ср - Y)²
[20-27)	24	21,5	2	-18,5	684,5
[27-34)	21	32,6	5	-7,4	273,8
[34-41)	30	36,2	6	-3,8	86,64
[41-48)	47	41,4	8	1,4	15,68
[48-55)	39	41	3	1	3
[55-62)	57	53,8	6	13,8	1142,64
Итого		40	30		2206,26

=2206,26/30=73,542

Коэффициент детерминации:

R²=73,542/107,933=0,681

Теоретическое корреляционное отношение: .=0,825

3. Графический метод

Корреляционную зависимость для наглядности можно изобразить графически. Для этого, имея n взаимосвязанных пар значений x и y, пользуясь прямоугольной системой координат, каждую такую пару изображают на плоскости с координатами x и y. Соединяя последовательно нанесенные точки, получают ломаную линию, именуемую эмпирической линией регрессии.

Возрастание функции свидетельствует о прямой связи между х и у.

4. Измерение тесноты связи между признаками

По исходным данным определим линейный коэффициент корреляции между фактором x и признаком y.

Решение

№	Алгоритм	Конкретное соответствие данной ситуации предложенному алгоритму
1.	Построить макет таблицы с графами	n=30
2.	Вычислить	=1260
3.	Вычислить	=1200
4.	Вычислить	=567
5.	Вычислить	=729
6.	Вычислить	=441
7.	Вычислить	=(1260)² = 1587600
8.	Вычислить. Результат вычислений занести в таблицу.	=(1200)² = 1440000
9.	Произвести вычисления по формуле	r=0,767804

Положительное и близкое к 1 значение r свидетельствует о наличии сильной прямой взаимосвязи между x и y.

№	х	у	х²	ху	у²
1	27	21	729	567	441
2	46	27	2116	1242	729
3	33	41	1089	1353	1681
4	35	30	1225	1050	900
5	41	47	1681	1927	2209
6	42	42	1764	1764	1764
7	53	34	2809	1802	1156
8	55	57	3025	3135	3249
9	60	46	3600	2760	2116
10	46	48	2116	2208	2304
11	39	45	1521	1755	2025
12	45	43	2025	1935	1849
13	57	48	3249	2736	2304
14	56	60	3136	3360	3600
15	36	35	1296	1260	1225
16	47	40	2209	1880	1600
17	20	24	400	480	576
18	29	36	841	1044	1296
19	26	19	676	494	361
20	49	39	2401	1911	1521
21	38	35	1444	1330	1225
22	37	34	1369	1258	1156
23	56	61	3136	3416	3721
24	49	50	2401	2450	2500
25	37	38	1369	1406	1444
26	33	30	1089	990	900
27	55	51	3025	2805	2601
28	44	46	1936	2024	2116
29	41	38	1681	1558	1444
30	28	35	784	980	1225
итого	1260	1200	56142	52880	51238

Аналитическая часть

Построим спецификацию модели, в которой урожайность зерновых y характеризуется числом орудий поверхностной обработки почвы на 100 га x₁и количеством удобрений, расходуемых на гектар х₂.

i – номер района	1	2	3	4	5	6	7	8	9	10
y_i(y/га)	9,70	8,40	9,00	9,90	9,60	8,60	12,50	7,60	6,90	13,50
X_1 i	2,05	0,46	2,46	6,44	2,16	2,69	0,73	0,42	0,49	3,02
X₂_I₍_т_/_га)	0,32	0,59	0,30	0,43	0,39	0,32	0,42	0,21	0,20	1,37

(источник данных http://www.agronom.ru)

Целесообразно сначала выявить взаимосвязь, а затем измерить ее.

Попытаемся сделать это методом параллельных рядов. Упорядочим результативный признак y по возрастанию:

i – номер района	yi (y/га)	X1 i	X2 I (т/га)
9	6,9	0,49	0,2
8	7,6	0,42	0,21
2	8,4	0,46	0,59
6	8,6	2,69	0,32
3	9	2,46	0,3
5	9,6	2,16	0,39
1	9,7	2,05	0,32
4	9,9	6,44	0,43
7	12,5	0,73	0,42
10	13,5	3,02	1,37

По данным таблицы можно сделать вывод о наличие связи мехду y и х2, однако связь между у и х1 не прослеживается.

Применим графический метод.
Для этого построим графики у(х1) и у(х2)

Можно сказать, что y(x1) имеет небольшую тенденцию к возрастанию, следовательно существует небольшая прямая связь между у и х1.

Визуальный анализ графика у(х2) позволяет сделать вывод о наличие прямой взаимосвязи между у и х2, которая прослеживается более явно чем у от х1.

Применим корреляционный анализ для выявления взаимосвязи. Определим коэффициенты парной корреляции с помощью пакетного анализа MS Excel:

	yi (y/га)	X1 i	X2 I (т/га)
yi (y/га)	1
X1 i	0.28967368	1
X2 I (т/га)	0.745562035	0.222383	1

Данная матрица позволяет сделать вывод, что коэффициент корреляции показателей у и х1 равен приблизительно 0,29, что говорит о незначительной прямой связи. Коэффициент корреляции показателей у и х2 равен приблизительно 0,75, что говорит о достаточно большой прямой связи. Коэффициент корреляции показателей х1 и х2 равен приблизительно 0,22, что говорит о несущественной прямой связи.

Измерение того, как факторыные признаки (х1,х2) влияют на результативный признак (у) с моей точки зрения является важным элементом процесса выявления статистической взаимосвязи между различными являениями. Поэтому я считаю, что целесообразно определить степень взаимосвязи с помощью регрессионного анализа.

Линейное уравнение регрессии имеет следующий вид:

y=a+b₁x₁+b₂x₂

необходимо найти коэффициенты a, b₁, b₂.

Данные коэффициенты можно найти, используя метод наименьших квадратов (МНК).

Нахождение коэффициентов заключается в решении системы уравнений:

относительно a, b₁, b₂.

Сначала нужно найти значения коэффициентов при a, b₁, b₂. в системе уравнений. Для их нахождения составим таблицу и рассчитаем итоговую строку:

№	y	X1	X2	X2*X2	X1*X1	y*X1	y*x2	X1*X2
1	9.7	2.05	0.32	0.1024	4.2025	19.885	3.104	0.656
2	8.4	0.46	0.59	0.3481	0.2116	3.864	4.956	0.2714
3	9	2.46	0.3	0.09	6.0516	22.14	2.7	0.738
4	9.9	6.44	0.43	0.1849	41.4736	63.756	4.257	2.7692
5	9.6	2.16	0.39	0.1521	4.6656	20.736	3.744	0.8424
6	8.6	2.69	0.32	0.1024	7.2361	23.134	2.752	0.8608
7	12.5	0.73	0.42	0.1764	0.5329	9.125	5.25	0.3066
8	7.6	0.42	0.21	0.0441	0.1764	3.192	1.596	0.0882
9	6.9	0.49	0.2	0.04	0.2401	3.381	1.38	0.098
10	13.5	3.02	1.37	1.8769	9.1204	40.77	18.495	4.1374
итого	95.7	20.92	4.55	3.1173	73.9108	209.983	48.234	10.768

Таким образом, система уравнений имеет следующий вид:

или в матричной форме

a	b₁	b₂	y
10	20.92	4.55	95.7
20.92	73.9108	10.768	209.983
4.55	10.768	3.1173	48.234

Для нахождения решения необходимо вычислить определители для матриц с помощью функции Excel МОБР():

	10	20.92	4.55
=	20.92	73.9108	10.768	=	300.0354
	4.55	10.768	3.1173

	95.7	20.92	4.55
a=	209.983	73.9108	10.768	=	2191.959
	48.234	10.768	3.1173

	10	95.7	4.55
b₁=	20.92	209.983	10.768	=	43.78372
	4.55	48.234	3.1173

	10	20.92	95.7
b₂=	20.92	73.9108	209.983	=	1291.832
	4.55	10.768	48.234

Тогда, значения коэффициентов будут равны

a=a/ =	7.30567
b₁=b₁/ =	0.145929
b₂=b₂/ =	4.305598

Таким образом, уравнение множественной регрессии имеет вид

Экономический смысл коэффициентов и в том, что это показатели силы связи, характеризующие изменение урожайности при изменении какого-либо факторного признака на единицу своего измерения при фиксированном влиянии другого фактора.

Проверим качество полученной спецификации при помощи F- теста.

Для решения задачи определим для пар значений x₁, x₂, заданных в исходных данных первой задачи по формуле:

определим по исходным данным первой задачи средне значение y по формуле.

значение коэффициента детерминации определяется отношением:

где , , - суммы квадратов отклонений значений и y от , соответственно.

Для нахождения С_факт и C_ост целесообразно составить таблицу, в которой итоговая строка будет соответствовать искомым значениям С_факт и C_ост:

i – номер района	y (y/га)		(-)²	(y-)²
1	9.7	8.982615	0.345021	0.0169
2	8.4	9.9131	0.117718	1.3689
3	9	8.956334	0.376586	0.3249
4	9.9	10.09686	0.277579	0.1089
5	9.6	9.300059	0.072868	0.0009
6	8.6	9.076009	0.244027	0.9409
7	12.5	9.220549	0.122116	8.5849
8	7.6	8.271136	1.687048	3.8809
9	6.9	8.238295	1.773439	7.1289
10	13.5	13.64504	16.60599	15.4449
итого	95.7		21.62239	37.801

Таким образом,

а значение коэффициента детерминации

F-тест представляет собой сравнение значения F_факт с табличным значением

F_факт можно определить по формуле:

=2.00202

m=2 – число факторов

n=10 - число наблюдений

По таблице находим F_таб с вероятностью 99,5% (=0,05) и степенями свободы к₁=m=2 и к₂=n-m-1=7

F_табл=4.737416 (=0,05; к₁=m=2 к₂=n-m-1=7)

Следовательно, при F_факт>F_к уравнении регрессии в целом признается существенным.

R² = , cследовательно, модель несколько лучше, чем простая средняя и объясняющие переменные на 57% описывают модель, также существуют неучтенные факторы, т.к. R² < 1.

Оценим модель в Excel по данным, приведенным в таблице, и дадим экономическую интерпретацию полученных результатов.

Для решения данной задачи необходимо использовать пакет статистического анализа входящего в Excel. Для этого необходимо в главном меню выбрать последовательно СЕРВИС/АНАЛИЗ ДАННЫХ/ОПИСАТЕЛЬНАЯ СТАТИСТИКА, после чего щелкнуть по кнопке ОК.

Далее необходимо заполнить диалоговое окно ввода данных:

Входной интервал - диапазон, содержащий анализируемые данные.

Группирование - по строкам или по столбцам

Выходной интервал - достаточно указать новый рабочий лист

Результаты вычисления представлены ниже

Описательная статистика:

yi (y/га)		X1 i		X2 I (т/га)

Среднее	9.57	Среднее	2.092	Среднее	0.455
Стандартная ошибка	0.648082642	Стандартная ошибка	0.578755	Стандартная ошибка	0.107861
Медиана	9.3	Медиана	2.105	Медиана	0.355
Мода	#Н/Д	Мода	#Н/Д	Мода	0.32
Стандартное отклонение	2.049417261	Стандартное отклонение	1.830184	Стандартное отклонение	0.341085
Дисперсия выборки	4.200111111	Дисперсия выборки	3.349573	Дисперсия выборки	0.116339
Эксцесс	0.374514639	Эксцесс	3.115582	Эксцесс	7.115769
Асимметричность	0.911826256	Асимметричность	1.531628	Асимметричность	2.548967
Интервал	6.6	Интервал	6.02	Интервал	1.17
Минимум	6.9	Минимум	0.42	Минимум	0.2
Максимум	13.5	Максимум	6.44	Максимум	1.37
Сумма	95.7	Сумма	20.92	Сумма	4.55
Счет	10	Счет	10	Счет	10

Матрица коэффициентов парной корреляции:

	yi (y/га)	X1 i	X2 I (т/га)
yi (y/га)	1
X1 i	0.28967368	1
X2 I (т/га)	0.745562035	0.222383	1

ВЫВОД ИТОГОВ

Регрессионная статистика
Множественный R	0.756310567
R-квадрат	0.572005674
Нормированный R-квадрат	0.449721581
Стандартная ошибка	1.520273167
Наблюдения	10

Дисперсионный анализ
	df	SS	MS	F	Значимость F
Регрессия	2	21.62239	10.81119	4.677679	0.05129
Остаток	7	16.17861	2.311231
Итого	9	37.801

	Коэффициенты	Стандартная ошибка	t-статистика	P-Значение	Нижние 95%	Верхние 95%
Y-пересечение	7.305670181	0.938961	7.780587	0.000109	5.085381	9.525959
X1 i	0.145928545	0.284001	0.513832	0.623187	-0.52563	0.817483
X2 I (т/га)	4.305598468	1.523882	2.825414	0.025574	0.702192	7.909005

Анализ показывает (по матрице парной корреляции), что урожайность в большей степени зависит от количества удобрений, чем от орудий поверхностной обработки почвы.

Проверим адекватность оцененной модели, используя интервальное прогнозирование эндогенной переменной. В качестве контрольной выборки возьмем 4-ый набор значений переменных.

Строим доверительный интервал прогноза с вероятностью 0,95 (L=0,05) по формуле

Табличное значение t-критерия Стьюдента для уровня значимости L=0,05 и числа степеней свободы n-m-1=10-2-1=7,

Стандартная ошибка = 1.520273167

Отсюда доверительный интервал составляет:

6.501985

13.69173

Из полученных результатов видно, что интервал от 6,5 до 13,7 довольно широкий.
Значительная неопределенность прогноза линии регрессии, это видно из формулы связана, прежде всего, с малым объемом выборки (n=10).
По результатам проведенного исследования можно сделать вывод о том, что существует статистическая взаимосвязь между урожайностью и количеством удобрений и числом орудий обработки почвы. Выявленная зависимость позволяет сделать вывод, о том, что урожайность в большей степени зависит от удобрений, чем от количества от орудий обработки почвы. Можно предположить, что увеличение количества орудий обработки после определенного момента не будет приводить к росту урожайности. Вместе с тем, рост количества удобрений также до определенного момента повышает урожайность, однако значительное количество удобрений может привести к непригодности урожая к использованию вследствие его зараженности химикатами или к его отсутствию из-за зараженности химикатами почвы. Т.к. на зараженной почве вряд ли что может вырасти.

Заключение

В заключение целесообразно остановиться на основных результатах работы. В данной работе были рассмотрены:

1) теоретические вопросы изучения взаимосвязей в статистике

2) произведен расчет согласно заданию №29 и сделаны выводы по расчету,

3) произведен анализ взаимосвязей статистических данных в аналитической части работы, сделаны выводы по расчету.

Целесообразно отметить, что не может быть чисто формальных подходов к выбору методов и моделей анализа взаимосвязей. Успешное применение статистических методов анализа на практике возможно лишь при сочетании знаний в области самих методов с глубоким знанием объекта исследования, с содержательным экономическим анализом.

По результатам проведенного исследования можно сделать вывод о том, что существует статистическая взаимосвязь между урожайностью и количеством удобрений и числом орудий обработки почвы. Можно предположить, что увеличение количества орудий обработки после определенного момента не будет приводить к росту урожайности. Вместе с тем, рост количества удобрений до определенного момента повышает урожайность, однако значительное количество удобрений может привести к непригодности урожая к использованию вследствие его зараженности химикатами или к его отсутствию из-за зараженности химикатами почвы. Т.к. на зараженной почве вряд ли что может вырасти.

Поэтому выявленная статистическая взаимосвязь не может применяться на практике как рекомендация "чем больше удобрений и орудий обработки почвы, тем выше урожай".

Библиография

Герчук Я.П. Графики в математическо-статистическом анализе. – М.: Статистика, 1972.
Ефимова М.Р., Петрова Е.В., Румянцев В.Н. Общая теория статистики. – М.:ИНФРА-М, 1996.
Кильдишев Г.C., Аболенцев Ю.И. Многомерные группировки. – М.: Статистика, 1978.
Общая теория статистики : учебник / Под.ред. А.А.Спирина. – М.: Финансы и статистика, 1996.
Сиськов В.И. Корреляционный анализ в экономических исследованиях. – М.: Статистика, 1975.
Теория статистикки : учебник /Под.ред. Р.А.Шмойловой. – М.: Финансы и статистика, 1996.