Analyse de corrélation et de régression multivariée. Analyse de régression multivariée en évaluation immobilière

Analyse de corrélation et de régression multivariée. Analyse de régression multivariée en évaluation immobilière

L'analyse de corrélation et l'analyse de régression sont des sections liées des statistiques mathématiques et sont destinées à étudier la dépendance statistique d'un certain nombre de quantités à l'aide d'échantillons de données ; dont certains sont aléatoires. Avec la dépendance statistique, les quantités ne sont pas fonctionnellement liées, mais sont définies comme des variables aléatoires par une distribution de probabilité conjointe. Recherche relationnelle Variables aléatoires Les taux de change conduisent à la théorie de la corrélation, en tant que branche de la théorie des probabilités, et à l'analyse de corrélation, en tant que branche des statistiques mathématiques. L'étude de la dépendance des variables aléatoires conduit à des modèles de régression et à des analyses de régression basées sur des échantillons de données. La théorie des probabilités et les statistiques mathématiques ne représentent qu’un outil pour étudier la dépendance statistique, mais ne visent pas à établir une relation causale. Les idées et hypothèses sur une relation causale doivent provenir d’une autre théorie permettant une explication significative du phénomène étudié.

Formellement, le modèle de corrélation de la relation entre un système de variables aléatoires peut être présenté sous la forme suivante : , où Z est un ensemble de variables aléatoires qui influencent

Les données économiques sont presque toujours présentées sous forme de tableau. Les données numériques contenues dans les tableaux ont généralement des relations explicites (connues) ou implicites (cachées) les unes avec les autres.

Les indicateurs obtenus par des méthodes de comptage direct sont clairement liés, c'est-à-dire calculés à l'avance formules connues. Par exemple, pourcentage d'achèvement du plan, niveaux, densité spécifique, écarts en montant, écarts en pourcentage, taux de croissance, taux de croissance, indices, etc.

Les connexions du deuxième type (implicites) sont inconnues à l'avance. Cependant, il est nécessaire de pouvoir expliquer et prédire (prévoir) des phénomènes complexes afin de les gérer. Par conséquent, les spécialistes, à l'aide d'observations, s'efforcent d'identifier les dépendances cachées et de les exprimer sous forme de formules, c'est-à-dire de modéliser mathématiquement des phénomènes ou des processus. Une telle opportunité est fournie par l’analyse de corrélation-régression.

Les modèles mathématiques sont construits et utilisés à trois fins générales :

  • - pour explication ;
  • - pour la prédiction ;
  • - Pour conduire.

Présenter des données économiques et autres dans des feuilles de calcul est devenu simple et naturel de nos jours. Doter les tableurs de moyens d'analyse de corrélation-régression contribue au fait qu'à partir d'un groupe de méthodes complexes, profondément scientifiques et donc rarement utilisées, presque exotiques, l'analyse de corrélation-régression se transforme pour un spécialiste en un outil analytique quotidien, efficace et opérationnel. Cependant, en raison de sa complexité, sa maîtrise nécessite beaucoup plus de connaissances et d’efforts que la maîtrise de simples feuilles de calcul.

À l'aide des méthodes d'analyse de corrélation et de régression, les analystes mesurent l'étroitesse des liens entre les indicateurs à l'aide du coefficient de corrélation. Dans ce cas, on découvre des connexions de force différente (forte, faible, modérée, etc.) et de direction différente (directe, inverse). Si les liens s'avèrent significatifs, il conviendra alors de trouver leur expression mathématique sous la forme d'un modèle de régression et d'évaluer la signification statistique du modèle. En économie équation significative utilisé, en règle générale, pour prédire le phénomène ou l'indicateur étudié.

L'analyse de régression est appelée la principale méthode des statistiques mathématiques modernes pour identifier les liens implicites et voilés entre les données d'observation. Les feuilles de calcul rendent cette analyse facilement accessible. Ainsi, les calculs de régression et la sélection de bonnes équations constituent un outil de recherche précieux et polyvalent dans une grande variété d’entreprises et activité scientifique(marketing, commerce, médecine, etc.). Après avoir maîtrisé la technologie d'utilisation de cet outil, vous pouvez l'utiliser selon vos besoins, en acquérant des connaissances sur les connexions cachées, en améliorant l'aide analytique à la prise de décision et en augmentant leur validité.

L'analyse de corrélation et de régression est considérée comme l'une des principales méthodes de marketing, avec les calculs d'optimisation, ainsi que la modélisation mathématique et graphique des tendances. Les modèles de régression univariée et multiple sont largement utilisés.

L'analyse de corrélation est l'une des méthodes analyses statistiques relations entre plusieurs entités.

Elle est définie comme une méthode utilisée lorsque les données d'observation peuvent être considérées comme aléatoires et sélectionnées dans une population distribuée selon une loi normale multivariée. La tâche principale de l'analyse de corrélation (qui est également la tâche principale de l'analyse de régression) est d'estimer l'équation de régression.

La corrélation est une dépendance statistique entre des variables aléatoires qui n'ont pas de nature strictement fonctionnelle, dans laquelle un changement dans l'une des variables aléatoires entraîne un changement espérance mathématique un autre.

  • 1. Corrélation de paires - une connexion entre deux caractéristiques (résultative et factorielle ou deux facteurs).
  • 2. Corrélation partielle - la dépendance entre les caractéristiques résultantes et celles d'un facteur avec une valeur fixe d'autres caractéristiques factorielles.
  • 3. Corrélation multiple - la dépendance de la résultante et de deux ou plusieurs caractéristiques factorielles incluses dans l'étude.

L'analyse de corrélation vise à quantifier l'étroitesse du lien entre deux caractéristiques (dans une relation par paire) et entre la caractéristique résultante et de nombreuses caractéristiques factorielles (dans une relation multifactorielle).

L'étroitesse de la connexion est exprimée quantitativement par l'ampleur des coefficients de corrélation. Les coefficients de corrélation, représentant une caractéristique quantitative de la relation étroite entre caractéristiques, permettent de déterminer « l'utilité » des caractéristiques factorielles dans la construction d'équations de régression multiple. La valeur des coefficients de corrélation sert également à évaluer la cohérence de l'équation de régression avec les relations de cause à effet identifiées.

Initialement, les études de corrélation ont été menées en biologie, puis se sont étendues à d'autres domaines, notamment socio-économiques. Parallèlement à la corrélation, la régression a commencé à être utilisée. La corrélation et la régression sont étroitement liées : la première évalue la force (l'étroitesse) d'une relation statistique, la seconde examine sa forme. La corrélation et la régression servent toutes deux à établir des relations entre les phénomènes et à déterminer la présence ou l'absence d'un lien entre eux.

Partie Microsoft Excel comprend un ensemble d'outils d'analyse de données (le soi-disant package d'analyse), conçus pour résoudre des problèmes statistiques et problèmes d'ingénierie. Pour effectuer une analyse de données à l'aide de ces outils, vous devez spécifier les données d'entrée et sélectionner les paramètres ; l'analyse sera effectuée à l'aide d'une macro-fonction statistique ou d'ingénierie appropriée et le résultat sera placé dans la plage de sortie. D'autres outils permettent de présenter les résultats de l'analyse sous forme graphique.

Exemple 1. Les données suivantes sont fournies :

Numéro d'entreprise

Niveau des coûts de distribution (y)

Chiffre d'affaires du fret, milliers de roubles (x1)

Intensité capitalistique RUB/milliers de tonnes (x2)

Il est nécessaire de procéder à une analyse de corrélation et de régression multivariée.

Pour effectuer une analyse de corrélation et de régression multivariée, vous devez créer le tableau suivant :

Tableau 1

Numéro d'entreprise

Niveau des coûts de distribution (y)

Chiffre d'affaires du fret, milliers de roubles (x1)

Intensité capitalistique RUB/milliers de tonnes (x2)

Épouser valeur:

(x1-x1moyenne)^2

(x2-x2moyenne) ^2

(moyenne annuelle) ^2

Sur la base du tableau 1, nous obtenons le tableau 2 :

Tableau 2

0,03169Z2-0,6046Z1

L'analyse de corrélation multivariée examine la dépendance d'un résultat (CA univariée) ou de plusieurs (CA multivariée) à l'égard de plusieurs facteurs.

Tout d'abord, nous considérerons une analyse de corrélation multifactorielle univariée, puis, à titre de comparaison, les caractéristiques d'une AC multidimensionnelle, puisque ses différences par rapport à une AC unidimensionnelle sont insignifiantes.

Le modèle principal dans lequel les problèmes d'analyse multivariée sont résolus est un modèle linéaire de la forme

e k- erreur d'observation.

  • X.

Une caractéristique de l'analyse de corrélation multifactorielle est que le coefficient de corrélation et le rapport de corrélation évoqués ci-dessus ne contiennent pas suffisamment de données. information complète sur la relation entre les valeurs de Y et X, ce qui nécessite l'utilisation d'un certain nombre d'autres indicateurs, à savoir :

  • - compléter les coefficients de corrélation par paires ;
  • - coefficients de corrélation partielle ;
  • - plusieurs coefficients de corrélation.

Cela s'explique par le fait que dans les cas multifactoriels, et plus encore multidimensionnels, les relations entre les variables deviennent nettement plus compliquées et le coefficient de corrélation entre deux variables peut ne pas correspondre à la réalité. Par exemple, la corrélation entre Y et X. peut être due à leur dépendance à X fc, alors que pour une valeur fixe Xk ces quantités sont stochastiquement indépendantes. Par conséquent, lors de l'étude de la relation entre ces quantités, il est nécessaire d'exclure l'influence de X fc, c'est-à-dire de trouver l'étroitesse de la connexion entre Y et X. pour une valeur fixe de X fc.

La variété des liens entre les variables se reflète dans les coefficients de corrélation partielle et multiple. S'il existe une population avec des caractéristiques hea, alors l'interdépendance entre elles peut être décrite par la matrice de corrélation Q, constituée de coefficients de corrélation appariés


g. à- coefficients de corrélation de paires ;

T- ordre matriciel.

Dans le cas d’une corrélation multivariée, les dépendances entre caractéristiques sont plus diverses et plus complexes que dans le cas bidimensionnel. Une matrice de corrélation ne peut pas décrire entièrement les dépendances entre les caractéristiques. Il est donc nécessaire d’utiliser des coefficients de corrélation partielle. Le coefficient de corrélation partielle, ainsi que le coefficient de corrélation de paire, varient de -1 à +1. DANS vue générale lorsque le système est constitué de T caractéristiques, coefficient de corrélation partielle OMS l’ordre peut être trouvé à partir de la matrice de corrélation. Par exemple, avec m = 5 et À= 2, il faut déterminer le coefficient de corrélation partielle r 12 4, c'est-à-dire comment les facteurs 1 et 2 sont liés aux facteurs 4 et 5. Dans ce cas, le facteur numéro 3 n'est pas pris en compte (fixe). Dans ce cas, il faut supprimer la troisième ligne et la troisième colonne de la matrice Q5 d'origine.

La formule pour déterminer le coefficient de corrélation partielle est :

où sont les compléments algébriques aux correspondants

éléments de la matrice de corrélation.

Il est souvent intéressant d’évaluer la relation d’une des caractéristiques avec toutes les autres. Cela peut être fait en utilisant le coefficient de corrélation multiple ou cumulatif, qui est également calculé à l'aide de la matrice de corrélation.

où |gj est le déterminant de la matrice de corrélation composée de coefficients de corrélation appariés ;

q..- complément algébrique à un élément g...

Lors de la réalisation d'une analyse de corrélation multifactorielle, les tâches suivantes sont résolues :

  • - évaluation de la présence et de l'étroitesse du lien entre le résultat Y et chaque facteur X. ;
  • - évaluation de l'étroitesse de la relation entre le résultat Y et le facteur X. avec des valeurs fixes d'autres facteurs.

Exemple 10.2. Après une analyse qualitative des facteurs influençant la position de l’entreprise sur le marché des services de télécommunications, les facteurs suivants ont été laissés pour une analyse quantitative. X.

Xx- nombre de chaînes haut débit louées,

X 2 - nombre de canaux d'accès à Internet, pcs. ;

X 3 - Taux de change du dollar américain par rapport au rouble, frotter.;

X 4 - tarif moyen pour la location d'une chaîne, frotter.;

X 5 - part des canaux attribuables aux structures bancaires, pcs.

Deux valeurs sont prises comme valeurs de sortie Oui., caractérisant la position de l'entreprise :

Y : - nombre total de chaînes louées, pcs. ;

Y 2 - revenu de l'entreprise, frotter.

Les données sur ces valeurs sur deux ans sont présentées dans le tableau. 10.3.

Tableau 10.3

Fin de tableau. 10.3

AVEC utiliser le paquet programmes d'application La matrice des coefficients de corrélation de paires a été calculée. Les résultats du calcul sont donnés dans le tableau. 10.4.

Tableau 10.4

Dans les deux dernières lignes du tableau. Le tableau 10.4 contient les valeurs des moyennes de l'échantillon et des écarts types de l'échantillon nécessaires à la construction d'une équation de régression linéaire.

L'analyse de la matrice de corrélation est réalisée selon la règle suivante. Si le coefficient de corrélation par paire entre les facteurs s'avère proche de 1 (dépasse au moins la valeur de 0,9), cela signifie qu'un effet de multicolinéarité est observé et le facteur qui a le coefficient de corrélation par paire le plus faible avec la variable de sortie ( nombre total chaînes louées Oui contre ou revenus de l'entreprise

Guidé par cette règle, pour un examen plus approfondi, il est logique de laisser deux facteurs X 3 - le taux de change du dollar par rapport au rouble et X 4 - le tarif moyen de location d'une chaîne. Le facteur X5 - la part des canaux pour les structures bancaires - peut être exclu en raison de la faible valeur du coefficient de corrélation de paire.

À l'aide des expressions (10.13 et 10.15), des équations de régression ont été obtenues

Une comparaison des valeurs réelles des valeurs de Y [ et Y 2 avec celles prédites par les équations (10.17) a montré des écarts mineurs en un an (pas plus de 3 %), ce qui indique la qualité acceptable du modèle pour utilisation en interpolation. Cependant, l’objectif principal du développement d’un modèle de régression était de l’utiliser à des fins d’extrapolation. Comme le montre l'analyse, le modèle résultant ne peut pas être utilisé à des fins de prévision en raison de la non-linéarité importante des valeurs Y1 et Y2.

Pour déterminer les valeurs prévisionnelles caractérisant la position de l'entreprise sur le marché des services de télécommunications dans cette situation, il est conseillé d'utiliser des méthodes d'analyse de séries chronologiques, d'analyse de régression (avec construction de modèles polynomiaux de la seconde et, éventuellement, plus haut degré) . Ces méthodes peuvent être utilisées pour des prévisions à moyen terme.

Analyse de corrélation et de régression multivariée

Tableau 4. Données initiales.

taux de chômage

revenu de la population

indice des prix

indexGRP

Pour l'analyse, il est nécessaire de procéder à une sélection préliminaire de facteurs pour le modèle de régression parmi plusieurs facteurs. Nous le ferons sur la base des résultats du calcul du coefficient de corrélation, c'est-à-dire Prenons les facteurs dont le lien avec la caractéristique résultante sera plus prononcé. Tenez compte des facteurs suivants :

Revenu par habitant - x 1 (%)

Indice des prix à la consommation - x 2 (%)

Indice GRP - x 3 (%)

Calculons le coefficient de corrélation pour une relation linéaire et pour les facteurs disponibles - x 1, x 2 et x 3 :

Pour le facteur x 1 on obtient le coefficient de corrélation : r 1 = 0,042

Pour le facteur x 2 on obtient le coefficient de corrélation : r 2 =0,437

Pour le facteur x 3 on obtient le coefficient de corrélation : r 3 =0,151

Sur la base des données obtenues, nous pouvons conclure que :

1) Il n'y a aucun lien entre x 1 et y, puisque le coefficient de corrélation est inférieur à 0,15. Il est donc nécessaire d’exclure ce facteur des études ultérieures.

2) La relation entre x 2 et y est directe (puisque le coefficient de corrélation est positif) et modérée puisqu'elle est comprise entre 0,41 et 0,50. Par conséquent, nous utiliserons le facteur dans d’autres calculs.

3) La relation entre x 3 et y est directe (puisque le coefficient de corrélation est positif) et faible. Néanmoins, nous utiliserons le facteur dans d’autres calculs.

Ainsi, les deux facteurs les plus influents sont l'indice des prix à la consommation - x 2 et l'indice GRP - x 3. Pour les facteurs existants x 2 et x 3, nous créerons une équation de régression multiple.

Vérifions les facteurs de multicolinéarité, pour lesquels nous calculons le coefficient de corrélation r x2x3. En remplaçant les données disponibles (du tableau 10) dans la formule, nous avons la valeur suivante : r x2x3 =0,747. Le coefficient résultant indique très connexion élevée, par conséquent, une analyse plus approfondie ne peut pas être effectuée sur les deux facteurs. Cependant, à des fins pédagogiques, nous poursuivrons l'analyse.

Nous évaluons la significativité de la relation à l'aide du coefficient de corrélation multiple : R = 0,512

Depuis R< 0,8, то связь признаем не существенной, но, тем не менее, в учебных целях, проводим дальнейшее исследование.

L’équation d’une droite a vue suivante: y = a + bx 1 + cx 3

Pour déterminer les paramètres de l'équation, il faut résoudre le système :

Après avoir résolu le système, nous obtenons l'équation : Y=41,57-0,042 x 1 -0,183x 3

Pour cette équation on trouve l’erreur d’approximation :

A> 5%, alors ce modèle ne peut pas être utilisé en pratique.

Évaluons les paramètres de typicité. Calculons les valeurs :

m a = 0,886 ; m b = 0,0003 ; ms =0,017 ;

t a =41,57/0,886=46,919 ; tb =-0,042/0,0003=-140 ; t c =-0,183/0,017=-10,77.

Comparons les valeurs t obtenues ci-dessus pour b = 0,05 et le nombre de degrés de liberté (n-2) avec la valeur théorique du test t de Student, qui t théorique = 2,1788. Valeurs calculées de t b et t c< t теор, значит данные параметры не значимы и данное уравнение не используется для прогнозирования.

où : n - nombre de niveaux de la série ; k - nombre de paramètres ; R - coefficient de corrélation multiple.

Après calcul on obtient : F=1.41

Comparons F calculé avec la théorie F pour le nombre de degrés de liberté U 1 = 9 et U 2 = 2, on voit que 1,41< 19,40, то есть F расч < F теор - связь признаётся не существенной, то есть корреляция между факторами x 2 , x 3 и у не существенна.

Dans la recherche économique, un signe efficace U se forme sous l'influence de plusieurs caractéristiques factorielles
X 1, X 2, ..., Xr. L'équation de régression multiple a la forme
oui = f(x 1, x 2, ..., x p).

Théorique équation linéaire la régression a la forme

La valeur de chaque coefficient de régression est égale à la variation moyenne oui avec l'augmentation de xj d'une unité, à condition que tous les autres facteurs restent inchangés. Pour réaliser une analyse dans le cadre d'un modèle de régression multiple linéaire, il est nécessaire de remplir un certain nombre de prérequis OLS, dont certains sont similaires à la régression par paires :

1 0 . E (ε je) = 0 (je=1,...,n).

2 0 .

La première ligne signifie que les résidus sont homoscédastiques, la deuxième ligne suppose l'absence d'autocorrélation.

3 0 . X1, ..., Xp– des quantités non aléatoires.

4 0 . Le modèle est linéaire par rapport aux paramètres.

50 . Manque de multicollinéarité : il n'y a pas de relation linéaire stricte entre les variables explicatives, ce qui joue un rôle important dans la sélection des facteurs lors de la résolution du problème de spécification du modèle.

6 0 . Les erreurs ont une distribution normale . La faisabilité de cette condition est nécessaire pour tester des hypothèses statistiques et construire des estimations d’intervalle.

Pour trouver des coefficients de régression multiple linéaire, nous présentons les données d'observation et les paramètres du modèle sous forme matricielle :

n-vecteur transposé dimensionnel – une colonne d'observations de la variable dépendante ;

– (p+1)-vecteur transposé dimensionnel – colonne de paramètres de l'équation de régression ;

n vecteur transposé dimensionnel – colonne des écarts des valeurs de l'échantillon et je.

Puis on écrit les valeurs des variables indépendantes sous la forme d'une matrice rectangulaire de dimension :

Dans cette notation, l'équation de régression empirique ressemble à ceci : . Alors la fonctionnelle minimisée par les moindres carrés est égale à : La meilleure estimation est le vecteur .

L'équation de régression sur une échelle standardisée est

,

σ - écart-type , βj– des coefficients de régression standardisés, qui montrent dans quelle mesure les valeurs des écarts types (rms) modifieront en moyenne le résultat si le facteur correspondant xj changera d'un r.s.o. le niveau moyen des autres facteurs restant constant.

En utilisant la méthode des moindres carrés, après transformations appropriées, nous obtenons un système d'équations normales :

Comparer les cotes βj entre eux, vous pouvez classer les facteurs en fonction de la force de leur impact sur le résultat, et également utiliser des coefficients lors de l'élimination des facteurs - facteurs avec valeur la plus basse βj.



Coefficients de régression pure bj connecté avec
β - coefficients par la formule .

Comme dans le cas de la régression appariée, le test de l'hypothèse de signification statistique de l'équation de régression est effectué sur la base d'une analyse de variance : H 0 : D fait = D reste contre l'hypothèse alternative H 1 : D fait > D repos. En même temps, il se construit
F-statistiques:

.

Si F ensemble > F table (α; p; np1) , Que Mais s'écarte, c'est-à-dire que la variance factorielle dépasse le résidu, l'équation de régression est statistiquement significative.

Pour vérifier la qualité globale de l'équation de régression, le coefficient de détermination est également utilisé R2, qui est calculé de la même manière que la régression par paires. L'analyse de la signification statistique du coefficient de détermination est effectuée sur la base d'une vérification H 0:R2= 0 contre une hypothèse alternative H1:R2> 0. Pour tester cette hypothèse, on utilise ce qui suit
F-statistiques:

.

Si F ensemble > F table (α; p; np1) , Que Mais est rejeté, ce qui équivaut à une signification statistique R2.

Outre le coefficient de détermination, le coefficient de détermination ajusté est utilisé

.

Signification statistique des paramètres de régression linéaire multiple avec R. facteurs: H 0 : bj= 0 est vérifié en fonction de t-statistiques:

, ,

Où - jème élément diagonal de la matrice inverse, . Si | pas réglé| < onglet t(1 α ; np1 ), le paramètre est considéré comme statistiquement non significatif et H 0 ne peut être rejeté, facteur xj n'est pas liée linéairement au résultat, donc la variable xj il est recommandé de l'exclure de l'équation de régression.

Intervalles de confiance pour coefficients significatifs se trouvent selon la formule

Laissez les variables explicatives prendre la valeur
X T 0 = (1; x 1 0; x 2 0;…;x p 0). Alors l’intervalle de confiance pour la fonction de régression est

.

Intervalle de confiance pour les valeurs individuelles de la variable dépendante :

.

Lors de l'exclusion ou de l'ajout de facteurs, les statistiques de Fisher sont utilisées pour vérifier la signification statistique des coefficients restants. Tester l'hypothèse , il est possible de déterminer si la qualité de la description du comportement de la variable dépendante s'est significativement détériorée. Les statistiques sont utilisées pour cela



.

Si F réglé > , Que Mais devrait être rejeté. Dans ce cas, exclusion simultanée de la considération k les variables explicatives sont incorrectes.

Pour évaluer la proximité entre les caractéristiques, des coefficients de corrélation et de détermination appariés, partiels et multiples sont utilisés.

Pour la régression linéaire, le coefficient de corrélation multiple peut être déterminé à l'aide des formules :

- , où Δ r– déterminant de la matrice des coefficients de corrélation de paires : ,

UN Δr 11– déterminant qui reste après suppression de la première colonne et de la première ligne de la matrice des coefficients de corrélation deux à deux ;

Pour un modèle dans lequel il y a deux variables indépendantes, la formule est simplifiée .

Nous calculons les coefficients de corrélation partielle pour le modèle à trois facteurs à l'aide des formules , , .

Il existe une relation étroite entre le coefficient de corrélation partielle et le coefficient de détermination R2:

.

Exemple 2. La relation entre le coût du transport routier de marchandises est étudiée Oui(milliers de roubles), poids de la cargaison X1(t) et distance X2(milliers de km) 20 chacun entreprises de transport. Les données initiales sont données dans le tableau. 6.

Tableau 6

Oui X1 X2 Oui X1 X2
1,3
1,1 0,35
2,55 5,8 1,65
7,5 1,7 13,8 3,5 2,9
2,4 6,2 2,8 0,75
1,55 7,9 0,6
11,5 0,6 5,4 3,4 0,9
2,3 2,5
15,8 1,4 25,5 2,2
2,1 7,1 4,5 0,95

Requis:

1. Construisez un exemple d’équation de régression multiple linéaire. Amenez l'équation résultante sous une forme standardisée, tirez des conclusions sur l'influence des facteurs sur le facteur résultant. Déterminer les coefficients d'élasticité.

2. Vérifiez la signification statistique de l'équation de régression à l'aide de l'analyse de variance et du coefficient de détermination.

3. Vérifiez la signification statistique des paramètres de l'équation de régression et construisez des intervalles de confiance pour les coefficients significatifs.

5. Déterminez les coefficients de corrélation appariés et partiels et vérifiez leur signification. Construire des intervalles de confiance pour les coefficients significatifs.

7. Trouvez la valeur prédite et je, Si x1 =10, x2 =5, et intervalles de confiance pour les valeurs moyennes et individuelles oui 0 .

Solution

1. Nous précisons le modèle sous la forme fonction linéaire:

Vecteur DANS trouvez-le en utilisant la formule :

Matrice X X T

1,1 4,5
1,1 2,2 0,95
2,2
4,5 0,95

X T *X (X T *X) -1 X T *U

277,2 31,8 0,344766 -0,00562 -0,13643 454,5
277,2 5860,9 459,235 -0,00562 0,000503 -0,00085 8912,57
31,8 459,235 61,455 -0,13643 -0,00085 0,093251 908,555
-17,3133
1,156057
5,10401

Par conséquent, l’équation de régression a la forme

Oui=17h31 + 1,16 X 1 + 15,10 X 2.

Pour amener à vue générale Construisons une table auxiliaire (tableau 7).

Tableau 7

Oui X1 X2 Y2 X2 1 X2 2
1,1 1,21
2,55 6,5025
7,5 1,7 56,25 2,89
2,4 5,76
1,55 2,4025
11,5 0,6 132,25 0,36
2,3 5,29
15,8 1,4 249,64 1,96
2,1 4,41
1,3 1,69
0,35 0,1225
5,8 1,65 33,64 2,7225
13,8 3,5 2,9 190,44 12,25 8,41
6,2 2,8 0,75 38,44 7,84 0,5625

Fin du tableau 7

Oui X1 X2 Y2 X2 1 X2 2
7,9 0,6 62,41 0,36
5,4 3,4 0,9 29,16 11,56 0,81
2,5 6,25
25,5 2,2 650,25 4,84
7,1 4,5 0,95 50,41 20,25 0,9025
Σ 454,5 277,2 31,8 18206,89 5860,9 61,45

; 0,74;

= 0,77; = 0,56;

t Y = 0,77t x1 + 0,56t x2 .

Autrement dit, avec une augmentation du poids de la cargaison d'un sigma à distance constante, le coût du fret transport routier augmente en moyenne de 0,77 sigma. À mesure que la distance augmente d’un sigma et que le poids de la marchandise reste inchangé, le coût du transport routier de marchandises augmente en moyenne de 0,56 sigma. Puisque 0,77 > 0,56, l’influence du poids des marchandises sur le coût du transport routier de marchandises est supérieure au facteur distance.

Trouvons les coefficients d'élasticité :

= ,

= 1,05.

Avec une augmentation du poids moyen des marchandises de 1% par rapport à son niveau moyen, le coût moyen du transport augmentera de 0,71% par rapport à son niveau moyen. Avec une augmentation de la distance moyenne de transport de 1 %, le coût moyen de livraison des marchandises augmentera de 1,05 %. Depuis 0.71< 1,05, то влияние веса груза на стоимость грузовых автомобильных перевозок меньше, чем фактора расстояния. Различия в силе влияния факторов на результат, полученные при сравнении уравнения регрессии в стандартизованном масштабе и коэффициентов эластичности, объясняются тем, что коэффициент эластичности рассчитывается исходя из соотношения средних, а стандартизованные коэффициенты регрессии - из соотношения средних квадратических отклонений.

2. Vérifions la signification de l'équation de régression ; pour cela, nous créerons un tableau (tableau 8).

Tableau 8

|(y-y р)/y|
53,45 799,193 6,00 0,0462095
17,82 45,293 3,31 0,1123748
42,04 2628,613 1021,76 0,4322848
10,64 231,953 9,86 0,4234144
35,13 105,473 4,537 0,0642756
44,34 10,693 336,17 0,7018371
14,91 126,113 11,63 0,2930625
46,38 856,7329 31,58 0,10909
18,87 48,025 9,43 0,193736
16,68 216,973 75,34 1,0896515
26,64 10,693 0,41 0,0230416
0,695 279,893 28,143 0,8850491
11,045 286,625 27,51 0,9097353
30,5 79,7449 278,89 1,2126453
-2,777 273,241 80,587 1,4432832
11,43 219,929 12,461 0,4432973
0,184 300,329 27,207 0,9609482
48,24 1106,893 60,218 0,1394274
26,31 7,673 0,6561 0,0321573
2,215 244,297 23,863 0,684825
Somme. 454,732 7878,378 2049,568 10,200346

Tests utilisant l'ANOVA :

H 0 : D fait = D reste; H 1 : D fait > D repos;

Q rév = 7878,378 ; Q repos =2049,558 ; Q fait = 5828,82 ;

Fn = (5828,82/2049,56)·(17/2) = 24,17.

Parce que F n > F cr (0,05 ; 2 ; 17) = 3,59, alors l'hypothèse nulle est rejetée et l'équation de régression multiple est statistiquement significative.

Vérifiez à l'aide du coefficient de détermination :

; .

Il montre que 74 % de la variation du coût de tous les transports s'explique par les variations de leur capacité de transport et de leur distance, et
16% - d'autres facteurs non pris en compte. Le coefficient de détermination ajusté est assez important, nous avons donc pu prendre en compte dans le modèle les facteurs les plus importants qui déterminent le coût du transport :

H 0:R2= 0 ; H1:R2> 0.

.

Parce que F fait > F cr (0,05 ; 2 ; 17) = 3,59, Que H 0 dévie, le coefficient de détermination diffère de zéro, par conséquent, l'équation de régression est statistiquement significative.

3. Vérifions la signification statistique des coefficients de régression :

H 0 : b 0= 0;H 1 : b 0≠ 0.

; ;

; tcr (0,95 ; 17) = 2,11.

Parce que t set > t critique Le coefficient est donc significativement différent de zéro, intervalle de confiance (– 30,92 ; – 3,71).

H 0 : b 1= 0;H 1 : b 1≠ 0.

; tcr (0,95 ; 17) = 2,11.

Parce que t set > t critique Par conséquent, le coefficient est significativement différent de zéro, intervalle de confiance (0,64 ; 1,68).

H0 : b2= 0;H 1 : b 2≠ 0.

; tcr (0,95 ; 17) = 2,11.

Parce que t set > t critique Par conséquent, le coefficient est significativement différent de zéro, intervalle de confiance (8,03 ; 22,18).

4. Déterminons l'erreur d'approximation A = = 51 %. Les valeurs réelles des coûts de transport à partir des données calculées à l'aide de l'équation de régression diffèrent en moyenne de 51% .

5. Déterminons les coefficients de corrélation de paire et partielle. Pour ce faire, nous allons construire un tableau (Tableau 9).

Tableau 9

Oui X1 X2 Y2 x1 2 x2 2 oui 1 oui 2 x1x2
1,1 1,21 17,6 17,6
2,55 6,5025 188,7 45,9
7,5 1,7 56,25 2,89 12,75 3,4
2,4 5,76 79,2 33,6
1,55 2,4025 40,3 51,15
11,5 0,6 132,25 0,36 6,9
2,3 5,29 119,6 57,5
15,8 1,4 249,64 1,96 205,4 22,12 18,2
2,1 4,41 16,8 4,2
1,3 1,69 33,8 27,3
0,35 0,1225 2,1 3,85
5,8 1,65 33,64 2,7225 17,4 9,57 4,95
13,8 3,5 2,9 190,44 12,25 8,41 48,3 40,02 10,15
6,2 2,8 0,75 38,44 7,84 0,5625 17,36 4,65 2,1
7,9 0,6 62,41 0,36 134,3 4,74 10,2
5,4 3,4 0,9 29,16 11,56 0,81 18,36 4,86 3,06
2,5 6,25
25,5 2,2 650,25 4,84 229,5 56,1 19,8
7,1 4,5 0,95 50,41 20,25 0,9025 31,95 6,745 4,275
Épouser. signification 22,73 13,86 1,59 910,34 293,05 3,07 445,63 45,43 22,96

La matrice des coefficients de corrélation de paires a la forme .

Vérifions leur signification Н 0 : ρ = 0à Н 1 : ρ ≠ 0

> tcr (0,05 ; 18) = 2,1-hypothèse H 0 ;

> tcr (0,05 ; 18) = 2,1-hypothèse H 0 rejeté, le coefficient de corrélation est statistiquement significatif ;

< t кр (0,05; 18) = 2,1 -hypothèse H 0 non rejeté, le coefficient de corrélation n'est pas statistiquement significatif .

A partir de la matrice de corrélation, on retrouvera le coefficient de détermination : Δ = 0,256 ; Δ11 = 0,984 ; R2 = 1 – 0,246/0,984 =
= 0,74; .
La valeur du coefficient de détermination multiple indique une relation étroite entre le coût du transport et le poids de la marchandise et la distance sur laquelle elle est transportée. Le coefficient de détermination multiple peut être calculé à l'aide des formules

Calculons les coefficients de corrélation partielle. Les coefficients de corrélation partielle caractérisent l'étroitesse de la relation entre deux variables, excluant l'influence de la troisième variable :

;

;

.

La relation entre le coût du transport et le poids de la marchandise est directe et étroite, entre le coût du transport et la distance est directe et étroite, entre le poids de la marchandise et la distance est inverse et moyenne. Vérifions leur signification Н 0 : ρ = 0à Н 1 : ρ ≠ 0

> tcr (0,05 ; 18) = 2,1-hypothèse H 0

> tcr (0,05 ; 18) = 2,1-hypothèse H 0 rejeté, le coefficient de corrélation est statistiquement significatif ;

> tcr (0,05 ; 18) = 2,1-hypothèse H 0 rejeté, le coefficient de corrélation est statistiquement significatif .

Pour les coefficients de corrélation significatifs, nous construirons un intervalle de confiance. Pour ce faire, calculons ; ; ; ; .

Alors ;

6. Calculons les quotients F-Critères de Fisher et évaluer l'opportunité d'inclure l'un des facteurs après l'autre dans l'équation :

H 0 : R 2 = r 2 yx1 ; H 1 : R 2 ≠ r 2 yx1.

F heure1 = > F cr = 4,45, nous arrivons donc à la conclusion qu'il est conseillé d'inclure le facteur dans le modèle x2 après facteur x1.

H 0 : R 2 = r 2 yx2 ; H 1 : R 2 ≠ r 2 yx2.

F heure2 = > F cr = 4,45, nous arrivons donc à la conclusion qu'il est inapproprié d'inclure le facteur dans le modèle x1 après facteur x2.

7. Coût du transport de marchandises en fonction du poids de la cargaison 10 tonnes et la distance 5km, c'est à dire. x 0 T =(1 ; 10 ; 5), sera y 0 = – 17,31 + 1,16 10 +
+ 15,10 5 = 69,77 mille roubles.

L'intervalle de confiance pour la moyenne sera
(44,77; 94,76 ), Où X 0 T · (X T · X) -1 · X o = 1,16; ; tcr (0,95 ; 17) = 2,11.

Intervalle de confiance pour une valeur individuelle - ( 35,69; 103,85 ), Où .

Questions pour la maîtrise de soi

1. Répertoriez les locaux des multinationales. Quelles sont les conséquences de leur impraticabilité ou de leur faisabilité ? Quelle est l’essence des meilleurs estimateurs linéaires sans biais ?

2. Formuler un algorithme pour déterminer les coefficients de régression sous forme matricielle. Que caractérisent les coefficients de régression ?

3. Décrivez le schéma permettant de tester les hypothèses sur les valeurs des coefficients de régression. Quelle est l’essence de la signification statistique des coefficients de régression ? Décrivez une règle « approximative » pour analyser la signification statistique des coefficients de régression.

4. Comment sont-ils déterminés ? erreurs types régression et coefficients de régression ? Fournir un schéma pour déterminer les estimations d'intervalle des coefficients de régression.

5. Comment la qualité d’une équation de régression linéaire multiple empirique est-elle analysée ?

6. Expliquez l'essence du coefficient de détermination de la régression multiple. Dans quelles limites varie-t-il ? Formuler un schéma pour vérifier la signification statistique du coefficient de détermination.

7. En quoi le coefficient de détermination ajusté diffère-t-il du coefficient de détermination habituel ?

8. Comment est construit un intervalle de confiance pour l'espérance mathématique conditionnelle de la variable dépendante et qu'est-ce qui permet de le déterminer ? Quelle est l'essence de la prédiction des valeurs individuelles d'une variable dépendante ?

9. Formuler un critère pour vérifier la faisabilité de l'inclusion ou de l'exclusion de facteurs indépendants.

10. Qu'est-ce qu'on appelle le coefficient de corrélation multiple linéaire et comment peut-il être déterminé à l'aide de la matrice de coefficients de corrélation appariés ?

11. Comment les coefficients de corrélation partielle sont-ils déterminés ? Quel est le lien entre le coefficient de corrélation partielle et le coefficient de détermination ?

12. Qu'est-ce qu'une variable muette ? Quelles sont les principales raisons d’utiliser des variables fictives dans les modèles de régression ? Quelle est l’essence du piège à variable factice ?

13. Que sont les modèles ANOVA ? Que sont les modèles ANCOVA ? Donnez des exemples de leur utilisation.

14. Expliquez la signification du terme multicolinéarité. Quelle est la différence entre la multicolinéarité parfaite et imparfaite ? Quelles sont les conséquences de la multicolinéarité ?

15. Comment détecter et éliminer la multicolinéarité ?

16. Quelle est l’essence de l’hétéroscédasticité ? Énoncer les conséquences de l’hétéroscédasticité.

17. Fournir des modèles pour les tests de corrélation de rang de Spearman et Goldfeld-Quandt afin de tester l'homoscédasticité.

18. Quelle est l'essence de la méthode des moindres carrés pondérés ?

19. Qu'est-ce que l'autocorrélation ? Quelles sont les causes et les conséquences de l’autocorrélation ?

20. Décrivez le schéma d'utilisation des statistiques de Durbin-Watson. Énumérez les limites de son utilisation.


Des séries chronologiques

Les processus et phénomènes économiques, leurs connexions et dépendances peuvent être considérés à la fois dans l'espace et dans le temps, en construisant et en analysant une ou plusieurs séries temporelles.

Des séries chronologiques (des séries chronologiques ou série dynamique) - un ensemble de l'indicateur étudié à des moments successifs dans le temps. Les observations individuelles sont appelées niveaux de la série yt , t=1,…,n,n– nombre de niveaux. La durée d'une série s'entend comme le temps écoulé entre le moment initial de l'observation et le moment final. Chaque niveau de la série chronologique se forme sous l'influence d'un grand nombre de facteurs, qui peuvent être divisés en trois groupes :

Facteurs déterminant la tendance de la série ( T). La tendance caractérise l'impact à long terme des facteurs sur la dynamique de l'indicateur. La tendance peut être à la hausse ou à la baisse ;

Facteurs qui forment des fluctuations cycliques dans la série ( S). Les fluctuations cycliques peuvent être saisonnières ou refléter la dynamique des conditions du marché, ainsi que la phase du cycle économique dans laquelle se situe l’économie du pays ;

Facteurs aléatoires ( E), reflétant une influence qui ne peut être prise en compte ou enregistrée.

Un modèle dans lequel une série chronologique est présentée comme la somme des composants répertoriés ci-dessus est appelé modèle de série chronologique additif ( ), dans le cas d’un produit – un modèle multiplicatif ( ).

La tâche principale de la recherche économétrique sur les séries chronologiques est d'identifier expression quantitative chacune des composantes et utiliser les informations obtenues pour prédire les valeurs futures de la série ou construire un modèle de la relation entre deux ou plusieurs séries chronologiques.

Pour identifier la présence de l'une ou l'autre composante non aléatoire, la dépendance de corrélation entre les niveaux successifs de la série chronologique est examinée, ou autocorrélation des niveaux de série

Le nombre de périodes pour lesquelles le coefficient d'autocorrélation est calculé est appelé décalage. La séquence de coefficients d'autocorrélation de niveaux d'ordres différents, en commençant par le premier, est appelée fonction d'autocorrélation d'une série temporelle. Un graphique de la dépendance de ses valeurs à la valeur de décalage est appelé corrélogramme.

Si le coefficient d’autocorrélation du premier ordre est le plus élevé, la série étudiée ne contient évidemment qu’une tendance. Si le coefficient d'autocorrélation le plus élevé est de l'ordre τ , la série contient des fluctuations cycliques avec une périodicité de τ moments dans le temps. Si aucun des coefficients d'autocorrélation n'est significatif, alors soit la série ne contient pas de tendance ni de fluctuations cycliques et n'a qu'une composante aléatoire, soit la série contient une forte tendance non linéaire, qui nécessite une analyse supplémentaire pour être étudiée.

Si, lors de l'analyse de la structure d'une série chronologique, seule une tendance est détectée et qu'il n'y a pas de fluctuations cycliques, il convient de commencer à modéliser la tendance. S'il existe également des fluctuations cycliques dans la série chronologique, il faut tout d'abord exclure la composante cyclique et ensuite seulement commencer à modéliser la tendance.

La construction d'une fonction analytique pour modéliser la tendance d'une série chronologique est appelée alignement analytique de la série chronologique. La tendance au fil du temps peut prendre formes différentes, les fonctions suivantes sont utilisées pour le formaliser :

Linéaire: ;

Polynôme : , où
un 1- augmentation linéaire, un 2- accélération de la croissance, un 3- évolution de l'accélération de la croissance ;

Hyperbole: ;

Tendance exponentielle : (ou ), où UN- Premier niveau, e b- taux de croissance moyen par unité de temps ;

Tendance de puissance : .

Les paramètres de chaque tendance peuvent être déterminés par la méthode des moindres carrés ordinaires, en utilisant le temps comme variable indépendante. t, et comme variable dépendante – les niveaux réels de la série chronologique yt. Pour les tendances non linéaires, une procédure de linéarisation standard est d'abord effectuée.

Pour identifier une tendance polynomiale, on utilise la méthode des différences successives qui consiste à calculer les différences successives Δt àà k = 1, 2,…,n :

Δt = yt- y t-1 ; Δt 2 = Δt- Δt-1 ;… ; Δt k = Δt (k-1) – Δ(t-1) (k-1) .

Si toutes les augmentations absolues sont approximativement les mêmes Δt, alors nous avons une tendance linéaire ; si accélérations absolues Δt 2, alors la tendance est une parabole. Analyse du taux de croissance de la chaîne K t = y t /y t-1 vous permet d'identifier la présence d'une tendance exponentielle ou de loi de puissance.

Exemple 3. Soit des données (tableau 10) sur le volume de consommation d'électricité des habitants de la zone pour 16 trimestres, m kWh :

Tableau 10

t yt t yt
4,4 5,6
6,4
7,2
4,8 6,6
10,8

Requis:

1. Construisez un graphique de série chronologique et déterminez la fonction d’autocorrélation. Déterminez les composantes d’une série chronologique.

2. Si la série contient une composante saisonnière, identifiez-la et éliminez-la à l'aide de méthodes statistiques en construisant un modèle additif.

En sous-section 10.2, un modèle linéaire à un facteur a été envisagé. Mais le plus souvent, le naturel et phénomènes sociaux ne dépend pas d’un seul mais de plusieurs facteurs. La dépendance de corrélation d'une caractéristique effective sur plusieurs caractéristiques factorielles est appelée équation de régression multiple. Considérons un modèle multifactoriel linéaire ; les modèles curvilignes peuvent souvent s'y réduire.

Les principales tâches rencontrées lors de la construction d'une équation de régression multiple sont :

  • 1) il est nécessaire de sélectionner les signes facteurs qui ont la plus grande influence sur le signe de la conséquence ;
  • 2) choisissez le bon modèle de régression.

Si ces points sont exécutés correctement, le reste est une question de technique. Nous envisageons actuellement une régression multivariée linéaire, nous n'avons donc pas à choisir un modèle ; nous devons simplement décider du nombre d'attributs de facteurs qui influencent l'attribut de conséquence. La solution au premier problème repose sur la considération de la matrice de coefficients de corrélation appariés (cela sera discuté ci-dessous). Des coefficients partiels de détermination pour chaque caractéristique factorielle sont également pris en compte. Leurs valeurs indiquent le pouvoir explicatif de chacune des caractéristiques factorielles. Notez que l'équation de régression multivariée doit être aussi simple que possible. Comment type plus simpleéquation, plus l’interprétation des paramètres qu’elle contient est évidente et meilleure est son utilisation à des fins d’analyse et de prévision. Par conséquent, ils utilisent le plus souvent une équation de régression multiple linéaire, qui a la forme

Paramètres 2, ..., un t, b des équations de régression multiples (10.55) peuvent être trouvées en utilisant ME. Ensuite, à l’aide d’une analyse de corrélation, l’adéquation du modèle résultant est vérifiée et, si le modèle est adéquat, son interprétation est effectuée. Ceci est fait s'il est connu à l'avance, par exemple, sur la base de recherches antérieures, que toutes les principales caractéristiques-facteurs qui influencent la caractéristique résultante sont prises en compte (nous ne parlons pas de choix du type de modèle, puisque pour nous ne considérons maintenant qu'un modèle linéaire).

Si l'on n'est pas sûr que toutes les caractéristiques factorielles ont été prises en compte, ou, à l'inverse, que celles qui sont inutiles ont été prises en compte, on procède d'abord à une analyse de corrélation (on retrouve des coefficients de corrélation appariés, des coefficients de corrélation partiels, un coefficient de corrélation multiple agrégé ), puis, après avoir affiné le modèle, nous construisons une régression MCO à équations linéaires multiples.

Montrons comment les paramètres sont trouvés un v un 2, ..., un t, béquations de régression (10.55) utilisant les MCO. La condition des moindres carrés dans ce cas a la forme

Maintenant, nous remplaçons (10,55) par (10,56) et obtenons

Écrivons maintenant les conditions nécessaires pour l'extremum d'une fonction contenant (m + 1) variables (un V un 2 ,..., une t, b).

Trouver des dérivées partielles de la fonction F par rapport à des paramètres inconnus une 1, une 2, une t, b et on obtient ce qui suit :

Après avoir transformé le système (10.59), nous obtenons ce qu'on appelle le système d'équations normales :

En résolvant le système d'équations normales (10.60) (elles sont linéaires), nous déterminons les paramètres inconnus du modèle de régression linéaire multiple : un v un 2, ..., une t, b. Bien entendu, la solution du système s'effectue sur PC, par exemple, à l'aide de la méthode Gauss ou d'une de ses modifications (si le nombre de paramètres inconnus ne dépasse pas plusieurs centaines). Si le nombre de paramètres requis est de plusieurs milliers, vous pouvez utiliser des méthodes itératives pour résoudre le système d'équations normales (10.60), par exemple la méthode Jacobi ou la méthode Seidel.

Après avoir trouvé les paramètres inconnus de l’équation de régression linéaire multiple, il est nécessaire de vérifier son adéquation à l’aide d’une analyse de corrélation.

Étant donné que la caractéristique effective étudiée n'est pas influencée par une caractéristique factorielle, mais par plusieurs (T. caractéristiques factorielles), alors se pose la tâche de mesurer isolément l'étroitesse du lien entre la caractéristique effective et chacune des caractéristiques factorielles, ainsi que la tâche de déterminer l'étroitesse du lien entre la caractéristique effective et toutes les caractéristiques factorielles incluses dans le modèle de régression multiple.

Lorsque l'on considère un modèle linéaire à un facteur, nous trouvons un coefficient de corrélation apparié (ou plutôt son estimation) entre la caractéristique de conséquence et la caractéristique du facteur. Dans le cas d'un modèle linéaire multiple, le nombre de coefficients de corrélation deux à deux sera égal à :

où C (2 m+1) est le nombre de combinaisons de (m + 1) par deux, et (ha +1) ! - se lit (ha + 1) factorielle et est égal à : (ga + 1) ! = 1-2-...-ha(ha + 1). Notez que 0! = 1. Tous les coefficients de corrélation de paires sont calculés à l'aide de la formule (10.15) (ils sont également appelés coefficients d'ordre zéro).

Il est pratique d'écrire les coefficients de corrélation de paires trouvés sous la forme d'une matrice de coefficients de corrélation de paires. Rappelons qu'une matrice est un tableau rectangulaire contenant quelques objets mathématiques, en dans ce cas coefficients de corrélation par paires. Le nombre de lignes et de colonnes de la matrice de coefficients de corrélation de paires sera égal, c'est-à-dire qu'elle sera carrée. Puisque le coefficient de corrélation de paire est une mesure symétrique de connexion (f i; - = at je*j), alors la matrice des coefficients de corrélation s'écrit soit sous la forme d'une triangulaire supérieure, soit inférieure, sur la diagonale principale de laquelle se trouvent des unités, puisque, etc. Par conséquent, la matrice des coefficients de corrélation par paires (coefficients d'ordre zéro) a la forme :


Sur la base des coefficients d'ordre zéro (voir (10.61)), on peut trouver des coefficients de corrélation partielle du premier ordre si la corrélation avec une variable est éliminée. Par exemple,

Dans la formule (10.62) on exclut l'influence du signe X.

Sur la base des coefficients de corrélation partielle de premier ordre, les coefficients de corrélation partielle de second ordre sont déterminés. Dans ce cas, la corrélation avec deux variables est éliminée, par exemple :

Dans la formule (10.63), nous avons exclu l'influence des facteurs x2 et x3. Sur la base des coefficients de corrélation partielle du deuxième ordre, des coefficients de corrélation partielle du troisième ordre sont trouvés, etc. Les coefficients de corrélation partielle sont des mesures dépendance linéaire et prendre des valeurs de -1 à 1. Le carré du coefficient de corrélation partielle est appelé coefficient de détermination partielle.

Un indicateur de l'étroitesse du lien qui s'établit entre le symptôme-conséquence et les caractéristiques du facteur (T. caractéristiques des facteurs) est le coefficient de corrélation multiple cumulé K yX]X2 ... Xt. Si les coefficients de corrélation des paires sont connus, alors ils peuvent être trouvés à l'aide de la formule :

Coefficient de corrélation multiple cumulé au carré Ry X X x, appelé coefficient cumulatif de détermination multiple, montre quelle proportion de la variation de la caractéristique résultante s'explique par l'influence des caractéristiques factorielles incluses dans l'équation de régression multiple. Valeurs possibles -R yX]X2 ... Xm et Ch x x x peut être dans le segment. Par conséquent, plus on se rapproche Ø Xg x 2 _ xà l'unité, la variation de la caractéristique résultante est davantage caractérisée par l'influence des caractéristiques factorielles prises en compte.

Regardons de plus près cas particulier régression multiple linéaire - régression linéaire à deux facteurs et donnez un exemple numérique spécifique.

L'équation de régression linéaire à deux facteurs s'écrit comme suit :

où sont les valeurs calculées de la caractéristique résultante ;

x et, x 2.- les valeurs des caractéristiques factorielles obtenues à la suite d'une observation statistique ;

une v une 2, b- paramètres de l'équation de régression à déterminer.

Pour trouver les paramètres d’une équation de régression de la forme (10.65), on utilise les moindres carrés. La condition OLS dans ce cas a la forme :

La fonction (10.66) est une fonction de trois arguments indépendants : une v une 2, b.Écrivons-le condition nécessaire extremum de cette fonction :

Après avoir trouvé les dérivées partielles, nous avons :

Après transformation du système (10.68), on obtient un système d'équations normales :

Pour résoudre le système (10.69), nous utilisons la méthode de Cramer (vous pouvez en savoir plus sur la méthode de Cramer, par exemple, dans ). Pour trouver une solution au système (10.69), la méthode de Gauss peut également être utilisée.

Tout d'abord, on trouve le déterminant du système, qui ne doit pas être égal à zéro :

Déterminants Un V A, A 3 sont décrits de la même manière que le déterminant de A (ces développements ne sont pas donnés pour ne pas encombrer la conclusion).

Connaissant la valeur des déterminants A, A x, D 2, A, on retrouve les paramètres recherchés de l'équation de régression à l'aide des formules suivantes :

Trouvons maintenant les coefficients de corrélation de paire (coefficients d'ordre zéro), leur nombre sera égal à

Par conséquent, la matrice des coefficients de corrélation de paires (10.61) aura dans ce cas la forme :

Dans notre cas, les coefficients de corrélation par paires sont trouvés à l'aide des formules :

Et les covariances (moments de corrélation) se trouvent à partir des expressions :


Les coefficients de corrélation partielle de premier ordre dans ce cas sont trouvés à l'aide des formules suivantes :

g est déterminé par la formule déjà donnée (10.62)


(dans cette formule, l'influence de l'attribut facteur a^ est exclue).


(dans cette formule l'influence du signe résultant est exclue y).

Maintenant, à l'aide de la formule (10.64), nous déterminons le coefficient de corrélation multiple total. Pour le cas d'un modèle linéaire à deux facteurs, la formule (10.64) prendra la forme :

Comme déjà mentionné, la valeur CHUT]H. 2 appelé coefficient cumulatif de détermination multiple. Il montre quelle partie de la variance de la caractéristique résultante à s’explique par deux caractéristiques factorielles prises en compte et x2. A noter qu'à partir de coefficients de corrélation appariés et d'écarts types, il est possible de déterminer les paramètres d'un modèle de régression linéaire à deux facteurs de la forme (10.65) (voir par exemple).

Donnons maintenant un exemple numérique spécifique. Pour ce faire, nous utilisons les données initiales de l'exemple 10.2. Mettons ces données dans le tableau. 10.12.

D'après le tableau. 10.12 on calcule les coefficients du système d'équations normales (10.69) :


Tableau 10.12

Crimes (y())

Vol d'armes

Infractions administratives (x,.)

Par conséquent, le système d'équations normales (10.69) a la forme :

Nous résolvons le système résultant (10.76) en utilisant la méthode de Cramer :

Maintenant, à l'aide des formules (10.70), nous trouvons les paramètres requis de l'équation de régression :

Par conséquent, nous obtenons l’équation de régression linéaire à deux facteurs suivante.