Homoskedastic - KamilTaylan.blog
1 mai 2021 15:01

Homoskedastic

Ce este Homoskedastic?

Homoskedastic (numit și „homoscedastic”) se referă la o condiție în care varianța termenului rezidual sau de eroare, într-un model de regresie este constantă. Adică, termenul de eroare nu variază prea mult pe măsură ce se modifică valoarea variabilei predictive. Un alt mod de a spune acest lucru este că varianța punctelor de date este aproximativ aceeași pentru toate punctele de date. Acest lucru sugerează un nivel de consistență și facilitează modelarea și lucrul cu datele prin regresie. Cu toate acestea, lipsa homoscedasticității poate sugera că modelul de regresie ar putea avea nevoie să includă variabile predictive suplimentare pentru a explica performanța variabilei dependente.

Chei de luat masa

  • Homoskedasticitatea apare atunci când varianța termenului de eroare într-un model de regresie este constantă. 
  • Dacă varianța termenului de eroare este homoskedastică, modelul a fost bine definit. Dacă există prea multe varianțe, este posibil ca modelul să nu fie bine definit. 
  • Adăugarea de variabile predictive suplimentare poate ajuta la explicarea performanței variabilei dependente.
  • În mod opus, heteroskedasticitatea apare atunci când varianța termenului de eroare nu este constantă.

Cum funcționează Homoskedasticitatea

Homoskedasticitatea este o presupunere a modelării regresiei liniare și datele de acest tip funcționează bine cu metoda celor mai mici pătrate. Dacă varianța erorilor din jurul liniei de regresie variază foarte mult, modelul de regresie poate fi slab definit. Opusul homoskedasticității este heteroskedasticitatea la fel cum opusul „omogen” este „eterogen”. Heteroskedasticitatea (scrisă și „heteroscedasticitatea”) se referă la o condiție în care varianța termenului de eroare într-o ecuație de regresie nu este constantă.



Atunci când se consideră că varianța este diferența măsurată între rezultatul prezis și rezultatul real al unei situații date, determinarea homoscedasticității poate ajuta la determinarea factorilor care trebuie reglați pentru acuratețe.

consideratii speciale

Un model de regresie simplu, sau ecuație, constă din patru termeni. În partea stângă este variabila dependentă. Reprezintă fenomenul pe care modelul încearcă să-l „explice”. În partea dreaptă sunt o constantă, o variabilă predictivă și un termen rezidual sau de eroare. Termenul de eroare arată cantitatea de variabilitate a variabilei dependente care nu este explicată de variabila predictor.

Exemplu de Homoskedastic

De exemplu, să presupunem că ați dorit să explicați scorurile testelor elevilor folosind timpul petrecut de fiecare student la studiu. În acest caz, scorurile testelor ar fi variabila dependentă, iar timpul petrecut în studiu ar fi variabila predictivă. 

Termenul de eroare ar arăta cantitatea de varianță a scorurilor testelor care nu a fost explicată de timpul studiat. Dacă varianța respectivă este uniformă sau homoskedastică, atunci acest lucru ar sugera că modelul poate fi o explicație adecvată pentru performanța testului – explicându-l în termeni de timp petrecut la studiu.

Dar varianța poate fi heteroskedastică. Un grafic al datelor privind termenul de eroare poate arăta că o cantitate mare de timp de studiu corespundea foarte strâns cu scorurile ridicate ale testelor, dar că scorurile reduse ale testelor de timp variau foarte mult și chiar includeau unele scoruri foarte mari. Deci varianța scorurilor nu ar fi bine explicată pur și simplu printr-o singură variabilă predictivă – cantitatea de timp studiată. În acest caz, este posibil ca un alt factor să funcționeze, iar modelul ar putea fi necesar să fie îmbunătățit pentru a-l identifica.

O investigație ulterioară poate dezvălui faptul că unii studenți au văzut din timp răspunsurile la test sau că au susținut anterior un test similar și, prin urmare, nu au trebuit să studieze pentru acest test. De altfel, se poate dovedi că elevii au avut diferite niveluri de abilități de promovare a testelor, independent de timpul lor de studiu și de performanța lor la testele anterioare, indiferent de subiect.

Pentru a îmbunătăți modelul de regresie, cercetătorul ar trebui să încerce alte variabile explicative care ar putea oferi o potrivire mai exactă a datelor. Dacă, de exemplu, unii studenți ar fi văzut răspunsurile din timp, modelul de regresie ar avea atunci două variabile explicative: timpul de studiu și dacă elevul a avut cunoștințe prealabile despre răspunsuri. Cu aceste două variabile, s-ar explica o mai mare parte a varianței scorurilor testului, iar varianța termenului de eroare ar putea fi apoi homoskedastică, sugerând că modelul a fost bine definit.