Regresie în trepte - KamilTaylan.blog
1 mai 2021 22:18

Regresie în trepte

Ce este regresia în trepte?

Regresia în trepte este construcția iterativă pas cu pas a unui model de regresie care implică selectarea variabilelor independente pentru a fi utilizate într-un model final. Aceasta implică adăugarea sau eliminarea unor variabile explicative potențiale succesive și testarea semnificației statistice după fiecare iterație.

Disponibilitatea pachetelor software statistice face posibilă regresia în trepte, chiar și la modelele cu sute de variabile.

Chei de luat masa

  • Regresia în trepte este o metodă care examinează iterativ semnificația statistică a fiecărei variabile independente într-un model de regresie liniară.
  • Abordarea de selecție directă începe cu nimic și adaugă fiecare nouă variabilă în mod incremental, testând semnificația statistică.
  • Metoda de eliminare inversă începe cu un model complet încărcat cu mai multe variabile și apoi elimină o variabilă pentru a testa importanța acesteia în raport cu rezultatele globale.
  • Cu toate acestea, regresia în trepte are dezavantajele, deoarece este o abordare care încorporează datele într-un model pentru a obține rezultatul dorit.

Tipuri de regresie în trepte

Scopul de bază al regresiei în trepte este, printr-o serie de teste (de exemplu, teste F, teste t ) să se găsească un set de variabile independente care influențează semnificativ variabila dependentă. Acest lucru se face cu computerele prin iterație, care este procesul de a ajunge la rezultate sau decizii prin parcurgerea unor runde repetate sau cicluri de analiză. Efectuarea testelor în mod automat cu ajutorul pachetelor software statistice are avantajul de a economisi timp și de a limita greșelile.

Regresia în trepte poate fi realizată fie încercând o variabilă independentă la un moment dat și incluzând-o în modelul de regresie dacă este semnificativă statistic, fie prin includerea tuturor variabilelor independente potențiale în model și eliminarea celor care nu sunt semnificative statistic. Unii folosesc o combinație a ambelor metode și, prin urmare, există trei abordări ale regresiei în trepte:

  1. Selecția directă începe fără variabile în model, testează fiecare variabilă pe măsură ce este adăugată la model, apoi păstrează cele care sunt considerate cele mai semnificative statistic – repetând procesul până când rezultatele sunt optime.
  2. Eliminarea înapoi începe cu un set de variabile independente, ștergând una câte una, apoi testând pentru a vedea dacă variabila eliminată este semnificativă statistic.
  3. Eliminarea bidirecțională este o combinație a primelor două metode care testează variabilele care ar trebui incluse sau excluse.

Exemplu

Un exemplu de regresie treptată care utilizează metoda de eliminare înapoi ar fi o încercare de a înțelege utilizarea energiei într-o fabrică folosind variabile precum timpul de funcționare al echipamentului, vârsta echipamentului, dimensiunea personalului, temperaturile exterioare și perioada anului. Modelul include toate variabilele – apoi fiecare este eliminată, una câte una, pentru a determina care este cea mai puțin semnificativă statistic. În cele din urmă, modelul ar putea arăta că perioada anului și temperaturile sunt cele mai semnificative, sugerând posibil consumul maxim de energie din fabrică atunci când utilizarea aparatului de aer condiționat este la maxim. 

Limitări ale regresiei în trepte

Analiza de regresie, atât rapoartele preț-câștiguri și la randamentele stocurilor pe mai mulți ani pentru a determina dacă stocurile cu rapoarte P / E scăzute (variabilă independentă) oferă randamente mai mari (variabilă dependentă). Problema cu această abordare este că condițiile pieței se schimbă adesea și relațiile care au avut loc în trecut nu sunt valabile neapărat în prezent sau în viitor.

Între timp, procesul de regresie treptată are multe critici și există chiar apeluri pentru a nu mai folosi metoda cu totul. Statisticienii observă mai multe dezavantaje ale abordării, inclusiv rezultate incorecte, o prejudecată inerentă în procesul în sine și necesitatea unei puteri de calcul semnificative pentru a dezvolta modele de regresie complexe prin iterație.