Suprapunere
Ce este suprasolicitarea?
Suprapunerea este o eroare de modelare în statistici care apare atunci când o funcție este prea strâns aliniată la un set limitat de puncte de date. Ca rezultat, modelul este util doar cu referire la setul său de date inițiale și nu la alte seturi de date.
Dotarea excesivă a modelului ia în general forma realizării unui model excesiv de complex pentru a explica idiosincrasiile din datele studiate. În realitate, datele deseori studiate au un anumit grad de eroare sau zgomot aleatoriu. Astfel, încercarea de a face modelul să se conformeze prea strâns cu datele ușor inexacte poate infecta modelul cu erori substanțiale și poate reduce puterea sa predictivă.
Chei de luat masa
- Suprapunerea este o eroare care apare în modelarea datelor ca urmare a unei anumite funcții care se aliniază prea strâns la un set minim de puncte de date.
- Profesioniștii din domeniul financiar sunt expuși riscului de a adapta excesiv un model bazat pe date limitate și de a ajunge la rezultate defecte.
- Atunci când un model a fost compromis prin supradaptare, modelul își poate pierde valoarea ca instrument predictiv pentru investiții.
Înțelegerea suprasolicitării
De exemplu, o problemă obișnuită este utilizarea algoritmilor computerizați pentru a căuta baze de date extinse cu date istorice ale pieței pentru a găsi modele. Având în vedere suficient studiu, este adesea posibil să se dezvolte teoreme elaborate care par să prezică lucruri, cum ar fi randamentele pe piața bursieră cu o acuratețe strânsă.
Cu toate acestea, atunci când sunt aplicate datelor din afara eșantionului, astfel de teoreme se pot dovedi a fi doar suprapunerea unui model la ceea ce în realitate erau doar întâmplări întâmplătoare. În toate cazurile, este important să testați un model în raport cu datele care se află în afara eșantionului utilizat pentru a-l dezvolta.
Cum să preveniți suprasolicitarea
Modalitățile de prevenire a supraadaptării includ validarea încrucișată, în care datele folosite pentru instruirea modelului sunt tăiate în pliuri sau partiții și modelul este rulat pentru fiecare pliere. Apoi, se calculează media estimării erorii generale. Alte metode includ asamblarea, în care predicțiile sunt combinate din cel puțin două modele separate, mărirea datelor, în care setul de date disponibil este făcut să arate divers și simplificarea datelor, în care modelul este raționalizat, astfel încât să se evite supraadaptarea.
Profesioniștii financiari trebuie să fie întotdeauna conștienți de pericolele suprapunerii unui model bazat pe date limitate.
Exemplu de overfitting
Suprapunerea este, de asemenea, un factor în învățarea automată. S-ar putea să apară atunci când o mașină a fost învățată să scaneze anumite date într-un fel, dar atunci când același proces este aplicat unui nou set de date, rezultatele sunt incorecte. De exemplu, o universitate care vede o rată de abandon școlar care este mai mare decât ceea ce și-ar dori, decide că dorește să creeze un model pentru a prezice probabilitatea ca un solicitant să ajungă până la absolvire. Pentru a face acest lucru, universitatea pregătește un model dintr-un set de date de 5.000 de solicitanți și rezultatele acestora. Apoi rulează modelul pe setul de date original – grupul de 5.000 de solicitanți – și modelul prezice rezultatul cu o precizie de 98%. Dar pentru a testa acuratețea acestuia, ei rulează modelul și pe un al doilea set de date – încă 5.000 de solicitanți. Cu toate acestea, de data aceasta, modelul are o precizie de doar 50%, deoarece modelul se potrivea prea mult cu un subset de date îngust, în acest caz, primele 5.000 de aplicații.