% La zona B2:D113 del foglio dati del file Excel contiene i punteggi di tre % test (d'intelligenza) sostenuti da 112 studenti. Importare i dati dentro % MATLAB. % Dopo aver standardizzato i dati: % 1) calcolare le distanze euclidee dal centroide per ogni unità utilizzando un ciclo for % e la formula (z_i' z_i) i=1, 2, ...., n % 2) calcolare le distanze euclidee dal centroide senza cicli for % 3) Calcolare la matrice di correlazione R utilizzando le formule % matriciali Z'Z/(n-1) % 4) calcolare le distanze di Mahalanobis dal centroide. % sqrt z_i R^-1 z_i , ................... i=1, 2, .... n % % Discutere se in questo esempio è preferibile lavorare con le distanze % euclidee oppure con le distanze di Mahalanobis. Dire come sarebbero % cambiate le distanze di Mahalanobis se avessimo operato sui dati % originari (non standardizzati) ed avessimo utilizzato la matrice di % covarianze anziché la matrice di correlazione. % (x_i -xmedio)' S^-1 (x_i-xmedio) i=1, 2, .... n % Standardizzare i dati tramite la mediana ed il MAD % a) utilizzando un doppio ciclo for % b) utilizzando un solo ciclo for riferito alle colonne % c) senza cicli for % d) utilizzando le formule di espanzione esplicita % e) utilzzando la funzione zscoreFS dell'FSDA toolbox. % La funzione zscoreFS per default utilizza il MAD riscalato % Mad riscalato = norminv(3/4,0,1) * MAD % Sui dati standardizzati in maniera robusta calcolare % la matrice di correlazione tramite la funzione corr. Come cambia % la matrice di correlazione rispetto a quella calcolata al punto 3) % % Calcolare le % distanze di Mahalanobis dal centroide robusto. % sqrt z_i R^-1 z_i , % ................... i=1, 2, .... n % Costruire il boxplot delle distanze di Mahalanobis al quadrato. % Considerare come outliers gli studenti che presentano una distanza (al % quadrato) di Mahalanobis superiore alla soglia x075+3 DI dove DI è la % differenza interquartile e x075 è il terzo quartiile delle distanze di % Mahalanobis al quadrato. % Rappresentare le righe della matrice dei dati tramite facce oppure % stelle. Commentare i risultati ottenuti. % % Costruire la scatter plot matrix utilizzando un simbolo diverso le due % unità dichiarate anomale % Costruire un boxplot bivariato robusto (funzione boxplotb) tra le variabili 1 e 3 % utilizzando un coefficiente di espansione uguale a 2.5 % Eliminare dalla matrice dei dati le righe identificate come anomale. % Calcolare la matrice dei diagrammi di dispersione inserendo sulla % diagonale principale i grafici ad istogrammi. Commentare i risultati % ottenuti. % Sulla matrice ripulita dai valori anomali, dopo aver standardizzato i % dati, ridurre le dimensioni tramite la tecnica delle componenti % principali. % Discutere il numero appropriato di dimensioni da considerare. Calcolare % le comunalità utilizzando solo la prima componente principale. % % Costuire il biplot inserendo sull'asse delle ascisse un titolo % appropriato. Individuare lo studente più intelligente e quello meno % intelligente nel grafico e commentare i risultati.