%% ESERCIZIO I % Caricare il dataset smoke.mat presente dentro FSDA. Costruire la tabella % di contingenza tra le due variabili "profession" e "smoke_frequency". La % variabile profession è qualitativa ed indica il tipo di professione. La % variabile smoke_frequency è qualitativa e si riferisce all'attitudine % verso il fumo. Denominare la tabella di contingenza con le prime 4 % lettere del proprio cognome (senza accenti). Effettuare un'analisi delle % corrispondenze tra le due variabili di cui sopra e commentare il grafico. % Aggiungere come titolo del grafico il proprio cognome ed il numero di % matricola. Utilizzando la funzione CorAnaplot costruire il grafico di % analisi delle corrispondenze in modo tale che il colore delle etichette % dei punti COLONNA (attenzione punti colonna non punti riga) sia % proporzionale alla comunalità (quota di inerzia spiegata) di ogni punto. % Discutere la differenza in termini di inerzia spiegata tra i punti % colonna "None" e "Medium". %% ESERCIZIO II % Generare una matrice di dati di dimensione 100x4 (4 variabili X1, X2, X3 % e X4) con le seguenti caratteristiche. Correlazione tra X1 ed X2 inversa % molto elevata (vicina a -0.9). X1 e X3 con correlazione vicino a zero. % Correlazione diretta molto elevata tra X1 e X4. Un valore anomalo % eccezionalmente piccolo per X4. Calcolare la matrice di correlazione per % verificare che le 4 variabili presentino le correlazioni richieste. % Rappresentare la matrice dei diagrammi di dispersione inserendo i boxplot % sulla diagonale principale. Creare il grafico in coordinate parallele e % commentarlo. %% ESERCIZIO III % Caricare in memoria il dataset citiesItaly.mat presente in FSDA. % Effettuare un'analisi in componenti principali utilizzando le 3 variabili % addedval, depos e unemploy. % % addedval = Indicatore di valore aggiunto % depos = Indicatore relativo ai depositi bancari. % unemploy = Indicatore relativo al tasso di disoccupazione. % % TUTTE LE ANALISI CHE SEGUONO IN QUESTO ESERCIZIO SI RIFERISCONO AL % DATASET CHE CONTIENE SOLO LE TRE VARIABILI MENZIONATE SOPRA. % % Selezionare un numero di componenti principali che spieghino almeno il 95 % per cento della varianza totale delle tre variabili originarie. % Interpretare le prime due componenti principali. Dall'esame del biplot, % quali sono le province caratterizzate da elevati livelli di unemploy? % Qual è il quadrante associato alla più elevata qualità della vita? % Calcolare la matrice che rappresenta la miglior rappresentazione di rango % 1 (Zhat) della matrice originaria in termini di scostamenti % standardizzati (Z). Calcolare la somma dei quadrati delle differenze tra % la matrice Z e la matrice Zhat. Calcolare e mostrare il contributo della % città di Milano alla determinazione della varianza della prima componente % latente. Calcolare e mostrare la comunalità della variabile unemploy. % Applicare alla matrice dei dati standardizzati, il metodo di clustering % delle k medie imponendo 2 gruppi. Utilizzare un numero di repliche pari a % 50. Interpretare i due gruppi che sono stati ottenuti. % %% Domanda facoltativa % % Rappresentare i gruppi trovati ed i relativi centroidi nello spazio delle % prime due componenti principali e commentare i risultati ottenuti. % rappresentazioni dei gruppi nello spazio delle prime due componenti % principali