%% PARTE I % Il foglio "dati" del file Excel test2019SDE.xlsx contiene le risposte % derivanti da un questionario riguardante la marca di pasta utilizzata da % un insieme di consumatori appartenenti a 5 regioni italiane. Un campione % casuale di 1200 individui ha risposto alla seguente domanda: quale tipo di % pasta utilizzi (PASTA)? Pasta di marca commerciale (A) Pasta di marca % industriale (B) La prima che mi capita è indifferente (C). % % Obiettivo: analizzare l'associazione tra il tipo di pasta utilizzato % prevalentemente e la regione di appartenenza. % % % Calcolare e interpretare gli indici Chi quadrato, Cramer e l'indice % tau di riduzione propozionale dell'eterogeneità. Interpretare gli % intervalli di confidenza degli indici di cui sopra. Creare e commentare il % grafico di analisi delle corrispondenze tra le variabili pasta e regione. % Inserire come titolo del grafico 'Cognome Nome Matricola' % % Commentare le caratteristiche dei punti colonna (output OverviewCols) % Commentare la proporzione degli intervistati della Lombardia. Individuare % la regione più distante dal profilo medio. Discutere la relazione tra la % colonna inerzia di ogni punto colonna e l'inerzia totale. Individuare il % punto colonna (punto dominante) che spiega meglio l'inerzia della prima % dimensione. Individuare i due punti colonna che spiegano meglio l'inerzia % della seconda dimensione. Discutere la quota di varianza dell'inerzia del % Piemonte e della Lomabrdia spiegata dalle prime due dimensioni. Collegare % la spiegazione alla posizione di queste due regioni nel grafico. % %% PARTE II % Fissare il seed dei numeri casuali a 100 % # Generare una matrice di numeri casuali Y di dimensione 300x3 dalla v.c. normale % con media 2 e varianza 10. % # Calcolare i boxplot per ogni colonna della matrice (commentare il risultato % ottenuto) % # Costruire la scatterplot matrix. Commentare i risultati. % # Calcolare la matrice dei coefficienti di cograduazione. Quali valori ci % attediamo? % # Rappresentare le 300 unità tramite facce e tramite stelle % # Calcolare le componenti principali sulle variabili standardizzate e determinare % la quota di varianza spiegata dalle prime due componenti. % %% PARTE III % % # Data una matrice quadrata A di dimensione n (n numero intero positivo a % piacere) generata con numeri provenienti dalla distribuzione uniforme, creare % una seconda matrice B avente la stessa dimensione di A, contenente una copia % degli elementi di A se questi sono maggiori del valore contenuto in una variabile % denominata x, oppure il numero 0.2 se questi sono minori o uguali al valore di % x % # Data la matrice A=magic(6). Calcolare una nuova matrice B che ha gli stessi % elementi di A al di sotto della diagonale principale e elementi uguali alla % media degli elementi di A sopra la diagonale principale. % # Generare una matrice di numeri casuali dalla distribuzione normale standardizzata di % dimensione 100x2. Calcolare la distanza Euclidea e la distanza di % Mahalanobis di ogni unità dal centroide. Calcolare e commentare il % coefficiente di correlazione tra i vettori delle due distanze. % % %% Caricamento dati Y = readtable('test2019SDE.xlsx', 'Sheet','dati','range','A1:B1201'); % Creo la tabella di contingenza tra le variabili Pasta e Regione [N,chi2,pvalchi2,labels] =crosstab(Y.Pasta,Y.Regione); % Calcolo degli indici di associazione corrNominal(N) % L'indice di Cramer indica che l'associazione tra le due variabili è circa % il 63 per cento del valore massimo possibile % % L'indice tau di Goodman e Kruskall (tauyx) indica che la conoscenza del % tipo di marca di pasta acquistata riduce del 18.6 circa l'eterogeneità % nella previsione della regione di appartenenza (se l'eterogeneità è % sintetizzata tramite l'indice di Gini). % Analisi delle corrispondenze e relativo grafico [r,c]=size(N); out=CorAna(N,'Lr',labels(1:r,1),'Lc',labels(1:c,2)); title('Riani Marco 051485') % Commento: % Dato che il minino tra r e c è 3 le prime due dimensioni latenti spiegano % il 100 per cento dell'inerzia totale. La prima dimensione latente spiega % circa il 60% dell'inerzia totale. La prima dimensione latente può essere % interpretata come la propensione ad utilizzare la marca commerciale I % residenti del Piemonte tendono a consumare prevalentemente la pasta di % marca industriale I residenti della Toscana tendono a consumare % prevalentemente la pasta di marca commerciale I residenti della Lombardia % e del Veneto tendono a consumare prevalentemente la pasta che capita % Commento di out.OverviewCols % % La proporzione degli intervistati della Lombardia è il 47% del totale La % regione più distante dal profilo medio è il Piemonte La somma della % colonna Inertia è l'inerzia totale Il punto colonna (punto dominante) che % spiega meglio l'inerzia della prima dimensione è dato dal Piemonte % (0.529449) I punti colonna che spiegano meglio l'inerzia della seconda % dimensione sono dati dal Veneto e dalla Toscana L'inerzia del Piemonte è % spiegata per l'84% circa dalla prima dimensione e per il 16% circa dalla % seconda. SI noti infatti che nel grafico delle corrispondenze il Piemonte % è molto più distante dall'origine rispetto alla coordinata orizzontale % che rispetto alla coordinata verticale % La situazione della Lombardia è opposta: questa nazione presenta una % coordinata sull'asse delle ascisse vicina a zero. L'inerzia della % Lombardia è spiegata quasi interamente dalla seconda dimensione latente %% % PARTE II rng(100) n=300; p=3; Y=sqrt(10)*randn(n,p)+2; %% 2 boxplot boxplot(Y) % distribuzione simmetrica con qualche outlier isolato %% 3 scatter plot matrix gplotmatrix(Y) % Le variabili sono state generate in maniera indipendente. La disposizioen % dei punti nei diversi diagrammi di dispersione è sferica. %% 4 matrice dei coeff di cograd e relativi pvalues % Le variabili sono state generate in maniera indipendente di conseguenza % ci attendiamo dei coefficienti di cograduzione vicini a zero (non % significativi) [cor,pval]=corr(Y,'type','Spearman'); % Ci attendiamo valori vicini a zero per cor % Ci attendiamo valori superiori a 0.05 per pval %% 5 facce e stelle glyphplot(Y,'glyph','face') glyphplot(Y) %% 6 comp prin sulle variabili standardizzate [coeff,score,latent,tsquared,explained]=pca(zscore(Y)); disp('Quota percentuale di varianza spiegata dalle prime due CP') sum(explained(1:2)) %% % PARTE III %% DOM 2 n=5; % Inizializzo A con una matrice di numeri casuali dalla variabile casuale % uniforme A=rand(n,n); B=A; x=0.6; B(A>x)=0.2; %% DOM 3 % Inizializzo A con una matrice di numeri casuali dalla variabile casuale % uniforme A=magic(6); meanA=mean(A(:)); n=size(A,1); B=A; for j=1:n for i=1:n if j>i B(i,j)=meanA; end end end %% distanze Euclidee e di Mahalanobis n=100; Y=randn(n,2); cent=mean(Y); Sm=inv(cov(Y)); disteucl=zeros(n,1); distmal=zeros(n,1); for i=1:n disteucl(i)=sqrt(sum((Y(i,:)-cent).^2)); distmal(i)=sqrt((Y(i,:)-cent)*Sm*( (Y(i,:)-cent)')); end corr(disteucl,distmal) % Ci attendiamo una correlazione elevata dato che le variabili sono tra lo % ro indipendenti e la matrice di covarianze è molto vicina all'identità.