Materiale da scaricare per le
ultime settimane (file data science with MATLAB)
(versione
24/11/2021)
LIBRI DI TESTO
Zani S. e Cerioli A. (2007). Analisi dei dati e data mining per le decisioni aziendali, Giuffrè editore, Milano.
Programma del corso
CAPITOLO I del testo
CAPITOLO II del testo
CAPITOLO III del testo
CAPITOLO IV del testo
CAPITOLO V del testo (tutto tranne la sezione 5.1)
CAPITOLO VI del testo (fino a p. 262)
CAPITOLO VII (fino a p. 293)
CAPITOLO VIII
CAPITOLO IX (fino a p. 448)
CAPITOLO X (fino a p. 479)
Per gli studenti che seguono i corsi di MATLAB Academy è stata resa disponibile da qualche giorno la possibilità di generare in modo automatico dal sistema una certificazione che può essere condivisa con Facebook o Linkedin:
Per utilizzare MATLAB on line per potersi esercitare utilizzando
direttamente il browser è possibile fare click su
questo link
Lucidi delle lezioni
Prima e seconda settimana (introduzione al corso, introduzione ad Excel e MATLAB, standardizzazione indici di statistica descrittiva, distribuzioni di frequenze, statistiche per sottogruppi di unità, tabelle di contingenza, rappresentazioni grafiche) 29/09/2021
Seconda e terza settimana (correlazione, cograduzione) 06/10/2021
Quarta settimana (analisi preliminari, missing values e outliers, ripasso sulla regressione. Introduzione agli indici di associazione nella tabella 2x2) 13/10/2021
Quinta settimana (Indici di associazione nella tabella 2x2 e nella tabella rxc. Indici basati sulla riduzione dell'eterogeneità. Indici per tabelle di contingenza con variabili ordinali. Scomposizione della varianza, test ANOVA) 20/10/2021
Sesta settimana: grafici bivariati e multivariati, matrice dei diagrammi di dispersione, rappresentazione iconiche. Richiami di algebra lineare 03/11/2021
Settima settimana: componenti principali. Approccio basato sulla combinazione lineare delle variabili originarie (lezione del mattino). Approccio basato sulla proiezione dei punti in un sottospazio oppure sulla rappresentazione della matrice originaria con una matrice di rango ridotto. Esempi pratici di applicazione della tecnica delle componenti principali (La lezione del pomeriggio del 10/11/2021 parte dalla slide n. 95) 10/11/2021
Ottava settimana: tipologia di distanze (metriche Minkowski). Metriche ponderate. Le distanze di Mahalanobis. Slides sulle distanze. Introduzione ai profili riga e colonna. Analisi delle corrispondenze, proiezione in un sottospazio di punti che presentano diverso peso nella metrica ponderata. Esempi di utilizzo dell'analisi delle corrispondenze. Slides sull'analisi delle corrispondenze
Nona settimana: seminario 24/11/2021
Link al video del seminario del 24/11/2021:
parte I
Link al video del seminario del 24/11/2021 parte II (in attesa di ricevere
l'autorizzazione)
Slides Francesca Perino
(Mathworks Italia)
Slides
Domenico Perrotta (Joint Research Center della Commissione
Europea)
Slides Mattia Laurini
(Università di Parma)
Slides Cosimo Pisani e Giorgio Maria Giannuzzi (Terna) (in attesa di
autorizzazione)
Slides
Ryan Livingston (Mathworks USA)
Decima settimana:
Introduzione alla classificazione (supervisionata e non supervisionata). Clustering gerarchico e taglio del dendrogramma. Clustering non generarchico. Scelta del numero ottimo di gruppi. Introduzione al clustering robusto. Cenni sull'analisi testuale. Slides.
Materiale vecchio
PROGRAMMA DA SVOLGERE PER CHI SOSTIENE LA PROVA DA 30 ore
Capitoli-1-3
Capitolo 4 (fino a p. 117)
Capitolo 5 (fino a p. 200)
Capitolo 6 (fino a p. 262)
Capitolo 8
Capitolo IX (fino a p. 448)
SOFTWARE utilizzato durante il corso
Excel 2016 e MATLAB 2021a oppure 2021b.
COMPONENTI AGGIUNTIVI DI EXCEL DA SCARICARE
Xnumbers. Consente di calcolare autovalori e autovettori (oltre naturalmente ad una vastissima serie di funzioni matematiche). La maggior parte delle tecniche di analisi dei dei dati multivariati (componenti principali, analisi delle corrispondenze, clustering robusto e multidimensional scaling), si basa sulla scomposizione in termini di autovalori e autovettori allo scopo di ricostuire in maniera approssimata matrici dei dati e/o matrici di dissimilarità e/o tabelle di contigenza.
Per le istruzioni dettagliate sull'installazione dei componenti
aggiuntivi è possibile scaricare il file
Installazione_componenti_aggiuntivi.pdf
Avviso: quando si apre un file che è stato creato con il componente aggiuntivo XN.xlam è necessario dal menu File|Collegamenti fare click sul pulsante "Cambia Origine" ed inserire il percorso dove il file XN.xlam si trova sul vostro computer.
Nei vostri computer il file XN.xlam deve essere inserito dentro
"C:\users\(nomeutente)\appdata\roaming\microsoft\addins".
COMPONENTI AGGIUNTIVI DI MATLAB DA SCARICARE
Link per scaricare il MATLAB toolbox FSDA (Flexible Statistics Data
Analysis) dal sito web Mathworks, sviluppato congiuntamente
dall'Università di Parma e dal Joint Research Centre della Commissione
Europea
Link alla pagina github di
FSDA
Link alla documentazione di FSDA
Link alla pagina web di Mathworks dove svolgere esercizi aggiuntivi.
Potete iniziare da questo link
MATLAB Cody - MATLAB Central (mathworks.com)
FILE DI CORREDO AL CORSO
File di integrazione.
Osservazione: i file di input sono in formato EXCEL (ossia in formato .xls, xlsx, .xlsm). I file di output sono sia in formato EXCEL sia in formato MATLAB (ossia .mlx oppure .m). I file in formato .mlx contengono oltre al codice sorgente anche il risultato derivante dall'esecuzione delle diverse istruzioni, immagini incorporate ecc. I file in formato .m contengono solo il codice sorgente.
Prima settimana
Argomento | Obiettivo | File di input | File di output (Excel) | File di output (MATLAB) |
Scostamenti standardizzati | Ripassare i concetti di scostamenti standardizzati. Confrontare unità statistiche in presenza di fenomeni con diverso ordine di grandezza e diversa scala di misura | htSS.xlsx |
htSS(out).xlsx 23/09/2014 |
htss_out.m (formato .m solo codice) htss_outMLX.mlx (formato Matlab live script codice + output del codice) 05/11/2021 |
Statistiche descrittive | Calcolare statistiche descrittive e implementare manualmente alcune formule di calcolo in Excele MATLAB. Confrontare la standardizzazione robusta con quella tradizionale. | ht_SD.xlsx | ht_SD(out).xlsx 15/10/2019 |
ht_SD_out.m 14/09/2021 |
Statistiche descrittive in presenza di unità statistiche con diversa importanza | Calcolare statistiche descrittive ponderate e implementare manualmente le formule di calcolo in Excel e MATLAB. |
Ind_ec.xlsx |
Ind_ec_(out).xlsx 23/09/2015 |
Ind_ec_out.m 14/09/2021 |
Seconda settimana
Argomento | Obiettivo | File di input | File di output (Excel) | File di output (MATLAB) |
Statistiche descrittive per sottogruppi di unità | Calcolare statistiche descrittive in presenza di variabili di raggruppamento | htgruppi.xlsx |
htgruppi(out).xlsx 11/09/2018 |
htgruppi_out.m 28/09/2021 |
Campionamento casuale | Estrarre un campione casuale di unità statistiche da un collettivo | SondUSA.xls | SondUSA(out) .xls 14/09/2016 |
SondUSA_ outMLX.mlx 14/09/2021 |
Distribuzioni di frequenze e tabelle a doppia entrata | Calcolare distribuzioni di frequenze con classi di ampiezza uguale o diversa ampiezza e creare tabelle a doppia entrata | ex23_DE.xls | ex23_DE(out).xls 02/10/2015 |
ex23_DE_out.m 28/09/2021 |
Grafici univariati | Tipologie di rappresentazioni grafiche
univariate. Confronto tra l'andamento di due serie storiche. Grafico a cascata |
grafuniv.xlsx grafuniv2serie.xlsx waterfall.xlsx |
grafuniv(out).xlsx grafuniv2serie(out).xlsx waterfall(out).xlsx 14/09/2021 |
grafuniv outMLX.mlx 28/09/2021 |
Terza settimana
Argomento | Obiettivo | File di input | File di output (Excel) | File di output (MATLAB) |
Covarianza e correlazione | Richiamare i concetti di covarianza e correlazione e implementare manualmente le diverse formule in EXCEL | corr0.xlsx | corr0(out).xlsx 25/09/2014 |
corr0out.m 22/09/2020 |
Diagramma di dispersione dinamico | Costruire un diagramma di dispersione dinamico in base alle scelte derivanti da caselle a discesa. | benSPM.xlsx |
benSPM(out).xlsx 18/09/2018 |
benSPMouMLX.mlx 29/09/2021 |
Matrice di covarianza e correlazione | Costruire la matrice di covarianze e correlazione in Excel (tramite formule oppure componente aggiuntivo analisi dei dati). Costruire un diagramma di dispersione con etichette personalizzate. | CONAD.xlsx |
CONAD(out).xlsx 25/09/2020 |
CONADoutMLX.mlx 12/11/2021 |
v.c. normale (standardizzata) | Richiamare i concetti di funzione di densità e di funzione di ripartizione. Calcolare in una v.a. normale la funzione di densità e la funzione di ripartizione. Trovare i valori che lasciano alla destra (sinistra) una probabilità prefissata. Calcolare la probabilià di ottenere valori compresi in un determinato intervallo | norm.xls | norm(out).xls
23/09/2015 |
normout.m 06/10/2021 |
Distribuzione normale bivariata | Calcolare la funzione di densità di una distribuzione normale bivariata e rappresentarla graficamente. | normbiv.xlsm |
normbiv(out).xlsm 25/09/2014 |
normbivoutMLX.mlx 22/09/2020 |
Distribuzione test sull'assenza di correlazione | Dimostrare empiricamente che il test sull'assenza di relazione lineare tra due variabili, si distribuisce come una v.c. T di Student con n-2 gradi di libertà. | VerificaTn-2.xlsx | VerificaTn-2(out).xlsx 24/09/2020 |
verificaTmeno2out.m 24/09/2020 |
Test sul coefficiente di correlazione lineare | Determinare la significatività della relazione lineare tra le diverse variabili | TAGLIAT40.xlsx |
TAGLIAT40(out).xlsx 30/09/2016 |
TAGLIAT40.mlx 22/09/2020 |
Valori di rxy significativi | Dimostrare empiricamente che al crescere della numerosità campionaria diminuisce il valore di rxy ritenuto significativo | sogliarxy.xlsx | sogliarxy(out).xlsx 25/09/2014 |
sogliarxyout.m 24/09/2020 |
Cograduazione | Calcolare il coefficiente rho di Spearman per verificare la concordanza di andamento tra due fenomeni misurati almeno su scala ordinale | cograd.xlsx | cograd(out).xlsx 25/09/2014 |
cograd outMLX.mlx 24/09/2020 |
Cograduazione | Calcolare la matrice dei coefficienti rho di Spearman in presenza di gradi ripetuti e valutare la loro significatività. | cogradrip.xlsx |
cogradrip(out).xlsx 25/09/2017 |
cogradrip.mlx 24/09/2020 |
Quarta settimana
Argomento | Obiettivo | File di input | File di output (Excel) | File di output (MATLAB) |
Analisi dei dati mancanti e dei valori estremi. Boxplot e grafici ad istogrammi. | Effettuare un'analisi dei dati mancanti e dei valori estremi univariati (ossia esterni all'intervallo [Q1-1.5*IQR Q3+1.5*IQR]) Calcolare medie e deviazioni standard con tutti i dati e solo i dati mancanti (esclusione listwise e pairwise). Analizzare i singoli fenomeni tramite grafici a scatola ed istogrammi |
TAGLIAT MIS.xlsx |
TAGLATMIS(out).xlsx 29/09/2020 |
TAGLIAT MISout.m 13/10/2021 |
Analisi dei valori mancanti e degli outliers | Analisi preliminari per verificare la presenza di pattern nei dati mancanti e analisi degli outliers. Verifica di ipotesi distributive. |
mdpattern.xlsx mdpat.m |
QUESTO ESERCIZIO SI PUO' RISOLVERE SOLO IN MATLAB |
mdpat_out.m 09/10/2021 |
Boxplot | Creare grafici a scatola (boxplot) per
sottogruppi di unità. Confronto tramite medie e quantili. |
ex23box.xlsx |
ex23box(out).xlsx 01/10/2019 |
ex23boxout.mlx 02/10/2021 |
Modello di regressione | Richiamare i concetti di regressione lineare. Comprendere
la differenza tra parametri veri e stimati. Verificare
empiricamente il teorema di Sastry e Nag.
(FACOLTATIVO) |
regr.xlsx regr.mlx |
regr(out).xls 03/10/2017 |
regr_outMLX.mlx 12/10/2021 |
Tabelle di contingenza 2 x 2 | Calcolare i diversi indici di associazione nelle tabelle 2x2 e verificare empiricamente le proprietà dei diversi indici |
cont1.xlsx |
cont1(out).xlsx
06/10/2020 |
cont1out.m 13/10/2021 |
v.c. Chi quadrato | Densità, ripartizione e quantili in una v.c. Chi quadrato |
chi2.m chi2.mlx |
chi2_out.m chi2_outMLX.mlx 03/10/2021 |
Quinta settimana
Argomento | Obiettivo | File di input | File di output (Excel) | File di output (MATLAB) |
Tabelle di contingenza r x c | Analisi della relazione tra appartenenza
al partito politico e posizione sulla pena di morte negli USA.
|
SondUSAcont.xlsx 09/10/2020 |
SondUSAcont(out).xlsx 09/10/2020 |
SondUSAcont.mlx 09/10/2020 |
Eterogeneità | Calcolare gli indici di eterogeneità assoluti e normalizzati di Gini e di Shannon | entropia.xlsx |
entropia(out).xlsx 08/10/2014 |
entropiaout.m 08/10/2020 |
Indici di associazione dotati di interpretazione operativa (fenomeni qualitativi nominali) | Calcolare gli indici basati sulla riduzione proporzionale della probabilità di errore e gli indici basati sulla riduzione proporzionale dell'eterogeneità |
spumanti.xlsx 20/10/2021 |
spumanti(out).xlsx 09/10/2020 |
spumanti.mlx 20/10/2021 |
Indici di associazione per variabili ordinali | Introdurre i concetti di coppie concordanti (C) e coppie discordanti (D). Calcolare gli indici gamma, taub e di Somers. | assord.xlsx 20/10/2021 |
assord(out).xlsx 09/10/2020 |
assord.mlx 20/10/2021 |
Scomposizione della varianza nei gruppi e tra i gruppi | Porre in luce la relazione esistente tra un indice di variabilità (d'un certo tipo) riferito all'intero collettivo e gli indici di variabilità (del medesimo tipo) inerenti ai gruppi della partizione. Rappresentare graficamente gli intervalli di confidenza. Test ANOVA di uguaglianza delle medie. |
UnUSA anova.xlsx |
UnUSA anova(out).xlsx 13/10/2020 |
Un USAanova_out.m 20/10/2021 |
Test ANOVA e intervalli di confidenza per sottogruppi di unit' | Confronto campagne pubblicitarie tramite test ANOVA | esANOVA.mlx |
esANOVAout.mlx 20/10/2021 |
Sesta settimana
Argomento | Obiettivo | File di input | File di output (Excel) | File di output (MATLAB) |
Grafico bivariati | Creare boxplot
bivariati. Creare grafici2D con l'aggiunta degli istogrammi (boxplot) sugli asssi cartesiani in presenza di uno o più gruppi. |
grafici2D.m |
Questo esercizio si può risolvere solo utilizzando MATLAB |
grafici2Dout.m 02/11/2021 |
Scatter 3D | Creare diagrammi di dispersione a 3 dimensioni |
CONAD.xlsx grafici3D.m |
Questo esercizio si può risolvere solo utilizzando MATLAB |
grafici3Dout.m 02/11/2021 |
Grafici multivariati | Scatter plot matrix, rappresentazione iconica, coordinate parallele. |
spm.m Ind_ec.xlsx |
spm_out.m 02/11/2021 |
|
Grafico in coordinate parallele | Creare ed interpretare i grafici in coordinate parallele | parcoord0.xlsx |
parcoord0(out).xlsx
23/10/2019 |
parcoord0.m 15/11/2019 |
Grafico in coordinate parallele | Creare un programma generale per creare un grafico in coordinate parallele che consenta diversi tipi di standardizzazione e diverse combinazioni di numerosità campionaria (n) e diverso numero di variabili. Consentire all'utente di evidenziare determinate curve. (FACOLTATIVO) | parcoord1.xlsx |
parcoord1(out).xlsx
11/10/2016 |
|
Rappresentazione iconica delle unità | Creare ed interpretare i grafici a stella |
stars.m Ind_ec.xlsx |
stars(out).xlsx 10/10/2014 |
starsout.m 12/11/2021 |
MATERIALE DA SCARICARE (data science con MATLAB)
Versione 17/11/2021
Argomento | Obiettivo | File di input | File di output (Excel) | File di output (MATLAB) | Introdurre la notazione matriciale. Calcolare autovalori e autovettori | Scomposizione spettrale. Scomposizione in valori singolari. Ricostruzione di una matrice di rango p con una matrice di rango ridotto. Valutazione della bontà dell'approssimazione. | formulemat.xlsx |
formulemat(out).xlsx 05/11/2021 |
formulemat out.m 05/11/2021 |
Altri esercizi su autovalori e autovettori | Consolidare le procedure per il calcolo degli autovalori e autovettori |
Evalues_ Evectors.xlsx |
Evalues_ Evectors(out).xlsx |
evalvec.m 05/11/2021 |
Settima setimana