Marco Riani, Professor of Statistics

      Univ. of Parma (ITALY)

ANALISI DEI DATI PER IL MARKETING




Link diretto alle lezioni in streaming (prima lezione MER 16 settembre ore 9.00)

https://teams.microsoft.com/l/team/19%3a7f4893661a8f4da19b9cdacf31d9e59f%40thread.tacv2/conversations?groupId=48bec449-b654-40a1-8aad-de647f3257f3&tenantId=bb064bc5-b7a8-41ec-babe-d7beb3faeb1c

Link al canale youtube dove visualizzare le lezioni passate

https://www.youtube.com/channel/UCvrSSDHucSqwnjuEFmOAe2w





AVVISO: per buona parte degli esercizi proposti nelle diverse settimane oltre all'output in formato EXCEL viene inserita anche la risoluzione in linguaggio MATLAB. Questo software è leader nel mondo nell'analisi dei dati e può essere scaricato gratuitamente da tutti gli studenti dell'Università di Parma (dopo essersi registrati con la mail ufficiale) dal sito http://www.mathworks.com



Una volta creato l'account potete scaricare il software sulle postazioni che desiderate.



MATLAB ACADEMY: gli studenti dell'Università di Parma possono seguire (ovviamente in maniera completamente gratuita) una serie di cosi approfonditi sull'utilizzo di MATLAB dall'indirizzo web  https://trainingenrollment.mathworks.com/selfEnrollment?code=TA6EEH5EYZTZ

Si noti che per gli utenti non UNIPR questi corsi sono a pagamento e sono davvero molto costosi.

Avviso:

Per gli studenti che seguono i corsi di MATLAB Academy c'è la possibilità di generare in modo automatico dal sistema una certificazione che può essere condivisa con Facebook o Linkedin:


Per utilizzare MATLAB on line per potersi esercitare utilizzando direttamente il browser è possibile fare click su questo link


 

LIBRI DI TESTO

Zani S. e Cerioli A. (2007). Analisi dei dati e data mining per le decisioni aziendali, Giuffrè editore, Milano.

 


 

Programma del corso

CAPITOLO I del testo

CAPITOLO II del testo

CAPITOLO III del testo

CAPITOLO IV del testo

CAPITOLO V del testo (tutto tranne la sezione 5.1)

CAPITOLO VI del testo (fino a p. 262)

CAPITOLO  VII (fino a p. 293)

CAPITOLO VIII

CAPITOLO IX (fino a p. 448)

CAPITOLO X (fino a p. 479)

 


 

Lucidi delle lezioni

Prima settimana (introduzione al corso, introduzione ad Excel e MATLAB, indici di statistica descrittiva) 15/09/2020

Seconda settimana (correlazione, cograduzione) 09/10/2020

Terza settimana (trattamenti preliminari, dati mancanti e dati anomali) 09/10/2020

Quarta  settimana (Indici di associazione in tabelle 2x2 e tabelle rxc)  09/10/2020

 

 

 

Quinta settimana (scomposizione della varianza, ANOVA, grafici multidimensionali e trasformazione dei dati) 18/10/2019

Sesta e settimana settimana

Richiami di algebra lineare  (file estratto dal libro Strumenti statistici e informatici per applicazioni aziendali, (2013) di Marco Riani, Fabrizio Laurini Gianluca Morelli, Pitagora Edtrice Bologna

Aspetti matematici delle componenti principali

Lucidi componenti principali (file completo aggiornato al 06/11/2019)

 

Ottava settimana

Analisi delle corrispondenze (riduzione delle dimensioni delle tabelle di contingenza) 15/11/2019

Distanze e indici di similarità 15/11/2019

 

Nona settimana

Analisi dei gruppi 21/11/2019

 

Decima settimana

Multidimensional scaling


 

SYLLABUS

 


 

PROGRAMMA DA SVOLGERE PER CHI SOSTIENE LA PROVA DA 30 ore

Capitoli-1-3

Capitolo 4 (fino a p. 117)

Capitolo 5 (fino a p. 200)

Capitolo 6 (fino a p. 262)

Capitolo 8

Capitolo IX (fino a p. 448)

 


 

SOFTWARE utilizzato durante il corso

Excel 2016 e  MATLAB 2020a oppure 2020b.

 

 

COMPONENTI AGGIUNTIVI DI EXCEL DA SCARICARE

Xnumbers. Consente di calcolare autovalori e autovettori (oltre naturalmente ad una vastissima serie di funzioni matematiche). La maggior parte delle tecniche di analisi dei dei dati multivariati (componenti principali, analisi delle corrispondenze, clustering robusto e multidimensional scaling), si basa sulla scomposizione in termini di autovalori e autovettori allo scopo di ricostuire in maniera approssimata matrici dei dati e/o matrici di dissimilarità e/o tabelle di contigenza.



Per le istruzioni dettagliate sull'installazione dei componenti aggiuntivi è possibile scaricare il file Installazione_componenti_aggiuntivi.pdf

 


Avviso: quando si apre un file che è stato creato con il componente aggiuntivo XN.xlam è necessario dal menu File|Collegamenti  fare click sul pulsante "Cambia Origine" ed inserire il percorso dove il file XN.xlam si trova sul vostro computer.


Nei vostri computer il file XN.xlam deve essere inserito dentro 
"C:\users\(nomeutente)\appdata\roaming\microsoft\addins".


COMPONENTI AGGIUNTIVI DI MATLAB DA SCARICARE

 

Link per scaricare il MATLAB toolbox FSDA (Flexible Statistics Data Analysis) dal sito web Mathworks, sviluppato congiuntamente dall'Università di Parma e dal Joint Research Centre della Commissione Europea

Link alla pagina github di FSDA

Link alla documentazione di FSDA

 


 

FILE DI CORREDO AL CORSO


File di integrazione.

Osservazione: i file di input sono in formato EXCEL (ossia in formato .xls, xlsx, .xlsm). I file di output sono nella maggior parte dei casi in formato EXCEL ed in formato MATLAB (ossia .mlx oppure .m. I file in  formato .mlx contengono oltre al codice sorgente anche il risultato derivante dall'esecuzione delle diverse istruzioni, immagini incorporate ecc. I file in formato .m contengono solo il codice sorgente).

 

Prima settimana

Argomento Obiettivo File di input File di output (Excel) File di output (MATLAB)
Scostamenti standardizzati Ripassare i concetti di scostamenti standardizzati. Confrontare unità statistiche in presenza di fenomeni con diverso ordine di grandezza e diversa scala di misura
htSS.xlsx

htSS(out).xlsx

23/09/2014
htssout.m
(formato .m solo codice)

htssoutMLX.mlx
(formato Matlab live script codice + output del codice)

15/09/2020
Statistiche descrittive Calcolare statistiche descrittive e implementare manualmente alcune formule di calcolo in Excel. Confrontare la standardizzazione robusta con quella tradizionale. ht_SD.xlsx
ht_SD(out).xlsx

15/10/2019
ht_SDout.m

ht_SDoutMLX.mlx

15/09/2020
Statistiche descrittive in presenza di unità statistiche con diversa importanza Calcolare statistiche descrittive ponderate e implementare manualmente le formule di calcolo in Excel. Ind_ec.xlsx

 Ind_ec_(out).xlsx

23/09/2015
Ind_ecout.m
15/09/2020
Distribuzioni di frequenze e tabelle a doppia entrata Calcolare distribuzioni di frequenze con classi di ampiezza uguale o diversa ampiezza e creare tabelle a doppia entrata ex23_DE.xls ex23_DE(out).xls

02/10/2015
ex23_DEout.m

15/09/2020

 

Seconda settimana

Argomento Obiettivo File di input File di output (Excel) File di output (MATLAB)
Statistiche descrittive per sottogruppi di unità Calcolare statistiche descrittive in presenza di variabili di raggruppamento htgruppi.xlsx htgruppi(out).xlsx

11/09/2018

htgruppiout.m
17/09/2020
Campionamento casuale Estrarre un campione casuale di unità statistiche da un collettivo SondUSA.xls
SondUSA(out)
.xls
14/09/2016
SondUSAout.mlx
15/09/2020
Grafici univariati Tipologie di rappresentazioni grafiche univariate. Confronto tra l'andamento di due serie storiche grafuniv.xlsx
grafuniv2serie.xlsx
grafuniv(out).xlsx
grafuniv2serie(out).xlsx

22/09/2020
grafunivMLX.mlx
07/10/2020
Covarianza e correlazione Richiamare i concetti di covarianza e correlazione e implementare manualmente le diverse formule in EXCEL corr0.xlsx corr0(out).xlsx

25/09/2014
corr0out.m
22/09/2020
Diagramma di dispersione dinamico Costruire un diagramma di dispersione dinamico in base alle scelte derivanti da caselle a discesa. benesSPM.xlsx benesSPM(out).xlsx

18/09/2018
benesSPM mlx.mlx
Matrice di covarianza e correlazione Costruire la matrice di covarianze e correlazione in Excel (tramite formule oppure componente aggiuntivo analisi dei dati). Costruire un diagramma di dispersione con etichette personalizzate. CONADR.xlsx CONADR(out).xlsx

25/09/2020
CONADR.mlx

25/09/2020
v.c. normale (standardizzata) Richiamare i concetti di funzione di densità e di funzione di ripartizione. Calcolare in una v.a. normale la funzione di densità e la funzione di ripartizione. Trovare i valori che lasciano alla destra (sinistra) una probabilità prefissata. Calcolare la probabilià di ottenere valori compresi in un determinato intervallo norm.xls norm(out).xls

23/09/2015
normout.m

22/09/2020
Distribuzione normale bivariata Calcolare la funzione di densità di una distribuzione normale bivariata e rappresentarla graficamente.  normbiv.xlsm normbiv(out).xlsm

25/09/2014
normbivMLX.mlx

22/09/2020
Distribuzione test sull'assenza di correlazione Dimostrare empiricamente che il test sull'assenza di relazione lineare tra due variabili, si distribuisce come una v.c. T di Student con n-2 gradi di libertà. VerificaTn-2.xlsx  VerificaTn-2(out).xlsx

24/09/2020
verifica Tmeno2out.m

24/09/2020

 

Terza settimana

Argomento Obiettivo File di input File di output (Excel) File di output (MATLAB)
Test sul coefficiente di correlazione lineare Determinare la significatività della relazione lineare tra le diverse variabili TAGLIAT40.xlsx
 TAGLIAT40(out).xlsx

30/09/2016
TAGLIAT40.mlx
22/09/2020
Valori di rxy significativi Dimostrare empiricamente che al crescere della numerosità campionaria diminuisce il valore di rxy ritenuto significativo sogliarxy.xlsx  sogliarxy(out).xlsx

25/09/2014
sogliarxyout.m

24/09/2020
Cograduazione Calcolare il coefficiente rho di Spearman per verificare la concordanza di andamento tra due fenomeni misurati almeno su scala ordinale cograd.xlsx  cograd(out).xlsx

25/09/2014
cograd outMLX.mlx

24/09/2020
Cograduazione Calcolare la matrice dei  coefficienti rho di Spearman in presenza di gradi ripetuti e valutare la loro significatività. cogradrip.xlsx cogradrip(out).xlsx
25/09/2017
cogradrip.mlx
24/09/2020
Analisi dei dati mancanti e dei valori estremi. Boxplot e grafici ad istogrammi. Effettuare un'analisi dei dati mancanti e dei valori estremi univariati (ossia esterni all'intervallo [Q1-1.5*IQR Q3+1.5*IQR]) Calcolare medie e deviazioni standard con tutti i dati e solo i dati mancanti (esclusione listwise e pairwise). Analizzare i singoli fenomeni tramite grafici a scatola ed istogrammi TAGLIAT40MIS.xlsx
TAGLIAT40MIS(out).xlsx

29/09/2020

TAGLIAT40
MISout.m

29/09/2020
Boxplot Creare grafici a scatola (boxplot) per sottogruppi di unità. Confronto tramite medie e quantili.
ex23box.xlsx ex23box(out).xlsx
01/10/2019
ex23boxout.mlx
02/10/2020
Modello di regressione Richiamare i concetti di regressione lineare. (FACOLTATIVO)
regressione.xlsx regressione(out).xls
03/10/2017

 

Quarta settimana

Argomento Obiettivo File di input File di output (Excel) File di output (MATLAB)
Tabelle di contingenza 2 x 2 Calcolare i diversi indici di associazione nelle tabelle 2x2 e verificare empiricamente le proprietà dei diversi indici cont1.xlsx

23/10/2019
cont1(out).xlsx

06/10/2020
cont1out.m

06/10/2020
Tabelle di contingenza 2 x 2 Approfondire la relazione tra il Cross Product Ratio (Θ) e l'indice normalizzato del rapporto dei prodotti incrociati (Q) e l'indice U
Theta_and_Q.xlsx Theta_and_Q(out).xlsx

03/10/2017

Theta_and_ Q_out.m

15/11/2019
Tabelle di contingenza r x c Analisi della relazione tra appartenenza al partito politico e posizione sulla pena di morte negli USA.
SondUSAcont.xlsx 09/10/2020 SondUSAcont(out).xlsx

09/10/2020
SondUSAcont.mlx


09/10/2020
Eterogeneità Calcolare gli indici di eterogeneità assoluti e normalizzati di Gini e di Shannon entropia.xlsx entropia(out).xlsx

08/10/2014

entropiaout.m
08/10/2020

Indici di associazione dotati di interpretazione operativa (fenomeni qualitativi nominali) Calcolare gli indici basati sulla riduzione proporzionale della probabilità di errore e gli indici basati sulla riduzione proporzionale dell'eterogeneità spumanti.xlsx
09/10/2020

spumanti(out).xlsx
09/10/2020
spumanti.mlx
09/10/2020
Indici di associazione per variabili ordinali Introdurre i concetti di coppie concordanti (C) e coppie discordanti (D). Calcolare gli indici gamma, taub e di Somers. assord.xlsx 09/10/2020 assord(out).xlsx
09/10/2020
assord.mlx
09/10/2020
Associazione tra un fenomeno nominale (X)  ed uno ordinale (Y) in tabella 2 x c Confrontare le distribuzioni condizionate di Y in corrispondenza delle diverse classi di X. Introdurre indici di associazione che utilizzano solo l'ordinamento dei livelli di Y (indice delta di Agresti). (FACOLTATIVO) nomxord.xlsx nomxord(out).xlsx

08/10/2014
 

 

Quinta settimana

 

Scomposizione della varianza nei gruppi e tra i gruppi Porre in luce la relazione esistente tra un indice di variabilità (d'un certo tipo) riferito all'intero collettivo e gli indici di variabilità (del medesimo tipo) inerenti ai gruppi della partizione. Rappresentare graficamente gli intervalli di confidenza. Test ANOVA di uguaglianza delle medie. UnUSA
anova.xlsx
UnUSA
anova(out).xlsx

13/10/2020
Un
USAanova_out.m


13/10/2020
Associazione tra un fenomeno quantitativo (Y) ed uno nominale (X) Calcolare indici normalizzati che misurano la dipendenza in media di Y da X (rapporti di correlazione) etaYX.xlsx etaYX(out).xlsx 10/10/2014

Argomento Obiettivo File di input File di output (Excel) File di output (MATLAB)
Grafico bivariati Creare boxplot bivariati.
Creare grafici2D con l'aggiunta degli istogrammi (boxplot) sugli asssi cartesiani in presenza di uno o più gruppi.
grafici2D.m



Questo esercizio si può risolvere solo utilizzando MATLAB

grafici2Dout.m

15/10/2020
Scatter 3D Creare diagrammi di dispersione a 3 dimensioni grafici3D.m



Questo esercizio si può risolvere solo utilizzando MATLAB

grafici3Dout.m

15/10/2020
Grafico in coordinate parallele Creare ed interpretare i grafici in coordinate parallele parcoord0.xlsx parcoord0(out).xlsx

23/10/2019


parcoord0.m
15/11/2019
Grafico in coordinate parallele Creare un programma generale per creare un grafico in coordinate parallele che consenta diversi tipi di standardizzazione e diverse combinazioni di numerosità campionaria (n) e diverso numero di variabili. Consentire all'utente di evidenziare determinate curve. (FACOLTATIVO) parcoord1.xlsx parcoord1(out).xlsx

11/10/2016

 
Rappresentazione iconica delle unità e matrice dei diagrammi di dispersione Creare ed interpretare i grafici a stella e le facce e la scatter plot matrix.  stars.m stars(out).xlsx
FACOLTATIVO

10/10/2014
starsout.m
15/10/2020

 

Sesta e settima settimana

Per risolvere gli esercizi della sesta e settima settimana è utile scaricare il file notazione.pdf (versione 23/10/2020)

Questo file è in "itinere" di conseguenza vi sarei grato se mi poteste segnalare errori e/o omissioni

Argomento Obiettivo File di input File di output (Excel) File di output (MATLAB)
Introdurre la notazione matriciale. Calcolare autovalori e autovettori Verificare, utilizzando un dataset di esempio, le formule contenute nel file notazione.pdf. Scomposizione spettrale. Scomposizione in valori singolari. Ricostruzione di una matrice di rango p con una matrice di rango ridotto. Valutazione della bontà dell'approssimazione. formulemat.xlsx formulemat(out).xlsx
21/10/2020
formulemat
out.m

21/10/2020
Altri esercizi su autovalori e autovettori Consolidare le procedure per il calcolo degli autovalori e autovettori Evalues_
Evectors.xlsx
Evalues_
Evectors(out).xlsx
24/10/2016
Componenti principali Effettuare la riduzione delle dimensioni tramite la tecnica delle componenti principali. Interpretare le dimensioni latenti. Valutare la bontà dei risultati. benessere.xlsx
benessere(out).xlsx
23/10/2020
benessereout.m

23/10/2020

 

 

Componenti principali Effettuare la riduzione delle dimensioni tramite la tecnica delle componenti principali.

 lavatrici.xlsx

lavatrici(out).xlsx
--------------
File di output contenente solo i valori e non i riferimenti esterni al componente aggiuntivo Xnumbers
lavatriciM(out).xlsx

31/10/2014

Componenti principali
Esplorare gli aspetti geometrici della tecnica delle componenti principali (FACOLTATIVO)

ellisse.xlsx

ellisse(out).xlsx
--------------
File di output contenente solo i valori e non i riferimenti esterni al componente aggiuntivo Xnumbers
ellisseM(out).xlsx
31/10/2014

 

 

Costruire un biplot dinamico File pdf contenente i dettagli matematici per la costruzione del biplot dinamico.

Costruzione di un biplot dinamico in cui tramite barre di scorrimento posso visualizzare diverse varianti del biplot. (FACOLTATIVO)
benBiplot.xlsx Per versione di Excel antecedenti al 2013
benBiplot(OUT)Excel2010.xlsx
----------------
File di output contenente solo i valori e non i riferimenti esterni al componente aggiuntivo Xnumbers

benBiplotM(OUT)Excel2010.xlsx
___________
___________
___________
SOLO PER CHI POSSIEDE EXCEL 2013/2016
benBiplot(OUT).xlsx
----------------
File di output contenente solo i valori e non i riferimenti esterni al componente aggiuntivo Xnumbers
benBiplotM(OUT).xlsx
24/10/2016

Ottava settimana

Argomento Obiettivo File di input File di output (Excel) File di output (MATLAB)
Analisi delle corrispondenze Relazione tra i profili riga e colonna di una tabella di contingenza. Riduzione delle dimensioni. Scomposizione dell'inerzia

corrisp.xlsx

corrisp(out).xlsx

01/12/2019


corrisp_out.m

Dettagli soluzione MATLAB


01/12/2019

 

Argomento Obiettivo File di input File di output (Excel) File di output (MATLAB)
Distanze Calcolare le distanze di Minkowski e le distanze di Mahalnobis tramite diversi metodi

 distanze1.xlsx

distanze1(out).xlsx

09/11/2018

distanze1_out.m
Indici di similarità Calcolare diversi indici di similarità

similarita.xlsx

similarita(out).xlsx
12/11/2014


Indice di Gower Calcolare la matrice degli indici di similarità di Gower

 


Gower_out.m

21/11/2019

 

Nona settimana

 

    File di input (formato MATLAB) File di ouput (formato MATLAB)  
Clustering gerarchico Programma di agglomerazione gerarchico. Costruzione del dendrogramma partendo dalla matrice delle distanze clustGER.mlx clustGER_out.mlx 22/11/2019

 

Argomento Obiettivo File di input File di output (Excel)  
Clustering non gerarchico Impostare manualmente la funzione obiettivo utilizzata dal metodo non gerarchico di clustering delle k-medie. Trovare la soluzione tramite il risolutore di Excel

 k-means_risol.xlsm

k-means_risol(out).xlsx

21/11/2019


Argomento Obiettivo File di input File di output (Excel) File di output (MATLAB)
Clustering non gerarchico Effettuare la segmentazione utilizzando la metodologia delle k-medie e scegliere il numero appropriato di gruppi.

kmeans.xlsm

kmeans(out).xlsx

21/11/2019

kmeans_out.m

 

Decima settimana

Multidimensional scaling Ricostruire la matrice dei dati partendo dalla matrice di dissimilarità

 mds.xlsx

mds(out).xlsx
17/11/2014

 

ESERCIZIO RIEPILOGATIVO

 

    INPUT FILE                

SOLUZIONE (file di output contenente solo i valori)

SOLUZIONE (file di output comprensivo di formule)

 

ESAME DEL 16/12/2014

Esame a computer

INPUT FILE

SOLUZIONE (file di output contenente solo i valori)

SOLUZIONE (file di output comprensivo di formule)

 

Test 2016

SOLUZIONE

 

Test 2018

Soluzione

 

TEST 2019 INPUT

 

SOLUZIONE

 

 

Esame dicembre 2019

Testo

Soluzione

 

 

Esame del 18/12/2018

Testo

Soluzione

Esame 14.12.2017

Soluzione

 

Esame del 14.12.2016

dic 2016 testo     dic 2016 soluzione Osservazione: le parti richieste dal testo dentro il file di output sono state evidenziate in giallo

 

 

 


 

Vecchie prove di esame (prova tradizionale scritta)

 giugno 2012

 gennaio 2009

 ottobre 2010 

 febbraio 2008 

 luglio 2011

novembre 2008

dic 2014 Testo     dic 2014 soluzione