Marco Riani, Professor of Statistics

      Univ. of Parma (ITALY)

ANALISI DEI DATI PER IL MARKETING


 

ULTIMA LEZIONE FRONTALE 28/11/2019 9.15-10.00 Aula K8

 

SEMINARIO 28/11/2019 ore 10.00 Aula K8

Introduzione alla programmazione in MATLAB e applicazioni di mercato

 



AVVISO: per buona parte degli esercizi proposti nelle diverse settimane oltre all'output in formato EXCEL viene inserita anche la risoluzione in linguaggio MATLAB. Questo software è leader nel mondo nell'analisi dei dati e può essere scaricato gratuitamente da tutti gli studenti dell'Università di Parma (dopo essersi registrati con la mail ufficiale) dal sito http://www.mathworks.com

E' possibile scaricare alcune slide che motivano l'utilizzo e l'apprendimento di MATLAB

MATLAB ACADEMY: gli studenti dell'Università di Parma possono seguire (ovviamente in maniera completamente gratuita) una serie di cosi approfonditi sull'utilizzo di MATLAB dall'indirizzo web  https://trainingenrollment.mathworks.com/selfEnrollment?code=TA6EEH5EYZTZ

Si noti che per gli utenti non UNIPR questi corsi sono a pagamento e sono davvero molto costosi.

Avviso:

Per gli studenti che seguono i corsi di MATLAB Academy c'è la possibilità di generare in modo automatico dal sistema una certificazione che può essere condivisa con Facebook o Linkedin:


Per utilizzare MATLAB on line per potersi esercitare utilizzando direttamente il browser è possibile fare click su questo link


 

LIBRI DI TESTO

Zani S. e Cerioli A. (2007). Analisi dei dati e data mining per le decisioni aziendali, Giuffrè editore, Milano.

 


 

Programma del corso

CAPITOLO I del testo

CAPITOLO II del testo

CAPITOLO III del testo

CAPITOLO IV del testo

CAPITOLO V del testo (tutto tranne la sezione 5.1)

CAPITOLO VI del testo (fino a p. 262)

CAPITOLO  VII (fino a p. 293)

CAPITOLO VIII

CAPITOLO IX (fino a p. 448)

CAPITOLO X (fino a p. 479)

 


 

Lucidi delle lezioni

Prima settimana (indici di statistica descrittiva)  20/09/2019

Seconda settimana (correlazione, cograduzione) 27/09/2019

Terza settimana (trattamenti preliminari, ripasso sulla regressione semplice) 04/10/2019

Quarta  settimana (Indici di associazione)  11/10/2019

Quinta settimana (scomposizione della varianza, ANOVA, grafici multidimensionali e trasformazione dei dati) 18/10/2019

 

Sesta e settimana settimana

Richiami di algebra lineare  (file estratto dal libro Strumenti statistici e informatici per applicazioni aziendali, (2013) di Marco Riani, Fabrizio Laurini Gianluca Morelli, Pitagora Edtrice Bologna

Aspetti matematici delle componenti principali

Lucidi componenti principali (file completo aggiornato al 06/11/2019)

 

Ottava settimana

Analisi delle corrispondenze (riduzione delle dimensioni delle tabelle di contingenza) 15/11/2019

Distanze e indici di similarità 15/11/2019

 

Nona settimana

Analisi dei gruppi 21/11/2019

 

Decima settimana

Multidimensional scaling


 

SYLLABUS

 


 

PROGRAMMA DA SVOLGERE PER CHI SOSTIENE LA PROVA DA 30 ore

Capitoli-1-3

Capitolo 4 (fino a p. 117)

Capitolo 5 (fino a p. 200)

Capitolo 6 (fino a p. 262)

Capitolo 8

Capitolo IX (fino a p. 448)

 


 

SOFTWARE utilizzato durante il corso

Excel 2016. Cenni su  MATLAB 2019b e SPSS 24.

 

 

COMPONENTI AGGIUNTIVI DI EXCEL DA SCARICARE

Xnumbers. Consente di calcolare autovalori e autovettori (oltre naturalmente ad una vastissima serie di funzioni matematiche). La maggior parte delle tecniche di analisi dei dei dati multivariati (componenti principali, analisi delle corrispondenze, clustering robusto e multidimensional scaling), si basa sulla scomposizione in termini di autovalori e autovettori allo scopo di ricostuire in maniera approssimata matrici dei dati e/o matrici di dissimilarità e/o tabelle di contigenza.



Per le istruzioni dettagliate sull'installazione dei componenti aggiuntivi è possibile scaricare il file Installazione_componenti_aggiuntivi.pdf

 


Avviso: quando si apre un file che è stato creato con il componente aggiuntivo XN.xlam è necessario dal menu File|Collegamenti  fare click sul pulsante "Cambia Origine" ed inserire il percorso dove il file XN.xlam si trova sul vostro computer.


Nei vostri computer il file XN.xlam deve essere inserito dentro 
"C:\users\(nomeutente)\appdata\roaming\microsoft\addins".


 

FILE DI CORREDO AL CORSO


File di integrazione.

Osservazione: i file di input sono in formato EXCEL (ossia in formato .xls, xlsx, .xlsm). I file di output sono nella maggior parte dei casi in formato EXCEL ed in formato MATLAB (ossia .mlx oppure .m. I file in  formato .mlx contengono oltre al codice sorgente anche il risultato derivante dall'esecuzione delle diverse istruzioni, immagini incorporate ecc. I file in formato .m contengono solo il codice sorgente).

 

Prima settimana

Argomento Obiettivo File di input File di output (Excel) File di output (MATLAB)
Scostamenti standardizzati Ripassare i concetti di scostamenti standardizzati. Confrontare unità statistiche in presenza di fenomeni con diverso ordine di grandezza e diversa scala di misura
htSS.xlsx

htSS(out).xlsx

23/09/2014
htss.mlx

15/10/2019
Statistiche descrittive Calcolare statistiche descrittive e implementare manualmente alcune formule di calcolo in Excel. Confrontare la standardizzazione robusta con quella tradizionale. ht_SD.xlsx
ht_SD(out).xlsx

15/10/2019
ht_SD.mlx

15/10/2019
Statistiche descrittive in presenza di unità statistiche con diversa importanza Calcolare statistiche descrittive ponderate e implementare manualmente le formule di calcolo in Excel. Ind_ec.xlsx

 Ind_ec_(out).xlsx

23/09/2015
 
Distribuzioni di frequenze e tabelle a doppia entrata Calcolare distribuzioni di frequenze con classi di ampiezza uguale o diversa ampiezza e creare tabelle a doppia entrata ex23_DE.xls ex23_DE(out).xls

02/10/2015

Statistiche descrittive per sottogruppi di unità Calcolare statistiche descrittive in presenza di variabili di raggruppamento htgruppi.xlsx htgruppi(out).xlsx

11/09/2018

 
Campionamento casuale Estrarre un campione casuale di unità statistiche da un collettivo SondUSA.xls
SondUSA(out)
.xls
14/09/2016
SondUSA.mlx
Grafici univariati Tipologie di rappresentazioni grafiche univariate. Confronto tra l'andamento di due serie storiche grafuniv.xlsx
grafuniv2serie.xlsx
grafuniv(out).xlsx
grafuniv2serie(out).xlsx

27/09/2019
grafuniv.mlx

 

Seconda settimana

Argomento Obiettivo File di input File di output (Excel) File di output (MATLAB)
Covarianza e correlazione Richiamare i concetti di covarianza e correlazione e implementare manualmente le diverse formule in EXCEL corr0.xlsx corr0(out).xlsx

25/09/2014
 
Diagramma di dispersione dinamico Costruire un diagramma di dispersione dinamico in base alle scelte derivanti da caselle a discesa. benesSPM.xlsx benesSPM(out).xlsx

18/09/2018
benesSPM.mlx
Matrice di covarianza e correlazione Costruire la matrice di covarianze e correlazione in Excel (tramite formule oppure componente aggiuntivo analisi dei dati). Costruire un diagramma di dispersione con etichette personalizzate. CONADR.xlsx CONADR(out).xlsx

21/09/2016
CONADR.mlx
v.c. normale (standardizzata) Richiamare i concetti di funzione di densità e di funzione di ripartizione. Calcolare in una v.a. normale la funzione di densità e la funzione di ripartizione. Trovare i valori che lasciano alla destra (sinistra) una probabilità prefissata. Calcolare la probabilià di ottenere valori compresi in un determinato intervallo norm.xls norm(out).xls

23/09/2015
 
Distribuzione normale bivariata Calcolare la funzione di densità di una distribuzione normale bivariata e rappresentarla graficamente.  normbiv.xlsm normbiv(out).xlsm

25/09/2014
 
Test sul coefficiente di correlazione lineare Determinare la significatività della relazione lineare tra le diverse variabili TAGLIAT40.xlsx
TAGLIAT40.sav
 TAGLIAT40(out).xlsx

30/09/2016
TAGLIAT40.mlx
Valori di rxy significativi Dimostrare empiricamente che al crescere della numerosità campionaria diminuisce il valore di rxy ritenuto significativo sogliarxy.xlsx  sogliarxy(out).xlsx

25/09/2014
 
Distribuzione test sull'assenza di correlazione Dimostrare empiricamente che il test sull'assenza di relazione lineare tra due variabili, si distribuisce come una v.c. T di Student con n-2 gradi di libertà. VerificaTn-2.xlsx  VerificaTn-2(out).xlsx

04/10/2019
 
Cograduazione Calcolare il coefficiente rho di Spearman per verificare la concordanza di andamento tra due fenomeni misurati almeno su scala ordinale cograd.xlsx  cograd(out).xlsx

25/09/2014
 
Cograduazione Calcolare la matrice dei  coefficienti rho di Spearman in presenza di gradi ripetuti e valutare la loro significatività. cogradrip.xlsx cogradrip(out).xlsx
25/09/2017
cogradrip.mlx
25/09/2017

 

Terza settimana

Argomento Obiettivo File di input File di output (Excel) File di output (MATLAB)
Analisi dei dati mancanti e dei valori estremi. Boxplot e grafici ad istogrammi. Effettuare un'analisi dei dati mancanti e dei valori estremi univariati (ossia esterni all'intervallo [Q1-1.5*IQR Q3+1.5*IQR]) Calcolare medie e deviazioni standard con tutti i dati e solo i dati mancanti (esclusione listwise e pairwise). Analizzare i singoli fenomeni tramite grafici a scatola ed istogrammi TAGLIAT40MIS.xlsx
TAGLIAT40.sav
TAGLIAT40MIS(out).xlsx

04/10/2019

Boxplot in excel Creare grafici a scatola (boxplot) in excel tramite il componente aggiuntivo boxplot.xla (FACOLTATIVO).
htbox.xlsx htbox(out).xlsx
27/09/2016

Boxplot Creare grafici a scatola (boxplot) per sottogruppi di unità. Confronto tramite medie e quantili.
ex23box.xls ex23box(out).xlsx
01/10/2019
ex23box.mlx
15/10/2019
Modello di regressione Richiamare i concetti di regressione lineare.
regressione.xlsx regressione(out).xls
03/10/2017

 

Quarta settimana

Argomento Obiettivo File di input File di output (Excel) File di output (MATLAB)
Tabelle di contingenza 2 x 2 Calcolare i diversi indici di associazione nelle tabelle 2x2 e verificare empiricamente le proprietà dei diversi indici cont1.xlsx

23/10/2019
cont1(out).xlsx

23/10/2019
 
Tabelle di contingenza 2 x 2 Approfondire la relazione tra il Cross Product Ratio (Θ) e l'indice normalizzato del rapporto dei prodotti incrociati (Q) e l'indice U
Theta_and_Q.xlsx Theta_and_Q(out).xlsx

03/10/2017

Theta_and_Q_out.m

15/11/2019
Tabelle di contingenza r x c Analisi della relazione tra appartenenza al partito politico e posizione sulla pena di morte negli USA.
SondUSAcont.xlsx SondUSAcont(out).xlsx

05/10/2016
SondUSAcont.mlx


15/10/2019
Eterogeneità Calcolare gli indici di eterogeneità assoluti e normalizzati di Gini e di Shannon entropia.xlsx entropia(out).xlsx

08/10/2014



Indici di associazione dotati di interpretazione operativa (fenomeni qualitativi nominali) Calcolare gli indici basati sulla riduzione proporzionale della probabilità di errore e gli indici basati sulla riduzione proporzionale dell'eterogeneità spumanti.xlsx
spumanti(out).xlsx
24/10/2017
spumanti.mlx
15/10/2019
Indici di associazione per variabili ordinali Introdurre i concetti di coppie concordanti (C) e coppie discordanti (D). Calcolare gli indici gamma, taub e di Somers. assord.xlsx assord(out).xlsx
08/10/2014
assord.mlx
15/10/2019
Associazione tra un fenomeno nominale (X)  ed uno ordinale (Y) in tabella 2 x c Confrontare le distribuzioni condizionate di Y in corrispondenza delle diverse classi di X. Introdurre indici di associazione che utilizzano solo l'ordinamento dei livelli di Y (indice delta di Agresti). (FACOLTATIVO) nonomxord.xlsx nomxord(out).xlsx

08/10/2014
 

 

Quinta settimana

 

Scomposizione della varianza nei gruppi e tra i gruppi Porre in luce la relazione esistente tra un indice di variabilità (d'un certo tipo) riferito all'intero collettivo e gli indici di variabilità (del medesimo tipo) inerenti ai gruppi della partizione. Rappresentare graficamente gli intervalli di confidenza UnUSAanova.xlsx UnUSAanova(out).xlsx

08/10/2019
UnUSAanova_out.m

21/11/2019
Associazione tra un fenomeno quantitativo (Y) ed uno nominale (X) Calcolare indici normalizzati che misurano la dipendenza in media di Y da X (rapporti di correlazione) etaYX.xlsx etaYX(out).xlsx 10/10/2014

Argomento Obiettivo File di input File di output (Excel) File di output (MATLAB)
Grafico in coordinate parallele Creare ed interpretare i grafici in coordinate parallele parcoord0.xlsx parcoord0(out).xlsx

23/10/2019


parcoord0.m
15/11/2019
Grafico in coordinate parallele Creare un programma generale per creare un grafico in coordinate parallele che consenta diversi tipi di standardizzazione e diverse combinazioni di numerosità campionaria (n) e diverso numero di variabili. Consentire all'utente di evidenziare determinate curve. (FACOLTATIVO) parcoord1.xlsx parcoord1(out).xlsx

11/10/2016

 
Rappresentazione iconica delle unità Implementare in Excel i grafici a stella (facce) ed   interpretarli (FACOLTATIVO)   stars(out).xlsx


10/10/2014
 

Sesta e settima settimana

Introdurre la notazione matriciale. Calcolare autovalori e autovettori Verificare, utilizzando un dataset di esempio, le formule contenute nel file aspetti matematici delle componenti principali formulemat.xlsx formulemat(out).xlsx
----------------
File di output contenente solo i valori e non i riferimenti esterni al componente aggiuntivo Xnumbers
formulematM(out).xlsx
13/11/2015
Altri esercizi su autovalori e autovettori Consolidare la procedure per il calcolo degli autovalori e autovettori Evalues_Evectors.xlsx Evalues_Evectors(out).xlsx 24/10/2016
Componenti principali Effettuare la riduzione delle dimensioni tramite la tecnica delle componenti principali. benessere.xlsx
benessere(out).xlsx
--------------
File di output contenente solo i valori e non i riferimenti esterni al componente aggiuntivo Xnumbers
benessereM(out).xlsx
17/10/2014

 

 

Componenti principali Effettuare la riduzione delle dimensioni tramite la tecnica delle componenti principali.

 lavatrici.xlsx

lavatrici(out).xlsx
--------------
File di output contenente solo i valori e non i riferimenti esterni al componente aggiuntivo Xnumbers
lavatriciM(out).xlsx

31/10/2014

Componenti principali
Esplorare gli aspetti geometrici della tecnica delle componenti principali (FACOLTATIVO)

ellisse.xlsx

ellisse(out).xlsx
--------------
File di output contenente solo i valori e non i riferimenti esterni al componente aggiuntivo Xnumbers
ellisseM(out).xlsx
31/10/2014

 

 

Costruire un biplot dinamico File pdf contenente i dettagli matematici per la costruzione del biplot dinamico.

Costruzione di un biplot dinamico in cui tramite barre di scorrimento posso visualizzare diverse varianti del biplot. (FACOLTATIVO)
benBiplot.xlsx Per versione di Excel antecedenti al 2013
benBiplot(OUT)Excel2010.xlsx
----------------
File di output contenente solo i valori e non i riferimenti esterni al componente aggiuntivo Xnumbers

benBiplotM(OUT)Excel2010.xlsx
___________
___________
___________
SOLO PER CHI POSSIEDE EXCEL 2013/2016
benBiplot(OUT).xlsx
----------------
File di output contenente solo i valori e non i riferimenti esterni al componente aggiuntivo Xnumbers
benBiplotM(OUT).xlsx
24/10/2016

Ottava settimana

Argomento Obiettivo File di input File di output (Excel) File di output (MATLAB)
Analisi delle corrispondenze Relazione tra i profili riga e colonna di una tabella di contingenza. Riduzione delle dimensioni. Scomposizione dell'inerzia

corrisp.xlsx

corrisp(out).xlsx

15/11/2019


corrisp_out.m

15/11/2019

 

Argomento Obiettivo File di input File di output (Excel) File di output (MATLAB)
Distanze Calcolare le distanze di Minkowski e le distanze di Mahalnobis tramite diversi metodi

 distanze1.xlsx

distanze1(out).xlsx

09/11/2018

distanze1_out.m
Indici di similarità Calcolare diversi indici di similarità

similarita.xlsx

similarita(out).xlsx
12/11/2014


Indice di Gower Calcolare la matrice degli indici di similarità di Gower

 


Gower_out.m

21/11/2019

 

Nona settimana

 

Clustering non gerarchico Programma di agglomerazione non gerarchico. Costruzione del dendrogramma partendo dalla matrice delle distanze clustGER.m
Capire  la funzione obiettivo utilizzata dal metodo delle k-medie Impostare manualmente la funzione obiettivo utilizzata dal metodo non gerarchico di clustering delle k-medie. Trovare la soluzione tramite il risolutore di Excel

 k-means_risol.xlsm

k-means_risol(out).xlsx

21/11/2019


Cluster analysis Effettuare la segmentazione utilizzando la metodologia delle k-medie e scegliere il numero appropriato di gruppi.

kmeans.xlsm

kmeans(out).xlsx

21/11/2019

kmeans_out.m

 

Decima settimana

Multidimensional scaling Ricostruire la matrice dei dati partendo dalla matrice di dissimilarità

 mds.xlsx

mds(out).xlsx
17/11/2014

 

ESERCIZIO RIEPILOGATIVO

 

    INPUT FILE                

SOLUZIONE (file di output contenente solo i valori)

SOLUZIONE (file di output comprensivo di formule)

 

ESAME DEL 16/12/2014

Esame a computer

INPUT FILE

SOLUZIONE (file di output contenente solo i valori)

SOLUZIONE (file di output comprensivo di formule)

 

Test 2016

SOLUZIONE

 

Test 2018

Soluzione

 

Esame del 18/12/2018

Testo

Soluzione

Esame 14.12.2017

Soluzione

 

Esame del 14.12.2016

dic 2016 testo     dic 2016 soluzione Osservazione: le parti richieste dal testo dentro il file di output sono state evidenziate in giallo

 

 

 


 

Vecchie prove di esame (prova tradizionale scritta)

 giugno 2012

 gennaio 2009

 ottobre 2010 

 febbraio 2008 

 luglio 2011

novembre 2008

dic 2014 Testo     dic 2014 soluzione