Cosa bisogna stabilire per costruire un istogramma?

0 visite

La costruzione di un istogramma richiede la definizione dei bin, intervalli di valori che rappresentano lampiezza di ciascuna barra. Generalmente di dimensione uniforme, i bin determinano laltezza delle barre, riflettendo la frequenza dei dati in ciascun intervallo.

Commenti 0 mi piace

Creazione di un istogramma: determinazione degli intervalli (bin)

Un istogramma è una rappresentazione grafica della distribuzione di un set di dati, che visualizza la frequenza di occurrence di ciascun valore o intervallo di valori. La costruzione di un istogramma richiede la definizione degli intervalli (bin), che sono intervalli specifici di valori che rappresentano la larghezza di ciascuna barra.

Determinazione degli intervalli

La determinazione degli intervalli è un passo cruciale nella creazione di un istogramma. Gli intervalli devono essere di dimensione uniforme e dovrebbero racchiudere un numero appropriato di dati. Il numero di intervalli ottimale dipende dalla dimensione del set di dati e dalla distribuzione dei valori.

Metodo Sturges

Un metodo comune per determinare il numero di intervalli è la regola di Sturges, che suggerisce:

k = 1 + 3.3 * log10(n)

dove:

  • k è il numero di intervalli
  • n è il numero di osservazioni nel set di dati

Metodo Freedman-Diaconis

Un altro metodo è il metodo Freedman-Diaconis, che considera l’intervallo interquartile (IQR):

h = 2 * IQR / n^(1/3)

dove:

  • h è la larghezza dell’intervallo
  • IQR è l’intervallo interquartile (la differenza tra il terzo e il primo quartile)
  • n è il numero di osservazioni nel set di dati

Ampiezza dell’intervallo

Una volta determinato il numero di intervalli, è necessario calcolare l’ampiezza dell’intervallo. Questa viene calcolata dividendo l’intervallo di valori (massimo meno minimo) per il numero di intervalli.

Altezza della barra

L’altezza di ciascuna barra nell’istogramma rappresenta la frequenza o la densità dei dati nell’intervallo corrispondente. La frequenza è semplicemente il numero di dati che rientrano nell’intervallo, mentre la densità viene calcolata dividendo la frequenza per l’ampiezza dell’intervallo.

Considerazioni

Quando si determinano gli intervalli, è importante considerare la distribuzione dei dati. Se i dati sono fortemente asimmetrici o hanno valori anomali, potrebbe essere necessario utilizzare intervalli di dimensioni non uniformi o altri metodi di visualizzazione per rappresentare accuratamente la distribuzione.