Domanda

Quali sono tutte le opzioni disponibili per la compilazione i dati mancanti?

Una scelta ovvia è la media, ma se la percentuale di dati mancanti è grande, si riduce la precisione.

Quindi, come abbiamo a che fare con i valori mancanti se sono sono molti di loro?

È stato utile?

Soluzione

Ci sono naturalmente altre scelte da compilare per i dati mancanti. La mediana è stato già detto, e può funzionare meglio in alcuni casi.

Ci possono essere anche delle alternative molto migliori, che possono essere molto specifico per il problema. Per scoprire se questo è il caso, è necessario saperne di più sulla natura dei dati mancanti. Quando si capisce il motivo per cui i dati in dettaglio manca, la probabilità di venire con una buona soluzione sarà molto più alto.

Si potrebbe desiderare di iniziare la ricerca dei dati mancanti per scoprire se si dispone di informativo o non-informativo mancanze. La prima categoria è prodotto dalla perdita di dati casuali; in questo caso, le osservazioni con valori mancanti non sono diversi da quelli con dati completi. Per quanto riguarda la informativo i dati mancanti, questo ti dice qualcosa circa la tua osservazione. Un semplice esempio è un record di un cliente con una data di risoluzione del contratto mancante nel senso che il contratto di questo cliente non è stato cancellato finora. Di solito non si desidera compilare missings informativi con una media o una mediana, ma si consiglia di generare una caratteristica separata da loro.

Si può anche scoprire che ci sono diversi tipi di dati mancanti, essendo prodotto da meccanismi diversi. In questo caso, si potrebbe desiderare di produrre valori di default in modi diversi.

Altri suggerimenti

Quando si tratta di dati mancanti, ci sono molti metodi differenti di riempimento di tali valori. Tuttavia, il metodo di imputazione si sceglie, dipende in larga misura dalla quantità di dati mancanti e il tipo di variabile. Ad esempio, non sarà possibile attribuire il valore medio per i dati mancanti categorici, si potrebbe scegliere invece la modalità. Indipendentemente dal metodo scelto, ci saranno alcuni pregiudizi ad esso associati. Un metodo che fa un buon lavoro a ridurre la distorsione associata assegnazione dei valori mancanti, è assegnazione multipla. Può essere un bel approccio prolisso, ma è l'approccio più suono che ho visto finora per imputare grandi quantità di valori mancanti. Credo che ci può essere una libreria R per imputazione multipla.

Naturalmente, un'altra alternativa potrebbe essere che se la variabile x ha il 50% di dati per esempio mancanti, ci può essere una buona spiegazione perché questo è. Piuttosto che cercare di attribuire o lo perdi le informazioni associate con la variabile, a volte può essere utile per creare una nuova variabile, chiamata variable_x_flag_missing. Questa sarebbe una variabile indicatore binario dove un'osservazione è codificata come 1 se la variabile x contiene un valore mancante e codificato come 0 in caso contrario.

Se i valori sono mancanti in modo casuale e si è certi che il vostro matrice di dati è di basso rango, è possibile utilizzare norma nucleare metodo di base ricerca (noto anche come matrice completamento ). Il metodo (tra gli altri) è implementato in TFOCS .

In molte applicazioni del mondo reale, la matrice di dati raramente ha rango pieno, quindi l'assunzione di matrice di basso rango può essere accettabile. D'altra parte, i valori potrebbero non mancare veramente a caso.

Un altro approccio sarebbe quello di utilizzare Singular Spectrum Analysis ( SSA ) , noto anche come algoritmo Caterpillar. Esso può essere utilizzato per i dati di serie temporali con valori mancanti. Questo algoritmo non è molto noto, ma in letteratura si è talvolta chiamato "PCA per i dati di serie temporali".

C'è una differenza tra i dati con i valori mancanti e dati sparsi. I valori mancanti sono generalmente a causa della input non valido, perdite o errori durante la raccolta dei dati o si creano durante la pulizia o l'elaborazione dei dati.

Se questi valori sono molto meno in numero, le istanze corrispondenti può essere ignorato o se sono circa il 5-10% dei dati, può essere riempito con diversi metodi (riporto ultima osservazione, riempimento con / mediano medio, interpolare la dati, ecc). Se si sta lavorando in Python, passare attraverso la documentazione Panda per di lavoro con valori mancanti , per conoscere in dettaglio di queste opzioni (anche se non si lavora in Python, questa è una buona lettura).

Ma se il vostro set di dati ha un gran numero di valori mancanti (ad esempio ~> 30%), quindi i dati è sparse . Tali insiemi di dati creare vari pregiudizi nella modellazione, e ci sono modi speciali per trattare con loro, anche se non lo faccio su di loro molto.

Se il processo missingness potrebbe essere assunto come MAR (mancante a caso) vi consiglio caldamente di imputazione multipla.

L'idea di imputazione multipla per i dati mancanti è stato proposto da Rubin nel 1977.

L'idea è interessante perché permette di separare l'imputazione e le fasi di analisi.

  • Il primo passo di assegnazione multipla dei dati mancanti è da imputare moltiplicare i valori mancanti utilizzando un modello appropriato, il modello di assegnazione che dipende principalmente dal tipo di variabile a mano.
  • Il secondo passo è quello di analizzare separatamente i dataset imputati.
  • Il terzo passo è quello di combinare le stime del modello di analisi in ogni dati assegnato.

Questo permette di avere stime robuste.

Sono solo in grado di eseguire su R con la href="https://www.jstatsoft.org/article/view/v045i03/v45i03.pdf" rel="nofollow pacchetto di topi .

Autorizzato sotto: CC-BY-SA insieme a attribuzione
scroll top