Perché le etichette della trama del cluster utilizzano le righe anziché i nomi dalla colonna ID?
-
12-12-2019 - |
Domanda
Sto lavorando con un set di dati (colonna 1= nomi di geni e colonna 2= valori di espressione) e sto cercando di fare un grafico a cluster ma ciò che trovo è che i rami sono etichettati per numero di riga piuttosto che il geneID dalla colonna 1.
DataSet: https://dl.dropbox.com/u/364456/Mirna.csv
Utilizzo:
attach(animals)
d=dist(as.matrix(animals))
hc=hclust(d)
plot(hc)
.
Trama risultante:
Ho provato a fare il clustering di Kmeans e finisci per ottenere questo errore:
.NAS introdotto dalla coercizione.
Che indica per me che non ho formattato correttamente il mio file di dati.
Qualcuno sa cosa sta succedendo qui?
Soluzione
Per hclust
per riconoscere il tuo nome genico come nome dell'etichetta corretto, questa colonna deve essere i nomi delle righe.
Problema: Gene mmu-miR-191
appare due volte e i nomi delle righe non possono essere ripetuti.Considerando il valore per entrambe le righe sono le stesse, suppongo solo che sia un duplicato e cancella il secondo.
read.table("miRNA.csv", sep=",", header=TRUE, row.names=1) -> mirna
mirna[-34,] -> mirna # Delete the redundant row.
row.names(mirna) <- mirna[,1] # Declare column 1 as the row names
dist(as.matrix(mirna)) -> d # And then your routine
hc <- hclust(d)
plot(hc)
.
Altri suggerimenti
Per impostazione predefinita, i numeri di riga o i nomi delle righe vengono utilizzati per etichettare le osservazioni.Tuttavia, è possibile utilizzare l'argomento delle etichette per selezionare una variabile da utilizzare per le etichette.
plot(modelname, labels=dataset$variable)
.