Perché le etichette della trama del cluster utilizzano le righe anziché i nomi dalla colonna ID?

https://stackoverflow.com//questions/11693078

12-12-2019
|

Domanda

Sto lavorando con un set di dati (colonna 1= nomi di geni e colonna 2= valori di espressione) e sto cercando di fare un grafico a cluster ma ciò che trovo è che i rami sono etichettati per numero di riga piuttosto che il geneID dalla colonna 1.

DataSet: https://dl.dropbox.com/u/364456/Mirna.csv

Utilizzo:

attach(animals)
d=dist(as.matrix(animals))
hc=hclust(d)
plot(hc)

Trama risultante:

Inserire l'immagine Descrizione qui

Ho provato a fare il clustering di Kmeans e finisci per ottenere questo errore:

.
NAS introdotto dalla coercizione.

Che indica per me che non ho formattato correttamente il mio file di dati.

Qualcuno sa cosa sta succedendo qui?

Soluzione

Per hclust per riconoscere il tuo nome genico come nome dell'etichetta corretto, questa colonna deve essere i nomi delle righe.

Problema: Gene mmu-miR-191 appare due volte e i nomi delle righe non possono essere ripetuti.Considerando il valore per entrambe le righe sono le stesse, suppongo solo che sia un duplicato e cancella il secondo.

read.table("miRNA.csv", sep=",", header=TRUE, row.names=1) -> mirna
mirna[-34,] -> mirna  # Delete the redundant row.
row.names(mirna) <- mirna[,1] # Declare column 1 as the row names
dist(as.matrix(mirna)) -> d # And then your routine
hc <- hclust(d)
plot(hc)

Inserire l'immagine Descrizione qui

Altri suggerimenti

Per impostazione predefinita, i numeri di riga o i nomi delle righe vengono utilizzati per etichettare le osservazioni.Tuttavia, è possibile utilizzare l'argomento delle etichette per selezionare una variabile da utilizzare per le etichette.

plot(modelname, labels=dataset$variable)

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow