Perché le etichette della trama del cluster utilizzano le righe anziché i nomi dalla colonna ID?

StackOverflow https://stackoverflow.com//questions/11693078

  •  12-12-2019
  •  | 
  •  

Domanda

Sto lavorando con un set di dati (colonna 1= nomi di geni e colonna 2= valori di espressione) e sto cercando di fare un grafico a cluster ma ciò che trovo è che i rami sono etichettati per numero di riga piuttosto che il geneID dalla colonna 1.

DataSet: https://dl.dropbox.com/u/364456/Mirna.csv

Utilizzo:

attach(animals)
d=dist(as.matrix(animals))
hc=hclust(d)
plot(hc)
.

Trama risultante:

Inserire l'immagine Descrizione qui

Ho provato a fare il clustering di Kmeans e finisci per ottenere questo errore:

.

NAS introdotto dalla coercizione.

Che indica per me che non ho formattato correttamente il mio file di dati.

Qualcuno sa cosa sta succedendo qui?

È stato utile?

Soluzione

Per hclust per riconoscere il tuo nome genico come nome dell'etichetta corretto, questa colonna deve essere i nomi delle righe.

Problema: Gene mmu-miR-191 appare due volte e i nomi delle righe non possono essere ripetuti.Considerando il valore per entrambe le righe sono le stesse, suppongo solo che sia un duplicato e cancella il secondo.

read.table("miRNA.csv", sep=",", header=TRUE, row.names=1) -> mirna
mirna[-34,] -> mirna  # Delete the redundant row.
row.names(mirna) <- mirna[,1] # Declare column 1 as the row names
dist(as.matrix(mirna)) -> d # And then your routine
hc <- hclust(d)
plot(hc)
.

Inserire l'immagine Descrizione qui

Altri suggerimenti

Per impostazione predefinita, i numeri di riga o i nomi delle righe vengono utilizzati per etichettare le osservazioni.Tuttavia, è possibile utilizzare l'argomento delle etichette per selezionare una variabile da utilizzare per le etichette.

plot(modelname, labels=dataset$variable)
.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top