Question

J'ai une base de données qui a des lignes très similaires au sein de la même table. Ces lignes sont similaires parce qu'ils ont des valeurs de colonne à peu près égales. Je dois intégrer les lignes correspondantes dans une seule ligne.

Par exemple, devrait être intégré ces deux utilisateurs (u1 et u2):

 u1 = User(name = "William Henry Gates III",
           age = 55,
           nationality = "american",
           alma_mater = "Harvard Univesity")

 u2 = User(name: "William Henry 'Bill' Gates III",
           age: 55,
           nationality: "America",
           alma_mater: "Harvard U.")

Je pense à utiliser certains distance d'édition et issu des techniques. D'autres algorithmes et suggestions techniques? Toutes les bibliothèques utiles à utiliser (de préférence en Python ou Java)?

Était-ce utile?

La solution

Considéré comme quelque chose comme Affiner ?

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top