problème de l'intégration des données - Comment intégrer des entités similaires
-
13-10-2019 - |
Question
J'ai une base de données qui a des lignes très similaires au sein de la même table. Ces lignes sont similaires parce qu'ils ont des valeurs de colonne à peu près égales. Je dois intégrer les lignes correspondantes dans une seule ligne.
Par exemple, devrait être intégré ces deux utilisateurs (u1 et u2):
u1 = User(name = "William Henry Gates III",
age = 55,
nationality = "american",
alma_mater = "Harvard Univesity")
u2 = User(name: "William Henry 'Bill' Gates III",
age: 55,
nationality: "America",
alma_mater: "Harvard U.")
Je pense à utiliser certains distance d'édition et issu des techniques. D'autres algorithmes et suggestions techniques? Toutes les bibliothèques utiles à utiliser (de préférence en Python ou Java)?
La solution
Considéré comme quelque chose comme Affiner ?
Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow