Comment supprimer les doublons dans Les liens générés en utilisant mécaniser en Python?
-
26-09-2019 - |
Question
Voici mon code en python qui Genrates une liste d'objets de lien. Je veux supprimer les doublons former.
cb = list()
for link in br.links(url_regex="inquiry-results.jsp"):
cb.append(link)
print set(cb)
Mais il renvoie le unhashable instance
d'erreur. link
est quelque chose comme ça -
Link(
base_url='http://casesearch.courts.state.md.us/inquiry/inquirySearch.jis',
url='/inquiry/inquiry-results.jsp?action=..........',
text='12',
tag='a',
attrs=[('href', '/inquiry/inquiry-results.jsp?action=.......'),
('title', 'Go to page 12')]
),
[Ajout et points seulement les nouvelles lignes pour des raisons pratiques]
Comment puis-je supprimer les doublons?
La solution
Vous pouvez construire un dictionnaire à l'aide des URL en tant que clés et obtenir ses valeurs:
cb = {}
for link in br.links(url_regex="inquiry-results.jsp"):
cb[link.url] = link
print cb.values()
Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow