Question

Je suis curieux de la technologie derrière un moteur de recherche comme torrentz.com. D'après ce que je pouvais observer, il ne héberge des fichiers torrent, mais vous connecte à d'autres serveurs qui le font.

  • vous recherchez des mots-clés, il fait apparaître une liste de titres potentiels correspondant à votre recherche.
  • alors vous choisissez un de ces derniers et il vous offre une autre liste de serveurs potentiels hébergeant le fichier torrent correspondant.

Ce que je suis intéressé particulièrement est la stratégie derrière la collecte et l'indexation tout ce contenu:

Comment collectez-ils agrègent alors les données?
est-il un service de base de soumission, où chacun de ces serveurs soumet son contenu pour l'indexation?
Est-ce un algorithme de crawling? Si oui, comment avez-vous même de commencer l'analyse d'un site comme piratebay.org?
ils ont accès à ces bases de données de serveurs?

Ma connaissance et la compréhension du protocole bittorrent est pas très élaboré, mais la documentation que j'ai trouvé en ligne m'a fait plus vers les processus impliqués dans la construction d'un service de suivi, ce qui est exactement ce que je suis intéressé. Toute idée et recommandé est apprécié matériel de lecture.

Était-ce utile?

La solution

Pour commencer début indexer leurs flux RSS et de recueillir les données. L'étape suivante serait l'indexation des pages du portail (comme Mininova, de TPB, etc.), mais attention au fait que vous pouvez être banni (sous IP) pour le faire, car cela provoquerait énorme quantité de données demandées à partir de leurs serveurs (i ne pense pas qu'ils soient trop heureux à ce sujet) ..

Cela dit je doute qu'ils ont accès aux bases de données d'autres serveurs, mais il est rampant + rss.

Une autre chose que vous pouvez utiliser est que lorsque quelqu'un fait une requête d'un élément que vous n'avez pas dans qyour base de données, vous faites la requête sur les principaux années portail bt, cache le résultat dans votre base de données, puis afficher les résultats . Ensuite, si un autre utilisateur fait la même requête (ce qui est assez commun scénario), vous pouvez lui montrer des données mises en cache + nouvelles données de flux.

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top