Recherche en Texte intégral avec des Rails

https://stackoverflow.com/questions/1132284

16-09-2019
|

Question

J'ai été regarder dans la recherche plugins/gemmes pour les Rails.La plupart des articles de comparer Ferret (Lucene) à Ultrasphinx ou éventuellement Thinking Sphinx, mais aucun qui parle SearchLogic.Quelqu'un aurait-il des indices quant à la façon que l'on compare?Qu'utilisez-vous, et comment faut-il effectuer?

La solution

thinking_sphinx et le sphinx du très beau travail, pas d'indexation, de requête, d'installer les problèmes de l'histoire (5 ou 6 installer, y compris la production slicehost )
pourquoi ne pas, tout le monde utilise sphinx, comme, par exemple craigslist?lire ici sur ses limites (un an et demi de vieux articles.Le sphinx développeur, Aksyonoff, c'est de travailler sur ces activités et qu'il est en train de mettre en fonctionnalités et la fiabilité et à corriger les bugs à un rythme effréné)

http://codemonkey.ravelry.com/2008/01/09/sphinx-for-search/

http://www.ibm.com/developerworks/opensource/library/os-php-apachesolr/

Comparaison de la totalité du texte pour les moteurs de recherche Lucene, Sphinx, Postgresql, MySQL?

furet:facile à installer, n'a pas de tige correctement, très lent indexation (une db mysql:sphinx:3 secondes, furet:50 minutes).Bien documenté des problèmes (l'indice de la corruption) dans drb serveurs en production sous la charge.Cela dit, j'ai utiliser dans develometn puisque les actes-as_ferret est sorti il y a 3 ans, et il m'a bien servi.N'adhérant pas à la porter de la lemmatisation est un avantage dans certains contextes.
Lucene et Solr est le gorille/mack camion / poids lourd champ de recherche open source.Les équipes ont fait un nombre impressionnant de nouvelles fonctionnalités solr 14 de presse:
actes-comme-solr:fonctionne bien, une fois que le tomcat ou jetty est en place, mais ceux-ci sont parfois une douleur.L' Un fork par mattmatt est le principal fourche, mais le projet est relativement plus maintenu.
l'installation tomcat:SOLR/lucene est sans conteste le meilleur de la base de connaissances/ support moteur de recherche, de tout logiciel que j'ai vu ( je suppose que je ne suis pas surpris), la zone de recherche ici:

http://www.lucidimagination.com/

Taches solaires, la nouvelle ruby wrapper, de s'appuyer sur solr-ruby.Semble prometteur, mais je ne pouvais pas le faire installer sur OSX.Les indices de gérer tous les objets, pas seulement les bases de données par AR
une chose qui est vraiment instructif est l'installation de 2 plugins de recherche, par exemplesphinx et SOLR, le sphinx et le furet, et de voir quels sont les différents résultats de leur retour.C'est aussi simple que @sphinx_results - @ferret_results

viens de voir ce post et les réponses

http://zooie.wordpress.com/2009/07/06/a-comparison-of-open-source-search-engines-and-indexing-twitter/

http://www.jroller.com/otis/entry/open_source_search_engine_benchmark

http://www.flax.co.uk/blog/2009/07/07/xapian-compared/

Autres conseils

Tout d'abord, mes préjugés évidents:J'ai créé et maintient Thinking Sphinx.

Comme cela arrive souvent, j'ai effectivement vu Ben Johnson (créateur de SearchLogic) présents à la NYC ruby répondre à propos de la nuit dernière.SearchLogic est SQL-seulement - si vous n'êtes pas affaire avec massives de tables, et de la pertinence des classements ne sont pas nécessaires, alors il pourrait être exactement ce que vous cherchez.La syntaxe est assez propre, trop.

Toutefois, si vous voulez toutes les requêtes de l'intelligence traitées par du code qui n'est pas votre propre, puis les Sphinx ou Solr (qui est Lucene sous le capot, je pense) est probablement d'aller travailler mieux.

SearchLogic est un bon plug-in, mais il est vraiment destiné à rendre plus lisible le code de votre recherche, il ne fournit pas l'indexation automatique qui fait Sphinx. Je ne l'ai pas utilisé Ferret, mais Sphinx est incroyablement puissant.

http://railscasts.com/episodes/120-thinking-sphinx

Grande introduction à voir comment il est flexible.

Je ne l'ai pas utilisé SearchLogic mais je peux vous dire que Lucene est un projet très mature, qui a mise en œuvre dans de nombreuses langues. Il est rapide et flexible et l'API est amusant de travailler avec. Il est un bon pari.

Compte tenu de cette question est encore très classé à Google pour la recherche en texte intégral, je voudrais vraiment dire que Sunspot est encore plus forte aujourd'hui si vous êtes intéressé par l'ajout de fonctionnalités de recherche en texte intégral à votre application Rails (et que vous souhaitez avoir Solr derrière vous pour cela). Vous pouvez vérifier un tutoriel complet sur cette ElasticSearch , que les objectifs être un temps réel recherche en texte intégral moteur construit sur Lucene (mais faire les choses différemment par rapport à Solr). ElasticSearch comprend hors-the-box sharding et la réplication à plusieurs nœuds, plus rapide recherche en temps réel, « percolateurs » pour vous permettre de recevoir des notifications quand quelque chose qui correspond à vos critères est disponible et il se déplace très vite avec de nombreuses fonctionnalités plus d'autres. Il est facile de construire quelque chose sur le dessus de celui-ci, étant donné que l'API est mort simple et entièrement basé sur REST en utilisant JSON comme format. On pourrait dire que vous ne même pas besoin d'un plug-in pour l'utiliser.

Personnellement, je ne prends pas la peine avec la base de données agnostiques pour les applications web et je suis très satisfaite de la recherche en texte intégral dans pg83. L'avantage est, si et lorsque vous modifiez votre cadre / langue, que vous aurez toujours la recherche en texte intégral.

Pour ceux qui cherchent un petit bijou de recherche simple, sans aucune dépendance, consultez acts_as_indexed

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow