Cuantas veces os han pasado un documento de Word con decenas de páginas y lo teníais que pasar a HTML??! Yo cuando me pasa me cago en la leche, porque a pesar que desde word lo puedes guardar a formato HTML, el HTML generado es una mierda! hablando claro. Siempre hay que copiarlo e ir metiendo los <p>, <br />, etc. a pelo para que quede bien o ir modificando el html generado desde Word, y aunque es una tarea muy sencilla se puede convertir en una autentica locura y un aburrimiento. Pues hoy he descubierto un trucazo para pasar de Word a HTML. Yo no he encontrado, ni se como hacerlo mejor pero os digo lo que yo he hecho: con Gmail!! Vas a Gmail y le das a escribir un nuevo mensaje Adjuntar el documento Word en el mensaje. Te lo envías a ti mismo. Ver el mensaje, hacer click en el link que dice “Ver como HTML” y el documento se abrirá en una nueva ventana. Hacer click derecho en la página abierta y seleccionar “Ver código fuente” y listo!! Quitarle la cabecera que genera y un div con un mensaje genérico que tiene, pero el resto [...]
Los stopwords de Sphinx son palabras que no queremos indexar en nuestro motor de búsqueda. El formato por defecto del archivo de stopwords.txt es una lista de palabras separadas por coma, en un archivo de texto plano. En un indexer se pueden especificar varios stopwords si se precisa stopwords = /usr/local/sphinx/data/stopwords.txt stopwords = stopwords-es.txt stopwords-en.txt Si necesitas saber mas sobre stopwords puedes ver la documentacion oficil de Sphinx http://www.sphinxsearch.com/docs/current.html#conf-stopwords A continuación dejo mi listado de palabras que no quiero indexar de mi stopwords.txt espero que os sirvan!! el la los les las de del a ante con en para por y o u tu te ti le que al ha un han lo su una estas esto este es tras suya a acá ahí ajena ajenas ajeno ajenos al algo algún alguna algunas alguno algunos allá alli allí ambos ampleamos ante antes aquel aquella aquellas aquello aquellos aqui aquí arriba asi atras aun aunque bajo bastante bien cabe cada casi cierta ciertas cierto ciertos como cómo con conmigo conseguimos conseguir consigo consigue consiguen consigues contigo contra cual cuales cualquier cualquiera cualquieras cuancuán cuando cuanta cuánta cuantas cuántas cuanto cuánto cuantos cuántos de dejar del demás demas demasiada demasiadas demasiado demasiados [...]
Para aquellos que usen Sphinx como motor de búsqueda en sus aplicaciones y que necesitan realizar búsquedas independientes de los acentos (buscar “jose” y encontrar “jose” y “josé”), también que sea capaz de buscar eñes, les vendrá muy bien la siguiente configuración del charset para español. charset_table = 0..9, A..Z->a..z, _, -, a..z, U+410..U+42F->U+430..U+44F, U+430..U+44F, \ U+C7->U+E7, U+E7, \ U+D1->U+F1, U+F1, \ U+DD->y, U+FD->y, \ U+C0->a, U+C1->a, U+C2->a, U+C3->a, U+C4->a, U+C5->a, \ U+E0->a, U+E1->a, U+E2->a, U+E3->a, U+E4->a, U+E5->a, \ U+C8->e, U+C9->e, U+CA->e, U+CB->e, \ U+E8->e, U+E9->e, U+EA->e, U+EB->e, \ U+CC->i, U+CD->i, U+CE->i, U+CF->i, \ U+EC->i, U+ED->i, U+EE->i, U+EF->i, \ U+D2->o, U+D3->o, U+D4->o, U+D5->o, U+D6->o, \ U+F2->o, U+F3->o, U+F4->o, U+F5->o, U+F6->o, \ U+D9->u, U+DA->u, U+DB->u, U+DC->u, \ U+F9->u, U+FA->u, U+FB->u, U+FC->u charset_type = utf-8 ejemplo de uno de mis index en Sphinx index mi_indice { source = mi_indice path = /path/completo_a_indice/mi_indice docinfo = extern charset_table = 0..9, A..Z->a..z, _, -, a..z, U+410..U+42F->U+430..U+44F, U+430..U+44F, \ U+C7->U+E7, U+E7, \ U+D1->U+F1, U+F1, \ U+DD->y, U+FD->y, \ U+C0->a, U+C1->a, U+C2->a, U+C3->a, U+C4->a, U+C5->a, \ U+E0->a, U+E1->a, U+E2->a, U+E3->a, U+E4->a, U+E5->a, \ U+C8->e, U+C9->e, U+CA->e, U+CB->e, \ U+E8->e, U+E9->e, U+EA->e, U+EB->e, \ U+CC->i, U+CD->i, U+CE->i, U+CF->i, \ U+EC->i, U+ED->i, U+EE->i, U+EF->i, \ U+D2->o, U+D3->o, U+D4->o, U+D5->o, [...]
¿Cómo realizar búsquedas full-text en una tabla con miles o millones de registros, sin que el mysql falle y el site siga siendo relevante y no se caiga? La solución se llama Sphinx. Es un motor de búsqueda (search engine) que proporciona velocidad, gran eficiencia y proporciona a aplicaciones y webs la función de búsquedas full-text relevantes. Básicamente lo que hace es indexar todo el contenido de una tabla, o varias tablas, en el disco duro, cuando se realiza una búsqueda el servidor requiere espacio en disco duro y memora RAM para realizar la búsqueda. Al tenerla indexada es capaz de procesar una búsqueda full-text en 6GB de texto en 0.1 segundos, mientras que esto en SQL sería imposible o tardaría muchísimo. Tremendo descubrimiento…. recomiendo usarlo Bueno esto es algo de la teoría, la práctica es otra cosa, yo he estado 2 días para entender, implementar y dejarlo funcionando. Para poder instalarlo necesitareis tener permisos como root en vuestro servidor. Las librerías necesarias son mysql-devel y los compiladores gcc y g++. En el caso que no vengan instaladas ejecutar los siguientes comandos para descargar los paquetes e instalarlos. $ yum -y install mysql-devel $ yum -y install gcc $ yum [...]