Spamdexing
Spamdexing es uno de los varios métodos de manipular la relevancia o prominencia de los recursos indexados por un motor de búsqueda, usualmente en una forma inconsistente con el propósito del sistema de indexado. Los motores de búsqueda usan una variedad de algoritmos para determinar la relevancia. Algunos de estos incluyen determinar si el término de búsqueda aparece en las etiquetas META, otras si el término de búsqueda aparece en el texto del cuerpo o en la URL de una página web. Muchos motores de búsqueda revisan si existe spamdexing y eliminan de sus índices las páginas sospechosas.
El aumento del spamdexing a mediados de la década de 1990 hizo que los motores de búsqueda de aquella época fueran menos útiles, y el éxito de Google al producir mejores resultados y combatir el spam de términos clave, a través de su sistema de análisis de enlaces basado en la reputación, PageRank, lo ayudaron a ser el sitio dominante para búsquedas a finales de la década. Aunque no se ha visto afectado por el spamdexing, Google no ha sido inmune a otros métodos más sofisticados. El Google bombing es otra forma de manipulación de resultados, que involucra la colocación de hiperenlaces que afectan directamente el posicionamiento de otros sitios.
La referencia más temprana conocida al término spamdexing fue hecha por Eric Convey en su artículo "Porn sneaks way back on Web", The Boston Herald, May 22, 1996, donde dice:
El problema se presenta cuando operadores de sitios cargan sus páginas web con cientos de términos extraños, así los motores de búsqueda los listaran entre direcciones legítimas. El proceso es llamado "spamdexing" una combinación de spamming - el término en Internet para envío de información no solicitada - e "indexing".[1]
Las técnicas comunes de spamdexing se pueden clasificar en dos clases: spam de contenido y spam de enlaces.
Spam de contenido
En estas técnicas se altera la vista lógica que un motor de búsqueda tiene sobre el contenido de la página. Todas se enfocan en variaciones del modelo de espacio vectorial para la recolección de información en colecciones de texto.
- Texto oculto o invisible
- Disfrazado de palabras claves y frases haciéndolas del mismo ( o casi el mismo) color que el fondo, usando una fuente pequeña u ocultándolas dentro de código HTML tal como secciones "no frame", atributos ALT y secciones "no script". Esto es útil para hacer que una página parezca relevante a un web crawler de tal forma que sea más probable encontrarla. Ejemplo: un promotor de un Esquema Ponzi quiere atraer internautas a un sitio donde el anuncia su fraude. Coloca texto oculto apropiado para una página de un fan de un grupo musical en su sitio, esperando que sea listado como un sitio de fanes y recibir visitas de amantes de la música. Sin embargo el texto oculto no siempre es spamdexing: también se usa para mejorar la accesibilidad.
- Relleno de palabras clave
- Esto es la colocación calculada de palabras clave dentro de una página para elevar el conteo, variedad y densidad de palabras clave de la página. Versiones antiguas de programas de indexado simplemente contaban cuán seguido aparecía una palabra clave, y la usaban para calcular su nivel de relevancia. Muchos de los modernos motores de búsqueda tienen la habilidad de analizar una página para determinar si la frecuencia es consistente con otros sitios creados específicamente para atraer tráfico.
- Relleno de Metatag
- Es la repetición, en los Metatag, de palabras clave que no están relacionadas con el contenido del sitio. Esta táctica es inefectiva desde 2005.
- Puertas de entrada o pasarela
- Creación de página de baja calidad que tienen muy poco contenido pero que en su lugar están rellenas de palabras y frases muy similares. Están diseñadas para alcanzar un puesto alto en los resultados de búsquedas, pero no le sirven a los visitantes que andan buscando información. Una puerta de entrada generalmente tendrá un "Click para entrar".
- Sitio de recortes
- Los sitios de recortes, también conocidos como sitios "Hechos para AdSense", son creados usando varios programas diseñados para "recortar" resultados de búsqueda u otras fuentes de contenido y crear "contenido" para un sitio web. La presentación específica del contenido de estos sitios es única, pero es meramente una amalgama de contenido tomado de otras fuentes, muchas veces sin permiso. Este tipo de sitios web, están generalmente llenos de publicidad, o redireccionan a otros sitios.
Spam de enlaces
El spam de enlaces se aprovecha de los algoritmos de posicionamiento basados en enlaces, tales como PageRank de Google, el cual asigna una posición más alta a un sitio web entre más sitios enlacen a él. Estas técnicas también están dirigidas a influenciar a otras basadas en enlaces como el algoritmo HITS.
- Granja de enlaces
- Consiste en crear comunidades de páginas mutuamente referidas, también conocidas como sociedades de admiración mutua.
- Enlaces ocultos
- Colocación de hiperenlaces donde los visitantes no los vean, para incrementar la popularidad de enlaces.
- "Sybil attack"
- Es la creación de múltiples personalidades falsas con fines maliciosos, denominado así , por una famosa paciente con un desorden de personalidad múltiple, Shirley Ardell Mason. Un spammer puede crear muchos diferentes sitios Web, que linkean entre sí, como por ejemplo falsos blogs conocidos como spam blogs.
- Wiki spam
- Usar la edición abierta de los sistemas wiki para colocar enlaces desde el sitio wiki al sitio spam. Muchas veces el tema del sitio spam, no está relacionado con la página en el wiki donde se añadió en enlace. A principios de 2005, Wikipedia implementó un valor nofollow para el atributo HTML 'rel'. Los enlaces con este atributo son ignorados por PageRank de Google. Los administradores de foros y wikis pueden usar esto para desalentar el uso de wiki spam.
Referencias
Véase también
- Adversarial information retrieval
- Google bomb
- Google juice
- Link farm
- TrustRank
- 302 Google Jacking
- Index (search engine) — overview of search engine indexing technology
Enlaces externos
Para reportar páginas spamdexadas
- Encontradas en resultados de Google
- Encontradas en resultados de Yahoo! (enlace roto disponible en Internet Archive; véase el historial, la primera versión y la última).
- Encontradas en resultados de Live Search
Search engine help pages for webmasters
- Google's Webmaster Guidelines page
- Yahoo!'s Search Engine Indexing page
- MSN Search's Site Owner page
Other tools and information for webmasters
- AIRWeb series of workshops on Adversarial Information Retrieval on the Web
- Online tool that detects spam techniques on web pages
- A list of open proxy and bot IP's. Ban IP's on this list to prevent comment spam. Updated weekly.
- Protecting Your Wiki From Spam