Seguro que si estás metido de lleno en el mundo de Internet cada vez escuchas o lees más términos en inglés que se te llegan a escapar. Uno de ellos puede ser el scraping que está muy de moda actualmente, sobre todo en la época en la que los ecommerce están en auge.
El scraping es básicamente extraer, copiar y almacenar el contenido de una página web. Se puede hacer de manera manual o automática con la ayuda de un programa. Lo lógico es que lo uses de manera positiva con el fin de añadirle mucho más valor a tu página web con contenido de otros sitios para que sea más completo. Pero lo cierto es que otros lo usan para todo lo contrario, lo cual podría afectar directamente a tu página web porque estarías violando los derechos de autor, además de que sería spam.
¿Para qué sirve entonces?
La verdad es que en la actualidad, no hay empresa que no use el llamado “scrapeo”. ¡Hasta Google lo hace! Para hacer el scrap, se usa un bot o crawler.
¿Has visto alguna vez el captcha de “No soy un robot”? Pues eso mismo protegen de los crawlers que, además de extraer la información, pueden crear cuentas falsas u otro movimiento automático.
¿Cómo protegerse?
Es importante saber cómo protegerse y ante eso, te dejamos las mejores opciones para hacerlo:
– Prevenir los ataques que te pueden llegar a través de solicitudes. Por ello, es imprescindible que filtres a través del firewall los posibles ataques, aunque hayas publicado un aviso legal en tu página. Se hace en su mayoría de manera manual, aunque ahora hay programas que sirven como “escudo” para este tipo de amenazas cibernéticas.
– Cambiar HTML frecuentemente: con el objetivo de hacerle la vida imposible a los scrappers, debes cambiar con frecuencia la estructura del HTML para que le cueste más rastrear y extraer el contenido, ya que deberá empezar el proceso de nuevo.
– Lista negra de IP y limitaciones: Si has conseguido identificar cuáles son las direcciones IP que están intentando hacer el scrap, puedes bloquearlas directamente y meterlas en una lista negra. Aunque eso no va a ser tan sencillo como parece. Para hacérselo aún más difícil, es recomendable que limites el número de solicitudes de una IP usando un captcha, por ejemplo.
– No te olvides de usar .htaccess: estos son ficheros con archivos de texto que son definidos por el administrador. Se puede modificar para evitar así que los que entran a hacer scrap accedan a todos tus datos. Por ello, una vez que has identificado a quienes entran con sus direcciones IP (aunque es cierto que las pueden ir variando), es el momento para cambiar la configuración y habilitar este fichero para que seas solo tú quien interprete los archivos que vas a colocar.
– Honeypots y tokens: es cierto que en este “mundillo” te vas a encontrar con diferentes palabros que has de aprender para saber cómo protegerte ante los ataques maliciosos, cada vez más en auge, por desgracia. Por ello es importante que sepas como crear un honeypot, que se llama a un enlace que lleva a un contenido falso y que es totalmente invisible para el usuario. Con este recurso, quien haga el scrap perderá el tiempo ya que no tendrá datos que extraer. En cuanto a los tokens de falsificación de solicitud, se trata de evitar que esos programas automáticas hagan ese tipo de solicitudes. Con el token, se harán un formulario oculto que haga que ese programa use unas habilidades profesionales que en muy pocas ocasiones tiene.