Skip to content

deividxyz/mercantil_scrapy

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

7 Commits
 
 
 
 
 
 
 
 

Repository files navigation

mercantil_scrapy

Este es un scraper para Mercantil.com, basado en Scrapy, stem, privoxy y TOR. El scraper se encuentra contenido en un contenedor Docker.

¿Cómo ejecutar?

  1. Primero debes instalar Docker (https://www.docker.com/community-edition).
  2. Clonar este repositorio.
  3. Abrir un Terminal, cambiar al directorio del repositorio y ejecutar.
docker build -t mercantil_scrapy .

Esto generará la imágen de Docker con las dependencias necesarias para ejecutar el scraper.

  1. Una vez terminado el armado de la imagen, ejecuta docker run -i -t mercantil_scrapy bash en la Terminal. Esto lanzará una consola en el sistema virtual. Luego ejecuta cd /home/mercantil && ./start.sh para iniciar el proceso de webscraping.

El proceso demorará aproximadamente 1 semana ya que scrapy limitará las conexiones simultáneas para evitar posibles baneos de IP, y también cambiará la IP del servidor proxy cada 10 registros recolectados.

About

Porque el libro rojo es muy gordo...

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published