WebScrapping y otras técnicas para crear comparadores o para robar Bases de Datos en WEB
“El comercio electrónico será un amplio sector en el que triunfarán numerosas empresas al mismo tiempo con estrategias diferentes. Aquí hay lugar no para diez o cien empresas, sino para miles o decenas de miles de empresas” - Jeff Bezos, fundador de Amazon.
Web scraping es una técnica que permite mediante la utilización de programas de software, extraer datos e información relevante de sitios web. Esta técnica es similar a la que Google, Bing ó DuckDuckGo utilizan para indexar información en los buscadores, utilizando un robot. Web Scrapping es una técnica universal.
Estos programas simulan la navegación realizada por un humano en la Web bien utilizando HTTP manualmente, o incrustando un navegador en una aplicación.
Alguno de los usos del web scraping son la comparación de precios de diferentes webs (ahora seguro que ya les suena más) en tiendas, seguros, la monitorización de datos relacionados con el clima de cierta región, la detección de cambios en sitios webs y la integración de datos en sitios webs.
Vale, las técnicas de web scrapping necesitan un robot capaz de hacer el trabajo sucio: me conecto, rastreo, indexo. Para esto desarrollaremos un web crowler que no deja de ser un bot que lanzaremos una y otra vez para realizar el trabajo sucio de “tomar prestada” toda la información que queremos indexar: Es igual un directorio de empresas, compañías de seguros (¿les suena rastreator?), hoteles, viajes, compañías aéreas…
Si quisiera crear por ejemplo un sitio que englobara información de empresas, podría utilizar las técnicas de Web Scrapping para captar información de Webs que reúnen información relevante de empresas. Luego indexaría información de https://www.publicidadconcursal.es/concursal-web/afectado/buscar sobre empresas en Concurso o en situaciones de crisis y ya tendré un buen agregador de información de empresas para un primer scoring económico.
Pero me falta más información: quiero saber qué contratos publican de reformas, obras u otros proyectos en ayuntamientos comunidades autónomas o diputaciones provinciales. Vale, entonces ahora necesito información sobre los proyectos que empresas publican en los boletines provinciales para disponer de información sobre la actividad que las empresas van a emprender, nuevas obras, reformas, etc. (https://www.borm.es/#/home/anuncio/12-06-2019/3717). Junta toda la información ya tendríamos el mejor scoring además de toda la información de proyectos que las empresas realizarán en los próximos años. Entonces ya tenemos toda la información para un gran CRM con información relevante de obras.
¿Cómo puedo disponer de esa información sin el esfuerzo de crear esa información?. Hay varias, todas pagando. Sobre informaciones de empresas. Si quiero información sobre concursos y publicaciones públicas la plataforma de contratación pública (https://contrataciondelestado.es/wps/portal/plataforma) Sobre las informaciones de proyectos de empresas hay proyectos como Construdata21 (https://www.construdata21.com/) Achilles Repro (https://www.achilles.com/es/inicio-sesion-miembros/). Todas ellas de pago.
Pero si quiere una solución específica, se puede conseguir, solo necesita contactar con el equipo de programadores necesario. Para frikis: https://www.youtube.com/watch?v=CsaqVQ4NIEU.
Linkedin: Aquilino García





















