Tienes activado un bloqueador de publicidad

Intentamos presentarte publicidad respectuosa con el lector, que además ayuda a mantener este medio de comunicación y ofrecerte información de calidad.

Por eso te pedimos que nos apoyes y desactives el bloqueador de anuncios. Gracias.

Opinión |    La columna de AG
Lunes, 16 de Septiembre de 2019
Aquilino García

WebScrapping y otras técnicas para crear comparadores o para robar Bases de Datos en WEB

“El comercio electrónico será un amplio sector en el que triunfarán numerosas empresas al mismo tiempo con estrategias diferentes. Aquí hay lugar no para diez o cien empresas, sino para miles o decenas de miles de empresas” - Jeff Bezos, fundador de Amazon.

 

Web scraping es una técnica que permite mediante la utilización de programas de software, extraer datos e información relevante de sitios web. Esta técnica es similar a la que Google, Bing ó DuckDuckGo utilizan para indexar información en los buscadores, utilizando un robot. Web Scrapping es una técnica universal.


Estos programas simulan la navegación realizada por un humano en la Web bien utilizando HTTP manualmente, o incrustando un navegador en una aplicación.

 

Alguno de los usos del web scraping son la comparación de precios de diferentes webs (ahora seguro que ya les suena más) en tiendas, seguros, la monitorización de datos relacionados con el clima de cierta región, la detección de cambios en sitios webs y la integración de datos en sitios webs.


Vale, las técnicas de web scrapping necesitan un robot capaz de hacer el trabajo sucio: me conecto, rastreo, indexo. Para esto desarrollaremos un web crowler que no deja de ser un bot que lanzaremos una y otra vez para realizar el trabajo sucio de “tomar prestada” toda la información que queremos indexar: Es igual un directorio de empresas, compañías de seguros (¿les suena rastreator?), hoteles, viajes, compañías aéreas…

 

Si quisiera crear por ejemplo un sitio que englobara información de empresas, podría utilizar las técnicas de Web Scrapping para captar información de Webs que reúnen información relevante de empresas. Luego indexaría información de https://www.publicidadconcursal.es/concursal-web/afectado/buscar sobre empresas en Concurso o en situaciones de crisis y ya tendré un buen agregador de información de empresas para un primer scoring económico.  

 

Pero me falta más información: quiero saber qué contratos publican de reformas, obras u otros proyectos en ayuntamientos comunidades autónomas o diputaciones provinciales. Vale, entonces ahora necesito información sobre los proyectos que empresas publican en los boletines provinciales para disponer de información sobre la actividad que las empresas van a emprender, nuevas obras, reformas, etc. (https://www.borm.es/#/home/anuncio/12-06-2019/3717). Junta toda la información ya tendríamos el mejor scoring además de toda la información de proyectos que las empresas realizarán en los próximos años. Entonces ya tenemos toda la información para un gran CRM con información relevante de obras.


¿Cómo puedo disponer de esa información sin el esfuerzo de crear esa información?. Hay varias, todas pagando. Sobre informaciones de empresas. Si quiero información sobre concursos y publicaciones públicas la plataforma de contratación pública (https://contrataciondelestado.es/wps/portal/plataforma)   Sobre las informaciones de proyectos de empresas hay proyectos como Construdata21 (https://www.construdata21.com/) Achilles Repro (https://www.achilles.com/es/inicio-sesion-miembros/). Todas ellas de pago.


Pero si quiere una solución específica, se puede conseguir, solo necesita contactar con el equipo de programadores necesario. Para frikis: https://www.youtube.com/watch?v=CsaqVQ4NIEU.

 

@AquilineGarcía

Linkedin: Aquilino García

Con tu cuenta registrada

Escribe tu correo y te enviaremos un enlace para que escribas una nueva contraseña.