martedì 12 luglio 2016

Web Scraping



Miliardi di foto. Decine di milioni di video. Post su blog e quotidiani online praticamente impossibili da quantificare, così come aggiornamenti di status su Facebook, cinguettii su Twitter e immagini su Instagram. Ogni giorno il web si popola di nuovi contenuti, dati e informazioni di ogni genere creati dai miliardi di utenti che quotidianamente si connettono alla Rete dai quattro angoli della Terra.

Dati di grande importanza per tutte quelle società – come Google e Facebook, tanto per fare due nomi – interessate a vario titolo al mondo della pubblicità online. Grazie agli user generated content (ma non solo) queste società sono in grado di studiare le abitudini degli internauti e proporre inserzioni pubblicitarie personalizzate (la cosiddetta pubblicità tracciante) per catturare l'attenzione di possibili utenti.

Queste informazioni, però, possono interessare un po' tutte le aziende presenti online. Dai post online e dalle pubblicazioni su blog e quotidiani, infatti, è possibile desumere quale sia l'opinione del pubblico e valutare la web reputation di aziende e singoli cittadini (come politici, ad esempio). Tutto ciò è reso possibile dal web scraping, attività che consente di "scandagliare" l'intera Rete alla ricerca di informazioni da piattaforme blogging, reti sociali e molto altro ancora.

Con il termine di web scraping si indicano diverse metodologie che consentono di estrarre e collezionare dati e informazioni da Internet. Generalmente, questa azione è compiuta attraverso software che simulano la navigazione nel web compiuta da utenti in carne ed ossa andando a "prelevare" determinate informazioni da differenti portali web. Gli scopi, come già detto, possono essere molteplici: dal monitoraggio dell'andamento di una promozione online alla ricerca di dati e informazioni sensibili da rivendere ad altri utenti.

Il web scraping (detto anche web data extraction, screen scraping o web harvesting) è, di fatto, una forma di data mining, che consente di entrare in possesso di dati non necessariamente di pubblico dominio (o non immediatamente accessibili). Per questo motivo il web harvesting non è sempre visto di buon occhio: alcuni gestori impediscono agli utenti di salvare pagine del loro portale, ma vedo aggirata questa loro misura grazie alla web data extraction.

Per ottenere dati dalla Rete e dai portali web possono essere messe in atto diverse tattiche. Tutte, però, sono caratterizzate dall'utilizzo di API che consentono di accedere in rapida sequenza alle pagine web ed estrarne i dati richiesti. Sfruttando bot e altri sistemi software automatizzati si simula la navigazione online di internauti umani e si richiede l'accesso a risorse web esattamente come accade nel caso di un normale web browser. Il server risponderà inviando tutte le informazioni richieste, che potranno essere collezionate all'interno di grandi database e analizzate e catalogate come fossero big data.

Nessun commento:

Posta un commento