Miliardi di foto. Decine di milioni di video. Post
su blog e quotidiani online praticamente impossibili da quantificare, così come
aggiornamenti di status su Facebook, cinguettii su Twitter e immagini su
Instagram. Ogni giorno il web si popola di nuovi contenuti, dati e informazioni
di ogni genere creati dai miliardi di utenti che quotidianamente si connettono
alla Rete dai quattro angoli della Terra.
Dati di grande importanza per tutte quelle società
– come Google e Facebook, tanto per fare due nomi – interessate a vario titolo
al mondo della pubblicità online. Grazie agli user generated content (ma
non solo) queste società sono in grado di studiare le abitudini degli
internauti e proporre inserzioni pubblicitarie personalizzate (la cosiddetta pubblicità
tracciante) per catturare l'attenzione di possibili utenti.
Queste informazioni, però, possono interessare un
po' tutte le aziende presenti online. Dai post online e dalle pubblicazioni su
blog e quotidiani, infatti, è possibile desumere quale sia l'opinione del
pubblico e valutare la web
reputation di aziende e singoli cittadini (come politici, ad
esempio). Tutto ciò è reso possibile dal web scraping, attività che consente di
"scandagliare" l'intera Rete alla ricerca di informazioni da
piattaforme blogging, reti sociali e molto altro ancora.
Con il termine di web scraping si indicano
diverse metodologie che consentono di estrarre e collezionare dati e
informazioni da Internet. Generalmente, questa azione è compiuta attraverso
software che simulano la navigazione nel web compiuta da utenti in carne ed
ossa andando a "prelevare" determinate informazioni da differenti
portali web. Gli scopi, come già detto, possono essere molteplici: dal
monitoraggio dell'andamento di una promozione online alla ricerca di dati e
informazioni sensibili da rivendere ad altri utenti.
Il web scraping (detto anche web data
extraction, screen scraping o web
harvesting) è, di fatto, una forma di data mining, che consente di entrare in possesso di dati non
necessariamente di pubblico dominio (o non immediatamente accessibili). Per
questo motivo il web harvesting non è sempre visto di buon occhio: alcuni
gestori impediscono agli utenti di salvare pagine del loro portale, ma vedo
aggirata questa loro misura grazie alla web data extraction.
Per ottenere dati dalla Rete e dai portali web
possono essere messe in atto diverse tattiche. Tutte, però, sono caratterizzate
dall'utilizzo di API che consentono di accedere in rapida sequenza alle pagine
web ed estrarne i dati richiesti. Sfruttando bot e altri sistemi software
automatizzati si simula la navigazione online di internauti umani e si richiede
l'accesso a risorse web esattamente come accade nel caso di un normale web
browser. Il server risponderà inviando tutte le informazioni richieste, che
potranno essere collezionate all'interno di grandi database e analizzate e
catalogate come fossero big data.
Nessun commento:
Posta un commento