martedì 04/06/2024 • 06:00
L’Autorità Garante ha diffuso delle linee guida finalizzate ad aumentare l’attenzione e a porre in essere azioni di contrasto circa la raccolta indiscriminata di dati personali su internet per addestrare sistemi di intelligenza artificiale generativa.
Ascolta la news 5:03
La raccolta massiva e indiscriminata di dati personali online è un fenomeno noto come “web scraping”, sul quale il Garante privacy è intervenuto di recente. Tecnica informatica finalizzata a estrarre dati dalle pagine dei siti web per poi classificarli in base alle loro caratteristiche, suddividerli per categorie e raccoglierli in database o tabelle per analizzarli, il web scraping è utilizzato, ad esempio, dai motori di ricerca come Google, ma può avere anche risvolti illeciti come la sottrazione di dati sensibili per phishing, furti di identità o attacchi informatici (come il DDoS, Distributed Denial of Service). Non da ultimo, il web scraping è altresì usato per raccogliere dati personali dai siti per addestrare algoritmi di intelligenza artificiale generativa (IAG). I grandi dataset utilizzati dagli sviluppatori di IAG hanno infatti provenienze variegate, ma il web scraping costituisce un denominatore comune.
A fine maggio, il Garante privacy ha perciò reso note delle indicazioni a quanti (soggetti pubblici o privati) pubblicano online dati personali in qualità di titolari del trattamento per sollecitare, innanzitutto, l’attenzione intorno a questa tendenza che, in alcuni contesti, non è ancora molto nota. Scopo del provvedimento, non prescrittivo, è poi quello di invitare i titolari del trattamento dei dati a compiere alcune valutazioni, sulla base del principio di accountability, mirate a stabilire se mettere in atto per prevenire o mitigare, in maniera selettiva, gli effetti del web scraping. Tutto ciò, in considerazione di una serie di elementi: lo stato dell’arte tecnologico e i costi di attuazione (in particolare con riferimento alle PMI), nonché la natura, l’ambito di applicazione, il contesto e le finalità dei trattamenti effettuati. Va detto, inoltre, che si tratta di misure non esaustive, da un punto di vista tecnologico, per quanto concerne il web scraping indesiderato, essendo quest’ultimo difficile da bloccare in assoluto.
Le misure da adottare
Quali soluzioni impiegare, allora, per contrastare questo fenomeno? Nel documento diffuso dal Garante, dove peraltro viene ben illustrato il funzionamento del web scraping, tra le azioni suggerite ai gestori di siti internet e piattaforme online, pubblici e privati, operanti in Italia, vi è la creazione di aree riservate. Queste aree, a cui si può accedere soltanto previa registrazione, costituiscono una valida cautela poiché sottraggono dati dalla ritenuta pubblica disponibilità. Tale misura, che non può dar luogo a un trattamento di dati eccessivo da parte del titolare, può - sebbene indirettamente - contribuire a una maggiore tutela dei dati personali rispetto ad attività di web scraping. Altro suggerimento proposto dall’Autorità Garante è l’inserimento di clausole ad hoc nei termini di servizio di un sito web o di una piattaforma online. Infatti, l’inserimento dell’espresso divieto di utilizzare tecniche di web scraping costituisce una clausola contrattuale che, se non rispettata, permette ai gestori di detti siti e piattaforme di agire in giudizio per far dichiarare l’inadempimento contrattuale della controparte. È una cautela di natura giuridica che opera, in quanto tale ex post, ma che può fungere da strumento di carattere special-preventivo e, in tal modo, fungere da deterrente, contribuendo a una maggiore tutela dei dati personali rispetto ad attività di web scraping. A tal proposito, il Garante ricorda l’ampio utilizzo e l’efficacia di tale misura nella protezione dei contenuti protetti dal diritto d’autore (ad esempio, i termini di servizio di YouTube, a cui Google vieta l’accesso con mezzi automatizzati, quali robot, botnet o strumenti di scraping, salvo si tratti di motori di ricerca pubblici, o salvo previa autorizzazione scritta da parte di YouTube).
Il Garante consiglia, inoltre, un semplice accorgimento tecnico come il monitoraggio del traffico di rete. Il controllo delle richieste http ricevute da un sito web o da una piattaforma online consente di individuare eventuali flussi anomali di dati in ingresso e in uscita e di intraprendere adeguate contromisure di protezione. A tal fine risulta utile la misura tecnica del rate limiting, che va appunto a limitare il traffico di rete e il numero di richieste, selezionando solo quelle provenienti da determinati indirizzi IP, allo scopo di impedire a priori un traffico eccessivo di dati.
Infine, il documento del Garante suggerisce interventi specifici sui bot. Poiché il web scraping si basa sull’utilizzo dei bot, qualsiasi tecnica capace di limitare l’accesso ai bot risulta efficace per contenere l’attività automatizzata di raccolta dei dati effettuata attraverso tali software. Purtroppo, nessuna tecnica che agisce sui bot è in grado di annullarne totalmente l’operatività, però alcune azioni di contrasto possono senza dubbio contribuire a prevenire e mitigare il web scraping non desiderato ai fini di addestramento dell’intelligenza artificiale generativa. Tra queste, viene segnalato l’intervento sul file robot.txt, strumento tecnico fondamentale nella gestione dell’accesso ai dati contenuti nei siti web, perché permette ai gestori di indicare se l’intero sito o alcune sue parti possono o meno essere oggetto di indicizzazione e scraping. Utili, altresì, il monitoraggio dei file di log, al fine di bloccare eventuali user-agent non desiderati, ove identificabili; l’inserimento di verifiche CAPTCHA (Completely Automated Public Turing-test-to-tell Computers and Humans Apart) le quali, imponendo un’azione eseguibile solo da un essere umano, impediscono l’operatività dei bot; la modifica periodica del markup HTML, in modo da rendere più complicato lo scraping da parte dei bot; l’incorporazione dei dati che si intendono sottrarre alle attività di scraping all’interno di oggetti multimediali (ad esempio, immagini) o altre forme di media.
© Copyright - Tutti i diritti riservati - Giuffrè Francis Lefebvre S.p.A.
Rimani aggiornato sulle ultime notizie di fisco, lavoro, contabilità, impresa, finanziamenti, professioni e innovazione
Per continuare a vederlo e consultare altri contenuti esclusivi abbonati a QuotidianoPiù,
la soluzione digitale dove trovare ogni giorno notizie, video e podcast su fisco, lavoro, contabilità, impresa, finanziamenti e mondo digitale.
Abbonati o
contatta il tuo
agente di fiducia.
Se invece sei già abbonato, effettua il login.