La metodologia

Il sistema per la classificazione automatica dei domini Covid-19 si basa su due fasi principali:

  • crawling delle pagine web
  • classificazione automatica dei siti web

Crawling delle pagine web

Il crawler web è lo strumento necessario per il download dei contenuti dei siti web. Nello specifico esso è stato progettato e implementato in modo tale da avere le seguenti caratteristiche:

  • analizzare un sito web ed effettuare il download delle pagine più rilevanti
  • riconoscere in modo automatico le pagine in costruzione o parcheggiate
  • creare un indice delle pagine scaricate, analizzare il codice sorgente di queste ed estrarne il testo contenuto, meta tag inclusi
  • evitare di effettuare troppe richieste simultanee ad uno stesso host, in modo tale da non essere inseriti in una blacklist da da parte di quest'ultimi, distribuendo le richieste nel tempo
  • esecuzione concorrente al fine di minimizzare i tempi di download delle pagine web

Classificazione automatica dei siti web

La classificazione automatica dei siti web è stata effettuata attraverso lo sviluppo e l’implementazione di un classificatore probabilistico.

Probabilistic Web Page Classifier

Questo classificatore si basa sull'utilizzo di dizionari creati manualmente, contenenti parole rilevanti, molto rilevanti, poco rilevanti e non rilevanti per ciascuna categoria definita. Il classificatore quindi legge il contenuto del sito web scaricato ed estratto attraverso il crawler al passo precedente, aggiunge alle parole anche il nome del dominio suddiviso in token rilevanti.

Il classificatore predice la categoria del sito web analizzando queste parole in relazione ai dizionari creati, assegnando ad ogni parola un determinato peso.

In questo modo i siti sono suddivisi in quattro macro categorie (covid, non covid, parcheggiato/in costruzione, inesistente) e per quelli rilevanti (covid) vengono estratte le parole più significative.