Big Data / SEO

Server Log Analyzer

Visualizzare crawl budget e spider trap con Python & Pandas.

Ruolo

Data Engineer

Tempistiche

2 Settimane

Stack

Python, Pandas, Matplotlib

                            IP Address | Timestamp | Method | Status | User-Agent
                        
66.249.66.1 | 12/Dec/2023:14:02 | GET /blog/seo | 200 | Googlebot/2.1
66.249.66.1 | 12/Dec/2023:14:03 | GET /old-page | 404 | Googlebot/2.1
66.249.66.1 | 12/Dec/2023:14:05 | GET /api/v1 | 301 | Googlebot/2.1
[Analysis] Crawl Budget Waste Detected on
                            /old-page

La Sfida

Le visite di Googlebot sono invisibili agli analytics standard (GA4). Senza analizzare i log del server, è impossibile sapere "come" i motori di ricerca vedono il tuo sito, causando spesso sprechi di crawl budget su pagine 404 o parametri inutili.

Funzionalità Chiave

✓ Parsing Log (Apache/Nginx)
✓ Filtraggio Googlebot
✓ Heatmap Codici di Stato

Vedi su GitHub

La Soluzione

Usando `Python` e `Pandas`, ho creato uno script che ingerisce massicci file di log del server (.log, .gz). Filtra le richieste per isolare i bot dei motori di ricerca verificati (Google, Bing) ed esclude gli user-agent falsi.

I dati vengono poi visualizzati usando `Matplotlib` per mostrare la frequenza di scansione nel tempo, rivelando potenziali problemi di downtime del server o "spider trap" dove i bot rimangono bloccati in loop infiniti.

Verifica Bot

Controlla gli intervalli IP tramite Reverse DNS per garantire che il visitatore sia veramente Googlebot, non uno scraper.

Rilevamento Errori

Evidenzia gli errori 404 e 5xx del server che impattano direttamente il ranking SEO.

Il Risultato

5M+

Righe Analizzate / Minuto

+15%

Efficienza Scansione

Questa capacità di analisi consente audit tecnici profondi che vanno ben oltre ciò che un tipico crawler SEO (come Screaming Frog) può vedere "dall'esterno".

Prossimo Progetto

AI SEO Generator →