Web Scraping de Notícias do G1 com Scrapy

Este projeto tem como objetivo a construção de um web scraping utilizando o Scrapy para extrair informações do site [G1](https://g1.globo.com/dynamo/sp/ribeirao-preto-franca/rss2.xml) e salvar os dados em um arquivo XLSX.

Posted by : Rodrigo on Feb 28, 2025

Web Scraping de Notícias do G1 com Scrapy

Introdução

Este projeto tem como objetivo a construção de um web scraping utilizando o Scrapy para extrair informações do site G1 e salvar os dados em um arquivo XLSX. O arquivo XLSX será construído com as seguintes colunas:

TITULO
SUBTITULO
DESCRICAO
LINK
DATA_PUBLICACAO
AUTOR_REPORTAGEM
TEXTO_NOTICA

Estrutura do Web Scraping

1. Entrar no Site

Acesse o feed RSS das notícias em https://g1.globo.com/dynamo/sp/ribeirao-preto-franca/rss2.xml.

2. Obter Dados

Extraia as seguintes informações:

TÍTULOS
SUBTÍTULOS
DESCRIÇÕES
LINKS
DATA DE PUBLICAÇÃO
AUTOR DA REPORTAGEM

3. Acessar o Site da Notícia

Visite o link da notícia para obter informações detalhadas. Exemplo de URL: https://g1.globo.com/sp/ribeirao-preto-franca/noticia/2024/08/22/justica-decreta-prisao-de-morador-de-rua-que-espancou-idoso-em-sertaozinho-sp.ghtml.

4. Obter o Autor da Notícia

Recupere o autor da notícia diretamente da página da notícia.

5. Obter o Texto da Notícia

Extraia o texto completo da notícia da página.

6. Tratamento de Dados

Realize o tratamento dos dados, incluindo:

Tratamento de Espaços
Remoção de Tags Desnecessárias

7. Salvar em Planilha XLSX

Armazene as informações extraídas em um arquivo XLSX com as colunas especificadas.

Demonstração do Web Scraping

Para visualizar uma demonstração do web scraping, confira o código-fonte no GitHub. Confir

Requisitos

Python 3.10
Scrapy
pandas
openpyxl