Web Scraping de Notícias do G1 com Scrapy

Posted by : on

Categoria : python   webscraping


Web Scraping de Notícias do G1 com Scrapy

Introdução

Este projeto tem como objetivo a construção de um web scraping utilizando o Scrapy para extrair informações do site G1 e salvar os dados em um arquivo XLSX. O arquivo XLSX será construído com as seguintes colunas:

  • TITULO
  • SUBTITULO
  • DESCRICAO
  • LINK
  • DATA_PUBLICACAO
  • AUTOR_REPORTAGEM
  • TEXTO_NOTICA

Estrutura do Web Scraping

1. Entrar no Site

Acesse o feed RSS das notícias em https://g1.globo.com/dynamo/sp/ribeirao-preto-franca/rss2.xml.

2. Obter Dados

Extraia as seguintes informações:

  • TÍTULOS
  • SUBTÍTULOS
  • DESCRIÇÕES
  • LINKS
  • DATA DE PUBLICAÇÃO
  • AUTOR DA REPORTAGEM

3. Acessar o Site da Notícia

Visite o link da notícia para obter informações detalhadas. Exemplo de URL: https://g1.globo.com/sp/ribeirao-preto-franca/noticia/2024/08/22/justica-decreta-prisao-de-morador-de-rua-que-espancou-idoso-em-sertaozinho-sp.ghtml.

4. Obter o Autor da Notícia

Recupere o autor da notícia diretamente da página da notícia.

5. Obter o Texto da Notícia

Extraia o texto completo da notícia da página.

6. Tratamento de Dados

Realize o tratamento dos dados, incluindo:

  • Tratamento de Espaços
  • Remoção de Tags Desnecessárias

7. Salvar em Planilha XLSX

Armazene as informações extraídas em um arquivo XLSX com as colunas especificadas.

Demonstração do Web Scraping

Para visualizar uma demonstração do web scraping, confira o código-fonte no GitHub. Confir

Requisitos

  • Python 3.10
  • Scrapy
  • pandas
  • openpyxl

Sobre Rodrigo Rocha

Hoje trabalho com Pentaho data Integration, SQL (Consulta Simples No Banco de dados) Consumo de API (REST E SOAP)