Detecção de notícias falsas veiculadas em português

Neste projeto almejamos desenvolver um modelo capaz de indicar a confiabilidade de trechos de notícias relacionadas aos presidenciáveis. Para tanto, utilizaremos técnicas de aprendizado de máquina e dados de notícias falsas e autênticas. O modelo produzido deverá alcançar acurácia maior que 80% nos testes finais e deverá ser disponibilizado em plataforma web que poderá ser utilizada por leigos.

Os dados já disponíveis estão etiquetados entre notícias falsas e verdadeiras e este escopo deverá ser aumentado através de web scraping em portais de agências de checagem de notícias, o que facilitará a etiquetagem dos dados obtidos. Os recursos computacionais para a análise exploratória dos dados, construção dos modelos e de implementação da solução advém dos computadores pessoais dos próprios desenvolvedores da equipe.

Os requerimentos para completude do projeto envolvem: aquisição de mais dados de notícias com diferentes etiquetas, definição das funções de limpeza, pré-processamento e codificação dos dados, padronização dos vocábulos utilizados nos textos, extração dos vetores dos textos, construção e comparação de modelos de aprendizado de máquina, obtenção e seleção de modelo com acurácia superior a 80% e implementação do modelo em página web acessível ao usuário final.

Riscos: falha em atingir o nível de acurácia estabelecido como meta para o projeto, dados usados não estarem totalmente certos, banco de dados ser insuficiente para algumas análises. Contingências (ainda por definir)

Metas de mineração: Realizar web scraping pelo menos uma vez ao dia com o objetivo de buscar o máximo de notícias. O objetivo será concluído se houver a coleta de mais de uma notícia de cada objeto de estudo.

Este projeto será desenvolvido utilizando a linguagem python (versão 3.8.10), devido a sua facilidade para manipular dados e as operações com dados existentes das bibliotecas.

Em relação às bibliotecas, para cada etapa serão utilizadas, respectivamente:

Web scraping
- Beautiful soup
- Selenium
Limpeza de dados
- NLTK
Análise Exploratória dos Dados:
- Pandas
- Numpy
- Seaborn
- Matplotlib.lib
- Path
Criação do pipeline, treinamento e validação dos modelos:
- Scikit-learn
- SHAP
Modelo em Produção
- Heroku Cloud

Objetivos e resultados chave

Em termos simples, os "Objetivos" se relacionam com a meta do projeto, e os "Resultados-Chave" expressam como essa meta será alcançada. Os Objetivos e resultados chave devem ser definidos no início de um projeto. A ideia é escolher uma métrica associada a um projeto e defini-la como o objetivo. Isso mostra a meta que você deseja alcançar. Em seguida, os resultados-chave são definidos para mostrar como atingir o objetivo. Os resultados principais são mensuráveis e geralmente limitados a três a cinco por objetivo.

Em síntese, os objetivos estão ligados as entregas e os resultados chave aos passos que precisam se seguir para conseguir alcançar os resultados. Exemplo de objetivos e resultados chave aplicados a projetos de ciência de dados.

Realizar uma análise exploratória de dados Fake.br-Corpus de @roneysco
- Identificar variáveis, descrevê-las e definir os tipos de dados
- Remover palavras irrelevantes, emojis, etc
- Lematizar as palavras flexionadas
Adquirir novas informações falsas e verdadeiras
- Realizar webscraping de portais com notícias já etiquetadas
- Higienizar os dados coletados
- Disponibilizar na forma de corpus
Criar modelo de detecção de informações falsas
- Transformar os textos em vetores
- ...
...

Conteúdo

Utilize esta seção para descrever o que cada notebook faz. Se tiver gerado algum relatório, também utilize essa seção para descrevêlo. Isso facilitará a leitura.

Utilização

Descreva aqui quais os passos necessários (dependências externas, comandos, etc.) para replicar o seu projeto. Instalação de dependências necessárias, criação de ambientes virtuais, etc. Este modelo é baseado em um projeto utilizando o Poetry como gerenciador de dependências e ambientes virtuais. Você pode utilizar o conda, ambientes virtuais genéricos do Python ou até mesmo containers do docker. Mas tente fazer algo que seja facilmente reprodutível.

Desenvolvedores

Organização de diretórios

Nota: essa seção é somente para entendimento do usuário do template. Por favor removê-la quando for atualizar este README.md

.
├── data/                   # Diretório contendo todos os arquivos de dados (Geralmente está no git ignore ou git LFS)
│   ├── external/           # Arquivos de dados de fontes externas
│   ├── processed/          # Arquivos de dados processados
│   └── raw/                # Arquivos de dados originais, imutáveis
├── docs/                   # Documentação gerada através de bibliotecas como Sphinx
├── models/                 # Modelos treinados e serializados, predições ou resumos de modelos
├── notebooks/              # Diretório contendo todos os notebooks utilizados nos passos
├── references/             # Dicionários de dados, manuais e todo o material exploratório
├── reports/                # Análioses geradas como html, latex, etc
│   └── figures/            # Imagens utilizadas nas análises
├── src/                    # Código fonte utilizado nesse projeto
│   ├── data/               # Classes e funções utilizadas para download e processamento de dados
│   ├── deployment/         # Classes e funções utilizadas para implantação do modelo
│   └── model/              # Classes e funções utilizadas para modelagem
├── pyproject.toml          # Arquivo de dependências para reprodução do projeto
├── poetry.lock             # Arquivo com subdependências do projeto principal
├── README.md               # Informações gerais do projeto
└── tasks.py                # Arquivo com funções para criação de tarefas utilizadas pelo invoke

Name		Name	Last commit message	Last commit date
Latest commit History 105 Commits
data		data
docs		docs
images		images
models		models
notebooks		notebooks
references		references
src		src
.gitignore		.gitignore
Dockerfile		Dockerfile
README.md		README.md
app.py		app.py
heroku.yml		heroku.yml
init.py		init.py
mkdocs.yml		mkdocs.yml
poetry.lock		poetry.lock
pyproject.toml		pyproject.toml
requirements.txt		requirements.txt
style.css		style.css
tasks.py		tasks.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Detecção de notícias falsas veiculadas em português

Objetivos e resultados chave

Conteúdo

Utilização

Desenvolvedores

Organização de diretórios

About

Releases 2

Packages

Contributors 5

Languages

atlantico-academy/apura

Folders and files

Latest commit

History

Repository files navigation

Detecção de notícias falsas veiculadas em português

Objetivos e resultados chave

Conteúdo

Utilização

Desenvolvedores

Organização de diretórios

About

Topics

Resources

Stars

Watchers

Forks

Releases 2

Packages 0

Contributors 5

Languages

Packages