Sumários

Técnicas de pré-processamento

24 Setembro 2024, 14:00 Ana Catarina dos Santos Martins


- Corpora e Lei de Herdan;

- Definição de tokens e tipos;
- Introdução à biblioteca NLTK: exploração e análise dos corpora.
- Tokenização e tokenização em subpalavras;
- Exercícios sobre extração de informação da web e tokenização utilizando a biblioteca NLTK.
- Normalização: conversão para minúsculas, remoção da pontuação, remoção de números, utilização dum formato standar, lematização, stemmização, remoção de stopwords e tratamento de caracteres especiais.
- Exercícios de normalização (stemização utilizando diferentes stemmers e lematização).
- Introdução a expressões regulares (concatenação, disjunção, intervalos, caracteres especiais, ancoras, agrupamento, precedência, greedy, quantificadores)

Aula de Apresentação

17 Setembro 2024, 14:00 Ana Catarina dos Santos Martins


- Introdução a Text Mining: o que é, quais são as áreas que intersecta, tipos de dados, principais aplicações.
- Apresentação dos objetivos da cadeira: 
1. Técnicas de pré-processamento;
2. Obtenção e filtragem de informação;
3. Extração de informação;
4. Semântica Vetorial e Modelos de Embeddings;
5. Naive Bayes, Classificação de texto e Sentimento.
6. Introdução a Modelos de Linguagem.
- Avaliação;
- Introdução ao desenvolvimento de projeto em Text Mining;
- Apresentação de Use Cases.