Sumários
Técnicas de pré-processamento
24 Setembro 2024, 14:00 • Ana Catarina dos Santos Martins
- Corpora e Lei de Herdan;
- Definição de tokens e tipos;
- Introdução à biblioteca NLTK: exploração e análise dos corpora.
- Tokenização e tokenização em subpalavras;
- Exercícios sobre extração de informação da web e tokenização utilizando a biblioteca NLTK.
- Normalização: conversão para minúsculas, remoção da pontuação, remoção de números, utilização dum formato standar, lematização, stemmização, remoção de stopwords e tratamento de caracteres especiais.
- Exercícios de normalização (stemização utilizando diferentes stemmers e lematização).
- Introdução a expressões regulares (concatenação, disjunção, intervalos, caracteres especiais, ancoras, agrupamento, precedência, greedy, quantificadores)
Aula de Apresentação
17 Setembro 2024, 14:00 • Ana Catarina dos Santos Martins
- Introdução a Text Mining: o que é, quais são as áreas que intersecta, tipos de dados, principais aplicações.
- Apresentação dos objetivos da cadeira:
1. Técnicas de pré-processamento;
2. Obtenção e filtragem de informação;
3. Extração de informação;
4. Semântica Vetorial e Modelos de Embeddings;
5. Naive Bayes, Classificação de texto e Sentimento.
6. Introdução a Modelos de Linguagem.
- Avaliação;
- Introdução ao desenvolvimento de projeto em Text Mining;
- Apresentação de Use Cases.