Currículo

Text Mining (Tda) 04397

Contextos

Groupo: Escola de Tecnologias Digitais Aplicadas (Iscte-Sintra) > Departamento de Tecnologias Digitais (DTD) > 1.º Ciclo

ECTS

6.0 (para cálculo da média)

Objectivos

OA1: Definir os conceitos, etapas e métodos principais envolvidos no desenvolvimento de processos de Text Mining. OA2: Atomizar documentos, criar dicionários e realizar outras tarefas de pré-processamento para preparar texto para tarefas de classificação. OA3: Selecionar e justificar as técnicas apropriadas para tarefas específicas de processamento de texto. OA4: Construir representações vetoriais a partir de textos. OA5: Explicar o funcionamento de algoritmos para classificação de texto, como o Naïve Bayes ou KNN. OA6: Aplicar um classificador no tratamento de casos reais. OA7: Agrupar documentos usando o algoritmo K-means. OA8: Desenvolver engenharia de prompt em LLMs.

Programa

CP1: Utilidade de grandes quantidades de texto, desafios e métodos atuais. CP2: Informação não estruturada vs. (semi-)estruturada. CP3: Obtenção e filtragem de informação, extração de informação e Data Mining. CP4: Preparação e limpeza de documentos, extração de propriedades e estratégias de pesagem de termos. CP5: Modelos de espaços vetoriais e medidas de similaridade. CP6: Introdução à aprendizagem automática estatística e medidas de avaliação. CP7: Aprendizagem supervisionada: Naïve Bayes, KNN e K-means. CP8: Análise de sentimento. CP9: Recursos para Text Mining. CP10: Introdução a Deep Learning. CP11: LLMs e modelos Retrieval Augmented Generation (RAG).

Método de Avaliação

Esta UC segue o modelo de avaliação ao longo do semestre (ALS). A ALS é constituída pelos seguintes elementos: - 1 trabalho prático [40%] - 3 mini-testes [20% cada * 3 = 60% no total] O trabalho prático poderá ser realizado individualmente ou em grupo, consistindo na elaboração de um projeto que será posteriormente alvo de discussão oral individual. Em caso de reprovação na ALS (<10 valores), ou caso o estudante opte por Avaliação por Exame, o exame corresponde a 100% da nota.

Carga Horária

Carga Horária de Contacto -

Trabalho Autónomo - 113.0

Carga Total -

Bibliografia

Principal

  • 1. Ozdemir, S. (2023). Quick Start Guide to Large Language Models: Strategies and Best Practices for Using ChatGPT and Other LLMs. Addison-Wesley Professional. 2. Tunstall, L., von Werra, L., & Wolf, T. (2022). Natural language processing with transformers, revised edition. O’Reilly Media. 3. Dan Jurafsky and James H. Martin (Sep 2021). Speech and Language Processing (3rd ed. draft). https://web.stanford.edu/~jurafsky/slp3/ 4. Vajjala, S., Majumder, B., Surana, H., & Gupta, A. (2020). Practical natural language processing: A pragmatic approach to processing and analyzing language data. O’Reilly Media. 5. Lane, H., Howard, C., & Hapke, H. (2019). Natural Language Processing in Action (First Edition). Pearson Professional.:

Secundária

  • Charu C. Aggarwal (2018). Machine Learning for Text. https://doi.org/10.1007/978-3-319-73531- 3. Gabe Ignatow, Rada F. Mihalcea (2017). An Introduction to Text Mining: Research Design, Data Collection, and Analysis 1st Edition (2017). SAGE Publications:

Disciplinas de Execução

2024/2025 - 2º Semestre