Currículo

Text Mining para Ciência de Dados 03492

Contextos

Groupo: Ciência de Dados - 2023 > 2º Ciclo > Parte Escolar > Tronco Comum

ECTS

6.0 (para cálculo da média)

Objectivos

OA1. Compreender os fundamentos e desafios de Text Mining OA2. Conhecer técnicas de preparação, limpeza e representação de documentos OA3. Aplicar métodos de Processamento de Linguagem Natural OA4. Classificar de textos usando aprendizagem automática OA5. Aplicação prática de técnicas em Text Mining Os objetivos de aprendizagem estão alinhados com um método de ensino que combina teoria e prática. Os estudantes adquirirão uma base teórica sólida sobre Text Mining, seus desafios e técnicas principais. Através de atividades práticas e projetos, desenvolverão habilidades em pré-processamento, modelação, classificação e extração de informação de textos. No final da UC, os estudantes estarão capacitados a aplicar métodos de Text Mining em contextos reais, utilizando ferramentas e recursos atuais, preparando-os para enfrentar problemas complexos no campo da análise de texto.

Programa

Introdução CP1: Utilidade de grandes quantidades de texto, desafios e métodos atuais CP2: Informação não estruturada vs. (semi-)estruturada CP3: Obtenção e filtragem de informação, extração de informação e Data Mining Representação de documentos CP4: Preparação e limpeza de documentos CP5: Extração de propriedades CP6: Estratégias de pesagem de termos CP7: Modelos de espaços vectoriais CP8: Medidas de similaridade Processamento Computacional da Língua CP9: Modelos de língua CP10: Morfologia e análise morfossintática CP11: Estruturas complexas: análise sintáctica CP12: Extração de informação Classificação de Texto CP13: Introdução à aprendizagem automática estatística CP14: Medidas de avaliação CP15: Classificadores generativos CP16: Classificadores discriminativos CP17: Aprendizagem não supervisionada CP18: Recursos para Text Mining Casos de Estudo CP19: Análise de sentimento CP20: Identificação de tópicos

Método de Avaliação

Esta UC é feita apenas por avaliação ao longo do semestre, não contemplando a modalidade de avaliação por exame. Componentes de avaliação: a) TESTES (2 mini-testes: 5% cada, teste final: 40%), realizados durante o período letivo; b) TRABALHO (50%). A nota de TESTES pode ser substituída por uma prova escrita a realizar no período de avaliação correspondente à 1º época, 2ª época ou época especial (Artº 14 do RGACC). A nota de TRABALHO está limitada à nota de TESTES + 6 valores. Os estudantes poderão melhorar a nota da componente TESTES através de uma prova escrita, a realizar durante o período de avaliação correspondente à 1ª época. Os estudantes que o pretendam fazer, devem informar os docentes assim que forem divulgadas as notas da avaliação ao longo do semestre.

Carga Horária

Carga Horária de Contacto -

Trabalho Autónomo - 125.0

Carga Total -

Bibliografia

Principal

  • * Machine Learning for Text (2018). Charu C. Aggarwal. https://doi.org/10.1007/978-3-319-73531- 3 * An Introduction to Text Mining: Research Design, Data Collection, and Analysis 1st Edition (October 11, 2017). Gabe Ignatow, Rada F. Mihalcea. SAGE Publications. https://methods.sagepub.com/book/an-introduction-to-text-mining * Speech and Language Processing (3rd ed. draft, 2024), Dan Jurafsky and James H. Martin. Conteúdo disponível em: https://web.stanford.edu/~jurafsky/slp3/:

Secundária

  • * Natural Language Processing for Social Media, Second Edition. Synthesis Lectures on Human Language Technologies. Morgan & Claypool, 2017. Atefeh Farzindar and Diana Inkpen. https://link.springer.com/book/10.1007/978-3-031-02167-1 * Jacob Eisenstein. Introduction to Natural Language Processing. Adaptive Computation and Machine Learning. The MIT Press, 2019. https://mitpress.mit.edu/9780262042840/introduction-to-natural-language-processing/:

Disciplinas de Execução

2025/2026 - 2º Semestre

2023/2024 - 2º Semestre

2024/2025 - 2º Semestre