Ficha Unidade Curricular (FUC)
Informação Geral / General Information
Carga Horária / Course Load
Área científica / Scientific area
480 - Informática
Departamento / Department
Departamento de Tecnologias Digitais
Ano letivo / Execution Year
2022/2023
Pré-requisitos / Pre-Requisites
É esperado que os alunos tenham alguns conhecimentos básicos em probabilidades e estatística, vetores e espaços vetoriais e análise matemática, embora estes conceitos sejam revistos na sua primeira utilização. O aluno deve ter conhecimentos de programação (conhecer as estruturas de dados mais comuns) e saber escrever programas em Python.
Objetivos Gerais / Objectives
O principal objetivo desta UC é o de dar a conhecer ao aluno o potencial das grandes quantidades de texto atualmente disponíveis e os métodos computacionais que podem ser utilizados para extrair conhecimento a partir desses dados. Os alunos devem ficar a conhecer as tecnologias necessárias ao desenvolvimento de processos de Text Mining mais simples. Pretende-se que os alunos conheçam as tecnologias envolvidas, as suas aplicações imediatas e as suas limitações. Assim, as principais competências e atitudes que identificam os processos cognitivos internos do aluno serão as seguintes: reconhecer as diferentes vertentes científicas envolvidas nos processos de Text Mining; perceber quais são os métodos, algoritmos e resultados de cada uma das tarefas envolvidas; conhecer as aplicações realizáveis com as tecnologias atuais e discutir a evolução futura (previsível) dos tópicos nucleares e sua aplicação específica a tarefas de classificação de texto.
Objetivos de Aprendizagem e a sua compatibilidade com o método de ensino (conhecimentos, aptidões e competências a desenvolver pelos estudantes) / Learning outcomes
OA1: Descrever os conceitos, etapas e métodos principais envolvidos no desenvolvimento de processos de Text Mining OA2: Atomizar documentos, criar dicionários e realizar outras tarefas de pré-processamento de modo a preparar texto para tarefas de classificação OA3: Selecionar as técnicas apropriadas para tarefas específicas de processamento de texto OA4: Criar representações vectoriais a partir de textos OA5: Explicar o funcionamento de algoritmos para classificação de texto, tal como o Naïve Bayes ou nearest-neighbor OA6: Aplicar um classificador no tratamento de casos reais OA7: Agrupar documentos usando o algoritmo k-means
Conteúdos Programáticos / Syllabus
Introdução CP1: Utilidade de grandes quantidades de texto, desafios e métodos atuais CP2: Informação não estruturada vs. (semi-)estruturada CP3: Obtenção e filtragem de informação, extração de informação e Data Mining Representação de documentos CP4: Preparação e limpeza de documentos CP5: Extração de propriedades CP6: Estratégias de pesagem de termos CP7: Modelos de espaços vectoriais CP8: Medidas de similaridade Classificação de Texto CP9: Introdução à aprendizagem automática estatística CP10: Medidas de avaliação CP11: Aprendizagem supervisionada CP12: Naïve Bayes CP13: Algoritmo Nearest Neighbor CP14: Análise de sentimento CP15: Recursos para Text Mining Clustering CP16: algoritmo k-means
Demonstração da coerência dos conteúdos programáticos com os objetivos de aprendizagem da UC / Evidence that the curricular units content dovetails with the specified learning outcomes
"OA1: CP1, CP2, CP3 OA2: CP4, CP5, CP6, CP7, CP8 OA3: CP3, CP4, CP5, CP6 OA4: CP4, CP5, CP6, CP7 OA5: CP11, CP12, CP13 OA6: CP14, CP15 OA7: CP16"
Avaliação / Assessment
Esta UC pode ser feita por avaliação periódica ou por exame. A avaliação periódica consiste em duas componentes: TRABALHO (40%) e MINI-TESTES (3 mini-testes, 20% cada). A nota mímina de cada uma das componentes é 8 valores (em 20). Em caso de reprovação, ou caso o estudante opte por avaliação por exame, o exame corresponde a 100% da nota.
Metodologias de Ensino / Teaching methodologies
Esta UC está estruturada em aulas teóricas e aulas práticas, com exercícios práticos semanais; esperam-se aproximadamente 6h/semana de trabalho autónomo. Todas as aulas deverão ser leccionadas em salas equipadas com projeção digital, computadores com acesso à Internet e um ambiente de desenvolvimento Python. Tendo em conta uma vertente mais aplicacional, serão usadas ferramentas, tais como Python Orange, que permitem criar workflows visuais de mais alto nível.
Demonstração da coerência das metodologias de ensino e avaliação com os objetivos de aprendizagem da UC / Evidence that the teaching and assessment methodologies are appropriate for the learning outcomes
As aulas teóricas são o meio ideal para a exposição dos conceitos teóricos necessários. As aulas teórico/práticas permitem uma maior interação entre o docente e o aluno, o que não só ajudará ao desenvolvimento do raciocínio e análise crítica desejáveis como também permitirá um enriquecimento da turma com os contributos específicos de cada estudante. O trabalho autónomo permitirá que o aluno desenvolva uma maior independência na abordagem deste tipo de problemas, permitindo um maior domínio dos principais conceitos.
Observações / Observations
--
Bibliografia Principal / Main Bibliography
- Dan Jurafsky and James H. Martin (Sep 2021). Speech and Language Processing (3rd ed. draft). https://web.stanford.edu/~jurafsky/slp3/ - Gabe Ignatow, Rada F. Mihalcea (2017). An Introduction to Text Mining: Research Design, Data Collection, and Analysis 1st Edition (2017). SAGE Publications - Charu C. Aggarwal (2018). Machine Learning for Text. https://doi.org/10.1007/978-3-319-73531- 3
Bibliografia Secundária / Secondary Bibliography
- Atefeh Farzindar and Diana Inkpen (2017). Natural Language Processing for Social Media, Second Edition. Synthesis Lectures on Human Language Technologies. Morgan & Claypool.
Data da última atualização / Last Update Date
2024-02-16