Ficha Unidade Curricular (FUC)
Informação Geral / General Information
Carga Horária / Course Load
Área científica / Scientific area
Sistemas de Informação
Departamento / Department
Departamento de Ciências e Tecnologias da Informação
Ano letivo / Execution Year
2024/2025
Pré-requisitos / Pre-Requisites
É esperado que os alunos tenham alguns conhecimentos básicos em probabilidades e estatística, vetores e espaços vetoriais e análise matemática, embora estes conceitos sejam revistos na sua primeira utilização. O aluno deve ter conhecimentos de programação (conhecer as estruturas de dados mais comuns) e saber escrever programas em Python ou Java. O aluno deve também ter alguns conhecimentos básicos de shell script.
Objetivos Gerais / Objectives
O principal objetivo desta UC é o de dar a conhecer ao aluno o potencial das grandes quantidades de texto atualmente disponíveis e os métodos computacionais que podem ser utilizados para extrair conhecimento a partir desses dados. Os alunos devem ficar a conhecer as tecnologias necessárias ao desenvolvimento de processos de Text Mining. Pretende-se que os alunos conheçam as tecnologias envolvidas, as suas aplicações imediatas e as suas limitações. Assim, as principais competências e atitudes que identificam os processos cognitivos internos do aluno serão as seguintes: reconhecer as diferentes vertentes científicas envolvidas nos processos de Text Mining; perceber quais são os métodos, algoritmos e resultados de cada uma das tarefas envolvidas; conhecer as aplicações realizáveis com as tecnologias atuais e discutir a evolução futura (previsível) dos tópicos nucleares e sua aplicação específica a tarefas tais como análise de sentimento e modelação de tópicos.
Objetivos de Aprendizagem e a sua compatibilidade com o método de ensino (conhecimentos, aptidões e competências a desenvolver pelos estudantes) / Learning outcomes
OA1. Compreender os fundamentos e desafios de Text Mining OA2. Conhecer técnicas de preparação, limpeza e representação de documentos OA3. Aplicar métodos de Processamento Computacional da Língua OA4. Classificar textos usando aprendizagem automática OA5: Agrupar documentos usando modelos de tópicos OA6. Aplicar na prática técnicas de Text Mining OA7: Descrever os conceitos, etapas e métodos principais envolvidos no desenvolvimento de processos de Text Mining OA8: Explicar o funcionamento de algoritmos avançados para extração de informação e classificação de texto e a sua aplicação no tratamento de casos reais OA9: Selecionar as técnicas apropriadas para tarefas específicas de análise de texto e avaliar os benefícios e desafios das opções adoptadas
Conteúdos Programáticos / Syllabus
Introdução CP1: Utilidade de grandes quantidades de texto, desafios e métodos atuais CP2: Informação não estruturada vs. (semi-)estruturada CP3: Obtenção e filtragem de informação, extração de informação e Data Mining Representação de documentos CP4: Preparação e limpeza de documentos CP5: Extração de propriedades CP6: Estratégias de pesagem de termos CP7: Modelos de espaços vectoriais CP8: Medidas de similaridade Processamento Computacional da Língua CP9: Modelos de língua CP10: Morfologia e análise morfossintática CP11: Estruturas complexas: análise sintáctica CP12: Extração de informação Classificação de Texto CP13: Introdução à aprendizagem automática estatística CP14: Medidas de avaliação CP15: Classificadores generativos CP16: Classificadores discriminativos CP17: Aprendizagem não supervisionada CP18: Recursos para Text Mining Casos de Estudo CP19: Análise de sentimento CP20: Identificação de tópicos
Demonstração da coerência dos conteúdos programáticos com os objetivos de aprendizagem da UC / Evidence that the curricular units content dovetails with the specified learning outcomes
OA1 e OA 7 estão relacionados com CP1, CP2 e CP3, que fornecem a base teórica e os desafios do Text Mining. OA2 está alinhado com CP4 a CP8, que cobrem a preparação, limpeza e representação de documentos. OA3 está ligado aos CP9 a CP12, focando no processamento computacional da língua. OA4 e OA5 correspondem aos CP13 a CP17, abordando a classificação de texto e aprendizagem automática. OA6 é atingido através dos CP18 a CP20, que incluem recursos e casos de estudo práticos para aplicar as técnicas aprendidas. OA8 é coberto por uma ampla gama de conteúdos, desde a introdução (CP1, CP3) até tópicos avançados como extração de informação (CP12), aprendizagem automática (CP13, CP15, CP16, CP17) e casos de estudo específicos (CP19, CP20). OA9 é abordado nos conteúdos introdutórios (CP1, CP3) e nos casos de estudo (CP19, CP20), permitindo aos alunos aplicar seu conhecimento em cenários práticos.
Avaliação / Assessment
Apenas é possível obter aprovação a esta UC por avaliação ao longo do semestre, não contemplando a modalidade de avaliação por exame. Componentes de avaliação: a) TESTES (2 mini-testes: 5% cada, teste final: 30%), realizados durante o período letivo; b) TRABALHOS (2 trabalhos, 30% cada), entregues e apresentados durante o período letivo. Os trabalhos podem ser realizados individualmente ou em grupo, sendo o número de elementos do grupo definido nos enunciados dos trabalhos. Não existindo notas mínimas, a nota de TRABALHOS está limitada à nota de TESTES + 6 valores. Exemplos de cálculo da nota final: TRABALHOS = 20, TESTES = 14 --> Nota Final = 18 TRABALHOS = 20, TESTES = 10 --> Nota Final = 14 (a nota da componente TRABALHOS foi limitada a 16 valores = 10 + 6) Em caso de reprovação, a nota de TESTES pode ser substituída por uma prova escrita a realizar no período de avaliação correspondente à 1º época, 2ª época ou época especial. Os estudantes poderão melhorar a nota da componente TESTES através de uma prova escrita, a realizar durante o período de avaliação correspondente à 1ª época. Os estudantes que o pretendam fazer, devem informar os docentes assim que forem divulgadas as notas da avaliação periódica. A assiduidade não é requisito de aprovação.
Metodologias de Ensino / Teaching methodologies
12h de aulas teóricas e 24h de aulas teórico/práticas semestrais; esperam-se aproximadamente 6h/semana de trabalho autónomo. Todas as aulas deverão ser leccionadas em salas equipadas com projeção digital. Nas aulas teórico/práticas os estudantes devem ter acesso a computadores com acesso à Internet, a um ambiente de desenvolvimento de software (Java e Python) e a um terminal para aceder a uma shell UNIX.
Demonstração da coerência das metodologias de ensino e avaliação com os objetivos de aprendizagem da UC / Evidence that the teaching and assessment methodologies are appropriate for the learning outcomes
As aulas teóricas são o meio ideal para a exposição dos conceitos teóricos necessários. As aulas teórico/práticas permitem uma maior interação entre o docente e o aluno, o que não só ajudará ao desenvolvimento do raciocínio e análise crítica desejáveis como também permitirá um enriquecimento da turma com os contributos específicos de cada estudante. O trabalho autónomo permitirá que o aluno desenvolva uma maior independência na abordagem deste tipo de problemas, permitindo um maior domínio dos principais conceitos.
Observações / Observations
Examples of calculation of the final grade: PROJECTS = 20, TESTS = 14 --> Final Grade = 18 PROJECTS = 20, TESTS = 10 --> Final Grade = 14
Bibliografia Principal / Main Bibliography
Charu C. Aggarwal, Machine Learning for Text, 2018, null, https://link.springer.com/book/10.1007/978-3-319-73531-3 Gabe Ignatow, Rada F. Mihalcea, An Introduction to Text Mining: Research Design, Data Collection, and Analysis — 1st Edition, 2017, null, https://methods.sagepub.com/book/an-introduction-to-text-mining Dan Jurafsky and James H. Martin, Speech and Language Processing (3rd ed. draft), 2020, null, https://web.stanford.edu/~jurafsky/slp3/
Bibliografia Secundária / Secondary Bibliography
Atefeh Farzindar and Diana Inkpen, Natural Language Processing for Social Media, Second Edition. Synthesis Lectures on Human Language Technologies, 2018, null, https://link.springer.com/book/10.1007/978-3-031-02167-1 Jacob Eisenstein, Introduction to Natural Language Processing, 2019, null, https://mitpress.mit.edu/9780262042840/introduction-to-natural-language-processing/
Data da última atualização / Last Update Date
2024-07-30