Ficha Unidade Curricular (FUC)

Informação Geral / General Information


Código :
02870
Acrónimo :
02870
Ciclo :
2.º ciclo
Línguas de Ensino :
Português (pt)
Língua(s) amigável(eis) :
Inglês

Carga Horária / Course Load


Semestre :
1
Créditos ECTS :
6.0
Aula Teórica (T) :
12.0h/sem
Aula Teórico-Prática (TP) :
24.0h/sem
Aula Prática e Laboratorial (PL) :
0.0h/sem
Trabalho de Campo (TC) :
0.0h/sem
Seminario (S) :
0.0h/sem
Estágio (E) :
0.0h/sem
Orientação Tutorial (OT) :
1.0h/sem
Outras (O) :
0.0h/sem
Horas de Contacto :
37.0h/sem
Trabalho Autónomo :
113.0
Horas de Trabalho Total :
150.0h/sem

Área científica / Scientific area


Sistemas de Informação

Departamento / Department


Departamento de Ciências e Tecnologias da Informação

Ano letivo / Execution Year


2024/2025

Pré-requisitos / Pre-Requisites


É esperado que os alunos tenham alguns conhecimentos básicos em probabilidades e estatística, vetores e espaços vetoriais e análise matemática, embora estes conceitos sejam revistos na sua primeira utilização. O aluno deve ter conhecimentos de programação (conhecer as estruturas de dados mais comuns) e saber escrever programas em Python ou Java. O aluno deve também ter alguns conhecimentos básicos de shell script.

Objetivos Gerais / Objectives


O principal objetivo desta UC é o de dar a conhecer ao aluno o potencial das grandes quantidades de texto atualmente disponíveis e os métodos computacionais que podem ser utilizados para extrair conhecimento a partir desses dados. Os alunos devem ficar a conhecer as tecnologias necessárias ao desenvolvimento de processos de Text Mining. Pretende-se que os alunos conheçam as tecnologias envolvidas, as suas aplicações imediatas e as suas limitações. Assim, as principais competências e atitudes que identificam os processos cognitivos internos do aluno serão as seguintes: reconhecer as diferentes vertentes científicas envolvidas nos processos de Text Mining; perceber quais são os métodos, algoritmos e resultados de cada uma das tarefas envolvidas; conhecer as aplicações realizáveis com as tecnologias atuais e discutir a evolução futura (previsível) dos tópicos nucleares e sua aplicação específica a tarefas tais como análise de sentimento e modelação de tópicos.

Objetivos de Aprendizagem e a sua compatibilidade com o método de ensino (conhecimentos, aptidões e competências a desenvolver pelos estudantes) / Learning outcomes


OA1. Compreender os fundamentos e desafios de Text Mining OA2. Conhecer técnicas de preparação, limpeza e representação de documentos OA3. Aplicar métodos de Processamento Computacional da Língua OA4. Classificar textos usando aprendizagem automática OA5: Agrupar documentos usando modelos de tópicos OA6. Aplicar na prática técnicas de Text Mining OA7: Descrever os conceitos, etapas e métodos principais envolvidos no desenvolvimento de processos de Text Mining OA8: Explicar o funcionamento de algoritmos avançados para extração de informação e classificação de texto e a sua aplicação no tratamento de casos reais OA9: Selecionar as técnicas apropriadas para tarefas específicas de análise de texto e avaliar os benefícios e desafios das opções adoptadas

Conteúdos Programáticos / Syllabus


Introdução CP1: Utilidade de grandes quantidades de texto, desafios e métodos atuais CP2: Informação não estruturada vs. (semi-)estruturada CP3: Obtenção e filtragem de informação, extração de informação e Data Mining Representação de documentos CP4: Preparação e limpeza de documentos CP5: Extração de propriedades CP6: Estratégias de pesagem de termos CP7: Modelos de espaços vectoriais CP8: Medidas de similaridade Processamento Computacional da Língua CP9: Modelos de língua CP10: Morfologia e análise morfossintática CP11: Estruturas complexas: análise sintáctica CP12: Extração de informação Classificação de Texto CP13: Introdução à aprendizagem automática estatística CP14: Medidas de avaliação CP15: Classificadores generativos CP16: Classificadores discriminativos CP17: Aprendizagem não supervisionada CP18: Recursos para Text Mining Casos de Estudo CP19: Análise de sentimento CP20: Identificação de tópicos

Demonstração da coerência dos conteúdos programáticos com os objetivos de aprendizagem da UC / Evidence that the curricular units content dovetails with the specified learning outcomes


OA1 e OA 7 estão relacionados com CP1, CP2 e CP3, que fornecem a base teórica e os desafios do Text Mining. OA2 está alinhado com CP4 a CP8, que cobrem a preparação, limpeza e representação de documentos. OA3 está ligado aos CP9 a CP12, focando no processamento computacional da língua. OA4 e OA5 correspondem aos CP13 a CP17, abordando a classificação de texto e aprendizagem automática. OA6 é atingido através dos CP18 a CP20, que incluem recursos e casos de estudo práticos para aplicar as técnicas aprendidas. OA8 é coberto por uma ampla gama de conteúdos, desde a introdução (CP1, CP3) até tópicos avançados como extração de informação (CP12), aprendizagem automática (CP13, CP15, CP16, CP17) e casos de estudo específicos (CP19, CP20). OA9 é abordado nos conteúdos introdutórios (CP1, CP3) e nos casos de estudo (CP19, CP20), permitindo aos alunos aplicar seu conhecimento em cenários práticos.

Avaliação / Assessment


Apenas é possível obter aprovação a esta UC por avaliação ao longo do semestre, não contemplando a modalidade de avaliação por exame. Componentes de avaliação: a) TESTES (2 mini-testes: 5% cada, teste final: 30%), realizados durante o período letivo; b) TRABALHOS (2 trabalhos, 30% cada), entregues e apresentados durante o período letivo. Os trabalhos podem ser realizados individualmente ou em grupo, sendo o número de elementos do grupo definido nos enunciados dos trabalhos. Não existindo notas mínimas, a nota de TRABALHOS está limitada à nota de TESTES + 6 valores. Exemplos de cálculo da nota final: TRABALHOS = 20, TESTES = 14 --> Nota Final = 18 TRABALHOS = 20, TESTES = 10 --> Nota Final = 14 (a nota da componente TRABALHOS foi limitada a 16 valores = 10 + 6) Em caso de reprovação, a nota de TESTES pode ser substituída por uma prova escrita a realizar no período de avaliação correspondente à 1º época, 2ª época ou época especial. Os estudantes poderão melhorar a nota da componente TESTES através de uma prova escrita, a realizar durante o período de avaliação correspondente à 1ª época. Os estudantes que o pretendam fazer, devem informar os docentes assim que forem divulgadas as notas da avaliação periódica. A assiduidade não é requisito de aprovação.

Metodologias de Ensino / Teaching methodologies


12h de aulas teóricas e 24h de aulas teórico/práticas semestrais; esperam-se aproximadamente 6h/semana de trabalho autónomo. Todas as aulas deverão ser leccionadas em salas equipadas com projeção digital. Nas aulas teórico/práticas os estudantes devem ter acesso a computadores com acesso à Internet, a um ambiente de desenvolvimento de software (Java e Python) e a um terminal para aceder a uma shell UNIX.

Demonstração da coerência das metodologias de ensino e avaliação com os objetivos de aprendizagem da UC / Evidence that the teaching and assessment methodologies are appropriate for the learning outcomes


As aulas teóricas são o meio ideal para a exposição dos conceitos teóricos necessários. As aulas teórico/práticas permitem uma maior interação entre o docente e o aluno, o que não só ajudará ao desenvolvimento do raciocínio e análise crítica desejáveis como também permitirá um enriquecimento da turma com os contributos específicos de cada estudante. O trabalho autónomo permitirá que o aluno desenvolva uma maior independência na abordagem deste tipo de problemas, permitindo um maior domínio dos principais conceitos.

Observações / Observations


Examples of calculation of the final grade: PROJECTS = 20, TESTS = 14 --> Final Grade = 18 PROJECTS = 20, TESTS = 10 --> Final Grade = 14

Bibliografia Principal / Main Bibliography


Charu C. Aggarwal, Machine Learning for Text, 2018, null, https://link.springer.com/book/10.1007/978-3-319-73531-3 Gabe Ignatow, Rada F. Mihalcea, An Introduction to Text Mining: Research Design, Data Collection, and Analysis — 1st Edition, 2017, null, https://methods.sagepub.com/book/an-introduction-to-text-mining Dan Jurafsky and James H. Martin, Speech and Language Processing (3rd ed. draft), 2020, null, https://web.stanford.edu/~jurafsky/slp3/

Bibliografia Secundária / Secondary Bibliography


Atefeh Farzindar and Diana Inkpen, Natural Language Processing for Social Media, Second Edition. Synthesis Lectures on Human Language Technologies, 2018, null, https://link.springer.com/book/10.1007/978-3-031-02167-1 Jacob Eisenstein, Introduction to Natural Language Processing, 2019, null, https://mitpress.mit.edu/9780262042840/introduction-to-natural-language-processing/

Data da última atualização / Last Update Date


2024-07-30