Ficha Unidade Curricular (FUC)

Informação Geral / General Information


Código :
02870
Acrónimo :
02870
Ciclo :
2.º ciclo
Línguas de Ensino :
Português (pt)
Língua(s) amigável(eis) :
Inglês

Carga Horária / Course Load


Semestre :
1
Créditos ECTS :
6.0
Aula Teórica (T) :
12.0h/sem
Aula Teórico-Prática (TP) :
24.0h/sem
Aula Prática e Laboratorial (PL) :
0.0h/sem
Trabalho de Campo (TC) :
0.0h/sem
Seminario (S) :
0.0h/sem
Estágio (E) :
0.0h/sem
Orientação Tutorial (OT) :
1.0h/sem
Outras (O) :
0.0h/sem
Horas de Contacto :
37.0h/sem
Trabalho Autónomo :
113.0
Horas de Trabalho Total :
150.0h/sem

Área científica / Scientific area


Sistemas de Informação

Departamento / Department


Departamento de Ciências e Tecnologias da Informação

Ano letivo / Execution Year


2023/2024

Pré-requisitos / Pre-Requisites


É esperado que os alunos tenham alguns conhecimentos básicos em probabilidades e estatística, vetores e espaços vetoriais e análise matemática, embora estes conceitos sejam revistos na sua primeira utilização. O aluno deve ter conhecimentos de programação (conhecer as estruturas de dados mais comuns) e saber escrever programas em Python ou Java. O aluno deve também ter alguns conhecimentos básicos de shell script.

Objetivos Gerais / Objectives


O principal objetivo desta UC é o de dar a conhecer ao aluno o potencial das grandes quantidades de texto atualmente disponíveis e os métodos computacionais que podem ser utilizados para extrair conhecimento a partir desses dados. Os alunos devem ficar a conhecer as tecnologias necessárias ao desenvolvimento de processos de Text Mining. Pretende-se que os alunos conheçam as tecnologias envolvidas, as suas aplicações imediatas e as suas limitações. Assim, as principais competências e atitudes que identificam os processos cognitivos internos do aluno serão as seguintes: reconhecer as diferentes vertentes científicas envolvidas nos processos de Text Mining; perceber quais são os métodos, algoritmos e resultados de cada uma das tarefas envolvidas; conhecer as aplicações realizáveis com as tecnologias atuais e discutir a evolução futura (previsível) dos tópicos nucleares e sua aplicação específica a tarefas tais como análise de sentimento e modelação de tópicos.

Objetivos de Aprendizagem e a sua compatibilidade com o método de ensino (conhecimentos, aptidões e competências a desenvolver pelos estudantes) / Learning outcomes


OA1: Atomizar documentos, criar dicionários e realizar outras tarefas de pré-processamento de modo a preparar texto para tarefas de classificação OA2: Criar representações vectoriais a partir de texto OA3: Criar ou aplicar um classificador OA4: Anotar morfossintacticamente texto OA5: Agrupar documentos usando modelos de tópicos OA6: Descrever os conceitos, etapas e métodos principais envolvidos no desenvolvimento de processos de Text Mining OA7: Usar corpora e ferramentas de análise e visualização para exploração de padrões OA8: Explicar o funcionamento de algoritmos avançados para extração de informação e classificação de texto e a sua aplicação no tratamento de casos reais OA9: Selecionar as técnicas apropriadas para tarefas específicas de análise de texto e avaliar os benefícios e desafios das opções adoptadas

Conteúdos Programáticos / Syllabus


Introdução CP1: Utilidade de grandes quantidades de texto, desafios e métodos atuais CP2: Informação não estruturada vs. (semi-)estruturada CP3: Obtenção e filtragem de informação, extração de informação e Data Mining Representação de documentos CP4: Preparação e limpeza de documentos CP5: Extração de propriedades CP6: Estratégias de pesagem de termos CP7: Modelos de espaços vectoriais CP8: Medidas de similaridade Processamento Computacional da Língua CP9: Modelos de língua CP10: Morfologia e análise morfossintática CP11: Estruturas complexas: análise sintáctica CP12: Extração de informação Classificação de Texto CP13: Introdução à aprendizagem automática estatística CP14: Medidas de avaliação CP15: Classificadores generativos CP16: Classificadores discriminativos CP17: Aprendizagem não supervisionada CP18: Recursos para Text Mining Casos de Estudo CP19: Análise de sentimento CP20: Identificação de tópicos

Demonstração da coerência dos conteúdos programáticos com os objetivos de aprendizagem da UC / Evidence that the curricular units content dovetails with the specified learning outcomes


OA1: CP3, CP4, CP10, CP11, CP12 OA2: CP4, CP5, CP6, CP7 OA3: CP8, CP13, CP14, CP15, CP16, CP18 OA4: CP9, CP10 OA5: CP8, CP13, CP17, CP18 OA6: CP1, CP2, CP3, CP4, CP5, CP13 OA7: CP6, CP8, CP18 OA8: CP1, CP3, CP12, CP13, CP15, CP16, CP17, CP19, CP20 OA9: CP1, CP3, CP19, CP20

Avaliação / Assessment


Apenas é possível obter aprovação a esta UC por avaliação periódica, não contemplando a modalidade de avaliação por exame. Componentes de avaliação: a) TESTES (2 mini-testes: 5% cada, teste final: 30%), realizados durante o período letivo; b) TRABALHOS (2 trabalhos, 30% cada), entregues e apresentados durante o período letivo. A nota de TRABALHOS está limitada à nota de TESTES + 6 valores. Em caso de reprovação, a nota de TESTES pode ser substituída por uma prova escrita a realizar no período de avaliação correspondente à 1º época, 2ª época ou época especial (Artº 14 do RGACC). Os estudantes poderão melhorar a nota da componente TESTES através de uma prova escrita, a realizar durante o período de avaliação correspondente à 1ª época. Os estudantes que o pretendam fazer, devem informar os docentes assim que forem divulgadas as notas da avaliação periódica. A assiduidade não é requisito de aprovação.

Metodologias de Ensino / Teaching methodologies


12h de aulas teóricas e 24h de aulas teórico/práticas semestrais; esperam-se aproximadamente 6h/semana de trabalho autónomo. Todas as aulas deverão ser leccionadas em salas equipadas com projeção digital. Nas aulas teórico/práticas os estudantes devem ter acesso a computadores com acesso à Internet, a um ambiente de desenvolvimento de software (Java e Python) e a um terminal para aceder a uma shell UNIX.

Demonstração da coerência das metodologias de ensino e avaliação com os objetivos de aprendizagem da UC / Evidence that the teaching and assessment methodologies are appropriate for the learning outcomes


As aulas teóricas são o meio ideal para a exposição dos conceitos teóricos necessários. As aulas teórico/práticas permitem uma maior interação entre o docente e o aluno, o que não só ajudará ao desenvolvimento do raciocínio e análise crítica desejáveis como também permitirá um enriquecimento da turma com os contributos específicos de cada estudante. O trabalho autónomo permitirá que o aluno desenvolva uma maior independência na abordagem deste tipo de problemas, permitindo um maior domínio dos principais conceitos.

Observações / Observations


Exemplos de cálculo da nota final: TRABALHOS = 20, TESTES = 14 --> Nota Final = 18 TRABALHOS = 20, TESTES = 10 --> Nota Final = 14 (a nota da componente TRABALHOS foi limitada a 16 valores = 10 + 6) Devido à atual situação provocada pela COVID-19, o processo de avaliação poderá sofrer algumas adaptações, que serão comunicadas oportunamente, caso tal venha a ser necessário.

Bibliografia Principal / Main Bibliography


Charu C. Aggarwal, Machine Learning for Text, 2018, null, https://link.springer.com/book/10.1007/978-3-319-73531-3 Gabe Ignatow, Rada F. Mihalcea, An Introduction to Text Mining: Research Design, Data Collection, and Analysis — 1st Edition, 2017, null, https://methods.sagepub.com/book/an-introduction-to-text-mining Dan Jurafsky and James H. Martin, Speech and Language Processing (3rd ed. draft), 2020, null, https://web.stanford.edu/~jurafsky/slp3/

Bibliografia Secundária / Secondary Bibliography


Atefeh Farzindar and Diana Inkpen, Natural Language Processing for Social Media, Second Edition. Synthesis Lectures on Human Language Technologies, 2018, null, https://link.springer.com/book/10.1007/978-3-031-02167-1 Jacob Eisenstein, Introduction to Natural Language Processing, 2019, null, https://mitpress.mit.edu/9780262042840/introduction-to-natural-language-processing/

Data da última atualização / Last Update Date


2024-02-16