Ficha Unidade Curricular (FUC)
Informação Geral / General Information
Carga Horária / Course Load
Área científica / Scientific area
Ciência de Dados
Departamento / Department
ISCTE
Ano letivo / Execution Year
2023/2024
Pré-requisitos / Pre-Requisites
É esperado que os alunos tenham alguns conhecimentos básicos em probabilidades e estatística, vetores e espaços vetoriais e análise matemática, embora estes conceitos sejam revistos na sua primeira utilização. O aluno deve ter conhecimentos de programação (conhecer as estruturas de dados mais comuns) e saber escrever programas, por exemplo, em Python. O aluno deve também ter alguns conhecimentos básicos de shell script.
Objetivos Gerais / Objectives
O principal objetivo desta UC é o de dar a conhecer ao aluno o potencial das grandes quantidades de texto atualmente disponíveis e os métodos computacionais que podem ser utilizados para extrair conhecimento a partir desses dados. Os alunos devem ficar a conhecer as tecnologias necessárias ao desenvolvimento de processos de Text Mining. Pretende-se que os alunos conheçam as tecnologias envolvidas, as suas aplicações imediatas e as suas limitações. Assim, as principais competências e atitudes que identificam os processos cognitivos internos do aluno serão as seguintes: reconhecer as diferentes vertentes científicas envolvidas nos processos de Text Mining; perceber quais são os métodos, algoritmos e resultados de cada uma das tarefas envolvidas; conhecer as aplicações realizáveis com as tecnologias atuais e discutir a evolução futura (previsível) dos tópicos nucleares e sua aplicação específica a tarefas tais como análise de sentimento e modelação de tópicos.
Objetivos de Aprendizagem e a sua compatibilidade com o método de ensino (conhecimentos, aptidões e competências a desenvolver pelos estudantes) / Learning outcomes
OA1: Atomizar documentos, criar dicionários e realizar outras tarefas de pré-processamento de modo a preparar texto para tarefas de classificação OA2: Criar representações vectoriais a partir de texto OA3: Criar ou aplicar um classificador, como sejam Naïve Bayes ou nearest-neighbor OA4: Anotar morfossintacticamente texto OA5: Agrupar documentos usando o algoritmo k-means OA6: Descrever os conceitos, etapas e métodos principais envolvidos no desenvolvimento de processos de Text Mining OA7: Usar corpora e ferramentas de análise e visualização para exploração de padrões OA8: Explicar o funcionamento de algoritmos avançados para extração de informação e classificação de texto e a sua aplicação no tratamento de casos reais OA9: Selecionar as técnicas apropriadas para tarefas específicas de análise de texto e avaliar os benefícios e desafios das opções adoptadas
Conteúdos Programáticos / Syllabus
Introdução CP1: Utilidade de grandes quantidades de texto, desafios e métodos atuais CP2: Informação não estruturada vs. (semi-)estruturada CP3: Obtenção e filtragem de informação, extração de informação e Data Mining Representação de documentos CP4: Preparação e limpeza de documentos CP5: Extração de propriedades CP6: Estratégias de pesagem de termos CP7: Modelos de espaços vectoriais CP8: Medidas de similaridade Processamento Computacional da Língua CP9: Modelos de língua CP10: Morfologia e análise morfossintática CP11: Estruturas complexas: análise sintáctica CP12: Extração de informação Classificação de Texto CP13: Introdução à aprendizagem automática estatística CP14: Medidas de avaliação CP15: Classificadores generativos CP16: Classificadores discriminativos CP17: Aprendizagem não supervisionada CP18: Recursos para Text Mining Casos de Estudo CP19: Análise de sentimento CP20: Identificação de tópicos
Demonstração da coerência dos conteúdos programáticos com os objetivos de aprendizagem da UC / Evidence that the curricular units content dovetails with the specified learning outcomes
OA1: CP3, CP4, CP10, CP11, CP12 OA2: CP4, CP5, CP6, CP7 OA3: CP8, CP13, CP14, CP15, CP16, CP18 OA4: CP9, CP10 OA5: CP8, CP13, CP17, CP18 OA6: CP1, CP2, CP3, CP4, CP5, CP13 OA7: CP6, CP8, CP18 OA8: CP1, CP3, CP12, CP13, CP15, CP16, CP17, CP19, CP20 OA9: CP1, CP3, CP19, CP20
Avaliação / Assessment
Esta UC é feita apenas por avaliação periódica, não contemplando a modalidade de avaliação por exame. Componentes de avaliação: a) TESTES (2 mini-testes: 5% cada, teste final: 40%), realizados durante o período letivo; b) TRABALHO (50%). A nota de TESTES pode ser substituída por uma prova escrita a realizar no período de avaliação correspondente à 1º época, 2ª época ou época especial (Artº 14 do RGACC). A nota de TRABALHO está limitada à nota de TESTES + 6 valores. Os estudantes poderão melhorar a nota da componente TESTES através de uma prova escrita, a realizar durante o período de avaliação correspondente à 1ª época. Os estudantes que o pretendam fazer, devem informar os docentes assim que forem divulgadas as notas da avaliação periódica. A assiduidade não é requisito de aprovação.
Metodologias de Ensino / Teaching methodologies
Esta unidade curricular está estruturada numa combinação de aulas teóricas e aulas teórico/práticas. Uma parte das aulas teórico/práticas é dedicada a resolver exercícios passo-a-passo, demonstrando e acompanhando os conceitos abordados. Outra parte dessas aulas é usada para apoio à elaboração do trabalho. Todas as aulas deverão ser lecionadas em salas equipadas com projeção digital. Nas aulas teórico/práticas os estudantes devem ter acesso a computadores com acesso à Internet.
Demonstração da coerência das metodologias de ensino e avaliação com os objetivos de aprendizagem da UC / Evidence that the teaching and assessment methodologies are appropriate for the learning outcomes
As aulas teóricas são o meio ideal para a exposição dos conceitos teóricos necessários. As aulas teórico/práticas permitem uma maior interação entre o docente e o aluno, o que não só ajudará ao desenvolvimento do raciocínio e análise crítica desejáveis como também permitirá um enriquecimento da turma com os contributos específicos de cada estudante. O trabalho autónomo permitirá que o aluno desenvolva uma maior independência na abordagem deste tipo de problemas, permitindo um maior domínio dos principais conceitos.
Observações / Observations
Relativamente à avaliação, a componente TRABALHO implica uma apresentação oral obrigatória do mesmo. Exemplos de cálculo da nota final: TRABALHO = 20, TESTES = 14 --> Nota Final = 18 TRABALHO = 20, TESTES = 10 --> Nota Final = 14 (a nota da componente TRABALHO foi limitada a 16 valores = 10 + 6)
Bibliografia Principal / Main Bibliography
* Machine Learning for Text (2018). Charu C. Aggarwal. https://doi.org/10.1007/978-3-319-73531- 3 * An Introduction to Text Mining: Research Design, Data Collection, and Analysis 1st Edition (October 11, 2017). Gabe Ignatow, Rada F. Mihalcea. SAGE Publications. https://methods.sagepub.com/book/an-introduction-to-text-mining * Speech and Language Processing (3rd ed. draft, 2023), Dan Jurafsky and James H. Martin. Conteúdo disponível em: https://web.stanford.edu/~jurafsky/slp3/
Bibliografia Secundária / Secondary Bibliography
* Natural Language Processing for Social Media, Second Edition. Synthesis Lectures on Human Language Technologies. Morgan & Claypool, 2017. Atefeh Farzindar and Diana Inkpen. https://link.springer.com/book/10.1007/978-3-031-02167-1 * Jacob Eisenstein. Introduction to Natural Language Processing. Adaptive Computation and Machine Learning. The MIT Press, 2019. https://mitpress.mit.edu/9780262042840/introduction-to-natural-language-processing/
Data da última atualização / Last Update Date
2024-02-16