Ficha Unidade Curricular (FUC)
Informação Geral / General Information
Carga Horária / Course Load
Área científica / Scientific area
Ciência de Dados
Departamento / Department
ISCTE
Ano letivo / Execution Year
2024/2025
Pré-requisitos / Pre-Requisites
É esperado que os alunos tenham alguns conhecimentos básicos em probabilidades e estatística, vetores e espaços vetoriais e análise matemática, embora estes conceitos sejam revistos na sua primeira utilização. O aluno deve ter conhecimentos de programação (conhecer as estruturas de dados mais comuns) e saber escrever programas, por exemplo, em Python. O aluno deve também ter alguns conhecimentos básicos de shell script.
Objetivos Gerais / Objectives
O principal objetivo desta UC é o de dar a conhecer ao aluno o potencial das grandes quantidades de texto atualmente disponíveis e os métodos computacionais que podem ser utilizados para extrair conhecimento a partir desses dados. Os alunos devem ficar a conhecer as tecnologias necessárias ao desenvolvimento de processos de Text Mining. Pretende-se que os alunos conheçam as tecnologias envolvidas, as suas aplicações imediatas e as suas limitações. Assim, as principais competências e atitudes que identificam os processos cognitivos internos do aluno serão as seguintes: reconhecer as diferentes vertentes científicas envolvidas nos processos de Text Mining; perceber quais são os métodos, algoritmos e resultados de cada uma das tarefas envolvidas; conhecer as aplicações realizáveis com as tecnologias atuais e discutir a evolução futura (previsível) dos tópicos nucleares e sua aplicação específica a tarefas tais como análise de sentimento e modelação de tópicos.
Objetivos de Aprendizagem e a sua compatibilidade com o método de ensino (conhecimentos, aptidões e competências a desenvolver pelos estudantes) / Learning outcomes
OA1. Compreender os fundamentos e desafios de Text Mining OA2. Conhecer técnicas de preparação, limpeza e representação de documentos OA3. Aplicar métodos de Processamento de Linguagem Natural OA4. Classificar de textos usando aprendizagem automática OA5. Aplicação prática de técnicas em Text Mining Os objetivos de aprendizagem estão alinhados com um método de ensino que combina teoria e prática. Os estudantes adquirirão uma base teórica sólida sobre Text Mining, seus desafios e técnicas principais. Através de atividades práticas e projetos, desenvolverão habilidades em pré-processamento, modelação, classificação e extração de informação de textos. No final da UC, os estudantes estarão capacitados a aplicar métodos de Text Mining em contextos reais, utilizando ferramentas e recursos atuais, preparando-os para enfrentar problemas complexos no campo da análise de texto.
Conteúdos Programáticos / Syllabus
Introdução CP1: Utilidade de grandes quantidades de texto, desafios e métodos atuais CP2: Informação não estruturada vs. (semi-)estruturada CP3: Obtenção e filtragem de informação, extração de informação e Data Mining Representação de documentos CP4: Preparação e limpeza de documentos CP5: Extração de propriedades CP6: Estratégias de pesagem de termos CP7: Modelos de espaços vectoriais CP8: Medidas de similaridade Processamento Computacional da Língua CP9: Modelos de língua CP10: Morfologia e análise morfossintática CP11: Estruturas complexas: análise sintáctica CP12: Extração de informação Classificação de Texto CP13: Introdução à aprendizagem automática estatística CP14: Medidas de avaliação CP15: Classificadores generativos CP16: Classificadores discriminativos CP17: Aprendizagem não supervisionada CP18: Recursos para Text Mining Casos de Estudo CP19: Análise de sentimento CP20: Identificação de tópicos
Demonstração da coerência dos conteúdos programáticos com os objetivos de aprendizagem da UC / Evidence that the curricular units content dovetails with the specified learning outcomes
OA1 está relacionado com CP1, CP2 e CP3, que fornecem a base teórica e os desafios do Text Mining. OA2 está alinhado com CP4 a CP8, que cobrem a preparação, limpeza e representação de documentos. OA3 está ligado aos CP9 a CP12, focando no processamento computacional da língua. OA4 corresponde aos CP13 a CP17, abordando a classificação de texto e aprendizagem automática. OA5 associa-se aos CP18 a CP20, que incluem recursos e casos de estudo práticos para aplicar as técnicas aprendidas.
Avaliação / Assessment
Esta UC é feita apenas por avaliação ao longo do semestre, não contemplando a modalidade de avaliação por exame. Componentes de avaliação: a) TESTES (2 mini-testes: 5% cada, teste final: 40%), realizados durante o período letivo; b) TRABALHO (50%). A nota de TESTES pode ser substituída por uma prova escrita a realizar no período de avaliação correspondente à 1º época, 2ª época ou época especial (Artº 14 do RGACC). A nota de TRABALHO está limitada à nota de TESTES + 6 valores. Os estudantes poderão melhorar a nota da componente TESTES através de uma prova escrita, a realizar durante o período de avaliação correspondente à 1ª época. Os estudantes que o pretendam fazer, devem informar os docentes assim que forem divulgadas as notas da avaliação ao longo do semestre.
Metodologias de Ensino / Teaching methodologies
Esta unidade curricular está estruturada numa combinação de aulas teóricas e aulas teórico/práticas. Uma parte das aulas teórico/práticas é dedicada a resolver exercícios passo-a-passo, demonstrando e acompanhando os conceitos abordados. Outra parte dessas aulas é usada para apoio à elaboração do trabalho. Todas as aulas deverão ser lecionadas em salas equipadas com projeção digital. Nas aulas teórico/práticas os estudantes devem ter acesso a computadores com acesso à Internet.
Demonstração da coerência das metodologias de ensino e avaliação com os objetivos de aprendizagem da UC / Evidence that the teaching and assessment methodologies are appropriate for the learning outcomes
As aulas teóricas são o meio ideal para a exposição dos conceitos teóricos necessários. As aulas teórico/práticas permitem uma maior interação entre o docente e o aluno, o que não só ajudará ao desenvolvimento do raciocínio e análise crítica desejáveis como também permitirá um enriquecimento da turma com os contributos específicos de cada estudante. O trabalho autónomo permitirá que o aluno desenvolva uma maior independência na abordagem deste tipo de problemas, permitindo um maior domínio dos principais conceitos.
Observações / Observations
Relativamente à avaliação, a componente TRABALHO implica uma apresentação oral obrigatória do mesmo. Exemplos de cálculo da nota final: TRABALHO = 20, TESTES = 14 --> Nota Final = 18 TRABALHO = 20, TESTES = 10 --> Nota Final = 14 (a nota da componente TRABALHO foi limitada a 16 valores = 10 + 6)
Bibliografia Principal / Main Bibliography
* Machine Learning for Text (2018). Charu C. Aggarwal. https://doi.org/10.1007/978-3-319-73531- 3 * An Introduction to Text Mining: Research Design, Data Collection, and Analysis 1st Edition (October 11, 2017). Gabe Ignatow, Rada F. Mihalcea. SAGE Publications. https://methods.sagepub.com/book/an-introduction-to-text-mining * Speech and Language Processing (3rd ed. draft, 2024), Dan Jurafsky and James H. Martin. Conteúdo disponível em: https://web.stanford.edu/~jurafsky/slp3/
Bibliografia Secundária / Secondary Bibliography
* Natural Language Processing for Social Media, Second Edition. Synthesis Lectures on Human Language Technologies. Morgan & Claypool, 2017. Atefeh Farzindar and Diana Inkpen. https://link.springer.com/book/10.1007/978-3-031-02167-1 * Jacob Eisenstein. Introduction to Natural Language Processing. Adaptive Computation and Machine Learning. The MIT Press, 2019. https://mitpress.mit.edu/9780262042840/introduction-to-natural-language-processing/
Data da última atualização / Last Update Date
2024-07-25