Sumários
Introdução de dados no IBM-SPSS
23 Setembro 2022, 09:30 • Rita Sousa
1.Introduzem-se os dados de uma tabela de frequências conjunta (crosstabs) tal como o vemos:
1.1.variável em linha,
1.2 variável em coluna,
1.3 frequência absoluta (freq)
1.4 Ativa-se "Data weight cases by freq"
Note: "freq" é o nome dado às frequências absolutas de cada célula.
No canto inferior direito do ecrá aparece o simbolo "on" indicando que os dados foram ponderados.
Todas as subsequentes análises usam apenas as variáveis definidas em linha e em coluna.
2. Supor tabela 2x2, isto é, com duas variáveis qualitativas onde cada uma tem apenas 2 categorias. Esta tabela tabém se designa por dicotómica.
Analisam-se os dados definidos na tabela de dupla entrada (crosstabs) recorrendo aos comandos:
Analyse,
Descriptive Statistics
Crosstabs
Row incluimos a variável que queremos que fique em linha
Comumn incluimos a restante variável
Statistics
Chi Square (teste generalista; indica apenas se os dados apontam com maior probabilidade para H0 ou para Ha )
Risk (teste "especialista" pois identifica a intensidade (fraca...forte) da relação)
Células
Frequência observada
Frequência esperada
% Row
% Column
% Total
Residuos ajustados estandardizado
3. Análise dos residuos austados estandardizados
3.1."Região verde": Se estiverem entre -1.96 e 1.96 (inclusive), significa que os dados apontam para H0, região dos acontecimentos mais prováeis, onde F0 se aproxima de Fe, ou seja onde as diferenças entre estas duas frequências não é estatisticamenet significativa.
Ex aluno cuja diferença entre a sua nota e a média não é estatisticamente significativa. Comportam-se como a maioria.
3.2 "região amarela": Se residuos > 1.96, os dados apontam para H2, pois observou-se significativamente mais do que seria esperado (Fo> Fe). O acontecimento obtido é improvável mas positivo (sinal + do residuo).
Ex: um alunos com nota signifiativamente acima da média
3.3 "região vermelha": Se residuos < 1.96, os dados apontam para Ha, observando-se significativamente menos do que o esperado. O aconteicmento obtido é negativo por ser inferior ao esperado.
Ex: um aluno com nota muito abaixo da média.
Frequência observada, frequência esperada, probabilidade marginal e condicionada
22 Setembro 2022, 08:00 • Rita Sousa
O objectivo da aula é obter alguma sensibilidade sobre a existência ou não de relação entre as variáveis
1) Cálculo e definição de Fe.
Fe = frequência que se espera obter no caso das variáveis serem independentes.
Quando as variáveis são independentes significa que cada uma val per si, pelo que Fe da célula que ocupa a posição da linha i e da coluna j será dada pelo produto do total marginal da categoria i de uma das variáveisl pelo total marginal da categoria j da outra variável, dividindo o resultado por n (dimensão da amostra):
Admita o seguinte exemplo: n=100 , totais marginais conhecidos (marcados a negrito) . As frequências esperadas (Fe) constam das células da tabela e serão as mesmas quaisquer que sejam as observadas nessas 4 células.
Assim, Fe calcula-se apenas com base nos totais marginais.
Preferência musical | |||||
Jaz | Rap | Total marginal | |||
Género | Homem | Fe | 20*60/100=12 | 20*40/100=8 | 20 |
Mulher | Fe | 80*60/100=48 | 80*40/100=32 | 80 | |
Total marginal | 60 | 40 | n=100 |
2) Duas maneira de ganhar sensibilidade sobre a existência ou não relação entre as variáveis:
2.1) Comparação entre Fo e Fe .
Quanto mais perto Fpo estiver de Fe maior a suspeição das variáveis serem independentes, indicando a varificação de H0.
Admita os seguintes valores observados, em duas situações extremas, aqui criadas para facilitar a intepretação:
2.1.i) Os dados apontam para H0, pois Fo está muito perto de Fe. As variáveis são independentes
Preferência musical | ||||
Jaz | Rap | Total marginal | ||
Homem | F0 | 13 | 7 | 20 |
Mulher | F0 | 47 | 33 | 80 |
Total marginal | 60 | 40 | n=100 |
2.1.ii) Os dados apontam para Ha, pois as frequências observadas afastam-se muito das esperadas.
Preferência musical | ||||
Jaz | Rap | Total marginal | ||
Homem | F0 | 1 | 19 | 20 |
Mulher | F0 | 59 | 21 | 80 |
Total marginal | 60 | 40 | n=100 |
2.2 ) Comparação entre uma probabildiade marginal e uma condicionada.
Ex: P[Género i]: P[Género i/ preferência musical j], ie, comparação entre uma probabilidade marginal e uma condicionada. Quanto mais perto estiverem maior a suspeição das variáveis serem independentes, indicando a varificação de H0. Tal significa que o conhecimento de uma variável pouco se alterou com nova informação.
A probabilidade condidicionada é uma revisão da probabilidade marginal face a nova informação.
Note: Como em ciência não há julgamentos subjectivos, existem estatisticas que nos permitem concluir com elevada probabilidade sobre a existència ou não de relação entre as variáveis. Tal será dado oportunamente.
Relação entre duas variáveis nominais : Hipóteses, Fo e Fe
16 Setembro 2022, 11:00 • Rita Sousa
A) Definir as hipóteses aquando do estudo da relação entre duas variáveis qualitativas:
H0: não existe relação entre as duas variáveis, ie, as duas variáveis são independentes, o que corresponde a F0=Fe
Ha= Existe relação entre as duas variáveis, ie, elas não são independetes, o que corresponde a Fo ser significativamente diferente de Fe
Note: na amostra Fe corresponde à média, que é uma medida de localização.
B) A frequência esperada (Fe) representa os acontecimentos mais prováveis de ocorrerem, face à hipótese nula (H0), ie, os quais estão definidos por H0.
Quanto mais "proxima" a frequência observada (F0) estiver da esperada (Fe) maior é a probabildaide de ocorrer H0.
Caso contrário , quanto maior a diferença entre Fo e Fe, maior é a probabilidade de se verificar Ha.
Usando a metáfora : turmas A e B, ambas com média das notas 15 valores:
i) Turma A : Os alunos João, Milene e Ana tem respectivamente as notas 15, 14, e 13 . Estes alunos comportam-se como o esperado Os outros 3 alunos André, Constança e Sofia tem notas também muito perto da média. Assim, a totalidade dos alunos desta turma têm Fo = Fe. Os dados apontam para H0, porque todos os valores Fo's estão perto dos Fe's
ii) Turma B: Beatriz, Bernardo e Rita têm respectivamente as notas 20, 16 e 8. Dois destes alunos estão "muito afastados do valor esperado", mas um deles está perto de Fe:
Beatriz: Fo > Fe e portanto a sua diferença Fo-Fe é positiva (+)
Rita: F0 < Fe e portanto a diferença Fo-Fe é negativa (-). Eestá "muito abaixo do esperado". Termos em que se deve perceber o porquê deste acontecimento negativo e improvável .
Bernardo tem a nota muito perto da média, mas no "universo escreve-se: Fo = Fe, ie, a diferença entre 16 e a média 15 não é estatisticamente significativa.
Decisão: Desde que haja pelo menos um aluno com Fo " muito diferente" do esperado , os dados apontam para Ha. Neste exemplo há até dois alunos , um muito acima da média e outro muito abaixo da média. Mesmo que a turma tivesse 100 alunos, seria esta a decisão.
C) O que se considera Fo estar "muito proximo " ou "muito afastado " de Fe será dado na proxima aula. "Em ciência não há julgamentos subjectivos"
Erros tipo I e tipo II (continuação), relação entre duas variáveis nominais
16 Setembro 2022, 09:30 • Rita Sousa
Após formalizar as hipoteses Ho e Ha, para se entender o tipo de erro que se comete aquando de uma decisão , deve seguir-se os seguintes passos:
1º passo ) O que o "governo" decide que as pessoas devem fazer.
1ºa) Se decidir sobre H0 , então isto corresponde a escrever: P[H0/ ]
1º b) se decidir sobre Ha, então isto corresponde a escrever: P[ Ha / ]
2º passo) ver qual "a realidade que ocorreu no dia seguinte ".
3º passo: determinar se existiu erro ou não: temos 4 situações possiveis: aa, ab, ba, bb .
A primeira letra representa a decisão e a segunda a realidade.
3ºi) Sitação "aa ", ie, tanto a decisão como a realidade coincidem no H0:
Resultado da decisão: P[ H0 / H0 ]= decisão correta
3ºii) Situação "ab", ie, o governo diz H0, a realidade diz Ha:
P[H0 / Ha ]= erro tipo II ou beta
3º iii) Situação " ba", é e, o governo diz Ha e a realidade H0
P[Ha / H0 ]= erro tipo I, alfa ou nivel de significância.
3º iv) Situação " bb", ie, tanto o governo como a realidade dizem Ha
P [ Ha / Ha ]= decisão correta