Um Manual de Estatística

  • Volta ao Bimestre3
  •             Uma grande quantidade de dados são freqüentemente comprimidos em resumos assimiláveis mais facilmente, os quais fornecem ao usuário um sentido do conteúdo, sem sobrecarregá-lo com números por demais da conta. Existem várias maneira nas quais os dados podem ser apresentados. Uma aproximação quebra os números em valores individuais (ou intervalos de valores) e fornece as probabilidades para cada intervalo. Isto é chamado de uma "distribuição". Uma outra aproximação é estimar os "sumários estatísticos" para os dados. Para uma série de dados, X1, X2, X3, ....Xn, onde n é o número de observações na série, os sumários estatísticos mais largamente usados são como segue -

    •     a média (m), que é a média de todas as observações na série de dados

              

    •     a mediana, que é o ponto médio da série; metade dos dados na série é maior do que a mediana e metade é menor.

    •     a variância, que é uma medida do espalhamento da distribuição ao redor da média, e é calculada primeiro pela soma dos desvios quadrados da média, e dividindo-a pelo número de observações (se os dados representam a população toda) ou por este número, reduzido por um (se os dados representam uma amostra)

                Quando existirem duas séries de dados, existirão várias medidas estatísticas que podem ser usadas para capturar como as duas séries se movem juntas através do tempo. As duas mais largamente usadas são a correlação e a covariância. Para duas séries de dados, X (X1, X2,.) and Y(Y,Y...  ), a covariância fornece uma medida não padronizada do grau no qual elas se movem juntas, e é estimada tomando o produto dos desvios da média para cada variável em cada período.

    O sinal na covariância indica o tipo de relação que as duas variáveis tem. Um sinal positivo indica que elas movem juntas e um negativo que elas movem em direções opostas. Enquanto a covariância cresce com o poder d o relacionamento, ainda é relativamente difícil fazer julgamentos sobre o poder do relacionamento entre as duas variáveis observando a covariância, pois ela não é padronizada.

                A correlação é a medida padronizada da relação entre duas variáveis. Ela pode ser calculada da covariância–

    A correlação nunca pode ser maior do que 1 ou menor do que menos 1. Uma correlação próxima a zero indica que as duas variáveis não estão relacionadas. Uma correlação positiva indica que as duas variáveis movem juntas, e a relação é forte quanto mais a correlação se aproxima de um. Uma correlação negativa indica que as duas variáveis movem-se em direções opostas, e que a relação também fica mais forte quanto mais próxima de menos 1 a correlção ficar. Duas variáveis que estão perfeitamente correlacionadas positivamente (r=1) movem-se essencialmente em perfeita proporção na mesma direção, enquanto dois conjuntos que estão perfeitamente correlacionados negativamente movem-se em perfeita proporção em direções opostas.

                Uma regressão simples é uma extensão do conceito correlação/covariância. Ela tenta explicar uma variável, a qual é chamada variável dependente, usando a outra variável, chamada variável independente. Mantendo a tradição estatística, seja Y a variável dependente e X a variável independente. Se as duas variáveis são plotadas uma contra a outra num gráfico de espalhamento, com Y no eixo vertical e X no eixo horizontal, a regressão tenta ajustar uma linha reta através dos pontos de tal modo que minimiza a soma dos desvios quadrados dos pontos da linha. Conseqüentemente, ela é chamada de regresssão ordinária dos mínimos quadrados (OLS). Quando tal linha é ajustada, dois parâmetros emergem - um é o ponto em que a linha corta o eixo Y, chamado de intercepção da regressão, e o outro é a inclinação da linha de regressão.

    Regressão OLS:         Y = a + b X

    A inclinação (b) da regressão mede ambas a direção e a magnitude da relação. Quando as duas variáveis estão correlacionadas positivamente, a inclinação também será positiva, enquanto quando as duas variáveis estão correlacionadas negativamente, a inclinação será negativa. A magnitude da inclinação da regressão pode ser lida como segue - para cada acréscimo unitário na variável (X), a variável dependente mudará por b (inclinação). A ligação estreita entre a inclinação da regressão e a correlação/covariância não seria surpreendente desde que a inclinação é estimada usando a covariância–

    A intercepção (a) da regressão pode ser lida de várias maneiras. Uma interpretação é que ela é o valor que Y terá quando X é zero. Uma outra é mais direta, e está baseada em como ela é calculada. É a diferença entre o valor médio de Y, e o valor ajustado da inclinação de X.

    Os parâmetros da regressão são sempre estimados com algum ruido, parcialmente porque o dado é medido com êrro e parcialmente porque os estimamos de amostra de dados. Este ruido é capturado numa dupla de estatísticas. Um é o R-quadrado da regressão, que mede a proporção da variabilidade em Y que é explicada por X. É uma função direta da correlação entre as variáveis –

    Um valor de R-quadrado muito próximo de um indica uma forte relação entre as duas variáveis, apesar da relação poder ser positiva ou negativa. Uma outra medida do ruido numa regressão é o êrro padrão, que mede o "espalhamento" ao redor de cada um dos dois parâmetros estimados - a intercepção e a inclinação. Cada parâmetro tem um êrro padrão associado, que é calculado dos dados –

    Êrro Padrão da Intercepção = SEa =

    Se fizermos uma suposição adicional de que a estimativa da intercepção e a inclinação são normalmente distribuídas, a estimativa do parâmetro e o êrro padrão podem ser combinados para obter uma "estatística t" que mede se a relação é estatísticamente significante.

    Estatística T para a intercepção = a/SEa

    Estatística T da inclinação = b/SEb

    Por exemplo com mais do que 120 observações, uma estatística t maior do que 1,66 indica que a variável é significativamente diferente de zero com 95% de certeza, enquanto uma estatística maior do que 2,36 indica o mesmo com 99% de certeza . Para amostra menores, a estatística t tem de ser maior para ter significado estatístico. [1]

                A regressão que mede a relação entre duas variáveis torna-se uma regressão múltipla quando ela é extendida para incluir mais do que uma variável independente (X1,X2,X3,X4..) na tentativa de explicar a variável dependente Y. Enquanto as apresentações gráficas tornam-se mais difícil, a regressão múltipla conduz a uma forma que é uma extensão da regressão simples.

                Y = a + b X1   + c X2 + dX3  + eX4

    O R-quadrado mede ainda a força da relação, mas uma estatística adicional do R-quadrado chamada de R-quadrado ajustado é calculada para contar a tendência que induziria o R-quadrado a manter crescente quando as variáveis independentes são adicionadas à regressão. Se existem k variáveis independentes na regressão, o R-quadrado ajustado é calculado como segue –

    Na teoria, as variáveis independentes numa regressão precisam estar não correlacionadas uma com a outra. Na prática, elas são freqüentemente, e esta correlação cruzada das variáveis independentes é chamada multi-colinearidade. Quando existe multi-colinearidade,

    ·      Os coeficientes sobre cada uma das variáveis independentes tornam-se muito mais difíceis para ler isolados, pois as variáveis começam a procurar uma às outras.

    ·      A estatística-t relatada tende a exagerar a significância da relação. Existem aproximações estatísticas disponíveis para se tratar com a multi-colinearidade.

    ·      A regressão ainda tem poder de previsão.

    Ambas regressões, a simples e a múltipla, estão baseadas numa relação linear entre a variável dependente e a variável independente. Quando a relação é não-linear, o uso de uma regressão linear conduzirá à predições incorretas. Em tais casos, as variáveis independentes precisarão ser transformadas para tornar a relão mais linear.

  • Volta ao Bimestre 3

  •  

    [1] Os valores reais que as estaística t precisam para impor podem ser encontrados numa tabela para a distribuição t, que está reproduzida no final deste livro como um apêndice.