Sumário


1 CAPÍTULO 1: População, Amostra e Variável

Três conceitos largamente usado em Estatística são população(ou universo estatístico), amostra e variável.

1.1 População

O conjunto da totalidade dos indivíduos sobre o qual se faz uma inferência recebe o nome de população ou unverso. A população congrega todas as observações que sejam relevantes para o estudo de uma ou mais características dos indivíduos, os quais podem ser concebidos tanto como seres animados ou inanimados. Em linguagem mais formal, a população é o conjunto constituído por todos os indivíduos que apresentem pelo menos uma característica comum, cujo comportamento interessa analisar(inferir).

Como exemplo podemos citar o estudo censitário das rendas das famílias no Brasil. Poderia existir uma observação para cada família que medisse, sem erro, a renda dessas famílias e, nenhuma observação adicional concebível esclarecia mais alguma coisa. Essa coleção de observações constituiria a população, ou seja, represntaria todas as observações possíveis relativas ao assunto, que é a característica que se pretende estudar.

É importante ficar bem claro que uma população é estudada em termos de observações de características nos indivíduos, e não em termos de pessoas ou objetos em si. Assim, por exemplo, as alturas dos cidadãos do Brasil constituem uma população. Poderia haver uma população correspondente aos pesos desses mesmos cidadãos.

Quanto ao número de elementos, a população pode ser finita ou infinita. A primeira é aquela que apresenta um número limitado de indivíduos, por exemplo, os alunos que estudam Matemática ou, os jogadores profissionais de futebol. Muitas vezes, entretanto, o número de observações é infinito, como por exemplo, a temperatura em cada ponto da cidade de Belo Horizonte ou, os pontos de uma reta.

1.2 Amostra

A amostra pode ser definida como um subconjunto, uma parte selecionada da totalidade de observações abrangidas pela polulação, através da qual se faz um juízo ou inferência sobre as características da população. As características da amostra são chamadas de estatísticas(descritivas), sendo simbolizadas por caracteres latinos, enquanto que os parâmetros da população terão como símbolos, via de regra, os caracteres gregos.

Suponha-se, para exemplificar, que se pretenda conhecer o conteúdo de ferro natural a ser exportado por um navio. O agregado ou população consiste em todo o minério de ferro a ser exportado por esse navio. Parte do minério é examinada, a fim de determinar seu teor de ferro, com o objetivo de tirar uma conclusão a respeito do teor de ferro natural do embarque completo. A parte de mineral selicionada constitui a amostra do embarque.

1.3 Variável

O observador poderá também anotar ou medir a intensidade efetiva de um caráter variável em cada um dos objetos ou pessoas observadas. Pode, por exemplo, registrar a idade das pessoas ao morrer, a estatura ou o peso dos indiviíduos, o rendimento das famílias em uma grande cidade, o número de empregados dispensados, por mês, em uma grande empresa e assim por diante.

Os resultados das observações serão expressos sempre através de valores numéricos. Os dados são de caráter nitidamente quantitativo, e o conjunto dos resultados possui uma estrutura numérica. Dir-se-á, então, que se trata de estatística quantitativa ou estatística de variáveis.

1.3.1 Variável descontínua ou Discreta e Variável Contínua

Trata-se de estatística de variável, é possível distinguir duas características de variável: discreta, ou descontínua, e contínua.

1.3.1.1 Variável Discreta ou Descontínua

Suponha que uma instituição de ensino esteja interessada em saber qual o número de alunos presentes às aulas de um determinado professor, em certo período da vida escolar. Se X simbolizar esse número, então X será uma variável que só pode assumir valores inteiros, inclusive zero. Mais precisamente, diz-se que X será uma variável discreta quando a menosr diferença não-nula entre dois valores possíveis dessa variável for finita.

Normalmente a variável discreta resulta de contagem, razão pela qual seus valores são expressos através de números inteiros não-negativos.

1.3.1.2 Variável Contínua

Se X representar, por exemplo, o número de metros percorridos por um atleta durante certo período de tempo em uma pista circular, X não será certamente uma variável discreta. Agora, X pode assumir o valor de qualquer número real positivo, uma vez que para o cálculo de comprimento da circunferência é necessário introduzir o número real \(\pi\).

Formalmente, diz-se que X é uma variável contínua quando, ao passar de um valor real a para outro valor b, assume todos os valores intermediários entre a e b. Assim sendo, pode-se dizer que a variável contínua resulta normalmente de mensuração, e a escala de seus possíveis valores correspondente ao conjunto *\(\mathbb{R}\)R dos números reais.

2 Capítulo 2: Distribuição de Frequência

Uma das vantagens das tabelas, relativamente a apresentação tabular de dados, é a de condensar, de forma consistente, as informações necessárias ao estudo desejado. Isto porque, frequentemente, o estudo de um determinado fenômeno requer a coleta de uma grande massa de dados numéricos, difícil de ser tratada se esses dados não forem organizados e condensados em uma tabela. Essa providência favorece evidentimente uma análise e interpretação mais rápida da natureza e comportamento do fenômeno observado.

2.1 Dados Brutos

Feita a coleta, os dados originais ainda não se encontram prontos para análise, por não estarem numericamente organizados. Por essa razão, costuma-se chamá-los de dados brutos.

Na tabela 2.1, estão relacionados os valores correspondentes ao consumo individual de energia elétrica, medido em quilowatts-hora, em um grupo de 50 usuários.

Tabela 2.1 - Consumo Mensal de Energia Elétrica, por 50 usuários Particulares - KWH

58 62 80 57 8 126 136 96 144 19
90 86 38 94 82 75 148 114 131 28
66 95 121 158 64 105 118 73 83 81
50 92 60 52 89 58 10 90 94 74
09 75 72 157 125 76 78 114 36 28

Como pode ser observado, as cifras estão dispostas de forma desordenada. Em razão disso, pouca iformação se consegue obter inspecionando os dados anotados. Mesmo uma informação tão simples como a de saber os consumos máximo e mínimo requer um certo exame dos dados de tabela.

2.2 Rol

O rol é uma lista em que os valores estão dispostos em uma determinada ordem, crescente ou decrescente. Dispondo os dados de acordo com o consumo, obtém-se um ordenação da Tabela 2.1.

3 58 75 89 118
8 58 76 90 121
10 60 78 90 125
19 62 80 92 126
28 64 81 94 131
36 66 82 94 136
38 72 83 95 144
50 73 84 96 148
52 74 86 105 157
57 75 88 114 158

Essa classificação dos dados proporciona algumas vantagens concretas com relação à sua forma original. Em primeiro lugar, ela torna possível visualizar, de form bem ampla, as variações de consumo, uma vez que os valores extremos são percebidos de imediato. Em segundo lugar, é possível observar uma teendência de concentração dos valores na faixa de 50-90 kwh.

2.3 Tabela de Frequências

As tabelas de frequências são representações nas quais os valores se apresentam em correspondência com suas repetições, evitando-se assim que eles apareçam mais de uma vez na tabela, como ocorre com o rol.

O número de observações ou repetições de um valor ou de uma modalidade, em um levantamento qualquer, e chamado frequência desse valor ou dessa modalidade. Uma tabela de frequência é uma tabela onde se procura fazer corresponder os valores observados da variável em estudo e as respectivas frequência. A tabela de frequência proporciona uma apresentação esteticamente mais vantajosa dos dados, facilitando ainda a verificação do comportamento do fenômeno.

As tabelas de frequências podem representar tanto valores individuais como valores agrupados em classes.

2.3.1 Distribuição de Frequências de Dados Não-Agrupados em Classes

Esse tipo de apresentação é utilizado para representar uma variável discreta ou descontínua. Veja o exemplo abaixo.

Na primeira coluna aparecem o número de irmãos. A segunda coluna é uma coluna auxiliar, utilizada para que se possa processar a contagem dos valores repetidos, sem grande esforço. A última coluna, encabeçada por \(F_i\), apresenta as frequências, que são os resultados numéricos provenientes da contagem. A soma das frequências é sempre igual ao número total de valores observados: \(\sum_{j=1}^{5}F_i\)

2.3.2 Distribuição de Frequências de Dados Agrupados em Classes

Muitas vezes, mesmo com o risco de se sacrificar algum detalhe manifestado na ordenação de valores individuais, há vantagem em resumir os dados originais em uma distribuição de frequeências, onde os valores observados não mais aparecerão individualmente, mas agrupados em classes.

Quando a variável objeto do estudo for contínua, será sempre conveniente agrupar os valores observados em classees. Se, por outro lado, a variável for discreta e o número de valores representativos dessa variável for muito grande, recomenda-se o agrupamento dos dados em classes. Nesse último caso, o procedimento visa a evitar certos inconvenientes, como:

  1. grande extensão da tabela, tanto quanto os dados brutos, a leitura e a interpretação dos resultados apurados.

  2. Aparecimento de diversos valores da variável com frequência nula.

  3. Impossibilidade ou dificuldade de visualiação deo comportamento do fenômeno como um todo, bem como de sua variação.

Para construção dessa tabela, não há necessidade de se ordenarem os valores originais. Pode-se partir diretamente da lista de dados brutos. É fácil ver, por outro lado, que, a na distribuição de frequência de valores agrupados em classes, não figuram mais os valores exatos de cada item em particular.Não é possível, da mesma forma, obter diretamente da tabela o valor exato dos itens mais alto e mais baixo, Apesar disso, a tabela informa, de imediato, a tendência de a série se concentrar em torno de um valor central, além de proporcionar uma visão panorâmica do comportamento da variável, o que seria impossível de se fazer a partir da lista dos dados brutos.

O símbolo \(\vdash\) indica inclusão na classe do valor situado à sua esquerda e exclusão do valor sutuado à sua direita.

O símbolo \(\dashv\) indica inclusão na classe do valor situado à sua direita e exclusão do valor sutuado à sua esquerda.

2.4 Elementos de uma Distribuição de Frequência

2.4.1 Amplitude de um Intervalo de Classes(hi)

Também conhecida como intervalo de classe, o valor obtido nada mais é do que a medida do intervalo que tem a capacidade de definir uma classe. Esta medida pode ser obtida por meio da diferença entre os limites superiores e inferiores. Para alcançá-la, é possível fazer a seguinte equação: hi = Li – li.

Exemplo na tabela superior, sendo que a amplitude de intervalo deve ser igual para todas as classes:

  • hi = 1,57 – 1,55 = 0,02

2.4.2 Amplitude Total da Distribuição(H)

A amplitude total de distribuição é a diferença estabelecida entre o limite superior máximo e o limite inferior mínimo. Isso quer dizer que a equação que deve ser realizada para garantir um resultado assertivo é: H = L (max) – l (min).

Exemplo na tabela superior, sendo que a amplitude de intervalo deve ser igual para todas as classes:

  • H = 1,67 – 1,55 = 0,12

2.4.3 Ponto Médio de uma Classe(\(x_i\))

O ponto médio de uma classe se expressa, dentro da Tabela de Frequência, como um ponto capaz de dividir o intervalo de classe em duas partes iguais. Para que o ponto médio seja obtido, é preciso calcular a soma dos limites e dividi-los por 2, usando essa fórmula apenas para quando houver intervalos de classes.

Exemplo na tabela superior:

  • \(x_i = \frac{(1.59+1.61)}{2} = 1,6\)

2.5 Tipos de Frequência

Após descobrir o que é Tabela de Frequência, é preciso compreender quais as subcategorias envolvidas nesse tipo de organização de dados. A Tabela de Frequência Simples é utilizada para variáveis de caráter qualitativo ou quantitativo discreto, com poucos valores possíveis para a inserção.

Dentro desse tipo de tabela, os valores são definidos como:

  • k sendo o número que representa as classes da tabela;
  • \(n_i\) como a frequência absoluta;
  • \(f_i\) como a frequência relativa;
  • \(Fac\) como a frequência relativa acumulada;
  • \(n\) como o total de elementos da amostra. Caso as medições sejam feitas em todos os elementos da população, obtemos o N maiúsculo.

Esse tipo de tabela pode ser observado em entrevistas de captação de gênero. A distribuição de frequência pode ser feita pelo sexo dos entrevistados e fazer com que, ao finalizar a pesquisa, o resultado mostre quantos homens e quantas mulheres responderam a uma determinada questão.

3 Medidas de Posição

3.1 Introdução

As medidas de tendência central ou posição fazem parte da Estatística Descritiva. Após identificarmos os tipos de variáveis e antes de aplicar testes estatísticos, devemos conhecer algumas características fundamentais sobre eles.

Quando temos conjuntos de dados numéricos (discretos ou contínuos), geralmente estamos interessados em saber: qual a posição (centralidade) e dispersão dos meus dados? Qual forma eles apresentam? Há valores discrepantes (outliers)?

Hoje, vamos nos atentar para três medidas descritivas que nos ajudam na tarefa de encontrar o centro dos dados: a média aritmética, mediana e moda, também denominadas como medidas de tendência central ou de posição na Estatística Descritiva.

Como o nome já sugere, tais medidas sumarizam todo o nosso conjunto de dados/variáveis através de um único valor que ocupa a posição central naquele conjunto. Esse número é hipotético e não precisa necessariamente fazer parte do conjunto de dados. Mas ele é importante porque nos oferece um valor representativo sobre a amostra/população.

3.2 Média Aritmética

Também chamada de média ou valor esperado é a mais famosa e mais usada para resumir um grupo de números. Na média aritmética todos os os dados são igualmente importantes e por isso, fazemos:

Média = \(\frac{Soma\:de\: todos\: os\: valores}{Número\: total\: de\: valores}\)

Podemos escrever em notação para uma amostra e população, respectivamente:

Como exemplo de aplicação, imagine que queremos saber quanto tempo um aluno precisa para finalizar um curso de Estatística? Vamos definir que alguém finalizou o curso quando todas as vídeo-aulas foram assistidas.

Considere que temos a seguinte amostra de alunos (dados fictícios):

A média aritmética simples é igual a:

\(\bar{x}=\frac{1+4+5+4+3+4+2+2+5+4}{10} = \frac{34}{10}=3,4\)

Assim, se sortearmos um aluno (dentro da população de alunos que fizeram o curso) iremos esperar que ele tenha gasto em média, 3 meses e meio para estudar o conteúdo do curso. Porém, qual a confiança que teremos que essa média é uma boa medida para descrever os dados?

Para isso, precisamos inicialmente de medidas descritivas de dispersão, como a variância ou o desvio-padrão que nos dizem quanto os dados variam em torno dessa média. De forma geral, para tomar boas decisões, o ideal é que tenhamos a média juntamente com a variância ou o desvio-padrão.

3.3 Mediana

A mediana (representada por Md) é uma medida de tendência central cujo valor é posicionado exatamente na metade do conjunto de dados quando eles estão ordenados em ordem crescente ou decrescente.

Desse modo, primeiramente ordenamos os nossos dados e verificamos se temos um conjunto de números ímpar ou par. Vamos voltar para a amostra anterior:

Nesse exemplo, identificamos que temos um conjunto par, com 10 valores:

Por ser um conjunto par, identificamos os dois números do centro que irão dividir igualmente o conjunto. Nesse caso, temos. Em seguida, tiramos a média aritmética:

\(\frac{4+4}{2}=4\).Assim a mediana será de 4 meses.

E quando temos um conjunto ímpar de valores? Vamos supor que na nossa amostra, acrescentamos mais uma aluno. Agora temos um grupo com 11 valores no total:

Com um conjunto ímpar, precisamos apenas encontrar o único número central que divide o conjunto igualmente. Nesse caso, a mediana ainda será o número 4.

Interpretamos esse resultado como: 50% dos alunos precisam de até 4 meses para finalizar o curso de Estatística e os outros 50% precisam de 4 meses ou mais para finalizá-lo.

3.4 Moda

A moda é o valor que ocorre com maior frequência em um conjunto de dados.

Se todos os valores ocorrem com a mesma frequência, não haverá moda (amodal);

Ex: {12, 13, 14, 16 e 17}, não há moda nesse conjunto.

Quando há apenas um valor que se repete com maior frequência, será unimodal:

Ex: {22, 22, 26, 24, 23}. Há uma moda: 22

Quando dois valores ocorrem com maior frequência, será bimodal

Ex: {42, 42, 42, 43, 43, 43, 44, 44, 46, 47}.

Há duas modas: 42 e 43

Quando mais de dois valores ocorrem com maior frequência, será multimodal

Ex: {7, 7, 8, 9, 9 , 11, 11, 13, 15, 15, 17, 19, 20}.

Há quatro modas: 7, 9, 11 e 15.

Apesar de não ser utilizada tanto quanto a média e a mediana, a moda tem como vantagem a sua aplicação também para variáveis categóricas nominais. Suponhamos que temos uma amostra (fictícia) de alunos que responderam qual módulo de Estatística foi o mais desafiador para eles:

4 Medidas de Dispersão

4.1 Introdução

É importante ressaltar nessa altura que a análise completa dos dados requer não apenas sua apresentação, através de gráficos e tabelas, ou o cálculo de promédios ou outras medida de posição. Caracterizar um conjunto de valores apenas através de uma média, por exemplo, é descrevê-lo inadequadamente, uma vez que os dados diferem entre si, em maior ou menor grau. Assim, suponhamos que se deseja comparar a performance de dois empregados, com base na seguinte produção diária de determinada peça:

Empregado A: 70, 71, 69, 70, 70

Empregado B: 60, 80, 70, 62, 83

De acordo com o resultado da produção diária em cinco dias, verificamos que a performance média do empregado A é de 70 peças produzidas diariamente, enquanto que a do empregado B é de 71 peças. Por conseguinte, baseados nestes únicos resultados ({x_A}=70)e {x_B}=71), diríamos que a performance de B é melhor do que a de A. Se nos fixarmos mais detidamente nos dados, entretanto, percebemos que a produção de A varia apenas de 69 a 71 peças, ao passo que a de B varia de 60 a 83 peças, o que revela que a performance de A é bem mais uniforme do que a de B. Ocorre por outro lado, que um alto grau de uniformidade ou pequena dispersão costuma ser considerado como algo de qualidade desejável em um processo produtivo. Qualquer produção em série seria antieconômica se houvesse muita varialbilidade nos materiais ou peças fabricadas.

4.2 Variância e Desvio Padrão

A variância e o desvio padrão são medidas que levam em consideração a totalidade dos valores da variável em estudo, e não apenas os valores externos, como a amplitude total (CRESPO, 2002). Por isso, essas medidas são índices de variabilidade bastantes estáveis e, consequentemente, muito utilizados no cotidiano. Além disso, a variância e o desvio padrão complementam informações obtidas pelas medidas de tendência central. A variância, denotada por \(s^2\), é encontrada a partir dos desvios em torno da média aritmética, conforme pode ser observado na fórmula a seguir:

Aqui \(x_i\) representa cada elemento do conjunto de dados, \(\bar{x}\) é a média do conjunto e ) representa o número de elementos do conjunto. O desvio padrão, denotado por \(s\), é a raiz quadrada da variância. Assim teremos:

\(s = \sqrt{s^2}\) ou

O desvio padrão é a medida de dispersão mais utilizada porque aponta de forma mais precisa a dispersão dos valores em relação à média aritmética (NAZARETH, 2003). Para exemplificar o cálculo do desvio padrão para dados não agrupados, considere a série de valores a seguir:

18, 22, 15, 17, 19, 21, 16

Inicialmente, precisamos encontrar a média dessa série, que é 18,2. Depois, precisaremos encontrar, para cada elemento, a diferença do seu valor e a média. Para facilitar o processo, vamos criar uma tabela contendo duas colunas, uma para o valor de \(x_i\) , e outra para o valor de \(x_i-\bar{x}\), conforme pode ser visto na tabela abaixo.

A partir dos valores da tabela, calculamos \(\sum (x_i-\bar{x})^2\), que é igual a 0,36.

Assim, aplicando a fórmula do desvio padrão, teríamos o seguinte:

O desvio padrão de uma série será sempre um valor positivo, e quanto maior esse valor, maior será a dispersão entre os elementos.

Quando nos deparamos com dados agrupados, o valor das frequências também precisa ser levado em consideração para o cálculo do desvio padrão.

Assim sendo, a fórmula para o cálculo do desvio padrão para dados agrupados é a seguinte:

Temos \(f_i\), que representa a frequência de um determinado elemento.

Para exemplificar o cálculo do desvio padrão para dados agrupados sem intervalos de classe, vamos considerar os dados apresentados abaixo.

Para auxiliar a aplicação da fórmula do desvio padrão, criaremos um quadro para encontrar os somatórios da frequência dos valores existentes (equivalente a n), de \(f_ix_i\) e de \(f_ix_i^2\), conforme pode ser visualizado na tabela abaixo.

Aplicando, agora, a regra do desvio padrão para dados agrupados, teríamos:

O processo para encontrar o desvio padrão para dados agrupados com intervalos de classe é semelhante ao anterior, sendo apenas necessário encontrar o ponto médio (\(x_i\)) de cada uma das classes antes de calcular o produto de \(f_ix_i\) e de \(f_ix_i^2\).

Assim realizaremos a multiplicação do ponto médio de cada classe com a sua respectiva frequência ao invés do valor exato da variável. Para exemplificar o cálculo do desvio padrão, vamos considerar os dados da variável idade na tabela abaixo.

De modo similar, construiremos uma tabela para apresentar os valores de \(x_i, f_i\) e \(f_ix_i^2\) para cada uma das classes da variável idade, conforme pode ser observado na tabela abaixo.

Ao aplicar a fórmula com os dados obtidos na tabela, teríamos o seguinte:

Segundo Crespo (2002), o desvio padrão possui algumas propriedades que permitem introduzir, no cálculo do desvio padrão, simplificações úteis. Entre as propriedades existentes, destacam-se:

  • somando-se (ou subtraindo-se) uma constante a (de) todos osvalores de uma variável, o desvio padrão permanecerá o mesmo;

  • multiplicando-se todos os valores de uma variável por uma constante (diferente de zero), o desvio padrão ficará multiplicado por essa constante.

4.3 Coeficiente de Variação

O coeficiente de variação é uma medida relativa de dispersão. Ela é útil quando se deseja comparar em termos relativos o grau de concentração em torno da média de séries distintas. É calculado por:

\(CV=\frac{S}{\bar{x}}*100\)

Em que: S é o desvio padrão e \(\bar{x}\) a média.

O coeficiente de variação é expresso em porcentatem.

Para exemplificar, suponha que o acesso médio de homens em um mês em um sítio web é de 3.500, com desvio padrão de 900; e das mulheres é em média 2.700, com desvio padrão de 1.100. Então:

Para os homens: \(CV=\frac{S}{\bar{x}}=\frac{900}{3.500}*100=25,71\%\)

Para as mulheres: \(CV=\frac{S}{\bar{x}}=\frac{1.100}{2.700}*100=40,74\%\)

Assim concluímos que os acessos das mulheres apresentam maior dispersão relativa do que os dos homens.

Na prática, considera-se que um coeficiente de variância superior a 50% indica alto grau de dispersão e, por consequência, baixa representatividade da média. Por outro lado, quanto menor for o valor de seu coeficiente de variância, mais representativa é a média (MARTINS; DONAIRE, 2004, p. 164).