Processing math: 19%

Sumário


1 Variáveis Aleatórias Discretas

1.1 Distribuição Uniforme

É a variável aleatória discreta mais simples, pois apresenta um número finito de valores possíveis com igual probabilidade.

Uma variável aleatória X tem uma distribuição Uniforme Discreta se cada um dos m valores em seu suporte, isto é, x1,x2,...,xm, apresentar igual probabilidade, no caso

p(xi)=1m,i=1,2,...,m. Denotamos por XUD(m)

Exemplos

  • O resultado de lançar um dado;

  • O último dígito da placa de um carro;

  • Um número de sorteio de Bingo;

  • Um número de sorteio de Mega Sena;

  • A posição da primeira lâmpada que queima em uma fita de luzes pisca-pisca.

  • O último dígito de uma imagem de CAPTCHA de um site é igualmente provável de ser qualquer um entre 0 e 9. Sendo assim, se X representa o último dígito, então terá distribuição Uniforme Discreta com p(x)=110 para qualquer x{0,1,...,9}

1.1.1 Média e Variância.

Suponha que X tenha suporte definido no conjunto de números inteiros consecutivos a,a+1,a+2,...,b1,b,paraa<b. Dessa forma, o número de valores é m=ba+1,cada um com probabilidade p=1/m.

Dessa forma, tem-se que

  • A Média é

μ=E(X)=bx=ax(1ba+1)=b+a2 * A Variância é

σ2=V(X)=bx=a(xμ)2(1ba+1)=(ba+1)212 GRÁFICOS DA DISTRIBUIÇÃO

1.2 Distribuição Geométrica

  • Considere novamente uma sequência de ensaios de Bernoulli independentes.

  • Suponha agora que o experimento é repetido até que ocorra sucesso pela primeira vez.

  • A variável aleatória X é definida agora como o número de repetições necessárias para se obter o primeiro sucesso.

IMPORTANTE: No modelo Binomial o número de repetições é predeterminado (fixo), ao passo que no modelo Geométrico o número de repetições é uma variável aleatória.

EXEMPLO 1:

Um dado é lançado e sua face observada. Seja X o número de lançamentos até que saia a face 6. Obtenha a distribuição de probabilidade de X.

Nestas condições, a variável X segue distribuição geométrica com parâmetro p e tem função de probabilidade dada por:

p(x)=P(X=x)=p(1p)x1,x=1,2,...

  • p=16 é a probabilidade de se observar a face “6”(sucesso) em um único lançamento;
  • x é o número de lançamentos até o primeiro sucesso;
  • (1p)x1 é a probabilidade de não se observar a face “6”(fracasso).

Substituindo p=16 na fórmula, temos:

P(X=x)=(16)(56)x1

1.2.1 Número esperado de tentativas, variância e desvio padrão.

Para a distribuição geométrica o número esperado E(X), a variância Var(X) e o desvio padrão σ são dados por:

  • Valor esperado(média):

E(X)=1p

  • Variância:

Var(X)=1pp2

  • Desvio padrão:

σ=Var(X) Exemplo 2:

A probabilidade de que haja alguma falha no lançamento de uma nave espacial é 10%. Qual é a probabilidade de que para lançar a nave seja necessário:

a) 2 tentativas?

Queremos a probabilidade de que o primeiro sucesso ocorra na segunda tentativa. Ou seja, a primeira tentativa falha e a segunda tentativa tem sucesso. A fórmula é:

P(X=2)=p(1p)1=0,900,101=0,09

Portanto, a probabilidade de que sejam necessárias 2 tentativas é 0,09, ou 9%. Para p=0,90

b) no máximo 3 tentativas?

Aqui, queremos a probabilidade de que o sucesso ocorra na primeira, segunda ou terceira tentativa, ou seja,

P(X.

Para cada valor de X:

  • P(X=1) = (0,10)^0\cdot 0,90 = 0,90.

  • P(X=1) = (0,10)^1\cdot 0,90 = 0,09.

  • P(X=2) = (0,10)^2\cdot 0,90 = 0,009.

Somando essas probabilidades:

P(X\leqslant 3) = 0,90 + 0,09 + 0,009 = 0,999.

c) Calcule o número esperado de tentativas de lançamento da nave espacial. Calcule também a variância e o desvio padrão do número de tentativas de lançamento

  • Número esperado:

Para p = 0,90:

E(X) = \frac{1}{p} = \frac{1}{0,90}\approx 1,11.

  • Variância:

Para p = 0,90:

Var(X) = \frac{1-p}{p^2} = \frac{1-0,90}{0,90^2} = \frac{0,10}{0,81}\approx 0,1235.

  • Desvio padrão:

\sigma = \sqrt{Var(X)} = \sqrt{0,1235}\approx 0,3514. Portanto:

  • O número esperado de tentativas é 1,11,
  • A variância é aproximadamente 0,1235,
  • O desvio padrão é aproximadamente 0,3514.

1.3 Distribuição de Pascal (ou Binomial Negativa)

É o caso geral do modelo geométrico. A distribuição de Pascal calcula as probabilidades nas situações em que seja necessário certo número de repetições antes que ocorra um sucesso. O sucesso está na última prova.

A probabilidade é calculada através da seguinte expressão:

P(X) = C_{n-1}^{x-1}\cdot P^x\cdot q^{n-x}.

Exemplo 1

Dada uma máquina que produz 20% de peças defeituosas, qual a probabilidade de a 8ª peça fabricada ser a 5ª boa?

Solução:

A fórmula da distribuição binomial negativa para o 𝑘-ésimo fracasso ocorrendo na n-ésima tentativa é:

  • n é o número total de tentativas, n = 8

  • x é o número de sucessos(peças boas), x = 5

  • p é a probabilidade de sucesso(ser boa)

P(X=5) = C_{8-1}^{5-1} \cdot 0,8^5\cdot 0,2^3\;=\;35\cdot 0,33\cdot0,08\;=\;9,18 \%

Exemplo 2

Uma máquina produz peças das quais 80% são consideradas perfeitas e 20% defeituosas. Qual a probabilidade de a 8ª peça fabricada ser a 3ª defeituosa?

Solução:

A fórmula da distribuição binomial negativa para o 𝑘-ésimo fracasso ocorrendo na n-ésima tentativa é:

  • n é o número total de tentativas, n = 8

  • x é o número de sucessos(peças defeituosas), x = 3

  • p é a probabilidade de sucesso(ser defeituosa)

P(X=3) = C_{8-1}^{3-1} \cdot 0,2^3\cdot 0,8^5\;=\;21\cdot 0,008\cdot0,05504\;=\;5,5 \%

1.4 Distribuição Hipergeométrica

A distribuição hipergeométrica é uma distribuição discreta que modela o número de eventos em um tamanho amostral fixo quando você conhece o número total de itens da população de onde vem a amostra. Cada item da amostra tem dois resultados possíveis (um evento ou um não-evento). As amostras são sem substituição, portanto, cada item da amostra é diferente. Quando um item é escolhido da população, ele não pode ser escolhido novamente. Portanto, a chance de um determinado item ser selecionado aumenta em cada ensaio, supondo-se que ele ainda não tenha sido selecionado.

Considere uma série de N objetos que contém:

  • K objetos classificados como sucesso:

  • N - K objetos classificados como fracasso.

  • Uma amostra com n objetos é selecionada sem reposição.

  • Temos a restrição de que K < N e n < N.

  • Seja X o número de sucessos da amostra.

  • X tem distribuição hipergeométrica e

Exemplo 1:

  • Temos 300 peças de tubos;

  • 100 delas são fornecidas por um fornecedor local;

  • 200 são fornecidas por um fornecedor vizinho;

  • Quatro peças são selecionadas ao acaso sem reposição;

Qual a probabilidade de que todas venham do fornecedor local?

SOLUÇÃO

Seja X o número de peças na amostra do fornecedor local.

X tem distribuição hipergeométrica com n = 300 , K = 100 e n = 4.

Temos que,

Exemplo 2

Suponha que desejamos encontrar a probabilidade de que um comitê de 10 pessoas escolhidas em um grupo de 35 professores e 25 alunos inclua 0ito professores?

SOLUÇÃO

X tem distribuição hipergeométrica com:

  • Sucesso: sair professor;

  • N = 35 + 25 = 60;

  • n = 10;

  • M = 35;

  • x = 8.

Temos que,

  1. Calcule a probabilidade que o comitê tenha pelo menos um aluno?

X tem distribuição hipergeométrica com:

  • Sucesso: sair aluno;

  • N = 35 + 25 = 60;

  • n = 10;

  • M = 25;

  • x = pelo menos um aluno = 1, 2, 3, 4, 5, 6, 7, 8, 9, 10.

Devemoa achar o valor de

P(X\geq 1) = P(X=1) + P(X=2) + ...+ P(X=10).

Sabemos que

P(X\geq 1) = P(X=0) + P(X=1) + P(X=2) + ...+ P(X=10)\; = \; 1

Logo,

P(X\geq 1) = 1 - P(X=0). Assim.

Logo,

P(X\geq 1) = 1 - P(X=0)\;=\;1 - 0,00243\;=\;0,9976.

1.5 Distribuição Multinomial

Distribuição de probabilidade muito usada como generalização da binomial.

Suponha que um experimento aleatório consiste de uma série de n tentativas. Assuma que:

  • o resultado de cada tentativa é classificado dentro de k classes

  • a probabilidade de uma tentativa gerar um resultado na classe 1, na classe 2, …., na classe k é constante igual a P11, p2 .. pk, respectivamente.

  • as tentativas são independentes

As variáveis X1, X2, …. Xp que denotam o número de tentativas que resultam na classe 1, na classe 2, …., na classe k, respectivamente têm densidade MULTINOMIAL, com probabilidade conjunta

P(X_1=x_1,X_2=x_2,X_3=x_3,...,X_k=x_k) = \frac{n!}{x_1!x_2!...x_p!}p_1^{x_1}p_2^{x_2}...p_k^{x_k}

Para x_1 + x_2 + . . .+ x_k\;=\; n e p_1 + p_2 + . . . + p_n\;=\; 1.

Exemplo 1

Um receptor recebe 20 bits. Qual a probabilidade de que 12 sejam excelentes, 6 serem bons, 2 serem razoáveis e nenhum ser ruim? Assuma que a classificação de cada bit é independente e que a probabilidade de cada classificação é 0,6; 0,3; 0,08; 0,02, respectivamente.

SOLUÇÃO

P(X_1=12,X_2=6,X_3=2,X_4=0) = \frac{20!}{12!6!2!0!}\cdot (0,61)^{12}\cdot (0,3)^{6}\cdot (0,08)^{2}\cdot (0,02)^0\;=\;0,0358.

Exemplo_2

Dadas as máquinas A, B, C e D, que produzem respectivamente 10%, 20%, 30% e 40% da produção total de certa oficina, determine a probabilidade de um lote de 2 dúzias de peças aleatoriamente escolhidas terem sido produzidas do seguinte modo: 4 pela máquina A, 5 pela B, 7 pela C e 8 pela D.

SOLUÇÃO

P(A=4,B=5,C=7,D=8) = \frac{24!}{4!5!7!8!}\cdot (0,10)^{4}\cdot (0,20)^{5}\cdot (0,30)^{7}\cdot (0,40)^8\;=\;0,0049\;=\;0,49\%.

2 Variáveis Aleatórias Contínuas

2.1 Distribuição Exponencial

Diz-se que uma variável aleatória contínua X tem distribuição exponencial com parâmetro λ se sua função densidade de probabilidade é dada por

f(x) = \left\{\begin{array}{cccc} \lambda\,e^{-\lambda\,x}\;\;,x > 0\\ 0\;,\; x \;\leq\;0\\ \end{array}\right.

Como essa função depende apenas do valor de λ, esse é o parâmetro da densidade exponencial.

Usaremos a seguinte notação para indicar que uma variável aleatória tem distribuição exponencial com parâmetro λ: X ∼ exp(λ). O gráfico da densidade exponencial para λ = 5.

2.1.1 Valor Esperado e Variância

E(X)\;=\;\frac{1}{\lambda} Var(X)\;=\;\frac{1}{\lambda^2}

2.2 Distribuição Uniforme

Em estatística e probabilidade, a distribuição uniforme é a distribuição de probabilidades contínua mais simples de conceituar: a probabilidade de se gerar qualquer ponto em um intervalo contido no espaço amostral é proporcional ao tamanho do intervalo, visto que na distribuição uniforme a f(x) é igual para qualquer valor de x no intervalo considerado. Por exemplo, se considerarmos um intervalo em x de zero à dez positivo (xЄ[0,10] ), e assumirmos que temos uma distribuição uniforme nesse intervalo, a probabilidade de f(x) no intervalo 2< x <5 é igual a probabilidade de f(x) no intervalo 5<x<8 pois sabemos que a distribuição é uniforme nesses intervalos e possuímos os intervalos com o mesmo tamanho.

Outra maneira de se dizer “distribuição uniforme” seria “um número finito de resultados com chances iguais de acontecer”.

Ela é usada quando assumimos intervalos iguais da variável que a mesma probabilidade .

Um simples exemplo de distribuição uniforme é lançar um dado não viciado. Os possíveis valores são 1,2,3,4,5,6, e a cada turno que o dado é jogado a probabilidade de cada valor é 1/6. Se dois dados são lançados e seus valores adicionados, a distribuição resultante não é mais uniforme pois as somas não são uma variável equiprovável.

A distribuição discreta uniforme em si não possui parâmetros. No entanto, é conveniente representar seus possíveis resultados com um intervalo fechado [a,b], sendo ‘a’ e ‘b’ considerados os principais parâmetros da distribuição. Com isso a função acumulada dessa distribuição é representada como:

Seja [a,b] o espaço amostral. Então temos que a função densidade de probabilidade é:

Esta distribuição tem valor médio ou esperança matemática de X, dada por

E(X)\;=\;\frac{a + b}{2} e variância Var(X)\;=\;\frac{(a + b)^2}{12}

2.3 Distribuição Gama

A distribuição normal é uma das distribuições de probabilidade mais utilizadas para modelar fenômenos naturais, mas existem outras. A distribuição gama é uma família de distribuições contínuas de probabilidade de dois parâmetros. É usada para modelar valores de dados positivos que são assimétricos à direita e maiores que zero. É muito utilizada em Meteorologia, para descrever distribuição de precipitação, e em engenharia, para obtenção do tempo de retorno de um equipamento com falha.

Enquanto que uma distribuição normal é caracterizada por sua média e desvio padrão, uma distribuição gama usa outros parâmetros. A parametrização usando alpha e beta é mais comum em estatística bayesiana, enquanto que usando k e \theta é mais comum em econometria. Considera-se k = \alpha e \beta = 1/\alpha, este conhecido como parâmetro de escala inversa ou taxa (“rate”). Sua função densidade de probabilidade pode ser escrita como:

f(x;\alpha , \beta)\;=\;\frac{\beta^{\alpha}x^{\alpha-1}e^{-\beta x}}{\Gamma (\alpha)}

com a função gama no denominador descrita como:

\Gamma (\alpha)\;=\;(\alpha - 1)!

A função gama é uma extensão analítica da função fatorial para o conjunto dos números reais e complexos, sendo uma solução para o seguinte problema de interpolação: encontrar uma curva suave que conecte os pontos (x, y) dados por y = (x − 1)! em que x é um inteiro positivo.

O parâmetro de forma (k) indica o formato geral da curva. Quanto maior o valor de k, mais a distribuição tende a se aproximar de uma gaussiana. No gráfico a seguir, isso pode ser notado pelas curvas preta, vermelha, verde e azul (respectivamente), que apresentam somente o parâmetro de forma variando de modo crescente. Se k é um inteiro positivo, então a distribuição representa uma distribuição Erlang; para k = 1, a distribuição gama será simplificada para a distribuição exponencial.

O parâmetros de escala (θ) indica o escalonamento da curva, ou seja, o quanto ela pode “esticar” ou “encolher” para cima (eixo y), dependendo das magnitudes gerais dos valores dos dados representados. Note que as curvas preta, vermelha, verde e azul (respectivamente) ficam mais “baixas” quanto maior o parâmetro de escala.

Muitas distribuições comumente usadas para modelos paramétricos na análise de sobrevivência (como a distribuição Exponencial, a distribuição Weibull e a gama Gamma) são casos especiais da gama generalizada. A distribuição de Pearson do tipo III é uma distribuição gama generalizada de três parâmetros, que por sua vez é uma generalização da distribuição gama de dois parâmetros.

A distribuição log-normal é um caso especial da distribuição log-Pearson tipo III quando o coeficiente de assimetria/ distorção “skew” (Cs) dos dados logarítmicos é igual a 0. Quando o skew é positivo significa que a distorção é para a esquerda e quando negativo a distorção é para a direita. Essa distribuição e a de Gumbel são muito usadas para inundações máximas anuais.

2.4 Distribuição Qui-Quadrado

A distribuição X^2 ou qui-quadrado é uma das distribuições mais utilizadas em estatística inferencial, principalmente para realizar testes de X^2. Este teste serve para avaliar quantitativamente a relação entre o resultado de um experimento e a distribuição esperada para o fenômeno. Isto é, ele nos diz com quanta certeza os valores observados podem ser aceitos como regidos pela teoria em questão. Muitos outros testes de hipótese usam, também, a distribuição X^2.

2.4.1 Teste X^2

Dado um experimento onde foram realizadas N medidas de uma variável aleatória X. Em cada medida, a variável X assume os valores x_1\;,x_2\;, . . ,\;x_k\;,. . ., x_N. Gostaríamos de testar se a distribuição experimental dos valores x_1\;,x_2\;, . . ,\;x_k\;,. . ., x_N é consistente com a distribuição esperada para o fenômeno, f(X). Em outras palavras, temos que avaliar como esperaríamos que as N medidas estivessem distribuídas e então comparar com a distribuição observada. Primeiramente, em geral x é uma variável contínua, de forma que não podemos nos referir ao valor esperado de medidas com um único valor de x[2] (se x for contínuo, a probabilidade de X assumir um exato valor é zero). Logo, precisamos definir intervalos a ≤ x ≤ b e calcular o número esperado de medidas que devem estar dentro de cada intervalo j, em que j = 1, 2, …, n e n é o número de intervalos definidos. O número de medidas esperadas para o intervalo j, E_j, será, então,

E_j\;=\;NPr_j

onde Pr_j é a probabilidade de X assumir um valor dentro do intervalo j. Essa probabilidade obviamente depende da distribuição f(X) e é normalizada:

\sum_{j}\;Pr_j\;=\;1 É natural analisar a diferença entre o número de amostras observadas dentro de cada intervalo, O_j, e o número esperado:

\frac{O_j\;-\;E_j}{\sigma_j}

seja da ordem de unidade, se nossa hipótese for verdadeira. Definimos, portanto, a variável X^2_k, com k graus de liberdade estatísticos, como sendo

X^2_k\;\equiv\;\sum_{j=1}^{n}\;\frac{(O_j\;-\;E_j\;)^2}{E_j} indicando o quanto as distribuições experimental e teórica são parecidas. Se X^2\;\leq n, há uma boa concordância entre as distribuições, e se X^2\;\geq n é bem provável que a hipótese para f(X) seja falsa. Os graus de liberdade k são definidos como a diferença entre o número de medidas realizadas e o número de restrições feitas aos valores das medidas.

2.4.2 Distribuição X^2.

A probabilidade da distribuição qui quadrado não é simétrica como a da distribuição normal. Dessa forma, para aumentar seu estado de simetria, é necessário aumentar o seu grau de liberdade, portanto a relação entre simetria e grau de liberdade é diretamente proporcional.

A variável X^2_k, por si só, apresenta uma função densidade de probabilidade.Esta função apresenta qual a probabilidade de a variável X^2_k assumir um valor entre X^2_k e X^2_k + dX^2_k, e é dada por:

f(X^2_k)\;=\;\frac{1}{2^{k/2}\Gamma (k/2)}(X^2_k)^{k/2-1}e^{X^2_k/2}. Exemplos desta função para diversos k estão plotados na figura abaixo.

Em posse desta expressão, pode-se calcular a probabilidade de, num teste de X^2, obter-se um valor igual ou maior ao valor encontrado, (X^2)', calculando a integral

\int_{(X^2)'}^{\infty}f(X^2)dX^2 Desta forma, encontramos um modo quantitativo para determinar a concordância entre distribuição experimental e teórica. Em geral, para evitar o cálculo desta integral, se recorre a tabelas que apresentam os valores das probabilidades para cada intervalo de confiança e para cada grau de liberdade.

É interessante analisar que a média da distribuição X^2 é k. Isto é se repetirmos o teste de X^2 muitas vezes (para várias medidas coletadas diferentes), esperamos que a média dos valores de X^2 encontrados tenda para o número de graus de liberdade estatísticos.

A distribuição qui-quadrado pode ser simulada a partir da distribuição normal.

2.5 Distribuição F

A distribuição F é uma distribuição de amostragem contínua da razão de duas variáveis aleatórias independentes com distribuição qui-quadrado, cada uma dividida por seus graus de liberdade. O distribuição F é assimétrica à direita e descrito pelos graus de liberdade de seu numerador (ν1) e denominador (ν2). Os gráficos a seguir mostram o efeito de diferentes valores de graus de liberdade na forma da distribuição.

Utilize a distribuição F, quando uma estatística de teste é a razão entre duas variáveis que tenham, cada uma delas, uma distribuição do qui-quadrado. Por exemplo, use a distribuição F na análise de variância e em testes de hipóteses para determinar se duas variâncias de população são iguais.

Exemplo

Calcular as probabilidades para uma distribuição F com graus de liberdade do denominador infinitos Suponha que X segue uma distribuição F com 5 graus de liberdade do numerador e graus de liberdade do denominador infinitos, e você quer que a probabilidade de que X seja menor ou igual a 2. Você pode encontrar a probabilidade de que Y é menor ou igual a 2, onde Y segue uma distribuição F com 5 numeradores e 99999 denominadores nos graus de liberdade e Y aproxima X.

  1. Selecione Calc > Distribuições de probabilidades > F.
  2. Em Graus de liberdade do numerador, insira 5.
  3. Em Graus de liberdade do denominador, insira 99999.
  4. Escolhe Constante de entrada e insira 2. Clique em OK.

O FDA para 2 é 0,924755. Este valor dá a área sob a curva até 2.