Curso R

Reamostragem e Randomização

Alexandre Adalardo de Oliveira

Ecologia- IBUSP abril 2019

Reamostragem e Permutação

Técnicas de Monte Carlo

Introdução

Simulação e aleatorizações baseadas em dados ou distribuições teóricas buscando soluções numéricas.


  • teste de hipóteses
  • medidas de precisão de estimativas
  • otimizadores
  • integração numérica
  • algoritmos de amostragem

Definições

Monte Carlo

Técnicas de simulação buscando resultado numérico

  • simulações aleatórias (numérico)
  • distribuição conhecida (normal, poisson)
  • MCMC “Markov Chain Monte Carlo”


Reamostragem

Técnicas de reamostragem de dados

  • precisão de estimativa (bootstrap, jackknife)
  • teste de significância (reordenação, permutação)
  • validação de modelos (subconjuntos)

Definições

Teste de Permutação

  • reordenamento (rótulos) em todas as combinações possíveis (teste exato de Fisher)
  • combinações possíveis de 10 valores:


  • Teste de Monte Carlo: uma amostra das combinações

Reposição

Bootstrap

Reamostragem com reposição

Jackknife

Reamostragem de subconjunto


Inferência: precisão de uma estimativa

Implicações

Não assumem a distribuição de probabilidade teórica

Vantagens

  • poucas restrições (dados)
  • intuitiva (conhecimento matemático)
  • poucos pressupostos
  • assintótica

Desvantagens

  • dificuldades computacionais
  • resultado pode variar (estatítica de interesse)
  • domínio de inferência restrito
  • necessita cenário nulo adequado (complexo)

Teste de Hipóteses

  1. Definir a estatística de interesse (EI)
  2. Estabelecer o cenário nulo
  3. Reamostrar, reordenar ou simular o cenário nulo
  4. Calcular a EI no cenário nulo
  5. Criar a distribuição dos pseudovalores da EI
  6. Posicionar o observado na distribuição dos pseudovalores
  7. Calcular o p-valor

Pink

Exemplos: teste de hipóteses

Euterpe edulis

'data.frame':   200 obs. of  2 variables:
 $ local: chr  "PECB" "PECB" "PECB" "PECB" ...
 $ pap  : num  46 29 48 42 21 25 49 41 26 47 ...
  PEIC   PECB 
25.495 35.640 
  PECB 
10.145 

Representação dos dados

Representação dos dados

Cenário Nulo

A diferença observada pode ser gerada pelo acaso?

Cenário Nulo

  PEIC   PECB 
31.465 29.670 
  PECB 
-1.795 
 PECB 
2.425 
  PECB 
-2.245 

Distribuição Nula

Null Anima

Distribuição Nula

Incerteza Sobre a Afirmação

A probabilidade da diferença observada ter sido gerada pelo acaso.


[1] 1
[1] 0.001

Incerteza Sobre a Afirmação

A probabilidade da diferença observada ter sido gerada pelo acaso.


[1] 1
[1] 0.001

p-valor

Distribuição espacial

Plantas estão distribuídas aleatoriamente em uma parcela?

Estatística de interesse (EI)

  • média da distância ao vizinho mais próximo

Estatística de interesse (EI)

  • média da distância ao vizinho mais próximo
  xp yp
1  8  3
2  6 14
3  5 29

Estatística de interesse (EI)

         1        2       3
1  0.00000 11.18034 26.1725
2 11.18034  0.00000 15.0333
3 26.17250 15.03330  0.0000

Cálculo da estatística de interesse

      95       96       97       98       99      100 
2.000000 6.324555 6.708204 2.828427 5.099020 4.000000 
[1] 4.403911

Definir cenário nulo

  • completa aleatoriedade espacial

Simular o cenário nulo

Calcular a EI no nulo

[1] 5.938513

Calcular a EI no nulo

  • completa aleatoriedade espacial

Distribuição da EI no nulo

  • definir o número de simulações
  • criar o objeto de resultado das simulações
[1] 4.403911       NA       NA       NA       NA

Distribuição da EI no nulo

  • criar o ciclo
  • armazenar o resultado na posição

Simulação

Drawing

Calcular o p-valor

 [1] 4.403911 5.356657 5.147929 5.214187 4.814227 5.571546 5.211867
 [8] 5.604144 5.046847 5.423152

Calcular o p-valor

Calcular o p-valor

[1] 7
[1] 0.007

Resultado:

  • pontos mais próximos do que o esperado pelo cenário de completa aleatoriedade espacial

Completa Aleatoriedade Espacial

Pink

ANOVA por reamostragem

Categórica com 3 níveis

  solo colhe
1  are     6
2  are    10
3  are     8
4  are     6
5  are    14
6  are    17

Anova: partição da variação

\[F=\frac{\sigma_{entre}^2}{\sigma_{intra}^2}\]

Drawing

Estatística de interesse

Médias dos solos

 are  arg  hum 
 9.9 11.5 14.3 


Média Geral

[1] 11.9

Estatística de interesse

Soma das diferenças

 are  arg  hum 
-2.0 -0.4  2.4 
[1] 0
[1] 4.8

Cenário Nulo

Distribuição da EI no nulo

  • definir o número de simulações
  • criar o objeto de resultado das simulações
[1] 4.8  NA  NA  NA  NA

Distribuição da EI no nulo

  • criar o ciclo
  • armazenar o resultado na posição

Simulação

Drawing

Calcular o p-valor

 [1] 4.8 0.8 1.6 3.0 3.0 5.4 3.0 0.4 2.4 3.4
[1] 27
[1] 0.027

Anova Curso R

Pink

REGRESSÃO por reamostragem

Davis (1990). Appetite (15)13-21

 sex         weight          height          repwt            repht      
 F:112   Min.   : 39.0   Min.   : 57.0   Min.   : 41.00   Min.   :148.0  
 M: 88   1st Qu.: 55.0   1st Qu.:164.0   1st Qu.: 55.00   1st Qu.:160.5  
         Median : 63.0   Median :169.5   Median : 63.00   Median :168.0  
         Mean   : 65.8   Mean   :170.0   Mean   : 65.62   Mean   :168.5  
         3rd Qu.: 74.0   3rd Qu.:177.2   3rd Qu.: 73.50   3rd Qu.:175.0  
         Max.   :166.0   Max.   :197.0   Max.   :124.00   Max.   :200.0  
                                         NA's   :17       NA's   :17     

Davis (1990). Appetite (15)13-21

   sex weight height repwt repht
12   F    166     57    56   163
'data.frame':   199 obs. of  3 variables:
 $ sex   : Factor w/ 2 levels "F","M": 2 1 1 2 1 2 2 2 2 2 ...
 $ weight: int  77 58 53 68 59 76 76 69 71 65 ...
 $ height: int  182 161 161 177 157 170 167 186 178 171 ...
(Intercept)      height 
-130.746984    1.149222 

REGRESSÃO: gráfico

REGRESSÃO: estatística de interesse

  • inclinação da reta (\(\beta\))


\[ \hat{\beta} =\frac{ \sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{ \sum_{i=1}^{n}(x_i - \bar{x})^2}\]

REGRESSÃO: cenário nulo

[1] 182 161 161 177 157
[1] 175 173 157 175 179
sex weight height simh
M 77 182 172
F 58 161 173
F 53 161 162
M 68 177 164
F 59 157 183
M 76 170 183

Permutando a altura

(Intercept)      height 
-130.746984    1.149222 
  simh 
-0.136 

Cenário Nulo

slope simulado = -0.136

Distribuição de pseudovalores

Simulação

Drawing

REGRESSÃO: p-valor

[1] 0.001

Regressão

Pink

ANCOVA por reamostragem

ANCOVA por reamostragem

Que perguntas?

ANCOVA por reamostragem

Que perguntas podemos fazer?

  1. há relação entre peso e altura
  2. a relação entre os sexos é a mesma, mas há um efeito de ser macho?
  3. os sexos apresentam relações diferentes?

ANCOVA por reamostragem

a relação é a mesma, mas há um efeito de ser macho:

\[ \hat{\alpha}_m \neq \hat{\alpha}_f\]

ANCOVA por reamostragem

Os sexos apresentam relações diferentes:

\[ \hat{\beta}_m \neq \hat{\beta}_f\]

Reamostragem com reposição

sample(.., replace = TRUE)

[1] "a" "e" "d" "c" "b"
[1] "d" "b" "b" "a" "d"
 [1] "a" "e" "d" "b" "b" "c" "a" "a" "c" "d"

Bootstrap

Intervalo de confiança por percentil

[1] 113.4

Chacal macho: resultados

Qual a minha confiança sobre uma estimativa?

intervalo de confiança da média

 [1] 120 107 110 116 114 111 113 117 114 112
 [1] 114 116 107 117 110 112 120 112 117 111
 [1] 112 117 116 116 111 107 114 116 107 117

Estimativa bootstrap

[1] 113.4
[1] 112.2
[1] 111.3
[1] 115.6

Bootstrap

Bootstrap

Chacal macho: Resultado

Rsampling

Rsampling

https://github.com/lageIBUSP/Rsampling-shiny

Drawing

Bibliografia

Drawing Drawing Drawing

Atividades da Tarde