3. Variabilidade das estimativas da pesquisa

Embora as seções anteriores deste relatório tenham enfocado os tipos de vieses sistemáticos que podem ser a maior preocupação quando se trata de pesquisas de opinião pública, a variação (ou precisão) das estimativas também é importante. Os pesquisadores falam mais comumente sobre a precisão em termos de 'margem de erro' (MOE), que descreve o quanto as estimativas da pesquisa devem ser alteradas se alguém repetir a pesquisa muitas vezes de forma idêntica. Para pesquisas baseadas em probabilidade, a margem de erro é geralmente baseada nas propriedades matemáticas inerentes de amostras aleatórias. Para amostras de aceitação, isso não é possível. Em vez disso, o MOE deve se basear em suposições de modelagem sobre como seriam as outras amostras hipotéticas se o mesmo processo de amostragem fosse repetido muitas vezes. Embora a interpretação seja basicamente a mesma que para amostras baseadas em probabilidade, nós a chamamos de margem de erro 'modelada' para reconhecer explicitamente a confiança nessas suposições.22

Este tipo de erro éalém dequaisquer vieses sistemáticos causados ​​por não cobertura, não resposta ou auto-seleção. Por exemplo, uma estimativa com um MOE de ± 3 pontos percentuais e sem viés normalmente cairia a 3 pontos da verdade. Se a tendência fosse de +10 pontos, a mesma margem de erro significaria que as estimativas geralmente cairiam 7 a 13 pontos acima da verdade - espalhadas da mesma forma, mas centradas no valor errado.

Embora o tamanho da amostra seja geralmente considerado o maior fator na determinação do MOE, a precisão da pesquisa também é afetada pela ponderação. Incluir mais variáveis ​​no ajuste geralmente leva a um MOE maior, assim como o descarte de observações ao realizar a correspondência.

Para ver como diferentes procedimentos influenciam a variabilidade, calculamos o MOE modelado para cada uma das 81 estimativas de todas as 24 variáveis ​​de referência e pegamos a média.2,3Não ponderada, a margem média de erro nas referências foi de ± 1,3 pontos percentuais para um tamanho de amostra de n = 2.000. À medida que o tamanho da amostra aumentou, o MOE médio encolheu para um mínimo de ± 0,4 pontos em n = 8.000.

A margem de erro modelada aumenta apenas ligeiramente com a adição de variáveis ​​políticas

Uma descoberta clara é que o uso das variáveis ​​políticas além dos dados demográficos básicos tem um efeito mínimo na margem de erro. Para todos os 14 métodos e em cada tamanho de amostra, a adição de variáveis ​​políticas ao procedimento de ajuste nunca aumentou o MOE médio em mais de 0,2 pontos percentuais. Na maioria dos casos, a diferença foi ainda menor e, em alguns casos, o MOE médio foi realmente menor com as variáveis ​​políticas do que sem.24Dado esse padrão consistente, o restante desta seção se concentrará apenas nos procedimentos que se ajustam às variáveis ​​demográficas e políticas.

A perda de precisão da correspondência começa pequena, mas aumenta rapidamente com o tamanho da amostra

Em amostras menores, a escolha do método estatístico também tem um efeito relativamente pequeno sobre a precisão das estimativas. Quando n = 2.000, os quatro métodos mais eficazes para reduzir o viés (raking mais os métodos de combinação que usam raking como o estágio final: P + R, M + R e M + P + R) todos têm uma margem média de erro de ± 1,9 pontos percentuais. O outro método de combinação, pareamento seguido de ponderação de propensão (M + P), é muito próximo, em ± 1,8 pontos. A correspondência e a ponderação de propensão por si só mostram MOEs um pouco mais baixos em ± 1,6 e ± 1,5 pontos percentuais, respectivamente - uma melhoria modesta, mas improvável o suficiente para compensar o fato de que esses métodos tiveram um desempenho comparativamente fraco em relação ao viés.

O fato de que dois métodos que retêm todas as entrevistas (raking e P + R) podem ter o mesmo MOE médio como dois para os quais um quarto das entrevistas são descartados (M + R e M + P + R) é talvez surpreendente, embora sirva para destacar os diferentes trade-offs envolvidos em cada abordagem. Para o primeiro, as estimativas usam o tamanho total da amostra, mas a redução do viés é alcançada por meio de pesos mais variáveis ​​e extremos, o que tende a aumentar a variância das estimativas da pesquisa. Para o último, as estimativas usam apenas os 1.500 casos combinados, mas os pesos gerados pelas etapas subsequentes de ponderação de propensão e raking são menos extremos.



No entanto, conforme o tamanho da amostra inicial aumenta, também aumenta a parcela de entrevistas que são descartadas no processo de correspondência, e a penalidade resultante rapidamente se torna grande em relação aos métodos que retêm todas as entrevistas. Neste estudo, quando o tamanho da amostra atingiu 8.000, os métodos que retiveram todas as entrevistas (raking e P + R) tiveram ambos um MOE médio de ± 0,5. Em contraste, o MOE para os dois métodos de correspondência (M + R e M + P + R) caiu apenas para ± 1,4 nesse tamanho. Notavelmente, o uso da ponderação de propensão como a primeira ou a segunda etapa pareceu ter pouco ou nenhum efeito sobre a margem média de erro quando seguido por raking.

Para estimativas de amostra completa, os benefícios de métodos estatísticos complexos são situacionais

Se o ajuste geralmente envolve um trade-off entre reduzir o erro sistemático (viés), mas aumentar o erro aleatório (variância), qual é a melhor abordagem? Para encontrar o equilíbrio certo entre a redução do viés e o aumento da variabilidade, os estatísticos costumam usar uma medida conhecida comoraiz quadrada média do erro(RMSE). RMSE mede o efeito combinado de ambos os viesesevariação na quantidade total de erros em uma estimativa de pesquisa. Embora os métodos que combinam a correspondência com outras técnicas pareçam ter uma ligeira vantagem quando se trata de redução de viés, o fato de que eles também tendem a ter uma margem de erro maior significa que quaisquer ganhos na precisão podem ser superados por grandes aumentos na variância.

Para testar isso, o RMSE médio foi calculado para todas as 24 variáveis ​​de referência e comparado entre três métodos de ajuste: raking, porque é mais comum na prática; o P + R de dois estágios, que produziu estimativas ligeiramente menos enviesadas do que o raking por conta própria com a mesma margem de erro; e a técnica M + P + R de três estágios, que geralmente apresentava o menor viés estimado em detrimento do descarte de entrevistas. Para resumir, a discussão é restrita aos casos em que variáveis ​​demográficas e políticas são usadas, embora o padrão geral seja o mesmo.

O estudo descobriu que, em média de todas as 24 variáveis ​​de referência, P + R e M + P + R são indistinguíveis um do outro em cada tamanho de amostra - ambos com um RMSE médio entre 6,4 e 6,2 pontos percentuais nos tamanhos n = 2.000 en = 8.000 respectivamente. Simplificando, no agregado, a quantidade total de erros foi a mesma para os dois métodos. Em média, M + P + R produziu estimativas com ligeiramente mais variabilidade do que P + R, mas compensou por meio de viés inferior. O raking foi apenas ligeiramente superior, passando de 6,5 em n = 2.000 para 6,3 em n = 8.000 - uma diferença de apenas 0,2 pontos.

Embora todos esses métodos fossem mais ou menos equivalentes no agregado, havia diferenças importantes para alguns tópicos da pesquisa, dependendo de seu nível de distorção antes do ajuste. Para a maioria dos tópicos, o padrão era consistente com o que vimos em todas as variáveis. No entanto, para dois tópicos em particular, surgiu um padrão diferente. Para questões relacionadas à família, o raking produziu o menor RMSE, seguido por P + R, com M + P + R sensivelmente maior do que os outros. Antes da ponderação, as variáveis ​​relacionadas à família tinham o menor viés médio de todos os tópicos, e a ponderação teve pouco efeito. Consequentemente, nenhuma dessas estimativas viu muito na forma de redução de viés, independentemente do método utilizado. Com raking e P + R, há pelo menos o benefício de menor variância em tamanhos de amostra maiores, embora P + R seja um pouco pior devido à sua maior complexidade. Com M + P + R, as entrevistas descartadas são amplamente desperdiçadas, porque não há redução de viés para compensar a maior variabilidade.

O oposto é verdadeiro para o engajamento político, que tinha o viés estimado mais alto antes do ajuste. Aqui, os ganhos de uma correspondência mais eficaz em tamanhos de amostra iniciais maiores, mesmo depois de descartar 6.500 de 8.000 entrevistas, superaram os benefícios de menor variabilidade que vem com métodos que usam a amostra completa.

Em conjunto, essas descobertas sugerem que a maior eficácia de técnicas estatísticas complexas é altamente situacional. O método M + P + R de três estágios produziu melhorias reais no erro total para os benchmarks de engajamento político, mesmo sendo responsável por uma penalidade substancial em termos de variabilidade. Mesmo assim, o viés estimado para essas medidas era alto para começar, e mesmo o ajuste mais eficaz deixou um grande viés remanescente. Quando o viés é baixo, a complexidade adicionada simplesmente aumenta o nível total de erro em relação aos métodos mais simples, como era o caso dos benchmarks relacionados à composição familiar. Para a maioria dos outros tópicos, as diferenças eram mínimas.

Facebook   twitter