2. Reduzindo o preconceito nos benchmarks

Para entender os méritos relativos dos procedimentos de ajuste alternativos, cada um foi avaliado quanto à sua eficácia na redução do viés para 24 referências diferentes extraídas de pesquisas de 'padrão ouro' de alta qualidade. Esses benchmarks cobrem uma variedade de tópicos, incluindo engajamento cívico e político (ambos tópicos difíceis para pesquisas em geral), uso de tecnologia, finanças pessoais, composição familiar e outras características pessoais. Consulte o Apêndice D para uma lista completa. Embora todas essas referências venham de pesquisas de alta qualidade, é importante observar que essas medidas são em si estimativas e estão sujeitas a erros. Como resultado, as estimativas de viés descritas aqui devem ser consideradas como aproximações.

Para cada conjunto de dados de pesquisa simulado com tamanhos de amostra variando de 2.000 a 8.000, as sete técnicas estatísticas foram aplicadas duas vezes, uma usando apenas variáveis ​​demográficas e uma vez usando variáveis ​​demográficas e políticas. Isso produziu um total de 14 conjuntos diferentes de pesos para cada conjunto de dados. Em seguida, as estimativas foram calculadas para cada categoria substantiva17das 24 perguntas de referência usando cada conjunto de pesos, bem como não ponderado.

A tendência estimada para cada categoria é a diferença entre a estimativa da pesquisa e o valor de referência.18Para resumir o nível de enviesamento para todas as categorias de uma variável de referência particular, calculamos a média dos valores absolutos dos enviesamentos estimados para cada uma das categorias da variável. Para resumir o nível geral de parcialidade em várias perguntas (por exemplo, todos os 24 benchmarks), a média das médias do nível de pergunta foi usada.

Antes de qualquer ponderação, o viés absoluto médio estimado para as 24 variáveis ​​de referência era de 8,4 pontos percentuais. Muitos dos vieses estimados são relativamente pequenos. Metade das variáveis ​​apresentam vieses médios abaixo de 4 pontos, quatro dos quais abaixo de 2 pontos (renda familiar, casa própria, estado civil e cobertura de seguro saúde). Na outra extremidade da escala, quatro variáveis ​​mostram vieses extremamente grandes. Estão votando na eleição intermediária de 2014, (32 pontos percentuais), tendo feito voluntariado nos últimos 12 meses (29 pontos), votando na eleição presidencial de 2012 (23 pontos) e possuindo tablet (20 pontos).

A escolha de variáveis ​​para ponderação tem mais consequências do que o método estatístico

Mais do que qualquer outro fator, a escolha das variáveis ​​de ajuste tem o maior impacto na precisão das estimativas. O ajuste nas variáveis ​​demográficas e políticas resultou em um viés médio mais baixo do que o ajuste apenas nos dados demográficos. Enquanto as maiores melhorias foram para medidas de engajamento político (como votação), os benchmarks relacionados ao engajamento cívico e uso de tecnologia também viram reduções consideráveis ​​no preconceito. As diferenças entre os tópicos da pesquisa são examinadas em detalhes na seção “A escolha das variáveis ​​de ajuste tem um impacto muito maior quando relacionadas ao tópico da pesquisa”.

Isso foi verdade para todos os três métodos estatísticos primários, bem como para os quatro métodos de combinação, e foi verdade para todos os tamanhos de amostra. Em média, o ajuste na demografia por si só reduziu o viés estimado em pouco menos de 1 ponto percentual, de 8,4 pontos antes da ponderação para 7,6 depois. Este efeito foi relativamente consistente, independentemente do método estatístico ou do tamanho da amostra. Em contraste, a ponderação tanto nos dados demográficos quanto nas variáveis ​​políticas reduz o enviesamento em 1,4 pontos percentuais adicionais em média, embora o grau de melhoria tenha sido mais sensível ao método estatístico e ao tamanho da amostra. No melhor cenário, o conjunto mais abrangente de variáveis ​​de ajuste reduziu o enviesamento médio estimado para um mínimo de 6 pontos percentuais.



A correspondência por si só pode melhorar no raking, mas apenas modestamente e com grandes amostras

O estudo examinou como o desempenho de cada método de ajuste é afetado pelo tamanho da amostra. Para o raking, a redução do viés foi efetivamente a mesma em todos os tamanhos de amostra. O viés médio estimado com n = 8.000 entrevistas é idêntico àquele com n = 2.000 entrevistas (7,7 pontos percentuais ao ajustar dados demográficos e 6,3 para variáveis ​​demográficas + políticas).

A correspondência, por outro lado, torna-se mais eficaz com tamanhos de amostra iniciais maiores porque há mais candidatos de correspondência para cada caso na amostra de destino. Ao ajustar as variáveis ​​demográficas, o pareamento mostrou uma pequena melhora conforme o tamanho da amostra aumentou, indo de um viés médio estimado de 7,9 pontos percentuais em um tamanho de amostra inicial de n = 2.000 para 7,5 pontos em n = 8.000. Quando as variáveis ​​políticas foram incluídas no ajuste, os benefícios de uma amostra inicial maior são mais substanciais, indo de um máximo de 7,3 pontos em n = 2.000 para um mínimo de 6 pontos em n = 8.000. Mesmo assim, a correspondência atingiu um ponto de retornos decrescentes em torno de n = 4.000 e se estabiliza completamente em n = 5.500 e mais. Isso sugere que pode não haver muito benefício em aumentar ainda mais o tamanho da amostra inicial quando o tamanho alvo é 1.500.

Mais notavelmente, a correspondência por si só teve um desempenho muito ruim em relação ao agrupamento em tamanhos de amostra menores. Quando n = 2.000, o viés médio estimado do raking foi um ponto completo mais baixo para o raking. A correspondência não superou o raking até que o tamanho da amostra inicial atingisse 3.500. Na melhor das hipóteses, a correspondência melhorou com o raking em relativamente modestos 0,3 pontos, e então apenas em tamanhos de amostra de 5.500 ou maiores. Nenhum dos fornecedores de painel opt-in que regularmente empregam correspondência usa essa abordagem por conta própria; em vez disso, eles seguem a correspondência com estágios adicionais de ajuste ou modelagem estatística.

Ao contrário da correspondência, a ponderação de propensão nunca foi mais eficaz do que o raking. Quando apenas dados demográficos foram usados, o viés estimado foi igual a raking em uma constante de 7,7 pontos percentuais. Com as variáveis ​​demográficas e políticas empregadas, o viés da ponderação de propensão variou de 6,7 pontos quando n = 2.000 a 6,4 pontos em n = 8.000. Essa melhoria provavelmente ocorre porque o algoritmo de floresta aleatório usado para estimar as propensões pode se ajustar a modelos mais complexos e poderosos, dados mais dados e mais variáveis.

A raking, além de correspondência ou ponderação de propensão pode ser melhor do que raking sozinho

Quando várias técnicas foram usadas juntas em sequência, o resultado foi um pouco mais de correção de viés do que qualquer um dos métodos isoladamente. Em tamanhos de amostra iniciais menores (por exemplo, n = menos de 4.000), a correspondência teve um desempenho muito fraco em relação ao raking. Mas se a correspondência e o raking fossem realizados, o resultado seria um viés ligeiramente menor do que apenas o raking. Por exemplo, quando uma amostra inicial de n = 2.000 foi combinada em variáveis ​​demográficas e políticas, o viés médio estimado foi de 7,3 pontos, mas quando a correspondência foi seguida por raking, o viés médio caiu para 6,2 pontos, colocando-o um pouco à frente de raking em 0,1 ponto em média.

Quando a correspondência foi seguida pela ponderação de propensão, houve alguma melhora na precisão, mas não tanto. Um terceiro estágio de raking aplicado após a ponderação de propensão produziu os mesmos resultados que apenas correspondência mais raking, sugerindo que qualquer benefício adicional de uma etapa de ponderação de propensão intermediária é mínimo.

Um padrão semelhante surgiu quando a ponderação de propensão foi seguida por raking. Por si só, a ponderação de propensão sempre teve um desempenho pior do que o raking, mas quando os dois foram usados ​​em combinação com variáveis ​​demográficas e políticas, o resultado foi uma melhoria pequena, mas consistente de 0,1 ponto em comparação com o raking sozinho. Embora existam poucos cenários em que a correspondência ou ponderação de propensão seja preferível a raking quando usada isoladamente, eles podem agregar valor quando combinados com raking. Dito isso, os benefícios são muito pequenos, da ordem de 0,1 ponto percentual, e podem não valer o esforço extra.

Talvez a descoberta mais interessante tenha sido o pequeno benefício de ter uma amostra grande. O protocolo de ajuste mais eficaz reduziu o viés médio para 6 pontos percentuais com um tamanho de amostra de pelo menos n = 5.500, apenas 0,2 pontos melhor do que pode ser alcançado com n = 2.000. Por que o enviesamento estimado médio se estabiliza em cerca de 6 pontos percentuais? Por que o nível de viés não continua diminuindo para zero conforme o tamanho da amostra vai para n = 8.000? A literatura da pesquisa sugere que isso ocorre porque o conjunto mais abrangente de variáveis ​​de ajuste (ou seja, as nove variáveis ​​demográficas + políticas) ainda não captura totalmente as maneiras pelas quais os respondentes que optam online diferem da população de adultos dos EUA.19Em outras palavras, existem outras características, que não foram identificadas, nas quais a amostra opt-in online difere da população, e essas diferenças resultam em viés, mesmo depois de aplicados ajustes de ponderação elaborados. Aumentar o tamanho da amostra para 8.000 não resolve esse problema, porque as entrevistas adicionais são apenas 'mais do mesmo' tipo de adultos no que diz respeito às variáveis ​​de ajuste e aos resultados da pesquisa.

A escolha das variáveis ​​de ajuste tem um impacto muito maior quando relacionado ao tópico da pesquisa

Em termos de melhoria da precisão das estimativas, os resultados para tópicos de pesquisa individuais (por exemplo, finanças pessoais, tecnologia, características domésticas) foram semelhantes ao que foi observado no agregado. Especificamente, o estudo conclui que a escolha das variáveis ​​de ajuste importou muito mais do que a escolha do método estatístico. Dito isso, o efeito variou consideravelmente de um tópico para outro.

O exemplo que compara o método menos complexo, raking, com a abordagem mais elaborada de correspondência seguida por ajuste de propensão e raking '(M + P + R') entre os tópicos é ilustrativo do padrão geral. Para o tópico de engajamento político, M + P + R resultou em um viés ligeiramente mais baixo do que o raking com ambos os conjuntos de variáveis ​​de ajuste, mas os dois métodos foram amplamente indistinguíveis para os tópicos restantes. Enquanto isso, a diferença entre ajustar apenas os dados demográficos e incluir variáveis ​​políticas adicionais pode ser substancial. A diferença foi mais dramática para o envolvimento político, que teve um viés médio de 22,3 pontos percentuais não ponderado - mais alto do que qualquer outro tópico. M + P + R com variáveis ​​demográficas reduziram isso em 2,9 pontos, mas a inclusão de variáveis ​​políticas reduziu o viés médio em 8,8 pontos adicionais.

Para referências de engajamento político, as estimativas não ponderadas superaram substancialmente os adultos que votaram em 2014 e 2012 em 32 e 23 pontos percentuais, respectivamente. Enquanto M + P + R com variáveis ​​demográficas reduziu um pouco esses vieses (em 3 e 4 pontos para os respectivos anos de votação), a inclusão de variáveis ​​políticas no ajuste reduziu o viés nos votos de 2012 e 2014 em 11 e 12 pontos adicionais, respectivamente . Isso provavelmente se deve à inclusão do registro eleitoral como uma das variáveis ​​de ajuste político. Antes da ponderação, os eleitores registrados estavam sobre-representados em 19 pontos percentuais, e é natural que ponderar os eleitores registrados em sua proporção populacional também reduziria a proporção de eleitores que relataram ter votado. A redução no viés estimado sobre a parcela que relatou ter contatado ou visitado um funcionário público no ano passado também faz sentido intuitivamente, uma vez que é plausível que esses indivíduos também tenham maior probabilidade de estar registrados para votar.

No entanto, embora o acréscimo de variáveis ​​políticas tenha corrigido uma grande parte do enviesamento dessas medidas, persistiram grandes enviesamentos, com a votação em 2012 superestimada em 8 pontos e a votação em 2014 superestimada em 17 pontos. É muito possível que pelo menos parte desse viés remanescente reflita indivíduos que afirmam ter votado quando não votaram, seja porque se esqueceram ou porque votar é socialmente desejável. De qualquer forma, o uso de variáveis ​​políticas no ajuste não é uma bala de prata.

O efeito do ajuste nas questões sobre finanças pessoais merece atenção especial. Nessas questões, a ponderação causou o viés médio estimado paraaumentarem vez de diminuir, e o uso de variáveis ​​políticas expandidas tornou o aumento ainda maior. Antes de qualquer ajuste, as amostras tendem a níveis mais baixos de bem-estar econômico do que o público em geral. Por exemplo, indivíduos com renda familiar anual de $ 100.000 ou mais foram sub-representados em cerca de 8 pontos percentuais, enquanto aqueles com renda familiar abaixo de $ 20.000 foram super-representados em cerca de 4 pontos. A percentagem de inquiridos com emprego a tempo inteiro era cerca de 6 pontos inferior à referência da população, enquanto a percentagem de desempregados, despedidos ou à procura de trabalho era quase 5 pontos superior à da população. A porcentagem que relatou que um membro de sua residência recebeu vale-refeição no ano passado foi 13 pontos acima do valor de referência.

Ao mesmo tempo, os entrevistados tendem a tersuperiorníveis de educação do que o público em geral. A parcela não ponderada com pós-graduação foi 6 pontos percentuais maior do que o valor da população, e a porcentagem com menos de ensino médio 8 pontos menor.

O ajuste nas variáveis ​​demográficas básicas corrigiu esse desequilíbrio educacional e reduziu o nível médio de educação das amostras da pesquisa. Mas, ao fazer isso, o nível médio de bem-estar econômico foi reduzido ainda mais e os vieses nas medidas financeiras foram ampliados em vez de reduzidos. Como o bem-estar financeiro e o registro eleitoral também estão positivamente correlacionados, a inclusão das variáveis ​​políticas expandidas produz vieses ainda maiores para essas variáveis. Este padrão sugere que os procedimentos de ponderação podem se beneficiar da inclusão de uma ou mais variáveis ​​adicionais que capturam a situação econômica dos entrevistados mais diretamente do que a educação.

Para benchmarks relativos ao engajamento cívico e tecnologia, a redução no viés da inclusão de variáveis ​​políticas foi um pouco mais do que o dobro da demografia sozinha, embora em ambos os casos as reduções fossem menores do que no engajamento político. Por outro lado, a redução do viés para os tópicos pessoais e familiares foi mínima para ambos os conjuntos de variáveis.

Para alguns subgrupos, ajustes mais elaborados superam o raking

Embora possa haver pouco a ganhar com tamanhos de amostra muito grandes ou métodos estatísticos mais complexos no que diz respeito às estimativas da população em geral, pode haver diferenças mais pronunciadas entre os métodos de ajuste ou mais impacto do aumento do tamanho da amostra para estimativas de pesquisa baseadas em subgrupos populacionais. Na verdade, um recurso atraente dos modelos de aprendizado de máquina usados ​​em correspondência e ponderação de propensão é a possibilidade de que eles detectem desequilíbrios dentro de subgrupos que um pesquisador pode não pensar em explicar com o raking.

Para a maioria dos subgrupos, o raking teve um desempenho quase tão bom quanto as abordagens mais elaboradas. No entanto, alguns subgrupos viram melhorias um pouco maiores na precisão com abordagens mais complexas. Para minimizar o número de peças móveis nesta análise específica, esses resultados são todos baseados em um tamanho de amostra de n = 3.500 e em ajustes usando as variáveis ​​demográficas e políticas. As estimativas baseadas em graduados universitários tiveram um viés médio estimado de 6,5 pontos percentuais com raking versus 5,5 pontos com uma combinação de correspondência, ponderação de propensão e raking. Da mesma forma, o viés estimado médio nas estimativas hispânicas foi de 10,5 pontos percentuais com raking versus 9,8 com o método de combinação. Similares, embora menores, diferenças foram encontradas para estimativas baseadas em adultos com idades entre 18-29, aqueles com idades entre 30-49 e homens. Por outro lado, as estimativas para aqueles com não mais do que o ensino médio foram um pouco mais precisas com o raking. As estimativas para outros subgrupos demográficos importantes não parecem ser afetadas pela escolha do método estatístico.

O padrão para os hispânicos é particularmente notável. As estimativas para este grupo tiveram o maior viés médio, tanto antes da ponderação quanto depois. O fato de M + P + R ter um desempenho melhor do que o raking sugere que há desequilíbrios na composição hispânica que não são suficientemente captados pela especificação de raking. Embora este tenha sido o caso para outros grupos (por exemplo, graduados universitários), os hispânicos também viram benefícios muito maiores de um tamanho de amostra inicial maior do que outros subgrupos. Em n = 2.000, o viés médio para estimativas hispânicas foi de 10,2 pontos percentuais. Isso diminuiu continuamente para 9 pontos em n = 8.000 sem estabilizar, para uma variação total de 1,2 pontos. Em comparação, as próximas maiores mudanças foram observadas para graduados, homens e adultos com menos de 30 anos, em 0,4 pontos. Isso implica que, mesmo com 8.000 casos para escolher, a qualidade das correspondências hispânicas era pobre e problemática de maneiras que as etapas subsequentes de ponderação de propensão e raking não foram capazes de superar. Embora todos os subgrupos exibam preconceitos, a representação dos hispânicos é particularmente desafiadora e exigirá esforços adicionais que vão muito além dos testados neste estudo.

Para medidas partidárias, adicionar variáveis ​​políticas ao ajuste de ponderação pode tornar as estimativas opt-in online mais republicanas

Embora as comparações de benchmarks forneçam uma medida importante da qualidade dos dados, os pesquisadores de opinião pública geralmente estão interessados ​​em estudar atitudes e comportamentos que carecem do mesmo tipo de verdade básica que pode ser usada para avaliar sua precisão. Quando os benchmarks padrão-ouro não estão disponíveis, uma maneira de avaliar as pesquisas opt-in online é procurar o alinhamento com as pesquisas baseadas em probabilidade conduzidas aproximadamente no mesmo momento. Embora essas pesquisas apresentem suas próprias falhas, métodos baseados em probabilidade bem planejados e executados tendem a ser mais precisos.vinte

Neste estudo, havia várias medidas que poderiam ser comparadas às pesquisas públicas contemporâneas: a aprovação presidencial de Barack Obama, atitudes sobre a Lei de Cuidados Acessíveis e preferência de voto presidencial na eleição de 2016. Esses tipos de medidas partidárias são particularmente relevantes, dado que um estudo anterior do Pew Research Center descobriu que as amostras de adesão online variaram de 3 a 8 pontos percentuais mais democratas do que pesquisas telefônicas RDD comparáveis.

As pesquisas utilizadas neste estudo mostraram um padrão semelhante. O conjunto de dados de população sintética teve uma distribuição de 30% democrata, 22% republicana e 48% independente ou algum outro partido, muito próxima à distribuição encontrada nas pesquisas GSS e Pew Research Center usadas em sua criação. Em comparação, com o raking apenas demográfico, as amostras opt-in usadas neste estudo foram em média 4 pontos mais republicanas e 8 pontos mais democratas do que o conjunto de dados da população sintética - mais partidárias em geral, mas favorecendo desproporcionalmente os democratas. Isso é quase idêntico à distribuição partidária, sem qualquer ponderação.

Usar as variáveis ​​políticas (que incluem a identificação partidária) além da demografia traz o partidarismo em linha com o quadro sintético, reduzindo a participação dos democratas mais do que a dos republicanos e aumentando substancialmente a participação dos independentes.

Isso tem um efeito proporcional nas medidas de opinião pública associadas ao partidarismo, movendo-as em vários pontos na direção republicana. Por exemplo, ao coletar dados demográficos apenas, o índice de aprovação de Obama foi de 56%, enquanto a adição de variáveis ​​políticas reduziu para 52%. Da mesma forma, o apoio ao Affordable Care Act caiu cerca de 5 pontos percentuais (de 51% para 46%) quando as variáveis ​​políticas foram adicionadas ao ajuste de raking. O apoio a Donald Trump entre os eleitores registrados aumentou 4 pontos (de 43% para 47%) quando as variáveis ​​políticas foram adicionadas.vinte e um

Isso levanta a importante questão de se essas mudanças na direção republicana representam uma melhoria na qualidade dos dados. As estimativas demograficamente ponderadas parecem ser mais democráticas do que as pesquisas baseadas em probabilidade com relação a cada uma dessas três medidas, embora em cada caso, elas não sejam tão diferentes a ponto de serem totalmente implausíveis. Embora não seja possível dizer com certeza que as estimativas que se ajustam às variáveis ​​demográficas e políticas sejam mais precisas, elas parecem estar mais em linha com as tendências observadas nas outras pesquisas.

Embora pareça haver uma inclinação partidária em muitas pesquisas opt-in on-line que devem ser abordadas, particularmente pesquisas focadas em tópicos políticos, uma grande dose de cautela é necessária. A distribuição partidária do público americano muda ao longo do tempo e o uso de parâmetros de ponderação desatualizados pode ocultar mudanças reais na opinião pública.

Medidas menos partidárias e mais ideológicas mostraram mudanças menores quando variáveis ​​políticas foram adicionadas à ponderação

Este estudo incluiu uma série de outras medidas de atitude para as quais não foi possível fazer comparações com outras pesquisas públicas. No entanto, ainda é útil ver até que ponto eles são sensíveis às decisões sobre procedimentos de ponderação. Muitas dessas medidas captam diferenças ideológicas, mas não necessariamente partidárias. O ajuste nas variáveis ​​demográficas e políticas tendeu a mudar essas medidas em uma direção mais conservadora, embora o efeito tenha sido menos pronunciado e menos consistente do que para medidas abertamente partidárias. Para simplificar, a discussão é limitada às estimativas produzidas por meio de raking, embora, como com as outras medidas atitudinais, não houvesse diferenças discerníveis das estimativas que empregam métodos mais complexos.

O uso de variáveis ​​políticas além da demografia elevou o percentual de quem disse que há muita discriminação contra os negros de 58% para 55%; contra gays e lésbicas, de 60% a 57%; e contra hispânicos, de 52% a 49%. O apoio à legalização da maconha diminuiu de 61% para 58%.

Os efeitos do ajuste em outras estimativas de atitude foram mais discretos. A percentagem que concordou com a afirmação 'Os imigrantes hoje fortalecem o nosso país pelo seu trabalho e talento' manteve-se essencialmente inalterada, passando de 51% para 50%. A percentagem que concordou que 'o governo deve fazer mais para resolver os problemas' foi de 56% para dados demográficos e 55% para dados demográficos + variáveis ​​políticas. O percentual que concordou com a afirmação 'O sistema econômico neste país favorece injustamente interesses poderosos' ficou em 72%, independentemente de se apenas dados demográficos ou ambos as variáveis ​​demográficas e políticas foram usados ​​para ajuste. A parcela que dizia que as relações raciais nos Estados Unidos estavam 'melhorando' passou de 21% para 19%.

O estudo também continha perguntas sobre o envolvimento dos entrevistados com assuntos públicos e com as notícias. Ajustar as variáveis ​​demográficas e políticas tornou essas estimativas de aceitação on-line menos engajadas, com a porcentagem que diria que seguem o que está acontecendo no governo e assuntos públicos 'na maioria das vezes' diminuindo de 38% para 34% e a porcentagem que diriam que seguem as notícias 'o tempo todo ou quase sempre' caindo de 48% para 44%. Essas mudanças um tanto maiores estão em linha com as reduções no engajamento político e cívico que foram observadas nos benchmarks.

Facebook   twitter