Apêndice B: Conjunto de dados de população sintética

Várias das abordagens de ajuste usadas neste estudo requerem um conjunto de dados que é altamente representativo da população adulta dos EUA. Este conjunto de dados serve essencialmente como uma referência para tornar a pesquisa em questão (por exemplo, as amostras opt-in online) mais representativa. Ao selecionar um conjunto de dados populacionais, os pesquisadores normalmente usam um grande conjunto de dados de referência federal, como o American Community Survey (ACS) ou Current Population Survey (CPS), já que essas pesquisas têm altas taxas de resposta, altas taxas de cobertura populacional e amostra rigorosa baseada em probabilidade designs.

Uma limitação do uso de uma única pesquisa, como o ACS, é que as únicas variáveis ​​que podem ser utilizadas no ajuste são aquelas medidas no ACS. Isso significa que um pesquisador pode ajustar características como idade, renda e educação, mas não filiação a partidos políticos, filiação religiosa ou registro eleitoral. Uma solução é pegar vários conjuntos de dados de referência medindo variáveis ​​um tanto diferentes e combiná-los para criar umsintéticoconjunto de dados de população.25

As perguntas que o ACS tem em comum com outras pesquisas de referência são usadas para modelar estatisticamente as respostas prováveis ​​a perguntas que não foram feitas no ACS. As seções subsequentes detalham como o conjunto de dados de população sintética foi construído para este estudo.

Construção do conjunto de dados de população sintética

O conjunto de dados de população sintética foi construído em três etapas principais:

Os pesquisadores baixaram conjuntos de dados de uso público para nove pesquisas de referência e, em seguida, recodificaram as variáveis ​​comuns (por exemplo, idade e educação) para serem consistentes nas pesquisas. Eles então redimensionaram os pesos de cada pesquisa para somar ao tamanho nominal da amostra.

Cada conjunto de dados foi então classificado de acordo com o peso de cada registro e dividido em 20 estratos com base na soma cumulativa dos pesos da pesquisa de modo que cada estrato representasse 5% da população total. A seguir, uma amostra de 1.000 casos (entrevistas) foi selecionada aleatoriamente de cada estrato com reposição e com probabilidade proporcional ao peso do caso. Isso teve o efeito de 'desfazer' os pesos e produzir um conjunto de dados de 20.000 casos para cada pesquisa representativa da população total.

Esses 20.000 conjuntos de dados de caso foram então combinados em um único grande conjunto de dados. Usando esse conjunto de dados combinado, os pesquisadores produziram 25 conjuntos de dados multiplicados por meio da abordagem de equações encadeadas.



Após a imputação, apenas os 20.000 casos originados do ACS foram mantidos, sendo todos os demais descartados. Isso foi feito para garantir que a distribuição das principais variáveis ​​demográficas correspondesse precisamente à distribuição do ACS, enquanto as variáveis ​​imputadas refletissem a distribuição que seria esperada com base no perfil demográfico do ACS.

Cada uma dessas etapas é discutida em detalhes abaixo.

Seleção e recodificação do conjunto de dados

Nove conjuntos de dados foram usados ​​para construir o conjunto de dados de população sintética: o 2015 ACS, o 2015 CPS Anual Social and Economic Supplement (CPS ASEC), o 2013 CPS Civic Engagement Supplement (CPS CivEng), o 2015 CPS Computer and Internet Use Supplement (CPS Internet ), o Suplemento de Voluntários do CPS de 2015 (Voluntário do CPS), o Suplemento de Votação e Registro do CPS de 2014 (Votação do CPS), o Levantamento Social Geral de 2014 (GSS), o Estudo da Paisagem Religiosa do Pew Research Center (RLS) de 2014 e o Pew Research Center de 2014 Pesquisa de Polarização e Tipologia Política (Pol.). Cada pesquisa contribuiu com uma série de variáveis ​​para o quadro. Ao todo, o quadro contém 37 variáveis, com muitas dessas variáveis ​​presentes em vários levantamentos.

Todos os nove conjuntos de dados apresentavam uma série de variáveis ​​demográficas comuns, como sexo, idade, raça e etnia hispânica, educação, divisão do censo, estado civil, tamanho da família, número de filhos, nascimento nos EUA, status de cidadania e renda familiar. Outras variáveis ​​foram medidas apenas em um subconjunto das pesquisas. O voluntariado, por exemplo, está presente apenas no CPS Volunteer Supplement, enquanto a identificação do partido está presente apenas no GSS, no RLS e no Pew Research Center's Polarization Survey, nenhum dos quais são pesquisas do governo federal.

As variáveis ​​que foram medidas ou codificadas de forma diferente nas pesquisas foram recodificadas para serem o mais comparáveis ​​possível. Isso geralmente significava que as variáveis ​​eram reduzidas. Por exemplo, os códigos principais do CPS atingem 85 anos ou mais, então o mesmo esquema de codificação foi aplicado a todas as outras pesquisas também. Em outros casos, isso envolveu o tratamento de valores inconsistentes como ausentes. Por exemplo, tanto a ACS quanto as várias pesquisas CPS perguntam aos entrevistados quantas horas eles geralmente trabalham por semana. No entanto, as pesquisas do CPS também permitem que os respondentes indiquem que o número de horas que eles geralmente trabalham por semana varia, enquanto o ACS não tem essa opção. Na tabela acima, dados faltantes para horas trabalhadas por semana nas pesquisas CPS não estão realmente faltando; em vez disso, consiste em pessoas que indicaram que seus horários variam. No entanto, esses dados são tratados como ausentes para fins de consistência com a forma como são solicitados no ACS. Os valores imputados podem ser interpretados como uma previsão de como esses indivíduos teriam respondido se eles tivessem respondido a pergunta ACS.

Amostragem estratificada

Os conjuntos de dados de referência diferiram no design da amostra e nos tamanhos da amostra. Para resolver essas diferenças, selecionamos exatamente 20.000 observações por conjunto de dados antes de anexá-los. A amostragem foi feita com reposição e com probabilidade proporcional ao peso do caso. O tamanho da amostra foi selecionado a fim de fornecer dados suficientes para os métodos de ajuste usados, embora ainda sendo computacionalmente tratável. Para o CPS Internet Supplement, o GSS e o Polarization Survey, isso garantiu que as observações seriam amostradas várias vezes.

Usamos os pesos relevantes para cada conjunto de dados. O peso no nível da pessoa foi usado para o ACS, o peso do suplemento da pessoa para o CPS ASEC e o peso do suplemento de auto-resposta para o suplemento CPS Civic Engagement. O CPS Internet Supplement foi filtrado para os respondentes que tinham um peso de respondente aleatório, porque as variáveis ​​de mensagens de texto e redes sociais foram medidas apenas para esses respondentes. O peso de não resposta foi usado para o CPS Volunteer Supplement, enquanto o peso de não resposta foi usado para ambos os casos de seção transversal e de painel para o GSS. Pesos de amostra total foram usados ​​para o RLS e a Pesquisa de Polarização. Finalmente, para o suplemento de votação CPS, os pesos do segundo estágio foram ajustados conforme recomendado por Hur e Achen26para corrigir o viés resultante da não resposta ao item sendo tratada como não tendo votado. Cada um desses pesos foi redimensionado para somar ao tamanho da amostra de cada um de seus respectivos conjuntos de dados.

Para garantir que as amostras contivessem a proporção correta de casos com pesos grandes e pequenos, cada conjunto de dados foi classificado de acordo com os pesos e dividido em 20 estratos, cada um representando 5% da amostra ponderada.

Imputação

Os nove conjuntos de dados foram então combinados em um único conjunto de dados, e todos os valores ausentes foram imputados por meio de uma abordagem de 'equações em cadeia' que itera por meio da modelagem de cada variável como uma função de todas as outras.27Por exemplo, se idade, sexo e educação fossem as únicas variáveis, uma abordagem de equações encadeadas pode primeiro imputar a idade com base no sexo e educação, depois sexo com base na idade e educação, depois educação com base na idade e sexo, e repetiria este ciclo por algum número de iterações para alcançar a estabilidade. Todo esse procedimento também é repetido 25 vezes, independentemente um do outro, para produzir múltiplas armações sintéticas que podem ser comparadas entre si para avaliar a variância decorrente do processo de imputação. Cada quadro passou por 10 iterações.

Há uma grande variedade de modelos que podem ser usados ​​para imputar cada variável individual dependente de todas as outras, como modelos de regressão ou métodos 'hot-deck', onde cada valor ausente é substituído por uma resposta observada de uma unidade 'semelhante'. Para o conjunto de dados de população sintética, cada variável foi imputada usando um método de floresta aleatória 'hot-deck'.28

Após a imputação, o conjunto de dados de população sintética final foi criado excluindo todos os casos, exceto os que eram originalmente do ACS. Isso garante que a distribuição demográfica corresponda de perto à do ACS original, enquanto as variáveis ​​imputadas refletem a distribuição conjunta que seria esperada com base nas variáveis ​​que cada conjunto de dados tinha em comum.

Avaliando a qualidade da imputação

Tomamos várias medidas para garantir que o procedimento de imputação produzisse resultados que refletissem com precisão os conjuntos de dados originais. Primeiro, cruzamos cada uma das variáveis ​​imputadas (por exemplo, registro eleitoral e identificação do partido) com as variáveis ​​totalmente observadas (por exemplo, idade, sexo e educação), e para cada célula, comparamos o tamanho da célula no conjunto de dados ACS com o seu tamanho no conjunto de dados original a partir do qual foi imputado. No geral, as distribuições imputadas foram bastante próximas das originais. A diferença média absoluta entre os valores imputados e originais para cada classificação cruzada foi de 2 pontos percentuais. Isso significa que, em média, os valores imputados não apenas corresponderam à distribuição para toda a população, mas também à distribuição dentro dos subgrupos demográficos.

Embora o procedimento de imputação múltipla tenha criado 25 versões do conjunto de dados de população sintética, apenas uma delas foi usada para realizar os ajustes neste estudo. Uma preocupação com essa abordagem é a possibilidade de que os resultados possam variar amplamente, dependendo de qual das 25 populações sintéticas foi usada. Embora não fosse computacionalmente viável repetir toda a análise em cada um dos conjuntos de dados imputados, repetimos um dos procedimentos de ajuste em todos os 25 conjuntos de dados a fim de avaliar o grau em que o procedimento de imputação pode estar afetando os resultados do estudo.

Para cada um dos 25 conjuntos de dados imputados, realizamos o levantamento com as variáveis ​​demográficas e políticas em 1.000 amostras bootstrap de n = 3.500 seguindo o mesmo procedimento que foi usado no corpo deste relatório. Para cada categoria substantiva nas 24 variáveis ​​de referência, calculamos a porcentagem ponderada para cada amostra bootstrapped. Então calculamos ovariância total(erro quadrático médio) para cada estimativa com todas as 25.000 amostras de bootstrap combinadas. Finalmente, calculamos a variância para cada um dos 25 conjuntos de estimativas separadamente e pegamos a média. Isto é ovariação dentro da imputação. Este processo foi repetido para todos os três fornecedores.

Se a variância total for muito maior do que a variância dentro da imputação, então a variabilidade estimada e as margens de erro que usam apenas uma única imputação (como foi feito neste estudo) seriam subestimadas. Nesse caso, a variância total foi apenas 1,002 vezes maior que a variância média dentro da imputação. Isso significa que a variabilidade estimada descrita no relatório é, para todos os fins práticos, a mesma como se a análise tivesse sido repetida para todas as 25 imputações.

A razão pela qual os dois estão tão próximos é provavelmente devido ao fato de que a imputação afeta apenas a variabilidade das estimativas da pesquisa indiretamente, e representa apenas uma pequena parte da variabilidade da pesquisa. Se comparássemos a variabilidade total e dentro da imputação para os próprios valores imputados (como faríamos se o conjunto de dados da população sintética fosse o foco principal da análise em vez de simplesmente uma entrada para a ponderação), a diferença provavelmente seria maior.

Variáveis ​​de ajuste usadas no estudo

As principais variáveis ​​de ajuste demográfico usadas no estudo foram: idade de 6 categorias, sexo, realização educacional de 5 categorias, raça e etnia hispânica e divisão do censo. As variáveis ​​políticas expandidas adicionam a esta filiação partidária de 3 categorias, ideologia política de 3 categorias, registro de eleitor e se o entrevistado se identifica como cristão evangélico.

A tabela a seguir compara a distribuição das variáveis ​​de ajuste no conjunto de dados de população sintética com um dos conjuntos de dados de pesquisa de alta qualidade originais usados ​​para criar o conjunto de dados sintético. Todas as variáveis ​​demográficas foram totalmente observadas no ACS, de modo que o quadro sintético será diferente da fonte original apenas no conjunto de variáveis ​​políticas expandidas.

A maior diferença entre a pesquisa de origem e o quadro sintético estava na ideologia política. A parcela estimada de conservadores autodescritos foi de 32% no GSS contra 35% no quadro sintético. A última estimativa é semelhante às medidas do Estudo da Paisagem Religiosa do Pew Research Center e da Pesquisa de Polarização e Tipologia Política, que também foram usadas no quadro. A razão exata para essa discrepância não é clara, mas existem vários fatores potenciais. Ao contrário das medidas do Centro, que são coletadas por meio de entrevista ao vivo por telefone, a questão GSS é administrada pessoalmente usando um showcard. Além disso, a questão GSS usa uma escala de sete pontos, enquanto as questões do Centro usam uma escala de cinco pontos. Finalmente, pode haver diferenças importantes entre a composição demográfica dos respondentes do GSS e dos respondentes do ACS.

Facebook   twitter