Os desafios de usar o aprendizado de máquina para identificar gênero em imagens

Nos últimos anos, os sistemas de reconhecimento de imagem controlados por computador que reconhecem e classificam automaticamente assuntos humanos têm se tornado cada vez mais difundidos. Esses sistemas algorítmicos são aplicados em muitos ambientes - desde ajudar sites de mídia social a saber se um usuário é dono de um gato ou cachorro até a identificação de pessoas em espaços públicos lotados. Uma forma de inteligência de máquina chamada aprendizado profundo é a base desses sistemas de reconhecimento de imagem, bem como de muitos outros esforços de inteligência artificial.

Este ensaio sobre olições que aprendemos sobre sistemas de aprendizagem profunda e reconhecimento de gêneroé uma parte de um exame de três partes de questões relacionadas à tecnologia de visão de máquina. Veja também:

Interativo: como um computador “vê” gênero?Ao cobrir ou 'obstruir' sistematicamente partes de fotos de rostos de pessoas individuais e, em seguida, alimentar essas imagens em um modelo de computador que criamos, podemos ver quais elementos de um rosto são mais importantes para ajudar o modelo a classificar homens e mulheres. Criamos um recurso interativo onde você pode recriar essa análise e ver quais mudanças fazem com que nosso algoritmo de aprendizado profundo mude sua suposição sobre o gênero da pessoa na imagem.

Pesquisa de opinião pública sobre reconhecimento facial.Os sistemas de reconhecimento facial que podem determinar a identidade de indivíduos com base em uma foto ou vídeo são uma das aplicações mais controversas da visão de máquina (os modelos que usamos para este projeto podem classificar o gênero, mas não são capazes de identificar pessoas individuais). O Centro conduziu recentemente uma pesquisa com adultos dos EUA examinando a opinião pública em relação à tecnologia de reconhecimento facial e seu uso por anunciantes, policiais e outros. Veja nosso relatório sobre esta pesquisa aqui.

Os sistemas de aprendizagem profunda são freqüentemente 'treinados' para realizar essas tarefas, sendo apresentados a muitos exemplos de imagens, objetos ou cenários que os humanos já rotularam de 'corretos' ou 'incorretos'. Observando exemplos suficientes, esses sistemas podem eventualmente aprender como identificar objetos não rotulados ou cenários que nunca encontraram antes. Esses exemplos rotulados que ajudam o sistema a aprender são chamados de 'dados de treinamento' e desempenham um papel importante na determinação da precisão geral desses sistemas.

Esses sistemas oferecem o potencial para executar tarefas complexas em uma velocidade e escala muito além da capacidade humana. Mas, ao contrário das pessoas, os sistemas de aprendizado profundo geralmente não podem fornecer explicações ou justificativas para suas escolhas individuais. E, ao contrário dos programas de computador tradicionais, que seguem um conjunto de etapas altamente prescritas para atingir seus resultados, esses sistemas às vezes são tão complexos que mesmo os cientistas de dados que os projetaram não entendem totalmente como chegam às suas decisões.



Como resultado, esses sistemas podem falhar de maneiras que parecem difíceis de entender e de prever - como mostrar maiores taxas de erro nos rostos de pessoas com pele mais escura em relação àquelas com pele mais clara, ou classificar membros proeminentes do Congresso como criminosos . E o uso desses sistemas em áreas como saúde, serviços financeiros e justiça criminal gerou temores de que eles possam acabar amplificando os preconceitos culturais e sociais existentes sob o disfarce da neutralidade algorítmica.

O Pew Research Center aplicou recentemente técnicas de aprendizagem profunda em uma série de relatórios que examinaram a representação de gênero nos resultados de pesquisa de imagens do Google e em imagens de postagens de notícias no Facebook. Por não ser viável para pesquisadores humanos classificar e classificar as milhares de imagens produzidas por esses sistemas online, criamos nossa própria ferramenta para detectar e categorizar automaticamente o gênero das pessoas nas imagens que encontramos.

Independentemente dos dados de treinamento, todos os modelos foram melhores em identificar um gênero do que o outroNo processo de construção de um sistema de aprendizado profundo para reconhecer o gênero em uma ampla gama de rostos humanos em imagens, aprendemos em primeira mão as dificuldades de entender como esses sistemas funcionam; os desafios de ajustá-los para um desempenho mais preciso; e a função crítica dos dados usados ​​para treiná-los para que tenham um desempenho mais (ou menos) eficaz. Treinamos e testamos mais de 2.000 modelos exclusivos com base em uma arquitetura de aprendizado profundo comum e, no processo, descobrimos uma grande variação na capacidade desses modelos de identificar com precisão o gênero em diversos conjuntos de imagens.

Uma limitação comum de muitos sistemas de classificação de gênero (incluindo o que usamos para realizar nossa própria pesquisa) é que eles não podem levar em conta os indivíduos que não se identificam como mulher ou homem, e não têm conceito de identidade de gênero separada de aparência física. Mas, mesmo além dessas limitações conhecidas, aprendemos que os dados de treinamento usados ​​para treinar esses modelos são muito importantes. Os modelos que treinamos usando conjuntos de imagens mais diversos (o que inclui sua composição demográfica, bem como a qualidade e os tipos de imagens usados ​​em cada conjunto) foram melhores na identificação de gênero em um grupo de fotos igualmente diverso do que modelos treinados em mais dados limitados.

Também notamos variação no desempenho desses modelos que às vezes era surpreendente e difícil de explicar. Por exemplo, mesmo que os modelos que foram treinados com maior diversidade foram osa maioriaprecisos, alguns modelos que foram treinados em imagens menos diversas foram mais precisos do que outros. Da mesma forma, alguns desses modelos foram melhores na identificação de homens do que mulheres, enquanto outros tiveram desempenho superior nas mulheres do que nos homens.

Como criamos modelos de aprendizado de máquina usando imagens diversas

Coletas de dados usadas nesta análise

O Centro usou sete coletas de dados para treinar nossos modelos. Cada coleção tem suas próprias características únicas, portanto, nenhuma coleção reflete a diversidade da população global. As coleções incluem o seguinte:

Políticos do Brasil:Imagens posadas de alta qualidade de políticos brasileiros diante das câmeras, reunidas em um site que hospeda os resultados das eleições municipais.

Rostos marcados na natureza:Um banco de dados de fotos de rostos reunido por pesquisadores da Universidade de Massachusetts com o objetivo de estudar a tecnologia de reconhecimento facial.

Bainbridge:Uma coleção de fotografias de rostos que correspondem aos dados demográficos do censo dos EUA de 1990, coletados por Wilma Bainbridge e colaboradores para pesquisas sobre memorização de rostos.

Celebridades asiáticas:Imagens de 30 ilustres asiáticos (15 homens e 15 mulheres), montadas pelo Centro.

Celebridades negras:Imagens de 22 negros famosos (11 homens e 11 mulheres), montadas pelo Centro.

Idosos famosos:Fotos de 21 celebridades idosas (11 homens e 10 mulheres), montadas pelo Centro.

Pesquisa de imagens de gênero por país:Imagens de homens e mulheres de cada um dos 100 países mais populosos do mundo, reunidas pelo Centro.

Os modelos de aprendizado de máquina geralmente começam como lousas em branco que não foram mostrados quaisquer dados e são incapazes de realizar classificações ou qualquer outra tarefa. Os modelos que discutimos neste ensaio foram construídos com uma técnica chamada 'aprendizagem por transferência', que fornece algumas informações básicas sobre como identificar objetos comuns, mas não necessariamente informações especificamente relevantes para estimar gênero. Independentemente do tipo específico de aprendizado de máquina usado, os cientistas de dados geralmente começam a construir um modelo selecionando um conjunto de dados que representa muitas instâncias da tarefa ou classificação sendo executada corretamente. Depois de ver exemplos suficientes desses chamados dados de treinamento, o modelo eventualmente identifica padrões sistemáticos e desenvolve sua própria abordagem para distinguir as respostas 'corretas' das 'incorretas'. Ele pode então usar essa abordagem para executar a tarefa para a qual foi treinado para fazer em dados que nunca viu antes.

No entanto, exemplos tendenciosos ou que não representam com precisão o grupo mais amplo de indivíduos que podem ser encontrados podem ensinar ao sistema padrões inesperados e sem sentido, fazendo com que ele desenvolva uma abordagem que não funciona bem com novos dados. Por exemplo, um modelo treinado em imagens em que todo homem está usando óculos pode estar convencido de que usar óculos é um forte sinal de que alguém é homem. Embora esse exemplo possa parecer óbvio, pode ser difícil saber com antecedência se os dados de treinamento consistem em exemplos insatisfatórios para a tarefa ou se não são representativos.

Como queríamos que nossa análise fizesse a distinção entre homens e mulheres em imagens, nossos dados de treinamento consistiam em conjuntos de imagens de homens e mulheres de tamanhos iguais, em que cada imagem era rotulada como um homem ou uma mulher. Queríamos ver como a escolha dos dados de treinamento afetou a precisão geral de nossos modelos, então pesquisamos online por diferentes coleções de imagens de rostos humanos. Acabamos reunindo sete coleções de imagens que usamos para treinar nossos modelos. Cada coleção consistia em imagens rotuladas de indivíduos, mas cada uma tinha sua própria mistura única de faixas etárias, raças e nacionalidades, bem como uma mistura de características de imagem, como qualidade de imagem e posicionamento do indivíduo.

Usando essas coleções como ponto de partida, criamos oito conjuntos de dados de treinamento diferentes para nossos modelos de aprendizado profundo. Sete dos conjuntos de dados de treinamento consistiam em imagens retiradas de apenas uma das coleções originais (uma simulação de diferentes tipos deMenosdiversos dados de treinamento), enquanto um dos conjuntos de dados de treinamento consistia em imagens retiradas de uma combinação de todas as sete coleções (uma simulação deMaisdiversos dados de treinamento). Crucialmente, todos os oito conjuntos de dados usados ​​para treinamento eram do mesmo tamanho e continham o mesmo número de homens e mulheres.

Como esses modelos se saíram na identificação de gênero em diversos conjuntos de imagens

Depois que cada modelo foi treinado em um dos oito conjuntos de dados de treinamento que criamos para este projeto, nós o testamos. Para comparar o desempenho dos diferentes modelos, criamos um conjunto de dados exclusivo composto por imagens tiradas de todas as sete coletas de dados originais - mas que nunca foram usadas para treinar nenhum dos modelos individuais. Este tipo de conjunto de dados é conhecido como 'dados de teste' e é usado para avaliar e comparar o desempenho dos diferentes modelos. Os dados de teste para este projeto continham um número igual de imagens de cada uma das sete coleções de dados, bem como um número igual de imagens identificadas como representando mulheres e homens em cada coleção individual.

Quando executamos nossos modelos treinados nos dados de teste, descobrimos que alguns dos modelos tiveram um desempenho mais preciso do que outros. Mais notavelmente, o modelo que foi treinado em imagens tiradas de todas as sete coleções individuais (ou seja, o modelo treinado no conjunto mais diverso de dados de treinamento) teve o melhor desempenho. Ele identificou com precisão o sexo correto para 87% das imagens de dados de treinamento, enquanto os modelos treinados usando apenas uma das coletas de dados individuais alcançaram precisões entre 74% e 82%.

Modelos de aprendizado de máquina treinados em várias fontes de dados eram mais precisos do que aqueles treinados em uma única fonte de dados

Em outras palavras, o modelo que foi treinado em um conjunto diversificado de fontes teve um desempenho significativamente melhor do que aqueles treinados em fontes individuais, embora cada modelo tenha visto o mesmo número de imagens totais e a mesma proporção de homens para mulheres. Isso não é totalmente surpreendente, uma vez que os diversos dados de treinamento e os dados de teste continham uma combinação das sete coleções de dados. Isso destaca um desafio central enfrentado por aqueles que constroem ou usam esses tipos de modelos: os modelos construídos com dados de treinamento que parecem diferentes dos dados do mundo real e toda a diversidade do mundo real que os acompanha podem não funcionar como esperado.

Embora o modelo treinado com os dados mais diversos disponíveis tenha um desempenho mais preciso, nem todos os modelos treinados com dados menos diversos tiveram um desempenho igualmente ruim. O pior desempenho dos modelos treinados em uma única fonte de dados alcançou uma precisão de apenas 74%, mas o melhor desempenho desses modelos aumentou essa pontuação em 8 pontos percentuais. Conforme observado acima, essas imagens diferem em uma variedade de maneiras além da demografia das pessoas nas imagens - como qualidade de imagem, resolução de imagem, orientação da foto e outros fatores difíceis de quantificar. Isso destaca um segundo desafio enfrentado pelos usuários e projetistas desses sistemas: é difícil prever com antecedência quão precisos esses modelos serão baseados apenas nos dados em que foram treinados. O que podemos prever, entretanto, é que amostras mais diversas tenderão a ser mais robustas.

Também examinamos a precisão de cada modelo na identificação de homens e mulheres e descobrimos que cada modelo era pelo menos um pouco mais preciso na identificação de um gênero do que do outro - embora todos os modelos fossem treinados em números iguais de imagens de mulheres e homens . Essas discrepâncias não são aparentes sem fazer esta análise mais detalhada: Um modelo poderia ser apresentado como 76% preciso sem revelar que classifica corretamente apenas 60% das mulheres, enquanto classifica corretamente 93% dos homens.

Em um nível mais amplo, esses modelos tendiam a ter mais dificuldade em identificar mulheres: seis dos oito (incluindo o modelo que foi construído usando os dados de treinamento mais diversos possíveis) foram mais precisos na identificação de homens do que mulheres. Mas dois dos modelos foram substancialmente mais precisos na identificação de mulheres do que de homens. E, como acontece com sua precisão geral, não é totalmente claro ou previsível por que certos modelos podem ser melhores na identificação de homens do que mulheres, ou vice-versa.

Implicações para pesquisas em visão de máquina

É importante notar que existem várias limitações neste estudo que devem ser consideradas na interpretação dos achados. Primeiro, a abordagem de aprendizagem por transferência que usamos se baseia nas informações que já existem em modelos pré-treinados. Em segundo lugar, como criamos mais de 2.000 modelos para este projeto - e os modelos treinados com maior quantidade de dados de treinamento demoram mais para serem criados - usamos um número relativamente modesto de imagens para treinar cada modelo. Como resultado, esses modelos podem ser menos precisos do que sistemas que usam estratégias de modelagem mais complexas ou mais dados de treinamento. Terceiro, as imagens que usamos para treinamento e teste não pretendem representar toda a diversidade potencial dos rostos humanos. Em vez disso, o objetivo deste projeto era capturar um conjunto de imagens suficientemente diverso para fazer comparações significativas sobre a maneira como esses tipos de sistemas aprendem sobre gênero.

Por último, é importante observar que esses modelos foram projetados para uma tarefa muito específica: classificar as imagens de pessoas como mulheres ou homens com base puramente em suas características físicas externas. Conforme observado acima, nossa ferramenta só foi capaz de atribuir pessoas a uma dessas duas categorias binárias e não foi capaz de contabilizar pessoas de outros gêneros, incluindo indivíduos não binários. Também não tinha um entendimento fundamental de gênero ou identidade de gênero como conceitos e não conseguia distinguir entre a aparência física de alguém e sua identidade de gênero pessoal. E embora as conclusões gerais dessa análise sejam aplicáveis ​​a qualquer tipo de sistema de aprendizado de máquina, os resultados específicos relatados aqui podem não ser generalizados para outros tipos de sistemas projetados para classificar gênero ou aqueles projetados para realizar tarefas totalmente diferentes.

Mas, apesar dessas advertências, esta análise pode fornecer insights sobre a natureza e as limitações desse tipo de modelo de aprendizado de máquina. É de se esperar que esses modelos sejam imperfeitos. O que pode ser menos óbvio é que eles podem ser significativamente menos confiáveis ​​para alguns grupos do que outros - e que essas diferenças podem não ser necessariamente motivadas por fatores intuitivos ou óbvios. Em geral, é importante que esses modelos sejam treinados em dados que capturem a diversidade de situações que eles encontrarão em contextos do mundo real, tanto quanto possível. Se o modelo for chamado para operar em várias idades, raças e outras qualidades, por exemplo, é importante que o modelo seja treinado em um conjunto de treinamento diverso semelhante. Em última análise, as pessoas que confiam nas decisões que esses sistemas tomam devem abordar os resultados que eles produzem com o conhecimento de que podem estar escondendo problemas ou preconceitos que são difíceis de prever ou prever com antecedência.

Consulte a metodologia para obter mais detalhes sobre como o Centro conduziu essa análise. Gostaríamos de agradecer a Besheer Mohamed, Onyi Lam, Brian Broderick, Skye Toor, Adam Hughes e Peter Bell por suas contribuições inestimáveis ​​para este projeto. Gráficos de informação de Selena Qian.

Facebook   twitter