Os recentes avanços nos modelos de reconhecimento facial foram possíveis devido à disponibilidade de grandes conjuntos de dados e modelos de aprendizagem profunda. Entretanto, a coleta de dados em larga escala feita pela internet suscita questões éticas, legais e de privacidade. Portanto, são avaliados métodos alternativos como a geração de conjuntos de dados sintéticos faciais e a utilização de imagens para o treinamento de modelos de reconhecimento facial. Todavia, a geração de conjuntos de dados sintéticos com suficientes variabilidades continua sendo uma área de pesquisa muito ativa.
Essa abordagem foi adotada pela Winter Conference on Applications of Computer Vision (WACV) com a organização de um desafio de Reconhecimento Facial na Era dos Dados Sintéticos (FRCSyn). Trata-se do primeiro desafio internacional com o objetivo de explorar o uso de dados sintéticos no reconhecimento facial para abordar as limitações existentes na tecnologia. Particularmente, o FRCSyn Challenge aborda questões relacionadas com a privacidade de dados, vieses demográficos e limitações de desempenho em cenários divergentes (disparidades significativas de idade, variações de posição e oclusões). Os resultados obtidos no FRCSyn Challenge contribuem significativamente à aplicação de dados sintéticos no aprimoramento da tecnologia de reconhecimento facial. Os participantes desenvolveram e aplicaram estratégias inteligentes para utilizar conjuntos de dados sintéticos no treinamento de modelos de reconhecimento facial. Todos os modelos enviados pelos participantes foram avaliados utilizando conjuntos de dados de referência e classificados de acordo com seu desempenho em tais conjuntos.
O potencial dos dados sintéticos na verificação de identidade: resultados da Facephi
Na Facephi, participamos do FRCSyn Challenge para testar se os dados sintéticos poderiam substituir os dados reais no treinamento de reconhecimento facial, se poderiam mitigar as limitações conhecidas da biometria facial e os desafios éticos e legais associados à coleta de dados em larga escala. Para este propósito, utilizam-se arquiteturas de redes neurais de última geração e diversas técnicas de aumento de dados.
Nosso sucesso se refletiu nos resultados com um destaque frente aos demais participantes e apresentando um desempenho excepcional na primeira tarefa de qualidade do conjunto de dados sintetizados. Ao avaliarmos a capacidade de mitigar o enviesamento e adaptarmos aos diferentes bancos de dados, conseguimos, graças à utilização de dados sintéticos no treinamento dos sistemas de RF, estar entre os melhores na mitigação e redução do enviesamento. Além disso, na segunda tarefa da competição, que oferecia liberdade na escolha do modelo, do conjunto de dados e do treinamento, também demonstramos resultados competitivos ao comprovar a versatilidade e a eficácia de nossa abordagem em diferentes cenários. Os jurados e especialistas elogiaram a originalidade e a qualidade dos métodos utilizados, reconhecendo nossa abordagem inovadora e a contribuição significativa para o avanço da pesquisa na geração de conjuntos de dados sintéticos ao reconhecimento facial.