arXiv:2304.13933 Abstract | arXiv Analytics

arXiv:2304.13933 [cs.LG]Abstract References Reviews Resources

Oversampling Higher-Performing Minorities During Machine Learning Model Training Reduces Adverse Impact Slightly but Also Reduces Model Accuracy

Louis Hickman, Jason Kuruzovich, Vincent Ng, Kofi Arhin, Danielle Wilson

Published 2023-04-27Version 1

Organizations are increasingly adopting machine learning (ML) for personnel assessment. However, concerns exist about fairness in designing and implementing ML assessments. Supervised ML models are trained to model patterns in data, meaning ML models tend to yield predictions that reflect subgroup differences in applicant attributes in the training data, regardless of the underlying cause of subgroup differences. In this study, we systematically under- and oversampled minority (Black and Hispanic) applicants to manipulate adverse impact ratios in training data and investigated how training data adverse impact ratios affect ML model adverse impact and accuracy. We used self-reports and interview transcripts from job applicants (N = 2,501) to train 9,702 ML models to predict screening decisions. We found that training data adverse impact related linearly to ML model adverse impact. However, removing adverse impact from training data only slightly reduced ML model adverse impact and tended to negatively affect ML model accuracy. We observed consistent effects across self-reports and interview transcripts, whether oversampling real (i.e., bootstrapping) or synthetic observations. As our study relied on limited predictor sets from one organization, the observed effects on adverse impact may be attenuated among more accurate ML models.

Comments: forthcoming in Personnel Psychology 2 figures

Categories: cs.LG, cs.AI, cs.CY

Keywords: model accuracy, ml model adverse impact, model training reduces adverse impact, machine learning model training reduces, learning model training reduces adverse

Related articles: Most relevant | Search more

arXiv:2205.13574 [cs.LG] (Published 2022-05-26)

Pruning has a disparate impact on model accuracy

Cuong Tran, Ferdinando Fioretto, Jung-Eun Kim, Rakshit Naidu

arXiv:2106.12576 [cs.LG] (Published 2021-06-22)

DP-SGD vs PATE: Which Has Less Disparate Impact on Model Accuracy?

Archit Uniyal, Rakshit Naidu, Sasikanth Kotti, Sahib Singh, Patrik Joslin Kenfack, Fatemehsadat Mireshghallah, Andrew Trask

arXiv:1905.12101 [cs.LG] (Published 2019-05-28)

Differential Privacy Has Disparate Impact on Model Accuracy