arXiv:2206.11484 Abstract | arXiv Analytics

arXiv:2206.11484 [cs.CL]Abstract References Reviews Resources

Towards WinoQueer: Developing a Benchmark for Anti-Queer Bias in Large Language Models

Virginia K. Felkner, Ho-Chun Herbert Chang, Eugene Jang, Jonathan May

Published 2022-06-23Version 1

This paper presents exploratory work on whether and to what extent biases against queer and trans people are encoded in large language models (LLMs) such as BERT. We also propose a method for reducing these biases in downstream tasks: finetuning the models on data written by and/or about queer people. To measure anti-queer bias, we introduce a new benchmark dataset, WinoQueer, modeled after other bias-detection benchmarks but addressing homophobic and transphobic biases. We found that BERT shows significant homophobic bias, but this bias can be mostly mitigated by finetuning BERT on a natural language corpus written by members of the LGBTQ+ community.

Comments: Accepted to Queer in AI Workshop @ NAACL 2022

Categories: cs.CL, cs.CY

Subjects: I.2.7

Keywords: large language models, natural language corpus written, significant homophobic bias, measure anti-queer bias, extent biases

Related articles: Most relevant | Search more

arXiv:2211.05853 [cs.CL] (Published 2022-11-10)

Measuring Reliability of Large Language Models through Semantic Consistency

Harsh Raj, Domenic Rosati, Subhabrata Majumdar

arXiv:2208.07852 [cs.CL] (Published 2022-08-16)

Interactive and Visual Prompt Engineering for Ad-hoc Task Adaptation with Large Language Models

Hendrik Strobelt, Albert Webson, Victor Sanh, Benjamin Hoover, Johanna Beyer, Hanspeter Pfister, Alexander M. Rush

arXiv:2212.03551 [cs.CL] (Published 2022-12-07)

Talking About Large Language Models

Murray Shanahan

arXiv Analytics

arXiv:2206.11484 [cs.CL]Abstract References Reviews Resources

Towards WinoQueer: Developing a Benchmark for Anti-Queer Bias in Large Language Models

Links

Toolbox

arXiv:2206.11484 [cs.CL]AbstractReferencesReviewsResources

Towards WinoQueer: Developing a Benchmark for Anti-Queer Bias in Large Language Models

Links

Toolbox

arXiv:2206.11484 [cs.CL]Abstract References Reviews Resources