Search

데이터와 공정성의 이해

과정
기초: 어디에나 존재하는 데이터
날짜
2024/01/17

공정성

분석이 편향을 형성하거나 강화하지 않도록 하는 것을 의미 합니다. 즉, 데이터 애널리스트는 모든 사람을 포용하는 공정한 시스템을 만들도록 도와야 합니다. 공정성에는 정해진 표준 정의가 없습니다.

데이터에 근거한 결론이 공정하려면?

편향을 형성하거나 강화하지 않기.

사회적 맥락이 편향을 형성하거나 강화할 수 있습니다.
편향 형성의 예시
Avens Engineering에서는 더 많은 엔지니어가 필요하여 구직 웹사이트에 구인 광고를 냅니다. 웹사이트의 데이터에 따르면 엔지니어의 86%가 남성입니다. 애널리스트는 이 숫자를 토대로 남성이 우수한 지원자일 가능성이 더 크다고 판단하여 광고를 남성 구직자에게 타겟팅합니다.

자기 보고식 데이터 수집

샘플 모집단의 대표성 확보

샘플 모집단의 대표성을 확보하기 위해서는 해당 모델에 비주류 그룹이 포함되도록 비주류 그룹을 과대 샘플링 해야 합니다.
과대 샘플링 예시
한 철도 노선의 경우 오전 7시부터 오후 5시 사이에 승객 수가 가장 많습니다. 승객 설문조사의 공정성을 개선하려면 어느 그룹에서 데이터를 과대 샘플링하면 될까요?
과소 식별되는 승객 그룹인 야간 승객의 데이터를 과대 샘플링하면 설문조사의 공정성을 개선할 수 있습니다.