Search

데이터 제약 조건과 의사 결정 트리

과정
데이터 준비
날짜
2024/02/05

데이터 제약 조건 및 예시

데이터 제약 조건
정의
예시
데이터 유형
값은 날짜, 숫자, 백분율, 불리언 등 특정 유형이어야 함
데이터 유형이 날짜인 경우 30과 같은 단일 숫자는 제약 조건에 맞지 않고 무효한 값임
데이터 범위
값은 미리 정의된 최댓값과 최솟값 사이에 있어야 함
데이터 범위가 10~20인 경우 30이라는 값은 제약 조건에 맞지 않고 무효한 값임
필수
값은 빈칸으로 두거나 비워둘 수 없음
연령이 필수 항목인 경우 해당 값을 반드시 입력해야 함
고윳값
값은 중복될 수 없음
동일한 서비스 지역 내에서 두 사람이 동일한 휴대전화 번호를 가질 수 없음
정규 표현식(RegEx) 패턴
값은 규정된 패턴과 일치해야 함
전화번호는 ###-###-#### 패턴과 일치해야 함(다른 문자는 허용되지 않음)
필드 교차 검증
여러 필드에 대한 특정 조건을 충족해야 함
값이 백분율이며 여러 필드의 값을 합산하면 100%가 되어야 함
기본 키
(데이터베이스만 해당) 값은 열마다 고유해야 함
데이터베이스 테이블에는 동일한 기본 키 값을 가진 두 개의 행이 있을 수 없음 기본 키는 고유한 열 값을 각각 참조하는 데이터베이스 내 식별자임 기본 및 외래 키에 대한 자세한 내용은 과정의 뒷부분에서 다룸
세트 멤버십
(데이터베이스만 해당) 열의 값은 이산값 세트에서 가져와야 함
열 값을 Yes(예), No(아니요) 또는 Not Applicable(해당 없음)로 설정해야 함
외래 키
(데이터베이스만 해당) 열의 값은 다른 테이블의 열에서 가져온 고윳값이어야 함
미국 납세자 데이터베이스에서 State 열에는 유효한 주 또는 지역이 들어가야 하며 별도의 States 테이블에 허용 가능한 값 세트가 정의되어 있어야 함
정확성
측정하거나 설명하는 실제 개체와 데이터가 일치하는 정도
우편번호 값을 도로명 주소로 검증하면 데이터의 정확성이 높아짐
완전성
필요한 모든 구성요소 또는 측정 항목이 데이터에 포함된 정도
개인 프로필 데이터에 머리카락과 눈 색상이 필요한 경우 두 가지가 수집되면 완전한 데이터임
일관성
데이터가 서로 다른 입력 또는 수집 지점에서 반복될 수 있는 정도
판매 및 수리 데이터베이스에서 고객의 주소가 동일하면 일관된 데이터임

데이터에 문제가 있는 경우 취해야 하는 조치

데이터가 없는 경우

가능한 해결책
실생활에서의 해결책 예시
데이터를 소규모로 수집하여 예비 분석을 수행한 다음, 더 많은 데이터를 수집하여 분석을 완료하기 위해 추가 시간을 요청합니다.
직원들이 새로운 성과 및 보너스 계획에 대해 어떻게 생각하는지 설문조사를 실시하는 경우 샘플을 사용하여 예비 분석을 진행합니다. 그런 다음 3주를 더 요청해서 모든 직원의 데이터를 수집합니다.
데이터를 수집할 시간이 없는 경우 다른 데이터 세트의 프록시 데이터를 사용하여 분석을 수행합니다.  이는 가장 일반적인 해결 방법입니다.
통근자의 피크 이동 시간을 분석하고 있지만 특정 도시에 대한 데이터가 없는 경우, 크기와 인구통계가 비슷한 다른 도시의 데이터를 사용합니다.

프록시 데이터 예시

비즈니스 시나리오
프록시 데이터 사용 방법
며칠 전에 신차 모델을 출시한 자동차 대리점은 판매 데이터가 나오는 월말까지 기다릴 수 없습니다. 지금 당장 판매량 예측을 원합니다.
애널리스트는 잠재적 판매량을 추정하기 위해 대리점 웹사이트의 차량 사양에 대한 클릭 수를 프록시합니다.
식물성 고기 신제품을 식료품점에 납품한 공급업체는 향후 4년 동안의 수요를 추정해야 합니다.
애널리스트는 몇 년 전에 출시된 두부로 만든 칠면조 대체품의 판매 데이터를 프록시합니다.
상공 회의소에서 관광 캠페인이 해당 도시 여행에 어떤 영향을 미칠지 알고 싶어 하지만 캠페인 결과는 아직 공개되지 않았습니다.
애널리스트는 유사한 캠페인이 6개월 전에 실행된 후 1~3개월 동안의 항공사 예약 데이터를 프록시합니다.

데이터가 너무 적은 경우

가능한 해결책
실생활에서의 해결책 예시
실제 데이터와 함께 프록시 데이터를 사용하여 분석합니다.
골든 리트리버 소유자의 추세를 분석하는 경우 래브라도 소유자의 데이터를 포함하여 데이터 세트를 더 크게 만드세요.
이미 가지고 있는 데이터와 부합하도록 분석을 조정합니다.
18~24세의 데이터가 누락된 경우 분석을 수행하되 보고서에 다음 제한사항을 기록합니다. 이 결론은 25세 이상의 성인에게만 적용됩니다.

데이터가 잘못 되었으며 오류가 있는 데이터를 포함하는 경우

가능한 해결책
실생활에서의 해결책 예시
요구사항을 잘못 이해하여 데이터가 잘못된 경우 요구사항을 다시 전달합니다.
여성 유권자에 대한 데이터가 필요한데 남성 유권자에 대한 데이터를 받았다면 요구사항을 다시 기술합니다.
데이터의 오류를 식별하고 가능한 경우 오류에서 패턴을 찾아 소스에서 수정합니다.
데이터가 스프레드시트에 있고 잘못된 계산을 하는 조건문이나 불리언이 있는 경우 계산된 값만 수정하는 대신 조건문을 변경합니다.
데이터 오류를 직접 수정할 수 없는 경우, 샘플 크기가 충분히 크고 데이터를 무시해도 체계적인 편향이 발생하지 않는다면 잘못된 데이터를 무시하고 분석을 진행할 수 있습니다.
데이터 세트가 다른 언어에서 번역되었고 일부 번역이 이해되지 않는다면 잘못된 번역이 있는 데이터를 무시하고 다른 데이터로 분석을 진행합니다.

의사 결정 트리

더티 데이터란?

중복 데이터

여러 번 나타나는 모든 데이터 레코드
데이터 수동 입력, 데이터 일괄 가져오기 또는 데이터 이전
왜곡된 측정항목 또는 분석, 부풀려지거나 부정확한 집계 또는 예측, 데이터 검색 시 혼란

오래된 데이터

새롭거나 더 정확한 정보로 갱신해야 하는 오래된 데이터
직무 전환 또는 이직, 구형 소프트웨어 및 시스템
부정확한 인사이트, 의사결정 및 애널리틱스

불완전한 데이터

중요한 필드가 누락된 데이터
잘못된 데이터 수집 또는 부정확한 데이터 입력
생산성 감소, 부정확한 인사이트, 필수 서비스를 완료하지 못함

부정확한 데이터

완전하지만 부정확한 데이터
데이터 입력 중 발생한 오류, 허위 정보, 모의 데이터
부정확한 인사이트 또는 불량 정보에 기초한 의사결정으로 수익 손실이 초래됨

불일치 데이터

같은 내용을 다른 형식으로 보여주는 데이터
잘못 저장된 데이터 또는 데이터 전송 중 발생한 오류
상충하는 데이터 포인트로 인해 혼란이 발생하거나 고객 분류 또는 세분화가 불가능해짐
의료 서비스: 데이터 레코드 중 10%가 중복된 것일 수 있으며 병원 전자건강기록의 경우 최대 20%가 중복된 것으로 추정됩니다.