데이터 제약 조건 및 예시
데이터 제약 조건 | 정의 | 예시 |
데이터 유형 | 값은 날짜, 숫자, 백분율, 불리언 등 특정 유형이어야 함 | 데이터 유형이 날짜인 경우 30과 같은 단일 숫자는 제약 조건에 맞지 않고 무효한 값임 |
데이터 범위 | 값은 미리 정의된 최댓값과 최솟값 사이에 있어야 함 | 데이터 범위가 10~20인 경우 30이라는 값은 제약 조건에 맞지 않고 무효한 값임 |
필수 | 값은 빈칸으로 두거나 비워둘 수 없음 | 연령이 필수 항목인 경우 해당 값을 반드시 입력해야 함 |
고윳값 | 값은 중복될 수 없음 | 동일한 서비스 지역 내에서 두 사람이 동일한 휴대전화 번호를 가질 수 없음 |
정규 표현식(RegEx) 패턴 | 값은 규정된 패턴과 일치해야 함 | 전화번호는 ###-###-#### 패턴과 일치해야 함(다른 문자는 허용되지 않음) |
필드 교차 검증 | 여러 필드에 대한 특정 조건을 충족해야 함 | 값이 백분율이며 여러 필드의 값을 합산하면 100%가 되어야 함 |
기본 키 | (데이터베이스만 해당) 값은 열마다 고유해야 함 | 데이터베이스 테이블에는 동일한 기본 키 값을 가진 두 개의 행이 있을 수 없음 기본 키는 고유한 열 값을 각각 참조하는 데이터베이스 내 식별자임 기본 및 외래 키에 대한 자세한 내용은 과정의 뒷부분에서 다룸 |
세트 멤버십 | (데이터베이스만 해당) 열의 값은 이산값 세트에서 가져와야 함 | 열 값을 Yes(예), No(아니요) 또는 Not Applicable(해당 없음)로 설정해야 함 |
외래 키 | (데이터베이스만 해당) 열의 값은 다른 테이블의 열에서 가져온 고윳값이어야 함 | 미국 납세자 데이터베이스에서 State 열에는 유효한 주 또는 지역이 들어가야 하며 별도의 States 테이블에 허용 가능한 값 세트가 정의되어 있어야 함 |
정확성 | 측정하거나 설명하는 실제 개체와 데이터가 일치하는 정도 | 우편번호 값을 도로명 주소로 검증하면 데이터의 정확성이 높아짐 |
완전성 | 필요한 모든 구성요소 또는 측정 항목이 데이터에 포함된 정도 | 개인 프로필 데이터에 머리카락과 눈 색상이 필요한 경우 두 가지가 수집되면 완전한 데이터임 |
일관성 | 데이터가 서로 다른 입력 또는 수집 지점에서 반복될 수 있는 정도 | 판매 및 수리 데이터베이스에서 고객의 주소가 동일하면 일관된 데이터임 |
데이터에 문제가 있는 경우 취해야 하는 조치
데이터가 없는 경우
가능한 해결책 | 실생활에서의 해결책 예시 |
데이터를 소규모로 수집하여 예비 분석을 수행한 다음, 더 많은 데이터를 수집하여 분석을 완료하기 위해 추가 시간을 요청합니다. | 직원들이 새로운 성과 및 보너스 계획에 대해 어떻게 생각하는지 설문조사를 실시하는 경우 샘플을 사용하여 예비 분석을 진행합니다. 그런 다음 3주를 더 요청해서 모든 직원의 데이터를 수집합니다. |
데이터를 수집할 시간이 없는 경우 다른 데이터 세트의 프록시 데이터를 사용하여 분석을 수행합니다. 이는 가장 일반적인 해결 방법입니다. | 통근자의 피크 이동 시간을 분석하고 있지만 특정 도시에 대한 데이터가 없는 경우, 크기와 인구통계가 비슷한 다른 도시의 데이터를 사용합니다. |
프록시 데이터 예시
비즈니스 시나리오 | 프록시 데이터 사용 방법 |
며칠 전에 신차 모델을 출시한 자동차 대리점은 판매 데이터가 나오는 월말까지 기다릴 수 없습니다. 지금 당장 판매량 예측을 원합니다. | 애널리스트는 잠재적 판매량을 추정하기 위해 대리점 웹사이트의 차량 사양에 대한 클릭 수를 프록시합니다. |
식물성 고기 신제품을 식료품점에 납품한 공급업체는 향후 4년 동안의 수요를 추정해야 합니다. | 애널리스트는 몇 년 전에 출시된 두부로 만든 칠면조 대체품의 판매 데이터를 프록시합니다. |
상공 회의소에서 관광 캠페인이 해당 도시 여행에 어떤 영향을 미칠지 알고 싶어 하지만 캠페인 결과는 아직 공개되지 않았습니다. | 애널리스트는 유사한 캠페인이 6개월 전에 실행된 후 1~3개월 동안의 항공사 예약 데이터를 프록시합니다. |
데이터가 너무 적은 경우
가능한 해결책 | 실생활에서의 해결책 예시 |
실제 데이터와 함께 프록시 데이터를 사용하여 분석합니다. | 골든 리트리버 소유자의 추세를 분석하는 경우 래브라도 소유자의 데이터를 포함하여 데이터 세트를 더 크게 만드세요. |
이미 가지고 있는 데이터와 부합하도록 분석을 조정합니다. | 18~24세의 데이터가 누락된 경우 분석을 수행하되 보고서에 다음 제한사항을 기록합니다. 이 결론은 25세 이상의 성인에게만 적용됩니다. |
데이터가 잘못 되었으며 오류가 있는 데이터를 포함하는 경우
가능한 해결책 | 실생활에서의 해결책 예시 |
요구사항을 잘못 이해하여 데이터가 잘못된 경우 요구사항을 다시 전달합니다. | 여성 유권자에 대한 데이터가 필요한데 남성 유권자에 대한 데이터를 받았다면 요구사항을 다시 기술합니다. |
데이터의 오류를 식별하고 가능한 경우 오류에서 패턴을 찾아 소스에서 수정합니다. | 데이터가 스프레드시트에 있고 잘못된 계산을 하는 조건문이나 불리언이 있는 경우 계산된 값만 수정하는 대신 조건문을 변경합니다. |
데이터 오류를 직접 수정할 수 없는 경우, 샘플 크기가 충분히 크고 데이터를 무시해도 체계적인 편향이 발생하지 않는다면 잘못된 데이터를 무시하고 분석을 진행할 수 있습니다. | 데이터 세트가 다른 언어에서 번역되었고 일부 번역이 이해되지 않는다면 잘못된 번역이 있는 데이터를 무시하고 다른 데이터로 분석을 진행합니다. |
의사 결정 트리
더티 데이터란?
중복 데이터
•
여러 번 나타나는 모든 데이터 레코드
•
데이터 수동 입력, 데이터 일괄 가져오기 또는 데이터 이전
•
왜곡된 측정항목 또는 분석, 부풀려지거나 부정확한 집계 또는 예측, 데이터 검색 시 혼란
오래된 데이터
•
새롭거나 더 정확한 정보로 갱신해야 하는 오래된 데이터
•
직무 전환 또는 이직, 구형 소프트웨어 및 시스템
•
부정확한 인사이트, 의사결정 및 애널리틱스
불완전한 데이터
•
중요한 필드가 누락된 데이터
•
잘못된 데이터 수집 또는 부정확한 데이터 입력
•
생산성 감소, 부정확한 인사이트, 필수 서비스를 완료하지 못함
부정확한 데이터
•
완전하지만 부정확한 데이터
•
데이터 입력 중 발생한 오류, 허위 정보, 모의 데이터
•
부정확한 인사이트 또는 불량 정보에 기초한 의사결정으로 수익 손실이 초래됨
불일치 데이터
•
같은 내용을 다른 형식으로 보여주는 데이터
•
잘못 저장된 데이터 또는 데이터 전송 중 발생한 오류
•
상충하는 데이터 포인트로 인해 혼란이 발생하거나 고객 분류 또는 세분화가 불가능해짐
•
의료 서비스: 데이터 레코드 중 10%가 중복된 것일 수 있으며 병원 전자건강기록의 경우 최대 20%가 중복된 것으로 추정됩니다.