Search

알맞은 데이터 선택

과정
탐색을 위한 데이터 준비
날짜
2024/01/31

알맞은 데이터 선택하기

데이터 수집 방식

자체 리소스를 사용하여 데이터를 수집할지, 다른 당사자의 데이터를 받거나 구매할지 결정하는 것입니다. 직접 수집하는 데이터는 퍼스트 파티 데이터라고 합니다.
과학자들이 가장 흔히 사용하는 데이터 수집 방법은 관찰 입니다.

데이터 소스

자체 리소스를 사용하여 데이터를 수집하지 않는 경우 세컨드 파티나 서드 파티 데이터 제공자의 데이터를 이용하게 됩니다. 세컨드 파티 데이터는 다른 그룹이 직접 수집하여 판매하는 데이터입니다. 서드 파티 데이터는 제공자가 데이터를 직접 수집하지 않고 판매하는 데이터입니다. 서드 파티 데이터는 소스가 여러 곳일 수 있습니다.

비즈니스 문제 해결

데이터 세트에는 흥미로운 정보가 다수 제시됩니다. 하지만 문제 해결에 실제로 도움이 되는 데이터를 선택해야 합니다. 예를 들어 시간 경과에 따른 추세를 분석하는 경우 시계열 데이터, 즉 날짜를 포함하는 데이터를 사용해야 합니다.

수집할 데이터의 양

자체 데이터를 수집하는 경우 샘플 크기를 알맞게 정해야 합니다. 일부 프로젝트는 기존 데이터에서 무작위로 샘플을 수집해도 괜찮지만 특정 기준에 주목하는 전략적인 데이터 수집이 필요한 프로젝트도 있습니다. 프로젝트마다 요구사항이 다릅니다.

기간

자체 데이터를 수집한다면 데이터 수집에 필요한 기간을 결정합니다. 특히 이는 장기간에 걸친 추세를 추적하는 경우에 중요합니다. 즉시 답이 필요한 상황에서는 새로운 데이터를 수집할 시간이 없을 수도 있습니다. 이때는 이미 존재하는 과거 데이터를 사용해야 합니다.
프로젝트 기한이 데이터 수집에 상당한 영향을 미치는 경우 아래의 플로우 차트를 참고합니다.