Search

데이터 변환

과정
탐색을 위한 데이터 준비
날짜
2024/01/31

데이터 변환이란?

데이터의 형식, 구조, 값을 변경하는 프로세스 입니다. 주로 다음 작업이 포함됩니다.
데이터 추가, 복사, 복제
필드 또는 레코드 삭제
변수 이름 표준화
데이터베이스의 열 이름 변경, 이동, 결합
한 데이터 세트를 다른 데이터 세트와 연결
파일을 다른 형식으로 저장. 예: 스프레드시트를 CSV(쉼표로 구분된 값) 파일로 저장
왜 이런 과정이 필요한 걸까요? 데이터 변환의 목적은 다음과 같습니다.
데이터 구성: 사용하기 쉽도록 데이터를 구성합니다.
데이터 호환성: 다양한 애플리케이션 또는 시스템에서 동일한 데이터를 사용할 수 있도록 합니다.
데이터 이전: 형식이 일치하는 데이터를 시스템 간에 이동합니다.
데이터 병합: 구성이 동일한 데이터를 서로 병합합니다.
데이터 개선: 보다 세부적인 필드를 사용해 데이터를 표시합니다.
데이터 비교: 데이터를 합리적인 기준으로 비교합니다.

데이터 변환 예시

데이터 병합

배관 회사를 소유한 마리오는 수년간 비즈니스를 운영한 후 다른 배관 회사를 인수했습니다. 새로 인수한 회사의 고객 정보를 기존 회사의 고객 정보와 병합하고 싶지만 두 회사는 서로 다른 데이터베이스를 사용합니다. 따라서 데이터를 호환 가능하도록 만들어야 합니다. 이를 위해 인수한 회사의 데이터 형식을 변환해야 합니다. 그런 다음 두 회사에 모두 속한 고객의 정보가 담긴 중복 행을 삭제해야 합니다. 데이터를 호환 가능하도록 만들고 결합하면 마리오의 배관 회사는 완전하게 병합된 고객 데이터베이스를 보유할 수 있습니다.

데이터 구성

세로형 데이터를 가로형 데이터로 변환하면 차트를 더 쉽게 만들 수 있습니다.

세로형 데이터

세로형 데이터는 특정 항목에 관한 단일 데이터 포인트가 각 행에 포함된 데이터입니다. 아래의 세로형 데이터 예에는 특정 날짜에 해당하는 Apple(AAPL), Amazon(AMZN), Google(GOOGL)(특정 항목)의 개별 주가(데이터 포인트)가 나와 있습니다.
세로형 데이터의 각 열에는 값과 그 값의 맥락이 별도로 제시됩니다.

가로형 데이터

열에서 식별된 특정 항목에 관한 여러 데이터 포인트가 각 행에 포함된 데이터입니다.
위와 같이 데이터를 가로형 데이터로 변환하면 동일한 기간의 회사별 주가 추이를 비교하는 차트를 만들 수 있습니다. 세로형에 포함된 모든 데이터가 가로형에도 포함되어 있으나 가로형 데이터가 읽고 이해하기에 더 쉽습니다. 따라서 가로형 데이터를 세로형 데이터로 변환하기보다는 세로형 데이터를 가로형 데이터로 변환하는 경우가 더 많습니다.
가로형 데이터의 각 열에는 고유한 데이터 변수가 포함됩니다.

정리

가로형 데이터 선호
세로형 데이터 선호
각 주제에 관한 몇 가지 변수로 테이블과 차트 생성
각 주제에 관한 많은 변수 저장(: 은행별 60년 치 이율)
선 그래프 비교
고급 통계 분석 또는 그래프 작업