데이터와 데이터 분석
데이터
•
사실 정보의 모음이며, 데이터 분석을 통해 중요한 데이터 패턴과 유용한 정보를 밝혀낼 수 있습니다.
•
데이터 자체로는 의미가 없고, 이를 해석해서 정보로 바꾸어야 합니다.
•
데이터는 강력한 의사결정 도구이며 이를 통해 문제 해결을 하고, 새로운 의사결정에 필요한 정보를 기업에 제공할 수 있습니다.
스몰데이터와 빅데이터
스몰데이터 | 빅데이터 |
정해진 단기간의 구체적인 측정항목으로 이루어진 데이터 세트를 설명함 | 장기간의 대략적인 대규모 데이터 세트를 설명함 |
일반적으로 스프레드시트에 정리하여 분석함 | 일반적으로 데이터베이스에 보관하고 쿼리함 |
소기업 및 중견 기업에서 주로 사용함 | 대기업에서 주로 사용함 |
수집, 저장, 관리, 정렬, 시각적 표현이 간편함 | 수집, 보관, 관리, 정렬, 시각적 표현에 큰 노력이 필요함 |
일반적으로 분석 시 관리 가능한 크기 | 효과적인 의사결정을 위해 정리하여 분석하려면 일반적으로 데이터를 작은 규모로 나누어야 함 |
스몰데이터는 말 그대로 크기가 아주 작고 보통은 정해진 짧은 기간 동안 구체적인 측정항목으로 측정한 데이터 세트인 경우가 많습니다. 빅데이터는 구체성이 좀 떨어지는 장기간의 대규모 데이터 세트로 이루어져 있습니다. 빅데이터를 분석하려면 보통 세분화 작업이 필요합니다 빅데이터는 규모가 큰 문제와 질문을 다루는 데 유용하고 회사에서 대규모의 사업 결정을 내리는 데 도움이 됩니다 이렇게 큰 데이터를 처리할 때는 SQL을 사용하는 것이 좋습니다.
빅데이터로 작업할때 마주할 수 있는 문제
•
데이터 과부하와 중요하지 않거나 관련 없는 정보로 인한 문제
•
중요한 데이터가 중요하지 않은 데이터로 인해 가려지게 되면 중요한 데이터를 찾아서 사용하기가 더 어려워집니다. 이에 따라 의사결정에 걸리는 시간이 길어지고 효율성이 저하될 수 있습니다.
•
필요한 데이터에 항상 쉽게 접근할 수 있는 것은 아닙니다.
•
현재의 기술 도구와 솔루션에는 측정 가능하고 보고할 가치가 있는 데이터를 제공하는 데 아직 어려움이 있습니다. 이러한 어려움으로 인해 불공정한 알고리즘 편향이 발생할 수 있습니다.
•
빅데이터 비즈니스 솔루션은 많지만 서로 차이가 있습니다.
빅데이터의 이점
•
많은 양의 데이터를 저장하고 분석할 수 있으면 기업이 더욱 효율적으로 비즈니스를 운영하는 방법을 파악하고 많은 시간과 비용을 절약하는 데 도움이 됩니다.
•
빅데이터는 조직이 고객 구매 패턴과 만족도 수준의 추세를 파악하여 고객을 만족시킬 수 있는 새로운 제품과 솔루션을 만드는 데 도움이 됩니다.
•
기업은 빅데이터를 분석하여 현재 시장 상황을 보다 잘 파악하고 경쟁에서 앞서 나갈 수 있습니다.
•
빅데이터는 기업의 온라인 인지도, 특히 고객의 긍정/부정 피드백을 추적하는 데 도움이 됩니다. 이를 통해 기업은 브랜드를 개선하고 보호하는 데 필요한 정보를 확보할 수 있습니다.
빅데이터 단어
볼륨 | 다양성 | 속도 | 정확성 |
데이터의 양 | 다양한 종류의 데이터 | 데이터를 처리할 수 있는 속도 | 데이터의 품질과 신뢰성 |
데이터 기반 의사결정과 데이터 직관형 의사결정
데이터 기반 의사결정
•
예 괜찮은 식당을 선택하기 위해 맛집을 검색하고 검색 결과를 평점 순으로 정렬하는 것
데이터 직관형 의사결정
•
다양한 데이터 소스를 살펴보고 데이터 간의 공통점을 찾는 것입니다.
정성적 데이터와 정량적 데이터
정량적 데이터
•
어떤 문제가 얼마나 자주, 많이 발생하는지 알려줍니다. 즉, 측정 가능한 데이터 입니다.
•
차트나 그래프를 사용하여 숫자를 시각적으로 표현할 수 있습니다.
•
대상을 알려줍니다.
정성적 데이터
•
숫자로는 측정할 수 없는 품질과 특성 같은 걸 나타내는 주관적이거나 설명적인 측정 데이터 입니다.
•
이유를 밝히고자 하는 질문에 답할 때 유용합니다.
•
문제에 맥락 정보를 추가할 수 있습니다.
•
이유를 알려줍니다.
보고서와 대시보드
보고서
•
조직의 과거 데이터를 특정 시점 기준으로 요약해서 제시할 때 유용합니다.
◦
금융 회사의 월매출 보고서
•
정적 데이터를 사용하기 때문에 정리와 정렬이 완전히 끝난 깔끔한 데이터를 보여줍니다.
•
자동화를 할 수 없기 때문에 정기적으로 관리해야 합니다.
◦
실시간 데이터는 담길 수 없습니다.
대시보드
•
실시간 데이터를 반영할 수 있으며, 최신 정보에 바로 액세스하기 쉽습니다.
◦
필터를 적용해서 데이터를 조정할 수 있습니다.
•
시시각각 달라지므로 장기적인 가치가 있습니다.
•
이해관계자가 지속적으로 정보에 접근해야 한다면 대시보드가 효율적 입니다.
•
설계하는 데 오래 걸리기 때문에 자주 사용하지 않는다면 효율성이 떨어집니다.
•
유지보수에도 시간이 많이 걸립니다.
•
정보가 많아서 부담스러울 때가 있습니다.
◦
데이터에 익숙하지 않은 사람은 혼란을 느낄 수 있습니다.
장점
이점 | 데이터 애널리스트 | 이해관계자 |
중앙 집중화 | 모든 이해관계자와 하나의 데이터 소스 공유 | 데이터, 이니셔티브, 목표, 프로젝트, 프로세스 등을 종합적으로 파악하여 작업 |
시각화 | 들어오는 데이터 실시간 표시 및 업데이트* | 빠르게 추세 및 패턴 변화 파악 |
유용한 정보 획득 | 다양한 데이터 세트에서 관련 정보 확보 | 목표를 벗어나지 않고 데이터에 기반한 결정을 내리도록 숫자 뒤에 숨겨진 의미 파악 |
맞춤설정 | 특정 사용자, 프로젝트, 데이터 프레젠테이션 전용 맞춤 뷰를 생성할 수 있음 | 관심이 있거나 우려되는 특정 분야를 더 상세히 분석 |
*변경된 데이터는 데이터 구조가 같은 경우에만 자동으로 대시보드에 반영됩니다. 데이터 구조가 변경되면 대시보드 구성을 업데이트해야 데이터를 실시간으로 업데이트할 수 있습니다.
생성방법
1.
데이터를 확인해야 하는 이해관계자와 이해관계자의 데이터 사용 방식 파악
2.
대시보드 구성(표시해야 할 항목)
•
명확한 헤더를 사용하여 정보에 라벨 지정
•
각 시각화 요소에 짧은 텍스트 설명 추가
•
가장 중요한 정보를 상단에 표시
3.
시안 만들기(선택사항)
4.
대시보드에서 사용할 시각화 요소 선택
5.
필요에 따른 필터 생성
종류
•
전략형 대시보드
◦
가장 높은 수준의 측정항목으로 장기 목표 및 전략에 중점을 둡니다.
◦
다양한 기업에서 전략적 목표를 평가하고 조정할 때 전략형 대시보드를 사용합니다.
•
운영형 대시보드
◦
단기 실적 추적 및 중간 수준의 목표에 중점을 둡니다.
◦
가장 일반적인 유형의 대시보드입니다. 이러한 대시보드는 일, 주, 월 단위의 시간 범위에 따른 정보를 담고 있으므로 실시간에 가깝게 실적 통계를 제공할 수 있습니다.
•
분석형 대시보드
◦
데이트 세트와 데이터 세트에 사용된 수학으로 구성
◦
가장 기술적인 카테고리에 해당하는 분석형 대시보드는 일반적으로 데이터 사이언스 팀에서 만들고 유지 관리하며, 이해하기 어려울 수 있기 때문에 고위 경영진과 잘 공유되지는 않습니다.
데이터와 측정항목
측정항목
•
정량화해서 측정에 사용할 수 있는 단일 데이터의 유형을 말합니다.
•
원시 데이터는 처리되지 않은 사실 정보의 모음일 뿐이고, 이를 단일 유형의 데이터로 제시하려면 개별 측정항목으로 묶어야 합니다.
•
측정 항목을 조합해서 수식을 만들고, 이 수식에 수치 데이터를 입력할 수도 있습니다.
수학적사고
수학적 사고
•
문제를 살펴보고 논리적이고 단계적으로 분석하는 방법입니다.
•
데이터 패턴 간의 관계를 찾아내서 문제를 파악하는 방법입니다.