데이터와 R

과정

R프로그래밍을 사용한 데이터 분석

날짜

2024/04/01

패키지 설치

install.packages("here")
library.packages("here")

install.packages("skimr")
install.packages("janitor")
R
복사

데이터 프레임의 요약 정보 얻기

skim_without_charts()

•

데이터 세트 이름, 행과 열의 수를 포함하는 데이터 요약을 제공합니다.

•

열 유형과 데이터 프레임에 포함된 다양한 데이터 유형의 요약을 제공합니다.

glimpse()

•

데이터 세트의 내용을 간단히 파악 합니다. 즉, 데이터 요약이 표시됩니다.

head()

•

데이터 세트의 열 이름과 첫 몇 행을 미리 볼 수 있습니다.

select()

•

특정 열만 지정하거나 지금은 필요하지 않은 열을 제외할 수 있습니다.

•

 특정 열만 제외하려면 select(-{열이름}) 이라고 입력하면 됩니다

rename()

•

열 이름을 쉽게 변경할 수 있습니다.

rename_with()

•

열 이름을 일관되게 변경할 수 있습니다.

◦

열 이름을 모두 대문자로 바꿔야 하는 경우…

clean_names()

•

자동으로 열 이름이 일관성 있고 고유한지 확인합니다.

•

모든 열 이름이 고유하고 일관성 있으며 문자, 숫자, 밑줄로만 이루어 지도록 합니다.

데이터 구성하기

library(tidyverse)
R
복사

arrange()

•

정렬 기준으로 사용할 변수를 선택할 수 있습니다.

•

정렬된 tibble 데이터가 반환 됩니다.

◦

내림차순으로 정렬하려면 열 이름 앞에 빼기 기호를 추가하면 됩니다.

view(이름)

•

데이터 프레임을 저장합니다.

group_by()

•

데이터를 기준으로 정렬 합니다.

•

보통 다른 함수와 함께 사용합니다.

◦

summarize 함수를 사용하면 데이터의 대략적인 정보를 얻을 수 있습니다.

◦

 drop_na() 인수는 데이터 세트의 누락된 값을 모두 제외합니다.

▪

데이터에서 행을 삭제하기 때문에 주의해야 합니다.

filter()

•

결과를 필터링 할 수 있습니다.

데이터 변환

separate()

•

열을 분리합니다.

separate(employee, name, into=c('first_name', 'last_name'), sep=' ')
R
복사

unite()

•

열을 병합 합니다.

unite(employee, 'name', first_name, last_name, sep=' ')
R
복사

mutate()

•

데이터 프레임에 새 변수를 생성할 수도 있습니다.

•

단위를 변환하고 새 열을 추가하는 것이 가능 합니다.

pivot_longer()

행 수를 늘리고 열 수를 줄여 데이터의 데이터 프레임을 세로형으로 만들 수 있습니다.

pivot_wider()

열 수를 늘리고 행 수를 줄이도록 데이터를 변환하고 싶은 경우 사용합니다.

데이터 편향

•

요약 통계가 거의 동일한 데이터 세트는 잘못된 판단을 야기할 수 있습니다. 이러한 경우 시각화가 매우 종요 합니다. 

◦

sd(), cor(), mean() 함수는 표준 편차, 상관관계, 평균을 사용하여 데이터 세트의 통계 요약을 제공할 수 있습니다. 

▪

cor() 함수는 두 변수의 상관관계를 반환합니다. 이를 기반으로 두 변수가 서로 얼마나 영향을 미치는지 판정할 수 있습니다. 

▪

sd(y)는 데이터에 포함된 값의 분산도를 나타내는 함수입니다. 

◦

summarize 함수를 사용하여 시각화를 할 수 있습니다.

install.packages('Tmisc')
R
복사

•

R 에서는 데이터의 예측 결과를 실제 결과와 비교하여 편향을 정량화할 수 있습니다

◦

bias 함수는 실제 결과가 예측 결과보다 평균적으로 얼마나 큰지 구합니다.

install.packages("SimDesign")
library(SimeDesign)
R
복사

bias function - RDocumentation

<p>Computes the (relative) bias of a sample estimate from the parameter value. Accepts estimate and parameter values, as well as estimate values which are in deviation form. If relative bias is requested the <code>estimate</code> and <code>parameter</code> inputs are both required.</p>

https://www.rdocumentation.org/packages/SimDesign/versions/2.2/topics/bias

◦

편향이 없다면 0에 가까운 결과가 나옵니다.

•

sample() 함수는 R에서 데이터 편향을 해결하기 위해 사용할 수 있는 다양한 함수와 방법의 하나입니다.