패키지 설치
install.packages("here")
library.packages("here")
install.packages("skimr")
install.packages("janitor")
R
복사
데이터 프레임의 요약 정보 얻기
skim_without_charts()
•
데이터 세트 이름, 행과 열의 수를 포함하는 데이터 요약을 제공합니다.
•
열 유형과 데이터 프레임에 포함된 다양한 데이터 유형의 요약을 제공합니다.
glimpse()
•
데이터 세트의 내용을 간단히 파악 합니다. 즉, 데이터 요약이 표시됩니다.
head()
•
데이터 세트의 열 이름과 첫 몇 행을 미리 볼 수 있습니다.
select()
•
특정 열만 지정하거나 지금은 필요하지 않은 열을 제외할 수 있습니다.
•
특정 열만 제외하려면 select(-{열이름}) 이라고 입력하면 됩니다
rename()
•
열 이름을 쉽게 변경할 수 있습니다.
rename_with()
•
열 이름을 일관되게 변경할 수 있습니다.
◦
열 이름을 모두 대문자로 바꿔야 하는 경우…
clean_names()
•
자동으로 열 이름이 일관성 있고 고유한지 확인합니다.
•
모든 열 이름이 고유하고 일관성 있으며 문자, 숫자, 밑줄로만 이루어 지도록 합니다.
데이터 구성하기
library(tidyverse)
R
복사
arrange()
•
정렬 기준으로 사용할 변수를 선택할 수 있습니다.
•
정렬된 tibble 데이터가 반환 됩니다.
◦
내림차순으로 정렬하려면 열 이름 앞에 빼기 기호를 추가하면 됩니다.
view(이름)
•
데이터 프레임을 저장합니다.
group_by()
•
데이터를 기준으로 정렬 합니다.
•
보통 다른 함수와 함께 사용합니다.
◦
summarize 함수를 사용하면 데이터의 대략적인 정보를 얻을 수 있습니다.
◦
drop_na() 인수는 데이터 세트의 누락된 값을 모두 제외합니다.
▪
데이터에서 행을 삭제하기 때문에 주의해야 합니다.
filter()
•
결과를 필터링 할 수 있습니다.
데이터 변환
separate()
•
열을 분리합니다.
separate(employee, name, into=c('first_name', 'last_name'), sep=' ')
R
복사
unite()
•
열을 병합 합니다.
unite(employee, 'name', first_name, last_name, sep=' ')
R
복사
mutate()
•
데이터 프레임에 새 변수를 생성할 수도 있습니다.
•
단위를 변환하고 새 열을 추가하는 것이 가능 합니다.
pivot_longer()
행 수를 늘리고 열 수를 줄여 데이터의 데이터 프레임을 세로형으로 만들 수 있습니다.
pivot_wider()
열 수를 늘리고 행 수를 줄이도록 데이터를 변환하고 싶은 경우 사용합니다.
데이터 편향
•
요약 통계가 거의 동일한 데이터 세트는 잘못된 판단을 야기할 수 있습니다. 이러한 경우 시각화가 매우 종요 합니다.
◦
sd(), cor(), mean() 함수는 표준 편차, 상관관계, 평균을 사용하여 데이터 세트의 통계 요약을 제공할 수 있습니다.
▪
cor() 함수는 두 변수의 상관관계를 반환합니다. 이를 기반으로 두 변수가 서로 얼마나 영향을 미치는지 판정할 수 있습니다.
▪
sd(y)는 데이터에 포함된 값의 분산도를 나타내는 함수입니다.
◦
summarize 함수를 사용하여 시각화를 할 수 있습니다.
install.packages('Tmisc')
R
복사
•
sample() 함수는 R에서 데이터 편향을 해결하기 위해 사용할 수 있는 다양한 함수와 방법의 하나입니다.