Search

데이터와 R

과정
R프로그래밍을 사용한 데이터 분석
날짜
2024/04/01

패키지 설치

install.packages("here") library.packages("here") install.packages("skimr") install.packages("janitor")
R
복사

데이터 프레임의 요약 정보 얻기

skim_without_charts()

데이터 세트 이름, 행과 열의 수를 포함하는 데이터 요약을 제공합니다.
열 유형과 데이터 프레임에 포함된 다양한 데이터 유형의 요약을 제공합니다.

glimpse()

데이터 세트의 내용을 간단히 파악 합니다. 즉, 데이터 요약이 표시됩니다.

head()

데이터 세트의 열 이름과 첫 몇 행을 미리 볼 수 있습니다.

select()

특정 열만 지정하거나 지금은 필요하지 않은 열을 제외할 수 있습니다.
특정 열만 제외하려면 select(-{열이름}) 이라고 입력하면 됩니다

rename()

열 이름을 쉽게 변경할 수 있습니다.

rename_with()

열 이름을 일관되게 변경할 수 있습니다.
열 이름을 모두 대문자로 바꿔야 하는 경우…

clean_names()

자동으로 열 이름이 일관성 있고 고유한지 확인합니다.
모든 열 이름이 고유하고 일관성 있으며 문자, 숫자, 밑줄로만 이루어 지도록 합니다.

데이터 구성하기

library(tidyverse)
R
복사

arrange()

정렬 기준으로 사용할 변수를 선택할 수 있습니다.
정렬된 tibble 데이터가 반환 됩니다.
내림차순으로 정렬하려면 열 이름 앞에 빼기 기호를 추가하면 됩니다.

view(이름)

데이터 프레임을 저장합니다.

group_by()

데이터를 기준으로 정렬 합니다.
보통 다른 함수와 함께 사용합니다.
summarize 함수를 사용하면 데이터의 대략적인 정보를 얻을 수 있습니다.
drop_na() 인수는 데이터 세트의 누락된 값을 모두 제외합니다.
데이터에서 행을 삭제하기 때문에 주의해야 합니다.

filter()

결과를 필터링 할 수 있습니다.

데이터 변환

separate()

열을 분리합니다.
separate(employee, name, into=c('first_name', 'last_name'), sep=' ')
R
복사

unite()

열을 병합 합니다.
unite(employee, 'name', first_name, last_name, sep=' ')
R
복사

mutate()

데이터 프레임에 새 변수를 생성할 수도 있습니다.
단위를 변환하고 새 열을 추가하는 것이 가능 합니다.

pivot_longer()

행 수를 늘리고 열 수를 줄여 데이터의 데이터 프레임을 세로형으로 만들 수 있습니다.

pivot_wider()

열 수를 늘리고 행 수를 줄이도록 데이터를 변환하고 싶은 경우 사용합니다.

데이터 편향

요약 통계가 거의 동일한 데이터 세트는 잘못된 판단을 야기할 수 있습니다. 이러한 경우 시각화가 매우 종요 합니다.
sd(), cor(), mean() 함수는 표준 편차, 상관관계, 평균을 사용하여 데이터 세트의 통계 요약을 제공할 수 있습니다.
cor() 함수는 두 변수의 상관관계를 반환합니다. 이를 기반으로 두 변수가 서로 얼마나 영향을 미치는지 판정할 수 있습니다.
sd(y)는 데이터에 포함된 값의 분산도를 나타내는 함수입니다.
summarize 함수를 사용하여 시각화를 할 수 있습니다.
install.packages('Tmisc')
R
복사
R 에서는 데이터의 예측 결과를 실제 결과와 비교하여 편향을 정량화할 수 있습니다
편향이 없다면 0에 가까운 결과가 나옵니다.
sample() 함수는 R에서 데이터 편향을 해결하기 위해 사용할 수 있는 다양한 함수와 방법의 하나입니다.