반응형

R Programming/R Function 14

group_by ()

## 데이터를 조건에 맞게 그룹으로 분할 ddply(diamonds, .(cut), summarise, priceMean=mean(price))## diamond_df를 cut을 기준으로 그룹화 df=group_by(diamonds_df, cut) Source: local data frame [53,940 x 10] Groups: cut ## cut으로 그룹화 되어있는 것을 볼 수 있다.carat cut color clarity depth table price x y z 1 0.23 Ideal E SI2 61.5 55 326 3.95 3.98 2.43 2 0.21 Premium E SI1 59.8 61 326 3.89 3.84 2.31 3 0.23 Good E VS1 56.9 65 327 4.05 4.0..

RStudio 관련 TIP

1. 자주 사용하는 RStudio 단축키와 명령 – Console 화면에서 Ctrl_l (Ctrl_소문자L) : 화면을 깨끗하게 지웁니다. – rm(list=ls(all=TRUE)) : 작업 영역을 깨끗이 청소 합니다. – Ctrl_+ : 화면에 표시되는 문자의 크기를 크게 합니다. – Ctrl_- : 화면에 표시되는 문자의 크기를 작게 합니다. – "Tools -> Global Options…" 메뉴를 선택한 후 "General" 메뉴에서 "Default working directory (when not in a project):" : RStudio에서 사용할 작업용 폴더를 지정 합니다. "Default text encoding: " : ~.R 파일의 인코딩을 지정 합니다. 저는 "UTF-8"을 지정하..

dplyr 함수

데이터 분석에서 가장 많은 시간을 차지하는 것은 데이터를 분석에 필요한 형태로 만드는 데이터 전처리 과정입니다. 우리가 공부하면서 보게 되는 책에 있는 예제는 말 그대로 예제일 뿐이지 실제 데이터 분석 업무에서는 바로 모델링이나 시각화에 적합한 형태의 데이터를 얻기 위해서는 지루하고 복잡한 과정을 거치게 됩니다. 데이터 분석 프로젝트에 걸리는 시간의 절반 이상은 데이터의 전처리, 변환, 필터링이 차지하게 되는 것이 보통입니다.R 언어 자체에도 데이터 전처리를 위한 많은 함수가 포함되어 있습니다. 여기에 각종 패키지의 도움을 받는다면 더욱 쉽고 빠르게 전처리 과정을 마칠 수가 있습니다. 이번 포스팅에서는 최근 dplyr이라는 패키지가 새로 발표되어 인터넷상에서 좋은 평가를 받고 있기에 패키지 안에 포함된 ..

dplyr 패키지

R공부 : dplyr 패키지 ] dplyr의 특징 크기가 큰 데이터를 R 콘솔 등에서 출력할 때 출력하는 시간이 오래 걸리고, 콘솔이 데이터로 넘쳐나는 현상이 벌어지는데, 비교적 간단한 형태로 보여주는 함수가 있다.데이터를 다루는 데 기본이 되는 5가지 함수(filter, select, arrange, mutate, summarise)가 있어서 이들을 적절히 조합해 사용하면 원하는 형태로 데이터를 변환할 수 있고, 정리할 수 있다. 또한 이런 과정들을 체인으로 묶어서 코딩할 수 있어서 굳이 중간에 임시 변수들을 만들지 않고도 작업할 수 있다.plyr 패키지가 split-apply-combine 논리로 만들어져 있는데, 이들 과정이 함수 안에서 숨겨져 있어서 처음에는 확 눈에 띄지 않아서 이해하기가 어렵다..

grepl 함수 (찾기 기능)

현재 프로젝트에 투입되면서 가장 먼저해야하는것이 가맹점이 어떤 브랜드에 속해있는지를 알아야한다.어떤 브랜드인지를 알수있는 방법은 가맹점명으로 알수가 있는 상황이다.약 300만개의 가맹점명을 일일이 보면서 할수없기에 키워드를 검색하면서 브랜드를 산출해나가고있다.EXCEL에서 흔히 CTRL+F를 이용해서 찾고자하는 문서를 찾는다.R에서 이기능을 하는것이 "grepl"이다. 예제로 우선 데이터셋을 한번 만들어보자########################## 알파벳이 무작위로 있는 데이터프레임을 만드자. ##########################sample

반응형