반응형

R Programming 21

RStudio 관련 TIP

1. 자주 사용하는 RStudio 단축키와 명령 – Console 화면에서 Ctrl_l (Ctrl_소문자L) : 화면을 깨끗하게 지웁니다. – rm(list=ls(all=TRUE)) : 작업 영역을 깨끗이 청소 합니다. – Ctrl_+ : 화면에 표시되는 문자의 크기를 크게 합니다. – Ctrl_- : 화면에 표시되는 문자의 크기를 작게 합니다. – "Tools -> Global Options…" 메뉴를 선택한 후 "General" 메뉴에서 "Default working directory (when not in a project):" : RStudio에서 사용할 작업용 폴더를 지정 합니다. "Default text encoding: " : ~.R 파일의 인코딩을 지정 합니다. 저는 "UTF-8"을 지정하..

dplyr 함수

데이터 분석에서 가장 많은 시간을 차지하는 것은 데이터를 분석에 필요한 형태로 만드는 데이터 전처리 과정입니다. 우리가 공부하면서 보게 되는 책에 있는 예제는 말 그대로 예제일 뿐이지 실제 데이터 분석 업무에서는 바로 모델링이나 시각화에 적합한 형태의 데이터를 얻기 위해서는 지루하고 복잡한 과정을 거치게 됩니다. 데이터 분석 프로젝트에 걸리는 시간의 절반 이상은 데이터의 전처리, 변환, 필터링이 차지하게 되는 것이 보통입니다.R 언어 자체에도 데이터 전처리를 위한 많은 함수가 포함되어 있습니다. 여기에 각종 패키지의 도움을 받는다면 더욱 쉽고 빠르게 전처리 과정을 마칠 수가 있습니다. 이번 포스팅에서는 최근 dplyr이라는 패키지가 새로 발표되어 인터넷상에서 좋은 평가를 받고 있기에 패키지 안에 포함된 ..

dplyr 패키지

R공부 : dplyr 패키지 ] dplyr의 특징 크기가 큰 데이터를 R 콘솔 등에서 출력할 때 출력하는 시간이 오래 걸리고, 콘솔이 데이터로 넘쳐나는 현상이 벌어지는데, 비교적 간단한 형태로 보여주는 함수가 있다.데이터를 다루는 데 기본이 되는 5가지 함수(filter, select, arrange, mutate, summarise)가 있어서 이들을 적절히 조합해 사용하면 원하는 형태로 데이터를 변환할 수 있고, 정리할 수 있다. 또한 이런 과정들을 체인으로 묶어서 코딩할 수 있어서 굳이 중간에 임시 변수들을 만들지 않고도 작업할 수 있다.plyr 패키지가 split-apply-combine 논리로 만들어져 있는데, 이들 과정이 함수 안에서 숨겨져 있어서 처음에는 확 눈에 띄지 않아서 이해하기가 어렵다..

grepl 함수 (찾기 기능)

현재 프로젝트에 투입되면서 가장 먼저해야하는것이 가맹점이 어떤 브랜드에 속해있는지를 알아야한다.어떤 브랜드인지를 알수있는 방법은 가맹점명으로 알수가 있는 상황이다.약 300만개의 가맹점명을 일일이 보면서 할수없기에 키워드를 검색하면서 브랜드를 산출해나가고있다.EXCEL에서 흔히 CTRL+F를 이용해서 찾고자하는 문서를 찾는다.R에서 이기능을 하는것이 "grepl"이다. 예제로 우선 데이터셋을 한번 만들어보자########################## 알파벳이 무작위로 있는 데이터프레임을 만드자. ##########################sample

sqldf 패키지

[ R공부 : sqldf 패키지 ]R에는 많은 데이터 처리 함수가 있어 데이터를 편리하게 조작할 수 있다는 장점이 있다. 그러나 한편으로는 원하는 형태로 데이터를 만들기 위해서 여러 가지 함수를 알아야 하는 점이 부담이 되기도 한다. sqldf 패키지는 이런 부담을 털어버리는 데 큰 도움이 되며, SQL(Structured Query Language) 문을 사용할 줄 아는 사용자가 더욱 쉽게 데이터를 접근할 수 있게 해준다. sqldf 패키지는 SQL 명령이 주어지면 자동으로 스키마(Schema)를 생성하고 데이터를 테이블로 로드한 뒤 SQL 문을 수행한다. 그리고 SQL의 실행 결과는 다시 R로 로드된다. 이 작업은 자동으로 이루어지지 때문에 사용자가 힘들여 데이터베이스를 설치하고 환경을 설정하는 작업..

dplyr 패키지

[ R공부 : dplyr 패키지의 chain 기능 ] dplyr 패키지는 데이터를 처리하는 데에 매우 유용한 기능을 제공한다. dplyr 패키지의 가장 큰 장점 중의 하나는 chain 기능이라고 한다. %>%(이전에는 %.%로 되어 있었지만 최근에 변경된 것 같음)를 이용해 각 작업 단위를 한 번에 수행할 수 있어서 복잡한 내용의 처리를 위해 R Script(스크립트)로 프로그램을 짤 때에, 각 작업을 수행하는 중간에 임시 데이터 프레임을 생성하지 않아도 된다. 또한 매번 각 작업을 수행하는 함수의 argument에 데이터 프레임을 지정했는데, %>%를 이용하면 한 번 지정 후에 이를 생략할 수 있고, 앞의 결과를 pipe line 처럼 뒤에 오는 함수의 입력 값으로 사용할 수 있다 ## dplyr, h..

반응형