반응형

Data Science 3

2. 데이터의 가치와 미래

빅데이터 활용 기본 테크닉 7가지 연관규칙학습 : 커피를 구매하는 사람이 탄산음료를 더 많이 사는가? 변인들 간의 주목할만한 상관관계가 있는지 찾아내는 방법. 상관관계가 높은 상품을 함께 진열하거나 시스템 로그 데이터를 분석해 침입자나 유해 행위자 색출 가능. 우유 구매자가 기저귀를 더 많이 구매하는지 등 분석 유형분석 : 이 사용자는 어떤 특성을 가진 집단에 속하는가? 유전알고리즘 : 최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가? 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 매커니즘을 통해 점진적으로 진화 기계학습 : 기존의 시청기록을 바탕으로 시청자가 현재 보유한 영화 중에서 어떤 것을 가장 보고 싶어할까? 회귀분석 : 구매자의 나이가 구매 차량의 타입에 ..

Data Science/ADsP 2019.07.31

1. 데이터의 이해

1. 데이터의 정의 데이터는 형태에 따라 언어, 문자 등으로 기술되는 정성데이터와 수치, 기호, 도형으로 표시되는 정량데이터로 구분된다. 데이터를 추론과 추정의 근거를 이루는 사실로 정의하고 있다. 이는 데이터를 단순한 객체로서 가치뿐만 아니라 다른 객체와의 상호관계 속에서 가치를 갖는 것으로 설명한 것이다. 2. 데이터와 정보의 관계 지식의 피라미드(DIKW피라미드) 의 형태는 데이터(DATA) - 정보(INFORMATION) - 지식(KNOWLEDGE) - 지혜(WISDOM) 순이다. 데이터 : 존재형식을 불문하고, 타 데이터와의 상관관계가 없는 가공하기 전의 순수한 수치나 기호 정보 : 데이터의 가공 및 상관관계간 이해를 통해 패턴을 인식하고 그 의미를 부여한 데이터 지식 : 상호 연결된 정보 패턴..

Data Science/ADsP 2019.07.30

unnest_tokens 함수

실습 1. text text [1] "Because I could not stop for Death -" "He kindly stopped for me -" [3] "The Carriage held but just Ourselves-" "and Immortality" text 는 전형적인 문자 벡터이고, 이것을 분석하기 위해 text를 데이터 프레임에 넣는다. 이유는 정돈 텍스트 데이터셋(1개 행마다 1개 토큰이 있게 구성한 테이블) 으로 바꾸기 위해서.. #텍스르를 데이터프레임에 넣기 library(dplyr) text_df text_df # A tibble: 4 x 2 line text 1 1 Because I could not stop for Death - 2 2 He kindly stopped f..

반응형