R(22)
-
Xpath를 활용한 MLB 타자 정보 수집
2019 Major League Baseball Season Summary | Baseball-Reference.com 2019 MLB Standings, Team and Player Statistics, Leaderboards, Award Winners, Trades, Minor Leagues, Fielding, Batting, Pitching, New Debuts www.baseball-reference.com MLB의 팀별 타자 정보를 데이터 형태로 가져와보자 팀별 타격 데이터는 테이블 형태로정리되어 있다 element inspector로 확인해보면 데이터 테이블의 id가 div_teams_standard_batting인 것을 알 수 있다 url.mlb % html_text() 결과물을 보면 테이블..
2019.04.25 -
정규 표현식
일반 표현 기호 역할 예제 ^ 패턴의 시작 [ ... ] 문자의 범위 지정 { n } n개의 문자 n\d{3} : n위에 숫자가 3개 이상 {n, m} n ≤문자 갯수 ≤m { n, } n개 이상의 문자 ( ... ) 하나의 문자 인식 범위 * 이전 문자가 0 or ∞ n\d* : n뒤에 숫자가 0개 이상 + 이전 문자가 1개 이상 n\d+ : n뒤에 숫자가 1개 이상 ? 이전 문자가 0 or 1 apples? : s는 있을 수도 없을 수도 . 임의의 한문자 $ 패턴의 종료 (?!) 대소문자를 구분하지 않음 \s 공백문자 \S 공백이 아닌 나머지 문자 \w 알파벳 or 숫자 \W 알파벳 or 숫자가 아닌 나머지 문자 \d [0-9] \D 숫자를 제외한 문자 | 패턴 안에서 or 연산 (txt|pdf|hw..
2019.04.22 -
행렬 생성, 호출
box box [1] 5 10 1 8 7 12 4 11 3 6 2 9 dim(box) box [,1] [,2] [,3] [,4] [1,] 5 8 4 6 [2,] 10 7 11 2 [3,] 1 12 3 9 이미 생성되어 있는 벡터를 행렬 단위로 변환 dim(x) x x [1] 11 22 33 44 > x x [1] 11 22 33 55 44 > length(x) [1] 5 length(x) → 행렬의 원소 갯수를 반환 fly c(1, 2, 3) + c(10, 11, 12, 13, 14, 15) [1] 11 13 15 14 16 18 행렬 A의 길이가 행렬 B보다 짧을 경우, 두 행렬을 더 할경우 A의 원소를 B의 원소에 순차적으로 대응 시킨 후, A를 처음부터 다시 B의 나머지 원소에 대응 > x [1] ..
2019.04.20 -
조건문, 반복문
조건문 if - else x 1){ print("x > 1") }else{ print("x 1" ifelse x 1, "X > 1", "X 1" 반복문 for x
2019.04.18 -
Tidyr을 활용한 데이터 정리
목적 DSR 패키지에 포함된 데이터셋으로 정돈된 데이터 연습 다른 패키지와 tidyr의 함수 대응 관계는 아래와 같다 reshape2의 melt와 dcast는 tidyr의 gather와 spread로 대체 가능하다 tidyr gather spread reshape2 melt cast spreadsheets unpivot pivot databases fold unfold 사용한 패키지 library(tidyverse) library(DSR) TB를 포함한 table1~6에서 Spread와 Gather사용 > table1 # A tibble: 6 x 4 country year cases population 1 Afghanistan 1999 745 19987071 2 Afghanistan 2000 2666 2..
2019.04.18 -
세상빠른 그래프 만드는 사이트
엑셀로 그래프 찍어내기 힘들고 귀찮은데... 한 번에 괜찮은거 찍어내는 방법이 없을까? FastCharts.io fastcharts.io CSV, TSV 형식의 데이터를 입력 샘플 데이터
2019.04.18