R(22)
-
데이터를 클립보드에 읽고 쓰기
항목 수량 사과 5 키위 16 미트볼 40 웹에서 위와 같은 테이블을 긁어오는 상황을 가정해 보자 read.table함수를 사용하면 테이블 그대로 긁어올 수 있다 html.table readClipboard() [1] "항목\t수량" "사과\t5" "키위\t16" "미트볼\t40" > inventory inventory [1] "항목\t수량" "사과\t5" "키위\t16" "미트볼\t40" 엑셀에서 복사한 내용도 동일하게 불러들일 수 있다 excel.table
2019.04.28 -
폴더에서 파일 리스트 가져오기
자신의 컴퓨터에 저장된 특정 폴더의 파일 리스트를 R로 가져오기를 해보자 이미지 파일 일괄 다운로드 받기 웹에서 규칙성 있게 배치되어 있는 이미지를 한 번에 받아보자 네이버 스포츠의 현장 사진집에는 수십장의 사진이 올라가 있다 손으로 하나씩 다운로드 하려면 상당히 번거로운 작업이 기다리고 있다 국내야구,.. aworklab.tistory.com 이미지 일괄 받기를 할 때 생성한 폴더와 파일로 진행해보자 이 폴더에는 52개의 사진 파일이 들어가 있다. 하나씩 일일히 복사해서 가져오면 번거롭고 불편할 것이다. setwd("e:/R_study") pic.list % as.data.frame() pic.list write.csv(pic.list, 'pic_list.csv', fileEncoding = 'UTF-..
2019.04.27 -
이미지 파일 일괄 다운로드 받기
웹에서 규칙성 있게 배치되어 있는 이미지를 한 번에 받아보자 네이버 스포츠의 현장 사진집에는 수십장의 사진이 올라가 있다 손으로 하나씩 다운로드 하려면 상당히 번거로운 작업이 기다리고 있다 국내야구, 생생화보, 포토센터 : 네이버 스포츠 롯데! 이겼다! sports.news.naver.com 한 페이지에 20장 씩, 총 3페이지로 구성되어 있다 규칙성을 찾아 보자 https://sports.news.naver.com/photocenter/photoList.nhn?category=kbo&type=theme&page=2&albumId=73412 앨범은 총 3페이지로 구성되어 있고, URL에서 하이라이트되어 있는 숫자가 1~3으로 변한다 //*[@id="content"]/div/div[1]/div/ul/li[..
2019.04.27 -
emart 매장 정보 얻기
emart의 전국 매장 정보와 상태를 수집 점포찾기 > 메인 store.emart.com 매장 하나의 정보가 저장되는 node의 패턴은 아래와 같다 li:nth-child(5) 위 숫자가 1에서 399까지 존재한다 가장 많은 정보를 담고 있는 점포는 5개의 상황을 담고 있는 킨텍스점이다. 따라서 변수가 점포 이름을 포함하여 6개가 되어야 한다 #################################################### ## get function #################################################### url % as.tibble %>% separate(value, name, sep = '@') %>% as.tibble for(j in 1:6){ r..
2019.04.26 -
a href에서 url 얻기
야구 : 네이버 스포츠 스포츠의 시작과 끝! sports.news.naver.com 네이버 스포츠 뉴스의 야구란에서, 노출되어있는 주요뉴스 중에 20개의 URL을 수집 element inspector 구조를 파악하면 아래와 같은 속성을 확인할 수 있다 div.home_news>ul.home_news_list home_news라는 class의 하위에 home_news_list ul(목록)으로 하위 구조가 형성되어 있고 그 하위 구조에 a href로 url 링크가 존재한다 사용한 패키지 library(rvest) library(tidyverse) url.bb % html_nodes('a') %>% html_attr('href') %>% as.tibble %>% mutate(url = paste0('https..
2019.04.25 -
XPath를 활용한 베스트셀러 수집하기
RIDIBOOKS 최고의 eBook 서비스, 리디북스! 200만 권의 eBook, 특별반값 도서, 최신 베스트셀러에서 빌려보는 만화/판무/잡지, 내 문서파일 (PDF/TXT/ePub) 뷰어 기능까지! ridibooks.com 리디 북스의 월간 베스트 셀러 Top30을 수집 베스트 셀러는 [순위], [제목], [작가], [가격] 등의 정보가 기제되어 있다. 순위, 제목, 작가, 가격에 대하여 xpath 규칙성을 파악한다 # 순위 규칙 //*[@id="page_best"]/div[2]/div[2]/p //*[@id="page_best"]/div[2]/div[3]/p //*[@id="page_best"]/div[2]/div[31]/p # 제목 규칙 //*[@id="page_best"]/div[2]/div[2]..
2019.04.25