웹스크랩핑(2)
-
emart 매장 정보 얻기
emart의 전국 매장 정보와 상태를 수집 점포찾기 > 메인 store.emart.com 매장 하나의 정보가 저장되는 node의 패턴은 아래와 같다 li:nth-child(5) 위 숫자가 1에서 399까지 존재한다 가장 많은 정보를 담고 있는 점포는 5개의 상황을 담고 있는 킨텍스점이다. 따라서 변수가 점포 이름을 포함하여 6개가 되어야 한다 #################################################### ## get function #################################################### url % as.tibble %>% separate(value, name, sep = '@') %>% as.tibble for(j in 1:6){ r..
2019.04.26 -
XPath를 활용한 베스트셀러 수집하기
RIDIBOOKS 최고의 eBook 서비스, 리디북스! 200만 권의 eBook, 특별반값 도서, 최신 베스트셀러에서 빌려보는 만화/판무/잡지, 내 문서파일 (PDF/TXT/ePub) 뷰어 기능까지! ridibooks.com 리디 북스의 월간 베스트 셀러 Top30을 수집 베스트 셀러는 [순위], [제목], [작가], [가격] 등의 정보가 기제되어 있다. 순위, 제목, 작가, 가격에 대하여 xpath 규칙성을 파악한다 # 순위 규칙 //*[@id="page_best"]/div[2]/div[2]/p //*[@id="page_best"]/div[2]/div[3]/p //*[@id="page_best"]/div[2]/div[31]/p # 제목 규칙 //*[@id="page_best"]/div[2]/div[2]..
2019.04.25