티스토리 뷰
1. Selenium이란?
<추후수정>
2. 설치하기
1) selenium 다운받기. (ver. 3.11.0)
>>> https://www.seleniumhq.org/download/
2)geckodriver 다운받기. (ver. 0.17.0)
>>> https://sites.google.com/a/chromium.org/chromedriver/
3) chromeDriver 다운받기(ver.2.37)
>>> https://sites.google.com/a/chromium.org/chromedriver/downloads
3. selenium 준비하기
1) 다운을 받은 후 C:\r_selenium에 폴더를 만들어 세 파일을 위치시킨다.
2) cmd 관리자 모드를 실행한 후 cmd 콘솔창에 cd C:\r_selenium를 입력한다.
3) 콘솔창에 java -Dwebdriver.gecko.driver="geckodriver.exe" -jar selenium-server-standalone-3.11.0.jar -port 4445를 입력한다.
4. 웹크롤링하기
1) cmd창은 내려놓고, Rstudio로 돌아가 패키지를 설치한다.
install.packages("RSelenium")
install.packages("rvest")
library(RSelenium)
library(rvest)
2) 다음의 명령어를 통해 웹크롤링을 할 수 있다.
remDr<-remoteDriver(remoteServerAddr="localhost", port=4445L, browserName="chrome")
remDr$open()
remDr$navigate("http://sancj.tistory.com/manage/") #접속할 사이트 입력한다.
#DOM-->문서 전체의 element간의 계층모델로 가짐
#findElement() 함수를 이용하여 특정 위치를 지정할 수 있습니다.
txt_id<-remDr$findElement(using="id",value="loginId") #id="~~~~"의 형식이 나타나는데, 차례대로 입력하면 된다.
txt_pw<-remDr$findElement(using="id",value="loginPw")
login_btn<-remDr$findElement(using="class",value="btn_login") #로그인 버튼도 id/pw와 비슷하게 class='~~~~"입력
txt_id$setElementAttribute("value","★★★★★") # ★에 아이디 입력
txt_pw$setElementAttribute("value","★★★★★") # ★에 비밀번호 입력
login_btn$clickElement()
url_item<-remDr$getPageSource()[[1]] #페이지 소스 읽어오기
url_item<-read_html(url_item, encoding="UTF-8") #url에서 html파일을 읽어오고 저장한다.
item<- url_item %>% html_nodes("strong.txt_vellip.tit_top") %>% html_text() #최근 글 목록을 불러온다.
item
3)결과
-끝-
'Data Analytics > R' 카테고리의 다른 글
[R] R Studio 설치하기 (0) | 2018.09.27 |
---|---|
[R] R 오류 및 해결방법 정리 (0) | 2018.04.17 |
[R] 주성분분석(PCA) 따라하기(1) (0) | 2018.04.10 |