티스토리 뷰

1. Selenium이란?

<추후수정>




2. 설치하기


1) selenium 다운받기. (ver. 3.11.0)

>>> https://www.seleniumhq.org/download/


2)geckodriver 다운받기. (ver. 0.17.0

>>> https://sites.google.com/a/chromium.org/chromedriver/


3) chromeDriver 다운받기(ver.2.37) 

>>> https://sites.google.com/a/chromium.org/chromedriver/downloads






3. selenium 준비하기


1) 다운을 받은 후 C:\r_selenium에  폴더를 만들어 세 파일을 위치시킨다.



2) cmd 관리자 모드를 실행한 후 cmd 콘솔창에 cd C:\r_selenium를 입력한다.


3) 콘솔창에 java -Dwebdriver.gecko.driver="geckodriver.exe" -jar selenium-server-standalone-3.11.0.jar -port 4445를 입력한다.




4. 웹크롤링하기


1) cmd창은 내려놓고, Rstudio로 돌아가 패키지를 설치한다.

install.packages("RSelenium")

install.packages("rvest")

library(RSelenium)

library(rvest)


2) 다음의 명령어를 통해 웹크롤링을 할 수 있다.


remDr<-remoteDriver(remoteServerAddr="localhost", port=4445L, browserName="chrome")

remDr$open()


remDr$navigate("http://sancj.tistory.com/manage/") #접속할 사이트 입력한다.


#DOM-->문서 전체의 element간의 계층모델로 가짐

#findElement() 함수를 이용하여 특정 위치를 지정할 수 있습니다. 


txt_id<-remDr$findElement(using="id",value="loginId") #id="~~~~"의 형식이 나타나는데, 차례대로 입력하면 된다.

txt_pw<-remDr$findElement(using="id",value="loginPw")

login_btn<-remDr$findElement(using="class",value="btn_login") #로그인 버튼도 id/pw와 비슷하게 class='~~~~"입력



txt_id$setElementAttribute("value","★") # ★에 아이디 입력

txt_pw$setElementAttribute("value","") # ★에 비밀번호 입력

login_btn$clickElement()



url_item<-remDr$getPageSource()[[1]] #페이지 소스 읽어오기

url_item<-read_html(url_item, encoding="UTF-8") #url에서 html파일을 읽어오고 저장한다.

item<- url_item %>% html_nodes("strong.txt_vellip.tit_top") %>% html_text() #최근 글 목록을 불러온다.

item


3)결과




-끝-

































'Data Analytics > R' 카테고리의 다른 글

[R] R Studio 설치하기  (0) 2018.09.27
[R] R 오류 및 해결방법 정리  (0) 2018.04.17
[R] 주성분분석(PCA) 따라하기(1)  (0) 2018.04.10
댓글