반응형
제육's 휘발성 코딩
반응형
자바 웹크롤러 - JSOP 라이브러리
🔷 Java/Crawler 2021. 8. 2. 01:33

JSOP 라이브러리 // https://mvnrepository.com/artifact/org.jsoup/jsoup implementation group: 'org.jsoup', name: 'jsoup', version: '1.14.1' mvnrepository 에서 jsop 라이브러리 받아오기 (gradle 버전) Document : 웹사이트의 모든 소스코드 (HTML, CSS, Javascript 포함) Elements : Document의 특정 범위, 일부 Tag를 담을 수 있다. Element 는 Elements에서 얻은 최종 요소 import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.j..

크롤링 접근 규약. (robot.txt)
🔷 Java/Crawler 2021. 8. 2. 00:30

로봇 배제 표준 (Robots exclusion standard) 웹사이트에 로봇이 접근하는 것을 방지하기 위한 규약으로 일반적으로 로봇의 접근을 제한하는 내용을 robots.txt 파일에 기술되어 있다. (웹사이트 URL 주소) /robots.txt User-agent : * (모든 로봇) , User-agent : bingbot (bingbot이라는 이름의 로봇) Disallow : / (모든 경로 불허) Allow : /$ (최상위 경로 허가) User-agent : bingbot Disallow : / bingbot은 모든 경로를 크롤링하는 행위를 허락하지 않는다. User-agent : * Disallow : /owner 모든 로봇은 /owner 경로를 크롤링하는 행위를 허락하지 않는다. Use..

반응형
반응형