Tale sistema utilizzato anche dai motori di ricerca per creare indici di informazioni da rendere disponibili nel motore di ricerca può essere attuato da utenti privati con appositi programmini chiamati bot.
Dato che tali programmi ricercano in modo più efficinte informazioni, la banda dei siti web viene messa a dura prova e per questo alcuni siti internet applicano delle tecniche per combattere rallentare o fermare tali bot.
Tali tecniche sono:
- If the application is well behaved, adding entries to robots.txt will be adhered to. Google and other well-behaved bots can be stopped this way.
- Blocking an IP address. This will also block all browsing from that address.
- Sometimes bots declare who they are. Well behaved ones do (for example 'googlebot'). They can be blocked on that basis. Unfortunately, some bots may declare they are a normal browser.
- Bots can be blocked by excess traffic monitoring.
- Bots can be blocked with tools to verify that it is a real person accessing the site, like a CAPTCHA.
- Commercial anti-bot services: Several companies, such as Pramana, SiteBlackBox and Sentor, offer anti-bot services for websites. A few Web Application Firewalls have limited bot detection capabilities as well.
- Locating bots with a honeypot or other method to identify the IP addresses of automated crawlers.
- Sometimes bots can be blocked with carefully crafted Javascript code.
- Using CSS sprites to display such data as phone numbers or email addresses.
Dei software utili per il web scraping sono elencati di seguito
- Apache Camel
- Automation Anywhere
- Data Toolbar
- Firebug
- Greasemonkey
- HtmlUnit
- HTTrack
- iMacros
- SimpleTest
- Methabot
- nokogiri
- Piggy Bank
- watir
- Wget
- WSO2 Mashup Server
- yahoo pipes
- Yahoo! query language (yql)
- Screen Scraper
Un altro sistema del tutto legale di rintracciare informazioni nel web è per mezzo del sistema impostato da Google con l'apposita funzione Google Alert.
Nessun commento:
Posta un commento