Web
crawler adalah suatu program atau script otomat yang relatif simple, yang
dengan metode tertentu melakukan scan atau “crawl” ke semua halaman-halaman
Internet untuk membuat index dari data yang dicarinya. Nama lain untuk web
crawl adalah web spider, web robot, bot, crawl dan automatic indexer.
Web crawl dapat digunakan untuk
beragam tujuan. Penggunaan yang paling umum adalah yang terkait dengan search
engine. Search engine menggunakan web crawl untuk mengumpulkan informasi
mengenai apa yang ada di halaman-halaman web publik. Tujuan utamanya adalah
mengumpukan data sehingga ketika pengguna Internet mengetikkan kata pencarian
di komputernya, search engine dapat dengan segera menampilkan web site yang
relevan.
CONTOH WEB CRAWLER
Beberapa
contoh web crawler:
1. Teleport Pro
Salah
satu software web crawler untuk
keperluan offline browsing. Software ini sudah cukup lama popular, terutama
pada saat koneksi internet tidak semudah dan secepat sekarang. Software ini
berbayar dan beralamatkan di http://www.tenmax.com.
2. HTTrack
Ditulis
dengan menggunakan C, seperti juga Teleport Pro, HTTrack merupakan software yang
dapat mendownload konten website menjadi sebuah mirror pada harddisk anda,
agar dapat dilihat secara offline. Yang menarik software ini free dan dapat di
download pada website resminya di http://www.httrack.com
3. Googlebot
Merupakan web crawler untuk membangun index pencarian yang digunakan oleh
search engine Google. Kalau website anda ditemukan orang melalui
Google, bisa jadi itu merupakan jasa dari Googlebot. Walau
konsekuensinya, sebagian bandwidth anda akan tersita karena proses crawling
ini.
4. Yahoo!Slurp
Kalau
Googlebot adalah web crawler andalan Google, maka search engine Yahoo
mengandalkan Yahoo!Slurp. Teknologinya dikembangkan oleh Inktomi Corporation
yang diakuisisi oleh Yahoo!.
5. YaCy
Sedikit
berbeda dengan web crawler lainnya
di atas, YaCy dibangun atas prinsip jaringan P2P (peer-to-peer), di develop
dengan menggunakan java, dan didistribusikan pada beberapa ratus
mesin computer (disebut YaCy peers). Tiap-tiap peer di share
dengan prinsip P2P untuk berbagi index, sehingga tidak
memerlukan server central. Contoh search engine yang menggunakan YaCy adalah
Sciencenet (http://sciencenet.fzk.de), untuk pencarian dokumen di bidang sains.
CARA KERJA WEB CRAWLER
1. Mesin pencari web bekerja dengan cara menyimpan informasi
tentang banyak halaman web, yang diambil langsung dari WWW.
Halaman-halaman ini diambil dengan web crawler — browser web
otomatis yang mengikuti setiap pranala yang dilihatnya. Isi setiap halaman lalu
dianalisis untuk menentukan cara mengindeksnya (misalnya, kata-kata diambil
dari judul, subjudul, atau field khusus yang disebut meta
tag). Data tentang halaman web disimpan dalam sebuah database indeks untuk
digunakan dalam pencarian selanjutnya.
2. Mesin pencari juga
menyimpan dan memberikan informasi hasil pencarian berupa pranala yang merujuk
pada file, seperti file audio, file video,
gambar, foto dan sebagainya.
3. Ketika seorang pengguna
mengunjungi mesin pencari dan memasukkan query, biasanya dengan
memasukkan kata kunci, mesin mencari indeks dan memberikan daftar halaman
web yang paling sesuai dengan kriterianya.
Sumber :
http://muhammadyusuf-gunadarma.blogspot.com/2013/04/apa-itu-web-crawler.html
EmoticonEmoticon