Robot Mesin Pencari atau Perayap Web

Sebagian besar pengguna umum atau pengunjung menggunakan mesin pencari yang tersedia berbeda untuk mencari informasi yang mereka butuhkan. Tetapi bagaimana informasi ini disediakan oleh mesin pencari? Dari mana mereka mengumpulkan informasi ini? Pada dasarnya sebagian besar mesin pencari ini memelihara database informasi mereka sendiri. Basis data ini mencakup situs yang tersedia di webworld yang pada akhirnya mempertahankan informasi halaman web detail untuk setiap situs yang tersedia. Pada dasarnya mesin pencari melakukan pekerjaan latar belakang dengan menggunakan robot untuk mengumpulkan informasi dan memelihara database. Mereka membuat katalog informasi yang dikumpulkan dan kemudian menyajikannya kepada publik atau sewaktu-waktu untuk penggunaan pribadi. kunjungi juga blog kami tekunbaca.my.id yang membahas berbagai informasi terupdate.

Robot Mesin Pencari atau Perayap Web

Pada artikel ini kita akan membahas tentang entitas yang berkeliaran di lingkungan internet global atau kita akan tentang perayap web yang bergerak di netspace. Kami akan belajar

· Tentang apa semua ini dan tujuan apa yang mereka layani?
· Pro dan kontra menggunakan entitas ini.
· Bagaimana kita bisa menjaga halaman kita dari crawler?
· Perbedaan antara crawler dan robot umum.

Pada bagian berikut ini kami akan membagi seluruh pekerjaan penelitian di bawah dua bagian berikut:

I. Spider Mesin Pencari: Robots.txt.
II Robot Mesin Pencari: Meta-tag Dijelaskan.

I. Spider Mesin Pencari: Robots.txt

Apa itu file robots.txt?

Robot web adalah program atau perangkat lunak mesin pencari yang mengunjungi situs secara teratur dan otomatis dan merangkak melalui struktur hypertext web dengan mengambil dokumen, dan secara rekursif mengambil semua dokumen yang direferensikan. Terkadang pemilik situs tidak ingin semua halaman situsnya dirayapi oleh robot web. Untuk alasan ini mereka dapat mengecualikan beberapa halaman mereka dirayapi oleh robot dengan menggunakan beberapa agen standar. Jadi sebagian besar robot mematuhi ‘Standar Pengecualian Robot’, seperangkat kendala untuk membatasi perilaku robot.
‘Standar Pengecualian Robot’ adalah protokol yang digunakan oleh administrator situs untuk mengontrol pergerakan robot. Ketika robot mesin pencari datang ke situs itu akan mencari file bernama robots.txt di domain root situs (http://www.anydomain.com/robots.txt). Ini adalah file teks biasa yang mengimplementasikan ‘Protokol Pengecualian Robot’ dengan mengizinkan atau melarang file tertentu dalam direktori file. Administrator situs dapat melarang akses ke direktori cgi, sementara atau pribadi dengan menentukan nama agen pengguna robot.

Format file robot.txt sangat sederhana. Ini terdiri dari dua bidang: agen pengguna dan satu atau lebih bidang larangan.

Apa itu User-agent?

Ini adalah nama teknis untuk konsep pemrograman di lingkungan jaringan di seluruh dunia dan digunakan untuk menyebut robot mesin pencari tertentu dalam file robots.txt.
Sebagai contoh :

Agen-pengguna: googlebot

Kami juga dapat menggunakan karakter wildcard “*” untuk menentukan semua robot:
Agen pengguna: *

Berarti semua robot diizinkan datang berkunjung.

Apa itu Disallow?
Dalam file robot.txt bidang kedua dikenal sebagai disallow: Baris-baris ini memandu robot, ke mana file harus dirayapi atau yang seharusnya tidak. Misalnya untuk mencegah mengunduh email.htm sintaksnya adalah:

Disallow: email.htm

Cegah perayapan melalui direktori dengan sintaksisnya:

Larang: / cgi-bin /

Ruang Putih dan Komentar:

Menggunakan # di awal baris apa pun di file robots.txt akan dianggap sebagai komentar saja dan menggunakan # di awal robots.txt seperti contoh berikut ini yang mengharuskan kami merayapi url mana yang akan dirayapi.

# robots.txt untuk www.anydomain.com

Detail Entri untuk robots.txt:

1) Agen-pengguna: *
Melarang:

Tanda bintang (*) di bidang Agen-pengguna menunjukkan “semua robot” diundang. Karena tidak ada yang dilarang, maka semua robot bebas dirayapi.

2) Agen-pengguna: *
Larang: / cgi-bin /
Larang: / temp /
Larang: / pribadi /

Semua robot diizinkan untuk merayapi semua file kecuali file cgi-bin, temp dan pribadi.

3) User-agent: dangerbot
Larang: /
Dangerbot tidak diizinkan menjelajah melalui direktori mana pun. “/” Singkatan dari semua direktori.

4) User-agent: dangerbot
Larang: /

Agen pengguna: *
Larang: / temp /

Baris kosong menunjukkan dimulainya catatan agen pengguna baru. Kecuali dangerbot, semua bot lain diizinkan untuk merayapi semua direktori kecuali direktori “temp”.

5) User-agent: dangerbot
Disallow: /links/listing.html

Agen pengguna: *
Disallow: /email.html/

Dangerbot tidak diperbolehkan untuk halaman daftar direktori links jika tidak semua robot diizinkan untuk semua direktori kecuali mengunduh halaman email.html.

6) User-agent: abcbot
Larang: /*.gif$

Untuk menghapus semua file dari jenis file tertentu (mis. Gif), kami akan menggunakan entri robots.txt di atas.

7) User-agent: abcbot
Larang: / *?

Untuk membatasi perayap web dari merayapi laman dinamis, kami akan menggunakan entri robots.txt di atas.

Catatan: Larang bidang dapat berisi “*” untuk mengikuti serangkaian karakter apa pun dan dapat diakhiri dengan “$” untuk menunjukkan akhir nama.

Misalnya: Di dalam file gambar untuk mengecualikan semua file gif tetapi memungkinkan orang lain dari Google merangkak
Agen-pengguna: Googlebot-Image
Larang: /*.gif$

Kerugian robots.txt:

Masalah dengan bidang Disallow:

Larang: / css / / cgi-bin / / images /
Laba-laba yang berbeda akan membaca bidang di atas dengan cara yang berbeda. Beberapa akan mengabaikan spasi dan akan membaca / css // cgi-bin // images / dan hanya dapat mempertimbangkan / images / atau / css / mengabaikan yang lainnya.

Sintaks yang benar harus:
Larang: / css /
Larang: / cgi-bin /
Disallow: / images /

Daftar semua file:

Smemisahkan setiap nama file dalam direktori adalah kesalahan yang paling sering digunakan
Disallow: /ab/cdef.html
Disallow: /ab/ghij.html
Disallow: /ab/klmn.html
Disallow: /op/qrst.html
Disallow: /op/uvwx.html

Porsi di atas dapat ditulis sebagai:
Larang: / ab /
Larang: / op /

Sebuah trailing slash berarti banyak yang merupakan direktori adalah batasan.

Kapitalisasi:

AGEN PENGGUNA: REDBOT
MELARANG:

Meskipun bidang tidak peka huruf besar kecil tetapi data seperti direktori, nama file peka huruf besar kecil.

Sintaks yang bertentangan:

Agen pengguna: *
Larang: /
#
Agen-pengguna: Redbot
Melarang:

Apa yang akan terjadi ? Redbot diizinkan untuk merayapi semuanya tetapi akan izin ini mengesampingkan bidang larangan atau melarang akan mengesampingkan izin izin.

II Robot Mesin Pencari: Meta-tag Dijelaskan:

Apa itu tag meta robot?

Selain itu mesin pencari robots.txt juga memiliki alat lain untuk menjelajah halaman web. Ini adalah tag META yang memberi tahu web spider untuk mengindeks halaman dan mengikuti tautan di atasnya, yang mungkin lebih bermanfaat dalam beberapa kasus, karena ini dapat digunakan berdasarkan halaman demi halaman. Juga bermanfaat jika Anda tidak memiliki izin yang diperlukan untuk mengakses direktori root server untuk mengontrol file robots.txt.
Kami biasa menempatkan tag ini di bagian tajuk html.

Format tag Meta Robot:

Dalam dokumen HTML itu ditempatkan di bagian KEPALA.
html
kepala
META NAME = ”robot” KONTEN = ”indeks, ikuti”
META NAME = “description” CONTENT = “Selamat datang di …….”
judul …………… judul
kepala
tubuh

Opsi Meta Tag Robot:

Ada empat opsi yang dapat digunakan di bagian ISI dari Meta Robots. Ini adalah indeks, noindex, follow, nofollow.

Tag ini memungkinkan robot mesin pencari untuk mengindeks halaman tertentu dan dapat mengikuti semua tautan yang berada di sana. Jika admin situs tidak ingin halaman mana pun diindeks atau tautan apa pun diikuti maka mereka dapat mengganti “indeks, ikuti” dengan “noindex, nofollow”.
Menurut persyaratan, admin situs dapat menggunakan robot dalam opsi berbeda berikut:

META NAME = ”robot” CONTENT = ”indeks, ikuti”> Indeks halaman ini, ikuti tautan dari halaman ini.
META NAME = “robot” KONTEN = “noindex, ikuti”> Jangan indeks halaman ini tetapi ikuti tautan dari halaman ini.
META NAME = ”robot” KONTEN = ”indeks, nofollow”> Indeks halaman ini tetapi jangan ikuti tautan dari halaman ini
META NAME = “robot” KONTEN = “noindex, nofollow”> Jangan indeks halaman ini, jangan ikuti tautan dari halaman ini.

Leave a Comment

Your email address will not be published.