Home » » Peran Robots.txt dalam Optimasi SEO

Peran Robots.txt dalam Optimasi SEO

Semua search engine sebelum memasukkan blog kita pada hasil SERP pasti akan mengirimkan spider bot untuk mengcrawl dan memasukkan hasil analisanya pada database index. Saat pertama kali spider bot mengunjungi blog kita maka tempat yang pertama kali didatangi terlebih dulu adalah Robot Exclusion Standard / Robots Exclusion Protocol. Apakah Robot Exclusion Standard / Robots Exclusion Protocol itu ? Dan mengapa ini yang menjadi pertama kali dikunjungi ? Berikut pembahasannya..

Pengertian Robots.txt
Robot Exclusion Standard / Robots Exclusion Protocol sering disebut juga dengan Robots.txt, sebuah file robots berformat .txt yang terdapat pada suatu situs untuk memandu spider bot, mana saja bagian situs yang boleh dicrawl dan dimasukkan ke dalam daftar index serta yang tidak boleh dicrawl.
Letak Upload File Robots.txt
Tempat yang tepat untuk mengupload file robots.txt adalah pada halaman situs tersebut misalnya :

    http://namadomain.com/robots.txt

Kita tidak diperbolehkan untuk mengupload pada directory / path dalam situs . Nama file juga telah ditetapkan memakai nama robots, tidak boleh diubah dengan nama lain karena dalam program kerja spider bot nama file ini telah terprogram dengan nama robots. Sehinggga ketika spider bot merayapi sebuah situs maka tujuan pertamanya adalah file robots.txt yang merupakan file pemandu baginya. Bila kita tetap ngotot mempergunakan nama lainnya, spider bot tidak akan pernah sampai dan tidak mungkin pula menjalankan perintah pada file tersebut.
Karena sebuah subdomain merupakan situs yang berdiri sendiri dan terpisah dari domain utamanya maka sebuah situs yang menggunakan subdomain juga harus memiliki file robots.txt sendiri. Letak upload file-nya pun juga sama yaitu dalam satu folder yang sama dengan situs.
Membaca Robots.txt
Spider bot yang telah sampai di halaman robots.txt akan membaca petunjuk apa yang ada dalam robots.txt. Untuk memahami isi robots.txt, mari kita ambil contoh dari file robots.txt pada blogspot dan wordpress.com. Berikut kira – kira isi dari robots.txt pada blogspot dan wordpress.com :
Blogspot
Isi file robots.txt pada blogspot

  •     User-agent: Mediapartners-Google
  •     Disallow:
  •     User-agent: *
  •     Disallow: /search
  •     Allow: /

Pada robots.txt di atas, spider bot tidak diperbolehkan untuk menelusuri isi dalam directory search. Jadi semua file yang ada dalam directory ini tidak akan terindex oleh spider bot. Contoh url search pada blogspot adalah halaman label. Baris selanjutnya adalah sebuah perintah untuk mengindex seluruh halaman lainnya ( selain directory search ) di dalam blogspot. Ini ditandai dengan tanda slash di depan allow.
Wordpress.com
Isi file robots.txt pada wordpress.com

  •     User-agent: IRLbot
  •     Crawl-delay: 3600
  •     User-agent: *
  •     Disallow: /next/
  •     # har har
  •     User-agent: *
  •     Disallow: /activate/
  •     User-agent: *
  •     Disallow: /signup/
  •     User-agent: *
  •     Disallow: /related-tags.php
  •     # MT refugees
  •     User-agent: *
  •     Disallow: /cgi-bin/
  •     User-agent: *
  •     Disallow:

Pada robots.txt di atas, spider bot tidak diizinkan untuk mengcrawl dan mengindex semua file yang ada dalam directory ->> next, activate, signup, cgi-bin serta file related-tags.php
Perintah untuk memperbolehkan spider bot mengcrawl dan mengindex halaman selain yang tidak diperbolehkan di atas adalah tidak adanya tanda slash di depan perintah disallow. Perintah ini memiliki arti yang sama dengan allow: / pada blogspot.
Performa Robots.txt Pada Webmaster Tool
Hasil dari kinerja spider bot saat melakukan proses crawling pada blog kita akan tercatat di Webmaster Tool. Dari hal ini kita bisa meninjau apakah file robots.txt kita benar – benar bekerja atau malah error dan menghambat kerja spider bot. Berikut ulasannya :
Google Webmaster Tool
Untuk melihat sebaik apa spider bot membaca dan mengikuti perintah dalam robots.txt kita harus login lebih dulu di Google Webmaster Tool. Ketika telah sampai di Dashboard blog pada bagian Crawl Errors ada link yang tertuliskan Restricted by robots.txt maka klik link ini. Selanjutnya halaman baru akan muncul dan pada halaman ini kita akan diperlihatkan daftar url dalam blog yang dibatasi aksesnya. Bagi sahabat blogger yang menggunakan blogspot url tersebut semuanya berasal dari directory search seperti yang diperlihatkan pada gambar di bawah.

Peran Robots.txt dalam Optimasi SEO | Webmaster Tool
Bing Webmaster tool
Performa robots.txt juga bisa kita amati melalui Bing Webmaster Tool. Untuk mengetahuinya, masuk ke Dashboard blog di Bing Webmaster Tool kemudian pilih menu Crawl dan klik Crawl Details, selanjutnya klik link Excluded by robots.txt. Dari langkah ini kita akan diperlihatkan url yang tidak diijinkan untuk di akses oleh spider bot Bing.
Peran Robots.txt dalam Optimasi SEO | Webmaster Tool
Sahabat blogger dapat mengecek di ke-2 tool ini bila hasilnya tidak sesuai, misal ada halaman post yang masuk ke daftar Restricted by robots.txt maupun Excluded by robots.txt maka pasti terjadi kesalahan setting pada robots.txt, segera cek dan perbaiki agar kita tidak rugi karena url yang ada dalam list ini adalah url yang tidak akan terindex dalam SERP search engine.


Manfaat Robots.txt Dalam SEO
Seperti yang telah diuraikan di atas Robots.txt memiliki peran penting dalam asebilitas sebuah situs. Ada bagian yang bisa di bagi untuk umum dan ada bagian yang sangat privat dan tidak untuk dibagi kepada pengguna internet lainnya yang melakukan pencarian di search engine. Keputusan untuk tidak mempublikasikan suatu file tertentu pada sebuah situs sangatlah bermanfaat seperti halaman khusus login cms blog maupun halaman login ke cpanel hosting tidak perlu untuk di index, kalau bisa halaman ini jangan sampai diketahui oleh orang lain agar blog lebih aman dari tindakan yang merugikan. Manfaat lainnya, untuk melindungi berbagai macam script seperti script cms dan widget.
Dalam hal optimasi SEO, kemampuan Robots.txt yang dapat mengarahkan spider bot mengcrawling halaman yang ditargetkan bisa kita manfaatkan untuk mengarahkan spider bot pada halaman penting seperti halaman konten agar konten tersebut cepat terindex oleh search engine.
Saat spider bot memutuskan untuk mengcrawl situs, situs akan kehilangan bandwidth dalam jumlah yang tidak sedikit. Bila beberapa directory tertentu misal pada directory search kita batasi aksesnya maka ini akan menghemat bandwidth dan kegagalan spider bot dalam mengcrawl blog kita karena akses situs yang kurang baik akan teratasi sehingga spider bot bisa dengan leluasa merayapi seluruh isi konten sampai tuntas.
Di lain sisi bila halaman index yang di dapat search engine pada sebuah situs dinilai sangat berkualitas maka situs tersebut akan memiliki peluang besar untuk masuk halaman pertama. Hal ini akan berbeda jauh hasilnya dibandingkan dengan situs yang memiliki banyak halaman index namun dengan konten yang kurang berkualitas dan cenderung hanya menampilkan banyak link didalamnya contonya situs AGC.
Comments
5 Comments

5 comments:

  1. bisa nanya ttg robot txt fetch di webmaster tools kah?

    web saya telah didaftar setidaknya 3 minggu yg lalu di webmaster tool, dan hasil dari crawl error : DNS & server connectivity nya ok. namun utk robot.txt fetch nya menunjukkan data bahwa robot.txt tdk dpt diakses (inaccessible).

    Saya bingung bgmn cara menyelesaikannya. tolong sarannya ya.

    terimakasih.

    Erbina

    ReplyDelete
  2. mungkin ada artikel yang kmu hapus dan URL tersebut masih nempel di webmastertools jadi ketika ada orang yang mengakses artikel yang telah kmu hapus mereka tidak dapat melihat artikel itu lagi, makanya terjadi eror pda saat robot mengcrawl

    ReplyDelete
  3. Nice Post..
    Yang diatas setting untuk wordpress..

    ReplyDelete
  4. Makasih gan sharing ilmunya. saya udah edit sesuai artikel agan, mudah-mudahan ada progressss

    ReplyDelete
  5. asoy website saya sukses editing ne mas. makasih yakkk.

    ReplyDelete