فایل robots.txt یک فایل متنی است که توسط آن امکان تعریف برخی قوانین برای ربات های موتور جستجو وجود دارد. قوانینی مانند محدود کردن رباتموتور جستجو برای دسترسی به فایل، فولدر، منابع مانند عکس و CSS و js، صفحه و کل سایت وجود دارد. همچنین همان طور که در بخش sitemap توضیح داده شد، آدرس نقشه سایت را نیز می توانید توسط فایل robots.txt به موتورهای جستجو اعلام نمایید. فایل robots.txt باید به صورت 8-UTF ذخیره شده باشد.
قوانینی که در ادامه نوشته شده در مورد موتور جستجو گوگل صدق می کند.
جهت نوشتن robots.txt امکان استفاده از چهار المان sitemap ،allow ،disallow ،user-agent وجود دارد.
نشان دهنده نوع خزنده موتور جستجو است و وب سرور توسط آن می تواند نوع خزنده وب را شناساییکند. نام تعدادی از خزنده های وب در آدرسwww.robotstxt.org/db.html موجود است.
روش نوشتن user-agent در robots.txt به صورت زیر است:
[نام ربات] : user- agent
مانند:
*:user-agent
user-agent: Google-bot
گوگل دارای user-agent های مختلفی است. به عنوان نمونه Googlebot نام user-agent موتور جستجوی گوگل و Googlebot-Image نام user-agent موتور جستجوی عکس گوگل هستند.
با استفاده از Disallow می توانید صفحه یا مسیر با پسوندی را که می خواهید بر روی خزنده موتور جستجو مسدود کنید را مشخص نمایید.
[مسیر مورد نظر ] :Disallow
/Disallow: /articles
Disallow: /products/product1.html
Disallow: /*.png
با استفاده از Allow می توانید برای یک صفحه یا مسیر از درون مسیری که بر روی خزنده موتور <جستجو مسدود کرده بودید استثنا قائل شوید و به موتور جستجو اجازه بدهید آن را بخواند و ایندکس کند.
[مسیر مورد نظر ] :Allow
/Allow: /articles/seo
Allow: /products/product2.html
Allow: /*.CSS
با استفاده از sitemap می توانید مسیر نقشه های طراحی سایت (طراحی سیات فر.شگاهی، طراحی سایت شرکتی) رای موتور جستجو را مشخص نمایید. همه موتورهای جستجو از sitemap در فایل robots.txtپشتیبانی نمی کنند. البته علاوه بر گوگل،موتورهای جستجوی بزرگ مانند Bing و Yahoo و Ask نیز از sitemap در فایل robots.txtپشتیبانی می کنند.
[مسیر نقشه سایت ] :sitemap
sitemap: https://www.example.com/sitemap.xml
جهت نوشتن robots.txt از دستورات متعددی می توان استفاده نمود که در جدول زیر تعدادی از آنها به عنوان نمونه نمایش داده شده اند.
توضیح | نمونه |
---|---|
همه سایت | /:Disallow |
مانند / است و به معنی همه سایت است. | /*:Disallow |
یک دایرکتوری به همراه همه محتویاتش | /Disallow: /sample-directory |
هر صفحه ای با نام file.html که بعد از یک slash باشد. | Disallow: /file.html |
یک عکس خاص برای ربات جستجوی عکس گوگل مسدود شده | User-agent: Googlebot-Image Disallow: /images/dogs.jpg |
همه سایت بر روی ربات جستجوی عکس گوگل محدود شده | User-agent: Googlebot-Image /:Disallow |
همه مسیرهایی که در انتهای آنها gif. باشد | $Disallow: /*.gif |
هر دایرکتوری که ابتدای نام آن private باشد به همراه محتویاتش | /*Disallow: /private |
هر آدرسی که در آن علامت سوال وجود داشته باشد. | ?*/:Disallow |
هر آدرسی که با علامت سوال پایان یابد. | $?*/:Disallow |
فایل robots.txt باید در ریشه سایت آپلود شود و به عنوان نمونه با آدرس زیر در دسترس باشد.
http://www.example.com/robots.txt
بیشتر موتورهای جستجو فایل robots.txt را با یکی از پروتکل های http یا https می توانند بخوانند ولی گوگل از پروتکل ftp نیز پشتیبانی می کند. بنابراین برای یک صفحه با پروتکل ftp نیز امکان داشتن فایلrobots.txt وجود دارد به شرطی که برای دسترسی به آن به نام کاربری و کلمه عبور ftp نیازی نباشد.