پیج رنک (PageRank) روش گوگل برای اندازه گیری اهمیت صفحات است. در پروسه رتبه دادن به صفحات، تمام سیگنال های درون صفحه نظیر عنوان صفحه، تعدادتکرار کلمه در صفحه و محاسبه می شوند. در بخشی از این پروسه گوگل از پیج رنک برای تنظیم نتایج جست و جو استفاده می کند.
لذا سئو سایت هایی که مهم تر هستند به رده های بالاتر می آیند. نحوه ی رتبه بندی در گوگل ممکن است به این شرح باشد:
تئوری گوگل اینگونه بیان می کند که وقتی صفحه A به صفحه B لینک می دهد، بر این که از دیدگاه صفحه A ، صفحه B یک صفحه مهم است. پیج رنکهمچنین اهمیت لینک هایی را که به صفحه شده است، لحاظ می کند. اگر صفحه هایی که اهمیت بالایی دارند، به صفحه لینک بدهند؛ آنگاه لینک های آن صفحه به صفحات دیگر هم، اهمیت بیشتری می یابند. باید گفته شود که متن لینک به پیج رنک ارتباطی ندارد.
آن ابتدا که گوگل، هنوز یک پروژه دانشگاهی بود، طراحان آن فرمول اصلی خود در محاسبه پیج رنک را منتشر کردند. البته امکان دارد که آن ها دیگر دقیقا از خود آن فرمول استفاده نکنند و آن را توسعه داده باشند، اما با این حال هنوز هم به اندازه کافی دقیق به نظر می رسد.
((PR(A) = (1d) + d(PR(t1)/Ct1) + … + PR(tn)/ctn
برای محاسبه پیج رنک هر صفحه نیاز به دانستن پیج رنک تمام صفحاتی است که به آن لینک داده اند. در مثال زیر نحوه محاسبه پیج رنک، برای تنها چهار صفحه، بررسی می شود. صفحات C ، B ، A و D به صورت نشان داده شده در شکل زیر به یکدیگر لینک داده اند:

در ابتدا چون پیج رنک هیچ کدام از صفحات معلوم نیست، همه ی آنها برابر 1 فرض می شوند:

با قرار دادن 0.85=d ، پیج رنک چهار صفحه محاسبه می شود:
PR (A) =10.85+0.85{PR(C)/1} = 0.15+0.85{1/1} =1
PR (B) =0.575, PR (C) =2.275, PR (D) =0.15
شکل زیر پیج رنک های جدید را نشان می دهد:

این محاسبات نشان می دهد که صفحه C اهمیت بیشتری دارد. چون این محاسبات با در نظر گرفتن پیج رنک یکسان برای همه صفحات شروع شده است، چند بار دیگر هم محاسبات تکرار می شود تا پیج رنک واقعی صفحات محاسبه شود. در تکرار دوم پیج رنک ها به صورت زیر خواهند بود:
PR (A) = 2.58375, PR (B) = 0.575
PR(C) = 1.19125, PR (D) = 0.15
حال محاسبات، آن قدر تکرار می شود تا این که تغییرات در پیج رنک، ناچیز گردد. بعد از ۲۰ تکرار، پیج رنک ها به مقادیر زیر می رسند:
PR (A) = 1.4901259564, PR (B) = 0.7832552713
PR(C) = 1.5766187723, PR (D) = 0.15
و به این ترتیب پیج رنک تمام صفحات به دست می آید.
همان طور که صفحه C باعث تقویت پیج رنک صفحه A می گردد، پیج رنک جدید صفحه A هم باعث تقویت (PR ( C می گردد. این فیدبک موجود در محاسبه پیج رنک، در کارکرد مناسب آن بسیار مؤثر است.
برای این کار می توان نوار نوار ابزار مخصوص گوگل را نصب کرد. پس از نصب با مراجعه به هر صفحه، پیج رنک آن که عددی بین صفر تا ده است، در نوار ابزار نشان داده می شود.
نوار ابزار گوگل در بیان پیج رنک خیلی دقیق نیست و پیج رنک واقعی مورد استفاده در گوگل را در لحظه فعلی نشان نمی دهد و ممکن است عدد نشان داده شده برای مدتی قبل باشد. نوار ابزار تنها جایگزینی از پیج رنک واقعی را نشان می دهد. در حالی که پیج رنک خطی است، گوگل از یک گراف غیر خطی برای نشان دادن آن استفاده کرده است. لذا در نوار ابزار تغییر از ۲ به ۳ نیاز به افزایش کمتری دارد نسبت به حالتی که تغییر از ۳ به ۴ انجام می شود.
پیج رنک موضوع بسیار پیچیده ای است که غالبا اشتباه فهمیده می شود. اگر فرمول آن همان است که گفته شد، حتما موتورهای جست و جوی دیگر نیز می توانند از این فرمول استفاده کنند؛ اما چرا آنها نتایج دقیقی چون گوگل ارایه نمی دهند؟ این جاست که باید کمی تامل کرد. در حال حاضر اطلاعات کافی در اختیار نیست تا از همه چیز اطمینان صد در صد حاصل شود.
گوگل نیز تنها جایگزینی از پیج رنک واقعی را در نوار ابزار خود نشان می دهد. پیج رنک واقعی را گوگل در بازه های زمانی کمتری محاسبه کرده و در نتایج خود از آن بهره می گیرد. به هر حال پیج رنک تأثیرش را در پروسه رتبه بندی دارد یا اگر هم ندارد همه مدیران سایت ها را به خود مشغول کرده است!
پیج رنک بر لینک ها استوار است. بنابراین باید بازی با لینک را یاد بگیرید. در جای جای این مطالب به روش درست کاربرد لینک اشاره شده است. همه ی آنها را به کار گیرید اما برای دادن پاسخی ساده به این سوال که ظاهرا دغدغه روزانه همگان است، این گونه عمل
کنید:
پیج رنک (PageRank) و آلکسا رنک (Rank Alexa) بین مدیران سایت های ایرانی اپیدمی شده است. هر جا می روید سخن از آن است. خصوصا برای سایت هایی که درآمد تبلیغاتی برایشان مهم است.
هر چند هر دو تخمین خوبی اند اما اصل داستان نیستند. اگر در سایتی تبلیغ می کنید به جای الکسا رنک اش به میزان تاثیر آن سایت فکر کنید.
همین طور به جای تمرکز بر پیج رنک به گرفتن لینک از ساخت سایت های معتبر حوزه کاری خود، کسب کلیک بیشتر از نتایج جست و جوی گوگل و نگه داشتن بیننده برای مدت زمان بیشتر در سایت فکر کنید.
در این پست قصد داریم درباره ارور Reduce DNS lookups و یا ارور Minimize DNS lookups که هر دو به یک مفهوم اشاره دارد، صبحت کنیم و بررسی کنیم منظور این خطا چیست و اینکه رفع آن چگونه باعث بالا بردن سرعت سایت ما میشود.
نام: Reduce DNS lookups
نوع: محتوا
اولویت: پایین
میزان سختی: متوسط
میانگین امتیاز: 70%

Hostname یا آدرس یک سایت همانند seoraz.com گفته میشود، تمام Hostname ها استعاره از یک IP هستند که به این استعاره alias هم گفته میشود و اگر توجه کرده باشید در تنظیمات DNSها یک نوع رکوردی وجود دارد به نام A، در این نوع رکوردها نام یک سایت (Hostname) را میدهیم تا به یک IP وصل شود.
زمانی که شما یک Hostname را در نوار آدرس مرورگر خود تایپ میکنید مانند seoraz.com سیستم شما به دنبال IP آن میگردد و اگر در خودش نباشد بهوسیله مودم به دنیای بیرون وصل میشود و یک action به نام DNS lookups(جستجوی DNS) ایجاد میکند، ابتدا به سراغ DNS Serverهای ISP محلی (سرویسدهندگان اینترنت) میرود و به دنبال IP یک Hostname که شما تایپ کردید میگردد و اگر درون ISP محلی نباشد به یک DSN Server سطح بالاتر مراجعه میکند همانند ISP های جهانی و حتی اگر پاسخ را در آنها پیدا نکند (که بسیار بعید است) درنهایت به بالاترین مرجع یعنی InterNIC خواهد رسید.
InterNIC پایگاه داده ثبتنام دامنه (Domain Registration Database) وبرترین و بزرگترین DNS Server است . شما میتوانید با مراجعه به آدرس www.internic.net و انتخاب گزینه Whois و سپس واردکردن آدرس یک سایت به جستجو درباره سایت مربوطه و webserver آن بپردازید.
پس به شکل خلاصه DNS lookups یعنی عمل جستجوی IP یک سایت در بین DNS Serverها میباشد. فرآیند DNS lookup تا زمانی که تمام نشود مرورگر نمیتواند فایلهای لازمه برای نمایش سایت را دانلود کند و اصولا این فرآیند زمانی بین 20 تا 120 میلیثانیه به طول میانجامد تا IP یک سایت را پیدا کند.
در این مثال میخواهیم به شما نشان دهیم که چطور یک DNS lookup میتواند بر روی بهینه سازی سرعت سایت تاثیر بگذارد، به همین منظور از یک ابزار آنلاین تست سرعت سایت استفاده میکنیم و ما در اینجا به کمک ابزار webpagetest.org سایت seoraz.com را تست میکنیم. به آدرس ذکر شده رفته و در سربرگ Details به بررسی این موضوع میپردازیم.

طبق عکس، سایت سئوراز درکل از ۳۰ درخواست ساخته شده است که ۳ نوع آن DNS lookup است، نتیجهای که از این تست میتوان گرفت این است که زمان لازم برای پیدا کردن DNSهای موجود در سایت سئوراز حدود 100 میلیثانیه میباشد که این زمان بسیار فوق العاده میباشد و نشان از بهینه سازی سئو سایت صحیح آن است، ولی گاهی ما در پروژههای افزایش سرعت سایت برخوردیم که زمان کل DNS lookup به 2980 رسیده و این یعنی 2.98 ثانیه به زمان کل بارگذاری سایت اضافه میشود. و اگر سعی کنیم میتوانیم این زمان را بهبود دهیم، پس میتوان نتیجه گرفت که DNS lookup میتواند بر سرعت سایت تاثیر مناسبی داشته باشد و بهبود آن باعث بهینه سازی سایت میشود. در پروژهای که اشاره کردیم ما در انتها توانستیم زمان 2980 را به 1201 برسانیم و این نکته بسیار مهم است چرا که در بهبود سازی فقط یک فاکتور دو ثانیه از زمان لود کل وب سایت کاسته شد.
هدف Reduce DNS Lookups هم همین است، میگوید Reduce کنید یعنی کاهش دهید. ترجمه کامل آن میشود زمان جستجوی DNS را کاهش دهید، به عبارت دیگر تعداد دفعات DNS Lookup را کاهش دهید.
کاهش تعداد DNS lookup ساده به نظر میرسد و میتوان با داشتن سیاست های مناسب به این خواسته رسید.
به سادگی شما میتوانید تعداد دامنههای مجزایی که در سند سایت خود آنها را فراخوانی کردهاید را کاهش دهید. مثلا به عکس بالا توجه کنید، ۳ بار درخواست از نوع DNS lookup بوده است چرا که سه دامنه متفاوت در سند سایت میزفا فراخوانی شده است، که اولی طبیعتا خوده سایت یعنی دامنه seoraz.com است، دومی مربوط به سایت cloudflare است و سومی برای گوگل آنالیتیکس میباشد. در ساخت سایت های ایرانی مخصوصا سایتهای با CMS های اماده همانند وردپرس و جوملا ممکن است به خاطر نصب افزونههای مختلف از شرکتهای متفاوت، چنین خطاهایی بسیار باشد، چرا که هر افزونه ممکن است از سایتهای لازمه برای به اجرا در آمدن در سایت شما فایل هایی را در سند HTML سایتتان لود نماید و این یعنی افزایش DNS lookup در طراحی سایت شما. نمونه سایتهای مشهوری که در بسیاری از سایتهای ایرانی وجود دارد توجه نمایید:
بنابراین روش اول که اشاره شد جذف چنین سایتهایی برای Reduce DNS lookups میباشد، روش دوم دانلود فایلهایی است که از یک سایت خارجی در سند ما لود میشود و قرار دادن آن فایل در هاست خود یا CDN سایت ما، که این روش باعث بهبود DNS lookups میشود، همانطور که میدانید برای دیدن سایت میزفا حداقل یک DNS lookups یعنی seoraz.com به ناچار به وجود میاید بنابراین وقتی چنین DNS lookups قطعا وجود دارد میتوان فایلهایی که از دیگر سایتها در سایت ما لود میشود را درون هاست خود قرار دهیم و یا اگر CDN داریم در آنجا قرار دهیم. البته ذخیره چنین فایلهای خارجی از دامنههای دیگر در CDN راه بهتری است چرا که باعث کاهش فشار به سرور اصلی سایت شما میشود.
رکورد Canonical Name به اختصار CNAME نام برده میشود و یکی از رکوردهای نسبتا پرکاربرد DNS است، این نوع رکورد DNS که از یک نام دامنه مستعار (alias) استفاده میکند تا به دامنهای دیگر وصل شود، سعی کنید در فراخوانی آدرسها از CNAME در سایت خود استفاده نکنید. چرا که یک رکورد CNAME اشاره میکند به رکورد A و تازه رکورد A به دنبال DNS میگردد تا ای پی سایت را پیدا کند. پس به حداقل رساندن رکوردهای CNAME در بهبود لود سایت کمک میکند.

در سایت ITPOR به نکات خوبی اشاره شده و خلاصه نکات در ۶ جمله کوتاه اورده شده است:
Defer parsing of JavaScript باعث میشود لود اولیه سایت بهبود یابد و برخی از DNS lookupsها را به تاخیر اندازد.
فعال بودن keep-alive باعث کاهش DNS lookups میشود، زمانی که keep-alive فعال نباشد برای دریافت هر فایل درخواستها به شکل جداگانه ارسال میشود و هر بار برای یک درخواست DNS lookup رخ میدهد، ولی با فعال بودن keep-alive باعث میشود که فقط درخواست DNS lookups برای هر دامنه یک بار رخ دهد و مجموعه درخواستها برای هر دامنه در قالب یک درخواست ارسال میگردد.
تمام موارد مربوط به Make fewer HTTP requests میتواند به رفع خطای Reduce DNS lookups کمک نماید.
تشکر از DNS caching موجود در کامپیوترها که کمک خوبی به افزایش سرعت سایت میکند، چرا که مرورگر دوباره لازم نیست برای پیدا کردن ای پی به DNS Server ها دستوری ارسال کند و از کش لوکال برای پیدا کردن ای پی یک سایت استفاده میکند، البته ذکر این نکته لازم است که وقتی سرور یا هاست یک سایت تغییر کند IP آن سایت هم عوض میشود بنابراین مرورگر شما در حافظهی پنهان یا همان کش DNS خود، از IP قدیمی استفاده میکند و شما نمیتوانید مثل همیشه به سایت مورد نظر متصل شوید.
اگر از مرورگر کروم استفاده می کنید دستور chrome://net-internals/#dns را وارد نمایید تا تمام DNSهایی که در حافظه پنهان خود ذخیره کرده است را مشاهده کنید. برای پاک کردن کش DNS در ویندوز میتوانید با اجرا کردن CMD در حالت Run as administrator دستور ipconfig /flushdns تایپ و اجرا نمایید.

تاکنون تمام سعی ما بر این بوده است که صفحات بیشتری از طراحی سایت (طراحی سایت شرکتی، طراحی سایت فروشگاهی) خود را به بایگانی موتورهای جست و جو وارد کنیم. در این راه هر بار که متوجه می شویم گوگل صفحات بیشتری از سایت را خوانده است، احتمالا از خوشحالی فریاد می زنیم!
یک صفحه بیشتر در بایگانی گوگل درست به معنای یک بخت بیشتر در قرعه کشی است. صبر کنید! بهتر است بگوییم بخت های بیشتر، زیرا آن یک صفحه ممکن است با چندین عبارت مختلف قابل جست و جو باشد!
اما این تنها روی اول سکه است. روی دیگر سکه شاید جالب تر هم باشد! گاهی دوست نداریم موتورهای جست و جو بعضی از صفحات سایت را بخوانند و تصمیم می گیریم آنها را از بعضی از صفحات دور نگه داریم.
دلایل بسیاری برای این کار وجود دارد. به عنوان مثال یک استاد دانشگاه که نمرات دانشجویان را در سایت شخصی خود قرار داده است، ممکن است برای حفظ حریم خصوصی دانشجویان، چنین تصمیمی اتخاذ کند.
یا آدرس برخی مطالب مهم سایت تغییر کرده است و مدیر سایت تمایل ندارد موتور جست و جو آدرس قدیم را همچنان بخواند. مسیر سبد خرید در ساخت سایت می تواند گزینه مناسبی برای این کار باشد.
شد. همچنین صفحه سلب مسوولیت سایت ها نیز که معمولا حاوی کلمات خشک و نامفهوم حقوقی است، گزینه عامی گزینه عامی برای این دوست نداشتن است. رفتار روبوتها و بایگانی کردن صفحات سایت توسط موتور جست و جو را می توان طبق پروتکل هایی پذیرفته شده، کنترل کرد.
این پروتکل ها به صورت زیر می باشند
Robots.txt
XML Sitemap
Robots Meta Tag
Rel=Nofollow
از این چهار پروتکل معرفی شده، گزینه اول و دوم برای کل سایت تعریف می شوند گزینه سوم برای هر صفحه به طور جداگانه و گزینه چهارم نیز برای هر پیوند به صورت تک به تک مشخص می شود. بیشتر موتورهای جست و جو تمایل به پشتیبانی از این پروتکل ها دارند اما هیچ کدام مجبور به رعایت آن ها نیستند.
در واقع پروتکل های یاد شده فقط مواردی را به موتورهای جست و جو توصیه می کنند و رعایت و یا عدم رعایت این توصیه ها به موتورهای جست و جو بستگی دارد. موتور جست و جو به خودی خود فضول است اما اگر مودب باشد برای بها دادن به حریم خصوصی سایت ها این توصیه ها را رعایت می کند.
می توان با یک فایل متنی بسیار ساده میزان دسترسی موتورهای جست و جو به محتوای سایت را کنترل کرد. این فایلrobots.txt نام دارد. موتور جست و جو قبل از محتوای سایت را کنترل کرد. این فایل آن که وارد سایتی شود، ابتدا فایل یاد شده را از سرور درخواست می کند و از تمام محدودیت های پیش روی خود در آن سایت آگاه می گردد.
نبود این فایل در سئو سایت به معنای نبودن هیچ گونه محدودیتی برای تمام اسپایدرها است. موتور جست و جو بعد از آن که تمام فایل ها و مسیرهای ممنوع را دانست، شروع به خواندن مطالب سایت می کند. البته اگر یک اسپایدر مودب باشد، به محدودیت های موجود نیز احترام میگذارد! عده کمی از آنها به طور کامل و صد در صد به محتوای این فایل وفادارند.
تنظیمات نادرست موجود در این فایل می تواند به شدت به موفقیت سایت ضربه بزند بنابراین در آماده ساختن این فایل بسیار دقت کنید.
پروتکل روبوتز تنها دو دستور دارد که به کمک آنها محدودیت های زیر مشخص می شود:
با این دستور روبوتها مشخص می شوند. روبوت (اسپایدر) هر موتور جست و جو نام مشخصی دارد و برای محدود کردن موتور جست و جو کافی است که نام روبوت آن را به همراه این دستور به کار گیریم. کاربرد این دستور به صورت زیر است:
useragent: robot name
به عنوان مثال وقتی که روبوت مورد نظر مربوط به گوگل است خواهیم داشت :
Useragent : Googlebot و برای بینگ: Useragent : Bingbot با هر دستور Useragent تنها می توان یک روبوت را مشخص کرد.
با این دستور مسیرهای ممنوع/مجاز مشخص می شوند و به صورت زیر به کار می روند:
/disallow:/path
/allow:/path
/disallow:/sales
/disallow:/shoppingcard
allow:/site/search/map.php
allow:/iranforums/user
با هر دستور allow/dis تنها می توان یک مسیر را مشخص کرد و کاربرد آن به صورت زیر اشتباه است:
،/shopping/ disallow: /sales/
/allow: /site/search, /map
برای محدود کردن هر روبوت ابتدا آن را مشخص کرده و سپس تمام مسیرهای محدود شده برای آن ذکر می شود:
useragent: Googlebot
/disallow: /test
/disallow: /sales
در مثال زیر روبوت XGET از دسترسی به فولدرها و ۱، ۲ و ۳۳ منع شده است:
useragent: XGET
/diallow: /1
/disallow: /2
/disallow: /33
و با دستور زیر مقدم همه روبوتها در سایت گرامی داشته می شود:
*:useragent
:disallow
کاربرد * به همراه useragent به معنای تمام روبوت هاست. در مثال زیر خیلی ساده به تمام روبوت ها گفته می شود راه را اشتباه آمده اید، دور شوید
*:useragent
/:disallow
کاربرد / به همراه disallow به معنای تمام مسیرهاست، برای نوشتن توضیجا۔ فایل robots.txt از # به صورت زیر استفاده می شود:
*:useragent#
:disallow#
برای حذف تصویری مشخص از نتایج گوگل این گونه عمل کنید:
useragent: Googlebotimage
disallow: /images/picture.jpg
و برای حذف همه تصاویر از نتایج گوگل اینگونه عمل کنید:
useragent: Googlebotlmage
disallow: / Allow
در پروتکل robots.txt به طور استاندارد این دستور وجود ندارد اما با این حال گوگل و بینگ آن را پشتیبانی می کنند کاربرد آن بیشتر در مواردی است که می خواهید همه روبوت ها را از مسیری مشخص دور کنید و تنها به یک یا چند روبوت خاص اجازه دسترسی بدهید. مثال زیر را بررسی نمایید:
*:useragent
Disallow: /forums/rules
Disallow: /site/search
Useragent: Googlebot
Allow: /site/search
Allow: /forums/user
Useragent: Bingbot
Allow: /site/search
Allow: /forums/user
در این مثال همه روبوت ها به جز دو مورد از دسترسی به مسیرهایی مشخص، منع شدهforums / user /اند. توضیح بیشتری در این جا لازم است.
به معنی تمام مسیرهایی است که
forums/user/
در آن موجود است، یعنی مواردی مانند:
/forums/users /
forums/user/124/
/forums/users/messages/
در این مثال دسترسی به نوع خاصی از فایل ها برای گوگل محدود شده است:
Useragent: Googlebot
$Disallow: /*.gif
$Disallow: /*.eps
در تمام مثال های بررسی شده بزرگی و کوچکی مسیرها قاعده را تغییر میدهد. این دستور
*:Useragent
Disallow:/site/map.php
تنها برای فایل / map.php /site مؤثر است و نه برای site/map.php/.معمولا بهتر است این پروتکل را برای هر موتور جست و جو در صفحه راهنمای همانموتور جست و جو بررسی کنید. زیرا ممکن است موارد دیگری علاوه بر موارد اشاره شده را نیز پشتیبانی کند. برخی موارد مورد قبول گوگل در ادامه بررسی شده است.
Useragent: Googlebot
*/Disallow: /private
دستور بالا به معنای منع کردن گوگل از خواندن تمام پوشه هایی است که نام آنها با private شروع می شود
Useragent: Googlebot
این دستور به معنای منع کردن گوگل از بخشهایی است که بلافاصله بعد از نام وب سایت هر چیزی آمده است و بعد از آن علامت سؤال قرار دارد و باز هم بعد از علامت سؤال هر چیز دیگری آمده است. مثال زیر مقصود را روشن می کند:
http://www.mysite.com/harchiz?harchizmasalanprint
محدود کردن دسترسی به تمام آدرس هایی که به xls ختم می شوند:
Useragent: Googlebot
$Disallow: /*.xls
مقابلdisallow نمی توان نام روبوت را قرار داد.
*:Useragent
Disallow: Bingbot
کاربرد توضیحات به صورت زیر اشکالی ندارد اما توصیه می شود توضیحات را در خطوط جداگانه قرار دهید:
Disallow: /cgibin/#comments
شما اگر گالیور بودید و قصد سفر به سایت آدم کوچولوها را داشتید با دیدن دستورات زیر چه می کردید؟
*:Useragent
/:Disallow
Useragent: Gulliver
/:Allow
این فایل در ریشه ساخت سایت قرار می گیرد و نه در جایی دیگر! کاربرد درست و نادرست در دو مثال زیر نشان داده شده است.
کاربرد درست:
http://www.example.com/robots.txt
کاربرد نادرست:
http://www.example.com/mysite/robots.txt
بعد از آن که فایل robots.txt را بر روی سایت خود قرار دادید با بررسی لاگ سرور سایت خود میتوانید متوجه شوید که آیا موتورهای جست و جو به محدودیت هایی که تعریف کرده اید وفادار بوده اند یا خیر.
اگر یک موتور جست و جو به محتوای آن توجه نکرده باشد، می توانید با آنها مکاتبه کرده و علت را جویا شوید و از آنها بخواهید که فایل های مسیر مورد نظر را از بایگانی خود حذف کنند. گوگل و بینگ در ابزار ویژه وب مسترها این قابلیت را در اختیار شما گذارده اند.
بهتر است بدانید که این پروتکل نمی تواند مانع خواندن محتوای سایت شود و تنها توصیه می کند. به عبارت دیگر شما نمی توانید هیچ موتور جست و جوگری را از خواندن سایت منع کنید. آنها همواره همه صفحات سایت را متناسب با قوانین خود، می خوانند و بعد از اعمال قوانین مدنظر صاحبان سایت ها، صفحات ممنوع شده را در نتایج جست و جوی خود نشان نداده و در بایگانی خود نیز قرار نمی دهند.
معمولا اعمال محدودیت ها با تأخیر صورت می پذیرد و اینگونه نیست که موتور جست و جو بلافاصله خود را با محتوای robots.txt هر سایت تطبیق دهد. گوگل هر چند محتوای صفحات محدود شده را نمی خواند اما هنوز هم امکان دارد آدرس آنها را در بایگانی خود نگه دارد. به این دلیل که در جایی دیگر ممکن است به آن آدرس ها لینک داده شده باشد.
حتی اگر طراحی سایت (طراحی سایت شرکتی، طراحی سایت فروشگاهی) شما هیچ گونه محدودیتی ندارد، توصیه می شود یا یک فایل خالی روی سرور قرار دهید یا فایلی به صورت زیر:
* :useragent
:diallow
بودن این فایل خالی یا به صورت ذکر شده و نبودن آن برای موتورهای جست و جو یک معنا دارد: آزادی در دسترسی به همه محتوای سایت. اما وجودrobots.txt می تواند نشانی از حرفه ای بودن سایت باشد و شاید در رتبه بندی سئو سایت هم اثر بگذارد. بهتر است این گونه ادامه دهم: آزادی در پرتو یک قانون بدون محدودیت، بهتر است از آزادی ناشی از بی قانونی!
همواره یک مسیر را ممنوع کنید و نه یک فایل را، گیریم که شما فایل rtg.html را برای گوگل به صورت زیر محدود کرده باشید:
useragent: googlebot
diallow: /project/htmlresources/rtg.html
می دانید که تنها موتورهای جست و جو فایل robots.txt را نمی خوانند. در واقع همه کاربران وب با خواندن این فایل می توانند متوجه شوند که شما چه فایلی را محدود کرده اید و به راحتی می توانند به آن مراجعه کنند (منظوری جز کنجکاوی نیست) در حالی که اگر شما یک پوشه را محدود کرده باشید کاربران چون نام فایل های موجود در آن پوشه را نمی دانند، نمی توانند سر از کار شما در بیاورند یا (سختتر می توانند).
اگر قرار است موتورهای جست و جو هرگز به شاخه خاصی در سایت دسترسی نداشته باشند بهتر است برای آن شاخه، رمز عبور تعریف کنید. برای فرار از پیچیده شدن این بخش خبر خوب برای شما دارم. تنها کافیست قوانین این پروتکل را بیاموزید، بقیه موارد را می توانید در Google Webmaster Tools ارزیابی کنید.
گوگل در این سرویس خود بخشی دارد که می توانید به کمک آن درستی یا نادرستی به کار گیری قوانین این پروتکل را بررسی کنید به آدرس زیر مراجعه کنید:
https://www.google.com/webmasters
با جست و جوی عبارت robots validator می توانید به سایت های بسیاری بیابید که در ارزیابی این فایل به شما کمک خواهند کرد. بررسی فایل robots.txtگوگل و سایت های مهم دیگر نیز خالی از لطف نیست. برای کسب اطلاعات بیشتر در باره روبوت های مختلف و ثبت شده database of agents را در گوگل جست و جو کنیدو یا مستقیما به آدرس های زیر مراجعه نمایید:
http://www.robotstxt.org/db.html
/http://www.user-agents.org
هر سایت تنها می تواند یک فایل robots.txt داشته باشد که در ریشه سایت قرار می گیرد. نکته پایانی اینکه Sitemap سایت خود را (که بلافاصله بعد از این بخش معرفی شده است) همانند مثال زیر می توانید در فایل روبوتز قرار دهید:
Sitemap: http://www.cnn.com/sitemaps/sitemapindex.xml
آیا با این پروتکل می توان دسترسی به صفحه اصلی سایت را هم محدود کرد؟
به کمک این پروتکل (پروتکل XML SITEMAP) صفحاتی از سایت که موتور جست و جو می تواند آنها را بخواند، به وی معرفی می شود. در حالت ساده این فایل که با فرمت xml است، فهرستی از آدرس های صفحات مختلف طراحی سایت (طراحی سایت فروشگاهی، طراحی سایت شرکتی) را در خود دارد.
به همراه آدرس هر صفحه سایت می توان اطلاعات دیگری مانند این که صفحه هر از چندگاهی به روز رسانی می شود و اهمیت آن در مقایسه با سایر صفحات سایت چقدر است را نیز مشخص کرد. معرفی این فایل به موتور جست و جو تداخلی با کار عادی اسپایدر موتور جست و جو ندارد.
به عبارت دیگر شما چه این پروتکل را رعایت کنید و چه رعایت نکنید، اسپایدر موتور جست و جو خواندن صفحات سایت شما را طبق برنامه عادی خود انجام می دهد اما بودن این فایل، کمکی به آن است. باعث بهبود سئو سایت می شود. در استفاده از این پروتکل، همه موتورهای جست و جو خود را با سایت اصلی آن هماهنگ می کنند مثال ساده ای از این پروتکل به صورت زیر است:
<?xml version="1.0" encoding="UTF8?>
<"urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9>
<url>
<<loc>http://example.com/</loc
<lastmod>20120619</lastmod>
<changefreq>daily</changefreq>
<priority>0.8</priority>
<url/>
<urlset/>
این پروتکل باید
این فایل باید به صورت UTF8 ذخیره گردد و باید برای برخی کاراکترها، معادل آن در این نوع کدگذاری استفاده شود. به عنوان مثال به جای & در آدرس باید;amp& قرار دهید موارد دیگر در جدول آمده است:

سایت مپ سایت خود را در ریشه سایت قرار دهید. این سایت مپ برای زیر دامنه های طراحی سایت (طراحی سایت شرکتی، طراحی سایت فروشگاهی) معتبر نیست و هر زیر دامنه باید سایت مپ مخصوص به خود داشته باشد. اگر تعداد آدرس هایی که می خواهید معرفی کنید زیاد است، چند سایت مپ جداگانه بسازید و همه این سایت مپ ها را از طریق سایت مپ مادر به موتور جست و جو معرفی نمایید.
موتور جست و جو ابتدا به سایت مپ مادر مراجعه می کند، سپس از طریق آن به سایت مپ های دیگر سر می زند. هر سایت مپ نباید بیشتر از ۵۰۰۰۰ آدرس داشته باشد و حجم آن نیز نباید بیشتر از ۱۰ مگابایت باشد. نمونه ای از سایت مپ مادر به صورت زیر است:
<?"xml version="1.0" encoding="UTF8?>
<"sitemapindex xmlns "http://www.sitemaps.org/schemas/sitemap/0.9>
<sitemap/>
<sitemap>
<loc>http://www.example.com/sitemap?.xml.gz</loc>
<lastmod>20120601</lastmod>
<sitemap/>
<sitemapindex/>
برای بررسی دقیق و مشاهده حالت های خاصکاربرد این پروتکل به آدرس زیر مراجعه نمایید:
http://www.sitemaps.org/protocol.html
با مراجعه به آدرس فوق با آخرین جزئیات این پروتکل، آشنا می شوید. اغلب سیستم های مدیریت سایت مانند وردپرس، جوملا، دروپال، بیتریکس و … راه حلی برای ساخت سایت مپ استاندارد دارند، تنها کافی است کار با آن را بدانید. البته اگر حوصله ندارید، ارزیابی و حتی ساخت سایت مپ به کمک ابزار موجود در وب خیلی ساده است. می توانید جست و جوی عبارت های زیر را امتحان کنید. حتما ابزار مناسبی خواهید یافت.
xml sitemap validator
یا
xml sitemap generator