ساختار URL سایت باید تا جایی که امکان دارد ساده و قابل درک برای کاربر انسان باشد. در URL از ID یا اعداد استفاده کنید. به عنوان نمونه یک کاربر با دیدن آدرس زیر نمی تواند کلمات به جای متوجه شود که صفحه مربوطه در مورد چه موضوعی است :
http://www.example.com/article.aspx?id=1392
ولی با دیدن آدرس زیر می تواند متوجه شود که صفحه در مورد بهینه سازی برای موتور جستجو است:
http://www.example.com/seo.html
از قرار دادن کلمات پی در پی و بدون خط تیره خودداری کنید. به عنوان نمونه توصیه می شود که از آدرس زیر استفاده نکنید :
http://www.example.com/seobook.html
تلاش کنید از خط تیره برای تفکیک کلمات استفاده کنید و از underline یا derscore منظور تفکیک کلمات استفاده نکنید. آدرس زیر یک نمونه صحیح است:
http://www.example.com/seo-book.html
استفاده از URL های خیلی طولانی و یا استفاده بیش از حد از پارامتر در URL ممکن است که مشکلاتی برای خزنده موتورهای جستجو ایجاد کند که در نتیجه آن ممکن است همه صفحات ایندکس نشوند.
با استفاده از robots . txt دسترسی ربات های موتور جستجو را به URL هایی که به صورت داینامیک به وجود می آیند محدود کنید. به عنوان نمونه آدرس هایی که با جستجوی کاربران در سایت، استفاده از فیلترها و یا مرتب کردن کالاها در وب سایت به وجود می آیند نیازی به ایندکس شدن ندارند. علت آن این است که محتوای آنها با صفحات اصلی سایت که فیلتری در آنها اعمال نشده است، تکراری است.
در دسترس بودن یک صفحه با بیش از یک URL در سیستم های مدیریت محتوا یک امر طبیعی است.جهت جلوگیری از ایندکس شدن و همچنین شناخته شدن این گونه صفحات به عنوان صفحات تکراری توسط موتور جستجوی گوگل باید از canonical استفاده کرد. به عنوان نمونه اگر یک صفحه با سه آدرس در دسترس بود، شما باید یکی از آدرس ها را به عنوان canonical یا آدرس اصلی انتخاب کنید و آن را طبق نمونه زیر در کد HTML هر سه صفحه در قسمت<head> قرار دهید. در این صورت اگر خزنده گوگل وارد هر کدام از سه صفحه شود، متوجه می شود که آدرس اصلی کدام URL است و باید فقط یک URL که همان آدرس canonical است را ایندکس کند.
<"/link rel="canonical" href="https://www.weby00Z.Com/google-adwords>
مواردی که ممکن است منجر به در دسترس بودن یک صفحه با بیش از یک URL شوند عبارتند از:
وجود شناسه session کاربر، پارامتر جستجو یا فیلتر در URL :
https://webyooz.com/books/seo?gclid=ABCD
https://www.webyooz.com/products?category=seo&lang=per
https://www.webyooz.com/books/seo/nima-jafari.html
سیستم بلاگ به صورت خودکار دو آدرس را برای هر مطلب تولید کند :
https://www.webyooz.com/books/seo/nima-jafari.html
https://www.webyo0z.com/books/it/web-design/seo.html
سرور به نحوی تنظیم شده باشد که صفحات با www و بدون www در دسترس باشد :
https://www.webyooz.com/books/seo/nima-jafari.html
https://webyooz.com/books/seo/nima-jafari.html
سرور به نحوی تنظیم شده باشد که صفحات با https و http در دسترس باشد :
http://www.webyooz.com/books/seo/nima-jafari.html
https://www.webyooz.com/books/seo/nima-jafari.html
گوگل وبمستران را تشویق به استفاده از آدرسی canonical می کند ولی استفاده از آن اجباری نیست. در صورتیکه آدرس canonical در <head> مشخص نشده باشد، گوگل تصمیم خواهد گرفت که کدام آدرس را باید به عنوان آدرس اصلی در نظر بگیرد.
با تنظیم گوگل سرچ کنسول برای گوگل مشخص نمایید که آدرس با www مد نظر شما است و یا آدرس بدون www. پس از انجام این تنظیم، در صورتیکه آدرس های ساخت سایت در گذشته هم با www و هم بدون www در گوگل ایندکس شده باشند، همه آدرس ها به آن نسخه ای که مد نظر شما است تبدیل خواهند شد.
“nofollow” به دو صورت مورد استفاده قرار می گیرد. در صورتیکه “nofollow” به عنوان ما robots در <head> یک صفحه استفاده شود، خزنده موتور جستجو هیچ کدام از لینک های داخل و خارجی درون آن صفحه را دنبال نخواهد کرد.
</"meta name="robots" content="nofollow>
حال اگر بخواهیم که خزنده موتور جستجو فقط لینک یا لینک های مشخصی را دنبال نکند باید از” rel= ” nofollow در تگ <a> در HTML استفاده کنید.
<a href="signin.php" rel="nofollow"> sign in</a>
در صورت استفاده از ” rel= ” nofollow برای یک لینک، PageRank گوگل بین صفحه مبدا و لینک مقصد منتقل نمی شود. قبل از اینکه “rel = ” nofollowابداع شود، جهت جلوگیری از انتقال PageRank و مانع شدن از دنبال شدن یک لینک توسط خزنده موتور جستجو، از تکنیک هایی مان ریدایرکت کردن استفاده می کردند و آن آدرس واسط که عملیات ریدایرکت را انجام می داد را توسط robots . txt بر روی خزنده موتور جستجو مسدود می کردند.
بسیاری از سایت ها مانند سایت هایی که اخبار و مقالات را منتشر می کنند و یا فروش کالا دارند از صفحه بندی استفاده می کنند. معمولا گوگل صفحه بندی را متوجه می شود و می تواند همه صفحات محتوای صفحه بندی شده را بخواند و ایندکس کند. ولی اگر از دستورالعمل های گوگل وبمستر در مورد صفحه بندی استفاده کنید، خزنده گوگل راحتر می تواند از ساختار سایت مطلع شود و آن را ایندکس کند.
استفاده از ” rel= ” next و ” rel= ” prev در HTML برای آدرس های صفحات، یک سیگنال مهم برای گوگل در تشخیص صفحه بندی است. فرض کنید سه صفحه با URL های زیر در سایت وجود دارد :
https://www.webyooz.com/article-page1.html
https://www.webyooz.com/article-page2.html
https://www.webyooz.com/article-page3.html
<"link rel="next" href="http://www.webyooz.com/article-pape2.html>
<"link rel="prev" href="http://www.webyooz.com/article-pape1.html>
<"link rel="next" href="http://www.webyooz.com/article-pape3.html>
<"link rel="prev" href="http://www.webyooz.com/article-pape2.html>
در صورتیکه پارامترهایی مانند session ID در URL وجود داشته باشند که باعث تغییر در محتوا نشود، و البته همان طور که در بخش آن پارامترها باید در ” rel = “prev و “rel = ” next باشند و البته همانطور که در بخش “استفاده از آدرس canonical” گفته شد، این گونه پارامترها در آدرس canonical نباید وجود داشته باشند. به عنوان نمونه اگر آدرس صفحه ۲ از یک مقاله به صورت زیر باشد :
http://example.com/article?story=abc&page=2&sessionid=123
آنگاه در <head> تگ های زیر را خواهیم داشت :
"link rel="canonical">
</"href="http://example.com/article?story=abc&page=2&page=2
"link rel="prev>
</"href="http://example.com/article?story=abc&page=1&sessionid=123
"link rel="next>
</"href="http://example.com/article?story=abc&page=3&sessionid=123