sitemap چیست؟
طبق تعریف خود گوگل، sitemap فایلیه که ما توی اون اطلاعاتی درمورد صفحات، ویدئوها و هر فایل دیگهای که توی سایتمون هست و روابط بین اونها ارائه میدیم. موتورهای جست و جو مثل گوگل این فایل رو میخونن تا سایت ما رو به شکل موثرتری خزش بکنن.
نقشه سایت باید همیشه به روز باشه، هیچ خطایی نداشته باشه، فقط نسخه کنونیکال هر آدرس توش قرار بگیره و فقط آدرس صفحاتی که میخوایم ایندکس بشن توش باشه.
توی این آموزش یاد میگیریم چطور به کمک اسکریمینگ فراگ سایت مپ رو بررسی کنیم. به دو روش میشه سایت مپ رو بررسی کرد:
مزایای بررسی سایت مپ موقع کراول کل سایت اینه که میتونیم تمام چیزهایی که با کراول کل سایت به دست میاریم رو با سایت مپ مقایسه کنیم و اینجوری میتونیم صفحات یتیم سایت رو شناسایی کنیم (صفحاتی که توی سایت مپ قرار دارن ولی هیچ لینک داخلی به اونها داده نشده) و براشون لینکسازی داخلی کنیم یا اینکه صفحاتی از سایت که توی سایت مپ نیستن رو پیدا کنیم و به سایت مپ اضافه کنیم.
اما اگه سایت مپ رو به شکل مجزا آپلود کنیم دیگه نمیتونیم صفحات یتیم یا صفحاتی که توی سایت مپ نیستن رو شناسایی کنیم.
خزش کامل سایت و بررسی sitemap
توی این بخش از مقاله، یاد میگیریم چطور اسکریمینگ فراگ رو کانفیگ کنیم تا موقع کراول سایت، سایت مپ رو هم بررسی کنه.
1) فعال کردن Crawl Linked XML Sitemaps از مسیر Configuration > Spider > Crawl
اینجا میتونیم به اسکریمینگ فراگ بگیم خودش آدرس سایت مپ رو از فایل robots.txt برداره(زمانی این حالت رو انتخاب کنید که مطمئنید آدرس سایت مپ رو به فایل robots.txt اضافه کردید) و اون رو کراول کنه یا اینکه خودمون مستقیما آدرس سایت مپ رو وارد کنیم.
2) خزش سایت
آدرس سایتی که قصد داریم کراول و بررسی بشه رو توی کادر enter url to spider وارد میکنیم و روی دکمه start کلیک میکنیم.
بلافاصله وبسایت و سایت مپ اون کراول میشن. منتظر بمونید تا کراول به پایان برسه و 100% صفحات بررسی بشن.
3) برو به تب Sitemaps
تب Sitemaps، در مجموع 7تا فیلتر داره که کمک میکنه دیتا رو براساس نوع اون دستهبندی کنیم و مشکلات رایج سایت مپ رو شناسایی کنیم.
وقتی که کراول هنوز به طور کامل به پایان نرسیده و درحال انجامه، فقط دوتا از فیلترها در دسترس هستند. 5تا فیلتر دیگه بعد از تموم شدن کراول، با اجرای فرآیند Crawl Analysis توسط نرمافزار فعال میشن.
اگه نگاهی به پنجره overview در سمت راست بندازیم هم، میبینیم جلوی این 5 فیلتر، پیامی نشون میده که میگه نیاز به اجرای Crawl Analysis است.
فقط وقتی خزش سایت به طور کامل انجام بشه، نرم افزار قادره که مشخص کنه کدوم urlها توی sitemap نیستند و کدوم توی نقشه سایت هستند.
4) روی Crawl Analysis > Start کلیک کنید تا فیلترهای سایت مپ فعال بشن.
برای فعال شدن 5 فیلتر باقیمونده سایت مپ، فقط باید روی یه دکمه کلیک کنید، به همین سادگی.
البته از قبلش باید توی تنظیمات Crawl Analysis، باید تیک سایت مپ رو زده باشید. پس اگه نکردید، از مسیر Crawl Analysis > Configure تیک سایت مپ رو بزنید.
علاوه بر اون میتونید تیک بقیه گزینهها رو بردارید تا فرآیند تحلیل سایت مپ سریعتر انجام بشه.
وقتی Crawl Analysis کامل شد، دیگه توی پنجره overview پیغام Crawl Analysis Required رو نمیبینید و جای اون رو اعداد و ارقام گرفتن.
همینطور که میبینید فیلترها فعال شدن.
5) به تب site map برید و فیلترها رو ببینید
شما میتونید موارد زیر رو فیلتر کنید:
Urlهای موجود در سایت مپ: تمام urlهایی که در فایل سایت مپ وجود دارند. این لیست باید دربرگیرنده ورژن کنونیکال صفحات قابل ایندکس و مهم سایت باشه.
Urlهای ناموجود در سایت مپ: urlهایی که توی فایل سایت مپ نیستند اما با کراول کردن سایت اونها کشف شدن و درجایی از سایت بهشون لینک داده شده. این urlها به دو دسته تقسیم میشن. دسته اول urlهایی که به شکل هدفمند وارد sitemap نشدن (به این دلیل که صفحات مهمی نیستند و نمیخوایم ایندکس بشن) و دسته دوم صفحاتی که یادمون رفته اونها رو وارد سایت مپ کنیم و به اشتباه داخل سایت مپ قرار نگرفتن که در این صورت باید سایت مپ آپدیت بشه و این urlها بهش اضافه بشن. این فیلتر صفحات غیرقابل ایندکس رو نمایش نمیده، چون فرض رو بر این میذاره که به درستی noindex شدن و درنتیجه نباید توی سایت مپ هم قرار بگیرن بنابراین دلیلی هم وجود نداره که توی لیست urlهایی که در سایت مپ نیستند، اونها رو نمایش بده.
صفحات یتیم: صفحاتی که در سایت مپ هستند اما درطول کراول سایت، اسکریمینگ فراگ نتونسته اونها رو پیدا کنه. اگر این صفحات به اشتباه وارد سایت مپ شدن، باید از سایت مپ حذف بشن درغیر این صورت باید برای اونها لینکسازی داخلی انجام بشه.
Urlهای غیرقابل ایندکس در سایت مپ: urlهایی که توی سایت مپ هستند اما noindex هستند. این صفحات یا باید از سایت مپ حذف بشن یا اینکه قابل ایندکس بشن.
Urlهایی که در چند سایت مپ وجود دارند: urlهایی که در بیش از یک سایت مپ هستند. این یک مشکل جدی نیست اما به طور کلی نیازه که هر url در یک سایت مپ قرار بگیره.
سایت مپ با بیش از 50هزار url: این فیلتر سایت مپهایی که urlهای قرار گرفته در اونها بیشتر از تعداد مجاز هست رو نشون میده.
سایت مپ با حجم بیش از 50mb: این فیلتر سایت مپهایی رو نشون میده که حجم اونها بیشتر از مقدار مجاز 50mb هست.
فیلترهای بالا به شما کمک میکنند تا بررسی کنید که فقط نسخه کنونیکال urlهای قابل ایندکس درون سایت مپ قرار گرفتن.
6) مشاهده source سایت مپ با کلیک روی Inlinks
اگر شما بیش از یک سایت مپ داشته باشید، باید تشخیص بدید که urlهای یتیم، غیرقابل ایندکس و … توی کدوم یکی از سایت مپها وجود داره.
برای اینکار ابتدا روی url مورد نظر کلیک کنید و اون رو انتخاب کنید. بعد در پایین نرم افزار، به تب Inlinks برید. در این قسمت میتونید سایت مپی که url درش قرار گرفته رو مشاهده کنید.
نمایی نزدیک از تب inlinks در پایین نرم افزار.
توی این مثال، /disclaimer/ در سایت مپ به آدرس /sitemap.xml قرار گرفته.
7) خروجی گرفتن از نرم افزار از مسیر Bulk Export > Sitemaps > X Inlinks
اگر بیش از یک سایت مپ دارید، انجام این این کار، یک اقدام ضروریه، چون احتیاج دارید که بدونید هر url به کدوم سایت مپ وابسته هست.
برای خروجی گرفتن گروهی از دادههای سایت مپها، از منوی بالایی نرم افزار به مسیر Bulk Export > Sitemaps برید.
توی تصویر بالا، از تمام سایت مپهایی که urlهای غیرقابل ایندکس توی اونها وجود داره خروجی گرفته میشه.
آپلود و بررسی sitemap به صورت مجزا
شما میتونید سایت مپ رو به شکل مجزا از کل سایت و از طریق آپلود اون توی حالت list mode نرم افزار بررسی کنید. انجام این فرآیند در ادامه توضیح داده شده.
1) روی Mode > List کلیک کنید.
از منوی بالا روی Mode > List کلیک کنید. با این کار میتونید لیستی از urlها رو آپلود کنید یا به صورت مستقیم سایت مپ رو دانلود کنید.
2) انتخاب Upload A File یا Download XML Sitemap
اگر یک فایل سایت مپ ذخیره شده دارید، اون رو آپلود کنید یا اینکه Download XML Sitemap رو انتخاب کنید و آدرس سایت مپ رو وارد کنید.
اگر یک Sitemap index file دارید که توی اون چندتا سایت مپ قرار گرفتن بهتره Download XML Sitemap رو انتخاب کنید تا نرم افزار همه اونها رو به صورت یکجا دانلود کنه.
روی ok کلیک کنید. مجددا روی ok کلیک کنید تا کراول کردن نقشههای سایت شروع بشه.
3) انجام مراحل 3 به بعد روش اول
از اینجا به بعد مثل روش اوله و شما باید همون مراحلی رو که در روش بررسی سایت مپ همراه با کراول کل سایت توضیح داده شد رو دنبال کنید. این کار شامل اجرای فرآیند crawl analysis در پایان خزش سایت مپ برای فعال کردن فیلترهای مربوط به تب سایت مپ هم میشه.
لازم به ذکره که بررسی سایت مپ با این روش، یک بررسی جامع و همه جانبه نخواهد بود، چون نرم افزار دادههای اضافه ای که با خزیدن در کل سایت به دست میاره رو نداره.
این به این معنیه که فیلترهای ” Urlهای ناموجود در سایت مپ ” و “صفحات یتیم” رو نخواهیم داشت چون دیتای مورد نیاز برای شناسایی اونها وجود نداره.