خطای Crawl یا خزش اگر بخواهیم یکی از صفحات سایت و یا تمام آنها در لیست نتایج جستجو قرار دهیم، باید از پنج خوان موتور جستجو رد شویم. اولین خوان، خزش رباتهای گوگل یا به اصطلاح Crawling است که رباتهای گوگل با عمل خزیدن بر روی صفحات شما، آنها را بررسی میکنند. اما حالا تصور کنید راهی وجود ندارد تا رباتهای گوگل بتوانند وارد سایت شما شده و عمل کراول را انجام دهند! در این شرایط چه اتفاقی میافتد؟
بله درست حدس زدید صفحات شما کراول نمیشوند! موانع ورود و خزش رباتهای گوگل جزء خطاهایی است که هر سئوکار و یا مدیر سایتی با آن دست و پنجه نرم میکند تا این خطاها را رفع کند و در دکان سایت خود را بر روی رباتهای گوگل باز کند! اما برای رفع این خطاها ابتدا باید با موانع ورود و خزش رباتها در سایت آشنا شویم و سپس از طریق راهکارهای مطرح شده اقدام به رفع این خطاها کنیم. پس تا انتهای این مقاله همراه ما باشید.
موانع ورود و خزش ربات ها در سایت
قبل از اینکه به موانع ورود و خزش رباتها در سایت بپردازیم ابتدا باید بدانیم که خطای Crawl یا خزش چیست؟ خطاهای Crawl مشکلاتی هستند که موتورهای جستجو هنگام تلاش برای دسترسی به صفحات شما با آن مواجه می شوند. این خطاها مانع از خواندن رباتهای موتورهای جستجو و ایندکس کردن صفحات شما میشود.
گزارش Crawl Errors یا خطای خزش دارای دو بخش اصلی است:
• خطاهای سایت: این خطاها مانع از دسترسی Googlebot به کل وب سایت شما میشود.
• خطاهای URL: این خطاها زمانی رخ میدهند که Googlebot قادر به دسترسی به یک URL خاص نباشد.
در سرچ کنسول، این خطاها بر اساس URL به URL در گزارش Index Coverage گزارش میشوند و همانطور که در تصویر زیر میبینید اگر صفحهای از سایت شما با مشکل ورود رباتهای مواجه باشند در این قسمت به نمایش در میآیند.
خطاهای سایت برای ورود و خزش ربات ها
خطای سایت همان مشکلاتی هستند که در سطح سایت رخ میدهند. به این معنی است که کاربران شما و گوگل قادر به دسترسی به هیچ یک از صفحات شما نیستند. به طور کلی ۳ خطای سایت وجوددارد که گوگل به عنوان خطای خزیدن حساب می کند که در ادامه میتوانید آنها را مشاهده کنید:
خطای DNS
DNS که مخفف “سیستم نام دامنه” است، آدرس IP یک وب سایت را از یک رشته اعداد به حروف و اعداد قابل استفاده ترجمه میکند. در اصل، این چیزی است که به ما امکان میدهد بدون نیاز به دانستن آدرس IP هر وب سایت، آنها بازدید کنید. اما ممکن است برای شما سوال پیش بیاید که DNS چگونه کار میکند؟
برای اینکه به خوبی متوجه نحوه عملکرد DNS شویم بیاید یککار انجام دهیم، شما یک نام دامنه را در مرورگر خود تایپ می کنید. مرورگر بررسی می کند که آیا اطلاعات مربوط به آن دامنه به صورت محلی در کامپیوتر شما ذخیره شده یا نه؟
اگر اینطور نباشد، مرورگر درخواستی را به سرور DNS محلی شما (که معمولاً توسط ISP ارائه میشود) ارسال میکند. سرور DNS محلی به دنبال جزئیات نام دامنه است. اگر هیچ اطلاعاتی نداشته باشد، باید DNS اصلی را پیدا کند.
برای یافتن سرور اصلی ، سرور DNS URL را به تکههایی تقسیم میکند و از راست به چپ آن را میخواند. برای مثال دامنهwww.example.com ، URL را به “com”، “example”و “www” تقسیم میکند. سپس با وصل شدن به TLD جزئیات نام دامنه را میخواند. برای اینکه خوب متوجه شوید به عکس زیر نگاه کنید تا عملکرد کلی این سیستم را درک کنید. داشتن یک اتصال DNS حیاتی است زیرا اولین قدم برای دسترسی به یک وب سایت است. اگر گوگل نتواند یک اتصال DNS برقرار کند، نمی.تواند وب سایت شما را پیدا کند، و در نتیجه مانع ورود و خزش ربات ها در سایت میشود.
حال که متوجه شدیم DNS چیست و با نحوه کار آن آشنا شدیم نیازمند آن است که با خطاهای DNS آشنا شویم. اگر بخواهیم خطاهای DNS را تقسیم کنیم به دو نوع خطای DNS میرسیم که گوگل با آن مواجه میشود:
DNS timeout : که به این معنی است که سرور DNS شما به سرعت کافی به درخواست Google پاسخ نداد. و در نتیجه رباتهای گوگل از خزش بر روی وب سایت و صفحه شما منصرف شدند.
DNS lookup: که به این معنی است که گوگل نتوانست به وب سایت شما دسترسی پیدا کند زیرا سرور DNS شما نمی تواند نام دامنه شما را پیدا کند.
برای رفع مشکل DNS اگر تخصص کافی را ندارید میتوانید به پشتیبانهای سرویس هاستینگ خود پیام دهید تا آنها این مشکل را برای شما رفع کنند.
خطاهای سرور
خطاهای سرور با خطاهای DNS متفاوت هستند. خطای سرور به این معنی است که رباتها URL شما را از سرویس DNS به دست آوردهاند اما به دلیل مشکلات سرور نمیتوانند آنها را بارگیری کنند. گوگل فقط زمان مشخصی را به انتظار برای پاسخ سرور اختصاص میدهد و اگر این زمان خیلی طول بکشد ربات ها منصرف خواهند شد.
مانند خطاهای DNS، خطای سرور یک مشکل بزرگ برای وب سایت شما است. نحوه رفع خطای سرور به این بستگی دارد که خطایی که دریافت کردهاید چیست؟ چندین نوع خطای سرور وجود دارد که در ادامه به بررسی آنها خواهیم پرداخت:
Timeout: وقتی این خطا رخ میدهد که پاسخ سرور به درخواست Googlebot خیلی طول بکشد.
Truncated headers: سرور شما قبل از ارسال هدر کامل، اتصال خود را بسته است.
Connection reset: در این وضعیت Google توانست به سایت شما متصل شود، اما چیزی دریافت نکرد زیرا اتصال در اواسط پاسخ ریست شده است.
Truncated response: قبل از دریافت پاسخ کامل Google، اتصال به پایان رسید.
Connection refused: سرور شما از اتصال با Googlebot خودداری کرد.
Connect failed: شبکه سرور شما قطع یا غیرقابل دسترسی بود.
Connect timeout: پردازش اتصال بیش از حد طول کشید.
No response: قبل از ارسال پاسخ، اتصال با سرور شما به پایان رسید.
وجود خطا در فایل Robots.txt
در واقع اگر ما مرحله اول مانع ورود رباتهای گوگل و خزش آن برای سایت را DNS و مرحله دوم را خطای سرور بدانیم مرحله سوم خرابی فایل ربات است. برای مشاهده فایل ربات تنها کافی است آدرس مقابل را در مرورگر خود وارد کنید. ( www.yoursite.com/robots.txt )
اگر این خطا را در سرچ کنسول مشاهده کردید، نحوه تنظیم فایل robots.txt خود را بررسی کنید. برای این کار میتوانید موارد زیر را چک کنید:
۱. آیا فایل ربات خود را به صورت .txt یا در یک فایل ساده متنی ساختهاید؟
۲. آیا به صفحه اصلی خود در فایل ربات اجازه خزش دادهاید؟
۳. آیا فایل robots.txt شما وضعیت ۲۰۰ یا خطای ۴۰۴ را برمیگرداند؟
۴. آیا شما در فایل ربات خودتان صفحاتی که دستور /:Disallow برای آن گذاشتید را بررسی کردهاید؟
لطفا این نکته را به یاد داشته باشید که نداشتن فایل Robots.txt بهتر از داشتن یک فایل خراب و خطا دار است.
خطاهای URL برای خطای Crawl یا خزش
خطاهای URL با خطاهای سایت تفاوت دارند زیرا فقط در صفحه خاص اعمال می شوند، نه به کل سایت.
خطای Soft 404
خطای ۴۰۴ نرم ممکن است برای برخی گمراه کننده باشد. در واقع این URL ها وضعیت ۲۰۰ را به سرور باز میگردانند اما مشکلی که دارند این است که محتوایی که داخل این صفحات وجود دارد بسیار کم است. گوگل این صفحات را به عنوان یک خطا در نظر میگیرد زیرا برای کاربران خیلی مفید نیستند، و با وجود صفحات زیادی که خطای ۴۰۴ نرم دارند بودجه خزش سایت شما به شدت کاهش یافته، تا جایی که رباتها دیگر علاقهای به خزش محتواهای شما ندارند.
راه حل رفع این خطا این است که محتوای این صفحات را زیاد کنید تا مفید باشند یا آنها را نوایندکس (Noindex) کنید تا گوگل آنها را نبیند. توجه داشته باشید که اگر از یک صفحه ۴۰۴ سفارشی استفاده میکنید که وضعیت ۴۰۴ را برنمیگرداند، احتمالاً توسط Google به عنوان یک صفحه نرمافزاری ۴۰۴ مشخص میشود.
خطای Not found
اکثریت قریب به اتفاق خطاهای ۴۰۴ که مشاهده خواهید کرد نیازی به رفع نخواهند داشت. هنگام تصمیم گیری در مورد رفع یا عدم رفع یک URL 404، این موارد را درنظر بگیرید:
• آیا URL دارای تعداد زیادی لینک خارجی با کیفیت بالا است؟
• آیا ترافیک زیادی دریافت می کند؟
اگر پاسخ یک یا چند مورد از این سؤالات مثبت است، احتمالاً باید علت خطای Crawl یا خزش را جستجو کنید. اگر ۴۰۴ ناشی از پیوند داخلی معیوب است، باید حتما آن را برطرف کنید.
تعمیر ۴۰۴ به علت آن بستگی دارد. میتواند به سادگی رفع اشتباهات تایپی در یک لینک داخلی باشد. اگر مورد پیوندهای خارجی به صفحات قدیمی است، از تغییر مسیر ۳۰۱ برای اشاره به صفحه جدید استفاده کنید. اگر به نظر میرسد که کاربران انتظار دارند URL در سایت شما وجود داشته باشد، صفحه را اضافه کنید یا به محتوای مربوطه در جای دیگری از سایت خود هدایت کنید.
خطای Access denied
این خطاها زمانی اتفاق میافتند که Google اجازه دسترسی به صفحه خاصی را ندارد. این مورد اکثرا بخاطر موارد زیر است:
صفحه مد نظر صفحه ورود پیشخوان است.
صفحاتی که توسط robots.txt غیر مجاز هستند.
هاستینگ شما Googlebot را مسدود کرده.
اگر هم URL هایی که در این صفحه قرار گرفتهاند خودتان قرار دادهاید و یا از نظر شما درست است پس نیازی نیست که کاری انجام دهید.
خطای Not followed
خطای Crawl یا خزش را با دستورالعمل nofollow یا برچسب noindex اشتباه نگیرید. این URL ها هیچ ربطی به آنها ندارند. URL های دنبال نشده یا Not followed در Crawl Errors صرفاً URL هایی هستند که گوگل نمیتواند به طور کامل آنها را تا مقصد خود دنبال کند. علت وجود چنین خطاهایی میتواند موارد زیر باشد:
وجود فایل های فلش، جاوا اسکریپت یا سایر محتوای فعال که Google را مسدود میکند
ریدایرکتها و یا لینکهای شکسته
URL های تغییر مسیر داده شده در نقشه سایت شما
برای رفع این خطا هم مانند مانند خطای ۴۰۴s و Access Denied ، تصمیم بگیرید که آیا URL های اینجا ارزش وقت گذاشتن و یا تعمیر را دارند یا خیر.
بررسی خطای Crawl یا خزش توسط سرچ کنسول
ابزار URL Inspection سرچ کنسول به شما این امکان را می دهد که صفحات جداگانه وب سایت خود را برای مشکلات فهرست بندی و خطاهای خزیدن جستجو کنید. خطای Crawl یا خزش برای اینکه متوجه شوید صفحه مد نظر شما درای خطا میباشد یا نه، به قسمت performance سرچ کنسول بروید و از قسمت pages صفحه خود را پیدا کنید سپس بر روی علامت ذرهبین کناری آن کلیک کنید تا به ابزار URL Inspection هدایت شوید: (طبق تصویر زیر)
این ابزار به شما می گوید که آیا یک صفحه در فهرست گوگل قرار دارد یا خیر و جزئیاتی را که گوگل در هنگام خزش صفحه با آن مواجه شده است را توضیح می دهد.
موانع ورود و خزش رباتها در سایت یکی از معضلاتی هست که تمامی کارشناسان سئو با آن درگیر هستند. در این مقاله سعی شد تا همه مواردی که باعث میشود تا رباتها به سایت شما ورود نکنند بررسی شود و همچنین ابزار بررسی این خطاها در اختیار شما قرار بگیرد. شرکت چکاوک شهر یکی از برترین شرکتهای حال حاضر در حوزه سئو، طراحی سایت، تولید محتوا و… میباشد که با شرکت در کلاسهای آموزشی آن میتوانید مفاهیم سئو را به صورت کاملا عمقی یاد بگیرید. منتظر مقالات بعدی ما باشید.
مطالب مرتبط: