تهران، بلوار فردوس غربی سازمان برنامه جنوبی کوچه بغیری ساختمان اداری ارکیده

لوگو چکاوک شهر

خطای Crawl یا خزش

خطای Crawl یا خزش
فهرست مطالب

خطای Crawl یا خزش اگر بخواهیم یکی از صفحات سایت و یا تمام آن‌ها در لیست نتایج جستجو قرار دهیم، باید از پنج خوان موتور جستجو رد شویم. اولین خوان، خزش ربات‌های گوگل یا به اصطلاح Crawling است که ربات‌های گوگل با عمل خزیدن بر روی صفحات شما، آن‌ها را بررسی می‌کنند. اما حالا تصور کنید راهی وجود ندارد تا ربات‌های گوگل بتوانند وارد سایت شما شده و عمل کراول را انجام دهند! در این شرایط چه اتفاقی می‌افتد؟
بله درست حدس زدید صفحات شما کراول نمی‌شوند! موانع ورود و خزش ربات‌های گوگل جزء خطا‌هایی است که هر سئوکار و یا مدیر سایتی با آن دست و پنجه نرم می‌کند تا این خطا‌ها را رفع کند و در دکان سایت خود را بر روی ربات‌های گوگل باز کند! اما برای رفع این خطا‌ها ابتدا باید با موانع ورود و خزش ربات‌ها در سایت آشنا شویم و سپس از طریق راهکار‌های مطرح شده اقدام به رفع این خطا‌ها کنیم. پس تا انتهای این مقاله همراه ما باشید.

موانع ورود و خزش ربات ها در سایت

قبل از اینکه به موانع ورود و خزش ربات‌ها در سایت بپردازیم ابتدا باید بدانیم که خطای Crawl یا خزش چیست؟ خطاهای Crawl مشکلاتی هستند که موتورهای جستجو هنگام تلاش برای دسترسی به صفحات شما با آن مواجه می شوند. این خطاها مانع از خواندن ربات‌های موتورهای جستجو و ایندکس کردن صفحات شما می‌شود.
گزارش Crawl Errors یا خطای خزش دارای دو بخش اصلی است:
• خطاهای سایت: این خطاها مانع از دسترسی Googlebot به کل وب سایت شما می‌شود.
• خطاهای URL: این خطاها زمانی رخ می‌دهند که Googlebot قادر به دسترسی به یک URL خاص نباشد.
در سرچ کنسول، این خطاها بر اساس URL به URL در گزارش Index Coverage گزارش می‌شوند و همانطور که در تصویر زیر می‌بینید اگر صفحه‌ای از سایت شما با مشکل ورود ربات‌های مواجه باشند در این قسمت به نمایش در می‌آیند.

خطای Crawl یا خزش چیست؟

خطاهای سایت برای ورود و خزش ربات ها

خطای سایت همان مشکلاتی هستند که در سطح سایت رخ می‌دهند. به این معنی است که کاربران شما و گوگل قادر به دسترسی به هیچ یک از صفحات شما نیستند. به طور کلی ۳ خطای سایت وجود‌دارد که گوگل به عنوان خطای خزیدن حساب می کند که در ادامه می‌توانید آن‌ها را مشاهده کنید:

خطای DNS

DNS که مخفف “سیستم نام دامنه” است، آدرس IP یک وب سایت را از یک رشته اعداد به حروف و اعداد قابل استفاده ترجمه می‌کند. در اصل، این چیزی است که به ما امکان می‌دهد بدون نیاز به دانستن آدرس IP هر وب سایت، آن‌ها بازدید کنید. اما ممکن است برای شما سوال پیش بیاید که DNS چگونه کار می‌کند؟
برای این‌که به خوبی متوجه نحوه عملکرد DNS شویم بیاید یک‌کار انجام دهیم، شما یک نام دامنه را در مرورگر خود تایپ می کنید. مرورگر بررسی می کند که آیا اطلاعات مربوط به آن دامنه به صورت محلی در کامپیوتر شما ذخیره شده یا نه؟
اگر این‌طور نباشد، مرورگر درخواستی را به سرور DNS محلی شما (که معمولاً توسط ISP ارائه می‌شود) ارسال می‌کند. سرور DNS محلی به دنبال جزئیات نام دامنه است. اگر هیچ اطلاعاتی نداشته باشد، باید DNS اصلی را پیدا کند.

برای یافتن سرور اصلی ، سرور DNS URL را به تکه‌هایی تقسیم می‌کند و از راست به چپ آن را می‌خواند. برای مثال دامنهwww.example.com ، URL را به “com”، “example”و “www” تقسیم می‌کند. سپس با وصل شدن به TLD جزئیات نام دامنه را می‌خواند. برای اینکه خوب متوجه شوید به عکس زیر نگاه کنید تا  عملکرد کلی این سیستم را درک کنید. داشتن یک اتصال DNS حیاتی است زیرا اولین قدم برای دسترسی به یک وب سایت است. اگر گوگل نتواند یک اتصال DNS برقرار کند، نمی‌.تواند وب سایت شما را پیدا کند، و در نتیجه مانع ورود و خزش ربات ها در سایت می‌شود.

خطای DNS

حال که متوجه شدیم DNS چیست و با نحوه کار آن آشنا شدیم نیازمند آن است که با خطاهای DNS آشنا شویم. اگر بخواهیم خطاهای DNS را تقسیم کنیم به دو نوع خطای DNS میرسیم که گوگل با آن مواجه می‌شود:
DNS timeout : که به این معنی است که سرور DNS شما به سرعت کافی به درخواست Google پاسخ نداد. و در نتیجه ربات‌های گوگل از خزش بر روی وب سایت و صفحه شما منصرف شدند.
DNS lookup: که به این معنی است که گوگل نتوانست به وب سایت شما دسترسی پیدا کند زیرا سرور DNS شما نمی تواند نام دامنه شما را پیدا کند.
برای رفع مشکل DNS اگر تخصص کافی را ندارید میتوانید به پشتیبان‌های سرویس هاستینگ خود پیام دهید تا آن‌ها این مشکل را برای شما رفع کنند.

خطاهای سرور

خطاهای سرور با خطاهای DNS متفاوت هستند. خطای سرور به این معنی است که ربات‌ها URL شما را از سرویس DNS به دست آورده‌اند اما به دلیل مشکلات سرور نمیتوانند آن‌ها را بارگیری کنند. گوگل فقط زمان مشخصی را به انتظار برای پاسخ سرور اختصاص می‌دهد و اگر این زمان خیلی طول بکشد ربات ها منصرف خواهند شد.
مانند خطاهای DNS، خطای سرور یک مشکل بزرگ برای وب سایت شما است. نحوه رفع خطای سرور به این بستگی دارد که خطایی که دریافت کرده‌اید چیست؟ چندین نوع خطای سرور وجود دارد که در ادامه به بررسی آن‌ها خواهیم پرداخت:
Timeout: وقتی این خطا رخ میدهد که پاسخ سرور به درخواست Googlebot خیلی طول بکشد.
Truncated headers: سرور شما قبل از ارسال هدر کامل، اتصال خود را بسته است.
Connection reset: در این وضعیت Google توانست به سایت شما متصل شود، اما چیزی دریافت نکرد زیرا اتصال در اواسط پاسخ ریست شده است.
Truncated response: قبل از دریافت پاسخ کامل Google، اتصال به پایان رسید.
Connection refused: سرور شما از اتصال با Googlebot خودداری کرد.
Connect failed: شبکه سرور شما قطع یا غیرقابل دسترسی بود.
Connect timeout: پردازش اتصال بیش از حد طول کشید.
No response: قبل از ارسال پاسخ، اتصال با سرور شما به پایان رسید.

خطاهای سرور

وجود خطا در فایل Robots.txt

در واقع اگر ما مرحله اول مانع ورود ربات‌های گوگل و خزش آن برای سایت را DNS و مرحله دوم را خطای سرور بدانیم مرحله سوم خرابی فایل ربات است. برای مشاهده فایل ربات تنها کافی است آدرس مقابل را در مرورگر خود وارد کنید. ( www.yoursite.com/robots.txt )
اگر این خطا را در سرچ کنسول مشاهده کردید، نحوه تنظیم فایل robots.txt خود را بررسی کنید. برای این کار می‌توانید موارد زیر را چک کنید:
۱. آیا فایل ربات خود را به صورت .txt یا در یک فایل ساده متنی ساخته‌اید؟
۲. آیا به صفحه اصلی خود در فایل ربات اجازه خزش داده‌اید؟
۳. آیا فایل robots.txt شما وضعیت ۲۰۰ یا خطای ۴۰۴ را برمی‌گرداند؟
۴. آیا شما در فایل ربات خودتان صفحاتی که دستور /:Disallow برای آن گذاشتید را بررسی کرده‌اید؟
لطفا این نکته را به یاد داشته باشید که نداشتن فایل Robots.txt بهتر از داشتن یک فایل خراب و خطا‌ دار است.

خطاهای URL برای خطای Crawl یا خزش

خطاهای URL با خطاهای سایت تفاوت دارند زیرا فقط در صفحه خاص اعمال می شوند، نه به کل سایت.

خطای Soft 404

خطای ۴۰۴ نرم ممکن است برای برخی گمراه کننده باشد. در واقع این URL ها وضعیت ۲۰۰ را به سرور باز می‌گردانند اما مشکلی که دارند این است که محتوایی که داخل این صفحات وجود دارد بسیار کم است. گوگل این صفحات را به عنوان یک خطا در نظر میگیرد زیرا برای کاربران خیلی مفید نیستند، و با وجود صفحات زیادی که خطای ۴۰۴ نرم دارند بودجه خزش سایت شما به شدت کاهش یافته‌‌، تا جایی که ربات‌ها دیگر علاقه‌ای به خزش محتوا‌های شما ندارند.

خطای Soft 404

راه حل رفع این خطا این است که محتوای این صفحات را زیاد کنید تا مفید باشند یا آن‌ها را نوایندکس (Noindex) کنید تا گوگل آن‌ها را نبیند. توجه داشته باشید که اگر از یک صفحه ۴۰۴ سفارشی استفاده می‌کنید که وضعیت ۴۰۴ را برنمی‌گرداند، احتمالاً توسط Google به عنوان یک صفحه نرم‌افزاری ۴۰۴ مشخص می‌شود.

خطای Not found

اکثریت قریب به اتفاق خطاهای ۴۰۴ که مشاهده خواهید کرد نیازی به رفع نخواهند داشت. هنگام تصمیم گیری در مورد رفع یا عدم رفع یک URL 404، این موارد را درنظر بگیرید:
• آیا URL دارای تعداد زیادی لینک خارجی با کیفیت بالا است؟
• آیا ترافیک زیادی دریافت می کند؟
اگر پاسخ یک یا چند مورد از این سؤالات مثبت است، احتمالاً باید علت خطای Crawl یا خزش را جستجو کنید. اگر ۴۰۴ ناشی از پیوند داخلی معیوب است، باید حتما آن را برطرف کنید.
تعمیر ۴۰۴ به علت آن بستگی دارد. می‌تواند به سادگی رفع اشتباهات تایپی در یک لینک داخلی باشد. اگر مورد پیوندهای خارجی به صفحات قدیمی است، از تغییر مسیر ۳۰۱ برای اشاره به صفحه جدید استفاده کنید. اگر به نظر می‌رسد که کاربران انتظار دارند URL در سایت شما وجود داشته باشد، صفحه را اضافه کنید یا به محتوای مربوطه در جای دیگری از سایت خود هدایت کنید.

خطاهای URL برای ورود و خزش ربات ها

خطای Access denied

این خطاها زمانی اتفاق می‌افتند که Google اجازه دسترسی به صفحه خاصی را ندارد. این مورد اکثرا بخاطر موارد زیر است:

صفحه مد نظر صفحه ورود پیشخوان است.

صفحاتی که توسط robots.txt غیر مجاز هستند.

هاستینگ شما Googlebot را مسدود کرده.

اگر هم URL هایی که در این صفحه قرار گرفته‌اند خودتان قرار داده‌‎اید و یا از نظر شما درست است پس نیازی نیست که کاری انجام دهید.

خطای Not followed

خطای Crawl یا خزش را با دستورالعمل nofollow یا برچسب noindex اشتباه نگیرید. این URL ها هیچ ربطی به آن‌ها ندارند. URL های دنبال نشده یا Not followed در Crawl Errors صرفاً URL هایی هستند که گوگل نمی‌تواند به طور کامل آنها را تا مقصد خود دنبال کند. علت وجود چنین خطا‌هایی میتواند موارد زیر باشد:

وجود فایل های فلش، جاوا اسکریپت یا سایر محتوای فعال که Google را مسدود می‌کند

ریدایرکت‌ها و یا لینک‌های شکسته

URL های تغییر مسیر داده شده در نقشه سایت شما

برای رفع این خطا هم مانند مانند خطای ۴۰۴s و Access Denied ، تصمیم بگیرید که آیا URL های اینجا ارزش وقت گذاشتن و یا تعمیر را دارند یا خیر.

خطای Access denied

بررسی خطای Crawl یا خزش توسط سرچ کنسول

ابزار URL Inspection سرچ کنسول به شما این امکان را می دهد که صفحات جداگانه وب سایت خود را برای مشکلات فهرست بندی و خطاهای خزیدن جستجو کنید. خطای Crawl یا خزش برای اینکه متوجه شوید صفحه مد نظر شما درای خطا می‌باشد یا نه، به قسمت performance سرچ کنسول بروید و از قسمت pages صفحه خود را پیدا کنید سپس بر روی علامت ذره‌بین کناری آن کلیک کنید تا به ابزار URL Inspection هدایت شوید: (طبق تصویر زیر)

بررسی خطای خزش ربات ها توسط سرچ کنسول

این ابزار به شما می گوید که آیا یک صفحه در فهرست گوگل قرار دارد یا خیر و جزئیاتی را که گوگل در هنگام خزش صفحه با آن مواجه شده است را توضیح می دهد.

ابزار URL Inspection سرچ کنسول

موانع ورود و خزش ربات‌ها در سایت یکی از معضلاتی هست که تمامی کارشناسان سئو با آن درگیر هستند. در این مقاله سعی شد تا همه مواردی که باعث می‌شود تا ربات‌ها به سایت شما ورود نکنند بررسی شود و همچنین ابزار بررسی این خطاها در اختیار شما قرار بگیرد. شرکت چکاوک شهر یکی از برترین شرکت‌های حال حاضر در حوزه سئو، طراحی سایت، تولید محتوا و… می‌باشد که با شرکت در کلاس‌های آموزشی آن می‌توانید مفاهیم سئو را به صورت کاملا عمقی یاد بگیرید. منتظر مقالات بعدی ما باشید.

مطالب مرتبط:

آموزش مطالب مرتبط در المنتور

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

معیارهای یک سایت حرفه ای