اگر پاسخ سوال شما در این قسمت نیست، سوال خود را قسمت نظرات برای ما بنویسید. همواره از عدم وجود خطا در فایل robots.txt خود اطمینان حاصل کنید. بدین ترتیب تمامی صفحات موجود در وبلاگ از دسترس ربات بایدو خارج خواهد شد.
- این فایل به عنکبوت های خزنده گوگل و موتورهای جستجو می گوید که چه صفحاتی را خزش و فهرست بندی نکنند.
- از رایج ترین دلایل استفاده از فایل robots.txt، محدود کردن دسترسی ربات های خزنده به بخش های مختلف یک سایت است.
- این ربات با کلیک بر روی لینک شما در جاهایی که بک لینک گرفته اید باعث میشود بک لینک شما سریع تر توسط گوگل ایندکس شود.
- اگر تعداد صفحات ایندکس شده چیزی فراتر از تصور و انتظارتان بود در این حالت احتمالا به یک فایل robots.txt با قوانین و محدودیتهای مشخص نیاز دارید.
- در غیر اینصورت احتمالا متا تگ نوایندکس گزینه بهتری برای شما باشد.
پس از آپلود فایل robots.txt در ریشه سرور، بررسی کنید که آیا برای عموم قابل دسترسی است یا خیر و آیا گوگل میتواند آن را بررسی کند. نکته مهمی که باید به آن توجه داشت این است که همه زیر دامنه ها به فایل robots.txt خود نیاز دارند. به عنوان مثال، دامنه فایل مخصوص به خود را دارد، همه زیر دامنه های Cloudflare (blog.cloudflare.com، community.cloudflare.com و غیره) نیز به فایل خود نیاز دارند.
شیوههای جایگزین در مسدود کردن دسترسی رباتها
همچنین در فرآیندهای خزیدن و نمایهسازی، دستورالعملها به عنوان دستوراتی عمل میکنند تا رباتهای موتور جستجو ، مانند Googlebot، به صفحات مناسب هدایت شوند. تمام دستورات و محدودیتهایی که در فایل robots سایتمان ایجاد میکنیم تنها زمانی اعتبار دارند که رباتهایی وجود داشته باشند که به این دستورات احترام بگذارند و از آنها پیروی کنند. گوگل هم به انواع مهمترین موتور جستجو دنیا، چندین ربات مخصوص و مهم برای بررسی صفحات و اطلاعات موجود در اینترنت طراحی کرده است که با توجه به اهمیت آنها به صورت ویژه آن را بررسی میکنیم.
مسدود کرده رباتها و خزندهها از دسترسی به یک فایل خاص:
ابتدا باید وب سایت خود را به Google Search Console معرفی کنید. اگر هنوز این کار را انجام نداده اید، به راهنمای ما در مورد نحوه افزودن سایت وردپرس خود به سرچ کنسول گوگل مراجعه کنید. می باشد یعنی می توانید این فایل را در کامپیوتر خود ایجاد کنید و کدهای مربوطه را در آن قرار داده و سپس در مسیر روت هاست خود آپلود کنید. از فایل txt به منظور جلوگیری از دسترسی به اطلاعات حساس استفاده نکنید. اگر به هر نحوی تمایل دارید که یک صفحه یا دایرکتوری خود را از فهرست نتایج جستجو حذف یا مسدود کنید می توانید از تکنیک های دیگری از قبیل رمزگذاری یا تکنیک های مرتبط با noindex استفاده کنید.
مسدود کردن یک فایل (به عبارت دیگر، یک صفحه وب خاص)
اشاره به این نکته نیز خالی از لطف نیست که استفاده از فایل Robots.txt تنها برای ربات های گوگل نیست. به کمک این فایل دسترسی ربات های مختلف را می توان مسدود کرد، برای مثال امکان مدیریت دسترسی ربات های Moz و Ahref نیز به کمک این فایل امکان پذیر است. در همین ابتدا باید گفت که پاسخ منفی است، همه سایت ها به فایل ربات تی ایکس تی نیاز ندارند. برای مثال اگر سایت ها دارای تعداد صفحات کمی است، برای مثال کمتر از 100 صفحه، دیگر نیازی به استفاده از فایل Robots.txt نداریم. به این معنی است که تمام بخشهای این سایت قابل دسترس برای تمام رباتها و خزندگان موتورهای جستجو است.
برای ایجاد فایل Robots.txt ابتدا شما باید به هاست دسترسی داشته باشید و این فایل را در ریشه اصلی آن کپی کنید. اگر به هر دلیلی شما به هاست دسترسی نداشته باشید میتوانید با قرار دادن تگ های متا در هدر صفحه دسترسی ربات های گوگل را به آن محدود نمایید. Robots.txtx محل فایل در مسیر زیر قرار دارد که در تصویر نشان داده شده است.
ربات گوگل یا باید به صورت مستقیم صفحه را دریافت و بررسی کند (معمولاً به کم نقشه سایت) یا باید از لینکهای دیگری که از صفحهها و سایتهای دیگر به آن صفحه دادهاند آن را پیدا و بررسی کند. هرچه تعداد صفحات وبسایت شما بیشتر باشد، رباتهای موتور جستجو زمان بیشتری برای خزیدن و ایندکس کردن صفحات نیاز دارد. همین زمان طولانی، روی رتبه سایتتان در نتایج جستجو، تاثیر منفی خواهد گذاشت.