اگر وبسایت خود را به ابزار گوگل سرچ کنسول متصل کرده باشید، وقتی که ابزار تست را باز کنید از شما درخواست میکند که Property مورد نظرتان را انتخاب کنید. اگرچه گوگل صفحاتی که در فایل Robots.txt محدود شدهاند را خزش و ایندکس نمیکند، اما ممکن است از سایر صفحات، لینکهایی به این صفحات محدود شده وجود داشته باشند که موجب ایندکس شدن این صفحات شوند. اما سایر رباتها وقتی به این دستور میرسند هیچ توجهی به آن نمیکنند و بدون محدودیت محتوای فولدر mypic سایت شما را هم بررسی میکنند چرا که محدودیت شما تنها مربوط به ربات Googlebot-Image میشود و نه تمام رباتها. بنابراین برای تهیه یک فایل robots.txt مناسب و عالی ما نیز باید با این دستورات و نحوه تفسیر آنها توسط رباتها آشنا باشیم. مهمتر از همه اینکه رباتهای گوگل به خوبی با این استاندارد آشنا هستند و از دستورات آن هم پیروی میکنند.
- زمانی که فایل جدید robots.txt ساخته می شود، فایل مجازی به صورت خودکار غیر فعال می شود.
- در واقع با این کار اجازه بررسی برخی از بخش های سایت که از نظر سئو اهمیت کمتری دارند را به ربات ها نمی دهند.
- به همین طریق میتوان خیلی راحت و سریع این نوع دسترسیها را مدیریت کرد.
- خود را بررسی و تست کنید تا مطمئن شوید بخش مهمی از سایت شما از طریق آن مسدود نشده باشد.
- هفته اول تعداد بازدید سایت عالی بود ولی بصورت ناگهانی افت کرد و الان به صفر رسیده.
از رایج ترین دلایل استفاده از فایل robots.txt، محدود کردن دسترسی ربات های خزنده به بخش های مختلف یک سایت است. قطعا این سوال برایتان پیش خواهد آمد که چرا برخی از صفحات نباید ایندکس شوند؟ ایندکس شدن برخی از صفحات سایت می تواند نتایج نامطلوبی را برای شما داشته باشد. خزیدن ربات در موتورهای جستجو ارزشمند است، اما خزیدن میتواند سایتهایی را که قدرت رسیدگی به بازدید رباتها و کاربران را ندارند، تحت تأثیر قرار دهد. ربات گوگل برای هر سایت یک بخش بودجه ای را که متناسب با مطلوبیت و ماهیت آنها باشد، کنار می گذارد. برخی از سایتها بزرگتر هستند، برخی دیگر از اختیارات زیادی برخوردارند، بنابراین از Googlebot کمک هزینه بیشتری دریافت میکنند.
رباتها به کوچک یا بزرگ بودن دستورات حساس هستند
مثل تصویر زیر که در آن اجازه دسترسی به پوشهای به نام photos و اجازه دسترسی به صفحهای به نام files.html را ندادیم. فرض کنید اولین بار برای انجام یک کار اداری وارد سازمان بزرگی میشوید؛ هیچ جایی را هم نمیشناسید. مدیران این سازمان هم چون میدانند مراجعه کنندهها همهجا را نمیشناسند، پس کنار در ورودی یک باجه اطلاعات درست کردهاند و یک یا چند نفر را مسئول راهنمایی و نگهبانی گذاشتهاند. اگر این افراد راهنما و نگهبان نباشند، کل سازمان دچار هرج و مرج میشود. هرکسی برای انجام کارهایش راهروها را بالا و پایین میکند و کارمندان هم نمیتوانند کارها را به درستی انجام دهند. سلام من همیشه اولش در آپلود فایل robots.txt به مشکل میخورم .
اجازه دهید برای درک آسانتر فایل Robots.txt از یک مثال ساده شروع کنیم. کدام دایرکتوری ها یا فایل هایی که User-agent نمیتواند به آنها دسترسی پیدا کند. کدام دایرکتوری ها یا فایل هایی که User-agent میتواند به آن دسترسی داشته باشد. من سئو کارم …اولش فکر میکردم کلک پوله…..ولی با مشورت با آقای تعالی این ربات رو خریدم …میشه از 20 بهش 18 داد…. این یکی از بهترین برنامه ها و پرکاربر ترین برنامه هایی هست که تا الان باهاش کار کردم و تیم پشتیبانی بسیار قوی من رو حمایت کردند همینجا از تمام تیم تشکر میکنم. محصولی که خریداری میکنید؛ بصورت یک پکیج بوده و فایلها و ربات های متعددی در آن قرار دارد.
گاها ممکن است ما قصد داشته باشیم که محتوایی خاص را از دید ایندکس گوگل پنهان کنیم. مثلا امکان دارد یک صفحه برای کمپین فروش بهاری در سایت ساخته باشیم و پس از اتمام بهار، بخواهیم آن را از ایندکس خارج کنیم. همینطور ممکن است بخواهیم ویدیوها و تصاویر سایت در ایندکس گوگل دیده نشوند. هنگامی که فایل robots.txt خود را ایجاد کردید، همیشه بهتر است آن را با استفاده از یک ابزار تستر robots.txt آزمایش کنید. ابزارهای آنلاین زیادی برای تست robots.txt وجود دارد، اما توصیه می کنیم با استفاده از ابزار موجود در سرچ کنسول گوگل تست کنید.
جمع بندی
اما ربات موتور جستجو با مشاهده یک صفحه جدید در یک سایت یا یک سایت کاملا جدید که پیش از این مشاهده نکرده است، فایل Robots.txt را بررسی میکند تا از وضعیت مجوز برای بررسی و فهرست کردن صفحه یا سایت جدید را اطلاع یابد. فایل Robots.txt یک فایل متنی ساده (با پسوند txt) است که توسط موتورهای جستجو و برخی سیستمهای دیگر خوانده میشود و نام دیگر آن «Robots Exclusion Protocol» به معنی پروتکل حذف رباتها است. این فایل حاصل یک اجماع بین توسعه دهندگان موتورهای جستجو در روزهای ابتدایی بوجود آمدن اینترنت است ولی همچنان اغلب موتورهای جستجو بدان پایبند هستند.
بعد با allow , disallow می گویی که به چی دسترسی داشته باشی و به چی دسترسی نداشته باشی. از نظر فنی می توانید فایل robots.txt خود را در هر دایرکتوری اصلی سایت خود قرار دهید. اگر برای ایندکس کردن تمام صفحات خود با مشکل مواجه هستید، ممکن است با مشکل بودجه crawl مواجه شوید. با مسدود کردن صفحات بیاهمیت با robots.txt، گوگل بات میتواند بیشتر بودجه خزشِ شما را صرف صفحاتی کند که واقعاً مهم هستند. یکی از تکنیک هایی که در سئو مورد استفاده قرار می گیرد، URL Cloacking نام دارد که برای پنهان کردن آدرس صفحات از دید موتور های جستجو و کاربران کاربرد دارد.
آموزش ویدیویی گرفتن فول بک آپ سایت وردپرس در هاست سی پنل
به این نکته توجه داشته باشید که اگر آدرسی در این فایل برای رباتها مسدود شود هیچ وقت سئو و ایندکس نمیشود. برای خزیدن در بین وبسایتها موتورهای جستجو از لینکهای قرار داده شده در سایتها استفاده میکنند. درنتیجه در داخل یک سایت چرخیده و از یک سایت به سایت دیگر لینک میشوند. درنهایت خزندهها بین میلیاردها لینک و وبسایت میخزند و اطلاعات را جمعآوری میکنند. ما در راست چین به شما کمک می کنیم کسب و کار آنلاین خودتان را با قالب های وردپرس، افزونه های کاربردی و اسکریپت های حرفه ای سریع، ساده و ارزان بسازید. برنامه نویسان راست چین تلاش می کنند راه اندازی وب سایت به یک تجربه حرفه ای از کیفیت و خدمات پشتیبانی تبدیل شود.
در سال های گذشته برای مسدود سازی دسترسی ربات ها به پنل مدیریت سایت وردپرس، باید از طریق پنل مدیریتی وردپرس، اقدام می کردیم. اما در سال 2012 با بروزرسانی وردپرس، دیگر این کار ضرورتی نداشت؛ چرا که وردپرس به صورت پیشفرض قابلیتی را به تگ هدر فایل اضافه کرده که تگ noindex و مسدود سازی یا disallow در آن گنجانده شده است. در نتیجه صفحه پنل مدیریت سایت وردپرس بدون هیچ اقدام خاصی از لیست ایندکس موتورهای جستجو خارج شده است. اگر این فایل در هاست سایت شما آپلود نشده باشد، خزندگان و رباتهای موتورهای جستجو امکان دسترسی به تمام صفحات عمومی را خواهند داشت و قادر هستند تا تمام محتوای سایت شما را ایندکس کنند.