دسته‌ها
اخبار

robots txt چیست و چه کاربردی دارد؟-seroundtable | سئو

اگر وبسایت خود را به ابزار گوگل سرچ کنسول متصل کرده باشید، وقتی که ابزار تست را باز کنید از شما درخواست می‌کند که Property مورد نظرتان را انتخاب کنید. اگرچه گوگل صفحاتی که در فایل Robots.txt محدود شده‌اند را خزش و ایندکس نمی‌کند، اما ممکن است از سایر صفحات، لینک‌هایی به این صفحات محدود شده وجود داشته باشند که موجب ایندکس شدن این صفحات شوند. اما سایر ربات‌ها وقتی به این دستور می‌رسند هیچ توجهی به آن نمی‌کنند و بدون محدودیت محتوای فولدر mypic سایت شما را هم بررسی می‌کنند چرا که محدودیت شما تنها مربوط به ربات Googlebot-Image می‌شود و نه تمام ربات‌ها. بنابراین برای تهیه یک فایل robots.txt مناسب و عالی ما نیز باید با این دستورات و نحوه تفسیر آن‌ها توسط ربات‌ها آشنا باشیم. مهم‌تر از همه اینکه ربات‌های گوگل به خوبی با این استاندارد آشنا هستند و از دستورات آن هم پیروی می‌کنند.

  • زمانی که فایل جدید robots.txt ساخته می شود، فایل مجازی به صورت خودکار غیر فعال می شود.
  • در واقع با این کار اجازه بررسی برخی از بخش های سایت که از نظر سئو اهمیت کمتری دارند را به ربات ها نمی دهند.
  • به همین طریق می‌توان خیلی راحت و سریع این نوع دسترسی‌ها را مدیریت کرد.
  • خود را بررسی و تست کنید تا مطمئن شوید بخش مهمی از سایت شما از طریق آن مسدود نشده باشد.
  • هفته اول تعداد بازدید سایت عالی بود ولی بصورت ناگهانی افت کرد و الان به صفر رسیده.

از رایج ترین دلایل استفاده از فایل robots.txt، محدود کردن دسترسی ربات های خزنده به بخش های مختلف یک سایت است. قطعا این سوال برایتان پیش خواهد آمد که چرا برخی از صفحات نباید ایندکس شوند؟ ایندکس شدن برخی از صفحات سایت می تواند نتایج نامطلوبی را برای شما داشته باشد. خزیدن ربات در موتورهای جستجو ارزشمند است، اما خزیدن می‌تواند سایت‌هایی را که قدرت رسیدگی به بازدید ربات‌ها و کاربران را ندارند، تحت تأثیر قرار دهد. ربات گوگل برای هر سایت یک بخش بودجه ای را که متناسب با مطلوبیت و ماهیت آنها باشد، کنار می گذارد. برخی از سایت‌ها بزرگ‌تر هستند، برخی دیگر از اختیارات زیادی برخوردارند، بنابراین از Googlebot کمک هزینه بیشتری دریافت می‌کنند.

ربات‌ها به کوچک یا بزرگ بودن دستورات حساس هستند

مثل تصویر زیر که در آن اجازه دسترسی به پوشه‌ای به نام photos و اجازه دسترسی به صفحه‌ای به نام files.html را ندادیم. فرض کنید اولین بار برای انجام یک کار اداری وارد سازمان بزرگی می‌شوید؛ هیچ جایی را هم نمی‌شناسید. مدیران این سازمان هم چون می‌دانند مراجعه کننده‌ها همه‌جا را نمی‌شناسند، پس کنار در ورودی یک باجه اطلاعات درست کرده‌اند و یک یا چند نفر را مسئول راهنمایی و نگهبانی گذاشته‌اند. اگر این افراد راهنما و نگهبان نباشند، کل سازمان دچار هرج و مرج می‌شود. هرکسی برای انجام کارهایش راهروها را بالا و پایین می‌‌کند و کارمندان هم نمی‌توانند کارها را به درستی انجام دهند. سلام من همیشه اولش در آپلود فایل robots.txt به مشکل میخورم .

اجازه دهید برای درک آسان‌تر فایل Robots.txt از یک مثال ساده شروع کنیم. کدام دایرکتوری ها یا فایل هایی که User-agent نمی‌تواند به آنها دسترسی پیدا کند. کدام دایرکتوری ها یا فایل هایی که User-agent می‌تواند به آن دسترسی داشته باشد. من سئو کارم …اولش فکر میکردم کلک پوله…..ولی با مشورت با آقای تعالی این ربات رو خریدم …میشه از 20 بهش 18 داد…. این یکی از بهترین برنامه ها و پرکاربر ترین برنامه هایی هست که تا الان باهاش کار کردم و تیم پشتیبانی بسیار قوی من رو حمایت کردند همینجا از تمام تیم تشکر میکنم. محصولی که خریداری میکنید؛ بصورت یک پکیج بوده و فایلها و ربات های متعددی در آن قرار دارد.

گاها ممکن است ما قصد داشته باشیم که محتوایی خاص را از دید ایندکس گوگل پنهان کنیم. مثلا امکان دارد یک صفحه برای کمپین فروش بهاری در سایت ساخته باشیم و پس از اتمام بهار، بخواهیم آن را از ایندکس خارج کنیم. همینطور ممکن است بخواهیم ویدیوها و تصاویر سایت در ایندکس گوگل دیده نشوند. هنگامی که فایل robots.txt خود را ایجاد کردید، همیشه بهتر است آن را با استفاده از یک ابزار تستر robots.txt آزمایش کنید. ابزارهای آنلاین زیادی برای تست robots.txt وجود دارد، اما توصیه می کنیم با استفاده از ابزار موجود در سرچ کنسول گوگل تست کنید.

جمع بندی

اما ربات موتور جستجو با مشاهده یک صفحه جدید در یک سایت یا یک سایت کاملا جدید که پیش از این مشاهده نکرده است، فایل Robots.txt را بررسی می‌کند تا از وضعیت مجوز برای بررسی و فهرست کردن صفحه یا سایت جدید را اطلاع یابد. فایل Robots.txt یک فایل متنی ساده (با پسوند txt) است که توسط موتورهای جستجو و برخی سیستم‌های دیگر خوانده می‌شود و نام دیگر آن «Robots Exclusion Protocol» به معنی پروتکل حذف ربات‌ها است. این فایل حاصل یک اجماع بین توسعه دهندگان موتورهای جستجو در روزهای ابتدایی بوجود آمدن اینترنت است ولی همچنان اغلب موتورهای جستجو بدان پایبند هستند.

بعد با allow , disallow می گویی که به چی دسترسی داشته باشی و به چی دسترسی نداشته باشی. از نظر فنی می توانید فایل robots.txt خود را در هر دایرکتوری اصلی سایت خود قرار دهید. اگر برای ایندکس کردن تمام صفحات خود با مشکل مواجه هستید، ممکن است با مشکل بودجه crawl مواجه شوید. با مسدود کردن صفحات بی‌اهمیت با robots.txt، گوگل بات می‌تواند بیشتر بودجه خزشِ شما را صرف صفحاتی کند که واقعاً مهم هستند. یکی از تکنیک هایی که در سئو مورد استفاده قرار می گیرد، URL Cloacking نام دارد که برای پنهان کردن آدرس صفحات از دید موتور های جستجو و کاربران کاربرد دارد.

آموزش ویدیویی گرفتن فول بک آپ سایت وردپرس در هاست سی پنل

به این نکته توجه داشته باشید که اگر آدرسی در این فایل برای ربات‌ها مسدود شود هیچ وقت سئو و ایندکس نمی‌شود. برای خزیدن در بین وب‌سایت‌ها موتورهای جستجو از لینک‌های قرار داده شده در سایت‌ها استفاده می‌کنند. درنتیجه در داخل یک سایت چرخیده و از یک سایت به سایت دیگر لینک می‌شوند. درنهایت خزنده‌ها بین میلیاردها لینک و وب‌سایت می‌خزند و اطلاعات را جمع‌آوری می‌کنند. ما در راست چین به شما کمک می کنیم کسب و کار آنلاین خودتان را با قالب های وردپرس، افزونه های کاربردی و اسکریپت های حرفه ای سریع، ساده و ارزان بسازید. برنامه نویسان راست چین تلاش می کنند راه اندازی وب سایت به یک تجربه حرفه ای از کیفیت و خدمات پشتیبانی تبدیل شود.

در سال های گذشته برای مسدود سازی دسترسی ربات ها به پنل مدیریت سایت وردپرس، باید از طریق پنل مدیریتی وردپرس، اقدام می کردیم. اما در سال 2012 با بروزرسانی وردپرس، دیگر این کار ضرورتی نداشت؛ چرا که وردپرس به صورت پیشفرض قابلیتی را به تگ هدر فایل اضافه کرده که تگ noindex و مسدود سازی یا disallow در آن گنجانده شده است. در نتیجه صفحه پنل مدیریت سایت وردپرس بدون هیچ اقدام خاصی از لیست ایندکس موتورهای جستجو خارج شده است. اگر این فایل در هاست سایت شما آپلود نشده باشد، خزندگان و ربات‌های موتورهای جستجو امکان دسترسی به تمام صفحات عمومی را خواهند داشت و قادر هستند تا تمام محتوای سایت شما را ایندکس کنند.