دسته‌ها
اخبار

فایل robots txt چیست؟ آموزش ساخت فایل robots.txt فایل ربات سایت

در فایل robots.txt شما قادر خواهید بود تا برای ربات‌های مختلف، دستورالعمل‌های مختلفی صادر کنید. اگر بعد از وارد کردن این آدرس در مرورگر با یک صفحه 404 روبرو شدید، باید خودتان اقدام به ساخت robots سایت کنید. همینطور اگر صفحه ای خالی را مشاهده کردید، نیاز دارید فایل robots سایت را در هاست خودتان پیدا کرده و آن را ویرایش کنید. خب، تا اینجا متوجه شدیم که فایل robots.txt چیست، چه کاربردی دارد و چه زمانی باید از آن استفاده کنیم. در ادامه اول از همه یاد میگیریم که چطور وجود داشتن و نداشتن این فایل در سایت را بررسی کنیم. بعد از آن به سراغ این سوال میرویم که اگر robots در سایت ما وجود نداشته باشد چه اتفاقی می افتد و در نهایت بعد از آشنا شدن با کدهای robots.txt نحوه ساخت آن را آموزش میبینیم.

  • برای جلوگیری از نمایش داده‌‎های حساس (مانند اطلاعات خصوص کاربر) در نتایج SERP از txt استفاده نکنید.
  • شناخته می‌شوند را مدیریت کرده و آدرس آن‌ها را مخفی کنید تا کاربران به نوعی مجبور به کلیک روی آن‌ها شوند.
  • اگر برای تهیه فهرست تمام صفحات خود وقت کمی دارید، ممکن است با مشکل بودجه برای خزیدن روبرو شوید.
  • همچنین می‌توانید این فایل را دانلود کرده و روی کامپیوتر خود ویرایش کنید و در نهایت فایل ذخیره شده را با فایل قبلی جایگزین کنید.
  • فایل ربات همانطور که عرض شد یک فایل متنی با نام robots.txt است و به سادگی میتوان آن را ساخت.

خود ووکامرس این صفحات رو به کمک تگ noindex میکنه و نیازی به استفاده از این فایل نیست. در مثال پایین با درج $ تأکید می‌کنیم که اگر در انتهای آدرسی علامت سوال (?) بود، آن آدرس باید Disallow شود. در نتیجه مثال پایین یعنی هیچ رباتی اجازه‌ی خزش آدرس‌هایی که با ? پس از ورود به این گزینه، مسیر/public_html/را انتخاب کنید. اکنون فایلی که با برنامه notepad یا هر نرم‌افزار ویرایشگر متن دیگری که ساخته اید را با نام robots.txt ذخیره و روی هاست آپلود کنید. برای این کار کافیست گزینه Upload را انتخاب و فایل را به هاست خود اضافه کنید.

اهمیت تنظیم صحیح robots.txt با تغییرات جدید گوگل

اگر یک پایشگر در مسیر /robots.txt هیچ فایلی را مشاهده نکند، فرض را بر این قرار می دهند که هیچ فایل robots.txt در این وب سایت وجود ندارد. برای ارسال فایل ربات سایت خود به گوگل، طبق توصیه گوگل باید یک حساب سرچ کنسول بسازید. در وبمستران گوگل حساب خود را ایجاد کنید و سایت را به آن متصل کنید. اگر قبلا حساب سرچ کنسول (همان وبمستر تولز قدیم) را ایجاد کرده اید، وارد پنل کاربری خود شوید. فایل ربات همانطور که عرض شد یک فایل متنی با نام robots.txt است و به سادگی میتوان آن را ساخت. این فایل متنی شامل رشته متن هایی موسوم به “دستور” است که به ربات موتورهای جستجو مثل گوگل و بینگ می گوید چطور با سایت رفتار کنند.

پروتکل نقشه سایت به ربات‌ها کمک می‌کند تا بدانند چه چیزی را در خزیدن خود در یک وب‌سایت قرار دهند. این فایل به جای دیگری در سایت پیوند داده نشده است، بنابراین کاربران به احتمال زیاد به آن برخورد نمی کنند، اما اکثر ربات‌های خزنده وب قبل از خزیدن سایت، به دنبال این فایل می‌گردند. فایل‌های Robots.txt (فایل روبوتس) بیشتر برای مدیریت فعالیت‌های ربات‌های خوب مانند خزنده‌های وب در نظر گرفته شده‌اند، زیرا ربات‌های بد احتمالاً دستورالعمل‌ها را دنبال نمی‌کنند. فایل robots.txt (فایل روبوت) مجموعه ای از دستورالعمل‌ها برای ربات‌ها است. مسدود کردن دسترسی گوگل به پیوندهایی که محتوای مشابه صفحات اصلی سایت را با نشانی متفاوت ایجاد می‌کنند.

فایل robots. txt چگونه کار می‌کند ؟

REP همچنین شامل دستورالعمل‌هایی مانند ربات‌های متا و همچنین دستورالعمل‌های صفحه، زیر دایرکتوری یا سراسر سایت برای نحوه برخورد موتورهای جستجو با لینک‌ها (مانند «دنبال‌کردن» یا دنبال نکردن «nofollow») است. فایل robots.txt بخشی از پروتکل حذف ربات‌ها است، گروهی از استانداردهای وب که نحوه خزیدن ربات‌ها در وب، دسترسی و فهرست‌بندی محتوا و ارائه آن محتوا به کاربران را تنظیم می‌کند. نادرست تنظیم شده باشد، می تواند باعث اشتباه در ایندکس شدن صفحات سایت شود. گاهی اوقات صاحبان سایت ها بعلت نداشتن اطلاعات کافی در این زمینه اشتباهاتی را در ساخت یا ویرایش این فایل متنی رقم می زنند که منجر به خساراتی به سئوی سایت آنها می شود. فولدرهای حاوی فایل های CSS و جاوا اسکریپت مورد نیاز در وب سایت را بلاک نکنید. چرا که گوگل علاقه مند به مشاهده وب سایت به شکلیست که برای کاربران به نمایش در می آید.

مدیریت دسترسی موتورهای جستجو

مدیریت منابع مصرفی سرور توسط ربات‌ها امری مهم است زیرا به جز ربات‌های موتورهای جستجو، ربات‌های بد دیگری وجود دارند که به دستورات موجود در فایل robots.txt توجه نمی‌کنند. استفاده از شبکه توزیع محتوا CDN یک راه مقابله با ربات‌های بد و مدیریت مصرف منابع سرور است. مثلا صفحه پرداخت سایت یا صفحه ورود به پنل کاربری سایت و… . اینها صفحاتی هستند که الزاما باید در وب سایت ما وجود داشته باشند اما به هیچ عنوان نیاز نداریم در نتایج ایندکس شوند. همینطور باید یادمان باید که ایندکس شدن این صفحات به دلیل مطالب کمی که درون خود دارند، باعث کاهش قدرت سئو کل سایت میشود.