در فایل robots.txt شما قادر خواهید بود تا برای رباتهای مختلف، دستورالعملهای مختلفی صادر کنید. اگر بعد از وارد کردن این آدرس در مرورگر با یک صفحه 404 روبرو شدید، باید خودتان اقدام به ساخت robots سایت کنید. همینطور اگر صفحه ای خالی را مشاهده کردید، نیاز دارید فایل robots سایت را در هاست خودتان پیدا کرده و آن را ویرایش کنید. خب، تا اینجا متوجه شدیم که فایل robots.txt چیست، چه کاربردی دارد و چه زمانی باید از آن استفاده کنیم. در ادامه اول از همه یاد میگیریم که چطور وجود داشتن و نداشتن این فایل در سایت را بررسی کنیم. بعد از آن به سراغ این سوال میرویم که اگر robots در سایت ما وجود نداشته باشد چه اتفاقی می افتد و در نهایت بعد از آشنا شدن با کدهای robots.txt نحوه ساخت آن را آموزش میبینیم.
- برای جلوگیری از نمایش دادههای حساس (مانند اطلاعات خصوص کاربر) در نتایج SERP از txt استفاده نکنید.
- شناخته میشوند را مدیریت کرده و آدرس آنها را مخفی کنید تا کاربران به نوعی مجبور به کلیک روی آنها شوند.
- اگر برای تهیه فهرست تمام صفحات خود وقت کمی دارید، ممکن است با مشکل بودجه برای خزیدن روبرو شوید.
- همچنین میتوانید این فایل را دانلود کرده و روی کامپیوتر خود ویرایش کنید و در نهایت فایل ذخیره شده را با فایل قبلی جایگزین کنید.
- فایل ربات همانطور که عرض شد یک فایل متنی با نام robots.txt است و به سادگی میتوان آن را ساخت.
خود ووکامرس این صفحات رو به کمک تگ noindex میکنه و نیازی به استفاده از این فایل نیست. در مثال پایین با درج $ تأکید میکنیم که اگر در انتهای آدرسی علامت سوال (?) بود، آن آدرس باید Disallow شود. در نتیجه مثال پایین یعنی هیچ رباتی اجازهی خزش آدرسهایی که با ? پس از ورود به این گزینه، مسیر/public_html/را انتخاب کنید. اکنون فایلی که با برنامه notepad یا هر نرمافزار ویرایشگر متن دیگری که ساخته اید را با نام robots.txt ذخیره و روی هاست آپلود کنید. برای این کار کافیست گزینه Upload را انتخاب و فایل را به هاست خود اضافه کنید.
اهمیت تنظیم صحیح robots.txt با تغییرات جدید گوگل
اگر یک پایشگر در مسیر /robots.txt هیچ فایلی را مشاهده نکند، فرض را بر این قرار می دهند که هیچ فایل robots.txt در این وب سایت وجود ندارد. برای ارسال فایل ربات سایت خود به گوگل، طبق توصیه گوگل باید یک حساب سرچ کنسول بسازید. در وبمستران گوگل حساب خود را ایجاد کنید و سایت را به آن متصل کنید. اگر قبلا حساب سرچ کنسول (همان وبمستر تولز قدیم) را ایجاد کرده اید، وارد پنل کاربری خود شوید. فایل ربات همانطور که عرض شد یک فایل متنی با نام robots.txt است و به سادگی میتوان آن را ساخت. این فایل متنی شامل رشته متن هایی موسوم به “دستور” است که به ربات موتورهای جستجو مثل گوگل و بینگ می گوید چطور با سایت رفتار کنند.
پروتکل نقشه سایت به رباتها کمک میکند تا بدانند چه چیزی را در خزیدن خود در یک وبسایت قرار دهند. این فایل به جای دیگری در سایت پیوند داده نشده است، بنابراین کاربران به احتمال زیاد به آن برخورد نمی کنند، اما اکثر رباتهای خزنده وب قبل از خزیدن سایت، به دنبال این فایل میگردند. فایلهای Robots.txt (فایل روبوتس) بیشتر برای مدیریت فعالیتهای رباتهای خوب مانند خزندههای وب در نظر گرفته شدهاند، زیرا رباتهای بد احتمالاً دستورالعملها را دنبال نمیکنند. فایل robots.txt (فایل روبوت) مجموعه ای از دستورالعملها برای رباتها است. مسدود کردن دسترسی گوگل به پیوندهایی که محتوای مشابه صفحات اصلی سایت را با نشانی متفاوت ایجاد میکنند.
فایل robots. txt چگونه کار میکند ؟
REP همچنین شامل دستورالعملهایی مانند رباتهای متا و همچنین دستورالعملهای صفحه، زیر دایرکتوری یا سراسر سایت برای نحوه برخورد موتورهای جستجو با لینکها (مانند «دنبالکردن» یا دنبال نکردن «nofollow») است. فایل robots.txt بخشی از پروتکل حذف رباتها است، گروهی از استانداردهای وب که نحوه خزیدن رباتها در وب، دسترسی و فهرستبندی محتوا و ارائه آن محتوا به کاربران را تنظیم میکند. نادرست تنظیم شده باشد، می تواند باعث اشتباه در ایندکس شدن صفحات سایت شود. گاهی اوقات صاحبان سایت ها بعلت نداشتن اطلاعات کافی در این زمینه اشتباهاتی را در ساخت یا ویرایش این فایل متنی رقم می زنند که منجر به خساراتی به سئوی سایت آنها می شود. فولدرهای حاوی فایل های CSS و جاوا اسکریپت مورد نیاز در وب سایت را بلاک نکنید. چرا که گوگل علاقه مند به مشاهده وب سایت به شکلیست که برای کاربران به نمایش در می آید.
مدیریت دسترسی موتورهای جستجو
مدیریت منابع مصرفی سرور توسط رباتها امری مهم است زیرا به جز رباتهای موتورهای جستجو، رباتهای بد دیگری وجود دارند که به دستورات موجود در فایل robots.txt توجه نمیکنند. استفاده از شبکه توزیع محتوا CDN یک راه مقابله با رباتهای بد و مدیریت مصرف منابع سرور است. مثلا صفحه پرداخت سایت یا صفحه ورود به پنل کاربری سایت و… . اینها صفحاتی هستند که الزاما باید در وب سایت ما وجود داشته باشند اما به هیچ عنوان نیاز نداریم در نتایج ایندکس شوند. همینطور باید یادمان باید که ایندکس شدن این صفحات به دلیل مطالب کمی که درون خود دارند، باعث کاهش قدرت سئو کل سایت میشود.