از فایل Robots.txt برای جلوگیری از نمایش اطلاعات حساس مانند اطلاعات خصوصی کاربر در نتایج جستجو یا همان SERP ها استفاده نکنید. چرا که این اطلاعات با دیگر صفحات پیوند داشته و درنتیجه ممکن است همچنان ایندکس شده و یا اینکه ایندکس دیگر صفحات را هم با مشکل روبرو کنند. در یک فایل Robots.txt با چندین دستورالعمل، میتوان قوانین مجاز به دسترسی و عدم مجاز به دسترسی را ایجاد کرد. همانطور که در تصویر زیر مشاهده میکنید یک Robots.txt مشخص شده است که در آن قواعد مختلف برای رباتها توسط یک کاربر ایجاد شده است. رباتها و خزندهها فقط به مواردی که به آنها دسترسی یا همان کد follow داده شده است میتوانند مراجعه کنند. مثالهای ذکر شده با هم بهعنوان یک فایل robots.txt کامل در نظر گرفته میشوند؛ اگرچه یک فایل ربات میتواند حاوی چندین خط از عوامل و دستورالعملهای کاربر باشد (بهعنوانمثال، غیرمجاز، اجازه، تأخیر خزیدن و غیره).
- این رباتها صفحات وب را «می خزند» و محتوا را فهرست میکنند تا بتواند در نتایج موتور جستجو آن را نشان دهند.
- مدرن ترین متدهای طراحی وب در قالب هزاران محصول آماده طراحی سایت هم اکنون در دسترس شماست.
- وبمسترهای موفق همواره عملکرد و تغییرات این رباتها را دنبال کرده و مطابق با استانداردهای آنان پیشروی میکنند.
- قدم به قدم جلو میرویم تا ببینیم چطور میتوان از فایل Robots.txt استفاده کرد؛ چطور میتوانیم رباتها را محدود کنیم، چطور از ایندکس شدن صفحهها جلوگیری کنیم و در نهایت یک فایل Robots.txt عالی بسازیم.
اگه بخواهید روی چندین کامپیوتر آن را اجرا کنید برای هر دستگاه باید یک لایسنس جداگانه تهیه نمایید. دقت داشته باشید که لایسنس برنامه بعد از فعالسازی، قابلیت باطل کردن و انتقال به کامپیوتر دیگر را نـدارد. لذا قبل از فعالسازی توجه کنید که بر روی کدام دستگاه می خواهید آنرا فعال نمایید. پس شما و تقریبا همه ی ادم هایی که به عنوان یه انسان معمولی از گوگل استفاده میکنندهیچ وقت یه کلمه کلیدی ثابت رو به مدت یه هفته تا یه ماه پشت سر هم سرچ نمی زنند و روی یک سایت کلیک نمیکنند. خیر .در اینصورت نیازی به معرفی نقشه سایت به گوگل با این فایل نیست ولی در هر صورت باید این فایل موجود باشد. یه سوالی برای من ایجاد شد و اونم اینه که خب بنده میخوام وبمو ایندکس کنم نه کلیه فایل هام رو داخل هاست .
در این صفحه میتوانید با انتخاب دکمه Add Ruleقوانین سفارشی خود را برای بهبود سایت به فایل robots.txt اضافه کنید. دستور Allow به شما امکان میدهد تا به ربات گوگل بگویید که اجازه مشاهده یک فایل، در فولدری که Disallowed شده را دارد. فایل Robots.txt یک ابزار بسیار بحرانی برای سئو میباشد و اگر نتوانید به درستی آن را هندل کنید ممکن است در امنیت سایت شما تاثیر منفی داشته باشد. اما اگر اصول و قواعد و تکنیکهای آن را یاد بگیرید میتوانید به راحتی از آن برای بهبود کارایی وبسایت خود استفاده کنید. اگر میخواهید امنیت فایل ربات خود را چند درجه بالاتر ببرید از مکانیزم امنیتی Honeypot (یک مکانیزم مبتنی بر دادههایی که قابل دسترسی هستند اما دسترسی آنها به صورت مداوم مانیتور میشود) استفاده کنید. اگر از ورود آیپیهای مختلف به منابع Dissallow اطلاع داشته باشید میتوانید از یک لیست سیاه برای این کار استفاده کنید و قسمتهای مختلف سایت را با استفاده از این تکنیک ایمن کنید.
برخی از موارد استفاده رایج از فایل Robots.txt
این فایل humans.txt نام دارد و حاوی پیامی برای کاربران و بازدیدکنندگان سایت شما است و اصولاً به زبان انگلیسی نوشته میشود. چرا که در صورت ایندکس شدن، ممکن است به عنوان صفحات زامبی یا بی ارزش شناخته شوند. لازم به ذکر است که ایندکس نشدن یک صفحه از سایت، به معنای دیده نشدن آن صفحه توسط کاربر نیست. آدرس صفحات سایت خود را آنالیز کرده تا متوجه شوید کدام یک از آنها برای رباتها مسدود شده هستند. یکی از تکنیکهای سئوی کلاه سیاه است و در صورتی که به درستی آن را پیادهسازی نکنید، متهم به نقض قوانین موتورهای جستجو شده و شامل جریمههای گوگل خواهید شد.
مثلا امکان دارد یک صفحه برای کمپین فروش بهاری در سایت ساخته باشیم و پس از اتمام بهار، بخواهیم آن را از ایندکس خارج کنیم. همینطور ممکن است بخواهیم ویدیوها و تصاویر سایت در ایندکس گوگل دیده نشوند. با شرکت هاست خود در تماس باشید یا اسناد شرکت هاست خود را جستجو کنید. به عنوان مثال، «آپلود پروندههای infomaniak» را جستجو کنید.
دستورات Allow و Disallow
در برخی موارد بلاک کردن موتورهای جستجو از بررسی بخشهای مشکل دار سایت شما، مخصوصا در سایتهای که نیاز به پاکسازی سئویی گسترده دارند، میتواند مفید باشد. در نهایت پس از پیاده سازی اصلاحات سئویی میتوانید مجددا اجازه بررسی صفحات اصلاح شده را به ربات موتورهای جستجو بدهید. خوشبختانه برای بررسی صحت فایل Robots.txt میتوانید از ابزار تست سرچ کنسول کوگل استفاده نمایید تا از درستی اطلاعات وارد شده اطمینان حاصل کنید.
یعنی امکان دارد دو ربات متعلق به یک موتور جستجو یا هر سرویسی، یکی از دستورات پیروی کند و دیگری پیروی نکند. مدیریت ترافیک رباتها از این جهت اهمیت دارد که سرور میزبان وبسایت شما برای پردازش و بارگذاری صفحات برای رباتها مشغول نشود. از طرف دیگر، اکثر سرورها یا میزبانهای وبسایت از نظر پنهای باند و ترافیک محدودیت دارند؛ به همین دلیل مصرف ترافیک برای رباتها مقرون به صرفه نیست. گوگل تعدادی ربات خزنده دارد که به صورت خودکار وبسایتها را اسکن میکنند و صفحهها را با دنبال کردن لینکها از صفحهای به صفحه دیگر پیدا میکنند. همانطور که قبلاً هم گفته شد Robots.txt در پوشه اصلی سایت قرار میگیرد. این محلی پیشفرض است که رباتها و خزندهها آن را بررسی میکنند تا به دنبال این فایل باشند.
وارد اکانت سایتتان در وب مستر شوید و به نسخه قدیمی سوئیچ کنید. اما Robots.txt چیست؟ چطور این فایل را به صورت بهینه برای سئو ایجاد کنیم؟ و از کجا بدانیم که این فایل هیچ نقصی ندارد؟ در این مقاله می خواهیم همه این موارد را بررسی کنیم. در این مقاله به معرفی ابزاری بسیار کاربردی برای کاهش حجم عکس های وب سایت پرداخته ایم تا بتوانید بدون پایین آوردن کیفیت عکس ها آنها را تا حد ممکن فشرده کنید. برای تست این که یک صفحه یا هر نوع فایلی توسط فایل Robots.txt بلاک شده، و همچنین اطمینان از این که خود فایل Robots در دسترس است،میتوانید از ابزار تست کننده در سرچ کنسول گوگل استفاده کنید. فرقی نمیکند میزبان وبسایت شما یک سرور اختصاصی، اشتراکی یا مجازی است، فقط کافی است این فایل را در پوشه یا همان دایرکتوری اصلی سایت بارگذاری کنید.