در صورت یافتن این فایل، آن را خوانده و سپس به پایش وب سایت ادامه می دهند. فایل های robots.txt به منزله دستورالعمل پایشگرها برای پایش وب سایت است. در صورتی که فایل robots.txt دارای دستوری برای محدود کردن پایشگرها نباشد (یا اصلا هیچ فایل robots.txt وجود نداشته باشد)، پایشگرها بدون هیچ محدودیتی به تمام قسمت های یافته شده سر زده و آنها را ایندکس می کنند. شاید بپرسید چرا باید اینکار را انجام داد؟ پاسخ این پرسش بسیار ساده است. من یک سایت تازه راه اندازی کرده ایم و نمیخواهم گوگل آن را ببیند. پس آن را از دسترسی گوگل و بینگ و هر موتور جستجوی دیگری خارج می کنم.
در عمل، فایل robots.txt نشان میدهد که آیا برخی از نرمافزارهای کرال کردن وب میتوانند قسمتهایی از یک وبسایت را کرال کنند یا خیر. این دستورالعملها با «disallowing» یا «allowing» مشخص میشوند. اصلا دستور دادن به رباتها چه فایدهای دارد؟ مگر اشکالی دارد که رباتها همینطور برای خودشان در وبسایت ما بچرند؟ بله.. اگر رباتها را کنترل نکنید، سرور هاست سایت شما درگیر رباتهایی میشود که فایدهای برای سایتتان ندارند. همچنین روی بهینهسازی سئوی سایت شما هم تاثیر میگذارد. فایل ربات robots.txt حاوی دستورالعملهایی است که برای موتورهای جستجو مشخص میکند اجازه دسترسی به کدام بخشهای وبسایت را دارند و دسترسی به کدام بخشها برای آنها مجاز نیست.
دستور سایت مپ(نقشه سایت) برای معرفی کردن نقشه سایت (سایت مپ) به کراولر ها کاربرد دارد. نقشه سایت یک فایل XML است که شامل لیستی از تمام صفحات وب سایت شما و همچنین متادیتاها می باشد (متادیتا شامل اطلاعاتی است که به هر URL منسوب می شود). فایل txt کار می کند، نقشه سایت به موتورهای جستجو اجازه می دهد تا در فهرستی از تمام صفحات وب سایت شما در یک مکان بخزند. این دستور به رباتها اجازه میدهد به یک صفحه یا بخش وبسایت دسترسی پیدا کنند.
- پس لازم است اطلاعات موجود در این مقاله را دقیقا مطالعه کنید و با آگاهی کامل نسبت به اعمال تغییرات در این فایل اقدام کنید.
- در ادامه به توضیحات بیشتری در این باره می پردازیم تا با استفاده از آن ها به گوگل بفهمانید که سایتی محبوب دارید.
- وقتی فایلی نداشته باشید ربات هم آزاد است به تمام بخش های سایت سر بزند.
- ما با سئورب، سایتی که در زمینه آموزش سئو است، از سال 96 کار خودمان رو شروع کردیم.
- با استفاده از این کد شما به رباتها اعلام میکنید که اجازه دسترسی به این فایل و بررسی آن را ندارند.
این دوره از نمایشگاه که 24مین دوره این رویداد بود با حضور 480 استارتاپ که در بخش الکام استارز حضور داشتند برگزار و استارتاپها به معرفی خدمات و تکنولوژی خود برای بازدیدکنندگان پرداختند. در این میان رویداد ویژه الکام پیچ برگزار شد که استارتاپها با حضور بر روی استیج خدمات و تکنولوژیهای استارتاپ خود را در معرض داوری قرار میدادند. که مبحث جداگانه ای داره و قصد نداریم این موضوعات رو اینجا بررسی کنیم فقط می خوام بگم که به این جنبه ها هم باید خودتون توجه داشته باشید.
بررسی و کنترل محتوای به وسیله تگ ربات های جدید گوگل
کافی است ربات های خزنده، صفحات غیرضروری مثل ادمین وردپرس، فایل افزونه ها، فولدر تم را ایندکس نکنند. با این کار، موتورهای جستجو وقت بیشتری برای ایندکس صفحات مفید و ضروری شما دارند. همانطور که همهی ما میدانیم، رباتهای موتورهای جستجو پررنگترین نقش ممکن برای معرفی کامل یک سایت به موتورهای جستجو را ایفا میکنند. گوگل به عنوان بزرگترین مرجع و گستردهترین شبکه در این زمینه، رباتهای اختصاصی و عمومی زیادی گسترش داده است.
پنهان کردن صفحات غیر ضروری بعد از طراحی سایت
در تصویر بالا گوگل اعلام می کند که چنین صفحه ای وجود دارد، اما اطلاعات آن از دید گوگل قابل مشاهده نیست، چرا که جلوی دسترسی به آن گرفته شده است. برای جلوگیری از چنین مشکلی ابتدا بایست صفحات مورد نظر را با استفاده از متا robots نوایندکس نمود و پس از خارج شدن آن صفحات از ایندکس گوگل، اقدام به بلاک نمودن آدرس ها کرد. اگر در وب سایت شما هیچ بخشی برای پنهان کردن در نتایج جستجو وجود ندارد، شاید بهتر باشد که فایل robots.txt را به کل نادیده بگیرید. آنها پس از رسیدن به یک وب سایت، قبل از پایش آن نگاهی به فایل robots.txt می اندازند.
یکی از مواردی که متخصصین بایستی در نظر بگیرند بررسی چک لیست کلیک پذیری یکی… چگونگی تاثیر سرعت سایت بر سئو و رتبه بندی گوگل (راهنمای 2021 در خصوص سرعت… در مقاله پیشرو به بررسی کامل موضوع مهمی در بخش سئو به نام راهنمای سئو… برخی وب سایتهای سریع ممکن است عملکرد بدتری نسبت به وب سایت های کند داشته… برخی از بدافزارها مانند رباتهای مخرب txt را نادیده میگیرند.
در صورتی که این فایل را بروزرسانی کردهاید بهتر است آدرس آن را برای بررسی در گوگل سرچ کنسول ارسال کنید تا سریعتر بروز رسانی شود. برخی موتورهای جستجو از چند نوع ربات برای بررسی سایتها استفاده میکنند؛ مثلاً گوگل دارای ربات Googlebot برای جستجوی ارگانیک در بین سایتها است. همچنین گوگل دارای ربات Googlebot-Image برای جست جوی تصاویر نیز است. اکثر موتورهای جستجو از قوانین یکسان استفاده میکنند، بنابراین نیازی نیست برای هر موتور جستجو یک دستورالعمل مجزا نوشته شود. این کد به ربات اجازه می دهد در فایل photos فقط عکس backlink.jpg را نمایش داده و ایندکس نماید، واجازه دسترسی به دیگر عکس های داخل فولدررا ندارد. شما با ترکیب این ۲ دستور user-agent و disallow می توانید قوانین مختلفی برای دسترسی به عکس، متن و …قسمت های مختلف سایتتان ایجاد کنید.
گوگل انقدر هوشمند هست که بفهمه این فایل js هست و نباید در نتایج بیاره. یک دونه اصلی داره که تو قسمت سئو و بخش عمومی هست، میتونید اونو درج کنید. ولی با این حال درج همه این نقشه ها در این فایل هم مشکلی ایجاد نمیکنه. اینکه نمیخواین برخی صفحات ایندکس بشن خب به کنار و اوکی هست ولی وقتی با همین کار میاین صفحات مهم رو هم از ایندکس در میارید مشکل درست میکنه، یک نمونه هم بررسی کردم و دقیقا همین یک نمونه این مشکل داشت.