راهنمای جامع استفاده از فایل Robots txt ویژگی ها و موارد استفاده | xeroseo

با لیست کردن برخی صفحات خاص و استفاده از Disallow‌ در حقیقت شما به ربات‌های مخرب و هکرها می‌گویید که این صفحات سایت مهم هستند و نباید به آن‌ها دسترسی پیدا کنید و آن‌ها به راحتی این صفحات را پیدا می‌کنند. اما اگر مسیرها و دایرکتوری‌ها را دیس‌آلو کنید این ربات‌ها صرفا می‌توانند صفحه‌ی دایرکتوری را ببینند و امکان دیدن سایر صفحات و وب‌پیج‌ها وجود ندارد. توجه داشته باشید که حتما از یک صفحه‌ی 404 یا صفحات مشابه برای دایرکتوری‌هایی که قرار نیست ایندکس شوند اما وجود دارند استفاده کنید. فایل robots.txt فایلی جهت مشخص کردن دسترسی موتورهای جستجو به وب سایت است. 5 تاکتیک سئو برای کاهش ریسک این فایل در این مقاله اموزشی سئو آمده است.

  • ایندکس شدن برخی از صفحات سایت شما باعث میشه تا نتایج بدی به دنبال داشته باشه.
  • دستورالعمل Allow در داخل فایل robots.txt دقیقا در مقابل دستورالعمل Disallow قرار می گیرد.
  • در برخی موارد بلاک کردن موتورهای جستجو از بررسی بخش‌های مشکل دار سایت شما، مخصوصا در سایت‌های که نیاز به پاکسازی سئویی گسترده دارند، می‌تواند مفید باشد.

اگر از ورود آی‌پی‌های مختلف به منابع Dissallow اطلاع داشته باشید می‌توانید از یک لیست سیاه برای این کار استفاده کنید و قسمت‌های مختلف سایت را با استفاده از این تکنیک ایمن کنید. در مثال بالا همه ربات‌های خزنده از دسترسی به تمامی آدرسهایی که دارای کاراکتر ؟ هستند منع شده‌اند. اما ربات موتور جستجو با مشاهده یک صفحه جدید در یک سایت یا یک سایت کاملا جدید که پیش از این مشاهده نکرده است، فایل Robots.txt را بررسی می‌کند تا از وضعیت مجوز برای بررسی و فهرست کردن صفحه یا سایت جدید را اطلاع یابد. حالا که متوجه شدید گوگل چه دیدی از سایت شما دارد، شاید بهتر باشد برای اصلاح این دید، دست بکار شوید. فایل Robots.txt دسترسی خزنده‌ها به بخش‌های مختلف سایت شما را کنترل می‌کنند.

http://atours.ir

مجله خبری زیرو سئو robots.txt معمولا در کنار پوشه ریشه یا اصلی سایت شما قرار میگیره. لازمه که شما بوسبه اف تی پی و یا سی پنل به مدیریت سایتتون وصل بشین تا این فایل رو ببینین. با وجود این که امروزه تمامی موتورهای جستجو به این دستورالعمل ها احترام می گذارند ولی باید توجه داشت که پیروی از آنها برای هیچ یک از موتورهای جستجو اجباری نیست. توجه داشته باشید که فایل Robots.txt تنها یک دستورالعمل اختیاری است که ممکن است برخی از موتورهای جستجو اقدام به اجرای آن نکنند.

در صورتی که شما در این فایل ها از دستورالعمل های سردرگم کننده ای استفاده کنید گوگل به صورت کاملا امن بخش های مد نظر خود را محدود می کند. در این قسمت شما می‌توانید دو فایل اصلی و مهم robots.txt و htaccess. در ادامه نحوه بروزرسانی و انجام تغییرات در داخل فایل robots.txt را در دو پلاگین یواست و رنک مت ، بررسی خواهیم کرد. گاهی اوقات با بزرگ شدن فایل ربات لازم می‌شود که یادداشت‌هایی برای خودمان بگذاریم تا بعدا خیلی سریع‌تر متوجه کارهایی که قبلا انجام داده‌ایم شویم و ضریب خطا هم کاهش پیدا کند. ربات Googlebot-Image وقتی به این دستور می‌رسد متوجه می‌شود که علارقم اینکه نباید محتوای فولدر mypic را بررسی کند اما استثنا یک فولدر به نام logo.png در آن وجود دارد که باید آن را بررسی کند.

مدیریت بهینه بودجه خزش سایت

یعنی اگر وبلاگ شما زیر دامنه سایت شما است، باید برای سایت یک فایل Robots.txt و برای وبلاگ فایل جداگانه دیگری داشته باشید. محتواها را ایندکس کنند تا به کسانی که دنبال اطلاعات در دنیای وب هستند نشان دهند. مراجعه کنندگان به سایت فقط کاربران عادی نمی باشند بلکه ربات ها نیز برای بررسی سایت شما به شما سر می زنند. لطفا در زمان پیاده سازی این بخش توجه داشته باشید که تنها یک کاراکتر اضافی می تواند تفاوت های زیادی را در این بخش به وجود بیاورد. توجه داشته باشید که دستورالعمل Crawl-delay دقیقا باید بعد از دستورالعمل های Disallow یا Allow قرار گیرد. در زمان استفاده همزمان از این دو دستورالعمل حتما دقت کنید که از wildcard ها استفاده نکنید چرا که استفاده از آنها باعث ایجاد مغایرت در دستورالعمل ها خواهد شد که در بخش بعدی به بررسی آن می پردازم.

دستورالعمل Disallow در این فایل

مطالب مرتبط