فایل robots.txt چیست

فایل Robots.txt چیست و چه کاربردی در سئو تکنیکال سایت دارد؟

فایل robots.txt یک فایل متنی و شامل یک‌سری کد است که مثل یک راهنما و نقشه، حد و حدود ورود ربات‌های گوگل به بخش‌های مختلف سایت را مشخص می‌کند. حالا اینکه این فایل به چه دردی می‌خورد و چطور می‌توانید آن را بسازید را در این مقاله می‌خوانید.

اگر کمی با سازوکار گوگل آشنا باشید، احتمالاً می‌دانید که مسئول شناسایی و بررسی صفحات یک سایت (برای ایندکس، رتبه‌بندی و نشان دادن آن‌ها به کاربران) کراولرها یا همان ربات‌های خزنده گوگل هستند.

این خزنده‌ها با دنبال کردن لینک‌ها به صفحات مختلف سایت شما سرک می‌کشند و اطلاعاتی را که جمع‌آوری کرده‌اند در اختیار گوگل قرار می‌دهند.

گاهی اوقات لازم است که برخی از صفحات سایت‌تان را از دید این کراولرها مخفی و ورود ربات‌ها به آن صفحه خاص را مسدود کنید. این کار توسط فایلی به نام Robots.txt امکان‌پذیر است.

حالا اینکه فایل Robots.txt چیست، چه تاثیری روی سئو سایت‌‌تان دارد و اصلاً چطور می‌توانید چنین فایلی بسازید را در این مقاله و به زبان ساده توضیح خواهیم داد.

فایل Robots.txt چیست؟

ربات‌‌های خزنده گوگل تابع دستورات شما هستند؛ یعنی این شما هستید که تعیین می‌کنید این کراولرها کدام صفحات سایت‌تان را بررسی کنند و کدام یکی را نکنند. این دستور را چطور می‌توانید به ربات‌ها بدهید؟ با فایل robots.txt!

حالا فایل robots.txt چیست؟

به زبان خیلی ساده، فایل robots.txt یک فایل متنی و شامل یک‌سری کد است که مثل یک راهنما و نقشه برای ربات‌های خزنده گوگل عمل می‌کند و به آن‌ها می‌گوید کدام صفحات یا بخش‌های سایت را نباید ببینند؛ به عبارت دیگر، حد و حدود ورود ربات‌های گوگل به بخش‌های مختلف سایت را نشان می‌دهد.

در تصویر زیر می‌توانید فایل robot.txt سایت لیموهاست را ببینید:

یک نمونه فایل robotstxt

نگاه به ظاهر پیچیده این فایل نکنید، تفسیر و فهمیدین آن خیلی سخت نیست!

وقتی ربات‌ها وراد یک سایت یا صفحه‌ای از آن می‌شوند (منظورمان ربات‌های خوب مثل کراولرهای موتورهای جست‌وجو است، نه ربات‌های اسپم!) اول از همه دنبال همین فایل می‌گردند تا بدانند کدام صفحات را باید نادیده بگیرند. چطور؟

شما با مشخص کردن یک یوزر ایجنت (user-agent) که همان انواع کراولرهای جست‌وجوگر هستند و تعیین دستورالعمل‌ها (rules) محدوده دسترسی این ربات‌ها را تعریف می‌کنید.

همچنین می‌توانید از علامت ستاره «*» برای اختصاص دستورالعمل‌ها به همه یوزر ایجنت‌ها استفاده کنید؛ این ستاره قانون را برای همه ربات‌ها اعمال می‌کند. مثلاً دستورالعمل زیر به همه ربات‌ها به‌جز «DuckDuckGo» اجازه می‌دهد تا در سایت شما بخزند:

جلوتر توضیح می‌دهیم که این فایل شامل چه بخش‌هایی است و چطور آن را بسازید.

خب تا اینجا تقریباً فهمیدیم که فایل robot.txt چیست؛ قبل از اینکه وارد مسائل فنی شویم و سراغ نحوه تفسیر و ایجاد این فایل برویم، بیایید ببینیم اصلاً داشتن این فایل چه لزومی دارد.

پیشنهاد خواندنی: سئو چیست؟ راهنمای کامل

چرا Robots.txt برای سئو سایت مهم است؟

راستش را بخواهید بیشتر سایت‌ها نیازی به فایل robots.txt ندارند؛ چون خزنده‌های گوگل آنقدری باهوش هستند که خودشان هم بتوانند همه صفحات مهم سایت را کشف کنند و به‌طور خودکار صفحاتی که مهم نیستند یا تکراری هستند را کراول نکنند.

با این حال، در ۳ موقعیت استفاده از فایل robot.txt ضروری و اجتناب‌ناپذیر می‌شود:

۱) مسدود کردن برخی صفحات

بعضی وقت‌ها روی سایت‌مان صفحاتی داریم که نمی‌خواهیم توسط کراولرها شناسایی شوند؛ مثلاً صفحاتی که محتوای تکراری یا کنیبالیزیشن دارند (صفحات تکراری به‌خصوص در فروشگاه‌های اینترنتی به‌کرات دیده می‌شود)،‌ صفحه ورود یا لایگن، نسخه‌های آزمایشی یک صفحه از سایت (برای جلوگیری از کراول کردن زودتر از موعد) و…

اینجاست که می‌توانیم از فایل robots.txt استفاده کنیم و به ربات‌های گوگل بگوییم این صفحات را کراول نکنند.

۲) بهینه‌سازی بودجه خزش (Crawl Budget)

گوگل هر قدر هم که منابع و کراولر در اختیار داشته باشد، باز هم در مقایسه با میلیاردها صفحه وب موجود، محدود است. پس ناچاراً مجبور است برای کراول کردن و بررسی صفحات هر سایت، بودجه مشخصی را در نظر بگیرد.

پس منظور از کراول باجت یا بودجه خزش، تعداد صفحاتی از سایت شماست که گوگل در یک بازه زمانی معین (مثلاً ۱۲ ساعت) کراول و ایندکس می‌کند.

مثلاً اگر کراولرها بتوانند در طول ۱۲ ساعت، در ۱۰۰ صفحه از سایت شما خزش کنند، این مقدار کراول باجت شما برای آن روز است.

 اینکه بودجه سایت شما چقدر باشد، به عوامل مختلفی مثل اندازه و ساختار سایت، سرعت لود سایت، تعداد بک‌لینک‌ها و… بستگی دارد.

این را هم بگوییم که بودجه خزش یک عامل مهم در سئو سایت شماست. اگر سایت شما بودجه خزش محدودی داشته باشد، کراولرها نمی‌توانند همه صفحات مهم سایت را کشف و ایندکس کنند. در نتیجه، کسب‌ رتبه‌های بهتر در نتایج جست‌وجو برایتان سخت‌تر خواهد شد.

پس برای اینکه مهم‌ترین صفحات‌‌تان در اولویت خزش قرار بگیرد، باید بودجهٔ کراول‌تان را افزایش دهید؛ مخصوصاً اگر سایت‌تان صفحات زیادی دارد.

یکی از راهکارهای بهینه‌سازی بودجه خزش، استفاده از فایل robots.txt است. با این فایل می‌توانید به گوگل بگویید که اول سراغ کدام صفحات مهم برود و وقتش را برای صفحات بی‌اهمیت تلف نکند.

پیشنهاد خواندنی: کد اسکیما چیست و استفاده از آن‌ها چه تاثیری در سئو سایت دارد؟

جلوگیری از ایندکس شدن فایل‌های رسانه‌ای

 علاوه بر صفحات سایت، ممکن است فایل‌هایی مثل عکس، ویدیو یا PDF خاصی روی سایت‌تان داشته باشید که نخواهید ایندکس شوند و در نتایج جست‌وجو قابل دسترس باشند. با استفاده از فایل robots.txt و اضافه کردن یک خط کد به آن می‌توانید خیلی راحت این محدودیت را برای کراولرهای گوگل تعریف کنید.

نکته مهم: درست است که فایل robots.txt می‌تواند دسترسی ربات‌ها را به بخش‌های خاصی از سایت‌ کنترل و محدود کند و از این نظر خیلی مفید است؛ اما حواس‌تان به این نکته هم باشد که اگر یک اشتباه کوچک در نوشتن کدهای این فایل مرتکب شوید، می‌تواند فرایند خزش ربات‌ها در کل سایت را مختل کند.  

فایل Robots.txt سایت‌مان را چطور پیدا کنیم؟

مثل هر فایل دیگری روی سایت‌تان، فایل robots.txt هم روی سرویس میزبانی سایت‌تان قرار می‌گیرد. برای دسترسی به این فایل کافی است عبارت robots.txt را بعد از URL صفحه اصلی سایت‌تان تایپ کنید و دکمه اینتر را بزنید.

برای مثال برای دسترسی به این فایل در لیموهاست، کافی است این آدرس را جست‌وجو کنید: https://limoo.host/robots.txt

نکته حرفه‌ای

فایل robots.txt همیشه باید در سطح دامنه اصلی (root domain level) قرار بگیرد. اگر این فایل را جای دیگری مثلاً روی ساب‌دامین‌ها، یا ساب‌کتگوری‌ها و… قرار دهید، ممکن است ربات‌های خزنده تصور کنند که شما اصلاً فایل robots.txt ندارید و آن را کراول نکنند. برای نمونه این اشتباه است: https://limoo.host/blog/robots.txt

Robots.txt و Meta Robots و X-Robots چه تفاوتی دارند؟

علاوه بر فایل‌های robots.txt، ما Meta Robots و X-Robots را هم داریم که به موتورهای جست‌وجو دستور می‌دهند که چطور با محتوای سایت شما برخورد کنند.

اما این سه روش از نظر میزان کنترل، محل قرارگیری و چیزی که کنترل می‌کنند با هم فرق دارند.

فایل robots.txt که در فایل اصلی سایت شما قرار دارد و به موتورهای جست‌وجو می‌گوید که اجاره دارد روی کدام صفحات بخزد و نخزد.

اما متا روبوت‌ها قطعه کدهایی هستند که داخل بخش <head> هر صفحه سایت قرار می‌گیرند و به موتورهای جست‌وجو می‌گویند که آیا باید این صفحه را ایندکس کنند و لینک‌های داخل صفحه را فالو کنند یا نه.

تگ‌های X-Robots هم بیشتر برای فایل‌هایی غیر از HTML مثل PDF و عکس استفاده می‌شوند و در هدر HTTP فایل قرار می‌گیرند.

محل قرارگیری تگ میزان کنترل کراولرها عنصر کنترل‌شونده
Robots.txt در پوشه اصلی سایت کنترل خزش کراولرها در کل سایت کل صفحات سایت
Meta Robots داخل بخش <head> هر صفحه کنترل ایندکس شدن صفحات و فالو کردن لینک‌های هر صفحه لینک‌های هر صفحه
X-Robots هدر HTTP فایل کنترل ایندکس عکس و ویدیو و… فایل‌هایی غیر از HTML مثل PDF و عکس

یک فایل Robots.txt شامل چه بخش‌هایی است؟

هر فایل robots.txt شامل ۳ بخش اصلی است:

  • User-agent
  • Allow و Disallow
  • سایت‌مپ (Sitemap)

اولین سطر از هر دستورالعمل (یا همان directive) با یوزر ایجنت شروع می‌شود. این بخش مشخص می‌کند که کدام ربات‌ها می‌توانند یا نمی‌توانند به سایت شما دسترسی داشته باشند.

پس جلوی یوزر ایجنت باید نوع کراولری را که مدنظر دارید وارد کنید. برای مثال، اگر می‌خواهید به Googlebot بگویید که صفحه مدیریت وردپرس شما را کراول نکند، دستور شما باید این‌طور باشد:

User-agent: Googlebot
/Disallow: /wp-admin

قسمت دوم این فایل، دستورالعمل‌های Allow و Disallow هستند. درواقع در این بخش است که به کراولر می‌گویید فلان صفحه را کراول کند یا خیر. مثلاً اگر بخواهید به تمام موتورهای جست‌وجو اجازه دهید که در تمام صفحات سایت شما بخزند، باید این دستورالعمل را به فایل‌تان اضافه کنید:

* :User-agent
/ :Allow

یا اگر بخواهید خزش تمام کراولرهای موتورهای جست‌وجو را در سایت‌تان مسدود کنید، دستورالعمل شما به این صورت باید باشد:

* :User-agent
/ :Disallow

این بار شما بگویید: اگر بخواهیم دسترسی Googlebot را فقط به یکی از پست‌های وبلاگ‌مان مجاز کنیم چه دستوری باید بنویسیم؟ در قسمت کامنت منتظر پاسخ‌هایتان هستم!

یکی دیگر از قسمت‌های فایل Robots.txt، نقشه سایت است. نقشه سایت هم یک فایل متنی شبیه به فایل روبوت است، با این تفاوت که به کراولرها می‌گوید کدام صفحات مهم‌اند و باید آن‌ها را در اولویت خزش قرار دهند و ایندکس کنند. نقشه سایت را می‌توانید در بالا یا پایین یک فایل robot.txt به این صورت ببینید:

سایت مپ در فایل روبوت

نکته: درست است که شما می‌توانید (و باید) نقشه سایت XML خود را با استفاده از ابزارهای وب‌مستر مثل سرچ کنسول به گوگل ارسال کنید، ولی افزودن دستورالعمل نقشه سایت به فایل robots.txt سرعت کراول کردن را بالا می‌برد و این هم به نفع ربات‌هاست، هم شما.

به‌جز این‌ها، یک دستورالعمل هم در برخی فایل‌های Robots.txt وجود دارد که آوردن آن‌ اختیاری است؛ Crawl-delay.

در Crawl-delay شما به خزنده‌ها می‌گویید که برای جلوگیری از کاهش سرعت سایت، با کمی تاخیر صفحات را کراول کنند. مثلاً اگر بخواهید تعیین کنید که همه کراولرها بعد از هر بار خزیدن، ۵ ثانیه صبر کنند، باید این دستور را به فایل‌تان اضافه کنید:

* :User-agent
Crawl-delay: ۵

البته خزنده‌های گوگل دیگر این دستور را در فایل روبوت نمی‌خوانند و برای تنظیم کراول ریت باید از طریق سرچ کنسول اقدام کنید.

خب! تا اینجا مقدماتی که لازم بود را گفتیم و فهمیدیم بخش‌های اصلی فایل Robots.txt چیست؛ حالا وقت تمرین است!

پیشنهاد خواندنی: اسپم اسکور چیست و چه تاثیری روی سئو سایت دارد؟

بیایید یک فایل Robots.txt بسازیم!

تا اینجا گفتیم که فایل Robots.txt چیست و چه فایده‌ای دارد؛ در این بخش می‌خواهیم دست به کار شویم و یک فایل Robots.txt با هم بسازیم؛ کافی‌ست مرحله‌به‌مرحله با ما پیش بیایید.

۱) یک فایل ایجاد کنید و نام آن را Robots.txt بگذارید

برای ساخت فایل txt اول باید یک فایل یا داکیومنت با نام robots.txt باز کنید. حواستان باشد که برای این کار از نرم‌افزارهای ویرایش متن مثل ورد استفاده نکنید؛ چون ممکن است فایل را با فرمت خاصی ذخیره کند و بعداً برایتان مشکل‌ساز شود.

بهترین راه، استفاده از نوت‌پد خود ویندوز است. کافی است عبارت notepad را در سرچ‌باکس ویندوزتان سرچ کنید تا نوت‌پد برایتان باز شود.

نوت پد ویندوز

این فایل اکنون آماده اضافه کردن دستورالعمل‌ها است!

۲) دستورالعمل‌ها را به فایل Robots.txt اضافه کنید

گفتیم که هر فایل robots.txt از یک یا چند گروه از دستورالعمل‌ها یا همان directive تشکیل شده است که هر گروه با یک یوزر ایجنت شروع می‌شود و مشخص می‌کند که این یوزر ایجنت به کدام دایرکتوری‌ها (همان صفحات) یا فایل‌ها دسترسی داشته باشد و به کدام‌ها نداشته باشد.

در قسمت قبل توضیح دادیم که این دستورات را چطور بنویسید؛ ولی حالا برای محکم‌کاری یه نمونه کامل و پیچیده‌‌تر هم اینجا مثال می‌زنیم.

فرض کنیم قرار است از ورود همه کراولرهای موتورهای جست‌وجو به دایرکتوری‌های “/archive/” و “/support/” جلوگیری کنیم. دستوری که باید بنویسیم به این شکل خواهد بود:

* :User-agent
/Disallow: /archive
/Disallow: /support

برای اینکه بتوانید یک گروه جدید را شروع کنید و دستوری جدیدی را به ایجنت دیگری بدهید، کافی است دو بار اینتر بزنید و شروع به نوشتن کنید. مثلاً اگر بخواهید کراولرهای گوگل (به‌طور خاص) دایرکتوری “/clients/” شما را هم کراول نکند باید چنین دستوری را بعد از دوبار اینتر زدن به کدهای قبلی اضافه کنید:

User-agent: Googlebot
/Disallow: /clients

نکته اول: به هر یوزر ایجنت می‌توانید بیش از یک دستور بدهید، کافی است یک بار اینتر بزنید و در خط بعدی دستورتان را اضافه کنید. مثلاً اگر بخواهیم در همین مثال قبلی، به ربات‌های گوگل بگوییم که علاوه بر دایرکتوری /clients/، صفحاتی که تگ «not-for-google» دارند را هم کراول نکند، دستورمان این شکلی می‌شود:

User-agent: Googlebot
/Disallow: /clients
Disallow: /not-for-google

نکته دوم: ربات‌ها فایل را از بالا به پایین می‌خوانند و اولین گروه از دستورالعمل‌ها را که بخوانند با همان پیش می‌روند. بنابراین بهتر است ابتدا دستورالعمل‌های ربات‌های خاص را بنویسید و سپس ایجنت‌های «*» که برای مشخص کردن همه ربات‌ها به‌طور عام استفاده می‌‌شود را بیاورید.

پس اگر بخواهیم همه این دستورات را در نوت‌پد، در قالب یک فایل Robots.txt درست و اصولی در بیاوریم و سایت‌مپ را هم به آن اضافه کنیم، شکل نهایی فایل‌مان این‌طور می‌شود:

یک نمونه فایل روبوت

نکته سوم: در فایل robots.txt حتماً آدرس صفحات مورد نظرتان را بدون پروتکل و نام دامنه وارد کنید؛ چون اگر بخواهید بعداً دامنه‌تان را تغییر دهید، این فایل دیگر برای کراولرها قابل دسترس نیست.  در مثال زیر، شکل درست و نادرست را نشان داده‌ایم:

❌ * :User-agent
/Disallow: https://www.example.com/private-directory
/Disallow: https://www.example.com/temp
/Allow: https://www.example.com/important-directory

✅ * :User-agent
/Disallow: /private-directory
/Disallow: /temp
/Allow: /important-directory

به این نکته هم دقت کنید که کراولرها معمولاً فقط ۵۰۰ کیلوبایت اول فایل robots.txt را بررسی می‌کنند؛ پس بهتر است که حجم این فایل را کمتر از این مقدار نگه دارید.

پیشنهاد خواندنی: آموزش سئو محصولات در وردپرس (+ چک‌لیست سئو محصول)

۳) فایل Robots.txt را آپلود کنید

بعد از ساخت فایل robots.txt و ذخیره آن، باید فایل روبوت را روی سایت‌تان آپلود کنید و در دسترس کراولرها قرار دهید. برای این کار روش واحدی وجود ندارد و بسته به ساختار فایل، نوع هاست و سیستم مدیریت محتوای شما نحوه آپلود این فایل فرق می‌کند.

راحت‌ترین و بهترین کار راه این است که با پشتیبانی هاست‌تان تماس بگیرید تا این فایل را روی هاست‌تان آپلود کنند. (اگر از مشترکان لیموهاست هستید، می‌توانید از طریق تیکت با پشتیبان‌های ما در ارتباط باشید.)

۴) فایل Robots.txt خود را تست کنید

پس از آپلود فایل، باید ببینید آیا برای عموم در دسترس است و آیا گوگل می‌تواند آن را بخواند یا خیر. اگر یادتان باشد، کمی قبل توضیح دادیم که چطور می‌توانید فایل Robots.txt سایت‌تان را پیدا کنید. طبق همان روش پیش بروید.

اگر فایل robots.txt خود را با کدهایی که اضافه کرده‌اید می‌بینید، یعنی فایل‌تان کار می‌کند و در دسترس است؛ فقط باید یک تست کوچک هم انجام دهید و ببینید آیا برای کراولرها هم در دسترس است یا نه.

برای این کار وارد سرچ کنسول گوگل شوید و از بخش setting<Crawling روی گزارش robots.txt کلیک کنید.

گزارش فایل robots.txt در سرچ کنسول

اینجا می‌توانید ببینید که گوگل کدام فایل‌های robots.txt را برای ۲۰ میزبان برتر سایت شما پیدا کرده است، آخرین باری که آن‌ها را کراول کرده چه زمانی است و هرگونه هشدار یا خطای مربوط به این فایل را ببینید. این گزارش همچنین به شما این امکان را می‌دهد که برای مواقع اضطراری درخواست کراول مجدد فایل robots.txt را بدهید.

سوالی دارید؟

در این مقاله گفتیم که فایل‌ robots.txt چیست، چه نقشی در سئو سایت دارد و چطور می‌توانید این فایل را بسازید. اگر سوالی دارید یا در مراحل ساخت این فایل به مشکل خوردید، در بخش نظرات بنویسید تا راهنمایی‌تان کنیم.

در ضمن خوشحال می‌شویم نظرتان را درباره این مقاله بدانیم!

منابع: semrush | backlinko

الهه سرباز

من الهه‌ام؛ کارشناس بازاریابی محتوایی لیمو. قرار بود وکیل بشم، ادبیات فارسی خوندم و خودم رو تو دنیای مارکتینگ و محتوا پیدا کردم!

نظر شما راجع به این محتوا چیست؟

آخرین مطالب دسته بندی توسعه کسب‌وکار آنلاین

دیدگاه ها

اولین نفری باشید که دیدگاه خود را ثبت می کنید

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *