آموزش و نحوه کار robot.txt

توسط حمیدرضا عباسی
یکی از عواملی که در سئو وب سایت تاثیر زیادی دارد تنظیم درست فایل robots.txt است، اشتباه در این فایل میتواند به طور کلی سایت شما را نابود کند و دقیقا عکس این قضیه وجود دارد که در صورتی که شما به درستی این فایل ایجاد کنید می تواند در سئو وب سایت شما بسیار موثر باشد.
در مقاله از سری مقاله های سئو در گروه طراحی سایت وب شهر به آموزش و نحوه کار robot.txt می پردازیم.
فایل robots.txt چیست ؟
فایل robots.txt ، فایل متنی است که در ریشه سایت قرار می گیرد و مشخص می کند که خزنده های موتورهای جستجو به چه بخش هایی از سایت می توانند دسترسی داشته باشند. این فایل شامل مجموعه کوچکی از دستورات است که دسترسی را به قسمت های مختلف سایت و هم چنین نوع خزنده وب جهت دسترسی مشخص می کند.
فایل robots.txt اجازه می دهد که صفحات بی ارزش و کم محتوا را که نمی خواهید موتورهای جستجو آنها را ایندکس کند از دید موتورهای جستجو پنهان کنید و خزنده موتور جستجو زمانی را صرف ایندکس صفحات ساده و بی ارزش نکند . شما نباید از فایل robots.txt برای مخفی کردن صفحات سایتتان از نتایج موتور جستجو استفاده کنید به این دلیل که ممکن است صفحات دیگر سایتتان به آنها اشاره کنند و صفحه از این راه ایندکس می شود و فایل robots.txt نادیده گرفته خواهد شد. اگر قصد دارید صفحاتی از سایت را از نتایج جستجو پنهان کنید بهتر است روش هایی مانند پسوردگذاری صفحات یا تگ noindex استفاده کنید.
با استفاده از این فایل می توانید فایل های منبع را در این فایل از دسترس ربات ها خارج کنید مانند تصاویر یا فایل های دیگر که اهمیت ندارند . اگر فکر می کنید این فایل ها بارگزاری صفحات دیگر را دچار مشکل می کند یا عدم حضور آنها درک صفحات را برای خزنده سخت می سازد نباید آنها را در فایل robots.txt بلوک کنید.
آشنایی با برخی از محدودیت های فایل robots.txt
دستورات robots.txt فقط دستور هستند
دستورات فایل robots.txt نمی توانند خزنده ها را وادار کنند که با سایت شما چگونه رفتار کنند ، این دستورات نحوه عملکرد را به خزنده ها نشان میدهد که به کدام به بخشی دسترسی دارد یا نه . ربات های گوگل و دیگر خزنده ها از این دستورات پیروی می کنند ولی برخی از خزنده ها مانند ربات های اسپم ممکن است سرپیچی کنند. بنابراین اگر می خواهید اطلاعاتی را محرمانه حفظ کنید همان طور که قبلا گفتیم بهتر است از پسوردگذاری صفحات در سرور استفاده کنید.
خزنده های مختلف تفسیرهای متفاوتی دارند
تمامی خزنده های وب دستورات فایل robots.txt را دنبال می کنند ، هر کدام از خزنده ها ممکن است متفاوت از دیگری دستورات را تفسیر کنند. شما باید با نحوه مناسب و درست تعریف دستورات آشنایی داشته باشید تا همه ربات ها قادر به پیروی و دنبال کردن دستورات باشند.
*** توجه داشته باشید که فایل robots.txt نسبت به بزرگ و کوچک بودن حروف انگلیسی حساس بوده و آدرس صفحات باید به دقت وارد شوند. پس از ساخت فایل مورد نظر خود و ذخیره آن در فرمت txt آن را بر روی سرور و در ریشه اصلی کپی کنید. قوانین اعمال شده برای روبات هایی هستند که از این پس به سایت شما وارد میشوند حذف صفحاتی که در گذشته ایندکس شده اند از دیتابیس گوگل نیازمند گذشت زمان خواهد بود.
ساختار فایل robots.txt
دستورات موجود در فایل robots.txt به شرح زیر هستند :
*** User-agent : نوع روباتی است که نباید به صفحه دسترسی داشته باشد.
*** Disallow: آدرس صفحه ای است که میخواهید از دید روبات ها پنهان بماند.
مثال :
لیست تمامی روبات های اینترنتی معتبر در دیتابیس Web Robots Database موجود است و شما میتوانید با قرار دادن نام هریک بعنوان User-agent قوانین مشخصی برای آنها تعریف کنید و یا با استفاده از کاراکتر * به جای نام در فایل robots.txt یک قانون را برای همه روبات ها اعمال کنید. مانند:
User-agent: *
Disallow: /folder1/
موتور جستجوی گوگل چندیدن نوع روبات مخصوص بخود دارد که معروفترین آنها با نام Googlebot شناخته میشود و وظیفه بررسی و ایندکس صفحات وب را برعهده دارد. روبات Gogglebot-image نیز مسئول بررسی تصاویر سایت ها و ایندکس کردن آنها می باشد.
User-Agent: Googlebot
Disallow: /folder2/
شما میتوانید به روش های مختلفی قوانین خود را اعمال کنید، میتوان یک صفحه مشخص و یا یک دسته از صفحات را برای یک قانون تعریف نمود. مثال های زیر روش های مختلف استفاده از این قوانین هستند:
*** برای عدم دسترسی روبات ها به تمام محتویات سایت از کاراکتر / استفاده میکنیم
Disallow: /
*** برای عدم دسترسی به یک فولدر یا دسته از سایت نام آن را وارد کنید
Disallow: /blog/
برای اعمال محدودیت روی یک صفحه خاص آدرس دقیق آن را بدون نام سایت وارد کنید
Disallow: /blog/keyword-planner/
برای محدود کردن یک تصویر بر روی سایت آدرس آن را بهمراه User-agent مربوط به آن وارد کنید
User-agent: Googlebot-Image
Disallow: /images/dogs.jpg
و برای مخفی کردن تمام تصاویر موجود بر روی سایت از دید موتورهای جستجو از دستور زیر استفاده کنید
User-agent: Googlebot-Image
Disallow: /
همچنین شما میتوانید یک نوع فایل مشخص را از دید موتورهای جستجو مخفی نگه دارید، بعنوان مثال برای تصاویری با فرمت gif
User-agent: Googlebot
Disallow: /*.gif$
افزودن نقشه سایت به فایل robots.txt
علاوه بر مجاز و مسدود کردن لینک ها، دایرکتوری ها و فایل ها، فایل robots.txt یک قابلیت دیگر نیز دارد، از طریق این فایل می توانید نقشه xml سایت خود را به تمام ربات های خزنده معرفی کنید، برای انجام این کار کافی است با یک فاصله، آدرس کامل نقشه سایت خود را وارد نمائید، به فرض:
User-agent: *
Disallow: /articles/22.html
Disallow: /articles/23.html
Disallow: /articles/?post=159&title=وب-شهر
Sitemap: https://www.web-city.ir/sitemap.xml
تنظیم فایل robots.txt با استفاده از الگو یا Pattern
علاوه بر ایجاد تنظیمات معمولی، برخی ربات ها (از جمله ربات گوگل) از قوانین پیچیده تری نیز پشتیبانی می کنند، این قوانین بی شباهت به عبارات با قاعده یا Regular Expressions نیستند، با این تفاوت که در اینجا فقط از چند علامت خاص (* ? $) استفاده می شود.
– برای تطبیق توالی از عبارات، از علامت * استفاده می شود، به طور مثال اگر ما چند دایرکتوری داشته باشیم که با عبارت فرضی book شروع شده باشند و بخواهیم با یک دستور، دسترسی ربات را به تمام آنها مسدود کنیم، خواهیم نوشت:
User-agent: Googlebot
Disallow: /book*/
به این ترتیب فولدرهای فرضی booksell، bookread، bookiran و… برای ربات مسدود خواهند شد، لذا همان طور که ملاحظه می کنید، نقش علامت * این است که در واقع عبارات بعد از آن در تطبیق نادیده گرفته می شوند.
– برای مسدود کردن لینک های داینامیک از علامت ? و * استفاده می کنیم، به فرض دستور زیر تمام لینک های داینامیک را برای ربات غیر قابل دسترس می کند:
User-agent: *
Disallow: /*?
سایر روش های مسدود سازی لینک ها برای ربات جستجوگر
در پایان این مطلب، بد نیست اشاره ای نیز داشته باشیم به سایر روش های مسدود سازی لینک ها و صفحات، بر روی ربات های جستجوگر، علاوه بر استفاده از فایل robots.txt جهت کنترل رفتار خزنده های با اصل و نسب وب، دو روش دیگر نیز برای این کار وجود دارد، روش اول استفاده از متاتگ noindex است که در قسمت head صفحه قرار می گیرد، به فرض:
<meta name=”robots” content=”noindex” />
یا
<meta name=”googlebot” content=”noindex” />
روش دوم نیز ارسال یک سربرگ HTTP برای ربات ها در هنگامی که صفحه را درخواست می کنند است، انجام این کار در php با استفاده از توابع header و به شکل زیر صورت می گیرد:
header(“X-Robots-Tag: noindex”, true);
یا
header(“X-Robots-Tag: noindex, nofollow”, true);
برای انجام تغییرات در این فایل باید دانش کافی داشته باشید قبل از انجام هرگونه تغییرات اساسی در این فایل با کارشناسان سئو مشورت کنید. در صورت نیاز به مشاوره و راهنمایی با متخصصین ما در گروه طراحی سایت وب شهر تماس بگیرید.
مطالب پیشنهادی

روش هایی جهت حفظ رتبه در موتورهای جستجو
25 مهر 1396