در این مقاله ما می خواهیم در مورد کنترل کراولر های موتور جستجو، بلاک کردن ربات ها، فرستادن آن ها به جا هایی که می خواهیم و محدود کردن آنها از جایی که نمی خواهیم به آن جا بروند، صحبت کنیم.

برای شروع، ما می خواهیم در مورد روش های کنترل ربات ها بحث کنیم، که شامل سه روش اصلی robots.txt، meta robots و تگ nofollow که کمتر ربات ها را کنترل می کند.

همچنین چند مورد دیگر نیز وجود دارد که ما نیز در مورد آن ها بحث خواهیم کرد، از جمله ابزار وب مستر (مانند Google Search Console) و کدهای وضعیت URL نیز صحبت خواهیم کرد. اما در ابتدا اجازه دهید که به سه روش اصلی که در بالا ذکر کردیم، بپردازیم.

همانطور که می دانید Robots.txt در yoursite.com/robots.txt قرار دارد، که به کراولر ها می گوید که اجازه دارند به کجا دسترسی داشته باشند و به کجا دسترسی نداشته باشند، اما گوگل و بینگ همیشه به محتوای این فایل احترام نمی گذارند. برای مثال بسیاری از ما ها خیلی واضح به ربات های موتور جستجو گفتیم که «هی، به این کاری نداشته باش» اما یک دفعه می بینید که همین URL را در نتایج نمایش می دهد، همه ی ما از این کار موتور جستجو تعجب می کنیم که چرا این اتفاق افتاده است. بعضی وقت ها موتور های جستجو مانند گوگل و بینگ فکر می کنند که بیشتر و بهتر از شما و سایت شما و اطلاع دارند و بهتر بلدند. آن ها فکر می کنند که شاید شما اشتباه کرده اید، و با خود فکر می کنند که «هی، لینک های زیادی وجود دارد که به این محتوا اشاره می کنند، کاربران زیادی از این صفحه و محتویات آن بازدید می کنند و به آن اهمیت می دهند، پس ممکن است که شما قصد نداشته باشید که جلوی ما را برای ایندکس کردن این صفحه بگیرید». هر چند شما بهتر در باره ی یک URL خاص و منحصر به فرد، واضح تر باشید، معمولا موتورهای جستجو بهتر به نظر شما احترام می گذارند. در صورتی وضوح شما کمتر باشد موتور های جستجو کمتر به آن احترام نمی گذارند، برای مثال شما می توانید به موتور های جستجو بگوید که«این دایرکتوری و هر چیزی را که پشت آن قرار دارد را بی خیال شو» در این صورت احتمال این که موتو های جستجو به این خواسته شما عمل کنند بسیار کم خواهد بود.

 متا روبات ها Meta robots

داستان متا روبات ها Meta robots مقداری متفاوت است، آن ها به صورت منحصر به فرد در هدر صفحه ها نوشته می شوند، پس می توانیم گفت شما با تگ Meta robots تنها می توانید یک صفحه را کنترل کنید. این تگ به موتور های جستجو می گوید که آیا باید یک صفحه را وارد لیست ایندکس خود بکنند یا نه. موتور های جستجو معمولا به این روش احترام بیشتری می گذارند چون شما آن را منحصرا برای یک صفحه نوشته اید و گوگل و بینگ می خواهند به تگ Meta robots شما اعتماد داشته باشند.

نکته جالب راجب به meta robotها و robots.txt این است که گاهی این دو با هم کار می کنند و گاها نیز با هم کار نمی کنند و بسیاری از افراد افراد فعال در ضمینه سئو در این ضمینه گیج و نا امید می شوند.

برای مثال، ما یک صفحه مانند «blogtest.html» در دامنه خود داریم و می گوییم که «کراولر ها، شما اجازه ندارید که این صفحه را کراول کنید». خوب این روش خوبی است که اجازه ندهیم که این صفحه کراول شود، اما اجازه ندادن به ربات ها که یک صفحه را کراول کنند به این معنی نیست که موتور های جستجو این صفحه را در صفحه ی نتایج نشان ندهند.

خوب پس بیاید که اطمینان خود را دو برابر کنیم که این صفحه ما در نتایج جستجو نمایش داده نمی شود: پس ما تگ متا ربات را به صورت زیر قرار می دهیم:

<meta name="robots" content="noindex, follow">

بنابراین، “noindex، follow” به کراولر های موتور جستجو می گوید که آن ها می توانند پیوندهای مربوط به صفحه را دنبال کنند، اما آن ها نباید این مورد خاص را ایندکس کنند.

جواب این است که شما به موتور های جستجو گفتید که این صفحه را کراول نکند، و آن ها این کار را نکرده اند. اما با این حال آن ها هنوز آن را واردن تایج جستجوی خود می کنند. احتمالا آن ها توضیحات متا را حساب نکرده اند; ممکن است که آن ها به شما بگویند که «ما نمی توانیم توضیحات متا را به خاطر وجود فایل robots.txt سایت شامل قرار بدیم». دلیل نشان دادن این است که آن ها نمی توانند noindex را ببینند تنها چیزی مشاهده می کنند disallow است.

بنابراین، اگر واقعا بخواهید چیزی حذف شود، و کسی نتواند آن را در نتایج جستجو مشاهده کند، شما نمی توانید فقط یک کراولر را غیرفعال کنید. شما ابتدا باید متای «noindex» را بیان کنید سپس به آن ها اجازه دهید که آن را کراول کند.

خوب هر کدام از این عوامل عوارض جانبی نیز به همراه دارد. اگر بخواهیم پهنای باند کراولر ها را برای خود ذخیره کنیم Robots.txt عالی خواهد بود، اما لزوما این روش برای جلوگیری از نمایش یک صفحه در نتایج جستجو آیده ال نیست. و ما هم آن را توصیه نمی کنیم، اتقاقا زمانی تویتر همین کار را کرد. توتیر سعی کرد که نسخه های سایت خود که یکی از آن ها با www و نسخه دیگر آن بدون www بود را کانونی سازی کند، آن ها سعی کردند که به گوگل بگویند دیگر نسخه www سایت را کراول و ایندکس نکنند، اما بعدا فهمیدند که گوگل هنوز هم نسخه همراه با www را در نتیج نمایش می دهد. خوب، بعد از آن فهمیدند کراول نکردن صفحه ها تنها کافی نیست و باد شروع به کانونی سازی صفحه ها با استفاده از rel canonical و 301 redirect کردند.

Meta robotها می توانند به اجازه کراول کردن و دنبال کردن لینک ها(link-following) را بدون ایندکس کردن بدهند، ولی این روش نیازمند بودجه ای برای کراولر ها است(هر سایتی به اندازه ای مشخصی از طرف موتور های جستجو کراولر دریافت می کند) و همچنین شما هنوز هم می توانید لیست ایندکس ها خود را حفظ کنید.

کنترل ربات ها یا حفظ ایندکس

به طور کلی، برچسب nofollow، برای کنترل ربات ها یا حفظ ایندکس ها مفید نیست.

ابزارهای مدیران وب (اکثر ما آن را به عنوان کنسول جستجوی گوگل می شناسیم) دارای ابزار خاصی هستند که به شما اجازه می دهد دسترسی را محدود کرده یا نتیجه ای را از صفحه نتایج حذف کنید. به عنوان مثال ، اگر یک صفحه 404 یا صفحه ای دارید که به موتورهای جستجو می گوید کراول آن را نشان ندهد اما هنوز در نتایج نشان داده می شود ، می توانید به طور دستی در این ابزار به آنها بگویید که این کار را نکنند. به پروتکل های دیگری نیز برای کراول وجود دارد که می توانید با آنها کار کنید.

سپس کد های وضعیت URL وجود دارد(URL status codes)، که راه معتبری برای انجام این کار ها است، اما آن ها به صورت واضحی اتفاقاتی که در صفحه ی شما می افتد را تغییر می دهند.

اگر شما نتوانستید با استفاده از 404 چیزی را حدف کنید، می توانید از 410 برای حذف دائمی صفحه ها از ایندکس استفاده کنید. فقط به این موضوع توجه داشته باشید زمانی که از 410 برای حذف صفحه استفاده کنید، در صورتی که بخواهید صفحه را به حالت عادی بر گردانید و به کراولر ها اجازه بدید این صفحه را به حالت عادی برگردانید و آن را کراول و ایندکس کنید، زمان زیادی را طلب می کند. کد وضعیت 410 به موتور های جستجو می گوید که این صفحه برای همیشه از میان ما رفته است.

کد 301 که پیشتر نیز در مورد آن صحبت کرده بودیم ری‌دایرکت دائمی است و کد 302 نیز ری‌دایرکت موقت است.

 

چهار مشکل کراول و ایندکسینگ که باید حل شوند

ما چهار مشکل عمده مربوط به کراولینگ و ایندکسینگ داریم که می خواهیم آن را حل کنیم. لازم به ذکر است این موارد در CMS مانند وردپرس چندان اهمیتی ندارد، چون این کار ها به صورت پیش فرض توسط سیستم مدیریت محتوای شما انجام می شود.

 محتوایی که هنوز آماده نیست

مورد اول محتوایی است که ما هنوز آماده نکرده ایم و هنوز در حال توسعه و بهبود هستیم ، به عنوان مثال تعدادی محصول داریم و فقط توضیحات تولید کننده را داریم و می خواهیم تهیه کنندگان غذا به آن دسترسی داشته باشند بنابراین محتوا را بازنویسی می کنیم و همه مقادیر موجود در آن را منحصر به فرد و سایر موارد مختلف کنید ، صفحه ما هنوز آماده نیست بنابراین با این نوع صفحات باید چکار کنیم؟

گزینه های ما در کراول Ying و Indexing چیست؟ اگر صفحات و URL های زیادی داریم ، ممکن است به robots.txt بروم و اجازه ندهم رباتها به کراول این صفحات برسند ، و سپس کم کم اگر سایت ما آماده است ، می توانیم اجازه دهیم کراول به آنها بدهیم و شما حتی می توانید آنها را به گوگل ارسال کنید با استفاده از نقشه سایت XML اگر تعداد صفحات کمی داریم ، می توانیم از تگ noindex meta robots استفاده کنیم ، و پس از اتمام کار ، می توانیم آن برچسب ها را انتخاب کرده و سپس گوگل را هدف قرار دهیم تا بیاید و آنها را کراول فهرست بندی کند. همچنین می توانید نقشه سایت خود را برای تسریع در کار خود به Google XML ارسال کنید.

 بر خورد با محتوای تکراری و ضعیف

آیا ما باید در محتوای تکراری و ضعیف، noindex، nofollow و یا بطور بلقوه کراولر ها را برای این نوع صفحه ها غیر فعال کنیم؟ برای جواب دادن به این سوال یک مثال برای شما می آوریم، ما یک سایت فروشگاهی داریم، و می خواهیم یک سری تی‌شترت های نایکی را در ان سایت به فروش برسانیم، ما یک صفحه داریم که آدرس آن nikeshirt.html است، این صفحه ی ما به صفحه ای که حاوی نسخه بزرگتر عکس است لینک شده است، که خود آن یک صفحه ی HTML منحصر به فرد است. همچنین این صفحه به رنگ های متفاوت نیز لینک شده است که هرکدام از آن ها URL صفحه را تغییر می دهند. خوب پس در صورتی که ما سه رنگ داشته باشیم با صفحه ی دیگر بطور کل ما ۴ صفحه برای یک محصول داریم. ما نمی خواهیم که جلوی ربات ها را برای کراول کردن این صفحه ها بگیریم، همچنین توصیه نمی کنیم که از تگ noindex استفاده کنید. پس کاری که ما باید بکنیم این است که این صفحه ها را کانونی سازی کنیم.

به یاد داشته باشید اگر یک URL را disallow کنید، با این کار شما یک مانع بر روی راه rel canonical ایجاد کرده اید. پس اگر صفحه ای را disallow کردید و اجازه ندادید که کراولر موتور های جستجو وارد آن صفحه شوند انتظار نداشته باشید که گوگل بتواند rel canonical که در آن صفحه استفاده کردید را ببیند. همچنین در مثال قبل اگر کاربری به جای صفحه اصلی به لینکی که تیشرت رنگ ابی شما در آن قرار دارد، لینک بدهد، لینک اصلی هیچ اعتباری از این بک لینک دریافت نمی کند. پس لازم است که حتما ما از rel canonical استفاده کنیم و به موتور های جستجو اجازه بدیم که صفحه های ما را کراول و ایندکس کند. اگر احساس کردید شما می توانید در صفحه ی خود تگ «noindex, follow» اضافه کنید، اما به نظر ما لازم نیست که این تگ را اضافه کنید چون احتمال این وجود دارد که با تگ rel canonical شما خلل ایجاد کند.

نوع صفحه های نتایج جستجو

انتقال ارزش لینک بدون ظاهر شدن در نتایج جستجو

اگر بخواهیم ارزش یکسری لینک را بدون ظاهر شدن در نتایج جستجو، انتقال بدهیم ـ برای مثال کاربران من در یکسری صفحه ها نوابری می شوند ولی ما نمی خواهیم این صفحه ها در نتایج ظاهر شوند ـ‌ چکار باید بکنیم؟

ما می توانیم به meta robotها بگویم که «این صفحه ها و لینک هایی که در آن وجود دارد را دنبال(follow) کن، اما صفحه ها را ایندکس نکن». یک روش بسیار اسان وکاربردی خواهد بود.

هر چند شما نباید این صفحه ها را در فایل robots.txt خود disallow کنید چون در غیر این صورت گوگل تگ noindex شما را نمی بیند، کاربران بسیار زیادی این اشتباه را می کنند. موتور های جستجو نمی داند که می توانند لینک ها موجود را دنبال کنند. هر چند در بالا گفتیم که گوگل و موتور های جستجوی دیگر همیشه از فایل robots.txt اطاعت نمی کنند، اما شما نمی توانید این ریسک را بکنید و به این کار گوگل اعتماد کنید. در این ضمینه شما باید داستان را اینگونه در نظر بگیرید که گوگل به تمامی دستور های شما که در فایل robots.txt ایجاد کرده آید، احترام می گذارد. پس ما باید تگ meta robots خود را اینگونه در نظر بگیریم «noindex, follow».

نوع صفحه های نتایج جستجو

در نهایت ، نوع صفحات نتایج جستجو چگونه است؟ گوگل بارها گفته است که دوست ندارد و نمی خواهد نتایج موتور جستجوی داخلی سایت شما در صفحه نتایج جستجوی آن ظاهر شود.

گاهی اوقات یک صفحه نتایج جستجو – صفحه ای که انواع مختلفی از نتایج را از محتوا در پایگاه داده سایت شما فراخوانی می کند – در واقع می تواند یک نتیجه عالی برای کاربرانی باشد که به دنبال طیف گسترده ای از محتوا هستند. یا کسانی که می خواهند ببینند چه چیزی می توانید به آنها پیشنهاد دهید. به عنوان مثال ، سایت Yelp این کار را انجام می دهد. وقتی عبارتی مانند “رستوران های نیویورک” را جستجو می کنید ، ممکن است گوگل Yelp را به عنوان یکی از نتایج آن لیست کند. این داده های ذخیره شده خود را در قالب جستجو به شما نشان می دهد ، اما گوگل برخلاف آنچه می گوییم ، آنها را در نتایج خود نشان می دهد زیرا نتایج بسیار خوبی ارائه می دهند ، اما شما نباید کاری را که Yelp انجام می دهد انجام دهید. آهسته کنید و مجموعه ای از رایج ترین و محبوب ترین نتایج جستجو را در یک صفحه بر اساس دسته بندی نشان دهید. صفحه ای که ارزش واقعی و منحصر به فرد را ارائه می دهد فقط لیستی از نتایج جستجو نیست ، این نوع صفحات بیشتر یک صفحه فرود هستند تا یک صفحه نتایج جستجو.

چه این نوع صفحات را در سایت خود داشته باشید و چه بگویید: “موتور جستجوی ما واقعاً فقط برای کاربران داخلی است ، نیازی نیست این صفحات را در نتایج خود نشان دهید و ما نیازی به تلاش برای انجام این کار نمی بینیم. صفحات را به عنوان صفحه فرود طبقه بندی کنید »این کلمات برای گوگل کافی نیستند ، گوگل بدیهی است که نمی خواهد چنین صفحاتی را در نتایج خود ببیند ، بنابراین شما باید این صفحات را در فایل robots.txt خود در سایت خود ممنوع کنید.

در این زمینه بسیار محتاط باشید ، زیرا در غیر این صورت ممکن است به تدریج باعث مسدود شدن برخی از نتایج گوگل در سایت شما شود یا شاید تمام نتایج سایت شما ، که آسیب زیادی به سایت ،سئو و در نتیجه ترافیک ورودی شما وارد می کند. بازدید. گاهی اوقات این صفحه می تواند برای کاربران شما واقعاً مفید باشد ، بنابراین باید داده ها و آمار خود را تجزیه و تحلیل کنید و مطمئن شوید که صفحات ارزشمند شما به عنوان صفحات فرود شناخته نشده اند. اگر مطمئن هستید ، بروید و صفحه کامل جستجوی خود را ممنوع کنید. اگر بررسی کنید ، خواهید دید که بسیاری از سایت ها این کار را در فایل robots.txt انجام داده اند.