خزش چیست؟
خزش یا کراول (Crawl) زمانی اتفاق میافتد که گوگل یا دیگر موتورهای جستجو، رباتهایی را به یک صفحه وب میفرستند که محتوای صفحه را بخواند. به واسطه خزش، رباتهای گوگل یا دیگر موتورهای جستجو متوجه میشوند چه چیزی در صفحه وجود دارد.
دقیقا خزش یا کراول چیست؟ Crawl
- خزش Crawl یک فرآیند است.
- فرایند خزش توسط خزندههای موتورهای جستجو انجام میشود.
- به خزندههای موتور جستجو؛ اسپایدر (spider)، بات یا کراولر (crawler) نیز گفته میشود.
- در فرآیند خزش، موتورهای جستجو رباتهایشان را به صفحات وب ارسال میکنند.
- رباتها اطلاعات صفحه را میخوانند و در بانک اطلاعاتی موتورهای جستجو ثبت میکنند که این ثبت شدن در نتایج جستجو، ایندکس شدن نام دارد.
- خزندههای موتورهای جستجو توسط لینک، صفحات جدید را پیدا میکنند.
واژههای خزش و ایندکس معمولا اشتباه یا جابجا استفاده میشوند. خزش اولین فرآیند یک موتور جستجو برای برای شناختن و خواندن صفحه شما و نمایش آن در نتایج جستجو است.
اگر یک صفحه خزش شود لزوما به این معنا نیست که رتبه گرفته است (یا خواهد گرفت). پس یک صفحه سایت، اول باید خزش شود و سپس (در صورت نبود مشکل) ایندکس شود.
گوگل چطور متوجه میشود که باید صفحه شما را خزش کند؟
صفحاتی که در سایت ایجاد میشوند یا صفحاتی که آپدیت میشوند باید خزش شوند. اما گوگل چطور متوجه میشود؟ روشهایی وجود دارد که گوگل را متوجه ساخت یا بروزرسانی صفحه میکند:
- داشتن یک نقشه سایت XML همراه با آدرس صفحه (URL) که در گوگل ثبت شده باشد.
- لینک داخلی که به صفحه داده میشود.
- بک لینک که به صفحه اشاره میکنند.
- درخواست ایندکس در ابزار گوگل سرچ کنسول
برای یادگیری رایگان گوگل سرچ کنسول میتوانید وارد صفحه آموزش گوگل سرچ کنسول شوید.
برای اطمینان از اینکه صفحه شما خزش شده است، سایت شما باید حاوی نقشه سایت باشد و نقشه سایت باید در سرچ کنسول گوگل بارگذاری شده باشد. سپس در سرچ کنسول میتوانید ببینید که چه چیزی ثبت و ایندکس شده است.
تصویر بالا مربوط به یک نقشه سایت است.
چنانچه یک صفحه خزش شود؛ گوگل آنالیز میکند که آیا محتوا جدید است یا نه، یا به عبارت دیگر چیزی برای ارائه به اینترنت دارد یا نه، سپس تصمیم میگیرد که آیا قابلیت رتبهبندی دارد یا خیر.
همچنین زمانی که گوگل صفحهای را خزش میکند، به لینکهای آن صفحه نگاه میکند و ربات گوگل آن صفحات را هم بررسی میکند.
استثنا: گوگل یک لینک نوفالوو را خزش نمیکند.
خزش و ایندکس متفاوت هستند!
خیلی از عباراتی که در سئو به طور مداوم تکرار میشوند ممکن است به نظر شما مترادف باشند.
خزش و ایندکس یک نمونه از دو کلمه هستند که اشتباه استفاده میشوند، خواه یا ناخواه نویسنده به تفاوت معنایی آنها دقت نمیکند.
تعدادی از مقالات سئو دقیقا به این موضوع اشاره کردهاند، اما بسیاری دیگر باعث میشوند خواننده تصور کند که این دو کلمه معنای یکسانی دارند، اما اینطور نیست.
دقیقا تفاوت بین خزش و ایندکس شدن در چیست؟
قبل از اینکه به تفاوت بین خزش و ایندکس شدن بپردازیم، اول باید توضیح دهیم که ایندکس شدن سایت یا صفحه به چه معناست!
خزش صفحه شما به هیچ وجه به معنای ایندکس شدن و پیدا شدن در نتایج جستجوی گوگل نیست.
ایندکس شدن به چه معناست؟
ایندکس (Index) شدن صفحه زمانی اتفاق میافتد که صفحه در نتایج گوگل ظاهر شود.
گوگل دقیقا بعد از خزش یک صفحه (اگر آن را شایسته بداند) آن را ایندکس میکند.
این بدین معنا نیست که هر سایتی خزش شد ایندکس هم میشود، اما هر سایتی که ایندکس شده حتما خزش هم شده است.
اگر گوگل صفحه شما را شایسته نمایش داده شدن بداند، آن را ایندکس خواهد کرد.
بعد از ایندکس شدن صفحه شما، گوگل به این فکر میافتد که صفحه شما چطور باید در نتایج جستجو ظاهر شود.
در این مرحله، گوگل تصمیم میگیرد که به صفحات سایتتان، چه رتبهای بدهد.
رتبهبندی یک صفحه توسط عوامل گوناگونی انجام میشود که بطور کلی علم سئو را شکل میدهد.
همچنین هر لینکی که در صفحه وجود داشته باشد، برای خزیده شدن توسط Googlebot برنامهریزی میشود. فقط این لینکها نیستند که خزش میشوند بلکه گفته شده است که Googlebot تا ۵ سایت آن طرف هم خزش میکند!
این بدین معناست که اگر صفحهای به یک صفحه دیگر لینک بدهد که به صفحه دیگری لینک داده بود (که ایندکس شده)، همه آنها خزش خواهند شد (این عمل تا ۵ صفحه هم تکرار میشود).
بودجه خزش مهم است
بودجه خزش تعداد صفحاتی هستند که در یک بازه زمانی مثلا یکماهه از یک سایت خزش میشوند.
بهینه سازی بودجه خزش یکی از مهمترین مفاهیم سئو تکنیکال است و از آنجا اهمیت دارد که خزش برای گوگل هزینه دارد و گوگل دوست ندارد هزینه کند. از اینرو باید کارهایی برای وبسایت انجام شود تا بودجه خزش سایت؛ استاندارد شود.
حتما میدانید که لینک سازی در سئو خیلی مهم است. بخشی از لینک سازی مربوط به داخل سایت میشود که به آن لینک سازی داخلی گفته میشود که تاثیری در افزایش بودجه خزش ندارد.
اما لینکهای ورودی (بکلینک) به سایت شما بودجه خزش سایت شما را بیشتر میکند. این موضوع؛ اهمیت بالای بک لینک سازی را نشان میدهد که باعث میشود لینکهای زیادی به سایت شما داده شود. البته کیفیت بالای صفحهای که به شما لینک میدهد، توانایی شما را در رتبه گرفتن بالا میبرد.
برای همین اکثر شرکتهای خدمات سئو، پولهای زیادی برای ساخت بک لینک هزینه میکنند.
چطور میتوان متوجه شد که گوگل چه چیزی را ایندکس کرده است؟
همانطور که اشاره شد شما اول به خزش نیاز دارید تا صفحه ایندکس شود.
راههای متعددی برای فهمیدن اینکه گوگل در سایت شما چه چیزی را ایندکس میکند وجود دارد.
۱. جستجوی پیشرفته گوگل
اولین راه این است که به سادگی وارد google.com شوید، بر قسمت تنظیمات در بخش راست پایین صفحه کلیک کنید و جستجوی پیشرفته (Advanced Search) را انتخاب کنید.
از آنجا به پایین پیمایش کنید و سایت خود را در بخش site or domain وارد کنید و جستجو را فشار دهید.
با این عمل، گوگل تمام چیزهایی که از آن سایت ایندکس کرده را به شما نشان خواهد داد که شامل: صفحات، پستها، عکسها و…
۲. سرچ اپراتور گوگل
راه سریعتر و آسانتر استفاده از اپراتور site:example.com است. با بکارگیری این اپراتور میتوانید تمام صفحاتی که مربوط به سایت شما ایندکس شده است را مشاهده نمایید.
کافی است در کادر جستجوی گوگل عبارت “عنوان صفحه site:yoursite.ir” را وارد کنید؛ البته به جای yoursite نام دامنهتان را وارد کنید.
اگر در نتاج لیست شده صفحه مورد نظر شما نبود؛ یعنی صفحه ایندکس نشده است.
۳. استفاده از سرچ کنسول
روش دیگر برای فهمیدن اینکه گوگل دقیقا چه چیزی را ایندکس میکند، استفاده از سرچ کنسول است که قبلا به اسم Google Webmaster tools شناخته میشد.
سرچ کنسول به شما اجازه قرار دادن لینک یک XML Sitemap را میدهد که به گوگل بگویید چه صفحاتی را میخواهید ایندکس کنید و هرچند وقت یکبار میخواهید برای تغییرات صفحات بررسی کند.
بعد از قرار دادن آدرس نقشه سایت، گوگل نقشه سایت را بررسی میکند و نتیجه را میتوانید مشاهده نمایید.
همچنین با استفاده از ابزار URL Inspection سرچ کنسول نیز میتوانید متوجه شوید؛ صفحه ایندکس شده است یا خیر. کافی است آدرس صفحه مورد نظرتان را وارد نمایید و اینتر را بزنید.
چگونگی تصمیمگیری گوگل برای اینکه چه چیزی را ایندکس کند؟
این جزو مهمترین سوالاتی است که همه باید بپرسند!
گوگل محتواهای جدید و تازهای را ایندکس خواهد کرد که باور دارد تجربه کاربری خوبی ارائه میدهند.
گوگل تلاش میکنند تا به افرادی که به گوگل میروند و عبارت خاصی را جستجو میکنند، مرتبطترین نتایج را نمایش دهد.
اگر درحال کپی کردن صفحاتی هستید که قبلا ایندکس شدهاند، گوگل دیگر نیازی به ایندکس مجدد صفحه شما نمیبیند.
ممکن است اصطلاح “محتوای تکراری” را در مقالات سئو دیده باشید.
محتوای تکراری برای بسیاری از سئو کاران مورد بحث برانگیزی است، اما من میگویم که در بهترین حالت، گوگل را برای پیدا کردن صفحه درست سردرگم میکند و در بدترین حالت باعث جریمه شدن شما میشود.
در کل، از محتوای تکراری دوری کنید اما اگر آنچه شما نوشتهاید بهتر از نمونههای مشابه است و اطلاعات کاملتری دارد یا گوگل به این نتیجه برسد که تجربه بهتری به کاربران ارائه میدهد، سایت شما را ایندکس میکند.
به همین دلیل است که ارائه محتوای جدید و بهینه شده برای سئو در وبلاگ بسیار مهم است.
صفحاتی با کیفیت که لینک سازی داخلی آنها به درستی انجام شده باشد، برای سئو بسیار مفید هستند.
روشهای جلوگیری از خزش
بله. در خیلی از موارد ما نمیخواهیم یک صفحه سایت خزش و ایندکس شود. چون ارزش خاصی ارائه نمیدهد یا اینکه باعث محتوای تکراری در سایت میشود.
مثلا بسیاری از سایتها دوست ندارند صفحات دستهبندی مقالات آنها خزش و ایندکس شود.
در ادامه با ۲ روش برای جلوگیری از خزش آشنا خواهید شد.
متا تگ noindex
متا تگ نوایندکس یک از مهمترین متا تگ های سئو است و در بخش head کدهای HTML یک صفحه قرار میگیرد. نمونه کد نوایندکس را در قسمت پایین بینید.
<meta name="robots" content="noindex" />
وقتی این کد در هر صفحهای قرار بگیرد به رباتهای گوگل میگوید این صفحه را ایندکس نکن. بنابراین صفحه مورد نظر خزش نمی شود.
فایل robots.txt
robots.txt یک فایل است که در شاخه اصلی وبسایت قرار میگیرد. مثلا: example.ir/robots.txt
درون این فایل میتوان کدهایی قرار داد تا یک صفحه یا یک پوشه سایت در حالت نوایندکس قرار گیرد. البته کار کردن با این فایل کمی خطرناک است و چنانچه تخصص کافی ندارید درون این فایل تغییری انجام ندهید.
اگر از این صفحه لذت بردید به این صفحه رای دهید.