هل سبق لك أن بحثت عن شيء ما على جوجل Google وتساءلت، “كيف يعلم المكان الذي يبحث فيه؟” الإجابة هي “برامج الزحف على الويب”، والتي تبحث في الويب وتفهرسه بحيث يمكنك العثور على الأشياء بسهولة عبر الإنترنت. سنشرح لك كيفية ذلك.
محركات البحث وبرامج الزحف:
عندما تبحث باستخدام كلمة رئيسية في محرك بحث مثل جوجل Google أو بينغ Bing، ينتقل الموقع عبر تريليونات الصفحات لإنشاء قائمة بالنتائج المتعلقة بهذا المصطلح.
كيف تقوم محركات بالبحث في كل هذه الصفحات، وتعرف كيف تبحث فيها، وتولد هذه النتائج في غضون ثوانٍ؟
الإجابة هي برامج زحف الويب، والمعروفة أيضاً باسم العناكب. هذه برامج آلية (تسمى غالباً الروبوتات) التي تزحف أو تتصفح عبر الويب بحيث يمكن إضافتها إلى محركات البحث.
تقوم برامج الروبوت هذه بفهرسة مواقع الويب لإنشاء قائمة بالصفحات التي تظهر في النهاية في نتائج البحث.
تقوم برامج الزحف أيضاً بإنشاء نسخ من هذه الصفحات وتخزينها في قاعدة بيانات المحرك، مما يتيح لك إجراء عمليات البحث على الفور تقريباً.
وهو أيضاً السبب وراء تضمين محركات البحث غالباً نسخاً مخبأة من المواقع في قواعد بياناتها.
خرائط الموقع:
إذن، كيف تقوم برامج زحف الويب باختيار المواقع التي تريد الزحف إليها؟ حسناً، السيناريو الأكثر شيوعاً هو أن مالكي مواقع الويب يريدون أن تقوم محركات البحث بالزحف إلى مواقعهم.
يمكنهم تحقيق ذلك عن طريق مطالبة جوجل Google أو بينغ Bing أو ياهو Yahoo أو محرك بحث آخر بفهرسة صفحاتهم.
تختلف هذه العملية من محرك لآخر. أيضاً، غالباً ما تختار محركات البحث مواقع الويب الشائعة والمرتبطة جيداً للزحف عن طريق تتبع عدد المرات التي يتم فيها ربط عنوان URL بالمواقع العامة الأخرى.
يمكن لمالكي مواقع الويب استخدام عمليات معينة لمساعدة محركات البحث على فهرسة مواقع الويب الخاصة بهم، مثل تحميل خريطة الموقع.
إن خريطة الموقع هي ملف يحتوي على جميع الروابط والصفحات التي تشكل جزءاً من موقع الويب. يتم استخدامه عادةً للإشارة إلى الصفحات التي ترغب في فهرستها.
بمجرد أن تقوم محركات البحث بالفعل بالزحف إلى موقع ويب مرة واحدة، فإنها ستقوم تلقائياً بالزحف إلى هذا الموقع مرة أخرى.
يختلف التكرار بناءً على مدى شعبية موقع الويب، بالإضافة إلى مقاييس أخرى. لذلك، يحتفظ مالكو المواقع بشكل متكرر بخرائط الموقع المحدثة للسماح للمحركات بمعرفة مواقع الويب الجديدة التي يجب فهرستها.
الروبوتات والعامل الأخلاقي:
ماذا لو كان موقع الويب لا يريد أن تظهر بعض صفحاته أو كلها في محرك البحث؟ على سبيل المثال، قد لا ترغب في أن يبحث الأشخاص عن صفحة الأعضاء فقط أو يرون صفحة الخطأ 404.
إنه السبب الذي يتم لأجله تشغيل قائمة استبعاد الزحف، والمعروفة أيضاً باسم robots.txt. هذا ملف نصي بسيط يحدد لبرامج الزحف أي صفحات ويب يجب استبعادها من الفهرسة.
سبب آخر لأهمية ملف robots.txt هو أن برامج زحف الويب يمكن أن يكون لها تأثير كبير على أداء الموقع. نظراً لأن برامج الزحف تقوم بشكل أساسي بتنزيل جميع الصفحات الموجودة على موقع الويب، فإنها تستهلك الموارد ويمكن أن تتسبب في حدوث تباطؤ.
يصلون في أوقات غير متوقعة وبدون موافقة إذا لم تكن بحاجة إلى فهرسة صفحاتك بشكل متكرر، فقد يساعد إيقاف برامج الزحف في تقليل تحميل موقع الويب.
لحسن الحظ، تتوقف معظم برامج الزحف عن الزحف إلى صفحات معينة بناءً على قواعد مالك الموقع.
سحر البيانات الوصفية:
تحت عنوان URL وعنوان كل نتيجة بحث في جوجل Google، ستجد وصفاً موجزاً للصفحة. تسمى هذه الأوصاف المقتطفات.
قد تلاحظ أن مقتطف الصفحة في جوجل Google لا يتوافق دائماً مع المحتوى الفعلي لموقع الويب. وذلك لأن العديد من مواقع الويب لديها ما يسمى البيانات الوصفية، وهي أوصاف مخصصة يضيفها مالكو المواقع إلى صفحاتهم.
غالباً ما يأتي مالكو المواقع ببيانات وصفية جذابة مكتوبة لتجعلك ترغب في النقر فوق موقع ويب. يسرد جوجل Google أيضاً المعلومات الوصفية الأخرى، مثل الأسعار والتوافر. هذا مفيد بشكل خاص لأولئك الذين يديرون مواقع التجارة الإلكترونية.
البحث:
يعد البحث على الويب جزءاً أساسياً من استخدام الإنترنت. يعد البحث في الويب طريقة رائعة لاكتشاف مواقع ويب ومتاجر ومجتمعات واهتمامات جديدة.
كل يوم، تزور برامج زحف الويب ملايين الصفحات وتضيفها إلى محركات البحث. بينما تحتوي برامج الزحف على بعض الجوانب السلبية، مثل استنزاف موارد الموقع، فإنها لا تقدر بثمن لكل من مالكي المواقع والزوار.