सेमल्ट: Googlebot क्या है?

- परिचय
- गूगलबॉट क्या है?
- किसी को Googlebot से क्यों चिंतित होना चाहिए?
- Googlebot कुछ साइटों के सभी पृष्ठों को क्रॉल क्यों नहीं करता है?
- Googlebot के बजट को अधिकतम करने के लिए अपनी साइट को कैसे अनुकूलित करें
- निष्कर्ष
परिचय
क्या आप जानते हैं कि Google आपकी खोज के लिए संसाधन कैसे ढूंढता है? जैसा कि व्यापक रूप से माना जाता है, Google एक जानने वाली आत्मा नहीं है जो यह जानती है कि ऑनलाइन प्रत्येक सामग्री क्या है। यह किसी प्रकार का मानसिक नहीं है जो जानता है कि आपके प्रश्न का सटीक उत्तर कहां है।
हर दूसरे सर्च इंजन की तरह, इसमें सॉफ्टवेयर है जो जानकारी इकट्ठा करने के लिए हर सेकंड अरबों पृष्ठों (और साइटों) के माध्यम से क्रॉल करता है; सामग्री और उसके विषय विषय का मूल्य निकालें। ताकि जब कोई खोज की जाए, तो उन पृष्ठों से उत्तर प्राप्त किया जाए - एक पुस्तकालय की तरह।
यह बहुत कुछ SEO की तरह लगता है, और ऐसा इसलिए है क्योंकि इसका इसके साथ बहुत कुछ है। जब किसी साइट को प्रभावी ढंग से अनुकूलित किया जाता है, तो Google साइट को शीघ्रता से देखता है, उसके पृष्ठों को पढ़ता है, और जब खोज इंजन पर संबंधित खोज की जाती है तो उसे पॉप अप करता है।
लेकिन यह किसी साइट के सभी पेजों के लिए नहीं होता है, जिससे कुछ पेज बनते हैं अदृश्य दुनिया के लिए। ऐसा क्यों होता है? और इसके खिलाफ क्या किया जा सकता है (विशेषकर बहुत महत्वपूर्ण पृष्ठों के लिए)? यहां Google के वेबसाइट क्रॉलर (Googlebot) के बारे में विस्तार से बताया गया है कि यह पर्याप्त पृष्ठों को क्रॉल क्यों नहीं करता है, और वेबसाइट स्वामी Googlebot के क्रॉलिंग बजट को अधिकतम करने के लिए वेबसाइट अनुकूलन और SEO का उपयोग कैसे कर सकता है।
गूगलबॉट क्या है?
मकड़ी! क्रॉलर! ये Googlebot को दिए गए लोकप्रिय नाम हैं। ऐसा इसलिए है क्योंकि यह उस तरह से काम करता है। सॉफ़्टवेयर को उन अरबों वेबसाइटों के पृष्ठों को क्रॉल करने और देखने के लिए बनाया गया है जिन्हें जनता के लिए प्रकाशित किया गया है।
यह सही है - यदि कोई वेबसाइट निजी रहती है, तो Googlebot अपने पृष्ठों को स्कैन करने का कोई तरीका नहीं है, याद रखें कि मकड़ी मानसिक नहीं है। यह केवल पृष्ठ लिंक (एक पृष्ठ से दूसरे पृष्ठ पर) का अनुसरण करता है, फिर डेटा प्रोसेसिंग के साथ जारी रहता है। इसके पूरा होने के बाद, जानकारी को फिर एक इंडेक्स (एक Goggle लाइब्रेरी या स्टोर के रूप में याद रखने में आसान) में संकलित किया जाता है।
इस सॉफ़्टवेयर की उपस्थिति के कारण, Google एक सेकंड से भी कम समय में एक मिलियन गीगाबाइट (GB) से अधिक की जानकारी संकलित और संचित कर सकता है (ठीक है - अब यह जादू है)। फिर इस नियमित रूप से अपडेट किए गए इंडेक्स से, Google डेस्कटॉप और मोबाइल डिवाइस दोनों पर हर ऑनलाइन खोज के लिए संसाधन निकालता है।
किसी व्यक्ति को Googlebot से क्यों जुड़ना चाहिए?
Googlebot क्रॉलिंग का वेबसाइट के SEO (सर्च इंजन ऑप्टिमाइजेशन) से बहुत संबंध है। मकड़ी का पूरा सार एक साइट के पृष्ठों से जानकारी इकट्ठा करना है ताकि जब संबंधित विषयों पर खोज की जाए, तो यह पृष्ठ को ऑनलाइन खोज परिणामों में से एक के रूप में प्रदर्शित कर सके। इसलिए, जब Googlebot किसी साइट के अधिकांश पृष्ठों को लगातार क्रॉल करता है, तो दृश्यता में वृद्धि होगी जिससे ऐसे पृष्ठ पर अधिक साइट ट्रैफ़िक प्राप्त होता है (जो लक्ष्यों में से एक सही है?)
इस दृष्टांत का प्रयोग करें:
X के पास इस विषय पर एक पेज वाली वेबसाइट है: वेबसाइटों के लिए पेशेवर एसईओ. और Y वेबसाइट SEO को सर्च करता है। यदि Googlebot ने SEO पर X के पृष्ठ के माध्यम से क्रॉल किया है और इसे अनुक्रमित किया है, तो यह Google के खोज परिणामों में आने वाले परिणामों में से एक होगा। और ऐसा ही अन्य संबंधित खोजों के लिए भी होगा, भले ही यह पूरी दुनिया में एक दिन में सौ बार हो।
ध्यान दें कि इसके लिए अन्य रेखांकित कारक हैं जैसे अच्छी वेबसाइट संरचना, संबंधित, त्वरित साइट लोड समय। लेकिन केवल एक एसईओ विशेषज्ञ यह सुनिश्चित करने में सहायता कर सकता है कि ये ठीक से किए गए हैं और साइट का पृष्ठ Google के खोज परिणामों के पहले पृष्ठ पर दिखाई देता है।
Googlebot कुछ साइटों पर सभी पेजों को क्रॉल क्यों नहीं करता है?
Google के SEO ऑफ़िस-आवर हैंगआउट में से एक के दौरान, एक प्रश्न पूछा गया था कि Googlebot कुछ साइटों पर पर्याप्त पृष्ठों को क्रॉल क्यों नहीं कर रहा था। वेबसर्वर पर सार्वजनिक रूप से प्रकाशित सैकड़ों अरब से अधिक पृष्ठ हैं। लोग प्रतिदिन सर्वर पर एक नया पृष्ठ प्रकाशित करते हैं, जिसका अर्थ है कि Googlebot के अनुक्रमण के लिए अधिक पृष्ठ। हालांकि, कभी-कभी, बॉट अपेक्षा के अनुरूप काम नहीं करता है; अर्थात्; एक सेकंड से भी कम समय में एक मिलियन जीबी से अधिक जानकारी जमा करता है। ऐसा क्यों हो सकता है इसके कई कारण हैं।
सबसे पहले, यह हो सकता है कि अनुक्रमणित करने के लिए ऑनलाइन बहुत अधिक सामग्री, पृष्ठ और वेबसाइटें हों। और कुछ निम्न गुणवत्ता वाले हैं, अन्य में धीमी साइट लोडिंग गति है, और बाकी में एक जटिल साइट संरचना (या कुछ और जो एक अच्छे उपयोगकर्ता अनुभव के विरुद्ध काम करता है) के साथ अप्रासंगिक सामग्री हो सकती है। यही कारण है कि Google ने केवल उच्च-गुणवत्ता वाले वेब पृष्ठों को अनुक्रमित करने और निम्न-गुणवत्ता वाले पृष्ठों को बाहर करने की रणनीति बनाई। इस तरह, पृष्ठों को फ़िल्टर और कम किया जा सकता है (सभी पृष्ठों को ऑनलाइन अनुक्रमित करने के बजाय - मूल्यवान पृष्ठ और गैर-मूल्यवान दोनों)।
लेकिन उपरोक्त प्रश्न का पूरी तरह उत्तर नहीं देता है: Googlebot सभी साइटों को क्रॉल क्यों नहीं करता? बल्कि रुचि का प्रश्न यह है कि Googlebot किसी साइट के सभी पृष्ठों (या पर्याप्त पृष्ठों) को क्रॉल क्यों नहीं करता है। और इसके दो जवाब हैं। दीर्घ उत्तर और संक्षिप्त उत्तर:
संक्षिप्त उत्तर
Google प्रतिदिन प्रत्येक साइट को क्रॉल करने के लिए एक निश्चित मात्रा में संसाधन और समय संलग्न करता है। इसे साइट का क्रॉल बजट कहा जाता है। इसलिए बॉट इसी बजट में क्रॉलिंग और इंडेक्सिंग का अपना काम करता है। और इसलिए, दस हजार से अधिक पृष्ठों वाली वेबसाइट के लिए, सभी पृष्ठों को अनुक्रमित नहीं किया जाएगा।
हालाँकि, इसमें और भी बहुत कुछ है, जो हमें लंबे उत्तर की ओर ले जाता है:
लंबा जवाब
क्रॉल बजट वह है जो उन पृष्ठों की संख्या निर्धारित करता है जिन्हें Googlebot प्रत्येक दिन प्रति साइट क्रॉल और अनुक्रमित कर सकता है। लेकिन जैसा कि पहले उल्लेख किया गया है, इसके लिए और भी बहुत कुछ है। क्रॉल बजट के भीतर प्रत्येक साइट के माध्यम से क्रॉल करते समय कुछ कारक मकड़ी की गति निर्धारित करते हैं। सही बात? इसका मतलब है कि हालांकि बजट ने एक सीमा बनाई है, कुछ कारक बॉट की गति को या तो तेज या धीमा कर सकते हैं। उनमे शामिल है:
- धीमा सर्वर: यदि सर्वर के लिए प्रतिक्रिया समय काफी धीमा है, तो यह उस दर को बदल सकता है जिस पर बॉट क्रॉल बजट के भीतर प्रत्येक पृष्ठ के माध्यम से क्रॉल करता है। वेबसाइट के मालिक अपनी क्रॉल आंकड़े रिपोर्ट में इनकी जांच कर सकते हैं। यह सलाह दी जाती है कि 300 मिलीसेकंड से ऊपर की कोई भी चीज़ एक अच्छा प्रतिक्रिया समय नहीं है।
- वेबसाइट सर्वर होस्ट: यदि कोई वेबसाइट किसी साझा सर्वर पर होस्ट की जाती है, तो यह उस दर को धीमा कर सकती है जिस पर क्रॉलिंग के दौरान प्रत्येक पृष्ठ Google को दिखाया जाता है। ऐसा इसलिए है क्योंकि उसी सर्वर पर अन्य साइटें बड़े संसाधनों का उपयोग करके इसे धीमा कर रही हैं। यह तब और भी बुरा होता है जब एक ही सर्वर कई साइटों को होस्ट कर रहा हो।
- रूज बॉट्स: ये अन्य बॉट हैं जो रास्ते में खड़े हो सकते हैं, ब्लॉक कर सकते हैं या Googlebot के कार्यों को धीमा कर सकते हैं। वे विभिन्न रूपों में आ सकते हैं और कभी-कभी, इन बॉट्स के कार्यों को प्रबंधित और नियंत्रित करने के लिए वेबसाइट को पेशेवर मदद की आवश्यकता होती है।
- वेबसाइट की क्रॉलेबिलिटी: यह एक क्रॉलर की वेबसाइट के सभी पृष्ठों तक पहुंच की मात्रा है। जब सॉफ़्टवेयर की साइट की सामग्री तक आसान पहुंच होती है, तो क्रॉल बजट के भीतर कई पृष्ठ क्रॉल और अनुक्रमित किए जाएंगे।
Googlebot के बजट को अधिकतम करने के लिए अपनी साइट का अनुकूलन कैसे करें
पिछले अनुभाग में, हमने उन कारकों पर चर्चा की जो यह निर्धारित करते हैं कि Googlebot किसी पृष्ठ को कितनी तेजी से (या कितनी धीमी गति से) क्रॉल करता है। लेकिन बजट में बॉट द्वारा क्रॉल किए जाने वाले पृष्ठों की संख्या को अधिकतम करने के लिए एक व्यक्ति बहुत कुछ कर सकता है। संक्षेप में, यहां कुछ चीज़ें दी गई हैं जो एक वेबसाइट स्वामी प्रतिदिन क्रॉल बजट में Googlebot द्वारा क्रॉल और अनुक्रमित किए जाने वाले पृष्ठों की संख्या को अधिकतम करने के लिए कर सकता है।
- एक साइट मानचित्र विकसित करें: यह उन चीजों में से एक है जो Googlebot को किसी साइट के माध्यम से तेजी से क्रॉल करने में सहायता करने के लिए किया जा सकता है। साइट मानचित्र स्थापित किया जा सकता है, साइटमैप जनरेटर से उत्पन्न किया जा सकता है, या खरोंच से बनाया जा सकता है।
- साइट संगठन में निवेश करें: यह कैसे एक वेबसाइट संरचित है और एक साइट के भीतर पृष्ठों के वर्गीकरण के साथ क्या करना है। जब किसी साइट को संरचित किया जाता है ताकि आगंतुक आसानी से समझ सकें और अपना रास्ता नेविगेट कर सकें, इस बात की बहुत अधिक संभावना है कि Googlebot के लिए क्रॉल करना आसान होगा।
- वेबसाइट अनुकूलन: यह ऊपर वर्णित सभी बिंदुओं को सारांशित करता है। जब किसी वेबसाइट को लगातार (सही तरीके से) अनुकूलित किया जाता है, तो वेबसाइट का इंटरफ़ेस सही ढंग से संरचित किया जाएगा, और एक साइटमैप बनाया जाएगा। अन्य चीजों में क्रॉलिंग को अवरुद्ध करने वाले कारकों पर नियंत्रण शामिल है (जैसे कि robots.txt), शीर्षक अनुकूलन, सामग्री पठनीयता, सामग्री का मूल्य, और बहुत कुछ। किसी वेबसाइट को ठीक से अनुकूलित करने से Googlebot को ऐसी साइट के पृष्ठों को तेज़ी से स्कैन करने में मदद मिलेगी।
निष्कर्ष
Googlebot को Google के लिए काम करने वाले एक छोटे से इंटरनेट रोबोट के रूप में देखा जा सकता है। यह वेबसाइटों के लिंक के माध्यम से वेब सर्वर से पेज प्राप्त करने के आसपास जाता है। फिर यह प्रत्येक पृष्ठ को देखता है और इसे अनुक्रमित जानकारी के संग्रह में जोड़ता है। हालांकि, कई कारकों और चरों के कारण, बॉट प्रत्येक साइट के सभी पृष्ठों को क्रॉल नहीं कर सकता है (वास्तव में, कभी-कभी, यह पर्याप्त नहीं है)। और सभी उल्लिखित कारकों और समाधानों में से, एक पेशेवर कंपनी को किराए पर लेना सबसे आसान समाधान है जैसे सेमल्ट यह सुनिश्चित करने के लिए कि आपकी वेबसाइट के महत्वपूर्ण पृष्ठ क्रॉल और अनुक्रमित हैं - यदि सभी पृष्ठ नहीं हैं, तो यह सुनिश्चित करने के लिए सही तरीके से और सही समय पर आवश्यक सब कुछ कर सकता है।