क्या होगा अगर मैं आपसे कहूं कि डेटा विज्ञान का इस्तेमाल लगभग हर — अगर हर नहीं — उद्योग में किया जा सकता है जिसके बारे में आप सोच सकते हैं? स्वास्थ्य सेवा? सही। वित्त? सही। सरकार? सही। यदि डेटा एकत्र किया जाना है, तो डेटा विज्ञान का उपयोग किया जा सकता है और किया जाना चाहिए। आर्टिफिशियल इंटेलिजेंस विशेषज्ञ एंड्रयू एनजी ( डीपलर्निंग.एआई(opens in a new tab) के संस्थापक ) इससे सहमत प्रतीत होते हैं। डेटा विज्ञान एक ऐसी प्रक्रिया है जो एआई सिद्धांतों का उपयोग करती है और एनजी का मानना है कि ” कृत्रिम बुद्धिमत्ता का पूरा लाभ उठाने के लिए डेटा-केंद्रित एआई में बदलाव(opens in a new tab) सबसे महत्वपूर्ण बदलाव है जिसे व्यवसायों को आज करने की आवश्यकता है।” सीधे शब्दों में कहें तो डेटा और डेटा विज्ञान कहीं नहीं जा रहा है, खासकर एआई के निरंतर उदय के साथ।
तो, डेटा साइंस क्या है? डेटा साइंस, इसकी प्रक्रिया, डेटा वैज्ञानिक क्या करते हैं और वे अपने अनुप्रयोगों को वास्तविक दुनिया में कैसे लाते हैं, इसके बारे में अधिक जानने के लिए पढ़ते रहें।
डेटा साइंस क्या है?
डेटा विज्ञान सूचना को व्यवस्थित करने, विश्लेषण करने और व्याख्या करने के लिए डेटा का अध्ययन है। कंपनियाँ और संगठन अपनी रणनीति को निर्देशित करने में मदद करने के लिए अपने व्यवसाय के बारे में प्रासंगिक जानकारी को उजागर करने के लिए डेटा वैज्ञानिकों को नियुक्त करते हैं। वे पैटर्न खोजने और भविष्यवाणियाँ करने के लिए डेटा का उपयोग करते हैं जो उत्पाद नियोजन, विपणन, प्रवृत्ति पूर्वानुमान और बहुत कुछ जैसे निर्णयों को प्रभावित कर सकते हैं।
पहली नज़र में, “डेटा साइंस” शब्द एक-आयामी लग सकता है। यह डेटा है और कुछ नहीं, है न? गलत। डेटा साइंस एक बहु-विषयक दृष्टिकोण है जो विभिन्न प्रथाओं – गणित, सांख्यिकी, कृत्रिम बुद्धिमत्ता, कंप्यूटर विज्ञान और मशीन लर्निंग एल्गोरिदम, डीप लर्निंग और प्रेडिक्टिव मॉडलिंग जैसी उन्नत विश्लेषण तकनीकों को जोड़ता है।
ऑक्सफोर्ड लर्नर्स डिक्शनरी डेटा को(opens in a new tab) “तथ्य या सूचना के रूप में परिभाषित करती है, खास तौर पर जब उसकी जांच की जाती है और उसका इस्तेमाल चीजों का पता लगाने या निर्णय लेने के लिए किया जाता है।” जब आप सोचते हैं – वास्तव में सोचते हैं – कि डेटा क्या है, तो इस निष्कर्ष पर पहुंचना आसान है कि दुनिया डेटा पर चलती है और हम छोटे से छोटे निर्णय लेने के लिए भी डेटा विज्ञान की प्रक्रिया का उपयोग करते हैं।
डेटा विज्ञान क्यों महत्वपूर्ण है?
कल्पना कीजिए कि आप एक नए स्मार्टफोन की तलाश में हैं। आप एक साल पहले आए नए मॉडल में अपग्रेड करने या नवीनतम संस्करण खरीदने के विकल्पों पर विचार कर रहे हैं। शोध आपको प्रत्येक फोन की कीमत, उसकी विशेषताओं और तकनीकी विशिष्टताओं तक ले जाता है। आप एक दस्तावेज़ में सभी जानकारी का ट्रैक रखते हैं जिसे आप समय-समय पर अपडेट करते हैं ताकि आप दो फोन की तुलना कर सकें। नवीनतम मॉडल के साथ जाने का फैसला करने से पहले आप यह सोचने में कुछ समय लगाते हैं कि आपके लिए कौन सा सबसे अच्छा है। आपके लिए, आपने बस एक नया फोन चुना। मेरे लिए, आपने अपना निर्णय लेने के लिए डेटा विज्ञान का उपयोग किया।
जब आप स्वास्थ्य सेवा, यात्रा, साइबर सुरक्षा और अन्य उद्योगों में डेटा विज्ञान की संभावनाओं की तुलना करते हैं, तो नया फ़ोन चुनना महत्वहीन लगता है। महिला स्वास्थ्य ऐप मासिक धर्म चक्र और ओवुलेशन शेड्यूल को ट्रैक करने के लिए डेटा विज्ञान का उपयोग करते हैं जो महिलाओं को गर्भवती होने में मदद कर सकते हैं। डेटा विज्ञान एयर ट्रैफ़िक कंट्रोल के केंद्र में है जहाँ वे ट्रैफ़िक प्रवाह और मौसम डेटा का उपयोग करके उड़ान मार्गों का सुझाव देते हैं, ट्रैफ़िक भीड़ का अनुमान लगाते हैं और देरी को कम करते हैं।
डेटा हर जगह है, और डेटा विज्ञान वह चीज है जिसका उपयोग हम इसे समझने के लिए करते हैं।
डेटा विज्ञान जीवन चक्र
डेटा विज्ञान प्रक्रिया में उस बिंदु तक पहुंचने के लिए जहां आप पूर्वानुमान और निर्णय लेने के लिए डेटा का उपयोग कर सकते हैं, आपको डेटा विज्ञान जीवन चक्र(opens in a new tab) से गुजरना होगा । आप किससे पूछते हैं, इसके आधार पर चरणों में भिन्न संख्याएं हैं, लेकिन अगर आप मुझसे पूछें, तो चक्र को बड़े करीने से पांच चरणों में बांधा जा सकता है – संग्रह (डेटा कैप्चरिंग), वेयरहाउसिंग (डेटा रखरखाव), खनन (डेटा प्रसंस्करण), अन्वेषण और पुष्टि (डेटा विश्लेषण), और रिपोर्टिंग (डेटा संचार)।
चरण 1. डेटा संग्रहण
डेटा विज्ञान का जीवन चक्र डेटा संग्रह से शुरू होता है। यह स्रोतों की पहचान करने से शुरू होता है – डेटाबेस, एपीआई, ऑनलाइन प्लेटफ़ॉर्म, सर्वेक्षण, आदि – और उन स्रोतों से संरचित और असंरचित डेटा(opens in a new tab) खींचना । ग्राहक की जानकारी (नाम, पते, क्रेडिट कार्ड नंबर) को संरचित डेटा और तस्वीरों और वीडियो को असंरचित डेटा के उदाहरण के रूप में सोचें। डेटा अधिग्रहण प्रक्रिया में न केवल डेटा प्रविष्टि शामिल है, बल्कि इसमें वेब स्क्रैपिंग जैसे डेटा निष्कर्षण की भी आवश्यकता होती है – वेबसाइटों से डेटा निकालने की एक विधि। स्रोत के आधार पर, डेटा वैज्ञानिकों को निष्कर्षण के लिए अलग-अलग उपकरणों की आवश्यकता होती है। उदाहरण के लिए, SQL क्वेरी डेटाबेस के लिए आदर्श हैं जबकि पायथन स्क्रिप्ट डेटाबेस, API, वेबसाइट और CSV फ़ाइलों से डेटा निकालने की अपनी क्षमता के साथ काफी सार्वभौमिक हैं।
चरण 2. डेटा वेयरहाउसिंग
वेयरहाउस का उद्देश्य उत्पादों, उपकरणों आदि को संग्रहीत करना है। डेटा विज्ञान जीवन चक्र में, एक बार जब आप डेटा एकत्र और निकाल लेते हैं, तो उसे डेटा वेयरहाउस में संग्रहीत और बनाए रखने की आवश्यकता होती है। वेयरहाउस में जाने से पहले, डेटा को साफ और एकीकृत करने की आवश्यकता होती है। डेटा दर्जनों अलग-अलग प्रारूपों में आ सकता है – टेक्स्ट (TXT, HTML , XML), संख्यात्मक, मल्टीमीडिया (JPEG, PNG, MP3, MP4), सारणीबद्ध डेटा (XML, Excel), और बहुत कुछ। सफाई से किसी भी त्रुटि से छुटकारा मिलेगा जबकि ETL(opens in a new tab) (निष्कर्षण, परिवर्तन, लोड) कार्य “डेटा वेयरहाउस में लोड करने के लिए कई स्रोतों से डेटा को एक एकल, सुसंगत डेटा सेट में संयोजित करते हैं।”
चरण 3. डेटा माइनिंग (या प्रसंस्करण)
डेटा माइनिंग बड़े डेटा सेट के भीतर पैटर्न और संबंधों की पहचान करने के लिए डेटा को संसाधित करने की प्रक्रिया है। इस चरण में सांख्यिकी, डेटा एनालिटिक्स और मशीन लर्निंग तकनीकों की आवश्यकता होती है, जैसे वर्गीकरण और क्लस्टरिंग, लेबल किए गए डेटा को श्रेणियों में व्यवस्थित करने या लेबल रहित डेटा को उनके सहसंबंध के आधार पर “क्लस्टर” में समूहित करने के लिए। यह समूहीकरण डेटा को डेटा विज्ञान जीवन चक्र के अगले चरण के दौरान आगे विश्लेषण करने की अनुमति देता है।
चरण 4. डेटा अन्वेषण और पुष्टि
प्रोसेसिंग के दौरान आवश्यक डेटा एनालिटिक्स और मशीन लर्निंग डेटा विश्लेषण चरण के दौरान फिर से प्रकट होते हैं। वर्गीकरण के बजाय, एक प्रकार का पर्यवेक्षित मशीन लर्निंग मॉडल, हम प्रतिगमन देखते हैं – चर के बीच संबंधों को समझने की एक तकनीक। पूर्वानुमान और गुणात्मक विश्लेषण के साथ, डेटा वैज्ञानिक पैटर्न का पता लगाने, पूर्वानुमान लगाने और निर्णय लेने में मार्गदर्शन करने के लिए डेटा का विश्लेषण करते हैं।
चरण 5. डेटा रिपोर्टिंग
डेटा विज्ञान जीवन चक्र में अंतिम चरण डेटा वैज्ञानिकों के लिए अपने निष्कर्षों को संप्रेषित करना है। इस जानकारी को प्रस्तुत करने के कई तरीके हैं, लेकिन सबसे आम तरीका रिपोर्ट और डेटा विज़ुअलाइज़ेशन के माध्यम से है। डेटा विज़ुअलाइज़ेशन विज़ुअल ग्राफ़िक्स-चार्ट, ग्राफ़, मैप, डैशबोर्ड आदि के माध्यम से डेटा का प्रतिनिधित्व है। यह हितधारकों के लिए संभव बनाता है – जिन्हें संभवतः डेटा विज्ञान प्रक्रिया के बारे में कोई जानकारी नहीं है – जानकारी को समझना और डेटा अंतर्दृष्टि को कार्रवाई योग्य व्यावसायिक निर्णयों में बदलना।
डेटा वैज्ञानिक क्या है और वे क्या करते हैं?
मुझे यकीन है कि आप नहीं जानते होंगे कि डेटा साइंस में करियर सिर्फ़ गणित, कंप्यूटर इंजीनियरिंग, एआई और सेक्स अपील से जुड़ा है? अगर आप हार्वर्ड बिजनेस स्कूल के पेशेवरों से पूछें कि डेटा साइंटिस्ट को 21वीं सदी की सबसे सेक्सी जॉब(opens in a new tab) किसने कहा है , तो आपको पता चलेगा। इससे भी सेक्सी क्या है? डेटा साइंटिस्ट के लिए औसत वार्षिक वेतन(opens in a new tab) $103,500 है।
जैसा कि पहले बताया गया है, डेटा विज्ञान एक बहु-विषयक दृष्टिकोण है जो कई प्रथाओं के सिद्धांतों का उपयोग करता है और उन्हें एक नौकरी में बदल देता है। तो डेटा वैज्ञानिक क्या है और वे क्या करते हैं? हार्वर्ड बिजनेस रिव्यू ने सोचा कि यह एक ऐसा सवाल है जिसका जवाब डेटा वैज्ञानिकों द्वारा सबसे अच्छा दिया जा सकता है, और मैं इससे सहमत हूँ। यहाँ बताया गया है कि उन्होंने(opens in a new tab) डेटा वैज्ञानिक के काम का वर्णन कैसे किया:
“सबसे पहले, डेटा वैज्ञानिक मज़बूत विश्लेषण करने के लिए एक ठोस डेटा नींव रखते हैं। फिर वे स्थायी विकास हासिल करने के लिए अन्य तरीकों के साथ-साथ ऑनलाइन प्रयोगों का उपयोग करते हैं। अंत में, वे अपने व्यवसाय और ग्राहकों को बेहतर ढंग से समझने और बेहतर निर्णय लेने के लिए मशीन लर्निंग पाइपलाइन और व्यक्तिगत डेटा उत्पाद बनाते हैं। दूसरे शब्दों में, तकनीक में, डेटा विज्ञान बुनियादी ढांचे, परीक्षण, निर्णय लेने के लिए मशीन लर्निंग और डेटा उत्पादों के बारे में है।”
आप इसे डेटा विज्ञान नौकरियों का सामान्य दायरा मान सकते हैं, लेकिन उनकी दिन-प्रतिदिन की ज़िम्मेदारियाँ कुछ इस प्रकार हो सकती हैं:
- मूल्यवान और प्रासंगिक डेटा स्रोतों की पहचान करना
- संरचित और असंरचित डेटा एकत्र करना
- डेटा संग्रहण प्रक्रिया का आकलन और सुधार करने के लिए परीक्षण करना
- पूर्वानुमान मॉडल और मशीन लर्निंग एल्गोरिदम का निर्माण
- रुझानों और पैटर्न की पहचान करने के लिए डेटा का विश्लेषण करना
- डेटा विश्लेषण के आधार पर हितधारकों को अंतर्दृष्टि और सिफारिशें संप्रेषित करना
डेटा विज्ञान के कौशल और उपकरण
एक सफल करियर के लिए, डेटा वैज्ञानिकों को अच्छी तरह से विकसित और उच्च तकनीकी कौशल की आवश्यकता होती है। बड़ी मात्रा में डेटा के साथ काम करने के लिए आवश्यक डेटा विज्ञान कौशल, रूपरेखा और तकनीकें शामिल हैं:
- गणितीय कौशल (रैखिक बीजगणित, रैखिक प्रतिगमन और सांख्यिकीय विश्लेषण)
- प्रोग्रामिंग भाषाएँ ( पायथन , आर)
- बिग डेटा प्रौद्योगिकियां (अपाचे हाडोप और अपाचे स्पार्क)
- डेटा माइनिंग में अनुभव
- डेटाबेस प्रबंधन और उपकरण (SQL, NoSQL, Microsoft Excel)
- मशीन लर्निंग तकनीकें (रैखिक प्रतिगमन, लॉजिस्टिक प्रतिगमन, निर्णय वृक्ष आदि)
- API के साथ काम करने का अनुभव
- डेटा विज़ुअलाइज़ेशन (टेबल्यू, गूगल चार्ट्स, माइक्रोसॉफ्ट पावर BI, D3.js)
- सॉफ्ट स्किल्स: समस्या समाधान, विवरण पर ध्यान, संचार
डेटा वैज्ञानिक ही एकमात्र तकनीकी पेशेवर नहीं हैं जिन्हें इन कौशलों और योग्यताओं की आवश्यकता है। अन्य डेटा विज्ञान करियर जो आपको बहुत अधिक ओवरलैप मिलेंगे उनमें डेटा विश्लेषक, डेटा इंजीनियर , मशीन लर्निंग वैज्ञानिक , डेटा आर्किटेक्ट और बिजनेस इंटेलिजेंस डेवलपर्स शामिल हैं।
डेटा साइंस – वास्तविक दुनिया में
डेटा विज्ञान एक रोज़मर्रा की प्रक्रिया है, चाहे आप डेटा वैज्ञानिक हों या नहीं। स्मार्टफ़ोन चुनने के हमारे पिछले उदाहरण को याद करें। यह छोटे पैमाने पर डेटा विज्ञान है। जब डेटा वैज्ञानिक डेटा विज्ञान जीवन चक्र से गुजरते हैं, तो वे स्वास्थ्य सेवा, वित्त और सरकार में हलचल मचाते हैं।
यहां डेटा विज्ञान के कुछ वास्तविक जीवन के उदाहरण दिए गए हैं:
स्वास्थ्य देखभाल
डेटा विज्ञान का उपयोग बीमारियों को ट्रैक करने और रोकने, नई दवाइयाँ विकसित करने, मासिक धर्म चक्रों को ट्रैक करने, टीके विकसित करने और इसके सबसे बड़े उपयोगों में से एक – मेडिकल इमेजिंग के लिए किया जाता है। कल्पना करें कि एक नर्तकी अपने पैर में हेयरलाइन फ्रैक्चर के साथ डॉक्टर के कार्यालय में आती है। इन छोटे फ्रैक्चर को मानवीय आँखों से देखना मुश्किल हो सकता है। डेटा विज्ञान ऐसी तकनीक विकसित करना संभव बनाता है जो इन छवियों को स्कैन कर सकती हैं और छोटी से छोटी अनियमितताओं का भी पता लगा सकती हैं ।
वित्त
वित्त उद्योग में, डेटा विज्ञान का उपयोग बाजार का विश्लेषण करने, धोखाधड़ी का पता लगाने, वित्तीय रुझानों का पूर्वानुमान लगाने, ऋण आवंटित करने और जोखिमों का प्रबंधन करने के लिए किया जा सकता है। यदि आप ऋण के लिए आवेदन करते हैं, तो वित्तीय संस्थान स्वीकृति के लिए एक लंबी प्रक्रिया से गुजरते हैं। आपके लिए इसमें कुछ मिनट (या कुछ सेकंड भी) लग सकते हैं, लेकिन वे जोखिमों की पहचान करने के लिए ढेर सारे डेटा को खंगालने के लिए अपने सिस्टम को स्वचालित कर देते हैं। उदाहरण के लिए, क्रेडिट कार्ड कंपनियाँ आपकी वित्तीय पृष्ठभूमि और यहाँ तक कि आपके सोशल मीडिया ( हाँ, ये प्रोग्राम आपके 10 साल पहले के फेसबुक स्टेटस को खंगाल सकते हैं ) को देखने के लिए डेटा विज्ञान का उपयोग कर सकती हैं ताकि यह पता लगाया जा सके कि आप भरोसेमंद हैं या नहीं और आपके खाते से भुगतान करने की संभावना है या नहीं।
सरकार
सरकार कानून प्रवर्तन, राष्ट्रीय रक्षा और कर चोरी जैसे मामलों में डेटा विज्ञान का उपयोग करती है। डेटा विज्ञान के अधिक दिलचस्प उपयोगों में से एक आपातकालीन प्रतिक्रिया में इसका स्थान है। आपात स्थितियों में, डेटा विज्ञान वास्तविक समय का विश्लेषण प्रदान करता है – स्थान, जनसंख्या घनत्व, दिन का समय, मौसम की स्थिति, और बहुत कुछ – सरकार को अपने संसाधनों का अनुकूलन करने, जनता के साथ संवाद करने और यदि आवश्यक हो तो आगे के जोखिमों को कम करने में मदद करने के लिए। एक बड़े तूफान की स्थिति में, ऐसा लग सकता है कि सरकार डेटा विज्ञान तकनीकों का उपयोग कर रही है जो समाचार और सोशल मीडिया से डेटा खींचती है ताकि योजना बनाई जा सके और प्राथमिकता दी जा सके कि किन क्षेत्रों को आपदा राहत की सबसे अधिक आवश्यकता है।
डेटा विज्ञान का भविष्य
डेटा विज्ञान एक ऐसी प्रक्रिया है जो आपको बड़े डेटा सेट लेने और उनका अर्थ निकालने की सुविधा देती है। डेटा वैज्ञानिक अपने कौशल – प्रोग्रामिंग भाषाएँ, मशीन लर्निंग तकनीक और डेटा माइनिंग अनुभव – और डेटा विज्ञान उपकरण – बड़ी डेटा तकनीक, डेटाबेस और डेटा विज़ुअलाइज़ेशन प्रोग्राम – का उपयोग डेटा का विश्लेषण करने और पूर्वानुमान लगाने के लिए करते हैं ताकि व्यवसाय अपने उत्पादों और सेवाओं को बेहतर बना सकें। और जबकि यह व्यवसायों के लिए अच्छा लगता है, यह अधिक आबादी के लिए अच्छा है। कंपनियाँ अधिक डेटा-संचालित होती जा रही हैं, और जब डेटा विज्ञान का उपयोग वित्त, परिवहन और स्वास्थ्य सेवा में किया जाता है, तो इसमें जीवन बदलने और जीवन बचाने की क्षमता होती है।
क्या आपको लगता है कि डेटा साइंस अब आकर्षक है? मेरा मतलब है, एक ऐसे क्षेत्र से ज़्यादा आकर्षक क्या हो सकता है जो हर किसी के जीवन को सकारात्मक रूप से प्रभावित कर सकता है? और हां, छह-अंकीय औसत वेतन भी नुकसान नहीं पहुंचाता है। यदि आप डेटा साइंस में करियर बनाने में रुचि रखते हैं, तो अभी शुरू करने का समय है। Skillcrush के Break Into Tech प्रोग्राम के साथ , आप वेब डेवलपमेंट की बुनियादी बातें सीख सकते हैं जो आपको डेटा साइंस में एक सफल भविष्य के लिए तैयार करने में मदद करेगी।