कूचा डेटा प्लॅटफॉर्म — भाग १: Apache Kafka and NiFi
By Koo App May 6, 2022
फणीश गुरुराज यांनी, ३ जानेवारी २०२२ रोजी
ते म्हणतात त्याप्रमाणे डेटा हा कोणत्याही संस्थेच्या यशाचा गाभा असतो, विशेषतः कू सारख्या उत्पादनासाठी; आम्ही रिअल टाइममध्ये विविध डेटा पॉइंट्स कॅप्चर करतो जे आम्हाला आमच्या वापरकर्त्यांचा प्रवास अधिक चांगल्या प्रकारे समजून घेण्यास मदत करतात. आम्ही निर्माण करत असलेल्या वाढीसह, विश्लेषण आणि प्रवाहाच्या दृष्टीकोनातून आमचा डेटा प्लॅटफॉर्म स्केल करण्याचे एक सतत आव्हान आहे. या नोंदीवर, जेव्हा आम्ही आमचा डेटा प्लॅटफॉर्म तयार करण्याचा निर्णय घेतला तेव्हा आम्ही खालील आर्किटेक्चरची उद्दिष्टे लक्षात घेऊन एक समग्र दृष्टीकोन घेतला.
या ब्लॉग मालिकेच्या भाग 1 मध्ये, आम्ही NiFiआणि Kafkaकव्हर करू.
स्केलेबल अंतर्ग्रहण पाइपलाइन
कमी किमतीचा डेटा स्टोरेज.
क्वेरी करणे सोपे आणि आवश्यकतेनुसार बाह्य डेटा आणणे.
खुला स्रोत.
प्रवेश नियंत्रणे.
प्रक्रिया केलेल्या डेटाचे स्नॅपशॉट संग्रहित करा.
आम्ही Apache स्टॅकच्या वर तयार केलेल्या काही सामान्य नमुन्यांचे मूल्यमापन केले — Kafka, NiFi, हुडी, पर्केट, स्पार्क
आमच्या डेटाच्या आकाराबद्दल येथे काही आकडेवारी आहेत
आम्हाला युद्ध चाचणी संदेश रांग प्रणालीची आवश्यकता होती आणि काफ्का हा आदर्श पर्याय होता. आमच्या स्केलसाठी, आम्हाला क्षैतिज स्केलेबल आणि दोष सहन करू शकणारे काहीतरी आवश्यक आहे.
काफ्कामधील विषय या संकल्पनेने आम्हाला आमची अंतर्ग्रहण आर्किटेक्चर कार्यक्षमतेने स्तरित करण्यात मदत केली कारण कार्यक्रमांचे अनेक उत्पादक आहेत. व्यापकपणे, आम्ही कॅप्चर करतो
[वापरकर्त्यांनी वाचलेले → छाप]
[Koos ला आवडले, re-kooed → प्रतिक्रिया]
[लोक फॉलो/अनफॉलो → नेटवर्क]
[भेट → प्रोफाइल, प्रतिमा, कू-तपशील, स्क्रीन]
NiFi
उत्पादकांकडून विविध ETL चे आयोजन करण्यासाठी आणि डेटा पाइपलाइन साखळी करण्यासाठी, NiFi एक चांगला उमेदवार आहे. ट्रान्सफॉर्मेशन्स आणि पाइपलाइन स्टिच करताना विविध बिल्ट-इन कनेक्टर खूप उपयुक्त आहेत.
NiFi ची काही महत्त्वाची वैशिष्ट्ये, ती अत्यंत महत्त्वाची आहे
<ul>
<li>रनटाइम प्रवाह व्यवस्थापन शक्य आहे.</li>
<li>डायनॅमिक प्राधान्यक्रम.</li>
<li>डेटा प्रोव्हेनन्स → डेटा पाथचा मागोवा घेणे.</li>
<li>बॅक प्रेशर आणि स्केल प्रोसेसर प्रभावीपणे व्यवस्थापित करा.</li>
</ul>
एक महत्त्वाची सोशल मीडिया संस्था म्हणून, कू प्रादेशिक भाषा आणि स्थानिक थीम्सच्या आसपास निर्माते आणि वापरकर्त्यांचे समुदाय तयार करेल जे दैनंदिन जीवनात महत्त्वाच्या असलेल्या अर्थपूर्ण, समृद्ध परस्परसंवादांना कारणीभूत ठरेल.
खालील आलेख आमच्या इंप्रेशनसाठी चार्ट दाखवतो (आमच्या अनेक ML पाइपलाइनला सामर्थ्य देणारा एक गंभीर विश्लेषणात्मक डेटा). जसजसा डेटा काफ्कामधून वाहतो आणि शेवटी S3 मध्ये स्थिरावतो, अ
परिवर्तनांचा समूह लागू केला जातो
काही वेळा द्रुत संदर्भासाठी डेटा इतर स्त्रोतांकडून काढला जातो
काही अटींवर अवलंबून डेटा पाइपलाइनमधील पुढील प्रोसेसरला पाठवला जातो
आमची NiFi वापर केस खूप विलीन करण्याची मागणी करते → येथे अधिक तपशील. जसे आपण वरील आलेखावरून पहात आहात. विलीनीकरणाची आरपीएम खूप जास्त आहे. कधीकधी, आम्ही सामान्यतः स्थिर स्थितीच्या तुलनेत काही विनंत्यांसाठी अधिक संसाधनांची तरतूद करून पाइपलाइनला गती देण्यासाठी काही प्रवाह ट्रिगर करतो. हा एक मोठा फायदा आहे जो आम्हाला इन्फ्राला त्रास न देता संसाधने व्यवस्थापित करण्यात मदत करतो.
डेटा पाइपलाइन कार्यक्षमतेने सेट करण्यासाठी काफ्का आणि NiFi एक शक्तिशाली संयोजन तयार करतात. दोन्ही तंत्रज्ञानाचे क्षैतिज स्केलेबल स्वरूप देखील एक अतिशय गंभीर पैलू आहे. NiFi अधिक चांगल्या प्रकारे समजून घेण्यासाठी FlowFiles आणि Processors अधिक खोलात समजून घेणे आवश्यक आहे.
FlowFiles — Apache NiFi मधील एक फ्लोफाइल ही मूलभूत प्रक्रिया संस्था आहे. यात डेटा सामग्री आणि गुणधर्म आहेत, जे डेटावर प्रक्रिया करण्यासाठी NiFi प्रोसेसरद्वारे वापरले जातात. फाइल सामग्रीमध्ये सामान्यतः स्त्रोत प्रणालींमधून आणलेला डेटा असतो.
प्रोसेसर — Apache NiFi डेटाफ्लो तयार करण्यासाठी प्रोसेसर मूलभूत बिल्डिंग ब्लॉक तयार करतो. प्रोसेसर एक इंटरफेस प्रदान करतात ज्याद्वारे NiFi फ्लोफाइल, त्याचे गुणधर्म आणि त्यातील सामग्रीमध्ये प्रवेश प्रदान करते.
परिस्थिती — सूचना इव्हेंट दरम्यान अचानक वाढणे किंवा काही कूचे व्हायरल होणे
या अचानक वाढलेल्या स्पाइक्स हाताळण्यासाठी NiFi खरोखर चांगले कार्य करते आणि आम्ही आमच्या गरजेनुसार बॅक प्रेशर ट्यून करू शकतो.
P1 → P2 → P3
उदा: आमच्याकडे ३ प्रोसेसर आहेत — P1, P2 आणि P3. p3 साठी बॅक प्रेशर कॉन्फिगर केले आहे चला 10K म्हणू या. या मऊ मर्यादा आहेत आणि डेटा मार्ग आणि वेळेनुसार कॉन्फिगर केल्या जाऊ शकतात. तसेच, जर p2 1M फ्लो फाइल्स तयार करत असेल, तर या सर्व 1M p3 मध्ये टाकल्या जातील जी डाउनस्ट्रीम सिस्टम आहे. p3 त्याच्या सर्व संदेशांवर प्रक्रिया पूर्ण करेपर्यंत, p2 शेड्युलरला विराम दिला जातो. अशा प्रकारे, आम्ही अचानक वाढलेल्या वाढीवर नियंत्रण ठेवण्यास सक्षम आहोत.
पॅरामीटर संदर्भ
उदा: कू येथे, आम्हाला ऑडिओ, व्हिडिओ, प्रतिमा या स्वरूपात मीडिया प्राप्त होतो. आमच्याकडे एक मेसेज ऑब्जेक्ट आहे ज्यामध्ये मीडिया ऑब्जेक्ट बद्दल काही मेटा-डेटा आहे → (इमेज, व्हिडिओ किंवा ऑडिओ असू शकते), पॅरामीटर संदर्भ एक चांगला वापर केस आहे. जेव्हा हा संदेश ऑब्जेक्ट NiFi पाइपलाइनला आदळतो, तेव्हा संदर्भ ऑब्जेक्ट प्रथम ट्रिगर होतो आणि योग्य प्रोजेक्शन आणि चेनिंग स्थापित केले जाते. ऑडिओ, इमेज आणि व्हिडिओसाठी वेगवेगळ्या पाइपलाइन तयार केल्या जाऊ शकतात. तसेच, काही सामान्य गुणधर्म फक्त एकदाच काढले जाऊ शकतात आणि पुढे दिले जाऊ शकतात. हा मापदंड संदर्भ वारसाNiFi — 1.15.0 च्या नवीनतम आवृत्तीमध्ये उपलब्ध आहे जो खूप कार्यक्षम आहे. एक अभियंता म्हणून एखादी व्यक्ती कार्यक्षम कोड कशी लिहिते त्याप्रमाणे पाइपलाइन चांगल्या प्रकारे डिझाइन करू शकते.
सारांश
NiFi एक उत्तम डेटा पाइपलाइन बिल्डर आहे. मजबूत पाइपलाइन सेट करण्यास आणि ते कार्यक्षमतेने व्यवस्थापित करण्यास उत्सुक असलेल्या डेटा अभियंत्यासाठी, त्याच्या/तिच्या संग्रहात ही एक चांगली भर आहे. आम्ही आमची डेटा प्लॅटफॉर्म टीम नियुक्त करत आहोत आणि तयार करत आहोत. या टीममध्ये सामील होण्यासाठी लोक शोधत आहात — कृपया तुमचे प्रोफाइल शेअर करा @ ta@kooapp.com
आमच्या ब्लॉगच्या पुढील भागात, आम्ही आमच्या s3 आर्किटेक्चर, विभाजन धोरण आणि काही वापर प्रकरणांमध्ये खोलवर जाऊ.