Boshqalar

Scalaʼni bilish — yaxshi, Sparkʼni bilish esa majburiy. Yangi boshlayotgan va tajribali data injenerlar nimalarni bilishi kerak? Yandeks Praktikum tadqiqoti

Yandeks Praktikum junior, middle va senior data injenerlar uchun eng talab yuqori boʻlgan koʻnikmalarni oʻrganib chiqdi. Kasbga kirib, unda oʻsish uchun qayerda va qanday rivojlanish kerakligini koʻrib chiqamiz.

Maʼlumotlar injeneri — koʻplab instrumentlardan foydalanishni bilish nazarda tutiladigan yoʻnalish. Shuning uchun qaysi birini birinchi navbatda oʻzlashtirish kerakligi asosiy savollardan biri. Mahsulotlar tadqiqotchisi Rusana Talibova Yandeks Praktikum jamoasi bilan birgalikda hh.ruʼdagi yangi boshlayotgan va tajribali data injenerlar uchun mingga yaqin boʻsh ish oʻrinlarini oʻrganib chiqdi, ishga yollaydigan menejer va turli greydga ega mutaxassislar bilan bir qator intervyular oʻtkazib, bu yoʻnalishda eng sertalab koʻnikmalar roʻyxatini tuzdi. Kasbga kirish hamda unda oʻsish uchun qayerda va qaysi bilimlarni rivojlantirish kerakligini koʻrib chiqamiz.

Data injenerlarga boʻlgan ehtiyoj yil sayin ortib bormoqda: Indeed maʼlumotlariga koʻra, besh yil ichida ular uchun boʻsh ish oʻrinlari soni 400 foizga oshgan. Kompaniyalar har qachongidan ham koʻproq maʼlumot toʻplamoqda, shuning uchun ular oʻsib borayotgan ushbu katta narsani boshqarish — saqlash joylari va vitrinalarni ishlab chiqish, payplaynlarni loyihalash, maʼlumotlarni yigʻish, tozalash hamda strukturalashga qodir mutaxassislarga muhtoj.

AyTi hamjamiyatida kasbga boʻlgan qiziqish haqli ravishda oshdi. Bugungi kunda data injenerlikka koʻpincha dasturchi va data tahlilchilar oʻtmoqda. Agar oʻzingiz uchun bu yoʻnalishni koʻrib chiqayotgan boʻlsangiz, u holda tadqiqot natijalari siz uchun foydali boʻladi.

Yangi boshlayotgan data injenerning asosiy koʻnikmalari

Tajribasiz mutaxassis boʻlgan junior uchun asosiy talab — Python va SQLʼni bilish. Yoʻnalishga boshqa ixtisoslikdan oʻtayotganlar odatda bu ikkala vositani ham yoki ulardan birini, yana biror qoʻshimcha narsani, masalan, dashboard bilan ishlashni biladi.

Maʼlumotlar injeneri kasbini noldan oʻrganish uchun Yandeks Praktikumga kelgan talabalarni birinchi navbatda aynan Python va SQL bilan tanishtiramiz. Tajribalilarga esa bilimlarini tizimlashtirish va chuqurlashtirishga yordam beramiz.

Talab boʻyicha uchinchi oʻrinda — ingliz tili (tajribasiz nomzodlar uchun boʻsh ish oʻrinlarining 24 foizida uchraydi). Xalqaro jamoalarga ega yirik kompaniyalarda yozma va ogʻzaki ingliz tilini bilish majburiydir.

 

"Kompaniya va ish tajribasiga koʻra malakali junior hamda middle data injenerning minimal mahorat koʻnikmalariga quyidagi vositalar kiradi:

— Apache Hadoop 

— Apache Spark 

— Apache Airflow 

— Greenplum 

— HDFS 

— umuman ETL/ELT instrumentlar 

— DWH
"

Junior+/midllar uchun qoʻshiladigan talablar

Odatda greyd oʻsishi oʻzlashtirilgan texnologiyalarning koʻpayishi bilan bogʻliq emas. Data injenerlar bilan oʻtkazilgan bir qator suhbatlar va boʻsh ish oʻrinlaridagi farqni tahlil qilish orqali junior, middle, seniorʼlar egallagan vosita hamda vazifalar spektrida yaqqol farqlar topilmadi — ular barcha maʼlumot injeneri uchun universal. Mutaxassis tobora murakkab va koʻp bosqichli vazifalarni bajarishni boshlagani sari uning hisobida yangi vositalar paydo boʻlishi mumkin, ammo buning u ishlaydigan sohaga bogʻliqligi bor. Asosiy eʼtibor raqamli mahsulotlarga qaratilmagan va AyTi ixtisoslikka ega boʻlmagan kompaniyalarda ayrim narsalar kechroq qoʻllanishi mumkin.

Junior+ va midllardan talab qilinadigan yangi koʻnikmalar orasida hozirgi paytda turli kompaniyalarda katta maʼlumotlar bilan ishlashda zarur boʻlgan Scala dasturlash tili va Spark freymvorki bor. Scala bilan ishlashdagi bilim ishga joylashish imkoniyatini sezilarli darajada oshiradi. Scala boʻsh ish oʻrinlari tavsiflarida hali unchalik uchramayapti, ammo sohada tez-tez quloqqa chalinmoqda. Bu til nomzodlarga qoʻyilgan talablarda koʻrsatilmagan boʻlsa-da, intervyu mobaynida bu haqida savol tugʻilishi va ish beruvchi uchun ustun mavqega ega boʻlishi mumkin. Spark esa koʻpincha dastlabki greyddagi data injener uchun zarur hisoblanadi.

Middle darajadagi data injenerning asosiy koʻnikmalari

Tajribali midl uchun koʻnikmalar roʻyxatiga ikkitasi qoʻshiladi:

  • Avtomatlashtirish va Python;
  • Yangi maʼlumotlar manbai sifatida MongoDB.

 

Senior data injenerning asosiy koʻnikmalari

Greydda oʻsish uchun nimalarni bilish kerak?

Qoʻshimcha vositalarni mustaqil ravishda yoki ixtisoslashtirilgan kurslarda oʻzlashtirish mumkin. Masalan, Yandeks Praktikumda maʼlumotlar injeneri uchun dasturlar ommalashib borayotgan instrumentlar haqidagi boʻlimlar bilan toʻldirib boriladi va bu yangi materiallardan, shu jumladan, oʻqishni tugatganlar ham foydalanishi mumkin.

AyTining boshqa yoʻnalishlarida boʻlgani kabi data injenerlikda ham mutaxassislar ikki xil yoʻnalishda rivojlanadi:

1. Texnik. Mutaxassis mavjud minimal instrumentlar (masalan, Python, Hadoop, Spark va boshqalarga chuqurroq kirib borgan holda) yordamida ancha murakkab vazifalarni bajara olishi mumkin. Bundan tashqari, bozorda ustunlik beradigan koʻnikma yoki hozirgi paytda sohada rivojlanayotgan texnologiya (masalan, Apache Kafka va striming bilan ishlash uchun zarur boʻlgan boshqa vositalar) ni oʻrganishni boshlash mumkin.

2. Soft. Bu soft-skillsʼni — tashkiliy koʻnikmalar, alohida strim — senior data injenerlar uchun menejment sifatida rivojlanishni oʻz ichiga oladi.

Data injenerlarning koʻnikmalari koʻplab vositalarni oʻz ichiga oladi va uchrashi mumkin boʻlgan barcha texnologiyalarni ishonchli tarzda oʻzlashtirish juda qiyinlashadi. Ishga kirmoqchi boʻlgan kompaniyangiz qaysi yoʻnalishda ishlashini va qaysi vazifalarni tez-tez bajarishingiz kerakligini tasavvur qilish foydalidir.

Bugungi kunda data injenerlar muntazam ravishda maʼlumotlarni oqimli va toʻplamli qayta ishlashga duch kelmoqda. Bu maʼlumotlar bilan ishlashning ikkita katta yoʻnalishi boʻlib, ularning har biri turli xil vositalar toʻplamini oʻz ichiga oladi.

Maʼlumotlarni toʻplamli qayta ishlash — data injiniring boshlangan narsa. Bu turdagi qayta ishlashda oʻzgarishlar manbada toʻplanadi va keyin bir vaqtning oʻzida (paketda), masalan, har soatda yoki kunda bir marta analitik tizimga yuboriladi. Bu klassik yondashuvdagi vazifalarni bajarish uchun quyidagilarni bilish kerak:

  • SQL va klassik relyatsion MBBT (maʼlumotlar bazasini boshqarish tizimi) — PostgreSQL, Oracle, MySQL va hokazo. Eng mashhur maʼlumotlar bazalari roʻyxatini bu yerda kuzatish mumkin. Bundan tashqari, bazalar ustida ishlaganda maʼlumotlar bilan tranzaksion (OLTP, qaydlarning manzilli intensiv modifikatsiyasi) va tahliliy (OLAP, katta hajmdagi qaydlarni qayta ishlash va tahlil qilish) ishlashni farqlash muhimdir.
  • Shuningdek, NoSQL va NewSQL — odatdagi klassiklardan farq qiladigan MBBT turlari (hujjatlar bilan ishlashga moʻljallangan, grafli, key-value va hokazo) mavjud.
  • Parallel qayta ishlashni qoʻllab-quvvatlashga ega maʼlumotlarni saqlash va qayta ishlash vositalari. Bu jarayonlarda Hadoop, turli MBBT-MPP (massive parallel processing), shuningdek, Spark — strukturalanmagan va kam strukturalangan maʼlumotlarni taqsimlangan, qayta ishlash uchun moʻljallangan ochiq freymvork ishlatiladi.

Ikkinchi yoʻnalish bu — real vaqt rejimida maʼlumotlar oqimlarini qayta ishlash va tahlil qilish imkonini beradigan striming (realtime streaming pipeline). Maʼlumotlarni oqimli qayta ishlash — tahlildagi dolzarb trend. Undagi tamoyillar va dunyoqarash mutlaqo boshqa. Texnologiyalar: NiFi, Kafka Streams, Spark Streaming, Flink.

Maʼlumotlar bilan ish koʻradigan har qanday kishi kabi data injener ham yuqorida sanab oʻtilganlardan tashqari Linux buyruq satrida ishonch bilan harakat qilishi muhimdir.

Data injener bulutli arxitektura bilan shugʻullanishi muqarrar. Infratuzilma bilan ishlovchi kompaniya, masalan, Yandex Cloudʼdagi dataproc/data vault kabi bulutli vendorlar tomonidan taqdim etiluvchi yechimlardan foydalanuvchi kompaniyalardan farq qiladi. Qayerdadir ular opensource dasturiy taʼminot (DT) yoki bulutdagi uchinchi tomon vendor DTlari yoxud oʻz data markazlaridan (Arenadata distributivi, Postgres Pro va boshqalar) foydalanadi. Ayrim xalqaro kompaniyalar haligacha Gʻarb dasturiy taʼminot vendor va bulutli provayderlarni (Databricks, Cloudera, Snowflake; AWS, GCP) ishlatadi. Sizga qaysi yechim duch kelishi kompaniyaga bogʻliq, ammo aksariyat vendorlar oʻrtasida koʻchib oʻtish toʻgʻridan toʻgʻri amalga oshiriladi, chunki koʻpchiligining asosiy tamoyillari (texnologiyalari ham, xuddi oʻsha Postgres (-> Greenplum, Vertica, RedShift yoki Aurora), Hadoop) bir xil.

Soft-skills timlid va menejerga kerak

Soft-skillsʼni rivojlantirish timlid, menejer, jarayon tashkilotchisi darajasiga qadar oʻsish usuligina emas. Mutaxassis texnik yoʻnalishda chuqurlashishni tanlasa, rivojlanish uchun ham soft-skills kerak boʻladi.

Junior koʻnikmalarida munosabatlar qurish qobiliyati kabi sifat ham koʻrsatilgan. Axir fikr-mulohazalarni soʻrash va ularga javob olish layoqatisiz kasbga koʻnikib, greydda oʻsib boʻlmaydi. Baʼzi kompaniyalar ishni mutaxassis Jiraʼdagi vazifalarni yopibgina qolmay, balki biznes-vazifalarni ham hal qiladigan tarzda tashkil qilishni afzal koʻradi. U kompaniyadagi oʻz rolini tushunishi, jamoa qaysi tomonga harakatlanayotgani va qanday mahsulot ishlab chiqarayotganini bilishi kerak. Ishni kompaniyaning biznes jarayonlaridan kelib chiqqan holda bajarish layoqati juniorʼdan timlidgacha boʻlgan har qanday greyd xodimiga qoʻyiladigan muhim talab boʻlishi mumkin.

Manba: Знать Scala — желательно, Spark — обязательно. Что нужно уметь начинающим и опытным дата-инженерам: исследование Яндекс Практикума

#Yumsoq ko'nikmalar
#portfolio
Mohirdev Telegram

Telegram kanalimizga obuna bo’lishni unutmang

Obuna bo'lish
Tproger

Tproger

O'xshash maqolalar

C# dasturlash tili va tarixi, ixtisosi, bozordagi oʻrni
c#

4-iyul, 2024

C# dasturlash tili va tarixi, ixtisosi, bozordagi oʻrni

Maqolani o'qish
Java dasturlash tili: yangi boshlayotganlar bilishi kerak narsalar
java

25-iyun, 2024

Java dasturlash tili: yangi boshlayotganlar bilishi kerak narsalar

Java va uning qayerda ishlatilishi, soha mutaxassislari daromadi va yangi boshlayotganlarga kod yozishni qanday oʻrganish kerakligi haqida hikoya qilamiz.

Maqolani o'qish
Frontend yoki bekend: dasturlashning qaysi yoʻlidan borgan maʼqul?
backend
frontend

4-may, 2024

Frontend yoki bekend: dasturlashning qaysi yoʻlidan borgan maʼqul?

Boʻsh ish oʻrinlari haqidagi eʼlonlarda aynan frontend yoki bekend dasturchi kerakligi koʻp koʻrsatiladi, chunki bu qatlamlar turli tamoyillarga muvofiq va koʻpincha turli dasturlash tillarida yozadi. Keling, frontend va backend dasturlash oʻrtasidagi farqni va ular bir-biri bilan qanday munosabatda boʻlishini aniqlashtirishga harakat qilamiz.

Maqolani o'qish
Qanday qilib boshqa juniorlar orasida ajralib, AyTida birinchi ishni topish mumkin?
resume
junior

4-may, 2024

Qanday qilib boshqa juniorlar orasida ajralib, AyTida birinchi ishni topish mumkin?

Qanday qilib AyTi sohasida birinchi ishni topish va kompaniya taklif yuboradigan “oʻsha” mutaxassis boʻlish toʻgʻrisida hikoya qilamiz.

Maqolani o'qish
Rezyumeni yaxshilash uchun GitHubʼdan qanday foydalanish mumkin?
github
resume

2-may, 2024

Rezyumeni yaxshilash uchun GitHubʼdan qanday foydalanish mumkin?

100 milliondan ortiq foydalanuvchiga ega GitHub eng ilgʻor onlayn dasturlash muhitlaridan biri hisoblanadi. Dasturchilar har kuni loyihalar ustida hamda boshqalar bilan hamkorlik qilish maqsadida GitHubʼdan foydalanadi. Agar zamonaviy raqobatbardosh dasturchilar mehnat bozorida texnologiyaga oid ish izlayotgan boʻlsangiz, GitHub bilan ishlash koʻnikmalari bu musobaqada sizga ustunlik berishi mumkin.

Maqolani o'qish