Bu nima?

Data sayns

Data sayns (maʼlumotlar tahlili fani) — kompyuter sohasining maʼlumotlar bilan bogʻliq boʻlimi. Bu sohada maʼlumotlarni toʻplash, qayta ishlash, tahlil qilish va shu asosida samarali yechim topish bilan shugʻullaniladi.

Data sayntistlar strukturalanmagan maʼlumotlarni toʻplab, matematik modellar yordamida ularni tahlil qiladi va shu asosida xulosa chiqaradi.

Data sayntistning maqsad va vazifalari — gipotezalarni tasdiqlash, prognoz qilish, qonuniyatlarni topish, biznes jarayonlariga o‘zgartirishlar kiritishni taklif qilish.

Data sayns bu – fanlararo soha. Data sayntistlar matematika va statistikani bilishi, dasturlashi, maʼlumotlar bazalari bilan ishlashi, biznes tuzilishini tushunishi kerak.

Soddaroq aytganda, data sayns oʻzi nima?

Bankning millionlab foydalanuvchilari bor, ular har kuni smartfon yoki kartalar orqali to‘lov qiladi. Bu xaridlar haqidagi ma’lumotlarni to‘plash va tahlil qilish mumkin. Tahlil natijalari bank ishini yaxshilaydi, daromadini oshiradi va mijozlarga foydali shaxsiy tavsiyalar beradi. Masalan, sport tovarlarini tez-tez xarid qiluvchilarga hamkorlardan chegirmalar yoki chet elda ko‘p xarid qiladiganlar uchun sayohat sug‘urtasi taklif etilishi mumkin.

Data sayns yosh sohalardan hisoblanadi. Bu atama ilmiy doiralarda ilk bor 2001-yilda paydo boʻlgan. 2009-yilda Facebook va LinkedIn kompaniyalarining maʼlumotlar boʻyicha yetakchi mutaxassislari tufayli ommalashgan. Oʻsha paytlarda AyTi gigantlar yuz millionlab foydalanuvchilarni oʻz mahsulotlariga jalb qilgandi. Foydalanuvchilarning xatti-harakatlari haqidagi katta maʼlumotlar biznesga va umuman internet sanoatiga foyda keltirishi mumkinligini tushunib yetgandi.

Data sayns bir pasda AyTi sohasidagi eng istiqbolli yoʻnalish maqomini oldi. 2009-yildayoq Google iqtisodchisi Xel Varian maʼlumotlar bilan ishlash malakasi yaqin oʻn yillikda juda muhim koʻnikmaga aylanishini aytgan edi.

Data saynsning tuzilishi qanday?

Data saynsda maʼlumotlar bilan ishlash tartibini 5 bosqichdan iborat sikl koʻrinishida tasvirlash mumkin:

  1. Toʻplash. Har safar maʼlumotlarning hajmi va strukturasini aniqlash hamda qayta ishlash uchun ularni qulay shaklda toʻplash kerak. Maʼlumotlarni tahlil qilish maqsadlarini aniqlash va keyingi bosqichlar uchun kerakli metodlarni tanlash lozim.

  2. Tayyorgarlik. Bu maʼlumotlar bazasi arxitekturasi va ularni saqlash tizimini yaratish, tekshirish va norelevant qiymatlarni tozalash (validatsiya)dan iborat.

  3. Qayta ishlash. Bu bosqichda klasterlash va tasniflash (namuna va guruhlarga ajratish) amalga oshiriladi. Matematik model va dasturiy metodlar, masalan, mashinani oʻqitish qoʻllanadi.

  4. Tahlil. Data sayntist modellashtirish natijalarini oʻrganadi va dastlab gipotezalarga javob izlaydi. Sifat va miqdoriy tahlil oʻtkazadi. Misol uchun, biznes jarayonlaridagi xatolarni aniqlaydi. Yoki maʼlumotlarning xatti-harakatini prognoz qiladi.

  5. Kommunikatsiya. Bu ma’lumotlarni tushunarli va ta’sirchan tarzda yetkazish jarayoni. U quyidagilarni o‘z ichiga oladi: ma’lumotlarni vizuallashtirish, tahliliy hisobotlar tayyorlash hamda biznesni samaraliroq boshqarish uchun asosli qarorlar taklif qilish.

Data sayns bilan bogʻliq kasblar

Data sayntistlardan tashqari katta maʼlumotlar bilan ishlaydigan yana boshqa kasb egalari ham bor.

  • Data engineer – turli manbalardan maʼlumotlarni toʻplab, tozalab, ularni ishlash uchun qulay shaklda analitik va data sayntistlarga taqdim etadigan mutaxassis.

  • ML injener – mashinani oʻqitish (ML) sohasi muhandisi, sunʼiy intellekt boʻyicha ekspert. U modelni tayyor mahsulotga “qadoqlash” uchun masʼul.

Data sayntistlarning o‘zlari ham data mining (ma’lumotlarni chuqur tahlil qilish), computer vision, nutqni sintez qilish (tanib olish), tavsiya tizimlari va boshqa yo‘nalishlarda ixtisoslashgan bo‘lishi mumkin.

Asosiy atamalar

  • Big data (katta ma’lumotlar) — ijtimoiy tarmoqlar va uyali aloqa kabi katta axborot tizimlari tomonidan generatsiya qilinadigan ulkan ma’lumotlar massivlari.

  • Matematik modellashtirish — ma’lumotlardagi qonuniyatlarni aniqlash uchun matematika va statistikadan foydalanish usuli. Masalan, davriy qatorlar (qiymatlarning vaqt bo‘yicha o‘zgarish grafiklari) o‘zgaruvchilar orasidagi bog‘liqliklarni topishga yordam beradigan regression modellar yordamida tahlil qilinadi.

  • Data mining (ma’lumotlarni olish yoki intellektual tahlil qilish) — “xom” ma’lumotlardan iborat katta bazalarda ilgari noma’lum bo‘lgan qonuniyat (pattern) va foydali ma’lumotlarni izlash jarayoni. Misol uchun, bank mijozlarning barcha tranzaksiyalari haqida ma’lumotlar bazasiga ega. Biroq ularning orasidagi ehtimoliy jinoyatchilar haqida hech narsa bilmaydi. Data mining millionlab mijozlar orasidan shubhali manbalardan pul o‘tkazma olayotganlarni aniqlashga yordam beradi.

  • Tree-based-algoritmlar — data mining sohasida “qarorlar daraxti” metodidan foydalanish. Bu usul ma’lumotlarni muayyan xususiyatlarga qarab tasniflaydi. Har bir blok ma’lum bir mezon bo‘yicha aniqlangunga qadar jarayon davom etadi. Masalan, bank mijozlarini jins, yosh va o‘rtacha daromad bo‘yicha tasniflash mumkin. Bu esa, masalan, 18–50 yoshdagi yuqori daromadli erkaklarni aniqlashga yordam beradi va ularga hamkorlardan nufuzli fitnes markaziga chegirma taklif qilish imkonini yaratadi.

  • Mashinani oʻqitish (ML) — keyinchalik yangi ma’lumotlarni qayta ishlash jarayonini avtomatlashtirish maqsadida ma’lumotlar bilan ishlash algoritmlarini o‘rganadigan fan. Masalan, bankning kreditlarni to‘lagan va bunga imkoniyati boʻlmagan barcha mijozlarini bilgan holda qaysilariga pul berish mumkinligini hal qiladigan modelni yaratishimiz mumkin. Bu tasniflash vazifasi deb ataladi.

  • Feature engineering (xususiyatlarni konstruksiya qilish) — bu ML modellari uchun xom ma’lumotlarni tayyorlash jarayoni. Modellarning yaxshiroq o‘rganishi uchun ma’lumotlardan yangi xususiyatlarni ajratib olish kerak. Masalan, mijozga xaridlari o‘rtacha summasi (o‘rtacha chek) asosida yangi xususiyat qo‘shish lozim.

  • Deep learning (chuqur o‘qitish) — mashinani murakkab ko‘p qatlamli neyron tarmoqlardan foydalangan holda o‘qitish usuli.

Python — data sayns sohasidagi asosiy dasturlash tili. Python’da ishlash qulay bo‘lishi uchun NumPy, Scipy, Pandas kabi kutubxonalardan foydalaniladi. Mashinani o‘qitish uchun ko‘pincha sklearn freymvorki ishlatiladi.

Data sayns qayerda qo‘llanadi?

Talabni prognozlash

Kompaniyalar oʻtgan yillar davomidagi mahsulot va xizmatlarining sotuvi to‘g‘risida katta hajmdagi ma’lumotlarga ega. Mashinani oʻqitish (ML) bu ma’lumotlarni tahlil qilish orqali qonuniyatlarni topish, istiqboldagi talabni prognoz qilish hamda biznes jarayonlarini kerakli miqdordagi mahsulot va xizmatlar uchun qayta qurishga yordam beradi.

Misol: bu model tabiiy gaz ishlab chiqaruvchilariga yetkazib berish hajmini prognoz qilishda yordam beradi.

Tavsiyalar tizimi

Internet  xizmatlari har bir foydalanuvchi koʻrgan kontent: video, film, musiqa, maqola yoki mahsulot va xizmatlar sahifalari to‘g‘risidagi ma’lumotlarga ega. Mashinani o‘qitish eng mos kontentni taklif qilish maqsadida ularning xohish-istaklarni tahlil qiladi.

Misol: RealStateRecommender modeli ko‘chmas mulk veb-saytiga tashrif buyurganlarga ularning qidiruv so‘rovlari asosida beshta eng yaxshi taklifni taqdim etadi. U so‘rovlarni klasterlash algoritmlaridan foydalanadi, ya’ni ma’lumotlarni bir xil guruhlarga birlashtiradi.

Narxni dinamik shakllantirish

Internet savdo va bronlash tizimlarida turli toifadagi xaridorlarga sotilayotgan mahsulotlar, xizmatlar haqidagi ma’lumotlar mavjud. Data sayns mahsulot va xizmatlar uchun tushumni oshirishga yordam beradigan eng maqbul narxlarni aniqlashga yordam beradi.

Misol: mehmonxonalarda narxlarni dinamik tarzda shakllantiradigan model.

Anomaliyalarni qidirish

Data sayns kompaniyalarga biznes jarayonlari va hisobotlardagi xatolarni topishda yordam beradi. Bu ma’lumotlardagi noaniqlik va anomal o‘zgarishlarni o‘z vaqtida aniqlash, ularning sababini tushunish, kompaniya ishini o‘zgartirishda yordam beradi.

Misol: fin-stmt-anom modeli hisobotlarni topshirishdan oldin buxgalteriya hujjatlaridagi xatolarni aniqlaydi.

Chatbotlar

Chatbotlarni mashinani oʻqitish (ML) yordamida ishlab chiqish mijozlarning savollariga tez va aniqroq javob berishda ko‘maklashadi. Bu ularning ko‘plab muammolarini hal qilish va qo‘ng‘iroqlar markaziga tushayotgan yuklamani kamaytirishda yordam beradi.

Misol: LegalTech mashinani o‘qitish modeli yuridik kompaniyalarga ishlarning davom etish muddati va xizmatlar narxini baholashda, Telegrambot orqali mijozdan ish bosqichlari haqida tasdiq olishda yordamlashadi.

Data saynsning kelajagi

Data sayns katta istiqbolga ega. Buning sabablari quyidagicha:

Dunyoda maʼlumotlar hajmining eksponensial oʻsishi

Odamlar tobora koʻp vaqtini internetda oʻtkazyapti, biznes raqamlashyapti, buyumlar interneti (IoT) rivojlana boshladi. 2025-yili dunyoda maʼlumotlar hajmi deyarli 3 barobar oshib, 181 zettabayt (sekstilion bayt)ga yetadi. 2010-yilda bu koʻrsatkich bor-yoʻgʻi 2 Zb edi.

Data sayns bozorining oʻsishi

Ulkan hajmdagi maʼlumotlar data sayns startaplari va maʼlumotlarni tahlil qilish boʻyicha mutaxassislar uchun boʻsh ish oʻrinlari sonining oshishiga olib keladi. Prognozlarga koʻra, 2027-yilgacha bozor yiliga oʻrtacha 27% ga oʻsadi. Asosan marketing, reklama, logistika, moliya va mijozlarni qoʻllab-quvvatlash sohalarida koʻproq yechimlar talab qilinadi.

Sun’iy intellekt texnologiyalarining rivojlanishi

Mutaxassislar fikriga koʻra, yaqin kelajakda shahar ko‘chalarida ommaviy tarzda haydovchisiz avtomobillar paydo bo‘ladi, uy-ro‘zg‘or texnikasi esa buyumlar internetiga (IoT) ulanadi. Avtonom avtomobillar yo‘ldagi vaziyatni tahlil qilish va xavfsiz harakatlanish uchun mashinani o‘qitishdan foydalanadi. IoT milliardlab yangi qurilmalardan ma’lumotlar olish va “aqlli uy” tizimlarida sun’iy intellektdan foydalanish imkonini beradi.

Data saynsni mustaqil oʻrganishni nimadan boshlagan maʼqul?

Data sayns asoslarini taxminan bir yil ichida noldan boshlab oʻrganish mumkin. Buning uchun bir necha yoʻnalishlarni oʻzlashtirish zarur.

Python. Sodda sintaksisi tufayli yangi boshlayotganlarga juda mos keladi. Pythonʼga doir bilimlar bilan AyTining boshqa sohalari, masalan, veb dasturlash, hatto oʻyin dizaynida ham ishlash mumkin. Shuningdek, Pythonʼda kod yozishni osonlashtiradigan Scikit-Learn kabi data sayns vositalarini ham oʻzlashtirish zarur.

Matematika. Python tilini oʻrganib, ML injener sifatida ishlash mumkin. Biroq data saynsning toʻliq sohasi uchun maʼlumotlarni tahlil qilishda talab etiladigan matematik modellar bilan ishlash malakasi zarur. Buning uchun chiziqli algebra, matematik analiz, statistika va ehtimollar nazariyasi oʻrganiladi. Shuningdek, matematika algoritm tuzilishini tushunish va vazifa yechimini topish uchun toʻgʻri parametrlarni tanlashda kerak boʻladi.

Mashinani oʻqitish. ML modellarni yaratish va oʻqitish uchun Python hamda matematikaga oid bilimlardan foydalaniladi. Modellar uchun kod va oʻqitishga maʼlumotlar toʻplamlarini (datasetlar), masalan, Kaggle veb-saytidan topishingiz mumkin. Data sayntistga Kaggle nima uchun kerakligi haqida maʼlumot batafsil shu maqolamizda berilgan.

Maʼlumotlarning vizual tahlili (EDA) maʼlumotlar ichidagi jarayonlar boʻyicha savollarga javob beradi. Ulardagi anomaliyalarni aniqlash va boʻlajak algoritm uchun noyob fichalarni yaratish haqida maʼlumot olish imkonini yaratadi.

Freymvorklar, modellar va datasetlar

Asosiy kutubxonalar: NumPy, Scipy, Pandas.

Mashinani oʻqitish (ML) va chuqur o‘qitish (DL) uchun kutubxonalar: Scikit-Learn, TensorFlow, Theano, Keras.

Vizuallashtirish vositalari: Matplotlib va Seaborn.

GitHubʼdagi mashinani oʻqitish bo‘yicha kerakli freymvork, kutubxona, kitob va kurslar ro‘yxati.

Kaggle— model va datasetlar bazalari, data sayntistlar oʻrtasidagi ochiq musobaqalar hamda mashinani o‘qitish kurslari.

Yoki Mohirdevʼda kurs oʻqishingiz mumkin!

Platformamizdagi “Data sayns va SI” kursi davomida sohaga doir bilimlarni egallaysiz. Python dasturlash tilini, NumPy, Keras, Pandas, scikit learn, TensorFlow bilan ishlashni oʻrganasiz. Kursimiz IBM, Kaggle va Google kompaniyalari oʻquv dasturi asosida tuzilgan. Kurs ustozi – Mohirdev asoschisi Anvar Narzullayev.

Kurs rasmi


Manba: Data Science

Mohirdev Telegram

Telegram kanalimizga obuna bo’lishni unutmang

Obuna bo'lish
https://assets.mohirdev.uz/article-authors/6674060df7a66e2c60a65011/735a63b6-2056-4f30-a03f-da57d1ac9706.original.jpeg

Skillfacory Media