Bu nima?

Yangilar uchun: maʼlumotlar analitikasi

Ma’lumotlar diqqatni boshqarish, savdoni oshirish, prognoz qilish va ilmiy kashfiyotlar qilishimizga yordam beradi. Bu maʼlumotlar qudratining bir qismi xolos.

Har birimiz doimiy ravishda xabarlar, postlar, suratlar, videolar, tana harorati, yurak urishi, qondagi qand miqdori kabi ma’lumotlar yaratamiz. Bu ma’lumotlar biznes uchun muhim ahamiyatga ega. Chunki ular kompaniyalarga mijozlarni chuqurroq tushunish va relevant xizmatlarni taqdim etishda yordam beradi. Masalan, onlayn kinoteatrlar sizga mos kontentni tavsiya qilish uchun oldingi tanlovlaringiz haqidagi ma’lumotlardan foydalanadi.

Ammo qayta ishlanmagan va tahlil qilinmagan ma’lumotlarning foydasi yoʻq. Maqolamizda aynan ma’lumotlar tahlili haqida so‘z yuritamiz va unda quyidagilarni bilib olasiz:

  • ma’lumotlar tahlili nima;

  • buning uchun qanday metodlar qo‘llanadi;

  • tahlil jarayoni qanday tashkil etiladi?

Ma’lumotlar tahlili nima va u nega kerak?

Ma’lumotlarni tahlil qilish bu — muhim ma’lumotlarni olish uchun ularni qayta ishlash va talqin qilish jarayoni. Ko‘pincha u qo‘lda qayta ishlash imkoni bo‘lmagan katta hajmdagi ma’lumotlarga nisbatan qo‘llanadi.

Ma’lumotlar tahlilidan turli sohalarda foydalaniladi. Quyida bir nechta misol keltirilgan:

  • Biznesda ma’lumotlar tahlili mijozlar xatti-harakatlarini tushunish va xizmatlarni optimallashtirishga yordam beradi. Misol uchun, chakana savdo tarmoqlari shaxsiylashtirilgan takliflar yaratish va mahsulotlar zaxirasini maqbullashtirish maqsadida xaridlarni o‘rganadi.

  • Sog‘liqni saqlash sohasida ma’lumotlar tahlili tashxis qo‘yishni takomillashtiradi. Shuningdek, shaxsiy davolash usullarini ishlab chiqish imkonini beradi. Tibbiyot muassasalari bemorlarning kasallik tarixi va turmush tarzini hisobga olgan holda surunkali kasalliklar xavfini bashorat qilish uchun ularning ma’lumotlardan foydalanadi. Bu esa o‘z vaqtida profilaktika choralarini ko‘rish va har bir bemor uchun individual davolash rejalarini tuzishga yordam beradi.

  • Ilm-fandagi ma’lumotlar tahlili yangi qonuniyat va innovatsiyalarni kashf etishga imkon yaratadi. Masalan, katta hajmdagi ma’lumotlar tahlili orqali Quyosh sistemasidan tashqaridagi sayyoralarga tegishli signallarni aniqlash mumkin.

Ma’lumotlar tahlili har qanday sohada qimmatli ma’lumotlarni taqdim etadi. Shu sababdan asosli qaror qabul qilish, jarayonni takomillashtirish va maqsadga erishishga ko‘maklashadi.

Ma’lumotlarni tahlil qilishning asosiy usullari

Ma’lumotlar tahlilining ikki asosiy usuli mavjud:

  • Statistik usullar ehtimollar nazariyasi va statistikaga asoslangan. Bu kichik ma’lumotlar to‘plamidagi qonuniyatlarni aniqlashga yordam beradi.

  • Mashinani o‘qitish esa katta hajmdagi ma’lumotlar yordamida o‘qitiladigan algoritm va modellardan foydalanadi. Shuningdek, aniqlikni oshiradi hamda murakkab patternlar asosida bashorat qiladi.

Mazkur bo‘limda ma’lumotlar tahlilining asosiy usullari: regressiya, tasniflash va klasterlashni muhokama qilamiz. Bu usullarning turli xil ssenariylarda qanday boʻlishini bilib olamiz. Real vazifalarga yechim topish uchun mashinani o‘qitishda qo‘llanishini ko‘rib chiqamiz.

Regressiya

Regressiya — bir o‘zgaruvchi qiymatini boshqasi asosida bashorat qilish usuli. U o‘zgaruvchilar o‘rtasidagi bog‘liqlikni modellashtirish, natijalarni prognoz qilish va qonuniyatlarni aniqlashda yordam beradi.

Chiziqli regressiya — mustaqil va bog‘liq o‘zgaruvchilar o‘rtasidagi chiziqli aloqani nazarda tutuvchi sodda usul. Masalan, undan uyning narxini maydoni asosida bashorat qilish uchun foydalanish mumkin. Bunda bir nechta uyning maydoni va narxi haqida ma’lumot kerak boʻladi. Ko‘chmas mulk bozorida eng maqbul taklif — kerakli hududda katta maydonga ega nisbatan arzon uyni topish mumkin.

Chiziqli regressiyadan tashqari boshqa turlari ham mavjud:

  • Ko‘p o‘lchovli regressiya. Bir nechta mustaqil o‘zgaruvchilarni qo‘shish orqali chiziqli regressiyani kengaytiradi. Masalan, uy narxini nafaqat maydoni bo‘yicha, balki xonalar soni, qurilgan yili, joylashuvi va boshqa ko‘rsatkichlar asosida ham bashorat qilish mumkin.

  • Polinomial regressiya. O‘zgaruvchilar orasidagi bog‘liqlik chiziqli bo‘lmagan hollarda qo‘llanadi. Misol uchun, uy narxi dastlab maydoniga mutanosib ravishda oshib borishi, ammo keyinchalik narxlar o‘sishi sekinlashishi mumkin. Polinomial regressiya bunday nochiziqli bog‘liqliklarni aniq aks ettiradi.

Regressiya ko‘chmas mulkni baholash, moliyaviy prognozlar va vaqt qatorlarini tahlil etishda qo‘llanadi. U modellar yaratish va bashorat qilishda yordam beradi. Shuningdek, tahlil aniqligini oshirish maqsadida regulyarizatsiya va tayanch vektor mashinalari kabi murakkabroq usullardan foydalanishga imkon yaratadi.

Tayanch vektorlar usuli ish jarayoni vizualizatsiyasi

Tasniflash

Tasniflash — ma’lumotlarni tahlil qilishning obyekt qaysi toifaga tegishli ekanini aniqlashga mo‘ljallangan usuli. U obyektlarni oldindan belgilangan guruh yoki sinflarga ajratishga yordam beradi. Bu ma’lumotlarni xususiyatlari asosida bir nechta toifadan biriga kiritishda koʻmaklashadi.

Ommabop tasniflash algoritmlari orasida logistik regressiya, qarorlar daraxti va neyrotarmoqlarga asoslangan usullar ajralib turadi:

  • Logistik regressiya. Binar tasniflash va obyektning toifaga mansublik ehtimolini baholashda foydalaniladi. Masalan, elektron xatdagi so‘zlarga asoslanib, uning spam ekanini taxmin qilishi mumkin.

  • Qarorlar daraxti. Daraxtlar ko‘rinishidagi modellar yaratiladi va unda har bir tugun xususiyatlarni tekshiradi. Barglar esa tasniflash natijalarini taqdim etadi. Masalan, qaror daraxti daromad, kredit tarixi va boshqa ma’lumotlar haqida savollar berish orqali kredit arizasini ma’qullash yoki rad etishni belgilaydi.

  • Neyrotarmoqlarga asoslangan usullar. Ma’lumotlardan xususiyatlarni avtomatik tarzda ajratib oladigan va murakkab bog‘liqliklarga moslashadigan modellarni o‘z ichiga oladi. Masalan, neyrotarmoqlar ko‘plab suratlardan yuzlarni farqlash va identifikatsiya qilishni o‘rganadi. Shu asosida fotosuratlardagi yuzlarni taniy oladi.

Tasniflash algoritmlari jarayonlarni avtomatlashtirish, bashoratlar aniqligini oshirish va ma’lumotlardan muhim insaytlar olishda ahamiyatga ega.

Logistik regressiya ishining vizualizatsiyasi. Ma’lumotlarning bir qismi to‘g‘ri, bir qismi esa noto‘g‘ri ko‘rsatkichlar sifatida qayd etiladi

Klasterlash

Klasterlash — ma’lumotlarni tahlil qilishning obyektlarni o‘xshashlik bo‘yicha guruhlash usuli. U ma’lumotlarni bir klaster ichidagi obyektlar boshqa klasterlardagi obyektlarga qaraganda o‘zaro ko‘proq o‘xshash bo‘lgan bir nechta guruh (klaster)larga bo‘ladi.

Ommabop klasterlash algoritmlaridan biri k-means hisoblanadi. U ma’lumotlarni oldindan belgilangan k ta klasterga ajratadi. Algoritm bir necha bosqichda ishlaydi:

  • Initsializatsiya. Klasterlarning boshlang‘ich markazlari (sentroidlar) tanlanadi. Misol uchun, onlayn kiyim-kechak do‘konida uchta mijoz klasterlari — ommaviy bozor, premium segment va sport kiyimlari uchun boshlang‘ich markazlar tasodifiy tanlanishi mumkin.

  • Tayinlash. Har bir ma’lumotlar obyektiga klasterning eng yaqin markazi beriladi. Masalan, o‘xshash xarid qilish odatlariga ega bo‘lgan qizlar ommaviy bozor mijozlari uchun mo‘ljallangan boshlang‘ich markaz atrofida jamlanadi.

  • Yangilanish. Klaster markazlari har bir klasterdagi barcha obyektlarning o‘rtacha qiymati sifatida qayta hisoblanadi. Mijozlar klasterlarga taqsimlanganidan so‘ng yangi markazlar yosh, kiyim-kechak tanlovi va xaridlar soni kabi o‘rtacha xususiyatlarni hisobga olgan holda yangilanadi. Bu esa o‘z navbatida markazlarni mijozlar guruhining aniqroq vakiliga aylantiradi.

  • Takrorlash. Jarayon klaster markazlari barqarorlashguncha yoki optimal holatga erishguncha takrorlanadi. Obyektlar markazlarning joylashuvidagi o‘zgarishlar ahamiyatsiz darajaga yetmaguncha yangi markazlarga biriktirib borilaveradi.

Algoritmning barcha bosqichlari bajarilgandan so‘ng uchta klasterni ajratib olish mumkin:

  • Ommaviy bozor va sport liboslarini afzal ko‘radigan 18–24 yoshdagi talaba qizlar.

  • To‘rt yoshgacha bo‘lgan farzandlari uchun bolalar kiyimini sotib oladigan yosh onalar.

  • Ishbop koʻrinishdagi o‘rta va hashamatli segment kiyimlarini sotib oluvchi biznes xonimlar.

Bu klasterlardan foydani oshirish va mijozlar tajribasini yaxshilashga yordam beradigan shaxsiylashtiradigan taklif va reklama kampaniyalarini yaratishda foydalanish mumkin.

Klasterlash katta hajmdagi axborotlarni tahlil qilib, yashirin pattern va guruhlarni aniqlash uchun kuchli vositalarni taqdim etadi. U samarali marketing strategiyalarini yaratishda ahamiyatli bo‘lgan bozorni segmentlash va xizmatlarni shaxsiylashtirishga yordam beradi.

k-means usuli vizualizatsiyasi

Ma’lumotlarni tahlil qilish jarayoni

Ma’lumotlarni tahlil qilish jarayoni qayta ishlanmagan ma’lumotlarni foydali axborotga aylantiradigan va qaror qabul qilishni qo‘llab-quvvatlaydigan ketma-ket qadamlardan iborat. Bu jarayonni mijozlarning ismi-sharifi, buyurtmalar raqami, sotilgan va sotilmagan mahsulotlar kabi ro‘yxatlar mavjud onlayn do‘kon misolida ko‘rib chiqamiz. Dastlabki holatda bu ma’lumotlardan foydalanish qiyin. Ammo to‘g‘ri yondashilsa, ular qimmatli ma’lumot berishi mumkin.

Vazifani belgilash

Avvalo ma’lumotlardan qanday axborot olishni istayotganingizni aniqlab olish muhim. Masalan, maqsadingiz foydani ko‘paytirish bo‘lsa, xaridorlar qaysi mahsulotlarni ko‘proq sotib olayotganini bilish kerak. Ulardan qaysilari eng ko‘p daromad keltirayotganini aniqlash lozim.

Faraz qilaylik, do‘kon mayda elektronika mahsulotlarini sotadi. Siz xaridorlar ko‘pincha quloqchin, quvvatlash qurilmalari va telefon g‘iloflarini xarid qilayotganini payqadingiz. Ammo bu aksessuarlar biznes uchun koʻproq foyda keltiradi degani emas. Masalan, smartfon narxi 20 ming rubl, quloqchin esa bir yarim ming rubl boʻlishi mumkin. Faqat ma’lumotlar tahliligina qaysi strategiya — tez-tez sotiladigan arzon yoki kamdan-kam sotiladigan, lekin qimmat mahsulotlar ko‘proq daromad keltirishini aniq ko‘rsata oladi.

Ma’lumotlarni to‘plash

Foydani oshirish uchun biznesning daromadiga ta’sir qiluvchi omillarni aniqlash muhimdir. Keling, bular nima bo‘lishi mumkinligini ko‘rib chiqamiz.

Sotuvlar to‘g‘risidagi ma’lumotlar:

  • Assortimentdagi mahsulotlar ro‘yxati.

  • Mahsulotning har bir turi boʻyicha sotuv miqdori.

  • Har bir mahsulotning sotilish narxi.

  • Sotilgan sanasi va vaqti.

  • Jami tushum summasi.

Xarajatlar haqidagi ma’lumotlar:

  • Mahsulot tannarxi. Mahsulotni sotib olish yoki ishlab chiqarish xarajatlari.

  • Transport xarajatlari. Mahsulotni do‘konga olib kelish narxi.

  • Reklama xarajatlari. Mahsulotni ommalashtirishga ketgan sarf.

Mijozlar haqida ma’lumotlar:

  • Xaridorlarning yoshi, jinsi va yashash joyi.

  • Avvalgi xaridlari haqidagi ma’lumot.

  • Xarid qilish chastotasi.

Aksiya va chegirmalar haqidagi maʼlumot:

  • O‘tkazilgan aksiya va chegirmalar haqida ma’lumot.

  • Aksiyalarning o‘tkazilish davri va muddatlari.

  • Aksiyalarning sotuv hajmiga ta’siri.

Qaytarilgan mahsulotlar haqidagi ma’lumotlar:

  • Mahsulotlarning qaytarilish sabablari.

  • Qaytarilgan mahsulotlar soni.

  • Eng ko‘p qaytariladigan mahsulotlar.

Ma’lumotlarni qo‘lda tahlil qilish mushkul bo‘lgani sabab jarayonni osonlashtirish maqsadida turli vositalar ishlatiladi:

  • Buyurtmalarni boshqarish tizimlari (masalan, Shopify, Magento, “1C”). Har bir buyurtma haqidagi ma’lumotlarni avtomatik ravishda qayd qiladi.

  • To‘lov tizimlari. To‘lovlar, uning usullari va summalari haqida ma’lumot to‘playdi.

  • Ro‘yxatdan o‘tish shakllari. Bunda ro‘yxatdan o‘tishda foydalanuvchilar haqidagi ma’lumotlar to‘planadi.

  • Xaridlar tarixi. Mijozlarning avvalgi buyurtmalari haqidagi ma’lumotlarni saqlaydi.

  • Cookie fayllar va veb tahlil (Google Analytics, Yandex Metrica). Foydalanuvchilarning veb-saytdagi xatti-harakatlarini kuzatib boradi.

  • Qaynoq xaritalar uchun vositalar (Hotjar, Crazy Egg). Foydalanuvchilar qayerga bosishini va veb-saytda qanday harakatlanishini ko‘rsatadi.

Bu vositalar biznes egalariga 

– ma’lumotlarni to‘plash va tahlil qilish,

– asosiy tendensiyalarni aniqlash,

– mijozlarning ehtiyojlarini tushunish,

– foydani oshirish uchun asosli qarorlar qabul qilishda yordam beradi.

Ma’lumotlarni saqlash

Keyinchalik tahlil qilish uchun to‘plangan ma’lumotlarni saqlash va tartibga solish kerak. Buning uchun ular ko‘pincha ma’lumotlar ko‘li deb ataladigan markazlashtirilgan omborga joylashtiriladi. Bu omborda axborot manbai va turidan qatʼi nazar asl formatda saqlanadi. Bular mahsulotlarning surati, mijozlarning fikr-mulohazalari, tranzaksiyalar haqidagi ma’lumotlar va boshqalar bo‘lishi mumkin.

Ma’lumotlarning ikki asosiy turini ajratib ko‘rsatish mumkin:

  • Strukturalangan ma’lumotlar. Qat’iy jadvallarda tartibga solingan. Bunga misol qilib, buyurtmalarni boshqarish tizimlari (CRM) yordamida avtomatik ravishda to‘plangan mijozlar va buyurtmalar haqidagi ma’lumotlar jadvallarini keltirish mumkin. Bunday ma’lumotlarni relyatsion ma’lumotlar bazalari va SQL tili yordamida qayta ishlash, tahlil qilish oson kechadi.

  • Strukturalanmagan ma’lumotlar. Qatʼiy strukturaga ega emas va mijozlarning matnli fikr-mulohazalari, rasm yoki videolar kabi turli formatlarda taqdim etilishi mumkin. Bunday ma’lumotlar bilan ishlash murakkab bo‘lgani sabab ular odatda MongoDB singari norelyatsion ma’lumotlar bazalarida saqlanadi. Tahlil uchun ko‘pincha mashinani o‘qitish usullari, matnni tahlil qilish va kalit so‘zlarni ajratish uchun nutqni qayta ishlash texnologiyalari (NLP) qo‘llanadi.

Ma’lumotlarni tozalash

To‘plangan ma’lumotlar ko‘pincha xato yoki keraksiz axborotlarni o‘z ichiga oladi. Ulardan xalos boʻlish kerak. Asosiy bosqichlarni ko‘rib chiqamiz:

  • Dublikatlarni o‘chirish. Bir xil ma’lumotlar bir necha marta hisobga olinmayotganiga ishonch hosil qiling. Agar bitta mijoz tasodifan ikki marta ro‘yxatga olingan bo‘lsa, bu o‘rtacha chek yoki xaridorlar sonining noto‘g‘ri hisoblanishiga olib keladi.

  • Tushirib qoldirilgan qiymatlarning qayta ishlanishi. Tushirib qoldirilgan qiymatlar yanglish yoki notoʻgʻri tahlilni keltirib chiqarishi mumkin. Masalan, mahsulot narxi haqidagi ma’lumotlarning yo‘qligi foydani hisoblashga ta’sir qiladi. Tushirib qoldirilgan maʼlumotlarni tegishli qiymatlar bilan to‘ldirish yoki ishonchli tahlil uchun ma’lumotlar yetarli bo‘lmagan taqdirda ularni o‘chirish mumkin.

  • Xatolarni tuzatish. Imlo xatolari, noto‘g‘ri formatlar yoki xato qiymatlar ma’lumotlarning noto‘g‘ri talqin qilinishiga olib kelishi mumkin. Agar mahsulot narxi “100.00” o‘rniga “10000” deb ko‘rsatilgan bo‘lsa, bu sotuvlar boʻyicha xulosalarni notoʻgʻri ko‘rsatishi mumkin.

  • Ma’lumotlarni normallashtirish. Ma’lumotlarni yagona formatga keltirish ularni tahlil qilish va taqqoslashni osonlashtiradi. Agar sanalar turli formatlarda yozilgan bo‘lsa (kun/oy/yil va oy/kun/yil), bu qayta ishlash jarayonida chalkashliklarga olib kelishi mumkin.

  • Keraksiz ma’lumotlarni o‘chirish. E’tiborni muhim va foydali ma’lumotlarga qarating. Masalan, xarid kunidagi ob-havoga doir maʼlumot. Agar u muayyan tadqiqotning bir qismi bo‘lmasa, xaridor xatti-harakatlarini tahlil qilish uchun ahamiyatsiz bo‘lishi mumkin.

Ma’lumotlar vizualizatsiyasi

Tozalangan ma’lumotlarni yaxshiroq idrok qilish uchun ko‘rgazmali shaklda taqdim etish mumkin. Buning uchun turli xil vizualizatsiya vositalari mavjud bo‘lib, ularning har biri ma’lum bir vazifalar uchun mos keladi:

  • Microsoft Excel: oylar bo‘yicha sotuv grafiklari kabi strukturalangan ma’lumotlar uchun oddiy vizualizatsiyalarni yaratish imkonini beradi. Bu bazaviy tahlil va hisobotlarni yaratish uchun qulay vosita.

  • Tableau: interaktiv grafik va dashbordlar yaratishda foydalaniladi. Bu vosita asosiy ko‘rsatkichlarni kuzatish va muntazam yig‘ilishlarda ma’lumotlarni tahlil qilish uchun qulay.

  • Google Data Studio: hisobot va dashbordlarni yaratishga mo‘ljallangan bepul vosita. U hisobotlarni avtomatik tarzda yangilash va turli marketing kanallaridan konversiya ma’lumotlarini ko‘rsatish uchun juda mos. Googleʼning boshqa xizmatlari bilan yaxshi integratsiyalashadi.

  • Matplotlib, Seaborn, Plotly kutubxonalariga ega Python: kastom vizualizatsiyalar va ma’lumotlarni chuqur tahlil qilish uchun mos keladi. Bu vositalar nostandart grafik va diagrammalarni yaratishda keng imkoniyatlar beradi.

Grafik turini tanlash tahlilning maqsadi va ma’lumotlar turiga bog‘liq bo‘ladi:

  • Chiziqli grafik. Vaqt o‘tishi bilan yuz beradigan o‘zgarishlarni, masalan, sotuvlarning yil davomida o‘zgarishini ko‘rsatadi. U trendlar va mavsumiy tebranishlarni tahlil qilishda foydali.

  • Ustunli diagramma. Turli toifadagi mahsulotlar sotuvini taqqoslashda foydalaniladi.

  • Doiraviy diagramma. Har bir mahsulotning bozordagi ulushini aks ettiradi.

  • Gistogramma. Mahsulot narxlarining taqsimlanishini aks ettirishga yordam beradi.

  • Nuqtali diagramma. Ikki o‘zgaruvchi, masalan, mahsulot narxi va sotuv o‘rtasidagi korrelyatsiyalarni aniqlash uchun mos keladi.

Ma’lumotlarni tahlil qilish

Yakuniy bosqichda to‘plangan ma’lumotlardan foydali axborotni ajratib olish zarur. Buning uchun bir necha asosiy usullar qo‘llanadi:

  • Ma’lumotlarni umumlashtirish. Sotilgan mahsulotlar miqdori, umumiy tushum, o‘rtacha chek va boshqa muhim ko‘rsatkichlarni hisoblash imkonini beradi.

  • Ma’lumotlarni guruhlash. Chuqurroq tahlil o‘tkazish uchun umumiy ko‘rsatkichlarni batafsilroq toifalarga ajratishga yordamlashadi. Bu turli vaqt oraliqlari yoki mahsulot toifalari bo‘yicha sotuv va tushumlardagi o‘zgarishlarni aniqlash imkonini beradi.

  • Bog‘liqliklarni o‘rganish. Bu bosqichda turli o‘zgaruvchilar o‘rtasidagi bog‘liqliklar o‘rganiladi. Misol uchun, chegirmalarning savdo hajmiga ta’sirini o‘rganish bir o‘zgaruvchining (chegirmalar) o‘zgarishi boshqasiga (savdo hajmi) qanday ta’sir ko‘rsatishini tushunishga yordam beradi.

  • Trend va tendensiyalarni aniqlash. Yilning muayyan fasli yoki haftaning ma’lum kunlarida qaysi mahsulotlar xaridorgirligini aniqlashga yordam beradi. Bu ma’lumotlar ombor zaxiralarini optimallashtirish va samarali reklama strategiyalarini ishlab chiqishda foydali bo‘lishi mumkin.



Manba: Основы анализа данных для начинающих

Mohirdev Telegram

Telegram kanalimizga obuna bo’lishni unutmang

Obuna bo'lish
https://assets.mohirdev.uz/article-authors/6614ccb17fc3070a4e491ca8/a469e08e-2e75-4a45-9b8a-3dbcbfd01d02.original.png

skillbox.ru