Dabartinis AI strėlės yra panašios į ankstyvąsias naftos tyrinėjimo dienas. Kaip žalia nafta reikalauja didelio apdorojimo, kad būtų galima naudoti naudoti degalus, neapdoroti duomenys turi būti pertvarkyti, kad jis taptų perspektyvia treniruočių medžiaga didelių kalbų modeliams (LLMS) ir kitoms AI sistemoms.
Nepaisant jaudulio dėl generatyvinės AI, išlieka pagrindinis ribojantis veiksnys: mokymo duomenų kokybė ir struktūra. Remiantis keliais pramonės tyrimais, didelis procentas, kartais cituojamas net 80–85%, iš AI iniciatyvų nesugeba pasiekti gamybos, o bloga duomenų kokybė dažnai įtraukta į pagrindines priežastis. Nors metodikos skiriasi, pranešimas yra nuoseklus: švarus, gerai pažymėti ir su domenais susiję duomenys išlieka kliūtimi.
Apskaičiavimai skiriasi, tačiau tyrimai rodo, kad blogi duomenys JAV ekonomikai gali kainuoti daugiau nei 3 trilijonus USD per metus, o atskiros įmonės kiekvienais metais gali prarasti dešimtis milijonų dėl neveiksmingumo, blogų sprendimų ir sistemos klaidų, kylančių dėl žemos kokybės duomenų. Šie skaičiai diskutuojami, tačiau nedaugelis ginčo, kad ekonomikos rinkliava yra tikra ir didesnė.
Atsiribojimas tarp suvokimo ir tikrovės
Pagrindinis klausimas yra organizacinis lyderystės lūkesčių ir praktinės realybės, su kuriomis susiduria techninės komandos, atsiribojimas. Vienoje „Experian“ apklausoje nustatyta, kad beveik 70% verslo lyderių pripažįsta, kad jie nevisiškai pasitiki duomenimis, kuriais remiasi jų įmonės. Vis dėlto daugelis vis dar žengia į priekį naudodamiesi AI iniciatyvomis, kurios priklauso nuo tų pačių duomenų rinkinių, tikėdamiesi nuoseklių, patikimų iš modelių, pagamintų ant drebančių pamatų, išvestis.
Konkrečios sektoriaus rizika: nestruktūruoti ir suplanuoti duomenys
Skirtingos pramonės šakos šią problemą patiria skirtingais būdais:
- Sveikatos priežiūra: Iki 80% medicininių duomenų yra nestruktūrizuota (pvz. Nepaisant pažadų dėl AI-pagalbinės diagnostikos ir numatomo modeliavimo, įvaikinimą lieka suvaržyti nepatogūs duomenų vamzdynai.
- Finansai: Reguliavimo sistemoms reikalaujama, kad AI modeliai užtikrintų auditoriją ir paaiškinamumą, o tai įmanoma tik tuo atveju, jei pagrindiniai duomenys yra tikslūs, atsekami ir nuosekliai suformatuoti. Daugelis institucijų kovoja su šių standartų laikymu.
- Gamybos ir tiekimo grandinė: Fragmentuotos duomenų sistemos ir nesuderinami partnerių standartai lemia duomenų silosus. Tai riboja AI efektyvumą tokiose srityse kaip paklausos prognozavimas ir veiklos optimizavimas.
Duomenų paruošimas kaip pagrindinė kompetencija
Norint išspręsti šią problemą, reikia, kad įmonės duomenis būtų traktuojami kaip ilgalaikis, strateginis prioritetas, o ne vienkartinis projektas. Tai apima:
- Automatinių patvirtinimo ir valymo procesų įgyvendinimas
- Aiškių duomenų valdymo politikos įgyvendinimas
- Nuolatinių grįžtamojo ryšio kilpų kūrimas, siekiant pagerinti duomenų žymėjimo ir prarijimo vamzdynus
Sintetinių duomenų, kulkosvaidžių sugeneruotų duomenų rinkinių, imituojančių realaus pasaulio duomenų statistines savybes, kilimas siūlo papildomą sprendimą. Domenuose, kuriuose realių duomenų įsigijimas yra brangus, ribotas arba jautrus (pvz., Sveikatos priežiūros, autonominis vairavimas), sintetiniai duomenys gali padėti užpildyti spragas. Bet tai nėra pakeitimas; Tikrasis iššūkis slypi infrastruktūros kūrime, galinčioje mastelį ir palaikyti kokybę tiek sintetiniuose, tiek realiuose duomenų rinkiniuose.
Duomenys yra nauja infrastruktūra
Kai AI sistemos bus integruotos į kritinę infrastruktūrą, pradedant medicininės diagnostika ir baigiant kapitalo rinkomis, blogų duomenų kaina ir toliau didės. Duomenų kokybės gerinimas nebėra techninė detalė – tai pagrindinis pasitikėjimo ir našumo elementas. „Duomenų kliūtis“ sprendimas yra ne tik geresnių modelių kūrimas, bet ir apie juos maitinančios tiekimo grandinės patikslinimą. Decentralizuoti duomenų tinklai, tokie kaip „SAPIEN“ ir „Blockchain“ pagrįsta kilmė, plačiau galėtų vaidinti svarbų vaidmenį sprendžiant AI duomenų trūkumus.