Sisältö
- Luokittelutekniikat tukevat tietojen analysointia ja tulosten ennustamista
- Miksi luokittelu?
- Kuinka luokitus toimii
- Päivittäisiä esimerkkejä luokituksesta
Luokittelutekniikat tukevat tietojen analysointia ja tulosten ennustamista
Luokittelu on tiedon louhintatekniikka, joka luokitellaan tietokokoelmaan entistä tarkempien ennusteiden ja analyysien helpottamiseksi. Luokittelu on yksi monista menetelmistä, joiden tarkoituksena on tehdä erittäin suurten aineistojen analysoinnista tehokasta.
Miksi luokittelu?
Erittäin suurista tietokannoista on tulossa normi nykypäivän maailmassa Suuri data. Kuvittele tietokanta, jossa on teratavua dataa - teratavu on yksi biljoona datatavua. Pelkästään Facebook katkaisee 600 teratavua uutta tietoa joka päivä (vuodesta 2014 lähtien, kun se viimeksi ilmoitti nämä tiedot). Suurdatan ensisijainen haaste on miten se ymmärretään.
Ja pelkkä määrä ei ole ainoa ongelma: myös iso data on yleensä monimuotoista, jäsentämätöntä ja nopeasti muuttuvaa. Harkitse ääni- ja videotietoja, sosiaalisen median viestejä, 3D-tietoja tai geospatiaalista tietoa. Tällaista tietoa ei ole helppo luokitella tai järjestellä.
Tämän haasteen ratkaisemiseksi on kehitetty joukko automaattisia menetelmiä hyödyllisen tiedon hankkimiseksi luokittelu.
Kuinka luokitus toimii
Analyytikon tavoitteena on luoda joukko luokitussääntöjä, jotka vastaavat kysymykseen, tekevät päätöksen tai ennustavat käyttäytymistä. Aluksi kehitetään harjoitustietojoukko, joka sisältää tietyn määrän ominaisuuksia ja todennäköisen tuloksen. Luokittelualgoritmin tehtävänä on selvittää, kuinka tämä ominaisuusjoukko päätyy lopputulokseen.
Harkitse luottokorttiyhtiötä yrittäessäsi selvittää, mitkä asiakkaat saavat luottokorttitarjouksen.
Yrityksen koulutustiedot voivat sisältää:
Nimi | Ikä | sukupuoli | Vuositulot | Luottokorttitarjous |
---|---|---|---|---|
John Doe | 25 | M | $39,500 | Ei |
Jane Doe | 56 | F | $125,000 | Joo |
Ennustajasarakkeet Ikä, sukupuolija Vuositulot määritä "ennustajamääritteen" arvo Luottokorttitarjous. Harjoitusjoukossa ennustajaominaisuus tunnetaan. Luokittelualgoritmi yrittää sitten selvittää, kuinka ennustajamääritteen arvo saavutettiin: mitkä suhteet ennustajien ja päätöksen välillä ovat? Se kehittää joukon ennustesääntöjä, yleensä IF / THEN-lauseen.
On selvää, että tämä on yksinkertainen esimerkki, ja algoritmi tarvitsi huomattavasti suuremman datanäytteen kuin kaksi tässä esitettyä tietuetta. Lisäksi ennustamissäännöt ovat todennäköisesti paljon monimutkaisempia, mukaan lukien alasäännöt ominaisuuksien yksityiskohtien kaappaamiseksi.
Seuraavaksi algoritmille annetaan "ennustejoukko" dataa analysoitavaksi, mutta tästä joukosta puuttuu ennusteominaisuus (tai päätös):
Nimi | Ikä | sukupuoli | Vuositulot | Luottokorttitarjous |
---|---|---|---|---|
Jack Frost | 42 | M | $88,000 | |
Mary Murray | 16 | F | $0 |
Nämä ennustajatiedot auttavat arvioimaan ennustussääntöjen tarkkuutta, ja sääntöjä tarkistetaan sitten, kunnes kehittäjä pitää ennusteita tehokkaina ja hyödyllisinä.
Päivittäisiä esimerkkejä luokituksesta
Luokittelu ja muut tiedon louhintamenetelmät ovat takana suuressa osassa kuluttajien päivittäistä kokemusta. Sääennusteet käyttävät luokitustekniikoita ilmoittaakseen, onko päivä sateista, aurinkoista tai pilvistä. Lääkäri analysoi terveydentilaa ennustaakseen todennäköiset lääketieteelliset tulokset. Tyyppinen luokittelumenetelmä, Naive Bayesian, käyttää ehdollista todennäköisyyttä luokitella roskapostit.