Luokituksen käyttö tiedonlouhinnassa

Kirjoittaja: Monica Porter

Luomispäivä: 14 Maaliskuu 2021

Päivityspäivä: 14 Saattaa 2024

Luokituksen käyttö tiedonlouhinnassa - Internet

Sisältö

Luokittelutekniikat tukevat tietojen analysointia ja tulosten ennustamista
Miksi luokittelu?
Kuinka luokitus toimii
Päivittäisiä esimerkkejä luokituksesta

Luokittelutekniikat tukevat tietojen analysointia ja tulosten ennustamista

Luokittelu on tiedon louhintatekniikka, joka luokitellaan tietokokoelmaan entistä tarkempien ennusteiden ja analyysien helpottamiseksi. Luokittelu on yksi monista menetelmistä, joiden tarkoituksena on tehdä erittäin suurten aineistojen analysoinnista tehokasta.

Miksi luokittelu?

Erittäin suurista tietokannoista on tulossa normi nykypäivän maailmassa Suuri data. Kuvittele tietokanta, jossa on teratavua dataa - teratavu on yksi biljoona datatavua. Pelkästään Facebook katkaisee 600 teratavua uutta tietoa joka päivä (vuodesta 2014 lähtien, kun se viimeksi ilmoitti nämä tiedot). Suurdatan ensisijainen haaste on miten se ymmärretään.

Ja pelkkä määrä ei ole ainoa ongelma: myös iso data on yleensä monimuotoista, jäsentämätöntä ja nopeasti muuttuvaa. Harkitse ääni- ja videotietoja, sosiaalisen median viestejä, 3D-tietoja tai geospatiaalista tietoa. Tällaista tietoa ei ole helppo luokitella tai järjestellä.

Tämän haasteen ratkaisemiseksi on kehitetty joukko automaattisia menetelmiä hyödyllisen tiedon hankkimiseksi luokittelu.

Kuinka luokitus toimii

Analyytikon tavoitteena on luoda joukko luokitussääntöjä, jotka vastaavat kysymykseen, tekevät päätöksen tai ennustavat käyttäytymistä. Aluksi kehitetään harjoitustietojoukko, joka sisältää tietyn määrän ominaisuuksia ja todennäköisen tuloksen. Luokittelualgoritmin tehtävänä on selvittää, kuinka tämä ominaisuusjoukko päätyy lopputulokseen.

Harkitse luottokorttiyhtiötä yrittäessäsi selvittää, mitkä asiakkaat saavat luottokorttitarjouksen.

Yrityksen koulutustiedot voivat sisältää:

Nimi	Ikä	sukupuoli	Vuositulot	Luottokorttitarjous
John Doe	25	M	$39,500	Ei
Jane Doe	56	F	$125,000	Joo

Ennustajasarakkeet Ikä, sukupuolija Vuositulot määritä "ennustajamääritteen" arvo Luottokorttitarjous. Harjoitusjoukossa ennustajaominaisuus tunnetaan. Luokittelualgoritmi yrittää sitten selvittää, kuinka ennustajamääritteen arvo saavutettiin: mitkä suhteet ennustajien ja päätöksen välillä ovat? Se kehittää joukon ennustesääntöjä, yleensä IF / THEN-lauseen.

On selvää, että tämä on yksinkertainen esimerkki, ja algoritmi tarvitsi huomattavasti suuremman datanäytteen kuin kaksi tässä esitettyä tietuetta. Lisäksi ennustamissäännöt ovat todennäköisesti paljon monimutkaisempia, mukaan lukien alasäännöt ominaisuuksien yksityiskohtien kaappaamiseksi.

Seuraavaksi algoritmille annetaan "ennustejoukko" dataa analysoitavaksi, mutta tästä joukosta puuttuu ennusteominaisuus (tai päätös):

Nimi	Ikä	sukupuoli	Vuositulot	Luottokorttitarjous
Jack Frost	42	M	$88,000
Mary Murray	16	F	$0

Nämä ennustajatiedot auttavat arvioimaan ennustussääntöjen tarkkuutta, ja sääntöjä tarkistetaan sitten, kunnes kehittäjä pitää ennusteita tehokkaina ja hyödyllisinä.

Päivittäisiä esimerkkejä luokituksesta

Luokittelu ja muut tiedon louhintamenetelmät ovat takana suuressa osassa kuluttajien päivittäistä kokemusta. Sääennusteet käyttävät luokitustekniikoita ilmoittaakseen, onko päivä sateista, aurinkoista tai pilvistä. Lääkäri analysoi terveydentilaa ennustaakseen todennäköiset lääketieteelliset tulokset. Tyyppinen luokittelumenetelmä, Naive Bayesian, käyttää ehdollista todennäköisyyttä luokitella roskapostit.