Internet

Luokituksen käyttö tiedonlouhinnassa

Kirjoittaja: Monica Porter
Luomispäivä: 14 Maaliskuu 2021
Päivityspäivä: 14 Saattaa 2024
Anonim
Luokituksen käyttö tiedonlouhinnassa - Internet
Luokituksen käyttö tiedonlouhinnassa - Internet

Sisältö

Luokittelutekniikat tukevat tietojen analysointia ja tulosten ennustamista

Luokittelu on tiedon louhintatekniikka, joka luokitellaan tietokokoelmaan entistä tarkempien ennusteiden ja analyysien helpottamiseksi. Luokittelu on yksi monista menetelmistä, joiden tarkoituksena on tehdä erittäin suurten aineistojen analysoinnista tehokasta.

Miksi luokittelu?

Erittäin suurista tietokannoista on tulossa normi nykypäivän maailmassa Suuri data. Kuvittele tietokanta, jossa on teratavua dataa - teratavu on yksi biljoona datatavua. Pelkästään Facebook katkaisee 600 teratavua uutta tietoa joka päivä (vuodesta 2014 lähtien, kun se viimeksi ilmoitti nämä tiedot). Suurdatan ensisijainen haaste on miten se ymmärretään.


Ja pelkkä määrä ei ole ainoa ongelma: myös iso data on yleensä monimuotoista, jäsentämätöntä ja nopeasti muuttuvaa. Harkitse ääni- ja videotietoja, sosiaalisen median viestejä, 3D-tietoja tai geospatiaalista tietoa. Tällaista tietoa ei ole helppo luokitella tai järjestellä.

Tämän haasteen ratkaisemiseksi on kehitetty joukko automaattisia menetelmiä hyödyllisen tiedon hankkimiseksi luokittelu.

Kuinka luokitus toimii

Analyytikon tavoitteena on luoda joukko luokitussääntöjä, jotka vastaavat kysymykseen, tekevät päätöksen tai ennustavat käyttäytymistä. Aluksi kehitetään harjoitustietojoukko, joka sisältää tietyn määrän ominaisuuksia ja todennäköisen tuloksen. Luokittelualgoritmin tehtävänä on selvittää, kuinka tämä ominaisuusjoukko päätyy lopputulokseen.

Harkitse luottokorttiyhtiötä yrittäessäsi selvittää, mitkä asiakkaat saavat luottokorttitarjouksen.

Yrityksen koulutustiedot voivat sisältää:


Nimi Ikä sukupuoli Vuositulot Luottokorttitarjous
John Doe 25 M $39,500 Ei
Jane Doe 56 F $125,000 Joo

Ennustajasarakkeet Ikä, sukupuolija Vuositulot määritä "ennustajamääritteen" arvo Luottokorttitarjous. Harjoitusjoukossa ennustajaominaisuus tunnetaan. Luokittelualgoritmi yrittää sitten selvittää, kuinka ennustajamääritteen arvo saavutettiin: mitkä suhteet ennustajien ja päätöksen välillä ovat? Se kehittää joukon ennustesääntöjä, yleensä IF / THEN-lauseen.

On selvää, että tämä on yksinkertainen esimerkki, ja algoritmi tarvitsi huomattavasti suuremman datanäytteen kuin kaksi tässä esitettyä tietuetta. Lisäksi ennustamissäännöt ovat todennäköisesti paljon monimutkaisempia, mukaan lukien alasäännöt ominaisuuksien yksityiskohtien kaappaamiseksi.


Seuraavaksi algoritmille annetaan "ennustejoukko" dataa analysoitavaksi, mutta tästä joukosta puuttuu ennusteominaisuus (tai päätös):

Nimi Ikä sukupuoli Vuositulot Luottokorttitarjous
Jack Frost 42 M $88,000
Mary Murray 16 F $0

Nämä ennustajatiedot auttavat arvioimaan ennustussääntöjen tarkkuutta, ja sääntöjä tarkistetaan sitten, kunnes kehittäjä pitää ennusteita tehokkaina ja hyödyllisinä.

Päivittäisiä esimerkkejä luokituksesta

Luokittelu ja muut tiedon louhintamenetelmät ovat takana suuressa osassa kuluttajien päivittäistä kokemusta. Sääennusteet käyttävät luokitustekniikoita ilmoittaakseen, onko päivä sateista, aurinkoista tai pilvistä. Lääkäri analysoi terveydentilaa ennustaakseen todennäköiset lääketieteelliset tulokset. Tyyppinen luokittelumenetelmä, Naive Bayesian, käyttää ehdollista todennäköisyyttä luokitella roskapostit.

Lisätietoja

Mielenkiintoinen Tänään

Kenelle todella tarvitaan viivakameraa?
Elämä

Kenelle todella tarvitaan viivakameraa?

Dah-aennetut kamerat ovat olleet olemaa jo vuoikymmenien ajan, mutta vata äkettäin ne räjähtivat yleiön tietoiuuteen. Kun nämä laitteet iirrettiin poliiiautoihin ja...
AirPod-laitteesi eivät tappaa sinua
Internet

AirPod-laitteesi eivät tappaa sinua

Päivitetty 4. marrakuuta 2019 14:08 ET uurin oa langattomata iirtotekniikatamme luo näkymättömiä, vähän energiaa kuluttavia EMF-kenttiä. Tämä iä...