Sommario:
- Come utilizzare le visualizzazioni tabulari per l'analisi predittiva
- I grafici a barre utilizzati nell'analisi predittiva
- Nozioni di base sui grafici a torta per l'analisi predittiva
- Come utilizzare i grafici grafici per l'analisi predittiva
- Nozioni di base sulle nuvole di parole per l'analisi predittiva
- Come utilizzare la rappresentazione degli uccelli floccati per l'analisi predittiva
Video: Visualizzare, riorganizzare e ripulire i dati 2024
Un'immagine vale più di mille parole, specialmente quando si sta tentando di ottenere una buona gestione dei dati di analisi predittiva. Durante la fase di pre-elaborazione, mentre stai preparando i tuoi dati, è prassi comune visualizzare ciò che hai in mano prima di continuare con il passaggio successivo.
Si inizia utilizzando un foglio di calcolo come Microsoft Excel per creare una matrice di dati, che consiste di dati candidati caratteristiche (anche denominati attributi ). Diversi pacchetti software di business intelligence (come Tableau) possono fornire una panoramica preliminare dei dati a cui si sta applicando l'analisi.
Come utilizzare le visualizzazioni tabulari per l'analisi predittiva
Le tabelle sono la rappresentazione pittorica dei dati più semplice e basilare. Le tabelle (anche note come fogli di calcolo ) sono costituite da righe e colonne, che corrispondono, rispettivamente, agli oggetti e ai loro attributi menzionati in precedenza come componenti dei dati. Ad esempio, considera i dati dei social network online. Un oggetto dati potrebbe rappresentare un utente. Gli attributi di un utente (oggetto dati) possono essere intestazioni di colonne: genere, codice postale o data di nascita.
Le celle in una tabella rappresentano valori. La visualizzazione nelle tabelle consente di individuare facilmente i valori degli attributi mancanti degli oggetti dati.
Le tabelle possono anche fornire la flessibilità di aggiungere nuovi attributi che sono combinazioni di altri attributi. Ad esempio, nei dati dei social network, è possibile aggiungere un'altra colonna denominata Age, che può essere facilmente calcolata, come attributo derivato, dall'attributo Date of Birth esistente. I dati tabulari sui social network mostrano una nuova colonna, Età, creata da un'altra colonna esistente (Data di nascita).
I grafici a barre utilizzati nell'analisi predittiva
I grafici a barre possono essere utilizzati per individuare picchi o anomalie nei dati. Puoi usarlo per ogni attributo per visualizzare rapidamente i valori minimi e massimi. I grafici a barre possono anche essere utilizzati per iniziare una discussione su come normalizzare i dati.
Normalizzazione è la regolazione di alcuni o tutti i valori di attributo su una scala che rende i dati più utilizzabili. Ad esempio, puoi facilmente vedere che c'è un errore nei dati: la barra Età su un record è negativa. Quell'anomalia è più facilmente rappresentata da un grafico a barre che da una tabella di dati.
Nozioni di base sui grafici a torta per l'analisi predittiva
I grafici a torta vengono utilizzati principalmente per mostrare le percentuali. Possono facilmente illustrare la distribuzione di diversi articoli e evidenziare i più dominanti. I dati grezzi del social network sono rappresentati secondo l'attributo Age.Si noti che il grafico mostra non solo una chiara distribuzione dei maschi rispetto alle femmine, ma anche un probabile errore: R come valore per il genere di genere eventualmente creato quando i dati sono stati raccolti.
Come utilizzare i grafici grafici per l'analisi predittiva
La teoria dei grafi fornisce una serie di potenti algoritmi in grado di analizzare i dati strutturati e rappresentati come un grafico. In informatica, un grafico è la struttura dei dati, un modo per organizzare i dati che rappresentano le relazioni tra coppie di oggetti dati. Un grafico è costituito da due parti principali:
-
Vertici, noti anche come nodi
-
Bordi, che collegano coppie di nodi
I bordi possono essere orientati (disegnati come frecce) e possono avere pesi. Puoi decidere di posizionare un bordo (freccia) tra due nodi (cerchi) - in questo caso, i membri del social network che sono collegati ad altri membri come amici:
La direzione della freccia indica chi "amici" quali primi o chi inizia le interazioni il più delle volte.
Nozioni di base sulle nuvole di parole per l'analisi predittiva
Considera un elenco di parole o concetti disposti come un word cloud - una rappresentazione grafica di tutte le parole nell'elenco, che mostra la dimensione di ogni parola come proporzionale a una metrica specificata dall'utente. Ad esempio, se si dispone di un foglio di calcolo di parole e occorrenze e si desidera identificare le parole più importanti, provare una nuvola di parole.
Le nuvole di parole funzionano perché i dati della maggior parte delle organizzazioni sono di testo; un esempio comune è l'uso dei termini di tendenza da parte di Twitter. Ogni termine in questa rappresentazione ha un peso che influenza le sue dimensioni come un indicatore della sua importanza relativa.
Un modo per definire che il peso potrebbe essere il numero di volte in cui una parola appare nella tua collezione di dati. Più frequentemente appare una parola, più "pesante" è il suo peso - e più grande appare nella nuvola.
Come utilizzare la rappresentazione degli uccelli floccati per l'analisi predittiva
Il comportamento naturale del floccaggio in generale è un sistema auto-organizzante in cui gli oggetti (in particolare, gli esseri viventi) tendono a comportarsi in accordo con (a) l'ambiente a cui appartengono (b) le loro risposte ad altri oggetti esistenti. Il comportamento floccaggio delle società naturali come quelle di api, mosche, uccelli, pesci e formiche - o, peraltro, le persone - è anche noto come intelligenza di scia .
Gli uccelli seguono le regole naturali quando si comportano come un gregge. I compagni di gruppo sono uccelli situati a una certa distanza l'uno dall'altro; quegli uccelli sono considerati simili. Ogni uccello si muove secondo le tre regole principali che organizzano il comportamento di floccaggio.
-
Separazione: I compagni di stallo non devono scontrarsi tra loro.
-
Allineamento: I compagni di campo si muovono nella stessa direzione media dei loro vicini.
-
Coesione: I compagni di floccaggio si muovono in base alla posizione o alla posizione media dei loro compagni di gregge.
La modellazione di queste tre regole può consentire a un sistema analitico di simulare i comportamenti di floccaggio. Usando il comportamento naturale auto-organizzato degli uccelli che si affollano, puoi convertire un semplice foglio di calcolo in una visualizzazione.La chiave è definire la nozione di similarità come parte dei tuoi dati. Inizia con un paio di domande:
-
Cosa rende simili due oggetti dati nei tuoi dati?
-
Quali attributi possono guidare al meglio la somiglianza tra due record di dati?
Ad esempio, nei dati dei social network, i record di dati rappresentano singoli utenti; gli attributi che li descrivono possono includere Età, Codice postale, Stato delle relazioni, Elenco di amici, Numero di amici, Abitudini, Eventi