Sommario:
- Scraping data with import. io
- ImageQuilts è un'estensione di Chrome sviluppata in parte dal leggendario Edward Tufte, uno dei primi grandi pionieri nella visualizzazione dei dati - ha reso popolare l'uso dei dati rapporto di inchiostro per giudicare l'efficacia dei grafici.
- DataWrangler è uno strumento online supportato dall'Interactive Data Lab dell'Università di Washington (al momento in cui DataWrangler è stato sviluppato, questo gruppo è stato chiamato Stanford Visualization Group). Lo stesso gruppo ha sviluppato Lyra, un ambiente di visualizzazione dei dati interattivo che è possibile utilizzare per creare visualizzazioni complesse senza esperienza di programmazione.
Video: Build Tomorrow's Library by Jeffrey Licht 2024
Se hai bisogno di dati per supportare un'analisi aziendale o un pezzo di giornalismo imminente, il web-scraping può aiutarti a rintracciare fonti di dati interessanti e uniche. In Web-scraping si impostano programmi automatici e poi si lasciano filtrare il Web per i dati necessari. Qui ci sono strumenti gratuiti szome che è possibile utilizzare per raschiare dati o immagini, inclusa l'importazione. io, ImageQuilts e DataWrangler.
Scraping data with import. io
Hai mai provato a copiare e incollare una tabella dal Web in un documento di Microsoft Office e quindi non hai potuto allineare correttamente le colonne? Frustrante, giusto? Questo è esattamente il punto dolente che importa. io è stato progettato per affrontare.
importazione. io - pronunciato "import-eye-oh" - è un'applicazione desktop gratuita che è possibile utilizzare per copiare, incollare, pulire e formattare senza problemi qualsiasi parte di una pagina Web con pochi clic del mouse. Puoi persino usare l'importazione. io per eseguire automaticamente la scansione ed estrarre i dati dagli elenchi di più pagine.
Uso dell'importazione. io, puoi raschiare i dati da una serie semplice o complicata di pagine web:
-
Semplice: Accedi alle pagine web attraverso semplici collegamenti ipertestuali che appaiono su Pagina 1, Pagina 2, Pagina 3.
-
Complicato: > Compila un modulo o scegli da un elenco a discesa, quindi invia la richiesta di raschiamento allo strumento. importazione. La caratteristica più impressionante di io è la sua capacità di osservare i clic del mouse per apprendere ciò che desideri, e quindi offrire i modi in cui può completare automaticamente i tuoi compiti per te. Sebbene l'importazione. io impara e suggerisce attività, non agisce su quelle attività fino a dopo aver contrassegnato il suggerimento come corretto. Di conseguenza, queste interazioni aumentate dall'uomo riducono il rischio che la macchina tragga una conclusione errata a causa di una eccessiva congettura.
ImageQuilts è un'estensione di Chrome sviluppata in parte dal leggendario Edward Tufte, uno dei primi grandi pionieri nella visualizzazione dei dati - ha reso popolare l'uso dei dati rapporto di inchiostro per giudicare l'efficacia dei grafici.
L'attività eseguita da ImageQuilts è apparentemente semplice da descrivere ma molto complessa da implementare. ImageQuilts crea collage di decine di immagini e le riunisce in un'unica "trapunta" composta da più file di uguale altezza. Questo compito può essere complesso perché le immagini di origine non hanno quasi mai la stessa altezza. ImageQuilts riprende e ridimensiona le immagini prima di unirle in un'unica immagine di output.
La trapunta illustrata è stata ricavata da una ricerca "Immagini etichettate per riutilizzare" del termine
dati scienza . ImageQuilts consente persino di scegliere l'ordine delle immagini o di renderle casuali. È possibile utilizzare lo strumento per trascinare e rilasciare qualsiasi immagine in qualsiasi posizione, rimuovere un'immagine, ingrandire tutte le immagini contemporaneamente o ingrandire ciascuna immagine singolarmente.
Puoi persino usare lo strumento per coprire i colori delle immagini, dal colore alla scala di grigi o al colore invertito (utile per creare fogli di contatto con negativi, se sei una di quelle persone rare che ancora elaborano la fotografia analogica).
Wrangling data con DataWrangler
DataWrangler è uno strumento online supportato dall'Interactive Data Lab dell'Università di Washington (al momento in cui DataWrangler è stato sviluppato, questo gruppo è stato chiamato Stanford Visualization Group). Lo stesso gruppo ha sviluppato Lyra, un ambiente di visualizzazione dei dati interattivo che è possibile utilizzare per creare visualizzazioni complesse senza esperienza di programmazione.
Se il tuo obiettivo è quello di
scolpire il tuo set di dati - o ripulire le cose spostando le cose come farebbe uno scultore (dividi questa parte in due, taglia quella punta e spostala lì, spingila giù in modo che tutto ciò che si trova sotto venga spostato a destra e così via): DataWrangler è lo strumento adatto a te. È possibile eseguire manipolazioni con DataWrangler in modo simile a ciò che si può fare in Excel utilizzando Visual Basic. Ad esempio, è possibile utilizzare DataWrangler o Excel con Visual Basic per copiare, incollare e formattare le informazioni dagli elenchi su Internet.
DataWrangler suggerisce anche azioni basate sul set di dati e può ripetere azioni complesse su interi set di dati - azioni come eliminare le righe saltate, dividere i dati da una colonna in due o trasformare un'intestazione in dati di colonna. DataWrangler può anche mostrarti dove mancano i dati sul set di dati.
I dati mancanti possono indicare un errore di formattazione che deve essere ripulito.