Bagaimana memulakan dengan data

Kredit: https://www.flickr.com/photos/gleonhard/31254136671/in/photostream/

Kita semua telah mendengar gigitan bunyi.

"Sumber yang paling berharga di dunia tidak lagi minyak, tetapi data" - The Economist

Mungkin. Tetapi jika data seperti minyak maka keadaan data di banyak organisasi menyerupai ini:

Tumpahan minyak Horizon Deepwater

Arus data tak terhitung yang hilang kepada data lautan. Tanya mana-mana saintis data dan mereka akan memberitahu anda perkara yang paling sukar tentang sains data menangkap data yang betul. Jadi bagaimana kita mulakan?

1. Tanya soalan yang betul

Mengambil data demi itu adalah sia-sia dan memakan masa. Kita perlu memikirkan metrik kami, yang harus berdasarkan matlamat perniagaan. Apakah produk jualan terbaik? Di manakah pengguna meninggalkan proses pelbagai langkah? Berapa banyak pengguna aktif yang kita ada? Banyak organisasi menyampaikan metrik kepada pihak berkepentingan mereka berdasarkan perkara yang mereka dapat mengukur (misalnya pendapatan) tidak semestinya yang paling sesuai dengan hala tuju syarikat mereka.

Sebaik sahaja kita tahu apa yang kita cuba untuk mengukur maka kita boleh menentukan di mana hendak mula mencari data dan merancang langkah-langkah untuk mula menangkap data yang berkaitan.

2. Menyediakan budaya berasaskan data

Sebaik sahaja organisasi berkembang menjadi saiz tertentu, mereka tidak boleh lagi semata-mata bergantung kepada "perasaan usus". Keputusan perlu dibuat berdasarkan data dan data ini perlu disediakan untuk semua peringkat.

Bolehkah pekerja mengakses data dan metrik atau mereka berada di belakang lapisan keselamatan dan pita merah? Pekerja harus diberdayakan untuk melaksanakan eksplorasi data pada dataset (yang harus diakui dan dijamin untuk menghormati privasi). Platform analitik khidmat diri sendiri sesuai untuk ini. Kerja ini perlu terbuka dan telus. Meletakkan kerja di papan pemuka dan berkongsi organisasi yang luas adalah penting.

Organisasi perlu memberikan sokongan, dorongan dan sumber untuk kerja jenis ini. Ini bermakna masa dan wang, namun budaya yang didorong oleh data akan mempromosikan pembuatan keputusan yang lebih tepat.

3. Hire jurutera data

Ia adalah kekurangan umum organisasi untuk menyewa saintis data dan bukan jurutera data. Para saintis data benar-benar kritikal, mereka dapat mencari pola dalam data, meramalkan hasil dan menulis model yang dapat belajar untuk memperbaiki diri mereka sendiri. Kaveat ialah semua bergantung pada data yang berkualiti. Data yang hanya boleh diperoleh melalui infrastruktur data yang besar, ETL dan aliran kerja pengaturcaraan automatik. Ini biasanya peranan jurutera data. Berikan kerja kepada orang yang layak untuk itu dan, yang lebih penting, suka berbuat demikian.

4. Mula kecil dan murah

Ia boleh menjadi sangat menggoda untuk melompat ke atas kereta api hype data yang besar, mencipta pasukan sains data, membeli perisian analisis perusahaan dan menghabiskan sejumlah besar wang dengan sangat sedikit untuk menunjukkannya. Terdapat banyak perkara yang boleh dilakukan sebelum membuat pelaburan yang besar. Berikut adalah beberapa alat yang boleh digunakan oleh mana-mana organisasi:

  • Lib analytics Javascript seperti Mixpanel atau Amplitud. Ia percuma sehingga sejumlah pengguna bulanan.
  • Aliran udara untuk pengurusan aliran kerja automatik. Dicipta oleh Airbnb dan diinkubasi di Apache Software Foundation, ia adalah sumber terbuka dan standard de facto untuk jurutera data.
  • Papan pemuka, carta dan penerokaan data dengan Superset (juga oleh Apache). Metabase juga merupakan alternatif yang baik dan kedua-duanya adalah sumber terbuka.
  • Edisi komuniti Databricks dan Kaggle. Kedua-duanya boleh digunakan untuk proses sains data di awan dan secara percuma.
  • Perkhidmatan Web Amazon S3. Bukan percuma tapi disertakan di sini kerana dengan teknologi yang sedang dibangunkan hari ini, tidak semestinya perlu mempunyai gudang data. Penyimpanan adalah murah dan perkhidmatan seperti Databricks, tasik data MongoDB, AWS Athena bermakna anda boleh membaca terus dari tasik data anda.

Idea-idea ini akan memberikan asas yang baik untuk organisasi untuk mula menangkap data yang betul dan menyedari nilainya.