Menggunakan BigQuery untuk membuat kueri data GitHub

1. Pengantar

BigQuery adalah database analisis berbiaya rendah yang terkelola sepenuhnya dari Google. Dengan BigQuery, Anda dapat mengkueri data berskala terabyte tanpa perlu memiliki administrator database atau infrastruktur apa pun untuk mengelolanya. BigQuery menggunakan SQL yang sudah dikenal dan model pengisian daya bayar hanya untuk yang Anda gunakan. Dengan BigQuery, Anda dapat berfokus pada analisis data untuk menemukan insight yang bermakna.

Dalam codelab ini, Anda akan melihat cara mengkueri set data publik GitHub, salah satu dari banyak set data publik yang tersedia di BigQuery.

Yang akan Anda pelajari

  • Cara menggunakan BigQuery
  • Cara menulis kueri untuk mendapatkan insight tentang set data besar

Yang Anda butuhkan

2. Memulai persiapan

Aktifkan BigQuery

Jika belum memiliki Akun Google (Gmail atau Google Apps), Anda harus membuatnya.

  • Login ke Konsol Google Cloud Platform ( console.cloud.google.com) dan buka BigQuery. Anda juga dapat membuka UI web BigQuery secara langsung dengan memasukkan URL berikut di browser.
https://console.cloud.google.com/bigquery
  • Setujui persyaratan layanan.
  • Sebelum dapat menggunakan BigQuery, Anda harus membuat project. Ikuti petunjuk untuk membuat project baru.

Pilih nama project dan catat project ID. 5dHf3myqCTd3rm-fowZ_aU3An-T_NTgNnIZtQILio27us0xB3StjnSNnQraAnllEQCH4N2nMwLU1mnELwbNN85tbwNC_DbIdbxU8ufzJYW1MWpYu0hnbSrAajpAaRNs8UBeWFu68Aw

ID Project adalah nama unik di semua project Google Cloud. Project ID tersebut selanjutnya akan dirujuk di codelab ini sebagai PROJECT_ID.

Codelab ini menggunakan resource BigQuery dalam batas sandbox BigQuery. Akun penagihan tidak diperlukan. Jika ingin menghapus batas sandbox nanti, Anda dapat menambahkan akun penagihan dengan mendaftar ke uji coba gratis Google Cloud Platform.

3. Melihat pratinjau data GitHub

Buka set data GitHub di UI web BigQuery.

https://console.cloud.google.com/bigquery?p=bigquery-public-data&d=github_repos&t=commits&page=table

Dapatkan pratinjau cepat tentang tampilan data.

ed0b9fce5eab1c6b.png

4. Mengueri data GitHub

Buka editor kueri.

759423d320075d96.png

Masukkan kueri berikut untuk menemukan pesan commit yang paling umum di set data publik GitHub:

SELECT subject AS subject,
  COUNT(*) AS num_duplicates
FROM `bigquery-public-data.github_repos.sample_commits`
GROUP BY subject
ORDER BY num_duplicates DESC
LIMIT 100

Mengingat set data GitHub berukuran besar, sebaiknya gunakan set data sampel yang lebih kecil saat bereksperimen untuk menghemat biaya. Gunakan byte yang diproses di bawah editor untuk memperkirakan biaya kueri.

fb66b7e9c6e838c.png

Kilk tombol Run.

Dalam beberapa detik, hasilnya akan tercantum di bagian bawah, dan akan memberi tahu Anda berapa banyak data yang diproses dan berapa lama waktu yang diperlukan.

3ce1a59763d0dab5.png

Meskipun tabel sample_commits berukuran 2,49 GB, kueri hanya memproses 35,8 MB. BigQuery hanya memproses byte dari kolom yang digunakan dalam kueri, sehingga total jumlah data yang diproses dapat jauh lebih kecil daripada ukuran tabel. Dengan pengelompokan dan partisi, jumlah data yang diproses dapat dikurangi lebih lanjut.

5. Data publik lainnya

Sekarang coba kueri set data lain, seperti salah satu set data publik lainnya.

Misalnya, kueri berikut menemukan project populer yang tidak digunakan lagi atau tidak dikelola dalam set data publik Libraries.io yang masih digunakan sebagai dependensi dalam project lain:

SELECT
  name,
  dependent_projects_count,
  language,
  status
FROM
  `bigquery-public-data.libraries_io.projects_with_repository_fields`
WHERE status IN ('Deprecated', 'Unmaintained')
ORDER BY dependent_projects_count DESC
LIMIT 100

Organisasi lain juga telah menyediakan data mereka untuk publik di BigQuery. Misalnya, set data GH Archive GitHub dapat digunakan untuk menganalisis peristiwa publik di GitHub, seperti permintaan pull, bintang repositori, dan masalah yang dibuka. Set data PyPI Python Software Foundation dapat digunakan untuk menganalisis permintaan download paket Python.

6. Selamat!

Anda telah menggunakan BigQuery dan SQL untuk mengkueri set data publik GitHub. Anda memiliki kemampuan untuk membuat kueri set data berskala petabyte.

Yang telah Anda pelajari

  • Menggunakan sintaksis SQL untuk membuat kueri catatan commit GitHub
  • Menulis kueri untuk mendapatkan insight tentang set data besar

Pelajari lebih lanjut