Amazon SageMaker Data Wrangler, Tercepat Siapkan Data untuk ML Amazon SageMaker Data Wrangler, Tercepat Siapkan Data untuk ML ~ Teknogav.com

Amazon SageMaker Data Wrangler, Tercepat Siapkan Data untuk ML


Teknogav.com - Machine learning (ML) sudah menjadi perbincangan selama 20 tahun terakhir. Kini cloud computing telah berperan dalam membuat ML lebih praktis. Persiapan data untuk machine learning merupakan hal yang sulit, karena banyak hal yang harus dilakukan. AWS berusaha mengatasi hal ini dengan Amazon SageMaker Data Wrangler yang merupakan cara tercepat dalam menyiapkan data untuk ML.

Framework ML dan Dukungan AWS

Saat ini ada beberapa framework yang tersedia untuk pembelajaran ML. Sekitar 90% praktisi ML menggunakan lebih dari satu framework dan 60% praktisi ML menggunakan lebih dari dua framework. Beberapa framework utama saat ini adalah Tensorflow, Pytorch dan MXnet.

Pelanggan biasanya membutuhkan alat yang tepat untuk praktisi ML yang ahli, biasanya hal ini adalah chip dan framework. AWS melakukan pendekatan untuk setiap framework ML, sementara yang lain hanya fokus pada Tensorflow. Di AWS ada beberapa tim, yaitu tim yang fokus mengoptimalkan Tensorflow di AWS, tim yang fokus mengoptimalkan Pytorch di AWS dan ada tim yang fokus mengoptimalkan MXnet pada AWS. Praktisi ML membutuhkan fleksibilitas dalam membangun ML mereka, sehingga AWS akan terus memberikan dukungan pada setiap framework.

Baca juga: Habana Gaudi dan AWS Trainium, Prosesor Pelatih Model ML Andalan

Developer dan ilmuwan data juga membutuhkan alat yang bisa digunakan sehari-hari. Kebutuhan tersebut disajikan AWS dengan menyediakan kemampuan ML yang luas dan lengkap. SageMaker Studio IDE mencakup algoritma built-in, SageMaker Notebooks, SageMaker Experiments, Model training, SageMaker Debugger, Model Tuning, SageMaker Autopilot, Model hosting, SageMaker Model Monitor, SageMaker Data Wrangler, SageMaker Feature Store, SageMaker Pipelines dan Sage Neo. 

Posisi layanan ini sebagai lapisan tengah stack ML, yaitu antara framework & infrastruktur dengan layanan-layanan AI. SageMaker Studio IDE memungkinkan untuk membangun, melatih, menyesuaikan, dan menerapkan model ML.

Persiapan Data untuk Model ML

Contoh mengenai persiapan data untuk ML adalah ketika ingin membuat aplikasi mengenai real estate. Aplikasi tersebut harus bisa memprediksi harga properti . Pada model juga harus menyertakan komponen jumlah ruang, fasilitas di sekitar, harga rumah di sekitar, luas rumah dan lain-lain. Semua fitur tersebut harus bisa dikonversi dalam format yang bisa dimengerti model, hal ini disebut dengan feature engineering. Terkadang dibutuhkan juga untuk menggabungkan beberapa fitur agar model lebih efisien, proses ini sulit dan lama. Proses tersebut mulai dari pengunduhan data mentah, konversi, setelah itu juga harus membuat purwarupa untuk menyakinkan bahwa  ini bisa berhasil.

Baca juga: AWS Paparkan Contoh-contoh Penerapan Machine Learning Pada Transformasi Digital

Beberapa persiapan data untuk machine learning mencakup:

  • penulisan kueri dan pemrograman untuk mengunduh data mentah dari tempat penyimpanan data
  • memperkirakan dan membuat purwarupa, konfersi, transformasi dan penggabungan fitur-fitur
  • mentransformasi data, melakukan spin up infrastruktur untuk menjalankan kode program, memantau, mengelola setiap perubahan, melakuakn validasi dan menyimpan hasilnnya
  • menjamin semuanya dapat berkerja dengan baik dari satu data point ke data point, dan memperbaiki segala kesalahan, penyimpangan atau data point yang hilang.

Amazon SageMaker Data Wrangler

Ketika menggabungkan dan menyiapkan data untuk ML, Amazon SageMaker Wrangler bisa mengurangi waktu dari mingguan menjadi beberapa menit saja. Solusi ini memudahkan proses persiapan data dan feature engineering. Setiap langkah alur kerja persiapan data termasuk pemilihan data, pembersihan, eksplorasi, dan visualisasi dari antarmuka visual tunggal.

Alat pemilihan data SageMaker Data Wrangler memungkinkan untuk memilih data  yang diinginkan dari berbagai sumber data dan mengimportnya dengan sekali klik. SageMaker Data Wrangler mencakup 300 transformasi data bulit ini sehingga bisa melakukan normalisasi, transformasi dan menggabungkan fitur-fitur tanpa harus menulis kode. 

menu memilih data kueri di Amazon SageMaker Data Wrangler

Template-template visualisasi yang tersedia pada SageMaker Data Wrangler, memungkinkan melakukan pratinjau dan inspeksi di Amazon SageMaker Studio dengan cepat. Visualisasi transformasi tersebut dapat diselesaikan seesuai keinginan. Jika suka dengan apa yang dilihat, maka dengan mudah bisa diterapkan di seluruh data set.

Baca juga: JPMorgan Chase & Co Terus Lakukan Reinvent Bersama AWS

Layanan ini merupakan integrated development environment (IDE) sepenuhnya untuk ML. Segera setelah data sudah selesai disiapkan, maka bisa membangun alurkerja ML terotomatisasi sepenuhnya dengan Amazon SageMaker Pipelines dan menyimpannya. Data tersebut pun bisa digunakan ulang dalam Amazon SageMaker Feature Store.

Share:

Artikel Terkini

Follow by Email