Otak Robot Cerdas Fisik Tunjukkan Kemampuan Belajar Mandiri yang Mengejutkan
Sebuah perusahaan rintisan robotika yang berbasis di San Francisco, Physical Intelligence, baru-baru ini mempublikasikan penelitian baru yang mengindikasikan model terbarunya, π0.7, mampu mengarahkan robot untuk melakukan tugas yang belum pernah dilatihkan secara eksplisit. Kemampuan ini, menurut para peneliti perusahaan, bahkan mengejutkan mereka sendiri. Model ini dianggap sebagai langkah awal yang signifikan menuju pencapaian robot dengan otak serbaguna, yang dapat diarahkan pada tugas asing, dilatih melalui bahasa sehari-hari, dan berhasil melaksanakannya. Jika temuan ini terverifikasi, hal ini dapat menandai titik balik dalam kecerdasan buatan robotik, serupa dengan yang terjadi pada model bahasa besar.
Inti dari klaim dalam penelitian ini adalah generalisasi komposisional, yaitu kemampuan untuk menggabungkan keterampilan yang dipelajari dalam konteks yang berbeda untuk memecahkan masalah yang belum pernah dihadapi model. Pendekatan konvensional dalam pelatihan robot saat ini adalah menghafal tugas secara spesifik; data dikumpulkan untuk tugas tertentu, model spesialis dilatih, lalu diulang untuk setiap tugas baru. π0.7, menurut Physical Intelligence, memecah pola tersebut.
“Begitu melampaui ambang batas dari hanya melakukan persis seperti yang Anda kumpulkan datanya, menjadi benar-benar menyusun ulang hal-hal dengan cara baru,” ujar Sergey Levine, salah satu pendiri Physical Intelligence dan profesor UC Berkeley yang berfokus pada AI untuk robotika. “Kemampuannya meningkat lebih dari secara linear dengan jumlah data. Properti penskalaan yang jauh lebih menguntungkan ini adalah sesuatu yang telah kami lihat di domain lain, seperti bahasa dan visi.”
Demonstrasi paling mencolok dalam penelitian ini melibatkan sebuah air fryer yang pada dasarnya belum pernah dilihat model selama pelatihan. Tim peneliti menemukan hanya dua episode relevan dalam seluruh dataset pelatihan: satu di mana robot lain hanya mendorong air fryer hingga tertutup, dan satu dari dataset sumber terbuka di mana robot lain menempatkan botol plastik di dalamnya atas instruksi seseorang. Model ini entah bagaimana berhasil mensintesis fragmen-fragmen tersebut, ditambah data pra-pelatihan berbasis web yang lebih luas, menjadi pemahaman fungsional tentang cara kerja alat tersebut.
“Sangat sulit untuk melacak dari mana pengetahuan itu berasal, atau di mana ia akan berhasil atau gagal,” kata Lucy Shi, seorang peneliti di Pi dan mahasiswa Ph.D. ilmu komputer Stanford. Namun, tanpa instruksi apa pun, model ini berhasil mencoba menggunakan alat tersebut untuk memasak ubi jalar. Dengan instruksi verbal langkah demi langkah, model ini berhasil melakukannya. Kemampuan melatih ini penting karena menunjukkan bahwa robot dapat diterapkan di lingkungan baru dan ditingkatkan secara real-time tanpa pengumpulan data tambahan atau pelatihan ulang model.
Para peneliti menyadari keterbatasan model ini dan berhati-hati untuk tidak terlalu optimis. Dalam setidaknya satu kasus, mereka mengakui bahwa kegagalan bukan disebabkan oleh robot atau model, melainkan oleh tim mereka sendiri dalam hal rekayasa instruksi (prompt engineering). Shi menjelaskan bahwa sebuah eksperimen awal dengan air fryer menghasilkan tingkat keberhasilan 5%. Setelah sekitar setengah jam menyempurnakan cara tugas dijelaskan kepada model, tingkat keberhasilan meningkat menjadi 95%.
Model ini juga belum mampu mengeksekusi tugas multi-langkah yang kompleks secara otonom dari satu perintah tingkat tinggi. “Anda tidak bisa memberitahunya, ‘Hei, buatkan saya roti panggang’,” kata Levine. “Tetapi jika Anda membimbingnya langkah demi langkah—’untuk pemanggang roti, buka bagian ini, tekan tombol ini, lakukan ini’—maka itu cenderung bekerja dengan baik.”
Tim juga mengakui bahwa tolok ukur standar untuk robotika belum ada, yang mempersulit validasi eksternal atas klaim mereka. Sebagai gantinya, perusahaan mengukur π0.7 terhadap model spesialis mereka sebelumnya—sistem yang dibuat khusus untuk tugas individu—dan menemukan bahwa model generalis ini menyamai kinerja mereka dalam berbagai pekerjaan kompleks, termasuk membuat kopi, melipat cucian, dan merakit kotak.
Yang mungkin paling patut dicatat dari penelitian ini adalah sejauh mana hasilnya mengejutkan para peneliti, orang-orang yang seharusnya tahu persis apa yang ada dalam data pelatihan dan oleh karena itu apa yang seharusnya dan tidak seharusnya dapat dilakukan oleh model. “Pengalaman saya selalu bahwa ketika saya benar-benar tahu apa yang ada dalam data, saya bisa menebak apa yang akan mampu dilakukan model,” kata Ashwin Balakrishna, seorang ilmuwan riset di Physical Intelligence. “Saya jarang terkejut. Tetapi beberapa bulan terakhir adalah pertama kalinya saya benar-benar terkejut. Saya baru saja membeli satu set roda gigi secara acak dan bertanya kepada robot, ‘Hei, bisakah Anda memutar roda gigi ini?’ Dan itu berhasil.”
Levine mengenang saat para peneliti pertama kali menemukan GPT-2 menghasilkan cerita tentang unicorn di Andes. “Dari mana dia belajar tentang unicorn di Peru? Kombinasi yang aneh. Dan saya pikir melihat hal itu dalam robotika sangat istimewa.”
Kritikus mungkin menyoroti ketidakseimbangan yang tidak nyaman: model bahasa memiliki seluruh internet untuk belajar, sementara robot tidak. Namun, Levine berpendapat bahwa kritik yang sering dilontarkan pada demonstrasi generalisasi robotik adalah bahwa tugas-tugas tersebut dianggap “membosankan” dan robot tidak melakukan hal-hal dramatis seperti “backflip.” Ia berargumen bahwa perbedaan antara demonstrasi robot yang mengesankan dan sistem robotik yang benar-benar menggeneralisasi adalah poin utamanya. Generalisasi, menurutnya, akan selalu terlihat kurang dramatis dibandingkan atraksi yang dikoreografikan dengan hati-hati, tetapi jauh lebih berguna.
Makalah penelitian itu sendiri menggunakan bahasa yang hati-hati, menggambarkan π0.7 sebagai menunjukkan “tanda-tanda awal” generalisasi dan “demonstrasi awal” kemampuan baru. Ini adalah hasil penelitian, bukan produk yang sudah siap digunakan. Ketika ditanya kapan sistem berdasarkan temuan ini mungkin siap untuk penerapan di dunia nyata, Levine menolak untuk berspekulasi. “Saya pikir ada alasan bagus untuk optimis, dan tentu saja ini berkembang lebih cepat daripada yang saya perkirakan beberapa tahun lalu,” katanya. “Tetapi sangat sulit bagi saya untuk menjawab pertanyaan itu.”
Physical Intelligence telah mengumpulkan lebih dari $1 miliar hingga saat ini dan terakhir dinilai sebesar $5,6 miliar. Sebagian besar antusiasme investor terhadap perusahaan ini berasal dari Lachy Groom, seorang pendiri yang menghabiskan bertahun-tahun sebagai salah satu investor malaikat yang paling dihormati di Silicon Valley. Perusahaan ini dilaporkan sedang dalam pembicaraan untuk putaran pendanaan baru yang akan menggandakan valuasi tersebut menjadi $11 miliar.
Relevansi bagi Indonesia: Menjembatani Kesenjangan Digital Melalui AI Robotik yang Fleksibel
Kemajuan yang ditunjukkan oleh Physical Intelligence, terutama dalam hal kemampuan robot untuk belajar dan beradaptasi dengan tugas baru, memiliki implikasi signifikan bagi Indonesia. Di tengah upaya negara untuk meningkatkan daya saing industri dan efisiensi operasional, adopsi teknologi AI robotik yang lebih fleksibel dapat menjadi kunci. Kemampuan robot untuk dilatih melalui instruksi bahasa alami dan melakukan tugas yang tidak diajarkan secara eksplisit berpotensi mengurangi biaya dan waktu yang diperlukan untuk otomatisasi di sektor manufaktur, logistik, bahkan pertanian. Ini dapat membantu menjembatani kesenjangan digital dengan memungkinkan usaha kecil dan menengah untuk mengakses teknologi canggih, serta meningkatkan kualitas dan produktivitas tenaga kerja lokal melalui pelatihan yang lebih efisien. Namun, penting untuk memastikan bahwa pengembangan dan penerapan teknologi ini diiringi dengan regulasi yang tepat dan program peningkatan keterampilan bagi masyarakat agar manfaatnya dapat dirasakan secara merata.
Sumber: techcrunch










