
Apple baru-baru ini merilis hasil penelitian dari tim Machine Learning Research-nya yang menguji kemampuan penalaran empat model AI terkemuka, termasuk dari OpenAI, DeepSeek, Claude, dan Google Gemini. Penelitian ini menggunakan teka-teki logika berjenjang dari tingkat mudah hingga sangat kompleks untuk mengukur kemampuan berpikir logis mesin.
Hasilnya menunjukkan bahwa pada tingkat kesulitan awal, keempat AI mampu menyelesaikan soal dengan akurat dan efisien. Namun, pada tingkat menengah, model yang memiliki mekanisme penalaran internal tampil lebih unggul dibandingkan model LLM standar yang hanya mengandalkan pola data.
Tantangan serius muncul pada level tinggi, di mana banyak AI gagal menyelesaikan masalah meskipun mendapat sumber daya komputasi besar dan petunjuk tambahan. Beberapa model bahkan menunjukkan “berpikir berlebihan,” membuang sumber daya tanpa peningkatan akurasi.
Penelitian ini menegaskan bahwa meskipun AI sudah maju dalam tugas sederhana, kemampuan penalaran kompleks masih menjadi kendala. Temuan ini diharapkan memacu pengembangan AI yang lebih cerdas dan efisien dalam menghadapi masalah yang memerlukan pemikiran mendalam.