Deepseek-r1 vs LLama3.1

DeepSeek-R1 8 milyar parametreli modeli kendi sayfasından indirip kendi makinamda denedim. Aslında Llama3.1’in 8 milyar parametreli modeli ile çok büyük bir farkını göremedim açıkçası. Hatta resimde göreceğiniz üzere Llama3.1:8b aşağı yukarı aynı performans gösteriyor gibi duruyor. Belki biraz abartılıyordur ya da benim bilmediğim başka test yöntemleri vardır. Bilemedim. Kısaca yukarıdaki performans parametrelerini açıklayayım.

Ama önce açık kaynak bir yapay zeka modeli nedir ve nasıl çalıştırılır konusunu bildiğim ve denediğim kadarıyla kısaca anlatmak istiyorum. Kendi cihazınız üzerinde bir yapay zekayı çalıştırmak için kabaca iki şeye ihtiyacınız var. Bunlardan birincisi modeli işleten bir yazılım, ikincisi ise yapay zeka modelinin kendisidir. “llama.cpp” projesini bu birinci gereksinim için, yani açık kaynak modelleri çalıştırmak için kullanabilirsiniz. Bu yazılım kısaca modele girdileri yöneten ve modelin içindeki olasılık bağlantıları çağırıp sonucu kullanıcının anlayabileceği şekle dönüştüren bir yazılımdır. Burada asıl yapay zeka dediğimiz şey, anlayacağınız üzere dil modelidir. Dil modeli, bir yazılım değildir. Ama içinde çağrılabilecek bir çok istatistiksel veri bağlantısı olan büyük bir matematiksel kümedir diyebiliriz. Yani modelin kendisi çalışmaz ama bir program modelin içindeki hesaplanmış matematiksel bağıntı ve değerlere göre sonucu oluşturur.

Llama.cpp gibi programlar GGUF formatına çevrilerek sıkıştırılmış dil modelini açar ve RAM’e yükler. Kullanıcı girdisini token’lara çevirir. Burada tokenlerı bir kelimenin ya da sözcüğün matematiksel karşılığı olarak düşünebiliriz. Program daha sonra Modelin içerisindeki matematiksel fonksiyon ve işlemleri yürüterek çıkış token’larını üretir. Çıktıyı tekrar insan diline çevirir ve ekrana yazdırır. Yukarıdaki parametrelere bakarsanız token değerlerini görebilirsiniz. Örneğin deepseek-r1 modeli, her bir token üretimi için 0.07 ms zaman harcamış. Aynı şekilde llama3.1 de neredeyse aynı süreyi harcıyor. Fakat per second değerine bakınca deepseek’in bir saniyede daha fazla token üretebileceği görülüyor. Fakat burada önemli olan daha çok “eval time” değeri. Her bir token’in değerlendirilerek ondan üretilen cevap süresi yani. Bu kısımda llama3.1 daha iyi durumda gibi görünüyor.

Aynı zamanda modelin ram’e yüklenme sürelerini de buradan görebiliriz. Burada deepseek, 1326 ms ile 1338 ms olan llama3.1 i bir tık geçmiş gibi duruyor.

Önerilen makaleler

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Translate »