Yandex, teklif sistemleri için açık bilgi seti Yambda’yı yayınladı

yandex-teklif-sistemleri-icin-acik-bilgi-seti-yambdayi-yayinladi-MYFxXD5B.jpg

Yandex, teklif sistemleri alanındaki araştırmaları desteklemek maksadıyla, müzik akış servisi Yandex Music’teki 5 milyar anonimleştirilmiş kullanıcı etkileşimini içeren açık data seti Yandex Music Billion-Interactions Dataset (Yambda) ismiyle erişime açtı.

Şirketten yapılan açıklamaya nazaran, Yambda, teklif sistemlerinin kullanıldığı e-ticaret, toplumsal ağlar ve kısa görüntü platformları üzere alanlarda algoritmaların test edilmesi için üniversal bir ölçüt sunuyor. Araştırmacılar, bu data setiyle yeni teklif algoritmalarını geliştirme ve test etme imkânı bulurken; hudutlu datayla çalışan teşebbüsler de eserlerini ölçeklendirmeden evvel sistemlerini Yambda ile test edebiliyor.

Yandex Öneri Sistemleri Başkanı Nikolai Savushkin, öneri sistemlerinin tabiatı gereği hassas datalar içerdiğine dikkat çekerek, “Sektör başkanları güç kazanılan araçları ve bilgileri paylaştığında, yükselen bir dalga tesiri yaratır. Araştırmacılar gerçek dünya ölçütlerine kavuşur, startuplar yalnızca teknoloji devlerinin erişebildiği kaynaklara erişir ve kullanıcılar da daha düzgün bir kullanım tecrübesinin keyfini çıkarır” tabirlerini kullandı.

Gerçek dünya şartları için gerçekçi testler

Veri seti, teklif modellerinin vakit bağlamında kıymetlendirilmesine imkân tanıyan Küresel Temporal Split (GTS) metoduyla yapılandırıldı. Böylelikle test ve eğitim dataları ortasında zamansal kopukluklar yaşanmadan, gerçek dünya senaryolarına daha yakın bir modelleme yapılabiliyor.

Yambda, üç farklı boyutta (yaklaşık 5 milyar, 500 milyon ve 50 milyon etkileşim) sunularak farklı ölçek ve hesaplama gereksinimlerine sahip araştırmacı ve geliştiricilere hitap ediyor. Data seti; Apache Parquet formatında, Spark, Hadoop, Pandas ve Polars üzere sistemlerle uyumlu olarak yayınlandı.

Gizliliğe büyük ehemmiyet verilen bilgi setinde, tüm kullanıcı ve dinleme bilgileri anonimleştirildi ve sayısal tanımlayıcılarla değiştirildi.

Akademiden startuplara herkes için açık

Savushkin, teklif sistemlerinin yapay zeka alanındaki ilerlemelere karşın, büyük ölçekli açık data setlerinin azlığı nedeniyle geride kaldığını vurguladı. Yambda’nın, bu boşluğu kapatarak akademik dünyayla dal ortasında bir köprü kurduğunu tabir etti.

Veri setiyle birlikte sunulan temel modeller ortasında MostPop, DecayPop, ItemKNN, iALS, BPR, SANSA ve SASRec üzere formüller yer alıyor. Bu modeller, araştırmacıların yeni algoritmalarını karşılaştırabilecekleri standartlar sağlıyor.

Exit mobile version