هاروارد و گوگل یک میلیون کتاب عمومی را منتشر میکنند
آزمایشی جدید برای دادههای یادگیری AI از هاروارد
دادههای آموزشی برای هوش مصنوعی هزینهبر هستند و معمولاً شرکتهای بزرگ فناوری قادر به تأمین این هزینهها هستند. به همین دلیل، دانشگاه هاروارد قصد دارد مجموعهای از حدود ۱ میلیون کتاب عمومی را منتشر کند. این کتابها شامل ژانرها، زبانها و نویسندگانی از جمله دیکنز، دانته و شکسپیر هستند که از نظر حقوقی دیگر محافظت نمیشوند.
زمان و نحوه انتشار
این مجموعه جدید هنوز منتشر نشده و زمان و نحوه انتشار آن مشخص نیست. این مجموعه کتابها از پروژهی قدیمی اسکن کتابهای گوگل (Google Books) استخراج شده و به همین خاطر گوگل هم در انتشار این مجموعه ارزشمند نقش خواهد داشت.
پشتیبانی مالی قوی
هاروارد اولین بار در مارس سال جاری از طرح “ابتکار دادههای نهادی” (IDI) صحبت کرد و هدف آن را ایجاد یک منبع قابل اعتماد برای دادههای قانونی برای AI اعلام کرد. تا امروز خبری از آن نبود تا اینکه سرانجام امروز به طور رسمی آغاز به کار کرد و تأیید شد که این طرح از حمایت مالی مایکروسافت و OpenAI برخوردار است.
مدیر اجرایی IDI، گرگ لپرت، میگوید که این مجموعه داده به منظور “هموار کردن میدان رقابت” طراحی شده است و برای هر کسی – از آزمایشگاههای تحقیقاتی تا استارتاپهای هوش مصنوعی – که میخواهد مدلهای زبانی بزرگ (LLMs) خود را آموزش دهد، در دسترس خواهد بود.
منبع: techcrunch.com