Reddit مدتهاست که یک نقطه داغ برای گفتگو در اینترنت بوده است. حدود 57 میلیون نفر هر روز از این سایت بازدید می کنند تا در مورد موضوعات مختلف مانند آرایش، بازی های ویدیویی و اشاره گر برای شستشوی برقی راه های خانه گپ بزنند.
در سالهای اخیر، مجموعه چتهای Reddit یک کمک آموزشی رایگان برای شرکتهایی مانند گوگل، OpenAI و مایکروسافت بوده است. این شرکتها از مکالمات Reddit در توسعه سیستمهای هوش مصنوعی غولپیکر استفاده میکنند که بسیاری در سیلیکون ولی فکر میکنند در مسیر تبدیل شدن به صنعت فناوری بزرگ هستند.
حالا Reddit می خواهد برای آن پول دریافت کند. این شرکت روز سهشنبه اعلام کرد که قصد دارد از شرکتها برای دسترسی به رابط برنامهنویسی کاربردی خود یا API، روشی که از طریق آن نهادهای خارجی میتوانند مجموعه وسیعی از مکالمات فرد به فرد شبکه اجتماعی را دانلود و پردازش کنند، هزینه دریافت کند.
استیو هافمن، بنیانگذار و مدیر اجرایی Reddit در مصاحبه ای گفت: مجموعه داده های Reddit واقعا ارزشمند است. اما ما نیازی نداریم که همه این ارزش ها را به صورت رایگان به برخی از بزرگترین شرکت های جهان بدهیم.
این حرکت یکی از اولین نمونه های قابل توجهی است که یک شبکه اجتماعی برای دسترسی به مکالماتی که میزبانی می کند به منظور توسعه سیستم های هوش مصنوعی مانند ChatGPT، برنامه محبوب OpenAI است. این سیستمهای هوش مصنوعی جدید روزی میتوانند به کسبوکارهای بزرگ منتهی شوند، اما به احتمال زیاد به شرکتهایی مانند Reddit کمک چندانی نمیکنند. در واقع، میتوان از آنها برای ایجاد رقبا استفاده کرد – کپیهای خودکار مکالمات Reddit.
Reddit همچنین در حال آماده شدن برای عرضه اولیه احتمالی عمومی در وال استریت در سال جاری است. این شرکت که در سال 2005 تأسیس شد، بیشتر پول خود را از طریق تبلیغات و تراکنش های تجارت الکترونیک در پلتفرم خود به دست می آورد. Reddit گفت که هنوز جزئیات مربوط به هزینه دسترسی API را بررسی می کند و قیمت ها را در هفته های آینده اعلام خواهد کرد.
انجمنهای گفتگوی Reddit به کالاهای با ارزشی تبدیل شدهاند، زیرا مدلهای زبان بزرگ یا LLM به بخش مهمی از ایجاد فناوری جدید هوش مصنوعی تبدیل شدهاند.
LLM ها اساساً الگوریتم های پیچیده ای هستند که توسط شرکت هایی مانند گوگل و OpenAI که شریک نزدیک مایکروسافت است، توسعه یافته اند. از نظر الگوریتمها، مکالمات Reddit دادهها هستند، و آنها در میان مجموعه وسیعی از مطالبی هستند که برای توسعه آنها به LLMها وارد میشوند.
الگوریتم اساسی که به ساخت Bard، سرویس هوش مصنوعی مکالمه گوگل کمک کرد، تا حدی بر روی داده های Reddit آموزش دیده است. Chat GPT OpenAI از داده های Reddit به عنوان یکی از منابع اطلاعاتی که در آن آموزش دیده است، نام می برد.
سایر شرکت ها نیز شروع به دیدن ارزش در گفتگوها و تصاویری که میزبانی می کنند، شده اند. Shutterstock، سرویس میزبانی تصویر، همچنین داده های تصویر را به OpenAI فروخت تا به ایجاد DALL-E، برنامه هوش مصنوعی کمک کند که تصاویر گرافیکی واضحی را تنها با درخواست متنی مورد نیاز ایجاد می کند.
ماه گذشته، ایلان ماسک، مالک توییتر، گفت که در حال سرکوب استفاده از API توییتر است، که هزاران شرکت و توسعهدهنده مستقل از آن برای ردیابی میلیونها مکالمه در سراسر شبکه استفاده میکنند. اگرچه او LLM ها را به عنوان دلیلی برای تغییر ذکر نکرد، اما هزینه های جدید می تواند به ده ها یا حتی صدها هزار دلار برسد.
سازندگان هوش مصنوعی برای ادامه بهبود مدلهای خود به دو چیز مهم نیاز دارند: مقدار زیادی قدرت محاسباتی و حجم عظیمی از داده. برخی از بزرگترین توسعه دهندگان هوش مصنوعی قدرت محاسباتی زیادی دارند اما همچنان به دنبال داده های مورد نیاز برای بهبود الگوریتم های خود در خارج از شبکه های خود هستند. این شامل منابعی مانند ویکیپدیا، میلیونها کتاب دیجیتالی، مقالات دانشگاهی و Reddit است.
نمایندگان گوگل، Open AI و مایکروسافت بلافاصله به درخواست اظهار نظر پاسخ ندادند.
Reddit مدتهاست که رابطه همزیستی با موتورهای جستجوی شرکتهایی مانند گوگل و مایکروسافت داشته است. موتورهای جستجو صفحات وب Reddit را به منظور فهرست بندی اطلاعات و در دسترس قرار دادن آنها برای نتایج جستجو “خزیدن” می کنند. این خزیدن یا «خراشیدن» همیشه مورد استقبال هر سایتی در اینترنت نیست. اما Reddit با ظاهر شدن بالاتر در نتایج جستجو سود برده است.
پویایی با LLM ها متفاوت است – آنها تا آنجا که می توانند داده ها را برای ایجاد سیستم های هوش مصنوعی جدید مانند ربات های چت به دست می آورند.
Reddit بر این باور است که دادههای آن بهویژه ارزشمند هستند زیرا بهطور مداوم بهروزرسانی میشوند. آن تازگی و ارتباط، آقای. هافمن گفت، این چیزی است که الگوریتمهای مدلسازی زبان بزرگ برای تولید بهترین نتایج به آن نیاز دارند.
آقای ردیت، بیش از هر مکان دیگری در اینترنت، خانه ای برای مکالمه معتبر است. هافمن گفت. چیزهای زیادی در سایت وجود دارد که شما می توانید آنها را فقط در درمان یا AA یا اصلاً بگویید.
آقای. هافمن گفت که API Reddit همچنان برای توسعه دهندگانی که می خواهند برنامه هایی بسازند که به افراد در استفاده از Reddit کمک کند، رایگان خواهد بود. آنها میتوانند از این ابزار برای ساختن یک ربات استفاده کنند که به طور خودکار ردیابی کند که آیا نظرات کاربران به قوانین پست کردن پایبند هستند یا خیر. محققانی که می خواهند داده های Reddit را برای اهداف آکادمیک یا غیرتجاری مطالعه کنند، به دسترسی رایگان به آن ادامه خواهند داد.
Reddit همچنین امیدوار است که به اصطلاح یادگیری ماشینی بیشتری را در نحوه عملکرد خود سایت بگنجاند. به عنوان مثال، میتوان از آن برای شناسایی استفاده از متن تولید شده توسط هوش مصنوعی در Reddit استفاده کرد و برچسبی اضافه کرد که به کاربران اطلاع دهد که نظر از یک ربات آمده است.
این شرکت همچنین قول داده است که ابزارهای نرم افزاری قابل استفاده توسط مدیران را بهبود بخشد – کاربرانی که به طور داوطلبانه وقت خود را برای حفظ عملکرد روان تالارهای سایت و بهبود مکالمات بین کاربران اختصاص می دهند. و رباتهای شخص ثالث که به گردانندگان کمک میکنند تا انجمنها را نظارت کنند، همچنان پشتیبانی خواهند شد.
اما برای سازندگان هوش مصنوعی، زمان پرداخت هزینه فرا رسیده است.
او میگوید: «خزیدن در Reddit، ایجاد ارزش و عدم بازگرداندن هیچ یک از آن ارزش به کاربران، چیزی است که ما با آن مشکل داریم. هافمن گفت. زمان خوبی است که ما شرایط را سخت تر کنیم.»
وی افزود: ما فکر می کنیم این عادلانه است.