به گزارش سرویس علم و فناوری تابناک، ایلان ماسک، بنیانگذار شرکتهایی مانند تسلا و اسپیسایکس، اخیراً اعلام کرده است که دادههای انسانی موجود برای آموزش مدلهای هوش مصنوعی به پایان رسیدهاند. به گفته او، شرکتهای فعال در حوزه هوش مصنوعی مانند OpenAI، گوگل و متا، تقریباً تمام دانش بشری موجود در اینترنت را برای آموزش مدلهایی مانند GPT-۴ و Gemini استفاده کردهاند. این موضوع نشاندهنده یک نقطه عطف مهم در توسعه هوش مصنوعی است، چرا که دیگر دادههای جدید و باکیفیت برای آموزش مدلها در دسترس نیست. ماسک در یک مصاحبه زنده در پلتفرم X (سابقاً توییتر) این موضوع را تأیید کرده و اشاره کرد که این اتفاق در سال ۲۰۲۴ رخ داده است.
دادههای مصنوعی در راهند ...
با اتمام دادههای انسانی، شرکتهای هوش مصنوعی به سمت استفاده از دادههای مصنوعی روی آوردهاند. دادههای مصنوعی به محتوایی گفته میشود که توسط خود مدلهای هوش مصنوعی تولید میشود. برای مثال، مدلهایی مانند GPT-۴ میتوانند مقالات، تصاویر یا حتی کدهای برنامهنویسی تولید کنند و از این دادهها برای آموزش مدلهای جدیدتر مانند GPT-۵ استفاده شود. این روش به عنوان یک راهحل موقت برای کمبود دادههای انسانی مطرح شده است. شرکتهایی مانند متا و مایکروسافت قبلاً از دادههای مصنوعی برای آموزش مدلهایی مانند Llama و Phi-۴ استفاده کردهاند.
خطرات استفاده از دادههای مصنوعی
با وجود مزایای دادههای مصنوعی، استفاده از آنها چالشهای جدی به همراه دارد. یکی از مهمترین مشکلات، پدیدهای به نام "توهمهای هوش مصنوعی" است. این پدیده زمانی رخ میدهد که مدلهای هوش مصنوعی اطلاعات نادرست یا بیمعنی تولید میکنند. ایلان ماسک در این باره هشدار داده است که تشخیص اطلاعات درست از توهمهای مدلها بسیار دشوار است. علاوه بر این، استفاده مداوم از دادههای مصنوعی میتواند منجر به "فروپاشی مدل" (Model Collapse) شود، یعنی مدلها به تدریج خلاقیت خود را از دست داده و خروجیهای یکجانبه و تکراری تولید کنند. این موضوع توسط اندرو دانکن، مدیر مؤسسه آلن تورینگ، نیز تأیید شده است.
تأثیر دادههای مصنوعی بر تنوع و جامعیت مدلها
استفاده از دادههای مصنوعی میتواند منجر به کاهش تنوع و جامعیت در خروجیهای مدلهای هوش مصنوعی شود. از آنجا که دادههای مصنوعی بر اساس الگوهای موجود در دادههای قبلی تولید میشوند، احتمال تکرار و تقویت سوگیریهای موجود در مدلها افزایش مییابد. این موضوع به ویژه در حوزههایی مانند ترجمه، تحلیل متون و تولید محتوا میتواند مشکلساز باشد. برای مثال، اگر مدلی در تولید دادههای مصنوعی به زبانها یا فرهنگهای خاصی توجه کمتری داشته باشد، مدلهای بعدی نیز این نقص را به ارث خواهند برد. این چرخه معیوب میتواند منجر به ایجاد مدلهایی شود که از نظر تنوع و جامعیت ضعیفتر عمل میکنند.
راهحلهای احتمالی برای مشکلات پیش رو
برای کاهش خطرات ناشی از استفاده از دادههای مصنوعی، محققان در حال بررسی راهحلهای مختلفی هستند. یکی از این راهحلها، ترکیب دادههای مصنوعی با دادههای انسانی محدود، اما باکیفیت است. این روش میتواند به حفظ تعادل بین خلاقیت و دقت در مدلها کمک کند. علاوه بر این، توسعه الگوریتمهایی برای تشخیص و حذف توهمهای هوش مصنوعی نیز در دست بررسی است. برخی شرکتها نیز به دنبال ایجاد پایگاههای داده جدید با مشارکت کاربران هستند تا از این طریق دادههای متنوعتر و معتبرتری برای آموزش مدلها فراهم شود. این تلاشها میتواند آینده هوش مصنوعی را به سمت توسعه مدلهای پایدارتر و قابل اعتمادتر سوق دهد.