• تماس با ما
  • درباره ما
پنجشنبه, اردیبهشت 25, 1404
  • ورود کاربر
  • خانه
  • اخبار
    • اجتماعی
    • سیاسی
    • اقتصادی
    • بین الملل
    • فناوری
    • ورزشی
    • فرهنگی و هنری
  • کاروکسب
  • باریخ
    • اجتماعی
    • فناوری
    • اقتصاد
    • زیست بوم
    • سیاست
    • ارزش و فرهنگ
    • رسانه
    • نیروی انسانی و نظامی
    • امنیت
    • حقوق
  • تاریخ
    • تاریخ نگری
    • تاریخ نگاری
    • خاطره نگاری
  • پرسمان
  • پندار
  • پادپخش
  • پادرخ
بدون نتیجه
نمایش همه نتایج
  • خانه
  • اخبار
    • اجتماعی
    • سیاسی
    • اقتصادی
    • بین الملل
    • فناوری
    • ورزشی
    • فرهنگی و هنری
  • کاروکسب
  • باریخ
    • اجتماعی
    • فناوری
    • اقتصاد
    • زیست بوم
    • سیاست
    • ارزش و فرهنگ
    • رسانه
    • نیروی انسانی و نظامی
    • امنیت
    • حقوق
  • تاریخ
    • تاریخ نگری
    • تاریخ نگاری
    • خاطره نگاری
  • پرسمان
  • پندار
  • پادپخش
  • پادرخ
بدون نتیجه
نمایش همه نتایج
باریخ نیوز
بدون نتیجه
نمایش همه نتایج
خانه اخبار فناوری

حذف یک منبع بزرگ اطلاعاتی هوش مصنوعی از اینترنت

مجموعه عظیمی از کتاب‌های بدون حق تکثیر که برای آموزش مدل‌های هوش مصنوعی استفاده می‌شد، پس از پیگیری حقوقی یک گروه دانمارکی مدافع حق نشر از اینترنت حذف شد.

30 مرداد, 1402
در فناوری

باریخ نیوز : مجموعه داده Books3 که شامل نزدیک به 200هزار کتاب در قالب متن بود، توسط وب سایتی به نام The Eye میزبانی می شد که داده های دیگری را برای تحقیقات هوش مصنوعی نیز ارائه می دهد. مجموعه داده بخشی از یک پروژه بزرگتر به نام The Pile بود که هدف آن ارائه داده های منبع باز برای مدل های زبان بود.

The Eye با درخواست حذف از طرف گروه Rights Alliance که نماینده ناشران و نویسندگان در دانمارک است، پس از اینکه متوجه شد مجموعه داده Books3 شامل حدود 150 عنوان از اعضای آن است، موافقت کرد.

Rights Alliance همچنین با Hugging Face و EleutherAI، دو سازمانی که پیوندهایی به دانلود Books3 در وب سایت خود داشتند، تماس گرفت. هر دوی آنها گروه مدافع حق نشر را به The Eye هدایت کردند.

مجموعه داده Books3 چیست؟

مجموعه داده Books3 در ابتدا توسط Shawn Presser، توسعه‌دهنده هوش مصنوعی و مدافع هوش مصنوعی منبع باز، در سال 2020 آپلود شد. او گفت که می‌خواهد توسعه هوش مصنوعی را در دسترس‌تر و رقابتی‌تر کند، به‌ویژه در برابر شرکت‌هایی مانند OpenAI، که مدل‌های زبان قبلی خود را بر روی مجموعه داده‌های مخفی و اختصاصی به نام‌های Books1 و Books2 آموزش می‌دادند. پرسر در گزارشی به Gizmodo گفت که حذف Books3 یک تراژدی برای هوش مصنوعی منبع باز بود، زیرا به پروژه‌های مردمی فرصتی داد تا مدل‌های زبانی خود را مانند ChatGPT ایجاد کنند که می‌تواند متون واقعی و منسجم تولید کند.

با این حال، نه تنها پروژه های منبع باز و هوش مصنوعی مردمی از Books3 برای آموزش خود استفاده می کنند. طبق گزارش آتلانتیک، برخی از بزرگترین شرکت‌های فناوری و پروژه‌های هوش مصنوعی مانند Meta، BloombergGPT، و GPT-J (با GPT-3 اشتباه نشود) نیز برای آموزش خود به مجموعه داده‌های کتاب‌های غیرقانونی تکیه کرده‌اند. این مدل ها می توانند متون واقع گرایانه و منسجمی را در موضوعات و حوزه های مختلف مانند مقالات خبری، خلاصه، نقد و حتی داستان تولید کنند.

کاربران برجسته

یکی از برجسته‌ترین کاربران Books3 متا است که توسط چندین نویسنده که ادعا می‌کنند این شرکت برای آموزش هوش مصنوعی LlaMA کتاب‌های آنها را دزدیده است مورد شکایت قرار گرفته است. در این دادخواست اشاره شده است که متا از مخزن Books3 برای آموزش هوش مصنوعی خود استفاده کرده است، اما اضافه شده است که متا اشاره ای نکرده است که چه آثاری در این گیگابایت داده وجود دارد.

محققان متا، در گزارش رسمی خود که مدل اصلی زبان LlaMA را معرفی کردند، Books3 را «مجموعه داده‌ای که برای آموزش مدل‌های زبان بزرگ در دسترس عموم است» نامیدند. آنها اشاره کردند که این مجموعه داده بخشی از The Pile است.

OpenAI از مجموعه کتاب های Books2 برای آموزش هوش مصنوعی خود یعنی GPT-3 استفاده کرد. Books1 و Books2 تقریباً 15 درصد از چیزهایی هستند که GPT-3 از آنها آموخته‌اند، اما ما چیز زیادی در مورد آنچه در آنها وجود دارد نمی‌دانیم. برخی از مردم فکر می کنند Books2 از Libgen آمده است، یک کتابخانه آنلاین رایگان که برخی افراد آن را Library Genesis می نامند. ما حتی در مورد 45 ترابایت کتابی که GPT-4 از آنها آموخته است چیز زیادی نمیدانیم.

مقاله آتلانتیک همچنین برخی از نام‌های نویسندگانی را که از کتاب‌هایشان برای آموزش مدل‌های هوش مصنوعی مولد استفاده می‌شود، مانند استفن کینگ، زادی اسمیت، مایکل پولان و بسیاری دیگر فاش می‌کند. برخی از این نویسندگان ممکن است آگاه نباشند که آثارشان برای اهداف هوش مصنوعی استفاده می شود، در حالی که برخی دیگر ممکن است به دلایل اخلاقی یا هنری به آن اعتراض کنند. این مقاله همچنین به برخی از خطاها و موارد تکراری موجود در Books3 و حتی برخی از کتاب‌های مورد بحث عمومی مانند Mein Kampf اثر آدولف هیتلر اشاره می‌کند.

پرسر به آتلانتیک گفت که هیچ یک از کتاب‌های Books3 را تایید یا حمایت نمی‌کند، اما معتقد است که این کتاب‌ها برای ایجاد مدل‌های زبانی متنوع و بی‌طرفانه ضروری هستند. او گفت که امیدوار است کسی در آینده نسخه بهتری از Books3 با کنترل کیفیت بیشتر و احترام به حقوق نویسندگان بسازد.

حالا چه اتفاقی می افتد؟

سرنوشت Books3 پس از حذف آن توسط The Eye در پی یک اخطار قانونی از اتحادیه حقوق، نامشخص است. با این حال، این احتمال وجود دارد که نسخه‌هایی از مجموعه داده‌ها هنوز به صورت آنلاین یا آفلاین وجود داشته باشد و از آن‌ها برای آموزش هوش مصنوعی توسط پروژه‌ها و سازمان‌های مختلف استفاده شود.

 

استفاده از Books3 برای آموزش هوش مصنوعی چندین مسئله حقوقی و اخلاقی را مطرح می کند. از یک طرف، حقوق مالکیت معنوی نویسندگان و ناشرانی را که آثارشان بدون رضایت یا غرامت در مجموعه داده گنجانده شده است، نقض می کند. از سوی دیگر، پروژه های AI منبع باز و مردمی را قادر می سازد تا با شرکت های بزرگ فناوری که به مجموعه داده های اختصاصی و مخفی دسترسی دارند، رقابت کنند. علاوه بر این، سوالاتی را در مورد کیفیت و تنوع داده‌هایی که برای ایجاد سیستم‌های هوش مصنوعی استفاده می‌شوند که می‌توانند بر ارتباطات و یادگیری انسان تأثیر بگذارند، مطرح می‌کند.

تحقیقات هوش مصنوعی را چگونه انجام دهیم؟

فکر کردن به این موضوع که مدل های هوش مصنوعی به چه حجمی از داده برای آموزش نیاز دارند و چه مقدار از این داده‌ها از کتاب‌هایی می‌آیند که استفاده از آنها رایگان یا قانونی نیست غیر عاقلانه به نظر می رسد. اگر به یاد داشته باشید زمانی که مدل زبان OpenAI در BookCorpus آموزش داده شد، مجموعه ای از هزاران جلد کتاب از وب سایت هایی مانند Smashwords جمع آوری شد. حجم آن مجموعه فقط چند گیگابایت بود، اما کتاب هایی داشت که توسط حق چاپ محافظت می شد یا باید هزینه پرداخت می شد.

اکنون، شرکت‌های بزرگ فناوری نمی‌خواهند داده‌های خود را با کسی به اشتراک بگذارند، زیرا می‌دانند که این امر به آنها برتری نسبت به رقبایشان می‌دهد یا آنها را در معرض مشکلات قانونی قرار می‌دهد. اما، آنها همچنین باید پول زیادی برای آموزش مدل های بزرگ خود بپردازند، به خصوص آنهایی که بزرگتر از همیشه هستند.

منبع : تکناک

پست قبلی

ماهواره‌ای که ۱۰ برابر بیشتر از انتظار عمر کرد

پست بعدی

ربات ‌های هوش مصنوعی؛ رویایی که به حقیقت می‌پیوندد

پست بعدی
ربات ‌های هوش مصنوعی؛ رویایی که به حقیقت می‌پیوندد

ربات ‌های هوش مصنوعی؛ رویایی که به حقیقت می‌پیوندد

دیدگاهتان را بنویسید لغو پاسخ

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

بدون نتیجه
نمایش همه نتایج

نوشته‌های تازه

  • برگزاری کارگاه «روش‌های کمی در آینده‌پژوهی» با حضور دکتر مهدی مطهرنیا/ عکس
  • دبیر شورای عالی امنیت ملی:
    در موضوع مذاکره با آمریکا آنچه تغییر کرد شرایط بود نه موضع نظام
  • اسحاق جهانگیری:
    شوخی با روح جمعی ایرانیان زخمی بر پیکر صلح جهانی وارد می‌کند
  • ناگفته ها کناره‌گیری ظریف از معاونت راهبردی
    تحریم داخلی؛ فشار به دولت
  • عزم چین و روسیه برای ایفای نقش فعال درباره موضوع هسته‌ای ایران
سه گانه های جنگ های سایه وارجنگ مینیاتوری

سه گانه های جنگ های سایه وار
جنگ مینیاتوری

فناوری‌های کوانتومی؛ معرفی، کاربردها و چالش‌ها – بخش اول حسین داودی یگانه

فناوری‌های کوانتومی؛ معرفی، کاربردها و چالش‌ها – بخش اول
حسین داودی یگانه

گفت و گوی دکتر مهدی مطهرنیا با باریخ نیوز درباره برگزاری دوره های آموزشی:    NBA؛ DBAو POST DBAدوره‌های مهارتی مدیریت آینده هستند سازمان‌ها، افراد و نهادها می توانند برحسب نیاز از دوره‌های مهارتی  استفاده کنند

سناریوهای پیشاروی جنگ غزه با توجه به نقش تهران

توسعه درک عمیق از فن آوری های دیجیتال

توسعه درک عمیق از فن آوری های دیجیتال

توصیه فعالان سیاسی اصلاح‌طلب و اصولگرا: باید مردم به صندوق رای اعتماد کنند

انتخابات و چرایی کاهش 60 درصدی مشارکت
سخن سر دبیر

گفت و گوی دکتر مهدی مطهرنیا با باریخ نیوز درباره برگزاری دوره های آموزشی:    NBA؛ DBAو POST DBAدوره‌های مهارتی مدیریت آینده هستند سازمان‌ها، افراد و نهادها می توانند برحسب نیاز از دوره‌های مهارتی  استفاده کنند

خاتمی به آینده می‌اندیشد

بیشتر بخوانید

دسته‌ها

  • اجتماعی
  • اخبار
  • اقتصادی
  • اندیشه ورزی
  • باریخ
  • باریخ_سیاست
  • باریخ-ارزش و فرهنگ
  • باریخ-اقتصاد
  • باریخ-حقوق
  • باریخ-زیست بوم
  • باریخ-فناوری
  • برگزیده
  • بین الملل
  • پادپخش
  • پادرخ
  • پندار
  • تاریخ
  • دسته‌بندی نشده
  • سیاسی
  • فرهنگی و هنری
  • فناوری
  • فناوری‌های نوظهور دیجیتال
  • کار و کسب
  • گزارش
  • گفتگو
  • مقاله
  • میزگرد
  • نیروی انسانی و نظامی
  • ورزش
  • ویژه
  • یادداشت

برگزاری کارگاه «روش‌های کمی در آینده‌پژوهی» با حضور دکتر مهدی مطهرنیا/ عکس

20 اردیبهشت, 1404

دبیر شورای عالی امنیت ملی:
در موضوع مذاکره با آمریکا آنچه تغییر کرد شرایط بود نه موضع نظام

18 اردیبهشت, 1404

اسحاق جهانگیری:
شوخی با روح جمعی ایرانیان زخمی بر پیکر صلح جهانی وارد می‌کند

18 اردیبهشت, 1404

ناگفته ها کناره‌گیری ظریف از معاونت راهبردی
تحریم داخلی؛ فشار به دولت

18 اردیبهشت, 1404

عزم چین و روسیه برای ایفای نقش فعال درباره موضوع هسته‌ای ایران

18 اردیبهشت, 1404
  • تماس با ما
  • درباره ما
فهرست
  • تماس با ما
  • درباره ما
Facebook Twitter Youtube
بدون نتیجه
نمایش همه نتایج
  • خانه
  • اخبار
    • اجتماعی
    • سیاسی
    • اقتصادی
    • بین الملل
    • فناوری
    • ورزشی
    • فرهنگی و هنری
  • کاروکسب
  • باریخ
    • اجتماعی
    • فناوری
    • اقتصاد
    • زیست بوم
    • سیاست
    • ارزش و فرهنگ
    • رسانه
    • نیروی انسانی و نظامی
    • امنیت
    • حقوق
  • تاریخ
    • تاریخ نگری
    • تاریخ نگاری
    • خاطره نگاری
  • پرسمان
  • پندار
  • پادپخش
  • پادرخ

خوش آمدید!

به حساب خود وارد شوید

فراموشی رمز عبور ؟

رمز عبور خود را بازیابی کنید

لطفاً ایمیل یا نام کاربری خود را جهت بازیابی رمز عبور وارد نمایید

وارد شدن