Kinder، ربات چت دوستدار هوش مصنوعی “Cloud 2” که توسط Anthropic ارائه شده است

مدیریت جولای 12, 2023

30 زمان تقریبی مطالعه 5 دقیقه

این ربات‌ها از یک چت ربات جدید هوش مصنوعی که روز سه‌شنبه توسط توسعه‌دهنده آن، آنتروپیک، «مفید، بی‌ضرر و صادقانه» توصیف شده بود، استخراج شد.

چت بات، کلود 2، مجموعه ای آشنا دارد. می تواند چکیده ایجاد کند، کد بنویسد، متن را کامپایل کند و کارهایی را انجام دهد که برای نوع برنامه ضروری شده اند.

این آخرین نسخه نمای مولد هوش مصنوعی از طریق یک API و از طریق یک رابط وب جدید برای مخاطبان در ایالات متحده و بریتانیا قابل دسترسی است. قبلاً فقط در صورت تقاضا یا از طریق Slack به عنوان یک برنامه برای مشاغل در دسترس بود.

آنتروپیک در بیانیه ای گفت: “کلود را به عنوان یک همکار دوستانه، مشتاق یا دستیار شخصی در نظر بگیرید که می تواند زبان طبیعی را به شما آموزش دهد تا در بسیاری از وظایف به شما کمک کند.”

ویل دافیلد، تحلیلگر سیاست در موسسه کاتو، یک اندیشکده واشنگتن دی سی اشاره کرد.

او به TechNewsWorld گفت: «در حالی که مایکروسافت برای وارد کردن بینگ به مجموعه بهره‌وری خود تلاش می‌کند، کلود می‌خواهد که دستیار شخصی مفیدتر از بقیه باشد.

بهبود نمرات تفکر

به گفته آنتروپیک، Claude 2 نسبت به مدل‌های قبلی در زمینه‌های کدنویسی، ریاضی و استدلال بهبود یافته است.

به عنوان مثال، در بخش چند گزینه ای آزمون وکالت، کلود دوم 76.5٪ امتیاز کسب کرد. مدل های قبلی امتیاز 73.0٪ را کسب کردند.

در امتحانات خواندن و نوشتن GRE برای دانشجویان کالج متقاضی تحصیلات تکمیلی، کلود امتیاز 2 بالاتر از صدک 90 را کسب کرد. از نظر استدلال کمّی، او به خوبی پیشروی متوسط را انجام داد.

در کدنویسی، کلود 2 در Codex HumanEval، یک آزمون کدنویسی پایتون، امتیاز 71.2% را کسب کرد. این یک پیشرفت بزرگ نسبت به مدل های قبلی است که امتیاز 56.0٪ را به دست آورد.

با این حال، آن را کمی بهتر از سلف خود در GSM8K، که شامل طیف گسترده ای از مسائل ریاضی مدرسه ابتدایی، با نمره 88.0٪، در مقایسه با 85.2٪ برای Claude 1.3 بود.

Claude 2 در ارزیابی‌هایی از جمله Codex HumanEval، GSM8K و MMLU نسبت به مدل‌های قبلی ما بهبود یافته است. می توانید طیف کامل بررسی ها را در کارت فرم ما مشاهده کنید: https://t.co/fJ210d9utd pic.twitter.com/LLOuUNfOFV

– آنتروپیک (AnthropicAI) 11 جولای 2023

دانش تاخیری

انسان ها کلود را در زمینه دیگری بهبود بخشیده اند: ورودی ها.

پنجره زمینه کلود 2 می تواند تا 75000 کلمه را مدیریت کند. این بدان معنی است که کلود می تواند صدها صفحه از اسناد فنی یا حتی یک کتاب را در خود نگه دارد. در مقایسه، محدودیت ورودی ChatGPT 3000 کلمه است.

آنتروپیک اضافه کرد که کلود اکنون می‌تواند اسناد طولانی‌تری بنویسد – از خاطرات روزانه گرفته تا نامه‌ها تا داستان‌هایی با چند هزار کلمه.

مانند ChatGPT، Cloud آفلاین است. بر روی داده‌هایی که در دسامبر 2022 به طور ناگهانی به پایان می‌رسند آموزش دیده است. این به آن برتری جزئی نسبت به ChatGPT می‌دهد، که در حال حاضر دارای داده‌هایی است که در سپتامبر 2021 به پایان می‌رسد – اما بسیار عقب‌تر از Bing و Bard است.

گرگ استرلینگ، یکی از بنیانگذاران Near Media، یک وب‌سایت خبری، تفسیری و تحلیلی، توضیح داد: «با بینگ، نتایج جستجوی به‌روزرسانی‌شده‌ای را دریافت می‌کنید، که با Bard نیز دریافت می‌کنید.

با این حال، این ممکن است تأثیر محدودی بر Cloud 2 داشته باشد. استرلینگ به TechNewsWorld گفت: «بیشتر مردم تفاوت‌های مهمی را مشاهده نمی‌کنند مگر اینکه از همه این برنامه‌ها به صورت پشت سر هم استفاده کنند. “تفاوت هایی که ممکن است افراد متوجه شوند در درجه اول در رابط های کاربری خواهد بود.”

آنتروپیک همچنین بهبودهای ایمنی انجام شده در کلود 2 را تبلیغ کرد. توضیح داد که یک “تیم قرمز” داخلی دارد که مدل های خود را بر اساس ادعاهای مضر ثبت می کند. تست ها به صورت خودکار انجام می شوند، اما نتایج به طور مرتب به صورت دستی بررسی می شوند. در جدیدترین ارزیابی خود، Anthropic اشاره کرد که Claude 2 در ارائه پاسخ های بی ضرر دو برابر بهتر از Claude 1.3 بود.

علاوه بر این، مجموعه ای از اصول به نام قانون اساسی در سیستم تعبیه شده است که می تواند پاسخ های آن را بدون نیاز به استفاده از واسطه انسانی تعدیل کند.

کاهش آسیب

Anthropic در تلاش برای پایان دادن به آسیب احتمالی ناشی از برنامه هوش مصنوعی مولد خود تنها نیست. راب اندرل، رئیس و تحلیلگر اصلی در گروه Enderle، یک شرکت خدمات مشاوره در Bend، Ore، خاطرنشان کرد: «همه روی سیستم‌های هوش مصنوعی مفیدی کار می‌کنند که قرار است هیچ آسیبی نداشته باشند، و هدف تقریباً جهانی است.

او به TechNewsWorld گفت: «احتمالاً پیاده سازی بین ارائه دهندگان متفاوت است.

وی خاطرنشان کرد که ارائه دهندگان خدمات صنعتی مانند مایکروسافت، انویدیا و IBM از زمان ورود به این حوزه، ایمنی هوش مصنوعی را جدی گرفته اند. او گفت: «به نظر می‌رسد برخی استارت‌آپ‌های دیگر بر روی راه‌اندازی چیزی بیشتر از چیزی امن و قابل اعتماد متمرکز هستند.

دافیلد افزود: “من همیشه به استفاده از زبانی مانند بی ضرر مخالفم، زیرا ابزارهای مفید ممکن است به نحوی مورد سوء استفاده قرار گیرند و باعث آسیب شوند.”

تلاش برای به حداقل رساندن آسیب در یک برنامه هوش مصنوعی مولد می تواند بر ارزش آن تأثیر بگذارد. با این حال، به نظر نمی رسد که این مورد در مورد کلود 2 باشد. دافیلد گفت: «به نظر نمی رسد تا حدی بی فایده باشد.

سد نویز را غلبه کنید

Enderle تاکید کرد که داشتن یک هوش مصنوعی “صادق” کلید اعتماد به آن است. او گفت: «داشتن هوش مصنوعی غیرصادقانه و مخرب برای ما فایده چندانی ندارد. اما اگر به فناوری اعتماد نداریم، نباید از آن استفاده کنیم.»

وی ادامه داد: «سیستم‌های هوش مصنوعی با سرعت ماشین کار می‌کنند، و ما این کار را نمی‌کنیم، بنابراین آنها می‌توانند در مدت کوتاهی آسیب‌های بسیار بیشتری نسبت به ما وارد کنند.»

استرلینگ افزود: «هوش مصنوعی می‌تواند چیزهایی غیردقیق اما منطقی بسازد». اگر مردم به اطلاعات نادرست تکیه کنند، این یک مشکل بزرگ است.

او گفت: «هوش مصنوعی همچنین می‌تواند اطلاعات جانبدارانه یا سمی را در برخی موارد منتشر کند.

Enlighten - هوش مصنوعی مورد اعتماد برای تجارت

حتی اگر Claude 2 بتواند به وعده خود مبنی بر اینکه یک چت ربات هوش مصنوعی «مفید، بی ضرر و صادق» باشد عمل کند، باید در بازاری که به یک بازار بسیار پر سر و صدا تبدیل شده، مورد توجه قرار گیرد.

اندرل خاطرنشان کرد: «ما از تعداد چیزهای اعلام شده غرق شده‌ایم، که باعث می‌شود نتوانیم سر و صدا را کاهش دهیم.

استرلینگ افزود: «ChatGPT، Bing و Bard بیشترین سهم از ایده ها را دارند و بیشتر مردم دلیل خوبی برای استفاده از سایر برنامه ها نمی بینند.

او خاطرنشان کرد که تلاش برای نامگذاری کلود به عنوان هوش مصنوعی “دوستانه” احتمالاً برای متمایز کردن او از سایر بازیگران در بازار کافی نخواهد بود. او گفت: «این یک انتزاع است. “Cloud باید عملکرد بهتری داشته باشد یا مفیدتر باشد تا بتواند مورد پذیرش قرار گیرد. مردم هیچ تمایزی بین آن و رقیب محبوب ترش ChatGPT نخواهند دید.”

همانطور که اگر سطوح بالای سر و صدا کافی نبود، کسالت برای مقابله وجود دارد. دافیلد خاطرنشان کرد: متقاعد کردن مردم در مورد هر نوع چت ربات جدید بسیار دشوارتر از شش ماه پیش است. کمی خستگی چت بات وجود دارد.