Web Analytics Made Easy - Statcounter
به نقل از «مهر»
2024-05-05@03:48:22 GMT

پیکره بزرگ متنی حوزه پردازش زبان طبیعی در فارسی تهیه شد

تاریخ انتشار: ۲۰ شهریور ۱۴۰۱ | کد خبر: ۳۵۹۸۵۴۲۲

پیکره بزرگ متنی حوزه پردازش زبان طبیعی در فارسی تهیه شد

به گزارش خبرنگار مهر، محمدرضا حسینیان مدیرعامل مرکز نوآوری یک شرکت دانش بنیان با بیان اینکه «پیکره‌ متنی بزرگ» یکی از مهم‌ترین نیازهای آموزش مدل‌های شبکه عصبی عمیق به خصوص شبکه‌های بر پایه ترنسفورمر است، گفت: استفاده از پیکره متنی برای زبان‌های با منابع کمتر مانند فارسی بیشتر احساس می‌شود.

وی افزود: بدین منظور تیمی از آزمایشگاه پردازش زبان طبیعی و گفتار دانشگاه صنعتی شریف به همراه محققان مرکز نوآوری یک شرکت دانش‌بنیان برای این مساله راه‌حل پیکره ناب را معرفی کردند.

بیشتر بخوانید: اخباری که در وبسایت منتشر نمی‌شوند!

این پیکره، مجموعه پاک‌سازی شده و قابل استفاده مستقیم برای محققان حوزه پردازش زبان طبیعی در فارسی است.

حسینیان با بیان اینکه این مجموعه شامل حدود ۱۳۰ گیگابایت دیتا متنی شامل ۲۵۰ میلیون پاراگراف و ۱۵ میلیارد کلمه است، گفت: نسخه خام پیکره ناب به همراه اسکریپت پیش پردازش (استفاده شده برای تمیزسازی داده) در اختیار عموم قرار گرفته تا به کمک آن بتوانند نسخه تمیز شده‌ پیکره خود را بسازند.

وی افزود: مرکز نوآوری این شرکت دانش‌بنیان واقع در دانشگاه صنعتی شریف آماده است تا با کمک این پیکره و تامین بستر مناسب، ایده‌های پژوهشی محققان را به عرصه واقعیت پرورش دهد.

در ادامه حسین صامتی عضو هیئت علمی دانشگاه صنعتی شریف و سرپرست آزمایشگاه پردازش زبان طبیعی و گفتار این دانشگاه گفت: از این پیکره می‌توان برای روان کردن مدل‌های زبانی، که در اصل برای زبان انگلیسی تهیه شده‌اند نیز استفاده کرد. از جمله این مدل‌های زبانی می‌توان به BERT, BART, T۵ و ... اشاره کرد.

کد خبر 5585977 میترا سعیدی کیا

منبع: مهر

کلیدواژه: شرکت دانش بنیان دانشگاه صنعتی شریف نوآوری زبان فارسی حاکمیت سایبری نوآوری تحقیقات علمی معاونت علمی و فناوری ریاست جمهوری همراه اول شرکت دانش بنیان اربعین حسینی اینترنت گوگل حسگر ناسا فناوری نانو فناوری فضایی ماهواره پردازش زبان طبیعی

درخواست حذف خبر:

«خبربان» یک خبرخوان هوشمند و خودکار است و این خبر را به‌طور اتوماتیک از وبسایت www.mehrnews.com دریافت کرده‌است، لذا منبع این خبر، وبسایت «مهر» بوده و سایت «خبربان» مسئولیتی در قبال محتوای آن ندارد. چنانچه درخواست حذف این خبر را دارید، کد ۳۵۹۸۵۴۲۲ را به همراه موضوع به شماره ۱۰۰۰۱۵۷۰ پیامک فرمایید. لطفاً در صورتی‌که در مورد این خبر، نظر یا سئوالی دارید، با منبع خبر (اینجا) ارتباط برقرار نمایید.

با استناد به ماده ۷۴ قانون تجارت الکترونیک مصوب ۱۳۸۲/۱۰/۱۷ مجلس شورای اسلامی و با عنایت به اینکه سایت «خبربان» مصداق بستر مبادلات الکترونیکی متنی، صوتی و تصویر است، مسئولیت نقض حقوق تصریح شده مولفان در قانون فوق از قبیل تکثیر، اجرا و توزیع و یا هر گونه محتوی خلاف قوانین کشور ایران بر عهده منبع خبر و کاربران است.

خبر بعدی:

گفت‌وگوی بی‌بی‌سی فارسی با یکی از نویسنده‌های گزارش درباره قتل نیکاشاکرمی و تجاوز به او | بخش فارسی BBC آمد ابرو را درست کند، چشمش را هم کور کرد...

به گزارش همشهری‌آنلاین، روزنامه ایران نوشت: در ویدیویی که از این گفت‌وگو منتشر شده، مجری بی‌بی‌سی فارسی سؤالات خود را از کاغذ می‌پرسد و خبرنگار بی‌بی‌سی جهانی نیز از روی کاغذی که در مقابلش قرار دارد پاسخ سؤالات مجری را از رو می‌خواند و سپس مترجم، پاسخ‌ها را به زبان فارسی برگردان می‌کند!

این درحالی است که نویسنده گزارش بی‌بی‌سی جهانی درباره نیکا شاکرمی، در این گفت‌وگو اذعان دارد که اسناد ادعایی در گزارشش، گاف‌ها و تناقضات متعددی داشته است.

وی همچنین از پاسخ به این سؤال که اسناد از کجا به دست بی‌بی‌سی رسیده، طفره می‌رود. پس از انتشار ویدیوهای این گفت‌وگو، یک کاربر فضای مجازی درباره آن اظهار کرد که بخش فارسی BBC آمد ابروی بخش جهانی را درست کند، چشمش را هم کور کرد! برخی دیگر از کاربران فضای مجازی تدارک چنین مصاحبه‌ای را شراکت بخش فارسی BBC با پروژه دولت انگلیس برشمردند.

این کاربران همچنین معتقدند که جعل چنین گزارشی نه تنها به‌خاطر پروژه تبلیغاتی علیه ایران در اثنای درگیری‌های غزه بوده بلکه ارجاع این مأموریت به بخش BBC جهانی بدین خاطر صورت گرفته است که کلیه رسانه‌های فارسی‌زبان خارج‌نشین به عنوان بازتاب‌دهنده این گزارش در پروژه مشارکت کنند. چرا که اگر بخش فارسی BBC این گزارش را منتشر می‌کرد، به دلیل اختلافات موجود میان شبکه‌های فارسی‌زبان (علی‌الخصوص BBC و اینترنشنال)، احتمال پوشش ناکافی پروژه از سوی سایر فارسی‌زبان‌ها بالا می‌رفت.

پمپاژ دروغ به نفع پلیس امریکا

خبر دیگر اینکه، گزارش جعلی و سندسازی بی‌بی‌سی جهانی در ارتباط با نیکا شاکرمی علاوه بر کاربران ایرانی، واکنش کاربران خارجی شبکه‌های اجتماعی را هم در پی داشت. این کاربران با اشاره به سندسازی بی بی سی، از این رسانه انگلیسی خواستند که به جای دروغ پردازی علیه ایران به پوشش سرکوب دانشجویان دانشگاه‌های امریکا توسط پلیس این کشور بپردازند و جنایت‌های رژیم صهیونیستی علیه مردم غزه را به تصویر بکشد. این کاربران معتقدند که شبکه انگلیسی بی‌بی‌سی برای به حاشیه بردن اقدامات ضد حقوق بشری پلیس امریکا، دست به دروغ‌سازی علیه ایران زده است.
دو روز از انتشار گزارش بی‌بی‌سی جهانی در ارتباط با مرگ نیکا شاکرمی می‌گذرد. به رغم اذعان بخش فارسی این رسانه به سندسازی، بی‌بی‌سی درقبال انتقادات و مطالبه کاربران برای ارائه اسناد اصلی سکوت کرده است.

کد خبر 848862 منبع: ایران برچسب‌ها اغتشاش تلویزیون بی بی سی خبر ویژه

دیگر خبرها

  • ببینید | ادبیات فارسی بر قله جهان
  • علت مشکلات جیدون سانچو در منچستریونایتد از زبان تیری آنری (زیرنویس فارسی)
  • ادبیات فارسی بر قله جهان + فیلم
  • آیا حذف زبان فارسی در افغانستان ممکن است؟
  • اعلام آمادگی دانشگاه مطرح ایرانی برای آموزش زبان فارسی به دانشجویان اخراجی آمریکا
  • آموزش زبان فارسی در ارمنستان موجب تقویت تعاملات دو کشور می‌شود
  • توسعه ظرفیتهای آموزش زبان فارسی در جمهوری خودمختارنخجوان
  • «وعده صادق» شکافی بزرگ بر پیکره اسرائیل وارد کرد
  • ادعای اسرائیل درباره ترور نیروی وابسته به سپاه؛ رامین یکتاپرست کیست؟
  • گفت‌وگوی بی‌بی‌سی فارسی با یکی از نویسنده‌های گزارش درباره قتل نیکاشاکرمی و تجاوز به او | بخش فارسی BBC آمد ابرو را درست کند، چشمش را هم کور کرد...