| مروری نظاممند بر فرمتهای جدول باز در معماری دریاچهخانه داده Iceberg، Delta Lake و Hudi |
| کد مقاله : 1052-DATAGOV2024 |
| نویسندگان |
|
مهدی میرزائی *1، حسین صابری2 1دانشجوی کارشناسی ارشد هوش مصنوعی و رباتیکز، دانشکده هوش مصنوعی و علوم شناختی، دانشگاه جامع امام حسین (ع)، تهران 2عضو هیئت علمی دانشکده و پژوهشکده هوش مصنوعی و علوم شناختی، دانشگاه جامع امام حسین (ع)، تهران، ایران |
| چکیده مقاله |
| رشد نمایی حجم دادههای سازمانی و تنوع منابع تولید داده، چالشهای جدی در حوزه مدیریت و پردازش دادهها ایجاد کرده است. معماریهای سنتی انبار داده با محدودیتهای اساسی در مقیاسپذیری، انعطافپذیری و پشتیبانی از بارهای کاری ترکیبی مواجهاند. در پاسخ به این چالشها، پارادایم «دریاچهخانه داده» ظهور کرده که مزایای دریاچههای داده و انبارهای داده را در یک معماری یکپارچه ترکیب میکند. فرمتهای جدول باز نظیر Apache Iceberg، Delta Lake و Apache Hudi به عنوان لایههای بنیادین این معماری، امکان تراکنشهای ACID، تکامل طرحواره و پرسوجوهای کارآمد را بر روی ذخیرهسازی ابری فراهم میسازند. این مقاله مروری نظاممند با بررسی 31 منبع علمی منتشرشده بین سالهای ۲۰۲۳ تا ۲۰۲۵، به تحلیل جامع تحولات معماری دریاچههای داده با تمرکز ویژه بر Apache Iceberg میپردازد. یافتهها نشان میدهد که Iceberg با ارائه مدیریت متادیتای غیرمتمرکز، پارتیشنبندی پنهان و پشتیبانی از عملیات سطح ردیف در مقیاس پتابایت، مزیتهای قابل توجهی نسبت به فرمتهای سنتی ارائه میدهد. همچنین، یکپارچگی این فرمتها با خطوط لوله یادگیری ماشین و سیستمهای پردازش بلادرنگ، افقهای جدیدی را برای تحلیلهای پیشرفته گشوده است. این مقاله با ارائه چارچوبی جامع برای مقایسه فرمتهای جدول و شناسایی شکافهای تحقیقاتی، راهنمایی برای پژوهشگران و معماران داده فراهم میآورد. |
| کلیدواژه ها |
| دریاچهخانه داده، Apache Iceberg، فرمتهای جدول باز، پردازش بلادرنگ، یادگیری ماشین |
| وضعیت: پذیرفته شده برای ارسال فایل های ارائه پوستر |