مروری نظام‌مند بر فرمت‌های جدول باز در معماری دریاچه‌خانه داده Iceberg، Delta Lake و Hudi
کد مقاله : 1052-DATAGOV2024
نویسندگان
مهدی میرزائی *1، حسین صابری2
1دانشجوی کارشناسی ارشد هوش مصنوعی و رباتیکز، دانشکده هوش مصنوعی و علوم شناختی، دانشگاه جامع امام حسین (ع)، تهران
2عضو هیئت علمی دانشکده و پژوهشکده هوش مصنوعی و علوم شناختی، دانشگاه جامع امام حسین (ع)، تهران، ایران
چکیده مقاله
رشد نمایی حجم داده‌های سازمانی و تنوع منابع تولید داده، چالش‌های جدی در حوزه مدیریت و پردازش داده‌ها ایجاد کرده است. معماری‌های سنتی انبار داده با محدودیت‌های اساسی در مقیاس‌پذیری، انعطاف‌پذیری و پشتیبانی از بارهای کاری ترکیبی مواجه‌اند. در پاسخ به این چالش‌ها، پارادایم «دریاچه‌خانه داده» ظهور کرده که مزایای دریاچه‌های داده و انبارهای داده را در یک معماری یکپارچه ترکیب می‌کند. فرمت‌های جدول باز نظیر Apache Iceberg، Delta Lake و Apache Hudi به عنوان لایه‌های بنیادین این معماری، امکان تراکنش‌های ACID، تکامل طرحواره و پرس‌وجوهای کارآمد را بر روی ذخیره‌سازی ابری فراهم می‌سازند.
این مقاله مروری نظام‌مند با بررسی 31 منبع علمی منتشرشده بین سال‌های ۲۰۲۳ تا ۲۰۲۵، به تحلیل جامع تحولات معماری دریاچه‌های داده با تمرکز ویژه بر Apache Iceberg می‌پردازد. یافته‌ها نشان می‌دهد که Iceberg با ارائه مدیریت متادیتای غیرمتمرکز، پارتیشن‌بندی پنهان و پشتیبانی از عملیات سطح ردیف در مقیاس پتابایت، مزیت‌های قابل توجهی نسبت به فرمت‌های سنتی ارائه می‌دهد. همچنین، یکپارچگی این فرمت‌ها با خطوط لوله یادگیری ماشین و سیستم‌های پردازش بلادرنگ، افق‌های جدیدی را برای تحلیل‌های پیشرفته گشوده است. این مقاله با ارائه چارچوبی جامع برای مقایسه فرمت‌های جدول و شناسایی شکاف‌های تحقیقاتی، راهنمایی برای پژوهشگران و معماران داده فراهم می‌آورد.
کلیدواژه ها
دریاچه‌خانه داده، Apache Iceberg، فرمت‌های جدول باز، پردازش بلادرنگ، یادگیری ماشین
وضعیت: پذیرفته شده برای ارسال فایل های ارائه پوستر