تفاوت و دسته بندی دیتا ست ها (انتشار: 1402/07/01)

در پست قبلی به این موضوع اشاره کردیم که دیتا ست ها مجموعه ای از داده ها هستند. وقتی بحث در مورد مجموعه ها رو داریم، از روی همین تعریف نتیجه می گیریم که نوع خود داده ها تا حد زیادی می تواند دسته بندی دیتا ست را مشخص نماید. یک از فواید این جداسازی افزودن دیتای جدید به دسته ی مربوطه است. هر کتابخانه یا موسسه ای (Google Dataset Search, Kaggle, Amazon, Github و ...) که در این زمینه فعالیتی داشته، دسته بندی های متفاوتی رو ارائه داده ولی تو این مطلب می خوایم به بررسی تعدادی از مهمترین آن ها بپردازیم.

این چیه؟

 

# متنی

این نوع از دستا ست های ورودی های ماشین های پردازش زبان (NLP) هستند و همانطور که از اسمشون مشخص هست، مجموعه از متون و اسناد متنی هستند که می تونن طیف وسیعی از اخبار، مقالات، کتاب ها، خوراک سایت، لغت نامه ها و از این قبیل موارد زا دربرگیرند. از بزرگترین و مشهورترین دیتاست در این دسته بندی می توان به مجموعه ویکی پدیا اشاره نمود که در تهیه Word net (که بعدا در موردشون مطلبی خواهیم داشت) استفاده می شود.

# تصویری

از آنجایی که نسبت به بقیه موارد نتایج ملموس تری داشته و منابع بیشتری برای تهیه تصاویر وجود دارد، احتمالا بیشترین جذابیت برای مخصوصا نوآموزان، کار با این نوع دیتاست هاست. کتابخانه هایی مانند TorchVision اقدام به تهیه دیتاست های کوچک مانند FashionMNIST (مجموعه ی تصاویر لباس در 10 دسته ی مختلف) و CIFAR10 (مجموعه تصاویر حیوانات و وسایل نقلیه در 10 دسته ی مختلف)  برای این افراد نموده اند. همچنین برای اونهایی که قصد دارن پروژه های بزرگتری انجام بدن یا از دیتاست های Kaggle و امثال آن استفاده می کنند و یا در نهایت خود اقدام به تهیه دیتای مورد نیازشان می نمایند.

# صوتی

شناسایی صدا و استخراج متن از آنها دو نمونه از کاربردهای وسیع این نوع دیتا ست است. مکالمات موجود در فیلمها، انیمیشن ها، اخبار، برنامه های رادیویی و سخنرانی ها بهترین منابع جمع آوری این نوع داده هستند. یکی از نمونه های موجودر در منابع Kaggle که با نام Speaker Recognition Audio Dataset مشخص شده است مجموعه از 50 سخنرانی بیش از یک ساعتی می باشد.

# عددی

مجموعه ای از اطلاعات آماری و ریاضی در درون این دسته بندی ها جای می گیرند. اگر بخواهیم بهتر با مفهوم این دیتا ست ها آشنا شویم می توان آن ها را به مانند جداولی از اعداد در نظر گرفت که هر کدام مقداری از یک ویژگی خاص را نشان می دهد. مثلا اگر بخواهیم موقعیت خانه ها را در یک شهر داشته باشیم می توانیم مقادیر عرض و طول جغرافیایی آن ها را در قالب جدولی داشته باشیم. از جمله معرفترین این نوع دیتا ست ها مجموعه های کتابخانه Scikit-learn هستند که به صورت نقاط رنگی در نمودارهای مختلف قابل ارائه هستند.

# طبقه بندی شده

یکی دیگر از مجموعه های ساده برای کارهای کوچک و مخصوصا دسته بندی های دوتایی (Binary classification) داده هایی هستند که با یک مقدار صفر و یک ویا دست و غلط و امثال آن ها مشخص می شوند. برای درک بهتر می توان مثال مرد و زن بودن افراد جامعه را مثال زد. در این میان، میتوان مقدار یک برای زن بودن و صفر برای مرد بودن بکار برد.

 

دسته بندی براساس برچسب

از منظری دیگر می توان اطلاعات را براساس این که هدف و یا برچسب مشخصی دارند و یا نه نیز دسته بندی نمود. بر این اساس اگر برای هر نمونه از دیتا ست ها نام خاصی در نظر گرفته شد، یا در پوشه ی خاصی قرار داده شد که از دیگر دیتا ها مجزا گردند و یا در موارد عددی، ستون مجزایی برای نمایش خروجی آن نمونه در نظر گرفته شند، به عنوان دیتاست های برچسب دار شناخاته خواهند شد. درغیرانصورت بدون برچسب خواهند بود. در موارد نیز می توان شاهد اطلاعات تلفیقی نیز بود که با روش هایی از جمله استفاده برچسب دار ها برای آموزش و بدون برچسب ها برای آزمایش، این مشکل را نیز مرتفع ساخت.

 


نظرات خوانندگان نوشته


نظری در این مورد دارید؟ خوشحال می‌شیم اون رو برامون ارسال کنید.