برداشت از مجموعه منابع؛ فقط ایدهای برای تأمل بیشتر
▬نکته ۱. دادهشناسی (Data Science)، دانشی میانرشتهای پیرامون استخراج دانش و آگاهی از مجموعهای داده و اطلاعات است. دادهشناسی از ترکیب مباحث مختلفی به وجود آمده و بر مبانی و روشهای موجود در حوزههای مختلف علمی بنا شده است. تعدادی از این حوزهها عبارتاند از: ریاضیات، آمار، مهندسی داده، بازشناخت الگو و... هدف این علم، استخراج مفهوم از داده و تولید محصولات دادهمحور است.
▬نکته ۲. عبارت دادهشناسی بیش از یک دهه است که موجودیت دارد. ویلیام کلیولند اولین کسی است که اصطلاح دادهشناسی را در سال ۲۰۰۱ مطرح کرده است. وی در مقاله «دادهشناسی: برنامهای برای گسترش جنبههای فنی در رشته آمار» پیشنهاد کرد که دادهشناسی به عنوان یک رشته مستقل شناخته شود. کلیولند این رشته جدید را مرتبط با علوم کامپیوتر و دادهکاوی میدانست. وی بر این باور بود که منافع استفاده از یک تحلیلگر داده محدود است. چون مهندسین کامپیوتر شناخت کمی از روشهای کار با داده دارند و دانش محاسباتی متخصصین آمار هم محدود است؛ بنا بر این، تلفیق این دو گروه میتواند منجر به نوآوریهای زیادی شود. دپارتمانهای دادهشناسی باید اساتیدی داشته باشد که بتوانند دانش دادهها را با دانش محاسبات تلفیق کنند.
▬نکته ۳. با این که عبارت دادهشناسی عبارت جدیدی است، این حرفه سالهاست که وجود داشته است. ناپلئون بناپارت از مدلهای ریاضی برای تصمیمگیری در میادین جنگی استفاده میکرده است. این مدلها را ریاضیدانان تهیه میکردند.
▬نکته ۴. آقایان تامس دونپورت و دی جی پاتیل در سال ۲۰۱۲ در مقاله «دادهشناسی: جذابترین شغل قرن بیست و یکم» دادهشناسان را این طور تعریف میکنند: کسانی که میدانند چگونه میتوان از انبوه اطلاعات بدون ساختار پاسخ سؤالهای کسبوکار را پیدا کرد. استنتون در سال ۲۰۱۳ دادهشناسی را این طور تعریف میکند: دادهشناسی رشته در حال ظهوری است که به جمعآوری، آمادهسازی، تحلیل، بصریسازی، مدیریت و نگهداشت اطلاعات در حجم بالا میپردازد. دریسکول در سال ۲۰۱۴ دادهشناسی را این طور تعریف میکند: دادهشناسی مهندسی عمران دادههاست. دادهشناس دانشی کاربردی از دادهها و ابزارها دارد به علاوه، درک تئوریکی دارد که مشخص میکند چه چیزی از نظر علمی ممکن است.
▬نکته ۵. در طول دهه گذشته، حجم دادههای تولید شده توسط شرکتهای مختلف بسیار قابل توجه بوده است که گاهی اوقات از آن به عنوان Big Data یاد میشود، اما، این دادهها زمانی ارزشمند خواهند بود که بتوان آنها را تحلیل کرده و از دل آنها آمار و ارقامی به دست آوریم که با استفاده از آنها بتوان به شناخت بیشتر بازار، رفتارهای کاربران اینترنتی، علائق مردم و … دست یابیم. در این مقاله با وبلاگ سکان آکادمی همراه باشید تا بیشتر و بهتر با مفهوم Data Science آشنا شوید.
▬نکته ۶. یک «دادهشناس»، دائماً میبایست بپرسد چرا؟ یک تحلیلگر داده بسته به شرکتی که در آن کار میکند وظایف مختلفی میتواند داشته باشد، اما، به طور کلی، تحلیلگر داده کسی که دارای خصوصیاتی مثل تحلیل دادهها، مدل سازی/آمار و مهندسی/نمونهسازی باشد. در کنار این وظایف، کار دیگری هم جزو وظایف اصلی یک تحلیلگر داده است که از آن به عنوان مرتبسازی دادهها یاد میشود که به طور خلاصه منظور از مرتبسازی داده این است که تحلیلگر بتواند لیستی از دادههای به هم ریخته را ابتدا مرتب و منظم نموده، سپس، به بررسی آنها بپردازد. در ادامه قصد داریم تا تک تک این وظایف را به صورت موردی بررسی نماییم: مرتبسازی داده: همان طور که پیش از این، گفتیم، فرایند مرتبسازی داده شامل ترتیب دادن فرمت دادههایی است که در نگاه اول فرد را سردرگم میکنند. لذا، تحلیلگر میبایست ابتدا دادهها را به گونهای مرتب سازد که آن پس، بتواند به سادگی به بررسی و تحلیل آنها بپردازد. برای روشنتر شدن این مسأله مثالی میزنیم. فرض کنیم که قرار است دادههای مرتبط با کاربرانی که در ایران به دنبال آموزش آنلاین هستند را مورد ارزیابی قرار دهیم، اما، مشکل اینجا است که دادهها در یک فایل جامع قرار نداشته و بسته به شهرهای مختلف از یک سو و همچنین، نوع آموزش مد نظر از سوی دیگر، فایلهایی مجزایی داریم. فرایند مرتبسازی دادهها در مثال فوق به این شکل است که ابتدا میبایست تمامی دادهها را در یک فایل قرار دهیم، اما، نکته اینجا است که حتماً میبایست اطمینان حاصل کنیم کلیه ردیفها و ستونهای فایل (به طور مثال فایل اکسل) جایگاه خود را حفظ کرده و در این مثال هیچ دادهای به اشتباه در ستون دیگری قرار نمیگیرد.
▬نکته ۷. به شاغلین در حوزهی دادهشناسی، «دادهشناس» (data scientist) میگویند. این اصطلاح توسط دی جی پاتیل و جف همربارکر ابداع شده است در صورتی که سالها قبل از آن که آنها استفاده از اصطلاح فوق را به طور عمومی مطرح کنند، از آن استفاده شده است. چن فو جف وو در سال ۱۹۹۸ برای اولین بار در یک سخنرانی از واژهی دادهشناس استفاده کرد. دادهشناسان با عمیق شدن در چندین رشتهی علمی، مسائل پیچیدهی مطرح شده در حوزهی داده را حل میکنند. به طور کلی، انتظار میرود که دادهشناسان قادر باشند در بخشهایی از علوم ریاضیات و آمار و علوم کامپیوتر کار کنند. یک دادهشناس میبایست در یک یا دو رشته تخصص داشته باشد و در دیگر حوزهها دارای مهارت کافی باشد. نتایج نظرسنجیها حاکی از این موضوع است که برای دادهشناس شدن ۵ تا ۸ سال زمان لازم است.
▬نکته ۸. دادهشناسان میتوانند مهارتهایشان را برای دست یابی به طیف وسیعی از نتایج نهایی به کار گیرند. تعدادی از این مهارتها به شرح زیرند:
• توان استخراج و تفسیر منابع داده
• مدیریت حجم زیاد اطلاعات با سختافزار
• محدودیتهای نرمافزاری و پهنای باند
• ادغام منابع داده با یک دیگر
• تضمین پایداری مجموعههای داده
• مصورسازی داده برای فهم آن
• ساخت مدلهای ریاضی با استفاده از داده
• به اشتراک گذاری یافتهها و دیدگاهها در حوزه داده با متخصصان دیگر یا مخاطب عام
▀█▄ تحلیل دادهها
▬نکته ۹. وقتی پای تحلیل دادهها به میان میآید، بسیاری از ما به یاد نرمافزار اکسل شرکت مایکروسافت میافتیم، اما، واقعیت امر این است که وقتی ما با Big Data سروکار داریم، نه تنها نرم افزارهایی از این دست پاسخگوی نیاز ما نخواهند بود، بلکه سیستمهای سخت افزاری معمولی نیز زیر بار چنین تحلیلی کم خواهند آورد و گاها ما به چندین سیستم قوی نیاز داریم. در فرایند تحلیل دادهها، کارشناسان تمام سعی خود را به کار میبندند تا دادهها را از قالب جدول به صورت بصری درآورند تا به صورت ملموستری بتوان به بررسی آنها پرداخت. برای درک بهتر این موضوع، مثالی از شبکه اجتماعی فیسبوک میزنیم. تحلیلگران دادهها در شرکت فیسبوک متوجه شدند که داشتن حداقل ۱۰ دوست برای یک کاربر فیسبوک، این تضمین را ایجاد خواهد کرد که این کاربر حضوری مستمر در این شبکه اجتماعی داشته باشد، لذا، مهندسین این شرکت تمام تلاش خود را به کار بستند تا سازوکاری ایجاد کنند تا کاربران فیسبوک خیلی راحتتر بتوانند دوستان قدیمی خود را بیابند تا در نتیجه، به عنوان کاربران پایه ثابت فیسبوک مبدل شوند. مدل سازی/آمار: پس از آنکه دادههای اولیه مرتب شدند، سپس، به صورت کاملاً بصری در اختیار کارشناسان قرار گرفتند، حال نوبت به پیشبینی آینده از روی آمار و ارقام به دست آمده و مدلسازی میرسد که در عین حال، کاری بس پیچیده و حساس است. برای مثال، اگر بخواهیم سایت الکسا را مد نظر قرار دهیم، کارشناسان این سایت میبایست مدل یا بهتر بگوییم الگوریتمی طراحی کنند که بر اساس آمار فعلی سایتها بتواند پیشبینی تعداد ویزیتورهای آتی این سایتها نیز در اختیار وب مسترهای قرار دهد.
▀█▄ مهندسی/نمونه سازی
▬نکته ۱۰. پس از برخورداری از یک مدل/طرح خوب از دادههای به دست آمده، تازه به اصل کار میرسیم که همان عملی ساخت طرح است. در مورد قبلی سایت الکسا را مثال زدیم و گفتیم که چقدر خوب میشد اگر میتوانستیم آماری از تعداد ویزیتورهای آتی سایتمان را در اختیار داشته باشیم، اما، برخورداری از چنین الگوریتمی زمانی بسیار ارزشمندتر خواهد شد که بتوان این کار را به صورت مداوم انجام داده و در اختیار وب مسترها قرار داد. به عبارت دیگر، میبایست دادههای علمی را به صورت یک محصول درآورد که افراد عادی که اطلاعی از مفاهیم Big Data و Data Science و … ندارند هم بتوانند آن دادهها را درک کرده و در زندگی حرفهای خود به کار گیرند.
▀█▄ ابزارهای متن باز دادهشناسی
• آر (زبان برنامهنویسی)
• پیتون (زبان برنامهنویسی)
• وکا (یادگیری ماشینی)
• جاوا (زبان برنامهنویسی)
• گنو آکتیو
• جولیا
▀█▄ ابزارهای تجاری دادهشناسی
• SPSS
• MATLAB
▀█▄ رشتههای دانشگاهی
• انفورماتیک (رشته دانشگاهی)
• بیوانفورماتیک
• ژئوانفورماتیک
• انفورماتیک پزشکی
• علوم اعصاب محاسباتی
• شیمیانفورماتیک
▀▄█▌▀▄█▌▀▄█▌ در همین ارتباط: دادهکاوی
▬نکته ۱۱. دادهکاوی (به انگلیسی: Data Mining) به مفهوم استخراج اطلاعات نهان یا الگوها و روابط مشخص در حجم زیادی از دادهها در یک یا چند بانک اطلاعاتی بزرگ است. بسیاری از مردم داده کاوی را مترادف واژههای رایج کشف دانش از دادهها (KDD) میدانند. دادهکاوی پایگاهها و مجموعههای حجیم دادهها را در پی کشف و استخراج دانش، مورد تحلیل و کند و کاوهای ماشینی (و نیمهماشینی) قرار میدهد. این گونه مطالعات و کاوشها را به واقع میتوان همان امتداد و استمرار دانش کهن و همه جا گیر آمار دانست. تفاوت عمده در مقیاس، وسعت و گوناگونی زمینهها و کاربردها، و نیز ابعاد و اندازههای دادههای امروزین است که شیوههای ماشینی مربوط به یادگیری، مدلسازی، و آموزش را طلب مینماید.
▬نکته ۱۲. در سال ۱۹۶۰ آماردانان اصطلاح «Data Fishing» یا «Data Dredging"به معنای «صید داده» را جهت کشف هر گونه ارتباط در حجم بسیار بزرگی از دادهها بدون در نظر گرفتن هیچگونه پیش فرضی به کار بردند. بعد از سی سال و با انباشته شدن دادهها در پایگاه داده اصطلاح داده کاوی در حدود سال ۱۹۹۰ رواج بیشتری یافت. اصطلاحات دیگری نظیر «Data Archaeology"یا «Information Harvesting» یا «Information Discovery» یا"Knowledge Extraction» نیز به کار رفتهاند.
▀█▄ مقدمه
▬نکته ۱۳. بسیاری از شرکتها و مؤسسات دارای حجم انبوهی از اطلاعات هستند. تکنیکهای دادهکاوی به طور تاریخی به گونهای گسترش یافتهاند که به سادگی میتوان آنها را بر ابزارهای نرمافزاری و... امروزی تطبیق داده و از اطلاعات جمعآوری شده بهترین بهره را برد.
▬نکته ۱۴. در صورتی که سیستمهای دادهکاوی بر روی سکوهای Client/Server قوی نصب شده باشد و دسترسی به بانکهای اطلاعاتی بزرگ فراهم باشد، میتوان به سؤالاتی از قبیل: کدامیک از مشتریان ممکن است خریدار کدامیک از محصولات آینده شرکت باشند، چرا، در کدام مقطع زمانی و بسیاری از موارد مشابه پاسخ داد.
▀█▄ ویژگیها
▬نکته ۱۵. یکی از ویژگیهای کلیدی در بسیاری از ابتکارات مربوط به تأمین امنیت ملی، داده کاوی است. داده کاوی که به عنوان ابزاری برای کشف جرائم، ارزیابی میزان ریسک و فروش محصولات به کار میرود، در بر گیرنده ابزارهای تجزیه و تحلیل اطلاعات به منظور کشف الگوهای معتبر و ناشناخته در بین انبوهی از دادههاست. داده کاوی غالباً در زمینه تأمین امنیت ملی به منزله ابزاری برای شناسایی فعالیتهای افراد خرابکار شامل جابه جایی پول و ارتباطات بین آنها و همچنین، شناسایی و ردگیری خود آنها با بررسی سوابق مربوط به مهاجرت و مسافرتهاست.
▬نکته ۱۶. داده کاوی پیشرفت قابل ملاحظهای را در نوع ابزارهای تحلیل موجود نشان میدهد، اما، محدودیتهایی نیز دارد. یکی از این محدودیتها این است که با وجود اینکه به آشکارسازی الگوها و روابط کمک میکند، اما، اطلاعاتی را درباره ارزش یا میزان اهمیت آنها به دست نمیدهد. دومین محدودیت آن این است که با وجود توان شناسایی روابط بین رفتارها یا متغیرها لزوماً قادر به کشف روابط علت و معلولی نیست. موفقیت داده کاوی در گرو بهرهگیری از کارشناسان فنی و تحلیل گران کار آزمودهای است که از توان کافی برای طبقهبندی تحلیلها و تغییر آنها برخوردار هستند.
▬نکته ۱۷. بهرهبرداری از داده کاوی در دو بخش دولتی و بخش خصوصی رو به گسترش است. صنایعی چون بانکداری، بیمه، بهداشت و بازاریابی آن را عموماً برای کاهش هزینهها، ارتقاء کیفی پژوهشها و بالاتر بردن میزان فروش به کار میبرند. کاربرد اصلی داده کاوی در بخش دولتی به عنوان ابزاری برای تشخیص جرائم بوده است، اما، امروزه، دامنه بهرهبرداری از آن گسترش روزافزونی یافته و سنجش و بهینهسازی برنامهها را نیز در بر میگیرد. بررسی برخی از برنامههای کاربردی مربوط به داده کاوی که برای تأمین امنیت ملی به کار میروند، نشاندهنده رشد قابل ملاحظهای در رابطه با کمیت و دامنه دادههایی است که باید تجزیه و تحلیل شوند.
▬نکته ۱۸. تواناییهای فنی در داده کاوی از اهمیت ویژهای برخورداراند، اما، عوامل دیگری نیز مانند نحوه پیادهسازی و نظارت ممکن است نتیجه کار را تحت تأثیر قرار دهند. یکی از این عوامل کیفیت دادههاست که بر میزان دقت و کامل بودن آن دلالت دارد. عامل دوم میزان سازگاری نرمافزار داده کاوی با بانکهای اطلاعاتی است که از سوی شرکتهای متفاوتی عرضه میشوند. عامل سومی که باید به آن اشاره کرد به بیراهه رفتن داده کاوی و بهرهبرداری از دادهها به منظوری است که در ابتدا با این نیت گرد آوری نشدهاند. حفظ حریم خصوصی افراد عامل دیگری است که باید به آن توجه داشت.
▬نکته ۱۹. اصولاً به پرسشهای زیر در زمینه داده کاوی باید پاسخ داده شود:
• سازمانهای دولتی تا چه حدی مجاز به بهرهبرداری از دادهها هستند؟
• آیا از دادهها در چارچوبی غیر متعارف بهرهبرداری میشود؟
• کدام قوانین حفظ حریم خصوصی ممکن است به داده کاوی مربوط شوند؟
▬نکته ۲۰. کاوش در دادهها بخشی بزرگ از سامانههای هوشمند است. سامانههای هوشمند زیر شاخهایست بزرگ و پرکاربرد از زمینه علمی جدید و پهناور یادگیری ماشینی که خود زمینهایست در هوش مصنوعی.
▬نکته ۲۱. فرایند گروه گروه کردن مجموعهای از اشیاء فیزیکی یا مجرد به صورت طبقههایی از اشیاء مشابه هم را خوشهبندی مینامیم.
▬نکته ۲۲. با توجه به اندازههای گوناگون (و در اغلب کاربردها بسیار بزرگ و پیچیده) مجموعههای دادهها مقیاسپذیری الگوریتمهای به کار رفته معیاری مهم در مفاهیم مربوط به کاوش در دادهها است.
▬نکته ۲۳. کاوشهای ماشینی در متون حالتی خاص از زمینهی عمومیتر کاوش در دادهها بوده، و به آن دسته از کاوشها اطلاق میشود که در آنها دادههای مورد مطالعه از جنس متون نوشته شده به زبانهای طبیعی انسانی باشد.
▀█▄ چیستی داده کاوی
▬نکته ۲۴. داده کاوی به بهرهگیری از ابزارهای تجزیه و تحلیل دادهها به منظور کشف الگوها و روابط معتبری که تا کنون ناشناخته بودهاند اطلاق میشود. این ابزارها ممکن است مدلهای آماری، الگوریتمهای ریاضی و روشهای یاد گیرنده (Machine Learning Methods) باشند که کار این خود را به صورت خودکار و بر اساس تجربهای که از طریق شبکههای عصبی (Neural Networks) یا درختهای تصمیمگیری (Decision Trees) به دست میآورند بهبود میبخشد. داده کاوی منحصر به گردآوری و مدیریت دادهها نبوده و تجزیه و تحلیل اطلاعات و پیش بینی را نیز شامل میشود برنامههای کاربردی که با بررسی فایلهای متن یا چند رسانهای به کاوش دادهها میپردازند پارامترهای گوناگونی را در نظر میگیرد که عبارتاند از:
• قواعد انجمنی (Association): الگوهایی که بر اساس آن یک رویداد به دیگری مربوط میشود مثلاً، خرید قلم به خرید کاغذ.
• ترتیب (Sequence): الگویی که به تجزیه و تحلیل توالی رویدادها پرداخته و مشخص میکند کدام رویداد، رویدادهای دیگری را در پی دارد مثلاً، تولد یک نوزاد و خرید پوشک.
• پیش بینی (Prediction): در پیش بینی هدف پیش بینی یک متغیر پیوسته میباشد. مانند پیش بینی نرخ ارز یا هزینههای درمانی.
• ردهبندی یا طبقهبندی (Classification): فرایندی برای پیدا کردن مدلی است که ردههای موجود در دادهها را تعریف مینماید و متمایز میکند، با این هدف که بتوان از این مدل برای پیش بینی رده رکوردهایی که برچسب رده آنها (متغیر هدف) ناشناخته میباشد، استفاده نمود. در حقیقت، در ردهبندی بر خلاف پیش بینی، هدف پیش بینی مقدار یک متغیر گسسته است. روشهای مورد استفاده در پیش بینی و ردهبندی عموماً یکسان هستند.
• خوشهبندی (Clustering): گروهبندی مجموعهای از اعضاء، رکوردها یا اشیاء به نحوی که اعضای موجود در یک خوشه بیشترین شباهت را به یکدیگر و کمترین شباهت را به اعضای خوشههای دیگر داشته باشند.
• مصورسازی (visualization): مصورسازی دادهها یکی از قدرتمندترین و جذابترین روشهای اکتشاف در دادهها میباشد.
▬نکته ۲۵. برنامههای کاربردی که در زمینه تجزیه و تحلیل اطلاعات به کار میروند از امکاناتی چون پرس و جوی ساخت یافته (Structured query) که در بسیاری از بانکهای اطلاعاتی یافت میشود و از ابزارهای تجزیه و تحلیل آماری برخوردارند، اما، برنامههای مربوط به داده کاوی در عین برخورداری از این قابلیتها از نظر نوع با آنها تفاوت دارند. بسیاری از ابزارهای ساده برای تجزیه و تحلیل دادهها روشی بر پایه راستی آزمایی (verifiction) را به کار میبرند که در آن فرضیهای بسط داده شده آنگاه، دادهها برای تأیید یا رد آن بررسی میشوند. به طور مثال ممکن است این نظریه مطرح شود که فردی که یک چکش خریده حتماً یک بسته میخ هم خواهد خرید. کارایی این روش به میزان خلاقیت کاربر برای ارائه فرضیههای متنوع و همچنین، ساختار برنامه به کار رفته بستگی دارد. در مقابل، در داده کاوی روشهایی برای کشف روابط به کار برده میشوند و به کمک الگوریتمهایی روابط چند بعدی بین دادهها تشخیص داده شده و آنهایی که یکتا (unique) یا رایج هستند شناسایی میشوند. به طور مثال در یک فروشگاه سختافزار ممکن است بین خرید ابزار توسط مشتریان با تملک خانه شخصی یا نوع خودرو، سن، شغل، میزان درآمد یا فاصله محل اقامت آنها با فروشگاه رابطهای برقرار شود.
▬نکته ۲۶. در نتیجه، قابلیتهای پیچیدهاش برای موفقیت در تمرین داده کاوی دو مقدمه مهم است یکی فرمول واضحی از مشکل که قابل حل باشد و دیگری دسترسی به داده متناسب. بعضی از ناظران داده کاوی را مرحلهای در روند کشف دانش در پایگاه دادهها میدانند (KDD). مراحل دیگری در روند KDD به صورت تصاعدی شامل، پاکسازی داده، انتخاب داده انتقال داده، داده کاوی، الگوی ارزیابی، و عرضه دانش میباشد. بسیاری از پیشرفتها در تکنولوژی و فرایندهای تجاری بر رشد علاقهمندی به داده کاوی در بخشهای خصوصی و عمومی سهمی داشتهاند. بعضی از این تغییرات شامل:
• رشد شبکههای کامپیوتری که در ارتباط برقرار کردن پایگاهها داده مورد استفاده قرار میگیرند.
• توسعه افزایش تکنیکهایی بر پایه جست و جو مثل شبکههای عصبی و الگوریتمهای پیشرفته.
• گسترش مدل محاسبه کلاینت سروری که به کاربران اجازه دسترسی به منابع دادههای متمرکز شده را از روی دسک تاپ میدهد.
• و افزایش توان به تلفیق داده از منابع غیر متجانس به یک منبع قابل جست و جو میباشد.
▬نکته ۲۷. علاوه بر پیشرفت ابزارهای مدیریت داده، افزایش قابلیت دسترسی به داده و کاهش نرخ نگهداری داده نقش ایفا میکند. در طول چند سال گذشته افزایش سریع جمعآوری و نگه داری حجم اطلاعات وجود داشته است. با پیشنهادهای برخی از ناظران مبنی بر آنکه کمیت دادههای دنیا به طور تخمینی هر ساله دو برابر میگردد. در همین زمان هزینه ذخیرهسازی دادهها به طور قابل توجهی از دلار برای هر مگابایت به پنی برای مگابایت کاهش پیدا کرده است. مطابقا قدرت محاسبهها در هر ۱۸ – ۲۴ ماه به دو برابر ارتقاء پیدا کرده است این در حالی است که هزینه قدرت محاسبه رو به کاهش است. داده کاوی به طور معمول در دو حوزه خصوصی و عمومی افزایش پیدا کرده است. سازمانها داده کاوی را به عنوان ابزاری برای بازدید اطلاعات مشتریان کاهش تقلب و اتلاف و کمک به تحقیقات پزشکی استفاده میکنند. با اینهمه ازدیاد داده کاوی به طبع بعضی از پیادهسازی و پیامد اشتباه را هم دارد. اینها شامل نگرانیهایی در مورد کیفیت دادهای که تحلیل میگردد، توان کار گروهی پایگاههای داده و نرمافزارها بین ارگانها و تخطیهای بالقوه به حریم شخصی میباشد. همچنین، ملاحظاتی در مورد محدودیتهایی در داده کاوی در ارگانها که کارشان تأثیر بر امنیت دارد، نادیده گرفته میشود.
▀█▄ محدودیتهای داده کاوی
▬نکته ۲۸. در حالی که محصولات داده کاوی ابزارهای قدرتمندی میباشند، اما، در نوع کاربردی کافی نیستند. برای کسب موفقیت، داده کاوی نیازمند تحلیل گران حرفهای و متخصصان ماهری میباشد که بتوانند ترکیب خروجی به وجود آمده را تحلیل و تفسیر نمایند. در نتیجه، محدودیتهای داده کاوی مربوط به داده اولیه یا افراد است تا اینکه مربوط به تکنولوژی باشد.
▬نکته ۲۹. اگر چه {داده کاوی} به الگوهای مشخص و روابط آنها کمک میکند، اما، برای کاربر اهمیت و ارزش این الگوها را بیان نمیکند. تصمیماتی از این قبیل بر عهده خود کاربر است. برای نمونه، در ارزیابی صحت داده کاوی، برنامه کاربردی در تشخیص مظنونان تروریست طراحی شده که ممکن است این مدل به کمک اطلاعات موجود در مورد تروریستهای شناخته شده، آزمایش شود. با اینهمه در حالی که ممکن است اطلاعات شخص به طور معین دوباره تصدیق گردد، که این مورد به این منظور نیست که برنامه مظنونی را که رفتارش به طور خاص از مدل اصلی منحرف شده را تشخیص بدهد.
▬نکته ۳۰. تشخیص رابطه بین رفتارها یا متغیرها یکی دیگر از محدودیتهای داده کاوی میباشد که لزوماً روابط اتفاقی را تشخیص نمیدهد. برای مثال، برنامههای کاربردی ممکن است الگوهای رفتاری را مشخص کند، مثل تمایل به خرید بلیت هواپیما درست قبل از حرکت که این موضوع به مشخصات درآمد، سطح تحصیلی و استفاده از اینترنت بستگی دارد. در حقیقت، رفتارهای شخصی شامل شغل (نیاز به سفر در زمانی محدود) وضع خانوادگی (نیاز به مراقبت پزشکی برای مریض) یا تفریح (سود بردن از تخفیف دقایق پایانی برای دیدن مکانهای جدید) ممکن است بر روی متغیرهای اضافه تأثیر بگذارد.
▀█▄ ابزارهای داده کاوی
• معروفترین ابزارهای دادهکاوی به ترتیب پرطرفدار بودن
• آر (زبان برنامهنویسی)
• پیتون (زبان برنامهنویسی)
• Clementine که نسخه ۱۳ آن با نام SPSS Modeler نامیده میشود.
• نرمافزار وکا
• MATLAB
▀█▄ برنامههای کاربردی و نرمافزارهای داده کاوی متن-باز رایگان
• Carrot۲: پلتفرمی برای خوشهبندی متن و نتایج جست و جو
• Chemicalize. org: یک کاوشگر ساختمان شیمیایی و موتور جست و جوی وب
• ELKI: یک پروژه تحقیقاتی دانشگاهی با تحلیل خوشهای پیشرفته و روشهای تشخیص دادههای خارج از محدوده که به زبان جاوا نوشته شده است.
• GATE: یک پردازشگر زبان بومی و ابزار مهندسی زبان.
• برنامههای کاربردی و نرمافزارهای داده کاوی تجاری
• Angoss KnowledgeSTUDIO: ابزار داده کاوی تولید شده توسط Angoss.
• BIRT Analytics: ابزار داده کاوی بصری و تحلیل پیش بینی گر تولید شده توسط Actuate Corporation.
• Clarabridge: راه حل تحلیلگر کلاس متن.
• (E-NI(e-mining, e-monitor: ابزار داده کاوی مبتنی بر الگوهای موقتی.
• IBM SPSS Modeler: نرمافزار داده کاوی تولید شده توسط IBM
• Microsoft Analysis Services: نرمافزار داده کاوی تولید شده توسط مایکروسافت
• Oracle Data Mining: نرمافزار داده کاوی تولید شده توسط شرکت اوراکل
▀▄█▌▀▄█▌▀▄█▌ در همین ارتباط: متنکاوی
▬نکته ۳۱. متنکاوی، به دادهکاویای که بر روی متن انجام شود اشاره دارد. همچنین، به عنوان آنالیز متن نیز شناخته میشود که منظور از آن فرایند استخراج اطلاعات با کیفیت از متن است. اطلاعات پر کیفیت، به طور معمول از فهم الگوها و گرایشها از طریق معانی و به وسیله یادگیری الگوهای آماری حاصل میشود. متن کاوی معمولاً، درگیر در فرایند ساختاردهی به ورودیهای متنی (معمولاً تجزیه، همراه با افزودن برخی ویژگیها تفاسیر زبانی و حذف موارد اضافی و درج موارد بعدی در پایگاه داده انجام میگیرد)، استخراج الگوهای درون دادههای ساختار یافته، و در نهایت ارزیابی و تفسیر خروجیها است. «پر کیفیت» در متن کاوی معمولاً، به ترکیبی از مرتبط بودن، نو ظهور بودن و جالب بودن اشاره دارد. وظایف متن کاوی معمول شامل دستهبندی متون، خوشهبندی متون، استخراج معنی و مفهوم، تولید ردهبندی دانهای، تجزیه و تحلیل احساسات، خلاصه کردن اسناد و مدلسازی ارتباط موجودیتها است. (به طور مثال یادگیری ارتباط بین موجودیتها)
▬نکته ۳۲. آنالیز متن درگیر در بازیابی اطلاعات، آنالیز لغوی برای مطالعه توزیع فرکانس لغات، شناخت الگو، برچسب گذاری/حاشیه نویسی، استخراج اطلاعات، تکنیکهای داده کاوی شامل آنالیز اتصال و ارتباط، بصریسازی، و آنالیز پیشگویانه است. هدف نهایی، اساساً تبدیل متن به داده برای آنالیز از طریق کاربرد پردازش زبانهای طبیعی و متدهای تحلیلی است.
▬نکته ۳۳. یک کاربرد معمول، جهت اسکن مجموعهای از اسناد نوشته شده در یک زبان طبیعی و مدل کردن مجموعه اسناد برای اهداف کلاسبندی پیشگویانه یا پر کردن یک پایگاه داده یا ایندکس جست و جو با اطلاعات استخراج شده است.
▀█▄ متن کاوی در مقابل، آنالیز متن
▬نکته ۳۴. اصطلاح آنالیز متن یک مجموعه از تکنیکهای زبانشناسی، آمار و یادگیری ماشینی را توضیح میدهد که محتوای اطلاعات منابع متنی را برای هوشمند سازی کسب و کار، آنالیز اکتشافی داده، تحقیقها یا سرمایهگذاری ساختار داده و مدل میکند. این اصطلاح تقریباً، مترادف متن کاوی است. اصطلاح آنالیز متن بیشتر در کسبوکار مورد استفاده قرار میگیرد در حالی که متن کاوی حوزه کاربرهای قدیمیتر بویژه تحقیقها علوم وابسته به زندگی و هوشمند سازی دولتها استفاده میشود.
▬نکته ۳۵. اصطلاح آنالیز متن همچنان شرح میدهد که کاربرد آنالیز متن برای پاسخ به مشکلهای کسب و کار، چه وابسته یا مستقل از پرس و جو و آنالیزهای میدانی و دادههای عددی باشد. واضح است که ۸۰ درصد از اطلاعات وابسته به کسب و کار در شکلی بدون ساختار و متنی است. این تکنیکها و فرایندها دانشی – حقایق، قواعد کسب و کار و ارتباطات – را کشف و ارائه مینمایند که در غیر این صورت در ساختاری متنی، غیرقابل نفوذ برای فرایندهای خودکار باقی مانده بودند.
▀█▄ فرایند متن کاوی
• بازیابی اطلاعات یا شناسایی یک پیکره متنی، گام مقدماتی است: جمعآوری یا شناختن یک مجموعه از موارد متنی، بر روی وب یا نگه داشته شده روی فایلهای سیستمی، پایگاه داده یا محتوای سیستم پیکره متنی، برای آنالیز.
• اگر چه برخی سیستمهای آنالیز متن منحصراً متدهای آماری پیشرفته را اجرا مینمایند، بسیاری دیگر پردازش زبانهای طبیعی را بسیار گستردهتر اجرا مینمایند، مثل برچسب زنی اجزای کلام، تجزیهکننده نحوی یا دیگر انواع آنالیز زبانی.
• Named entity recognition از تکنیکهای آماری جهت شناختن نامها استفاده میکند: مردم، سازمانها، نام مکانها، اختصارهای خاص و غیره. ابهام زدایی – با استفاده از راهنماهای متنی –ممکن است نیاز شود برای آنکه تعیین گردد کلمه «Ford» میتواند به یک رئیس جمهور سابق امریکا، یک کارخانه خودروسازی، یک ستاره سینما، یک رودخانه یا موجودیتی دیگر ارجاع داشته باشد.
• تشخیص الگوی تعیین شده موجودیت: ویژگیهایی مانند شماره تلفن، آدرس ایمیل، مقادیر (همراه با واحد) میتوانند از طریق regular expression یا دیگر الگوهای تطبیق داده شود.
• Coreference: شناسایی گروه اسمی و دیگر اصطلاحهایی که به یک شیء یکسان ارجاع دارند.
• استخراج ارتباط، حقیقت و رخداد: تشخیص همبستگی بین موجودیتها و دیگر اطلاعات درون متن.
• آنالیز نیت، درگیر در فهم ذهنی (نه حقیقی) اجزاء و استخراج فرمهای مختلف نگرشی اطلاعات مانند احساس، عقیده، حالت و هیجان است. تکنیکهای آنالیز متن در آنالیز کردن نیت و مقصود موجودیتها، مفاهیم یا سطح موضوع و در تشخیص عقیده و نظر اجزاء کمککننده هستند.
مآخذ:...
هو العلیم