مقاله انگلیسی مروری بر داده کاوی از منابع اطلاعاتی متعدد (2018 الزویر)

 

 

عنوان فارسی مقاله مروری بر داده کاوی از منابع اطلاعاتی متعدد
عنوان انگلیسی مقاله Review on mining data from multiple data sources
نمونه مقاله انگلیسی ۱٫ Introduction

The advancement of information communication technology has generated a large amount of data from different sources, which may be stored in different geological locations. Each database may have its own structure to store data. Mining multiple data sources [1–۳] distributed at different geological locations to discover useful patterns are critical important for decision making. In particular, the Internet can be seen as a large, distributed data repository consisting of a variety of data sources and formats, which can provide abundant information and knowledge. Data from different sources may seem irrelevant to each other. Once information generated from different sources is integrated, new and useful knowledge may emerge. Here is an excellent example of how an organization to utilize mining data from different data sources to obtain profound information, which cannot obtain from an individual source. The Australian Taxation Office (ATO) mines data from different data sources such as social media posts, private school records and immigration data to detect tax cheats. Mining data from different data sources become a sophisticated tool to crackdown tax cheats that yielded nearly $10 billion in 2016 [4]. For example, in a normal Australian family, the husband has a business and reported $80,000 of taxable income per year, putting him just inside the second-lowest tax bracket, and his wife reported earning $60,000 per year. But the data collected from different data sources revealed that the family had three children at private schools at an estimated cost of $75,000 per year, while immigration records and social media posts showed that the family had recently taken five business-class flights and a holiday in a Canadian ski resort, Whistler. It means their declared incomes did not match their lifestyle. This prompted ATO to contact them to confirm if they have unpaid taxes. From the above example, we can see that developing an effective data mining technique for mining from multiple data sources to discover useful information is crucially important for decision making. However, how to efficiently mine quality information from multiple data sources is a challenging task for current research [5–۹], especially in the current big data era, because in real world applications, data stored in multiple places often have conflictions [10]. The conflictions include: (i) data name conflictions: (a) the same object has different names in different data sources, or (b) two different objects from different data sources may have the same name; (ii) data format conflictions: the same object in different data sources has different data types, domains, scales, and preci sions; (iii) data value confliction: the same object in different data sources records different values; (iv) data sources confliction: different data sources have different database structures

نمونه ترجمه کامپیوتری 1 مقدمه


پیشرفت فناوری ارتباطات اطلاعات مقدار زیادی از داده ها را از منابع مختلف تولید کرده است که ممکن است در مکان های مختلف زمین شناسی ذخیره شوند. هر پایگاه داده ممکن است ساختار خود را برای ذخیره داده ها داشته باشد. منابع متعدد داده کاوی [1-3] در مکان های مختلف زمین شناسی توزیع شده برای کشف الگوهای مفید برای تصمیم گیری حیاتی هستند. به طور خاص، اینترنت را می توان به عنوان مخزن داده بزرگ و توزیع شده متشکل از انواع داده ها و فرمت های مختلف، که می تواند اطلاعات و دانش فراوان ارائه دهد. داده های منابع مختلف ممکن است به یکدیگر ناسازگار باشند. هنگامی که اطلاعات تولید شده از منابع مختلف یکپارچه شود، دانش جدید و مفید ممکن است ظاهر شود. در اینجا یک نمونه عالی از چگونگی استفاده از داده های استخراج معادن از منابع مختلف داده ها برای دریافت اطلاعات عمیق است که نمی توان از یک منبع خاص بدست آورد. اداره مالیات استرالیا (ATO) داده های مختلفی از منابع اطلاعاتی مانند پست های رسانه های اجتماعی، سوابق مدارس خصوصی و داده های مهاجرت را برای تشخیص تقلب مالیاتی استخراج می کند. داده های معدن از منابع مختلف داده تبدیل به یک ابزار پیچیده برای مقابله با تقلب های مالیاتی می شود که تقریبا 10 میلیارد دلار در سال 2016 به دست آمد [4]. به عنوان مثال، در یک خانواده معمولی استرالیا، شوهر کسب و کار دارد و درآمد سالانه 80،000 دالر را که درآمد مشمول مالیات دارد، گزارش می دهد و او را فقط در رده پایین مالیات قرار می دهد و همسرش گزارش داد که درآمد 60،000 دالر در سال است. اما داده های جمع آوری شده از منابع مختلف داده شده نشان می دهد که خانواده دارای سه فرزند در مدارس خصوصی با هزینه تخمین زده 75،000 دلار در هر سال، در حالی که سوابق مهاجرت و پست های رسانه های اجتماعی نشان می دهد که خانواده اخیرا پنج پروازها تجاری در کلاس تجاری و تعطیلات یک اسکله کانادایی، ویستلر. این بدان معنی است که درآمد اعلام شده آنها با شیوه زندگی آنها منطبق نیست. این باعث شد که ATO با آنها تماس بگیرد تا تأیید کند که آیا مالیات پرداخت نشده دارند. از مثال فوق، می توانیم ببینیم که توسعه تکنیک داده کاوی برای استخراج از منابع مختلف داده برای کشف اطلاعات مفید برای تصمیم گیری بسیار مهم است. با این حال، چگونگی کارآمد بودن اطلاعات کانی معدن از منابع مختلف داده، یک کار چالش برانگیز برای تحقیقات فعلی [5-9] است، به خصوص در دوران بزرگ داده های جاری، زیرا در برنامه های دنیای واقعی، داده های ذخیره شده در مکان های مختلف اغلب دارای اختلاف [10] . درگیری ها عبارتند از: (1) نامتقارن نام داده ها: (الف) همان شیء دارای نام های مختلف در منابع مختلف داده است؛ (ب) دو اشیاء مختلف از منابع مختلف داده ممکن است یک نام مشابه داشته باشند؛ (2) تناقضات فرمت داده ها: یک شی در منابع مختلف داده دارای انواع داده های مختلف، دامنه ها، مقیاس ها و محصولات است؛ (iii) تناقضات ارزش اطلاعات: همان شیء در منابع مختلف داده، مقادیر مختلفی را ثبت می کند؛ (iv) ناسازگاری منابع داده ها: منابع داده های مختلف دارای ساختار پایگاه داده های مختلف هستند

توجه؛ (این ترجمه توسط نرم افزار انجام شده و ویرایش نشده است و احتمال وجود اشتباه در آن وجود دارد. در صورت ثبت سفارش، ترجمه توسط مترجمین مجرب انجام خواهد شد. برای مشاهده نمونه ترجمه های تخصصی و اخیر مترجمین جهت اطمینان از کیفیت ترجمه، اینجا کلیک نمایید.)

سال انتشار 2018
ناشر الزویر
مجله  اسناد تشخیص الگو – Pattern Recognition Letters
کلمات کلیدی  داده کاوی منابع چندگانه، تجزیه و تحلیل الگو، طبقه بندی داده ها، خوشه بندی داده ها، تلفیق داده
کلمات کلیدی انگلیسی
Multiple data source mining, Pattern analysis, Data classification, Data clustering, Data fusion
صفحات مقاله انگلیسی 9
مناسب برای رشته مهندسی صنایع
مناسب برای گرایش داده کاوی
توضحیات این مقاله انگلیسی جدید بوده و تا کنون ترجمه نشده است. جهت ثبت سفارش ترجمه از لینکهای زیر استفاده نمایید.
دانلود مقاله انگلیسی ○ دانلود رایگان مقاله انگلیسی با فرمت pdf (کلیک کنید)
سفارش ترجمه فارسی ○ سفارش انجام ترجمه و تایپ این مقاله (کلیک کنید)
سایر مقالات این رشته ○ مشاهده سایر مقالات رشته مهندسی صنایع (کلیک کنید)

 

 

دیدگاهتان را بنویسید