دادهکاوی، پایگاه ها و مجموعه حجیم داده ها را در پی کشف و استخراج، مورد تحلیل قرار میدهد. اینگونه مطالعات و کاوشها را به واقع میتوان همان امتداد و استمرار دانش آمار دانست با این تفاوت که در داده کاوی مقیاس، وسعت ، کاربردها، و نیز ابعاد و اندازههای داده نسبت به علم آمار بسیار وسیع تر است.
داده کاوی در کاوش داده ها پارامترهای گوناگونی را به منظورهای مختلفی مورد سنجش قرار می دهد:
الگوهایی که بر اساس آن یک رویداد به دیگری مربوط می شود را کشف می کند مثلاً تاثیر خرید شارژ به خرید بسته اینترنتی از این الگو می توان در تبلیغات و ارائه پیشنهاد های ویژه و… برای خرید استفاده کرد.
خوشه بندی روشی برای دسته بندی و گروه بندی اشیا و کالاهای مرتبط به هم بر اساس داشتن مقادیر مشابهی برای برخی ویژگی ها می باشد. برای نمونه اگر داده ها از جنس عدد باشند یک تابع شباهت، میتواند بر اساس فاصله باشد.
این مدل به گونهای عمیقتر، به دستهبندی رویدادها در آینده میپردازد و میکوشد نتایج ناشناخته را پیشاپیش برآورد کند. برای مثال در پیش بینی فروش نمایندگی ها، الگوی موجود در داده ها می تواند برای پیش بینی مورد استفاده قرار گیرد.
طبقه بندی فرآیند یادگیری یک مدل است که طبقه داده ها را مشخص می نماید. در این روش ابتدا با استفاده از داده های گذشته که طبقه آن ها مشخص است یک مدل طراحی می کنیم (Train) و سپس طبقه داده های آینده را با استفاده از این مدل تعیین می کنیم.