NumPy سرنامی برای Numerical Python است. قدرتمندترین ویژگی این کتابخانه، آرایههای n-بُعدی هستند. این کتابخانه همچنین شامل توابع پایهای جبر خطی، تبدیل فوریه، تولید پیشرفته اعداد تصادفی و ابزارهایی جهت یکپارچهسازی با دیگر زبانهای سطح پایین مانند C++ ، C و فورترن (Fortran) است.
SciPy سرنامی برای Scientific Python است. SciPy براساس NumPy ساخته شده و یکی از پرکاربردترین کتابخانهها برای انواع گستردهای از ماژولهای سطح بالای علمی و مهندسی مانند تبدیل فوریه گسسته (discrete Fourier transform)، جبر خطی، بهینهسازی و «ماتریسهای خلوت یا اسپارس» (Sparse Matrix) محسوب میشود.
Matplotlib برای ترسیم انواع گستردهای از نمودارها، از هیستوگرام و نمودارهای خطی گرفته تا نمودارهای حرارتی قابل استفاده است. میتوان از ویژگی Pylab در ipython notebook (به صورت ipython notebook –pylab = inline) به منظور بهرهگیری از ویژگی رسم نمودار به صورت خطی استفاده کرد. اگر ویژگی inline توسط کاربر نادیده گرفته شود، pylab محیط ipython را به محیطی بسیار شبیه به «متلب» (Matlab) مبدل میکند.
Pandas برای عملیات روی دادههای ساختار یافته و دستکاری آنها مورد استفاده قرار میگیرد. این کتابخانه به طور گستردهای برای «data munging» (این عبارت یک تعریف استاندارد برای انجام تغییرات غیر قابل بازگشت در دادهها است. به نظر میرسد عبارت mung سرنام برگرفته شده از Mash Until No Good باشد. در واقع، عبارت data munging اغلب به فرآیند دریافت دادههای خام و تبدیل و نگاشت آنها به دیگر فرمتها به منظور آمادهسازی مجموعه داده جهت انجام تحلیلهای تخصصی، اشاره دارد و از آمادهسازی دادهها به عنوان مقدمهای جهت تحلیلها استفاده میشود. Pandas در سالهای اخیر به پایتون اضافه و منجر به افزایش استفاده از آن در جامعه دانشمندان داده شده است.
Scikit Learn کتابخانهای برای یادگیری ماشین است. این کتابخانه بر اساس SciPy، NumPy و matplotlib ساخته شده و شامل ابزارهای کارآمدی برای یادگیری ماشین و مدلسازی آماری شامل «دستهبندی» (classification)، «رگرسیون» (regression)، «خوشهبندی» (clustering) و «کاهش ابعاد» (dimensionality reduction) است.
Statsmodels برای مدلسازی آماری مورد استفاده قرار میگیرد. این کتابخانه یک ماژول از پایتون است که به کاربران امکان اکتشاف در دادهها، تخمین مدلهای آماری و انجام آزمونهای آماری را میدهد. Statsmodels یک لیست گسترده از «آمار توصیفی» (descriptive statistics)، «آزمونهای آماری» (statistical tests)، توابع ترسیم نمودار و نتایج آماری برای انواع گوناگونی از دادهها و برآوردگرها است.
Seaborn یک کتابخانه پایتون برای بصریسازی آماری دادهها است. این کتابخانه برای ساخت گرافیکهای آماری اطلاعاتی و جذاب در پایتون قابل استفاده و برمبنای matplotlib ساخته شده. هدف Seaborn آن است که بصریسازی را به بخش مرکزی اکتشاف و ادراک دادهها مبدل کند.
Bokeh برای ساخت نمودارهای تعاملی، دشبوردها و برنامههای داده در مرورگرهای مدرن مورد استفاده قرار میگیرد. این کتابخانه کاربر را قادر به تولید گرافیکهای ظریف و مختصری به سبک D3.js میسازد. علاوه بر آنچه گفته شد، این کتابخانه توانایی تعامل با کارایی بالا در مجموعه دادههای بسیار بزرگ یا جریانی را دارا است.
Blaze به منظور گسترش تواناییهای Numpy و Pandas برای مجموعه دادههای توزیع شده و جریانی، مورد استفاده قرار میگیرد. این کتابخانه قابل استفاده به منظور دسترسی داشتن به دادهها از طریق گروه کثیری از منایع شامل Bcolz ،MongoDB ،SQLAlchemy ،Apache Spark ،PyTables و دیگر موارد است. Blaze در کنار کتابخانه Bokeh میتواند به عنوان یک ابزار بسیار قدرتمند جهت ساخت آثاری بصری (گرافیکها و نمودارها) و دشبوردهای موثر برای مجموعههای عظیم داده مورد استفاده قرار بگیرد.
Scrapy کتابخانهای برای «خزیدن در وب» (web crawling) است. این کتابخانه برای کشف الگوهای خاص در دادهها بسیار مفید به حساب میآید. Scrapy توانایی آغاز به کار کردن در URL خانگی وبسایت و کاوش کردن در صفحه وب برای گردآوری اطلاعات را دارد.
SymPy برای «محاسبات نمادین» (Symbolic Computation) مورد استفاده قرار میگیرد و دارای طیف وسیعی از تواناییها از ریاضیات نمادین پایه گرفته تا حساب، جبر، ریاضیات گسسته و فیزیک کوانتوم است. دیگر ویژگی کارآمد این کتابخانه، توانایی قالببندی نتایج محاسبات به صورت کد «لاتک» (LaTeX) است.
Requests برای دسترسی به وب است. این کتابخانه به صورت مشابه با کتابخانه پایتون استاندارد urllib2 مورد استفاده قرار میگیرد، اما کد زدن با استفاد از Requests سادهتر است. امکان دارد کاربران با تجربه تفاوتهای ظریفی بین این دو کتابخانه پیدا کنند، اما Requests برای افراد مبتدی راحتتر است.