Python Machine Learning
ไลบรารีต่างๆ ในภาษา Python ที่ใช้ในการวิเคราะห์ข้อมูลเป็นส่วนๆ ไลบรารีเหล่านี้สร้างชุดเครื่องมือที่ครอบคลุมสำหรับทุกคนที่ทำงานด้านวิทยาศาสตร์ข้อมูล โดยมียูทิลิตี้ต่างๆ ตั้งแต่การจัดการข้อมูลและการแสดงภาพ ไปจนถึงการเรียนรู้ของเครื่องที่ซับซ้อนและการวิเคราะห์ทางสถิติ
2024-03-27 16:07:32 - @ratanon
1. Machine Learning:
- Scikit-learn: ไลบรารีสำหรับการเรียนรู้ของเครื่องที่มีเครื่องมือต่างๆ สำหรับการทำเหมืองข้อมูลและการวิเคราะห์
- TensorFlow: แพลตฟอร์มโอเพ่นซอร์สแบบครบวงจรสำหรับการเรียนรู้ของเครื่อง
- Keras: API โครงข่ายประสาทเทียมระดับสูง ที่สามารถทำงานบน TensorFlow ได้
- XGBoost: ไลบรารีการเร่งการไล่ระดับสีแบบกระจายที่ได้รับการปรับปรุงอย่างเหมาะสม
- PyTorch: ไลบรารีแมชชีนเลิร์นนิงแบบโอเพ่นซอร์สที่ใช้ไลบรารี Torch
- JAX: ไลบรารีสำหรับการวิจัยแมชชีนเลิร์นนิงประสิทธิภาพสูง
2. Data Manipulation:
- Pandas: เครื่องมือจัดการข้อมูลระดับสูงที่สร้างขึ้นบนไลบรารี Numpy
- NumPy: ไลบรารีสำหรับอาร์เรย์และเมทริกซ์หลายมิติขนาดใหญ่ พร้อมด้วยฟังก์ชันทางคณิตศาสตร์ระดับสูงจำนวนมาก
- Polars: ไลบรารี DataFrame ที่รวดเร็วใช้งานใน Rust พร้อมการประเมินแบบ Lazy
- Dask: ไลบรารีการประมวลผลแบบขนานที่ปรับขนาดระบบนิเวศ Python ที่มีอยู่
- Modin: เร่งความเร็วการทำงานของ Pandas โดยใช้การประมวลผลแบบขนานและแบบกระจาย
- Datatable: ไลบรารีสำหรับจัดการชุดข้อมูลขนาดใหญ่
- Vaex: ไลบรารี Python สำหรับ DataFrames นอกคอร์ที่ขี้เกียจ
- CuPy: ไลบรารีที่ใช้อาร์เรย์ Numpy บน NVIDIA CUDA
3. Data Visualization:
- Matplotlib: ไลบรารีการวางแผนสำหรับการสร้างการแสดงภาพแบบคงที่ ภาพเคลื่อนไหว และแบบโต้ตอบ
- Seaborn: ไลบรารีการแสดงภาพข้อมูลทางสถิติที่ใช้ Matplotlib
- Plotly: ไลบรารีกราฟเชิงโต้ตอบ Low-Code PythonData Apps
- Bokeh: สร้างพล็อตและแดชบอร์ดแบบโต้ตอบ
- Altair: ไลบรารีการแสดงภาพทางสถิติที่ประกาศ
- Pygal: ไลบรารีการสร้างแผนภูมิ SVG แบบไดนามิก
- Folium: สร้างขึ้นจากจุดแข็งในการถกเถียงข้อมูลของระบบนิเวศ Python และจุดแข็งในการทำแผนที่ของไลบรารี Leaflet.js
4. Statistical Analysis:
- SciPy: ไลบรารีที่ใช้สำหรับการคำนวณทางวิทยาศาสตร์และทางเทคนิค
- Statsmodels: มีคลาสและฟังก์ชันสำหรับการประมาณค่าแบบจำลองทางสถิติต่างๆ มากมาย
- Pingouin: ไลบรารีทางสถิติสำหรับการวิเคราะห์ทางสถิติแบบง่ายและขั้นสูง
- PyStan: อินเทอร์เฟซ Python กับ Stan ซึ่งเป็นแพ็คเกจสำหรับสถิติแบบเบย์
- Lifelines: ใช้สำหรับการวิเคราะห์การอยู่รอด
- PyMC3: กรอบการเขียนโปรแกรมความน่าจะเป็นสำหรับการสร้างแบบจำลองทางสถิติแบบเบย์
5. Natural Language Processing:
- NLTK: แพลตฟอร์มชั้นนำสำหรับการสร้างโปรแกรม Python เพื่อทำงานกับข้อมูลภาษามนุษย์
- TextBlob: ไลบรารีสำหรับการประมวลผลข้อมูลที่เป็นข้อความ
- Gensim: ไลบรารีสำหรับการสร้างแบบจำลองหัวข้อแบบไม่มีผู้ดูแลและการประมวลผลภาษาธรรมชาติ
- spaCy: การประมวลผลภาษาธรรมชาติระดับอุตสาหกรรมใน Python
- Polyglot: ไปป์ไลน์ภาษาธรรมชาติที่รองรับแอปพลิเคชันหลายภาษาจำนวนมาก
- BERT: โมเดลที่ได้รับการฝึกอบรมล่วงหน้าเพื่อการทำความเข้าใจภาษาธรรมชาติ
6. Web Scraping:
- Beautiful Soup: ไลบรารีสำหรับดึงข้อมูลออกจากไฟล์ HTML และ XML
- Scrapy: โอเพ่นซอร์สและเฟรมเวิร์กการทำงานร่วมกันสำหรับการดึงข้อมูลที่คุณต้องการจากเว็บไซต์
- Octoparse: เครื่องมือในการขูดข้อมูลเว็บโดยไม่ต้องเขียนโค้ด
- Selenium: เครื่องมือสำหรับทำให้เว็บเบราว์เซอร์ทำงานอัตโนมัติ
- MechanicalSoup: ไลบรารี Python สำหรับการโต้ตอบกับเว็บไซต์โดยอัตโนมัติ
7. Database Operations:
- PySpark: Python API สำหรับ Spark ที่ช่วยให้การพัฒนาแอปพลิเคชันแบบขนานเป็นเรื่องง่าย
- Ray: ระบบสำหรับปรับขนาดแอปพลิเคชัน Python
- Dask: ตามที่กล่าวไว้ข้างต้น ยังช่วยในการคำนวณแบบคู่ขนานอีกด้วย
- Koalas: Pandas API บน Apache Spark
- Kafka-Python: ไคลเอนต์ Kafka สำหรับ Python
8. Time Series Analysis:
- Darts ออกแบบมาเพื่อการจัดการและการพยากรณ์อนุกรมเวลาได้ง่าย
- TSfresh แยกคุณลักษณะที่เกี่ยวข้องจากอนุกรมเวลา
- Kats ชุดเครื่องมือสำหรับวิเคราะห์ข้อมูลอนุกรมเวลา
- PyFlux ไลบรารีอนุกรมเวลาสำหรับ Python
- Sktime เฟรมเวิร์กแบบรวมสำหรับการเรียนรู้ของเครื่องด้วยอนุกรมเวลา
- Prophet ห้องสมุดสำหรับพยากรณ์ข้อมูลอนุกรมเวลาที่พัฒนาโดย Facebook
9. AutoML (Automated Machine Learning):
- AutoTS: การสร้างแบบจำลองอนุกรมเวลาอัตโนมัติ
รู้หมดนี่อยากเสกอะไรก็ได้ หวังว่าคงมีประโยชน์นะครับ @m1n