Posts
Building LLMs for Production
Cuốn sách này mang đến một cách tiếp cận độc đáo, thực hành và thực tế, đồng thời cân bằng giữa lý thuyết và khái niệm. Sách giới thiệu các xu hướng mới nhất trong xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP), chủ yếu là các mô hình ngôn ngữ lớn (Large Language Models - LLMs), cung cấp cái nhìn sâu sắc về cách các mạng này hoạt động. Ngoài ra, sách còn bao gồm các dự án minh họa ứng dụng của các mô hình này trong việc tạo ra các pipeline sinh dữ liệu tăng cường truy xuất (Retrieval-Augmented Generation - RAG). Những khái niệm này đại diện cho những phát triển tiên tiến trong lĩnh vực, cho phép chúng ta xử lý văn bản viết và tương tác với nó ở cấp độ ngữ cảnh.
makeMoE: Implement a Sparse Mixture of Experts Language Model from Scratch
Bài blog này sẽ hướng dẫn cách xây dựng mô hình ngôn ngữ sparse mixture of experts từ đầu. Nó được lấy cảm hứng và phần lớn dựa trên dự án ‘makemore’ của Andrej Karpathy và sử dụng một số thành phần có thể tái sử dụng từ cách triển khai đó. Giống như makemore, makeMoE cũng là một mô hình ngôn ngữ tự hồi quy ở cấp độ ký tự, nhưng sử dụng kiến trúc sparse mixture of experts đã nói ở trên. Phần còn lại của blog tập trung vào các yếu tố chính của kiến trúc này và cách chúng được triển khai. Mục tiêu của tôi là bạn có được hiểu biết trực quan về cách mọi thứ hoạt động sau khi đọc blog này và xem qua code trong repo.
LLMOps Concepts
Working with Llama 3
Project: Analyzing Car Reviews with LLMs
Introduction to LLMs in Python
Project: Service Desk Ticket Classification with Deep Learning
CleverSupport is a company at the forefront of AI innovation, specializing in the development of AI-driven solutions to enhance customer support services. Their latest endeavor is to engineer a text classification system that can automatically categorize customer complaints.
Deep Learning for Text with PyTorch
Discover the exciting world of Deep Learning for Text with PyTorch and unlock new possibilities in natural language processing and text generation.
Intermediate Deep Learning with PyTorch
Deep learning là một lĩnh vực đang phát triển nhanh chóng của trí tuệ nhân tạo (AI) đã cách mạng hóa lĩnh vực machine learning, cho phép đạt được những đột phá trong các lĩnh vực như computer vision, natural language processing và speech recognition. Trong khóa học này, bạn sẽ phát triển các deep learning models mạnh mẽ với PyTorch cho một loạt các ứng dụng, bao gồm image models và sequence models. Bạn sẽ làm quen với các kiến trúc mạng cốt lõi, chẳng hạn như convolutional neural networks (CNNs) và recurrent neural networks (RNNs), bao gồm Long Short-Term Memory (LSTM) networks và Gated Recurrent Units (GRUs).
Introduction to Deep Learning with PyTorch
Learn how to build your first neural network, adjust hyperparameters, and tackle classification and regression problems in PyTorch.
Winning a Kaggle Competition in Python
Learn how to approach and win competitions on Kaggle.
Image Processing in Python
Images are everywhere! We live in a time where images contain lots of information, which is sometimes difficult to obtain. This is why image pre-processing has become a highly valuable skill, applicable in many use cases. In this course, you will learn to process, transform, and manipulate images at your will, even when they come in thousands. You will also learn to restore damaged images, perform noise reduction, smart-resize images, count the number of dots on a dice, apply facial detection, and much more, using scikit-image. After completing this course, you will be able to apply your knowledge to different domains such as machine learning and artificial intelligence, machine and robotic vision, space and medical image analysis, retailing, and many more. Take the step and dive into the wonderful world that is computer vision!
Feature Engineering for NLP in Python
In this course, you will learn techniques that will allow you to extract useful information from text and process them into a format suitable for applying ML models. More specifically, you will learn about POS tagging, named entity recognition, readability scores, the n-gram and tf-idf models, and how to implement them using scikit-learn and spaCy. You will also learn to compute how similar two documents are to each other. In the process, you will predict the sentiment of movie reviews and build movie and Ted Talk recommenders. Following the course, you will be able to engineer critical features out of any text and solve some of the most challenging problems in data science!
Natural Language Processing with spaCy
Learn spaCy, the fast-growing industry-standard NLP library, for tasks like tokenization, parsing, and named entity recognition. Master core operations, use classes like Doc and Token, and train models. Extract terms with pattern matching, create custom pipeline components, and handle real-world examples for your NLP projects.
Introduction to Natural Language Processing in Python
In this course, you’ll learn natural language processing (NLP) basics, such as how to identify and separate words, how to extract topics in a text, and how to build your own fake news classifier. You’ll also learn how to use basic libraries such as NLTK, alongside libraries which utilize deep learning to solve common NLP problems. This course will give you the foundation to process and parse text as you move forward in your Python learning.
Model Validation in Python
Machine learning models are easier to implement now more than ever before. Without proper validation, the results of running new data through a model might not be as accurate as expected. Model validation allows analysts to confidently answer the question, how good is your model? We will answer this question for classification models using the complete set of tic-tac-toe endgame scenarios, and for regression models using fivethirtyeight’s ultimate Halloween candy power ranking dataset. In this course, we will cover the basics of model validation, discuss various validation techniques, and begin to develop tools for creating validated and high performing models.
Feature Engineering for Machine Learning in Python
Every day you read about the amazing breakthroughs in how the newest applications of machine learning are changing the world. Often this reporting glosses over the fact that a huge amount of data munging and feature engineering must be done before any of these fancy models can be used. In this course, you will learn how to do just that. You will work with Stack Overflow Developers survey, and historic US presidential inauguration addresses, to understand how best to preprocess and engineer features from categorical, continuous, and unstructured data. This course will give you hands-on experience on how to prepare any data for your own machine learning models.
Machine Learning for Time Series Data in Python
Time series data is ubiquitous. Whether it be stock market fluctuations, sensor data recording climate change, or activity in the brain, any signal that changes over time can be described as a time series. Machine learning has emerged as a powerful method for leveraging complexity in data in order to generate predictions and insights into the problem one is trying to solve. This course is an intersection between these two worlds of machine learning and time series data, and covers feature engineering, spectograms, and other advanced techniques in order to classify heartbeat sounds and predict stock prices.
Preprocessing for Machine Learning in Python
This course covers the basics of how and when to perform data preprocessing. This essential step in any machine learning project is when you get your data ready for modeling. Between importing and cleaning your data and fitting your machine learning model is when preprocessing comes into play. You’ll learn how to standardize your data so that it’s in the right form for your model, create new features to best leverage the information in your dataset, and select the best features to improve your model fit. Finally, you’ll have some practice preprocessing by getting a dataset on UFO sightings ready for modeling.
Dimensionality Reduction in Python
High-dimensional datasets can be overwhelming and leave you not knowing where to start. Typically, you’d visually explore a new dataset first, but when you have too many dimensions the classical approaches will seem insufficient. Fortunately, there are visualization techniques designed specifically for high dimensional data and you’ll be introduced to these in this course. After exploring the data, you’ll often find that many features hold little information because they don’t show any variance or because they are duplicates of other features.
Cluster Analysis in Python
In this course, you will be introduced to unsupervised learning through clustering using the SciPy library in Python. This course covers pre-processing of data and application of hierarchical and k-means clustering. Through the course, you will explore player statistics from a popular football video game, FIFA 18. After completing the course, you will be able to quickly apply various clustering algorithms on data, visualize the clusters formed and analyze results.
Extreme Gradient Boosting with XGBoost
XGBoost (Extreme Gradient Boosting) là một thuật toán gradient boosting (tăng cường gradient) được tối ưu hóa về tốc độ và hiệu suất. Nó được phát triển bởi Tianqi Chen và được sử dụng rộng rãi trong các cuộc thi học máy (như Kaggle) nhờ khả năng đạt độ chính xác cao.
[Project] Predicting Movie Rental Durations
A DVD rental company needs your help! They want to figure out how many days a customer will rent a DVD for based on some features and has approached you for help. They want you to try out some regression models which will help predict the number of days a customer will rent a DVD for. The company wants a model which yeilds a MSE of 3 or less on a test set. The model you make will help the company become more efficient inventory planning.
Machine Learning with Tree-Based Models in Python
Decision trees are supervised learning models used for problems involving classification and regression.
Linear Classifiers in Python
Learn the details of linear classifiers like logistic regression and SVM.
[Project] Clustering Antarctic Penguin Species
You have been asked to support a team of researchers who have been collecting data about penguins in Antartica! The data is available in csv-Format as
penguins.csv
UnSuppervised Learning in Python
Hãy tưởng tượng bạn có một hộp đầy các loại kẹo với nhiều màu sắc và hình dạng khác nhau. Bạn muốn phân loại chúng mà không biết trước loại kẹo nào là gì. Học máy không giám sát giống như việc bạn tự phân loại kẹo dựa trên những đặc điểm quan sát được như màu sắc, hình dạng, kích thước… mà không cần ai cho biết trước đó là kẹo gì.
[Project]Sowing Success: How Machine Learning Helps Farmers Select the Best Crops
Measuring essential soil metrics such as nitrogen, phosphorous, potassium levels, and pH value is an important aspect of assessing soil condition. However, it can be an expensive and time-consuming process, which can cause farmers to prioritize which metrics to measure based on their budget constraints.
Suppervised Learning with scikit-learn
Table of contents
Applications
Building a Transformer from Scratch
From Recurrent Neural Networks to Transformer
Foundations of Attention
Trong học máy (machine learning), “attention” đang trở nên ngày càng phổ biến. Nhưng điều gì khiến nó hấp dẫn đến vậy? Mối quan hệ giữa “attention” trong mạng nơ-ron nhân tạo (artificial neural networks) và cơ chế tương tự trong sinh học là gì? Một hệ thống “attention-based” trong học máy cần những thành phần nào?
[Fluent python] Chapter 8. Type Hints in Functions
Type hints trong Python là các chú thích tùy chọn giúp chỉ định kiểu dữ liệu cho biến, đối số hàm và giá trị trả về. Chúng hỗ trợ các công cụ phát triển như IDE và CI trong việc phát hiện lỗi thông qua phân tích tĩnh, đặc biệt hữu ích cho các kỹ sư phần mềm chuyên nghiệp. Tuy nhiên, với người dùng Python thông thường, lợi ích của type hints có thể không lớn bằng chi phí học tập, đặc biệt khi họ thường làm việc với các dự án nhỏ và kiểu động của Python đã đủ hiệu quả cho nhu cầu của họ.
[Fluent python] Chapter 7. Functions as First-Class Objects
Hàm được coi như những “đối tượng hạng nhất” (first-class objects). Điều này có nghĩa là hàm trong Python rất linh hoạt, giống như các kiểu dữ liệu khác (như số, chuỗi). Bạn có thể:
[Fluent python] Chapter 6. Object reference, Mutability and Recycling
Tưởng tượng mỗi variable (biến) như một cái nhãn dán chứ không phải cái hộp. Nhãn dán này được dùng để dán lên các object (đối tượng).
[Fluent python] Chapter 5. Data class Builders
Python cung cấp một số cách để xây dựng một
class
đơn giản chỉ là tập hợp các trường dữ liệu (fields
), với ít hoặc không có chức năng bổ sung. Mô hình đó được gọi là “data class
“ - vàdata classes
là một trong những package hỗ trợ mô hình này. Chương này đề cập đến ba trình xây dựngclass
khác nhau mà bạn có thể sử dụng làm lối tắt để viếtdata class
:[Fluent python] Chapter 4. Unicode Text versus bytes
Python 3 đã giới thiệu một sự phân biệt rõ ràng giữa chuỗi văn bản của con người (
Unicode text
) và chuỗi các byte thô (raw bytes
). Việc chuyển đổi ngầm định (implicit conversion
) các chuỗi byte thành văn bản Unicode đã là quá khứ. Chương này đề cập đến các chuỗi Unicode, chuỗi nhị phân (binary sequences
) và các mã hóa (encodings
) được sử dụng để chuyển đổi giữa chúng.[Paper] Contrastive Preference Optimization: Pushing the Boundaries of LLM Performance in Machine Translation
Các mô hình ngôn ngữ lớn (LLM) cỡ vừa – với 7 tỷ hoặc 13 tỷ tham số – thể hiện hiệu suất dịch máy (MT) đầy hứa hẹn. Tuy nhiên, chúng không sánh được với hiệu suất của các mô hình dịch mã hóa-giải mã thông thường tiên tiến hoặc các LLM quy mô lớn hơn như GPT-4 (OpenAI, 2023). Trong nghiên cứu này, chúng tôi thu hẹp khoảng cách hiệu suất này.
[Fluent python] Chapter 3. Dictionaries and Sets
Chúng ta sử dụng dictionaries trong tất cả các chương trình Python. Nếu không trực tiếp trong code, thì gián tiếp bởi vì kiểu dict là một phần cơ bản trong cách triển khai của Python. Các thuộc tính của Class và instance, namespaces của module, và các keyword arguments của hàm là một số cấu trúc cốt lõi của Python được biểu diễn bằng dictionaries trong bộ nhớ.
__builtins__.__dict__
lưu trữ tất cả các kiểu, đối tượng và hàm tích hợp sẵn.[Fluent python] Chapter 2. An array of sequences
Trước khi tạo ra Python, Guido là một người đóng góp cho ngôn ngữ ABC—một dự án nghiên cứu kéo dài 10 năm nhằm thiết kế một môi trường lập trình cho người mới bắt đầu. ABC đã giới thiệu nhiều ý tưởng mà bây giờ chúng ta coi là “Pythonic”: các thao tác chung trên các loại chuỗi khác nhau, các kiểu tuple và mapping tích hợp sẵn, cấu trúc bằng cách thụt lề, kiểu gõ mạnh mà không cần khai báo biến, và nhiều hơn nữa. Không phải ngẫu nhiên mà Python lại thân thiện với người dùng đến vậy.
[Fluent python] Chapter 1. The python data model
Khám phá thế giới cấu trúc dữ liệu Python! Note này sẽ hướng dẫn bạn về List, Tuple, Dictionary, Set và các khái niệm quan trọng như khả năng thay đổi, tham chiếu đối tượng. Cùng nhau nâng cao kỹ năng lập trình Python thông qua việc tổ chức và lưu trữ dữ liệu hiệu quả!
subscribe via RSS