Một số kiến thức quan trọng cho Kĩ sư Khoa học dữ liệu


Các kiến thức cơ bản về Python cho Machine Learning

Hầu hết các bạn mới bước chân vào ngành khoa học dữ liệu đều dành thời gian để tìm hiểu các vấn đề chuyên môn, dữ liệu và các kĩ thuật như feature engineering mà không luyện tập khả năng code python quá nhiều. Hôm nay mình xin chia sẻ những topic quan trọng trong python. Hi vọng sau khi đọc xong bài viết, các bạn sẽ có đủ khả năng (có thể) làm chủ được các yêu cầu cơ bản về xử lí dữ liệu.

1. List : Kiểu danh sách

List được xem là cấu trúc dữ liệu linh hoạt nhất của Python, với khả năng lưu trữ nhiều kiểu dữ liệu khác nhau(???), các giá trị ngăn cách nhau bởi dấu phẩy và nằm giữa hai dấu ngoặc nhọn (dữ liệu được viết dưới dạng danh sách hoặc liệt kê, các dữ liệu nằm trong ngoặc vuông và ngăn cách bởi dấu phẩy)

2.Set : Kiểu tập hợp

Một Set là một tập hợp không sắp xếp và không trùng lặp phần tử, sử dụng hai phép cơ bản là phép kiểm thử phần tử và phép loại bỏ trùng lặp

3. Dictionary : Kiểu từ điển

Đôi khi trong một số ngôn ngữ khác, (tìm thấy trong ngôn ngữ khác với tên gọi “bộ nhớ kết hợp” hoặc “mảng kết hợp) Từ điển được coi là “bộ nhớ kết hợp” hoặc “mảng kết hợp”. Không giống như Chuỗi được truy cập bằng chỉ số, Từ điển truy cập theo key – là một kiểu dữ liệu bất biến( chuỗi và số luôn có thể làm key)

4. Numpy array : Kiểu mảng của thư viện Numpy 

Tạo một mảng sử dụng thư viện Numpy

5. Pandas data frame

Khởi tạo DataFrame từ một dictionary 

Để ý rằng kiểu dữ liệu các phần tử của df là int64

Để ép kiểu sang kiểu dữ liệu khác

Khởi tạo một DataFrame từ numpy ndarray: 

(Numpy là một thư viện hay dùng)

6. Panda series 

Đoạn code trên đưa ra kết quả: 

7. Mean, max, median : Trung bình, giá trị lớn nhất và trung vị

Pandas DataFrame

8.Function : Hàm

Hàm là chủ đề chính của mọi ngôn ngữ lập trình và đáng để luyện tập. Ta tạo một hàm đưa ra dãy các số fibonaci liên tiếp

9. Lambda 

Nếu hàm có kích thước nhỏ và thực hiện ít công việc thì có thể tạo một hàm vô danh bằng cách sử dụng từ khóa lambda

Hàm trả về tổng của 2 tham số : lambda a, b: a+b

10. Apply

Hàm apply() tạo một hàm áp dụng lên bất cứ chiều(trục) nào của dataframe

11. Map 

Một hàm thực hiện lặp qua tất cả phần tử của một series (chuỗi)

df[‘column1’].map(lambda x: 10+x), Sẽ cộng 10 vào mỗi phần tử của column1.

df[‘column2’].map(lambda x: ‘AV’+x), sẽ nối ‘AV’ vào đầu mỗi phần tử của column2 (với định dạng cột là string)

12. Plot

        Output

Những chủ đề trên sẽ giúp các bạn hiểu được các phần sau : 

1.Column drop
2.Column operation
3.Data frame operation
4.Cleaning missing values
5.Impute missing values
6.Numpy array in deep learning and also in ML
7.Mapping

Tham khảo : 

  1. https://docs.python.org/3/tutorial/index.html
  2. https://jakevdp.github.io/PythonDataScienceHandbook/02.04-computation-on-arrays-aggregates.html
  3. https://pandas.pydata.org/pandas-docs
This entry was posted in AI and tagged . Bookmark the permalink.