You are currently viewing Hành trình để trở thành một Data Scientist

Hành trình để trở thành một Data Scientist

Chúng ta đã tìm hiểu vì sao rất khó để trở thành một Data scientist (nhà khoa học dữ liệu) và tất cả những yếu tố liên quan đến data science (DS) cần có của một nhà khoa học dữ liệu. Bây giờ chúng ta sẽ tìm hiểu đến lộ trình để trở thành một nhà khoa học dữ liệu. Khi biết được con đường mình sẽ đi thì vẫn dễ dàng để bắt đầu và lên kế hoạch thực hiện hơn là bắt đầu mà không có phương hướng. Và đây là hành trình nhé:

Bước 1: Bắt đầu

Trước khi chuyển sang học và thích nghi với các kỹ năng mới, điều quan trọng là bạn phải hiểu khoa học dữ liệu là gì và liệu bạn có phù hợp với khoa học dữ liệu hay không. Những kỹ năng và yêu cầu trong DS đã được đề cập ở các bài viết trước.

Bước 2: Tìm hiểu kiến thức cơ bản về toán học và thống kê

Điểm tiếp theo trong lộ trình khoa học dữ liệu là tìm hiểu các nguyên tắc cơ bản của toán học và thống kê. Các chủ đề được liệt kê dưới đây nên là lĩnh vực bạn tập trung:

  1. Thống kê mô tả
  2. Xác suất
  3. Thống kê tham chiếu
  4. Đại số tuyến tính
  5. Tư duy có cấu trúc

Bước 3: Làm quen với các công cụ chính cho khoa học dữ liệu

  1. Python: Là một trong những ngôn ngữ lập trình phổ biến và được sử dụng rộng rãi. Học ngôn ngữ này có thể giúp bạn tạo các ứng dụng web, xử lý dữ liệu lớn, tạo mẫu nhanh và hơn thế nữa.
  2. R: Một ngôn ngữ phổ biến khác để lập trình trong DS chính là R. Nó cung cấp một môi trường phần mềm miễn phí cho tính toán thống kê.

 Đôi khi bạn sẽ cảm thấy bối rối với cùng một đối số truyền thống giữa R so với Python; nếu bạn đang tự hỏi bạn nên chọn cái nào trong số chúng, thì tôi khuyên bạn nên bắt đầu với R và chuyển dần sang Python. Sau đó, sử dụng chúng theo yêu cầu của công ty hoặc tổ chức bạn đang làm việc.

  1. Khám phá & Trực quan hóa dữ liệu: Nếu bạn đang theo đuổi khía cạnh phân tích, tức là phân tích dữ liệu thì bạn phải học cách khám phá & trực quan hóa dữ liệu. Khám phá dữ liệu là bước đầu tiên của phân tích dữ liệu, trong khi trực quan hóa dữ liệu là biểu diễn đồ họa của chính dữ liệu. Cả Python & R đều có thể được sử dụng để khám phá và  trực quan dữ liệu.

Bước 4: Tìm hiểu các công cụ chính cho ML

Có một số công cụ học máy cơ bản và nâng cao mà bạn cần tìm hiểu và tự điều chỉnh. Một số điều quan trọng nhất được liệt kê dưới đây. Những kỹ năng này có thể có giá trị to lớn trong lộ trình khoa học dữ liệu tổng thể của bạn:

  1. Phân tích dữ liệu khám phá & làm sạch dữ liệu: Trước khi chuyển sang các công cụ ML, bạn cần phải hiểu rõ về EDA & dọn dẹp dữ liệu là gì. EDA hay phân tích dữ liệu khám phá, là việc nghiên cứu các tập dữ liệu để tóm tắt chúng thành một định dạng trực quan. Làm sạch dữ liệu là quá trình phát hiện và sửa lỗi, và đảm bảo rằng dữ liệu không có lỗi.

2. Lựa chọn &  xử lý các biến đặc trưng: Đây thường phải là bước tiếp theo của bạn trong việc học ML. Điều này sử dụng kiến thức chuyên ngành để có được các biến đặc trưng từ dữ liệu, do đó giúp cải thiện hiệu suất của các thuật toán ML. Vì vậy, nếu bạn muốn đạt được kiến thức chuyên môn trong lĩnh vực ML, bạn cần tìm hiểu về kỹ thuật xử lý và lựa chọn các đặc tính đặc trưng cho bộ dữ liệu theo chuyên ngành của bạn.

3. Lựa chọn mô hình: Trong số tất cả các mô hình thống kê, bạn sẽ cần chọn một mô hình phù hợp nhất cho “bài toán” của mình. Đây là một số mô hình mà bạn có thể tìm hiểu và sử dụng:

A. Linear regression (Hồi quy tuyến tính): Nó là một thuật toán của máy học có giám sát (supervised learning), trong đó độ dốc là không đổi & đầu ra dự đoán là liên tục.

B. Logistic regression (Hồi quy logistic): Là một thuật toán phân loại học có giám sát được sử dụng để dự đoán xác suất của một biến mục tiêu. Nó thường được sử dụng cho mục đích phân loại.

C. Decision Trees (Cây quyết định): Mô hình này thường sử dụng cây quyết định để hình thành các giả định và kết luận về các giá trị mục tiêu. Đây là một trong những cách tiếp cận phổ biến nhất của mô hình dự đoán được sử dụng trong thống kê và học máy.

D. K-Nearest Neighbor (KNN): Đây là một trong những thuật toán học máy có giám sát đơn giản nhất có thể giúp giải quyết các vấn đề hồi quy & phân loại. Nó khá dễ hiểu và dễ học. Nhưng có một vài nhược điểm.

E. K-Means: Đây là một thuật toán học tập không giám sát unsupervised learning), đối tượng dữ liệu không được gắn nhãn thành các cụm đa dạng. Trong đó K đại diện cho số nhóm dữ liệu được gom lại dựa trên đặc tính của nhóm.

F. Naïve Bayes: Đây là một trong những thuật toán cho việc học có giám sát giúp giải các bài toán phân loại. Nó được coi là một trong những thuật toán thành công nhất vì bản chất của nó là tạo ra các mô hình ML nhanh có thể giúp đưa ra dự đoán.

G. Dimensionality Reduction (Giảm chiều dữ liệu): Quá trình biến đổi không gian chiều cao thành không gian chiều thấp để duy trì các thuộc tính có ý nghĩa của dữ liệu.

H. Random Forrests (Rừng Ngẫu nhiên): Đây là một phương pháp học tập tổng hợp để phân loại, hồi quy và dùng được cho các mục đích khác. Nó bao gồm việc vẽ nhiều cây quyết định cùng một lúc và đầu ra của kết quả phân loại là mode của tất cả các cây.

I. Gradient Boosting Machine (Máy tăng cường độ dốc): Một trong những kỹ thuật hàng đầu để xây dựng mô hình dự đoán. Nó giúp giải quyết các vấn đề hồi quy & phân loại và tạo ra một mô hình dự đoán dưới dạng một tập hợp các mô hình dự đoán yếu.

J. XGBOOST: Công cụ này đặc biệt giúp cải thiện hiệu suất và tốc độ của các mô hình tăng cường độ dốc (được xây dựng dựa trên mô hình cơ sở là cây quyết định).

K. Support Vector Machine (SVM): Đây là các mô hình học có giám sát được kết hợp với học liên kết, chúng hỗ trợ đánh giá dữ liệu để phân tích hồi quy & phân loại.

4. Đánh giá mô hình: Tiến tới bước cuối cùng của học máy, đánh giá mô hình, nó khái quát độ chính xác của mô hình dựa trên dữ liệu trong tương lai. Nó thường sử dụng hai phương pháp, giữ lại (holdout), chính là bộ dữ liệu dùng để xây dựng mô hình (train set) và bộ dữ liệu dùng để kiểm tra mô hình mới xây dựng được (test set) và đánh giá chéo (cross-validation) – thường dùng để đánh giá các bài toán phân loại.

Bước 5: Xây dựng hồ sơ cá nhân

Xây dựng hồ sơ trên GitHub là một nhiệm vụ quan trọng mà mọi nhà khoa học dữ liệu phải hoàn thành. Đó là một trong những cách hiệu quả nhất để một nhà khoa học dữ liệu thu thập tất cả “code” của các dự án mà họ đã thực hiện. Nó giới thiệu code và các dự án của bạn đã thực hiện và cho biết bạn đã thực hành khoa học dữ liệu trong bao lâu.

Tiếp theo, bạn cần phải tham gia một số diễn đàn thảo luận. Những điều này sẽ giúp bạn tìm ra câu trả lời cho những câu hỏi mà bạn đang vướng mắc. Dưới đây là một số diễn đàn thảo luận mà bạn có thể tham gia:

1. Quora

2. Stackoverflow

Để có thêm kiến thức trong lĩnh vực khoa học dữ liệu, hãy bắt đầu theo dõi các kênh YouTube khác nhau.

Bước 6: Chuẩn bị cho Phỏng vấn Khoa học Dữ liệu

Bạn cần biết tất cả các khái niệm khoa học dữ liệu quan trọng có thể giúp bạn vượt qua các cuộc phỏng vấn. Bạn có thể tham khảo các câu hỏi và câu trả lời trên các diễn đàn hoặc các nhóm cộng đồng DS có thể tự chuẩn bị cho các cuộc phỏng vấn. 

Bước 7: Xem xét công việc của nhà khoa học dữ liệu điển hình

Khi đến cuối lộ trình khoa học dữ liệu, bạn có thể muốn có ý tưởng về công việc của một nhà khoa học dữ liệu điển hình. Việc xem một số mô tả công việc (job descriptions) sẽ giúp bạn rất nhiều trong việc chuẩn bị hồ sơ, giới thiệu các kỹ năng của bạn và trở thành ứng viên tốt nhất. Nếu bạn nghĩ rằng bạn phù hợp với nó, bạn phải bắt đầu ngay lập tức! 

Trước khi kết thúc bài đăng này, hãy để tôi nhắc lại lần nữa, thay vì cố gắng học không ngừng tất cả các kỹ năng cần thiết để trở thành nhà khoa học dữ liệu, hãy chọn ra một vấn đề cần giải quyết hoặc truyền cảm hứng cho bạn hoặc những điều liên quan đến chuyên môn của mình. Cố gắng giải quyết vấn đề đó bằng cách sử dụng các kỹ năng khoa học dữ liệu, chỉ chọn các kỹ năng cần thiết để giải quyết vấn đề đó. Khi bạn giải quyết được nhiều vấn đề hơn, bạn sẽ học được nhiều kỹ năng hơn trên đường đi.

Tham khảo: Bài viết có tham khảo từ Ali Haider Shalwani (datasicencedojo.com)

Trả lời