You are currently viewing Là một “con dân kinh tế – tài chính” thì tự học data science như thế nào?

Là một “con dân kinh tế – tài chính” thì tự học data science như thế nào?

1. Phải có ngoại ngữ, đặc biệt là tiếng Anh

Ngôn ngữ sử dụng trong lập trình, khi học và làm việc đều là tiếng Anh, các thư viện sử dụng v.v đều sử dụng tiếng Anh. Đương nhiên một số tài liệu tiếng Việt và các ngôn ngữ khác đều có, tuy nhiên việc dịch ra tiếng Việt nhiều khi không diễn tả hết, đồng thời những thuật ngữ tiếng việt được dịch đó cũng không được sử dụng trong khi học và làm, chính vì vậy các tài liệu DS nên giữ các thuật ngữ bằng chính ngôn ngữ của nó, và có thể diễn giải ra với ngôn ngữ khác cho dễ hiểu hơn là cố tìm 1 thuật ngữ để thay thế. Thế nên trong các bài viết của mình sẽ giữ nguyên các thuật ngữ tiếng Anh này và diễn giải bằng tiếng Việt để hiểu nó.

2. Phải tìm hiểu tổng quan về nghề, lĩnh vực này, các công việc cụ thể, các kỹ năng, kiến thức cần có trước khi bắt đầu

Thực ra cứ bắt đầu từ bước nào cũng được, nhưng khi tìm hiểu về những gì liên quan đến lĩnh vực hoặc ngành mình muốn làm thì sẽ có cái nhìn tổng quan, và quan trọng hơn là tăng khả năng liên kết các kiến thức, kỹ năng, rút ngắn thời gian tìm hiểu và quan trọng là chắt lọc những thứ thực sự cần thiết nên học và tìm hiểu để tránh lãng phí thời gian mà lại không hiệu quả. Hãy đọc và tìm hiểu càng nhiều càng tốt trước khi bắt đầu và quyết định mình có theo đuổi và làm việc trong lĩnh vực này không:

  • Data science (DS) là gì? Bao gồm những gì? Có rất nhiều thứ có vẻ tương tự như DS thì phân biệt với các lĩnh vực đó như thế nào?
  • Công việc thực tế của một Data Scientist là làm gì?
  • Ứng dụng của DS trong lĩnh vực của mình hoặc lĩnh vực mà mình muốn áp dụng là gì, cái này rất quan trọng vì liên quan đến thành tố thứ 3 của DS chính là kiến thức chuyên môn.
  • Và quan trọng nhất là mình có phù hợp với nó không, và có dành thời gian cho nó được không?
  • Đam mê và yêu thích dữ liệu, và những con số. Vì học và làm DS đòi hỏi sự đầu tư về thời gian, công sức rất lớn, và rất dễ nản chí, nếu không yêu thích và đam mê thật sự sẽ rất dễ bỏ cuộc.

3. Sau khi đã tìm hiểu tất cả mọi thứ thì bắt đầu học, thực ra là 1 bộ kỹ năng phải có đủ mới dùng được, nên học cái nào trước cái nào sau cũng được, nhưng phải học đủ những thứ cốt lõi sau đây:

– Machine learning (ML) và deep learning (DL):

+ Machine learning: linh hồn của DS chính là ML sau này sẽ học thêm DL. ML chính là kỹ thuật để xây dựng các mô hình dự báo, mô hình phân loại từ bộ dữ liệu mà mình có. ML sẽ đa phần sử dụng dữ liệu số và cũng là phần mang lại lợi nhuận chính cho doanh nghiệp.

+ Deep learning: là một phần khác nâng cao hơn ML, sử dụng kết hợp một số kỹ thuật của ML xử lý đa dạng hơn, như các dữ liệu về hình ảnh, âm thanh, ngôn ngữ,… và sử dụng các mạng neural.

Từ ML đòi hỏi chúng ta sẽ học thêm và tìm hiểu lại những kiến thức sau:

+ Toán: ML là các thuật toán liên quan đương nhiên đều xuất phát từ toán học: ma trận, vector, đạo hàm, tích phân,… là cơ sở cho ML, chính vì vậy để hiểu được sâu xa và nền tảng tạo nên ML cần phải nắm nhưng không nhất thiết là phải thật sự giỏi toán mới làm được.

+ Thống kê:  Nếu DS là một ngôn ngữ, thì thống kê chính là những cấu trúc ngữ pháp nền tảng và cơ bản của ngôn ngữ đó. Thống kê sẽ là phương pháp cơ bản chủ yếu trong việc phân tích, diễn giải bộ dữ liệu của chúng ta. Từ đó giúp chúng ta có được những thông tin có giá trị ẩn đằng sâu tập dữ liệu vô cùng lớn và phức tạp của mình.

+ Ngôn ngữ lập trình: có thể nói một trong những bước đầu tiên và là nền tảng trong DS chính là học 1 ngôn ngữ lập trình. Bạn có thể chọn 1 ngôn ngữ mà mình đã biết từ trước hoặc chọn Python (vì đây chính là ngôn ngữ đơn giản, dễ học và phổ biến trong cộng đồng DS và cũng là ngôn ngữ được nhiều nhà tuyển dụng tìm kiếm nhất), hoặc các ngôn ngữ khác như R, Matlab, Java,..

– Các kỹ thuật liên quan đến xử lý data:

+ Data Collection (Thu thập dữ liệu): Nếu ví công việc DS giống như việc nấu ăn thì data collection là việc tìm nguồn nguyên liệu để nấu. Đây là bước chính và quan trọng trong DS và liên quan đến kỹ năng, kiến thức, công cụ thu thập dữ liệu từ cả nguồn bên trong tổ chức và các nguồn bên ngoài như website… Gọi chung lại là lĩnh vực truy vấn và sử dụng ngôn ngữ truy vấn như SQL, …

+ Data Cleaning (Làm sạch/tinh dữ liệu): Đây chính là bước tốn nhiều thời gian nhất của một Data Scientist. Chất lượng của mô hình được quyết định chủ yếu bởi chất lượng của dữ liệu. Chính vì vậy việc xử lý và làm sạch dữ liệu là việc được ưu tiên và dành nhiều thời gian nhất. Làm sạch dữ liệu sẽ bao gồm tất cả các công việc: làm sao có được data như mình mong muốn, phù hợp với việc sử dụng và phân tích, loại bỏ các thông tin, các đối tượng không cần thiết, xử lý các giá trị nhiễu, xử lý các giá trị không có thông tin hoặc các giá trị sai, không cân xứng, … từ dữ liệu thô ban đầu. Đây chính là bước cắt gọt, tỉa tót, làm sạch và xử lý nguyên liệu trước khi nấu ăn.

– Các kỹ thuật liên quan đến EDA (Exploring data analysis): Đây là phần quan trọng nhất trong cánh đồng rộng lớn của lĩnh vực khoa học dữ liệu DS. Nó bao gồm tất cả các công việc phân tích sự đa dạng của dữ liệu, các biến, xu hướng và mở rộng ra các thông tin nổi bật của dữ liệu. Hay nói cách khác bước này giúp người làm DS hiểu rõ dữ liệu nhất khi mà các thuật toán của ML có thể bỏ qua hoặc thất bại trong việc nhận diện.

– Các kỹ thuật liên quan đến phần mềm, phát triển ứng dụng và triển khai ứng dụng:

+ Deploy các model ML:

Dễ hiểu thì Deployment là quá trình đưa các ML model vào trong thực tế và sẵn sàng cho người dùng cuối (end user) sử dụng. Đây là thành tựu của ML trong môi trường sản phẩm thực tế và đóng góp giá trị thực cho doanh nghiệp.

Có nhiều công cụ và dịch vụ để deploy mô hình ML như: Flask, Pythoneverywhere, MLOps , Microsoft Azure, Google Cloud, Heroku.

– Các kỹ năng mềm: trong quá tìm hiểu vấn đề, giải quyết vấn đề và ra được sản phẩm hoàn thiện, 1 nhà khoa học dữ liệu không chỉ cần làm tốt các vấn đề chuyên môn mà còn phải có các kỹ năng mềm cần thiết khác

+ Kỹ năng làm việc nhóm: là một phần rất rất quan trọng trong cả quá trình xây dựng và triển khai một sản phẩm của DS cho công ty, tổ chức. Để có được thông tin và tư duy cách xử lý vấn đề từ bộ dữ liệu, bạn cần hợp tác với rất nhiều cá nhân, bộ phận, phòng ban trong công ty. Và đến khi triển khai sản phẩm bạn cũng phải làm việc và hướng dẫn cho các bộ phận sử dụng hoặc các đối tượng liên quan. Chính vì vậy DS không phải công việc của 1 cá nhân mà là sản phẩm của một nhóm.

+ Kỹ năng giao tiếp: giúp cho chúng ta ngoài việc biểu đạt các ý tưởng kỹ thuật, các giải pháp kỹ thuật cho những người không có chuyên môn kỹ thuật hoặc không trong lĩnh vực này hiểu.

+ Kỹ năng quản lý công việc: cần thiết cho việc lên kế hoạch và quản lý việc thực hiện các giải pháp mình đưa ra

+ Sự sáng tạo: DS là khoa học dữ liệu, nhưng nó không phải là một lĩnh vực cứng nhắc mà đòi hỏi người làm DS phải có tư duy và tính sáng tạo, hay nói cách khác là một yếu tố nghệ thuật trong một môn khoa học. Phải có nhiều góc nhìn khác nhau cho cùng 1 vấn đề, phải đưa ra nhiều phương án để từ đó có thể chọn giải pháp tốt nhất. Và quan trọng đó chính là không bộ dữ liệu nào giống bộ dữ liệu nào, chính vì vậy DS đòi hỏi người làm phải có tính sáng tạo vào trong các dự án của mình.

+ Nhạy bén và hiểu về lĩnh vực chuyên môn/có tư duy kinh doanh: DS là một công cụ sử dụng cho một lĩnh vực, một ngành cụ thể. Chính vì vậy việc hiểu rõ lĩnh vực mình đang làm sẽ rất quan trọng trong việc phân tích tìm ra các thông tin có giá trị và giải pháp hiệu quả cho vấn đề của công ty

– Cuối cùng chính là tinh thần không ngừng học hỏi và tò mò về mọi thứ: DS là một lĩnh vực rộng, đòi hỏi nhiều kỹ năng và quan trọng là nó không ngừng phát triển. Chính vì vậy, việc đòi hỏi bản thân phải luôn liên tục cập nhật và học những kỹ năng mới, những kỹ thuật chuyên môn mới. Đây chính là kỹ năng chính để giúp chúng ta duy trì, cập nhật và phát triển trong lĩnh vực kỹ thuật cao và phát triển không ngừng giống DS.

4. Luôn nhớ vừa học vừa thực hành, và vừa làm vừa tìm hiểu

– Học hỏi và thực hành qua các nền tảng online: Kaggle và Github, …

+ Kaggle là cộng đồng DS lớn nhất hiện nay, có nhiều điều vô cùng hữu ích trên Kaggle: Tài liệu học và bài thực hành, Dữ liệu (với nhiều quy mô khác nhau nhiều lĩnh vực khác nhau) bạn có thể tải về để thực hành, các cuộc thi với các giải thưởng giúp bạn vừa chinh phục, khẳng định bản thân vừa có thể tạo thu nhập từ những cuộc thi này và quan trọng là bạn có thể học hỏi từ những người giỏi nhất trong lĩnh vực này ở đây.

+ Github: nơi chia sẻ nguồn code miễn phí và lớn nhất trong cộng đồng IT và data hiện nay, nhiều người vẫn lo sợ về kỹ năng code hay lập trình, nhưng thực sự đây không phải là vấn đề khó khăn nhất trong DS. Bạn có thể tham khảo các đoạn code ở đây.

– Cộng đồng IT và những người làm dữ liệu: có rất nhiều forum (diễn đàn DS) nơi có thể giúp bạn giải đáp những thắc mắc, nơi bạn có thể tìm ra rất nhiều giải pháp cho vấn đề của mình từ những người đi trước. Họ đã đi qua, gặp phải và bạn sẽ rút ngắn rất nhiều thời gian để giải quyết cho vấn đề của mình.

– Các blog về DS: Một nguồn nữa để học hỏi chính là các blog, các website chia sẻ về lĩnh vực này.

– Các nhóm thảo luận: có những nhóm trên mạng xã hội như LinkdedIn, Facebook, Zalo giúp bạn tương tác trực tiếp và nơi chia sẽ cập nhật hàng ngày hàng giờ, các kiến thức, các cơ hội nghề nghiệp

– Youtube và các khóa học trực tuyến: thay vì đọc và tìm hiểu bạn có thể học nhanh hơn bằng cách nghe và nhìn qua các video hướng dẫn từ Youtube và các trang web học online như Cousera, LinkedIn, …

 5. Lưu lại các dự án và các bài học bài thực hành của mình

Sau mỗi bài thực hành hoặc các dự án của mình, hãy nhớ lưu lại. Mục đích của việc này chính là bạn sẽ xem xét lại những cách làm của dự án sau, để có thể so sánh, chỉnh sửa, cập nhật lại những dự án trước đó để có phiên bản tốt hơn, và tốt nhất trong khả năng của mình. Bạn sẽ ngạc nhiên vì có nhiều sự thay đổi đáng kể đó. Ngoài ra, lĩnh vực DS là lĩnh vực chia sẻ và cùng nhau học hỏi mỗi ngày. Mỗi dự án hoặc bài thực hành của bạn khi được chia sẻ sẽ giúp nhiều bạn có ý định bước vào hoặc đang bắt bắt đầu theo đuổi lĩnh vực này có thêm nhiều nguồn tài liệu để tham khảo và kinh nghiệm quý báu.

Mỗi người đều đang học hỏi và lớn lên từng ngày. Mình cũng vậy, học hỏi và chia sẻ. Trên đây là những trải nghiệm của mình.

Chúc các bạn thành công.

Trả lời