Tắt Quảng Cáo [X] Đăng Nhập để ẩn Tất Cả Quảng Cáo #j2team_share Hình mẫu một Data Analyst giỏi của mình. "Yếu tố nào quan trọng để giúp mình trở thành một Data Analyst giỏi?" Lại là câu chuyện của 4 năm về trước, khi còn làm công việc cũ ở ngân hàng mình đã có cơ hội làm nhiều với Excel và PowerBI cho các team dự án. Có thể nói, visualization tools là những kĩ năng đầu tiên mà mình được tiếp xúc và thực hành nhiều. Thời gian đầu dùng PowerBI để làm phân tích, thú thật mình cũng đã “chết mê chết mệt” với độ cool ngầu của nó vì đã nâng tầm việc làm báo cáo bằng Excel lên một level mới, nhanh hơn, mượt hơn và dĩ nhiên là đẹp hơn. Điều này dẫn tới lúc mình nhảy sang vị trí Data Analyst đúng nghĩa, thời gian đầu mình vẫn “trung thành” dùng PBI mặc cho cả team dùng Python trên mọi mặt trận. Đơn giản là khi đó mình dở code lắm và ngán việc ngồi code Python từng dòng cho mỗi bài phân tích dài ngoằng ngoặc, mọi người ạ. 4 năm là một hành trình cũng dần đủ cho những trải nghiệm. Hành trình ấy mang đến cho mình cơ hội tiếp xúc và làm việc với nhiều dự án phân tích cũng như kha khá các techniques, kĩ năng áp dụng trong cái nghề dữ liệu. Có thể nói, mình của hôm nay đã hiểu được rất nhiều phần về điểm mạnh, điểm yếu và vai trò của các công cụ trong công việc của một người làm phân tích dữ liệu. Và yếu tố nào giúp mình giỏi hơn khi là một Data Analyst? Thần thánh hóa các BI tools là một thiếu sót lớn. Statistics là chân ái Nếu như bạn đã hiểu rõ khái niệm Data Science (DS) và Business Intelligence (BI) mà mình đã từng đề cập, thì ắt hẳn bạn sẽ đồng ý với mình rằng: BI tools như Power BI, Tableau là "chiến thần" của nhóm công việc BI, còn làm data analytics thì chưa đủ. Mọi thứ được set-up một cách hoàn chỉnh, được tự động hóa với những chỉ số cố định, bảng dữ liệu phục vụ các bài toán được biết trước một cách rõ ràng trên những dashboards. Những biểu đồ bắt mắt, hoành tráng khiến bạn chết mê ngay cái nhìn đầu tiên, nhưng giá trị phía sau vẫn là dấu 3 chấm nếu bạn chưa đủ hiểu về ý nghĩa của dữ liệu. Hãy suy nghĩ giống như một Statistician khi làm phân tích dữ liệu. Bạn sẽ dễ dàng bị dữ liệu đánh lừa nếu bạn mất gốc các kiến thức thống kê cơ bản. While numbers don’t lie, they can in fact be used to mislead with half-truths. This is known as the “misuse of statistics.” Các lỗi thường gặp khi phân tích dữ liệu nếu thiếu đi kiến thức thống kê: * Bad sampling: Kết quả phân tích dựa trên 1 tập mẫu sai quá sai so với tổng thể. Chẳng hạn như hình trên, khi bạn cần chọn sample để phân tích nhưng việc chọn lựa ngẫu nhiên dễ dẫn đến việc không đảm bảo tính đại diện của dữ liệu. Rõ ràng tập khách hàng gốc ở 3 hàng, nhưng khi random chọn đã không đủ đại diện của hàng 1. * Misinformation: Thông tin sai lệch, tập dữ liệu không đủ confident level. Bạn thường hay được mách hãy loại bỏ dữ liệu ngoại lai (outlier) ra khỏi dataset khi phân tích. Đúng hay sai nhỉ? Câu trả lời là không phải lúc nào cũng xóa outliers, bạn có thể giữ lại nếu bạn đang tính toán các chỉ số ở dạng absolute number cho sếp hoặc khi số lượng data points quá ít thì việc loại hẳn outliers sẽ khiến kết quả bị sai so với ý nghĩa. * Neglecting the baseline: So sánh với giá trị không phù hợp với ngữ cảnh của bài toán, hoặc không có giá trị cơ sở để đánh giá kết quả là tốt hay không tốt. Một vài lỗi dễ thấy khi làm phân tích mà mình cũng đã từng lầm lỡ. Nếu bạn muốn học Statistics cùng mình hãy để lại email trong phần comment nhé. Coding là một phần cốt lõi nếu bạn muốn phát triển xa trong Data Analytics Mình vẫn luôn chia sẻ với mọi người rằng, công cụ bản chất vẫn là công cụ. Nếu bạn thông minh và siêng năng, chắc chắn 1 tuần cũng đủ để bạn rành hết các functions trong SQL, múa sương sương các biểu đồ trong Power BI. Còn nếu bạn học không nhanh thì có thể là 1 tháng hoặc 2 tháng. Nhưng suy cho cùng, nếu chỉ dừng lại ở việc biết các thao tác của công cụ, thì ai rồi cũng giỏi cả thôi. Cái khác biệt lớn nhất nằm ở tư duy và khả năng giải quyết vấn đề, bởi lẽ, cốt lõi data là để phục vụ nhu cầu của doanh nghiệp mà phải không? Ai giải quyết vấn đề tốt hơn với data thì sẽ là người thành công, chứ không ai đánh giá cao việc bạn giỏi làm dashboard hay coding tốt. Tuy nhiên, mình không phủ nhận việc chúng ta phải rành rọt nhiều techniques. Nếu là làm BI, bạn sẽ cần luyện tuyệt đỉnh kĩ thuật làm dashboard và phân tích với BI tools như Tableau, PBI. Còn muốn làm phân tích sâu rộng, giải quyết nhiều bài toán (từ historical analysis cho đến predictive analysis) thì học một ngôn ngữ phân tích dữ liệu như Python, R sẽ mở ra cho bạn nhiều chân trời hơn đấy. Vì sao mình đề cao các ngôn ngữ xử lý và phân tích dữ liệu? Đơn giản mình đã trải nghiệm qua cũng nhiều các technical skills: từ Excel, Power BI, Tableau, SQL, Python, PySpark nên mình biết đâu là hạn chế và đâu là điểm tốt. SQL, Python mang đến cho bạn sự linh hoạt trong việc xử lý data, giúp bạn hiểu những giá trị cốt lõi của dữ liệu khi nó từ dạng thô sơ cho đến lúc gọn gàng để thể hiện ý nghĩa. Ngôn ngữ cho phép bạn tự do phân tích theo các phương pháp mình muốn mà đôi khi trên BI tools bạn bị hạn chế. Hơn thế, chỉ các ngôn ngữ phân tích dữ liệu như Python hay R mới giúp bạn làm tốt các bài toán Predictive analysis khi cho phép sử dụng các mô hình từ Machine Learning hay Deep Learning. Có thể đâu đó có bạn nói rằng, Tableau hay Power BI cũng có các chức năng làm bài toán dự báo. Mình đồng ý, nhưng đó là những thuật toán được xây dựng sẵn, nếu nó không phù hợp với data của bạn thì sẽ khó để thay đổi và tối ưu theo nhu cầu của mình. Vậy nên, coding là một phần kĩ năng cốt lõi giúp một Data Analyst trở nên khác biệt. Vì bài dài quá nên mn đọc đầy đủ 2 nội dung còn lại ở blog: [ Vui lòng đăng kí hoặc đăng nhập để thấy liên kết tại BigMMO Have a nice day