Dịch sách Ecommerce Analytics: Đôi điều cần hiểu

Người khởi tạo K
Kim2
Ngày gửi Bình luận: 0 Lượt xem: 193

Kim2

Level 8
Các chỉ số cơ bản: trung bình (mean), giá trị giữa (median), độ lệch chuẩn (standard deviation) và phương sai (variance)

• Trung bình (mean): bằng cách tính tổng của tất cả các giá trị trong một tập dữ liệu và chia cho số lượng các đối tượng, bạn có thể tính được trung bình. Trung bình có lẽ là kỹ thuật được sử dụng phổ biến nhất để hiểu ý nghĩa của dữ liệu. Chúng cũng có thể là một trong những dữ liệu dễ gây nhầm lẫn nhất vì giá trị trung bình có thể bị sai lệch do có dữ liệu ngoại lệ.

• Giá trị giữa (median) là thuật ngữ được sử dụng để mô tả điểm giữa của dữ liệu. Nói cách khác, một nửa các đối tượng cần quan sát ở trên điểm này và nửa còn lại ở dưới. Điểm này về cơ bản được lấy ở ngay điểm chính giữa của tập dữ liệu.

• Giá trị xuất hiện thường xuyên nhất (mode) là khái niệm thường bị bỏ quên. Ví dụ: nếu 29/50 người có điểm 82 và 21 người có điểm không phải là 82, thì giá trị xuất hiện thường xuyên nhất sẽ là 82 (vì đó là giá trị được lặp lại thường xuyên nhất).

• Độ lệch chuẩn (standard deviation) đo lường mức độ phân tán của các giá trị trong dữ liệu. Ví dụ: nếu phân tích cho thấy mọi người dành từ 3 đến 27 phút trên trang web A và từ 13 đến 15 phút trên trang web B, thì trang web A sẽ được coi là có độ lệch chuẩn lớn hơn vì dữ liệu bị phân tán nhiều hơn.

• Khoảng biến thiên (range )là thước đo giữa giá trị cao nhất và thấp nhất trong một tập dữ liệu. Chỉ số này bị ảnh hưởng rất nhiều bởi các ngoại lệ. Ví dụ: nếu một tháng một ứng dụng di động có 200.000 lượt tải xuống và tháng tiếp theo ứng dụng có 500.000 lượt tải xuống, phạm vi sẽ là 300.000 (500.000 - 200.000).

• Điểm dị biệt (outliers) là một thuật ngữ phổ biến trong dữ liệu, được đo bằng một quan sát trong tập dữ liệu bằng hoặc lớn hơn hai lần độ lệch chuẩn. Trong thực tiễn phân tích thương mại điện tử, một số nhà phân tích chọn cách bỏ các ngoại lệ khỏi tập dữ liệu để định hình dữ liệu. Các nhà phân tích khác nghĩ rằng điều này làm dữ liệu không chính xác. Theo phương pháp EDA, các ngoại lệ có thể được nghiên cứu để xác định xem ngoại lệ này có tạo nên một sự thật ngầm hiểu (insight) đặc biệt nào không. Trong cuộc khủng hoảng nước năm 2016 tại Flint, Michigan, mức độ chì cao nhất được ghi lại trong bộ dữ liệu của thị trấn đã bị loại bỏ, khiến mức độ chì giảm xuống dưới ngưỡng thị trấn được yêu cầu phải báo cáo với chính phủ liên bang. Hãy tưởng tượng nếu phương pháp EDA được sử dụng, dữ liệu sẽ không bị cắt xén và Chính phủ liên bang có thể đã điều tra sớm hơn. Vì vậy, hãy cẩn thận khi cắt bỏ dữ liệu.

Một ví dụ khác, nếu một người gửi 1 triệu đô la vào tài khoản ngân hàng của cô ấy thay vì khoản tiền lương 10.000 đô la thông thường, khoản tiền gửi 1 triệu đô la sẽ được coi là ngoại lệ. Các ngân hàng sử dụng dữ liệu ngoại lệ (được phát hiện bởi các hệ thống phân tích) làm đầu vào cho các đề xuất nhắm mục tiêu và khuyến mại. Ngân hàng cá nhân có thể cung cấp một công cụ tài chính để đầu tư hàng triệu đô la vào lần đăng nhập tiếp theo. Nếu một khách hàng bắt đầu chi nhiều tiền hơn cho việc mua sắm online so với lịch sử chi tiêu thông thường trước đây, thì việc phát hiện ra ngoại lệ có thể giúp bạn nhận ra điều đó, nhờ vậy bạn có thể có phản hồi phù hợp.

Những khái niệm thống kê cơ bản này là nền tảng để hiểu cách phân tích dữ liệu định lượng. Hãy bảo đảm rằng bạn hiểu các khái niệm này và định nghĩa để áp dụng khi phân tích thương mại điện tử.

(FB Do Vu Luu Phuong)
 

Chủ đề mới

Bài mới nhất

Thành viên tích cực 30 ngày qua

4 bài đăng
6 bài đăng
11 bài đăng

Thống kê

Chủ đề:
5,360
Bài viết:
6,842
Thành viên
92,765
Thành viên mới
phanmemabitstore

Thành viên trực tuyến

Không có thành viên trực tuyến.
Top