Kỷ nguyên của dữ liệu lớn Big data

Tổng quan về dữ liệu lớn (Big data)

Dữ liệu có ở khắp mọi nơi: Từ Internet, các thiết bị di động, anten, nhật ký phần mềm, các thiết bị thu hình, thu thanh, cho tới đầu đọc RFID và mạng cảm biến không dây… Theo Forbes, khoảng 2.5 x1018 bytes dữ liệu được tạo ra mỗi ngày trong năm 2018. Xu hướng trên đã dẫn tới sự ra đời của Dữ liệu lớn (Big data) – các bộ dữ liệu với kích cỡ lớn, nằm ngoài khả năng đọc, tổ chức, quản lý và xử lý của các công cụ xử lý dữ liệu truyền thống.

Big data là một nguồn tài nguyên khổng lồ giúp các doanh nghiệp và tổ chức đưa ra các quyết định, chiến lược đúng đắn, cải thiện hiệu quả hoạt động và nâng cao lợi nhuận.

Ứng dụng của dữ liệu lớn Big data

Một số ứng dụng của Big data có thể kể đến như:

  • Google có khả năng đưa ra hàng triệu gợi ý tìm kiếm và sắp xếp theo thứ tự ưu tiên trong vòng chưa đến 1 giây.
  • Netflix sử dụng dữ liệu từ các bộ phim được xem nhiều nhất để tìm ra sở thích của người xem để xây dựng nội dung và sản xuất các bộ phim mới.
  • Mỗi ngày, Công ty nghiên cứu thị trường VietAnalytics tự động quét thông tin về giá cả của tất cả các loại hàng hóa trên hàng chục trang web thương mại điện tử khác nhau. Nhờ vậy có thể nắm bắt nhanh chóng biến động giá cả của sản phẩm, sử dụng trong báo cáo ngành hàng cho các doanh nghiệp.

Big data bao gồm dữ liệu phi cấu trúc, bán cấu trúc, và dữ liệu đã được cấu trúc, tuy nhiên phần lớn dữ liệu số lớn là dữ liệu phi cấu trúc

4 Vs of Big Data
4 Vs of Big Data

Các đặc điểm của Big data

Volume (Độ lớn):

Kích cỡ của dữ liệu được sản sinh và lưu trữ. Kích cỡ của dữ liệu xác định giá trị và tiềm năng mang lại thông tin hữu ích của dữ liệu.

Variety (Đa dạng loại dữ liệu)

Đa dạng về loại dữ liệu và bản chất của dữ liệu. Dữ liệu số lớn có thể ở dạng văn bản, hình ảnh, âm thanh, hoặc video.

Velocity (Tốc độ)

So với dữ liệu truyền thống, tốc độ sản sinh và xử lý dữ liệu của dữ liệu số lớn thường nhanh thường xuyên hơn. Có hai loại tốc độ liên quan tới dữ liệu số lớn là tần suất sản sinh và tần suất xử lý, lưu trữ, và công bố dữ liệu.

Veracity (Độ chính xác)

Chất lượng và mức độ tin cậy của Big data thường thấp hơn so với các dữ liệu sơ cấp thu thập qua khảo sát, đòi hỏi các công nghệ làm sạch dữ liệu phức tạp hơn.

Là một trong những công ty nghiên cứu thị trường đi đầu trong việc ứng dụng các công nghệ Big data, AI,… VietAnalytics đang phối hợp cùng công ty iBosses Việt Nam để tổ chức khóa đào tạo các kiến thức và kỹ năng cơ bản về Khoa học dữ liệu, Phân tích dữ liệu và Big data trong năm 2019. Thông qua khóa học trên, VietAnalytics mong muốn hỗ trợ tất cả các cá nhân, doanh nghiệp, đặc biệt là doanh nghiệp đang phát triển trong nước có thể vươn lên đón đầu xu hướng công nghệ thời đại 4.0.