Big Data (Dữ Liệu Lớn): Biết Và Chưa Biết

public 6 năm trước

Big Data (Dữ Liệu Lớn): Biết Và Chưa Biết

Dữ liệu lớn (big data) dường như đã thành một từ quen thuộc với nhiều người. Song dữ liệu lớn từ đâu mà có, ưu và nhược điểm của nó là gì thì không phải ai cũng biết.

Trong cuốn sách "Everybody Lies: Big Data, New Data, and What the Internet Can Tell Us About Who We Really" (tạm dịch: Mọi người đều nói dối: dữ liệu lớn, dữ liệu mới và những gì Internet có thể nói với chúng ta rằng chúng ta thực sự là như thế nào) của tác giả Seth Stephens-Davidowitz đã bàn về rất nhiều vấn đề khác nhau liên quan tới dữ liệu lớn.

Qua đó tiết lộ những thông tin thú vị về tâm lý, hành vi và cả những tính khí kỳ quặc của con người. Và từ đó có thể thấy, con người nói chung thường không mấy khi sẵn lòng chia sẻ về những hi vọng cũng như khao khát của cá nhân họ với người khác.

Seth Stephens-Davidowitz là một chuyên gia trong lĩnh vực dữ liệu Internet nói chung và dữ liệu lớn nói riêng. Ông đã tốt nghiệp 2 trường đại học Stanford và Harvard, đồng thời trước đây đã từng là chuyên gia khoa học về dữ liệu tại Google.

Trong khuôn khổ của Tuổi Trẻ Online, chúng tôi tóm lược những nội dung chính trong cuốn sách của chuyên gia này để bạn đọc có cái nhìn tổng quát, song cũng hết sức thú vị về dữ liệu lớn (big data).

Vén "bức màn" dữ liệu lớn

Thành thực mà nói, bất kể việc chúng ta trung thực tới mức nào với những người xung quanh, ở một chừng mực nhất định chúng ta vẫn sẽ có lúc nói dối.

Cho dù đó là khi ta nói quá lên về những tính cách nhân hậu của mình trong một cuộc điều tra về lối sống, hay không thực lòng khi kể về những hành xử kỳ quặc ta vẫn thường làm khi không có ai khác ở bên.

Nhìn chung mọi người vẫn thường có những hành xử không trung thực ở mức độ nào đó trong cuộc sống hàng ngày.

Tuy nhiên với những khối lượng dữ liệu được thu thập đang ngày càng tăng lên rất nhanh, chẳng hạn như các cú pháp tìm kiếm trên Google (như cách mà Google vẫn thường tổng kết vào mỗi dịp cuối năm), chúng ta đã có thể "quan sát" thật sâu vào phía dưới bề mặt của thực tế đời sống để nhìn ra sự thật.

Với một sự tích tụ dữ liệu lớn tới mức gần như không tưởng về vô số các khía cạnh hành xử của con người, một khối lượng lớn thông tin được thu thập được gọi là dữ liệu lớn sẽ giúp các nhà chuyên môn phân tích, làm rõ các khía cạnh trong hành xử của mỗi người và chỉ ra những sự thật chúng ta chưa từng biết trước đây.

Dữ liệu lớn cảm tính hơn bạn nghĩ

Nhiều người đã nghe nói về dữ liệu lớn nhưng thực chất dữ liệu lớn là gì?

Đúng như tên gọi của nó, dữ liệu lớn là khái niệm dùng để chỉ một khối lượng dữ liệu khổng lồ. Mức độ khổng lồ của dữ liệu lớn tới mức bộ não con người hầu như không thể hiểu được.

Nói cách khác, dữ liệu lớn là một loại dữ liệu mà để xử lý, phân tích và nhận diện các khía cạnh thông tin rút ra từ nó sẽ cần phải dùng tới năng lực xử lý của các hệ thống máy tính/siêu máy tính.

Nhưng có một điều nghịch lý là, bất kể mức độ rất khủng của khối lượng dữ liệu, khoa học dữ liệu lại có một phương diễn rất cảm tính. Thực vậy, nếu bạn nghĩ về khía cạnh này, dường như tất cả chúng ta đều là các nhà khoa học dữ liệu theo một cách nào đó.

Mặc dù khoa học dữ liệu là một quá trình mang tính chất cảm tính, nhưng bản thân sự cảm tính lại không thực sự là khoa học. Đó là vì sao mà việc sử dụng các dữ liệu thu thập một cách chính xác là điều rất cần thiết trong việc giúp định hình thế giới quan của con người.

Nó giúp con người nhìn nhận sự việc có cơ sở và chính xác hơn, thay vì chỉ dựa vào cảm tính mà rất nhiều khi bị chi phối bởi những thiên vị vô hình không thể kiểm soát.

Dữ liệu cung cấp cho chúng ta cơ sở để có thể khẳng định hay phủ định những nhận định mang tính trực giác bắt đầu. Nó cũng giúp chúng ta có được những dự đoán và quan điểm chính xác hơn thay vì chỉ căn cứ vào những trải nghiệm cá nhân.

Ghi chú: Google là ví dụ tiêu biểu cho thế dữ liệu lớn có thể thường xuyên cung cấp những thông tin mới cho chúng ta. Ở phần sau của loạt bài, chúng ta sẽ tìm hiểu lý do vì sao như vậy.

Khoa học dữ liệu là một công cụ hữu ích, nhưng điều khiến nó trở nên đặc biệt không phải quy mô dữ liệu thu thập được, mà chính là bản thân dữ liệu đó là hữu ích.

Nói cách khác, vấn đề đáng quan tâm nhất chính là ở chỗ, dữ liệu thu thập được có thể tiết lộ những khía cạnh thông tin nào giúp chúng ta đưa ra những phán đoán hay nhận định về một sự việc hay vấn đề nào đó.

Dữ liệu lớn tạo ra thông tin mới

Trong trường hợp này, Google là một ví dụ tiêu biểu. Cỗ máy tìm kiếm do hai nhà đồng sáng lập Google là Larry Page và Sergey Brin phát triển năm 1998 sở dĩ trở thành công cụ tìm kiếm phổ biến nhất thế giới như hiện nay không đơn giản chỉ vì chúng có khả năng thu thập được rất nhiều dữ liệu.

Hơn cả quy mô dữ liệu thu thập, điều khiến Google khác biệt chính là những dữ liệu mà nó có thể thu thập được và cách thức để chúng có thể được sử dụng một cách hiệu quả cho các lĩnh vực như kinh doanh, nghiên cứu,….

Trước thời của Google, chẳng hạn khi bạn đánh cụm từ khóa tìm kiếm "Bill Clinton" trong một công cụ tìm kiếm, bạn sẽ chỉ thu được kết quả là những trang web xuất hiện cụm từ này nhiều hơn. Và thường thì bạn sẽ nhận được cả một đống những kết quả không liên quan gì tới mong muốn tra cứu thông tin của mình.

Thuật toán của hai nhà sáng lập Google, Brin và Page, hoạt động theo cách hoàn toàn khác. Họ nhận ra rằng, một trang web có khả năng liên quan tới một ai đó nhiều hơn nếu nó chứa nhiều đường link hơn với các trang khác đã kết nối một người dùng truy cập vào trang đó.

Theo đó, trang web Nhà Trắng chính thức của Bill Clinton, vốn là đích đến của hàng ngàn đường link khác nhau, sẽ là là trang hữu dụng hơn so với một trang web gồm 100 đường link, mặc dù trang web đó có thể đề cập tới tên của Bill Clinton nhiều hơn.

Theo đó, các nhà sáng lập Google đã tập hợp dữ liệu về các đường link này, từ đây, họ có thể nhận ra những mô thức quen thuộc và dự đoán được loại thông tin nào liên quan nhất với người dùng.

Cách tiếp cận của Google là một ví dụ rõ ràng nhất giải thích cho lý do đầu tiên vì sao dữ liệu lớn lại quyền lực đến vậy: dữ liệu lớn hoàn toàn mới mẻ. Nó cung cấp cho chúng ta luồng thông tin mới liên tục.

Trước thời đại của dữ liệu lớn, bạn sẽ phải chờ Tổng cục thống kê lao động thu thập và tính toán tỉ lệ thất nghiệp thông qua các cuộc điều tra qua điện thoại, hoặc chờ một báo cáo của Trung tâm kiểm soát và phòng chống dịch bệnh để biết tỉ lệ lây nhiễm của một loại bệnh tật nào đó.

Nhưng nay, bạn hoàn toàn có khả năng sử dụng dữ liệu lớn của Google để theo dõi cả hai vấn đề này, và đó chính xác là những gì mà kỹ sư Jeremy Ginsber của Google đã làm.

Kỹ sư Jeremy Ginsber đã chứng tỏ rằng các cú pháp tìm kiếm trên Google liên quan tới bệnh cúm, chẳng hạn cụm từ "flu symtoms" là dấu hiệu cho thấy sự lây lan của dịch cúm, và có thể được dùng để theo dõi sự lây lan của căn bệnh theo các khu vực địa lý khác nhau và theo thời gian.

Dữ liệu lớn không nói dối

Gần đây các cử nhân đại học Maryland đã tham gia cuộc khảo sát về điểm trung bình đánh giá sinh viên GPA. Trong số những người tham gia khảo sát, 2% thừa nhận họ tốt nghiệp với điểm GPA thấp hơn 2,5 điểm trong thang 4 điểm.

Tuy nhiên theo các hồ sơ chính thức, tỉ lệ này cao hơn nhiều, 11%.

Mặc dù đây chỉ là một ví dụ, nhưng nó cũng chứng tỏ một sự thật mang tính phổ quát thường xảy ra trong các cuộc điều tra: mọi người thường nói dối.

Theo một lẽ rất tự nhiên, chúng ta thường muốn mình là người tốt đẹp, cả với chính mình và trong đánh giá của người khác. Do đó người ta thường tự điều chỉnh các câu trả lời của họ nhằm có được một góc nhìn tích cực hơn về bản thân.

Tuy nhiên điều này cũng đưa chúng ta tới một lý do thứ hai cho thấy vì sao dữ liệu lớn lại quyền lực: Nó không nói dối.

Vì là dữ liệu được thu thập thông qua các hành vi ứng xử không qua "cơ chế lọc" nào, nó luôn tiết lộ sự thật. Thêm nữa người ta cũng ít có xu hướng nói dối hay "bóp méo" kết quả khi nhập các từ khóa tìm kiếm trong lúc không có câu hỏi nào liên quan tới chúng đặt ra với họ.

Chúng ta sẽ cùng xem xét chủ đề được cho là rất nhạy cảm như kích thích tình dục ở vùng hậu môn (anal play). Liệu rằng sẽ có bao nhiêu người thừa nhận trong một cuộc điều tra hay phỏng vấn rằng họ thích sử dụng một kỹ xảo nào đó trong "trò chơi" này? Điều đó còn tùy thuộc vào cuộc điều tra, nhưng có thể đoán trước rằng có lẽ sẽ không ai thừa nhận cả.

Ấy thế nhưng khi tác giả Seth Stephens-Davidowitz phân tích dữ liệu từ trang web khiêu dâm PornHub, ông phát hiện thấy đã có một số phụ nữ tìm kiếm từ khóa "anal apple". Điều này là minh chứng cho thấy dữ liệu lớn có thể tiết lộ một số điều bất ngờ về mọi người mà có thể họ không muốn chia sẻ trực tiếp với người khác.

Ghi chú: Có một thực tế thú vị mà tác giả Seth Stephens-Davidowitz tiếp tục chỉ ra đó là "dữ liệu lớn" sẽ giúp chúng ta hiểu hơn các "dữ liệu nhỏ".

Một điểm được cho là quyền lực thứ 3 của dữ liệu lớn: Với quy mô “khủng” của nó, chúng ta có thể soi rọi vào các nhóm dữ liệu nhỏ hơn và trích xuất được thông tin tin cậy từ đó.

Chưa kể tới các công cụ tìm kiếm trên mạng khác, chỉ riêng Google thôi mỗi ngày cũng đã tích tụ một khối lượng dữ liệu rất khổng lồ rồi. Với khối lượng dữ liệu đó, giờ đây chúng ta có thể tiến hành những việc mà ta chưa bao giờ có thể làm được trước đây.

Biết "lớn" để hiểu "nhỏ"

Một ví dụ nhỏ trong thực tế để chúng ta có thể hiểu hơn về luận điểm này của tác giả Seth Stephens-Davidowitz. Ông dẫn ra câu chuyện một giáo sư đại học Harvard tên là Raj Chetty muốn điều tra xem liệu những người mang trong lòng "giấc mơ Mỹ" còn tồn tại hay không.

Ông quyết định sử dụng dữ liệu lớn hỗ trợ để tìm câu trả lời cho một câu hỏi chính xác hơn: những người có cha mẹ nghèo khi lớn lên có thể trở thành những người giàu có tự thân không?

Nhóm nghiên cứu của ông Chetty đã sử dụng các hồ sơ chứng từ thuế do cơ quan thuế vụ Mỹ thu thập. Dữ liệu lớn cho thấy, khi so sánh với các quốc gia phát triển khác như Đan Mạch và Canada, tình hình ở nước Mỹ không đem lại hy vọng tuyệt vời cho những người nghèo.

Một người nghèo ở Mỹ chỉ có khoảng 7,5% cơ hội gặt hái được thành công trong lĩnh vực nghề nghiệp họ chọn. Tuy nhiên với người Đan Mạch và người Canada, cơ hội đó lần lượt là 11,7% và 13,5%.

Đó là bức tranh tổng quát, nhưng điểm thú vị là giáo sư Chetty đã có thể "soi chiếu" dữ liệu đó ở các các độ nhỏ hơn như các bang, các thành phố, thị trấn và các khu vực khác nhau.

Khi làm như vậy, ông nhận thấy dữ liệu tiết lộ thông tin là giấc mơ Mỹ thực sự vẫn tồn tại, nhưng chỉ ở một vài nơi.

Tại San Jose, California, một người Mỹ nghèo có 12,9% cơ hội trở nên giàu có. Tỉ lệ này còn tốt hơn ở Đan Mạch. Tuy nhiên với một người Mỹ lớn lên tại vùng Charlotte, bang North Carolina, cơ hội thành công của họ chỉ là 4,4%.

Điều này cho thấy dữ liệu lớn có khả năng soi chiếu dữ liệu ở quy mô nhỏ hơn, từ đó giúp chúng ta hiểu hơn về thế giới xung quanh, bất kể quy mô tiếp cận dữ liệu như thế nào.

Dữ liệu lớn giúp khảo sát đơn giản và tiết kiệm hơn

Hàng ngày chúng ta tiếp xúc với rất nhiều thông tin về sự liên đới giữa các sự việc, giữa các dữ kiện thông tin với nhau.

Chẳng hạn, loại thực phẩm nào đó có liên quan tới một chứng bệnh nguy hiểm, hay một thói quen có liên quan tới sự thành công của một doanh nhân, chính trị gia thành đạt.

Những mối liên hệ này thoạt nghe dường như khá tin cậy. Nhưng không phải lúc nào chúng cũng là những mối liên hệ có tính nguyên nhân - hệ quả.

Thử nghiệm A/B (A/B testing) là quy trình thử nghiệm mà trong đó hai phiên bản A và B sẽ được cùng so sánh trong một môi trường/tình huống để qua đó đánh giá xem phiên bản nào hiệu quả hơn.

Dữ liệu lớn khiến việc tiến hành các thử nghiệm A/B dễ dàng hơn, vày đây là lý do thứ tư khiến dữ liệu lớn trở nên quyền lực.

Trước thời của dữ liệu lớn, việc thực hiện các thử nghiệm A/B có nhu cầu rất lớn. Chẳng hạn, để kiểm nghiệm hiệu quả tác động của một đoạn quảng cáo, một công ty sẽ phải tuyển những người tham gia, tiến hành khảo sát phản hồi của họ rồi phân tích kết quả.

Tuy nhiên với dữ liệu lớn, các nhà khoa học dữ liệu có thể viết một chương trình để phân tích dữ liệu từ các cuộc thử nghiệm A/B.

Chiến dịch tranh cử tổng thống năm 2008 của tổng thống Barack Obama nổi tiếng là đã sử dụng thành công cách tiếp cận này.

Khi đó, các nhà quản lý phụ trách chiến dịch tranh cử của ông Obama muốn thiết kế một trang web có mục tiêu thu hút mọi người đăng ký thành viên và quyên tặng tiền ủng hộ ứng cử viên tổng thống.

Họ đã sử dụng các kết hợp khác nhau của hình ảnh và chữ viết, sau đó sử dụng các dữ liệu lớn liên quan để tìm ra được cách trình bày nào thành công nhất và đưa vào sử dụng.

Ghi chú: Dữ liệu lớn không phải lúc nào cũng giúp đem lại quản lý chính xác mặc dù nó "không nói dối".

Dữ liệu lớn đương nhiên không hoàn hảo. Trong một số trường hợp, nó rất dễ thay đổi và tiềm ẩn những nguy cơ chưa thể đo đếm hết.

Mặc dù có những lợi thế nhất định với dữ liệu lớn, nhưng đương nhiên ai cũng hiểu nó không phải là một cái gì đó "không tì vết".

Hạn chế lớn nhất của dữ liệu lớn trở nên vô cùng rõ ràng trong các bộ dữ liệu thu thập vốn có quá nhiều yếu tố dễ thay đổi. Theo đó khiến giới chuyên môn rất khó có thể rút ra những câu trả lời đáng tin cậy vì đặc điểm này khiến việc tìm ra những kết luận trở nên rất khó khăn.

Thường xuyên thay đổi

Tác giả Seth Stephens-Davidowitz dẫn ví dụ về công trình nghiên cứu của nhà di truyền học hành vi Robert Plomin. Năm 1998 nhà khoa học này cho rằng mình đã khám phá ra một loại gene là IGF2r, yếu tố chỉ thị của chỉ số thông minh IQ của con người.

Ông đã nhận được các bộ dữ liệu tập hợp từ vài trăm sinh viên bao gồm thông tin về bảng mã DNA và chỉ số IQ. Ông Plomin so sánh DNA của họ với các chỉ số IQ thấp và cao, rồi nhận thấy gene IGF2r có tỉ lệ xuất hiện nhiều gấp đôi ở những sinh viên có IQ cao.

Thật không may, mối liên hệ được khám phá trong nghiên cứu của ông Plomin chỉ là một kết quả ngẫu nhiên và may mắn đạt được. Vài năm sau, khi ông Plomin lặp lại nghiên cứu so sánh dữ liệu này, ông đã không tìm thấy mối liên hệ giữa chỉ số IQ và gene IGF2r nữa.

Không khó để hiểu vì sao xảy ra chuyện này. Bộ gene người chứa hàng ngàn gene, nếu mối liên hệ đó đã từng xảy ra, nó hoàn toàn có thể xảy ra trong một tình huống ngẫu nhiên. Có nhiều yếu tố thường xuyên thay đổi khiến vào một thời điểm đã làm xuất hiện khả năng này.

Ngoài ra cũng còn một nhược điểm khác nữa với dữ liệu lớn nữa chính là ở chỗ nó thiếu cái gọi là "dữ liệu nhỏ", một loại dữ liệu liên quan tới trải nghiệm của con người.

Những loại dữ liệu lớn có thể đo lường được là rất nhiều, song đôi khi những dữ liệu có thể đo lường được lại không phải là những thông tin chúng ta đang muốn tìm kiếm.

Chẳng hạn, Facebook có thể dễ dàng đo đếm được số lượt click và like trên mạng xã hội này trên cơ sở dữ liệu lớn, nhưng việc đó không nói lên được điều gì giúp họ hiểu rõ trải nghiệm của người dùng với trang của mình.

Trong những tình huống như thế, dữ liệu nhỏ lại đặc biệt quan trọng. Do đó Facebook đã thu thập loại dữ liệu này thông qua các phương pháp khác, còn được gọi là các khảo sát quy mô nhỏ hơn. Họ tham khảo ý kiến người dùng về quan điểm cũng như trải nghiệm bản thân trong lúc sử dụng mạng xã hội này.

Ngoài ra Facebook cũng thuê các nhà tâm lý học và xã hội học hỗ trợ họ trong việc đo lường được các trải nghiệm người dùng vốn không thể đo lường được thông qua dữ liệu lớn.

Điều này thêm một lần nữa cho thấy dữ liệu lớn không hề hoàn hảo và những rắc rối như vậy sẽ tiếp tục diễn ra sâu sắc hơn.

Chính phủ không nên dùng dữ liệu lớn kiểm soát công dân

Mỗi khi bạn gõ thông tin tìm kiếm trong Google hay mua sắm một sản phẩm nào đó qua mạng, bạn đang góp một phần dữ liệu vào kho dữ liệu lớn.

Chuyện gì sẽ xảy ra nếu các chính phủ có quyền tiếp cận những dữ liệu này? Họ có thể làm gì với chúng?

Chẳng hạn, một ai đó gõ câu "Tôi muốn tự tử" vào một công cụ tìm kiếm. Liệu có cần thông báo với cảnh sát địa phương thông tin này không?

Trong những trường hợp như thế, nhà chức trách không làm và cũng không thể làm gì ở cấp độ cá nhân, và có lý do hợp lý cho điều đó.

Mỗi tháng có khoảng 3,5 triệu lượt tìm kiếm liên quan tới chuyện tự tử trên Google ở Mỹ. Trong khi đó, số vụ tử tự ở nước này chưa tới 4.000 vụ một tháng.

Điều này cho thấy, nếu cứ mỗi lần phát hiện một ai đó tìm kiếm thông tin tự tử, người ta lại báo cho cảnh sát địa phương thì việc này sẽ gây tốn kém rất lớn về nhân lực và vật lực với cảnh sát để giải quyết những vụ việc như vậy.

Bên cạnh đó vẫn còn một khía cạnh đạo đức nữa mà mọi người đều quan tâm, đó là việc các chính phủ có nên được phép sở hữu và sử dụng các dữ liệu người dùng không? Điều này sẽ là sự vi phạm quyền riêng tư.

Tuy nhiên những lo ngại này vẫn không thể ngăn các chính phủ ngừng sử dụng dữ liệu lớn ở cấp độ khu vực, nhất là khi ngày càng có thêm nhiều chứng cứ cho thấy có sự liên đới giữa các nội dung tìm kiếm trên mạng và các hành động diễn ra sau đó.

Ở một phương diện khác, các nhà chức trách và cảnh sát địa phương vẫn có cách khai thác dữ liệu lớn phù hợp để phục vụ xã hội tốt hơn. Chẳng hạn họ có thể sử dụng nó trong các chương trình phòng chống tự tử ở những khu vực cụ thể thuộc cấp độ thành phố hay bang.

Họ cũng có thể tuyên truyền thông tin thông qua các quảng cáo trên đài phát thanh và đài truyền hình như việc cung cấp địa chỉ cần liên lạc hay những nhà chức trách mà người dân có thể liên hệ khi biết ai đó cần giúp đỡ.

Như vậy có thể thấy, ngoài việc tiết lộ những thông tin thú vị về con người, dữ liệu lớn cũng có thể được sử dụng hiệu quả trong các tình huống đời thường nếu được vận dụng phù hợp.

Vài kết luận

Từ những thông tin về dữ liệu lớn, có thể thấy con người hiếm khi trả lời các câu hỏi khảo sát, thăm dò một cách trung thực, theo đó cũng góp phần "bóp méo" sự hiểu biết của chúng ta về thế giới xung quanh.

Tuy nhiên cùng với sự phát triển của dữ liệu lớn, nhờ sự thu thập dữ liệu từ các công cụ tìm kiếm như Google, giờ đây chúng ta có thể nhận ra những dạng thức trong hành xử con người, hiểu rõ những điều trước đây ta chưa từng biết.

Cùng với đó, chúng ta cũng tự tin hơn nếu thấy bản thân mình có những suy nghĩ và hành xử có thể hơi kỳ cục, khác với số đông. Vì cũng như bạn, có thể ai đó khác cũng giống bạn, nhưng chưa từng thừa nhận công khai suy nghĩ và hành xử đúng như con người thật của họ. Vậy nên hãy cứ yên tâm là mình, bạn nhé!

Theo congnghe.tuoitre.vn

----------------------------

Hợp Tác Cùng YBOX.VN Truyền Thông Miễn Phí - Trả Phí Theo Yêu Cầu tại http://bit.ly/YBOX-Partnership

2,517 lượt xem

Thích 0 Không thích 0

Lưu bài 3

Interlude

Thông tin

Sở thích

Cần tim bạn