Chưa phân loại

Nội dung Seminar Dữ liệu lớn – Chuyển dịch tư duy lớn trong khoa học và xã hội

2e402b6

Seminar Thời đại dữ liệu lớn – cuộc cách mạng thay đổi tư duy và đời sống của chúng ta  đã được diễn ra vào ngày 28/8/2014 tại hội trường Tầng 3, Liên Hiệp các Hội Khoa học và kỹ thuật Việt Nam, 53 Nguyễn Du.

Dưới đây là phần tóm tắt nội dung seminar

  • Phần 1: Dữ liệu lớn và sự chuyển dịch tư duy trong khoa học và xã hội
  • Phần 2: Liệu tính riêng tư có còn tồn tại trong kỉ nguyên dữ liệu lớn?
  • Phần 3: Dữ liệu lớn đã thay đổi giáo dục đại chúng như thế nào?

Phần 1: Video bài trình bày “Dữ liệu lớn và sự chuyển dịch tư duy trong khoa học và xã hội” (75′)

Giới thiệu về dữ liệu lớn

Dữ liệu lớn là một khái niệm không hề mới

Nổi tiếng từ 2009 khi các trung tâm nghiên cứu về thông tin bắt đầu nghiên cứu nhiều về xử lý dữ liệu lớn.

Thống kê truyền thống thu thập dữ liệu dân số bằng cách điều tra và xử lý dữ liệu. Dữ liệu lớn xuất phát từ khoa học dữ liệu

Về khoa học dữ liệu: xuất phát từ thống kê, nhưng phát triển thành nhánh mới phục vụ nhu cầu cụ thể của con người.

Thống kê truyền thống: thu thập dữ liệu để chứng minh cho một giả thuyết có sẵn.

Khoa học dữ liệu: thu thập dữ liệu để khám phá ra thông tin đáng chú ý. Khoa học dữ liệu cố gắng hạn chế áp dụng những giả thuyết từ trước.

Trong cuộc sống, khoa học dữ liệu còn được áp dụng nhiều hơn thống kê chứng minh, vì hoạt động nghiên cứu chia làm 4 vùng:

  • Chúng ta biết là chúng ta biết: Dữ liệu thực tế mọi người đã biết
  • Chúng ta biết là chúng ta chưa biết: Cần thêm các nghiên cứu khoa học. Cần thêm sự xác nhận.
  • Chúng ta chưa biết là chúng ta biết: Trực giác, vô thức của chúng ta. Cần khám phá thêm
  • Chúng ta chưa biết là chúng ta chưa biết: Thế mạnh nhất của Big Data, khám phá ra những cái chúng ta chưa thấy.

Trong đó những điều chúng ta đã biết nhỏ bé hơn rất nhiều so với những cái chúng ta chưa biết.

Ví dụ về sự khác biệt của thống kê chứng minh và khoa học dữ liệu: một con gà gáy thì trời sáng: chúng ta biết là chúng ta chưa biết điều gì khiến con gà gáy khi trời sáng. Thống kê chứng minh yeu cầu đặt ra giả thuyết: con gà gáy vì một loại chất nào đó, sau đó thí nghiệm để tìm ra chất đúng như giả thuyết. Khoa học dữ liệu kết luận rằng con gà gáy có tương quan đến trời sáng.

Cách các nhà khoa học là đi theo hướng sử dụng hàm số: ví dụ như khi tìm hiểu về hiện tượng nóng lên toàn cầu, các nhà khoa học cố gắng thiết lập hàm số có biến phụ thuộc là sự thay đổi nhiệt độ và một số biến độc lập nhất định. Khi đó chúng ta chỉ cần thay đổi một biến độc lập là thay đổi biến phụ thuộc. Cách tư duy này sẽ khiến chúng ta hạn chế phạm vi xem xét và khiến chúng ta không coi trọng những biến không thể đo đạc được.

Cách tư duy khám phá dữ liệu không giới hạn chúng ta trong một số biến số nhất định. Chúng ta cung cấp dữ liệu cho máy tính xử lý, và máy tính sẽ giúp chúng ta tìm ra những mối tương quan giữa các biến số với nhau.

Biên tập viên của trang Wired, Chris Anderson trong bài viết năm 2008 có tiêu đề gây sự chú ý mạnh “Cái chết của lý thuyết” đã lập luận rằng: chúng ta mất rất nhiều công sức và tiền bạc để đi đo đạc, kiểm chứng, tìm ra một lý thuyết, nhưng trong đời sống nhiều khi chúng ta không cần dùng lý thuyết. Người bình thường chỉ cần biết A có tương quan B là đủ, còn những nhà khoa học sẽ cố gắng đặt những câu hỏi xung quanh sự tương quan này.

Hai cách tư duy khác biệt trên là cách tư duy của nhà khoa học và cách tư duy dữ liệu lớn – tư duy thống kê. Cách tư duy thống kê đang phát triển so với tư duy của nhà khoa học do sự phát triển của dữ liệu lớn: chúng ta có nhiều dữ liệu hơn, với giá rẻ hơn, cộng với khả năng xử lý, tính toán lớn hơn trước.

Kết luận: Dữ liệu lớn là một cuộc cách mạng, làm thay đổi niềm tin con người, khiến mọi người bắt đầu tin dữ liệu có giá trị, từ đó sinh ra cuộc chạy đua trong khai thác, xử lý, phân tích dữ liệu.

Dữ liệu lớn thay đổi khoa học, xã hội

Ngành thống kê tin rằng dữ liệu là thông tin từ vũ trụ, và khi khai thác đủ kỹ thì có thể tìm ra thông điệp từ chúa.

Dữ liệu lớn dẫn đến việc thế giới được tiêu thụ nhiều thông tin hơn và đòi hỏi nhiều thông tin hơn.

Ví dụ: Google Book: số hóa được 20% số sách đã được xuất bản của loài người. Từ đó google cung cấp công cụ Ngram Viewer miễn phí cho mọi người. Nếu phân tích tần suất xuất hiện của các từ love, war, peace, chúng ta có thể thấy trong các cuộc chiến từ war và peace xuất hiện nhiều. Thời hiện tại từ tình yêu lại nhiều nhất.

Nếu phân tích tần suất từ khoa học và từ tôn giáo, chúng ta có thể thấy tôn giáo luôn được nhắc tới nhiều hơn trong các quyển sách, trừ trong những năm từ 1830 đến nay.

Những thông tin trên cho chúng ta biết chúng ta chú ý vào đâu, trong những thời nào.

Phương pháp nghiên cứu trên được Darwin sử dụng để tìm ra sự chuyển biến của loài vật. Giờ đây chúng ta có thể tìm ra sự chuyển biến của khái niệm, phong trào thông qua nghiên cứu dữ liệu trong thời gian dài.

Dữ liệu lớn giúp chúng ta có những khám phá trong khoa học tự nhiên

Dữ liệu lớn giúp khám phá hạt Higgs: Nếu không có dữ liệu đủ lớn, chúng ta không nhìn thấy sự khác biệt trong các đường số va chạm – năng lượng và sẽ cho rằng hạt Higgs không tồn tại.

Với dữ liệu lớn, khoa học đang chuyển sang tìm hiểu những vấn đề phức tạp, cần khả năng thu thập và phân tích dữ liệu vượt khả năng con người.

Thay đổi về cách tìm quy luật phổ quát

Trong nghiên cứu, các nhà khoa học phân tích một số thí nghiệm, tìm ra những kiểu mẫu chung, rồi phát hiện kiểu mẫu đó ở rất nhiều nơi, rồi cho rằng kiểu mẫu đó là quy luật phổ quát.

Ví dụ: đường phân bố Gauss được thấy trong phân phối chiều cao con người, đường power law do Zipf tìm ra trong ngôn ngữ học, Pareto tìm ra trong phân phối của cải…

Các nhà khoa học dữ liệu xuất phát từ việc xử lý rất nhiều dữ liệu để tìm ra quy luật.

Ví dụ: trong ngành nghiên cứu hệ thống scale-free (nghiên cứu các hệ thống phát triển không có giới hạn), các nhà nghiên cứu đã tìm ra quy luật fractal: nhần nhỏ hơn của hệ thống có cấu trúc giống với hệ thống vĩ mô, chỉ khác ở quy mô thông qua việc xử lý dữ liệu lớn.

Các học thuyết trên đã thay đổi khoa học rất mạnh mẽ.

Dữ liệu lớn đang chỉ ra được các thuyết khoa học trên còn đúng trong rất nhiều khía cạnh của xã hội.

Động lực và tương lai của dữ liệu lớn

Các động lực thúc đẩy dữ liệu lớn:

  • Động lực 1: thành phố trở nên phức tạp hơn, cần những công cụ mới thông minh để quản lý hiệu quả hơn trích xuất dữ liệu từ dữ liệu lớn để hỗ trợ mạng lưới giao thông, điện công cộng…). Internet of Things ra đời và phát triển mạnh (cảm biến khí tượng, cảm biến thương mại, cảm biến hỗ trợ cá nhân, cảm biến hỗ trợ nông nghiệp…), tới năm 2020 sẽ có 50 tỉ thiết bị sản suất dữ liệu, nói chuyện với nhau (ví dụ: tủ lạnh nói chuyện với máy điện thoại của chúng ta).
  • Động lực 2: số hóa dữ liệu: bắt đầu từ 2002 (25% dữ liệu là digital), cho tới nay hơn 90% dữ liệu đã trở thành dữ liệu số.
  • Động lực 3: Chúng ta ngày càng kết nối và sống cuộc sống online nhiều hơn: đi đến đâu chúng ta cũng để lại dữ liệu (ví dụ: thời Facebook).

Tương lai của dữ liệu lớn

Thời của chúng ta là thời mạng lưới, sự thừa thãi và máy móc.

Đầu tiên, với dữ liệu lớn, thông tin, tri thức đang thừa thãi, vì vậy nền kinh tế tri thức đang lỗi thời, vì mô hình nền kinh tế phải dựa trên phân phối tài nguyên khan hiếm.

Chúng ta sống trong thế giới thừa thãi với tâm lý thiếu thốn. Chúng ta cố gắng quản lý thông qua sự khan hiếm.

Thứ hai, dữ liệu lớn giúp máy móc bắt đầu ra quyết định chính xác hơn con người.

Thứ ba, dữ liệu lớn cùng phát triện với những công ty hướng dữ liệu để phù hợp với khách hàng hơn, quản lý nội bộ tốt hơn.

Thứ tư, dữ liệu lớn tạo ra sự khan hiếm nhân lực có khả năng phân tích dữ liệu, và sẽ xảy ra cuộc chiến vì nhân lực phân tích dữ liệu giỏi.

Nền kinh tế sẽ chuyển sang attention economy: dữ liệu, lưu trữ, xử lý dễ dàng, chỉ có thời gian, tài năng, sự chú ý là khan hiếm.

Thứ năm, dữ liệu của chính phủ được đưa ra để các công ty, các tổ chức khai thác, cải thiện hiệu quả của xã hội và tạo ra lợi thế cạnh tranh.

Kết luận:

Dữ liệu lớn cải thiện giác quan của chúng ta, khiến chúng ta có thể trở thành siêu việt.

Dữ liệu lớn khiến quá trình đưa quyết định thay đổi, theo hướng tập trung vào dữ liệu.

Câu hỏi 1: Tính ứng dụng của nó trong việc dự đoán tương lai trong tất cả các lĩnh vực? Áp dụng dữ liệu lớn như thế nào?

Xu hướng và ứng dụng dữ liệu lớn là khá phức tạp. Mỗi lĩnh vực lại có một cách sử dụng dữ liệu lớn riêng. Tất cả đều thu thập dữ liệu, phân tích dữ liệu, tìm hiểu lý do, rồi đưa ra những dự đoán trong tương lai. Dữ liệu lớn không thể hoàn toàn thay thế cho các chuyên gia, mà chúng ta vẫn cần kiến thức của họ để đưa ra những dự báo chính xác.

Ý kiến của người tham gia chương trình:

1, Dữ liệu lớn đang được áp dụng tại rất nhiều nơi, ví dụ việc phân tích hoạt động theo dõi khủng bố: Mỹ lập ra bộ an ninh nội địa: NSA, theo dõi từng cá nhân khủng bố và có nguy cơ, xem họ đi đâu, làm gì, gặp ai. Từ đó họ đầu tư cho dữ liệu lớn.

Ở Philippine, các nhà mạng muốn giữ khách hàng trả trước bằng cách phân tích hành vi khách hàng, xem khi nào họ sắp hết tiền thì đưa ra khuyến mãi cho họ.

2, Quá trình tìm ra hạt Higgs là một ví dụ điển hình về sử dụng dữ liệu lớn: 3000 nhà khoa học, trong 10 năm, xử lý số liệu rất lớn về quá trình va chạm hạt để tìm ra hạt Higgs. Tuy nhiên để tìm ra hạt Higgs nói riêng và thực hiện nghiên cứu nói chung, dữ liệu và khoa học cần bổ sung cho nhau, vì dữ liệu không tạo ra khoa học. Trường hợp Einstein đưa ra thuyết tương đối trong thời điểm mà có rất ít dữ liệu là một phát hiện đột sinh, khiến cho chúng ta suy nghĩ về tầm quan trọng của con người.

3, Xử lý dữ liệu lớn và sự tác động của hoạt động này tới xã hội mới là một cách tiếp cận. Cách tiếp cận khác là con người thay đổi, dẫn đến thế giới thay đổi. Trường phái hậu thực chứng đã cho thấy không phải thứ gì cũng có thể sử dụng phương pháp đo đạc mà tìm ra được. Thêm nữa, dữ liệu lớn có điểm yếu là số liệu thống kê có thể sai sót, nhất là khi hoạt động thu thập dữ liệu chưa hoàn thiện. Cuối cùng, dựa vào nguyên lý bất định, chúng ta cần hiểu rằng vẫn còn rất nhiều vùng mà dữ liệu lớn chưa thể giải quyết.

Câu hỏi 2 : Những động lực thúc đẩy dữ liệu lớn là gì?

Một số nguồn tạo dữ liệu sau đã thúc đẩy dữ liệu lớn: số hóa dữ liệu có sẵn, việc lắp đặt thêm các cảm biến ở khắp mọi nơi (Internet of things) và việc đưa tất cả các thông tin đó lên mạng, giúp việc trao đổi thông tin đơn giản và hiệu quả hơn, giờ đây người có thể nói chuyện được với người, máy “giao tiếp” được với người và máy giao tiếp được với máy.

Câu hỏi 3 : Lực cản ngăn cản sự phát triển của dữ liệu lớn tại Việt Nam là gì?

  • Chúng ta có thể liệt kê ra một số trở ngại sau:
  • Đầu tiên là trở ngại về tâm lý và tư duy. Hiểu biết tường tận về thống kê và khoa học ở Việt Nam chưa phát triển bằng nước ngoài, các khái niệm vẫn còn được dùng lẫn lộn với nhau.
  • Chúng ta chưa quan tâm nhiều đến hiệu năng (do tài nguyên chúng ta rất thừa thãi, ví dụ như nước dùng trong nông nghiệp không thiếu như ở Israel).
  • Nền tảng về logic, lập luận còn yếu.

Phần 2: Liệu tính riêng tư có còn tồn tại trong kỉ nguyên dữ liệu lớn?

Sự bùng nổ của internet và các thiết bị được kết nối cũng đi cùng với việc sự riêng tư của chúng ta đang bị tác động nghiêm trọng. Dù nhận ra hay không, các thiết bị xung quanh chúng ta đang từng ngày từng giờ thu thập dữ liệu về mọi hoạt động của chúng ta một cách lặng lẽ, và với một mức độ chi tiết đáng kinh ngạc. Sự riêng tư đang bị giết chết, và thủ phạm không phải ai khác ngoài Internet.

Lý do chính chúng ta nên lo ngại điều này là chúng ta không, hoặc có rất ít khả năng kiểm soát việc các thông tin của chúng ta sẽ được sử dụng như thế nào một khi đã được thu thập. Liệu có chắc tất cả những việc thu thập dữ liệu người dùng của các công ty Internet là để “mang lại trải nghiệm tốt hơn cho người dùng” như những gì vẫn được hứa hẹn? Việc mất đi khả năng kiểm soát những thông tin riêng tư cũng có nghĩa là chúng ta đang dần mất đi quyền được tự do lựa chọn. Một khi đã khai thác được những thông tin đó của bạn, các tổ chức hoàn toàn có khả năng đưa ra những dự đoán, phân loại và điều chỉnh nhằm tác động, hay xa hơn nữa là kiểm soát hành vi của của chính bạn.

Đọc thêm về các quan điểm xung quanh quyền được lãng quên trong thời đại số tại đây:

http://vn.techinasia.com/quan-diem-trai-nguoc-cua-my-va-eu-xung-quanh-phan-quyet-ve-quyen-duoc-lang-quen

Phần 3: Dữ liệu lớn đã thay đổi giáo dục đại chúng như thế nào?

Mô hình giáo dục hiện tại có nhược điểm:

Đánh giá học sinh thông qua các bài kiểm tra: tốn kém chi phí, thời gian, việc đánh giá không được thường xuyên. Học sinh phát sinh tâm lý học để thi và chỉ nỗ lực học những thứ liên quan đến thi, vào gần ngày thi.

Thiết kế giáo trình tập trung: người thiết kế giáo trình rất khó nhận được phản hồi từ học sinh, không biết học sinh có hiểu bài tốt không, cần chỉnh sửa giáo trình như thế nào. Người giáo viên phải lặp đi lặp lại một bài giảng, mất cảm hứng dạy học.

Nhóm học sinh theo lứa tuổi, giáo dục tập trung, bắt buộc: chương trình học không thể phù hợp với tất cả học sinh, người học nhanh sẽ phải học cùng lớp với người học chậm. Hơn nữa học sinh bị đánh giá theo cùng một cách, không phù hợp với từng điểm mạnh điểm yếu của học sinh. Cách giáo dục này khiến học sinh không phát triển được bản thân một cách tốt nhất.

Dữ liệu lớn cải thiện được giáo dục đại chúng:

Dữ liệu lớn giảm chi phí của việc thu thập dữ liệu hành vi học sinh: với công nghệ này, các hoạt động của học viên như họ xem lại video bài giảng nào, họ thấy chỗ nào cần xem nhiều lần, chỗ nào có thể bỏ qua, họ gặp vướng mắc ở phần nào… đều được lưu trữ và xử lý. Việc thu thập dữ liệu này là thường xuyên và tự động, người dùng sẽ không nhận ra mình đang bị theo dõi. Vì vậy người học sẽ được đánh giá chính xác hơn, không còn tâm lý học vì thi mà tập trung vào học vì kiến thức. Người dạy có thể biết được chương trình học cần thay đổi ở đâu để phù hợp với học sinh hơn.

Big data giúp thiết kế giáo trình phù hợp hơn với khả năng của từng học sinh: Thông qua việc xử lý dữ liệu, hệ thống sẽ biết học viên nào học tốt ở đâu và có thể thay đổi chương trình học để phù hợp với họ.

Đọc thêm về việc công nghệ đang khiến nền giáo dục đại chúng thay đổi tại đây:

http://vn.techinasia.com/cong-nghe-dang-khien-nen-giao-duc-dai-chung-hien-tai-tro-nen-loi-thoi-ra-sao/

Câu hỏi 1: Giáo dục đại chúng đang lỗi thời như thế nào?

Giáo dục đại chúng có thể được cải thiện bởi dữ liệu lớn tại hai điểm:

Vấn đề đánh giá học sinh: mô hình truyền thống đánh giá học sinh thông qua bài kiểm tra, đây là không thường xuyên, tốn kém tiền bạc và thời gian. Trong thời đại dữ liệu lớn, chúng ta có thể theo dõi chính xác hành vi tương tác của thành viên với bài giảng, từ đó biết được mức độ hiểu bài của người học nhanh chóng hơn.

Vấn đề cá nhân hóa: dữ liệu lớn cho phép thiết kế bài giảng phù hợp cho từng người một: người học nhanh có thể được cung cấp những bài giảng nâng cao, tránh nhàm chán, còn người học chậm sẽ được cung cấp bài giảng kĩ càng, phù hợp với trình độ của mình.

Câu hỏi 2: 2% dữ liệu chưa được số hóa là gì?

Dữ liệu chưa được số hóa có thể do trở ngại về ngôn ngữ, ví dụ như sách tiếng Việt chưa được số hóa vì khả năng nhận diện tiếng Việt của máy tính còn chưa tốt bằng tiếng Anh.

Câu hỏi 3: Ai được sở hữu dữ liệu mà mình tạo ra trên mạng?

Đây là vấn đề phức tạp mang tính triết học cao về quyền sở hữu và tư hữu và có thể bàn tới trong một buổi khác.

Câu hỏi 4: Ở Singapore chính phủ thu thập dữ liệu về người dân để thực hiện các nghiên cứu, bạn có nghĩ kết quả nghiên cứu đó nên được công khai không?

Câu trả lời đơn giản là: Những nghiên cứu được thực hiện bởi tiền thuế của dân thì người dân có quyền đòi hỏi và truy cập và sử dụng những kết quả đó. Tuy nhiên vấn đề sẽ phức tạp hơn khi bây giờ rất nhiều nghiên cứu được thực hiện bởi các công ty, do tiền của công ty bỏ ra.

Một vài phát biểu của GS Chu Hảo để kết thúc chương trình

  •  Tháp DIKW (data – Information – Knowledge – Wisdom) gợi ý rằng dữ liệu cần phải được xử lý, chắt lọc mới thu được thứ hữu ích. Vì thế tháp có đáy lớn và phần chóp nhỏ.
  • Khi dữ liệu lớn phát triển nhảy vọt, theo quy luật thay đổi về lượng dẫn tới thay đổi về chất, chúng ta có thể trông chờ một sự thay đổi về chất của mô hinh xử lý thông tin, tích lũy tri thức.
  • Nếu có lượng kiến thức đủ lớn, thêm 1 kiến thức vào hệ thống đã có n kiến thức không dẫn đến n + 1 kiến thức mà dẫn đến (n + 1)! kiến thức.
  • Trong khi tiếp cận với dữ liệu lớn, chúng ta rất cần phân biệt sự khác nhau giữa khoa học và công nghệ. Khoa học là việc phát hiện quy luật sẵn trong thiên nhiên, vì vậy không ai sở hữu nó; chỉ có công nghệ mới có thể thương mại hóa.
Share
Share:

3 comments

Leave a reply

Your email address will not be published. Required fields are marked *