อ่าน 41 นาที
ข้อมูลขนาดใหญ่
ข้อมูลขนาดใหญ่โดยหลักแล้วหมายถึงชุดข้อมูล ที่มีขนาดใหญ่หรือซับซ้อนเกินกว่าที่ ซอฟต์แวร์ประมวลผลข้อมูล แบบดั้งเดิมจะจัดการได้ข้อมูลที่มีรายการ (แถว) จำนวนมากจะให้พลังทางสถิติ...
ข้อมูลขนาดใหญ่

ข้อมูลขนาดใหญ่โดยหลักแล้วหมายถึงชุดข้อมูล ที่มีขนาดใหญ่หรือซับซ้อนเกินกว่าที่ ซอฟต์แวร์ประมวลผลข้อมูล แบบดั้งเดิมจะจัดการได้ข้อมูลที่มีรายการ (แถว) จำนวนมากจะให้พลังทางสถิติ ที่มากขึ้น ในขณะที่ข้อมูลที่มีความซับซ้อนสูงกว่า (มีคุณลักษณะหรือคอลัมน์มากขึ้น) อาจนำไปสู่อัตราการค้นพบที่ผิดพลาด ที่สูง ขึ้น[ 1 ]
ความท้าทายในการวิเคราะห์ข้อมูลขนาดใหญ่ ได้แก่การรวบรวมข้อมูลการจัดเก็บข้อมูลการวิเคราะห์ข้อมูลการค้นหาการแบ่งปันการถ่ายโอนการแสดงภาพการสอบถาม การอัปเดตความเป็นส่วนตัวของข้อมูลและแหล่งข้อมูล เดิมทีข้อมูลขนาดใหญ่เกี่ยวข้องกับแนวคิดหลักสามประการ ได้แก่ปริมาณความหลากหลายและความเร็ว[ 2 ]การวิเคราะห์ข้อมูลขนาดใหญ่ที่มีเพียงปริมาณ ความเร็ว และความหลากหลาย อาจก่อให้เกิดความท้าทายในการสุ่มตัวอย่าง ดังนั้นจึงมีการเพิ่ม แนวคิดที่สี่ คือความถูกต้องซึ่งหมายถึงระดับความน่าเชื่อถือของข้อมูล[ 3 ]หากไม่มีการลงทุนอย่างเพียงพอในความเชี่ยวชาญเพื่อให้มั่นใจในความถูกต้องของข้อมูลขนาดใหญ่ ปริมาณและความหลากหลายของข้อมูลอาจก่อให้เกิดต้นทุนและความเสี่ยงที่เกินขีดความสามารถขององค์กรในการสร้างและรวบรวมมูลค่าจากข้อมูลขนาดใหญ่[ 4 ]
การใช้คำว่าบิ๊กดาต้า ในปัจจุบัน มักหมายถึงการใช้การวิเคราะห์เชิงทำนายการวิเคราะห์พฤติกรรมผู้ใช้หรือวิธีการวิเคราะห์ข้อมูลขั้นสูงอื่นๆ ที่ดึงคุณค่าจากบิ๊กดาต้า และไม่ค่อยหมายถึงขนาดของชุดข้อมูลโดยเฉพาะ “ไม่ต้องสงสัยเลยว่าปริมาณข้อมูลที่มีอยู่ในปัจจุบันนั้นมีขนาดใหญ่จริง แต่ไม่ใช่ลักษณะที่สำคัญที่สุดของระบบนิเวศข้อมูลใหม่นี้” [ 5 ] การวิเคราะห์ชุดข้อมูลสามารถค้นหาความสัมพันธ์ใหม่ๆ เพื่อ “ระบุแนวโน้มทางธุรกิจ ป้องกันโรค ต่อสู้กับอาชญากรรม และอื่นๆ” [ 6 ]นักวิทยาศาสตร์ ผู้บริหารธุรกิจ แพทย์ นักโฆษณา และรัฐบาลต่างประสบปัญหาเกี่ยวกับชุดข้อมูลขนาดใหญ่เป็นประจำในด้านต่างๆ เช่นการค้นหาทางอินเทอร์เน็ตฟินเทค การวิเคราะห์ด้านการดูแลสุขภาพ ระบบสารสนเทศทางภูมิศาสตร์ สารสนเทศเมืองและสารสนเทศธุรกิจนักวิทยาศาสตร์พบข้อจำกัดใน การทำงาน ด้านวิทยาศาสตร์อิเล็กทรอนิกส์เช่นอุตุนิยมวิทยาจีโนมิกส์ [ 7 ]คอนเน็กโทมิกส์การจำลองทางฟิสิกส์ที่ซับซ้อน ชีววิทยา และการวิจัยด้านสิ่งแวดล้อม[ 8 ]
ขนาดและจำนวนของชุดข้อมูลที่มีอยู่เพิ่มขึ้นอย่างรวดเร็ว เนื่องจากมีการรวบรวมข้อมูลโดยอุปกรณ์ต่างๆ เช่น อุปกรณ์ เคลื่อนที่ อุปกรณ์Internet of Things (IoT) ที่ตรวจจับข้อมูลราคาถูกและมีจำนวนมากอุปกรณ์ทางอากาศ ( การสำรวจระยะไกล ) บันทึกซอฟต์แวร์ กล้องไมโครโฟนเครื่องอ่าน RFID และเครือข่ายเซ็นเซอร์ไร้สาย[ 9 ] [ 10 ] ความสามารถทางเทคโนโลยี ต่อหัวของโลกในการจัดเก็บข้อมูลเพิ่มขึ้นเป็นสองเท่าโดยประมาณทุกๆ 40 เดือนนับตั้งแต่ทศวรรษ 1980 [ 11 ]ณ ปี 2012 มีการสร้างข้อมูล 2.5 เอ็กซาไบต์ (2.17 × 2⁶⁰ ไบต์) ทุกวัน [ 12 ]จากการคาดการณ์ใน รายงานของ IDCปริมาณข้อมูลทั่วโลกคาดว่าจะเติบโตแบบทวีคูณจาก 4.4 เซตตาไบต์เป็น 44 เซตตาไบต์ระหว่างปี 2013 ถึง 2020 และภายในปี 2025 IDC คาดการณ์ว่าจะมีข้อมูล 163 เซตตาไบต์[ 13 ]จากข้อมูลของ IDC คาดว่าการใช้จ่ายทั่วโลกสำหรับโซลูชันบิ๊กดาต้าและการวิเคราะห์ธุรกิจ (BDA) จะสูงถึง 215.7 พันล้านดอลลาร์ในปี 2021 [ 14 ] [ 15 ] Statistaรายงานว่าตลาดบิ๊กดาต้าทั่วโลกคาดว่าจะเติบโตถึง 103 พันล้านดอลลาร์ภายในปี 2027 [ 16 ]ในปี 2011 McKinsey & Companyรายงานว่า หากภาคการดูแลสุขภาพของสหรัฐฯ ใช้บิ๊กดาต้าอย่างสร้างสรรค์และมีประสิทธิภาพเพื่อขับเคลื่อนประสิทธิภาพและคุณภาพ ภาคส่วนนี้สามารถสร้างมูลค่าได้มากกว่า 300 พันล้านดอลลาร์ทุกปี[ 17 ]ในประเทศเศรษฐกิจที่พัฒนาแล้วของยุโรป ผู้บริหารภาครัฐสามารถประหยัดเงินได้มากกว่า 100 พันล้านยูโร (149 พันล้านดอลลาร์) จากการปรับปรุงประสิทธิภาพการดำเนินงานเพียงอย่างเดียวโดยใช้บิ๊กดาต้า[ 17 ]และผู้ใช้บริการที่เปิดใช้งานโดยข้อมูลตำแหน่งส่วนบุคคลสามารถสร้างส่วนเกินของผู้บริโภคได้ถึง 600 พันล้านดอลลาร์[ 17 ]คำถามหนึ่งสำหรับองค์กรขนาดใหญ่คือการกำหนดว่าใครควรเป็นเจ้าของโครงการบิ๊กดาต้าที่ส่งผลกระทบต่อทั้งองค์กร[ 18 ]
ระบบจัดการฐานข้อมูลเชิงสัมพันธ์และซอฟต์แวร์สถิติบนเดสก์ท็อปที่ใช้ในการแสดงภาพข้อมูลมักมีปัญหาในการประมวลผลและวิเคราะห์ข้อมูลขนาดใหญ่ การประมวลผลและการวิเคราะห์ข้อมูลขนาดใหญ่อาจต้องใช้ "ซอฟต์แวร์แบบขนานขนาดใหญ่ที่ทำงานบนเซิร์ฟเวอร์หลายสิบ หลายร้อย หรือแม้แต่หลายพันเครื่อง" [ 19 ]สิ่งที่ถือว่าเป็น "ข้อมูลขนาดใหญ่" นั้นแตกต่างกันไปขึ้นอยู่กับความสามารถของผู้ที่วิเคราะห์และเครื่องมือของพวกเขา ยิ่งไปกว่านั้น ความสามารถที่ขยายตัวทำให้ข้อมูลขนาดใหญ่เป็นเป้าหมายที่เปลี่ยนแปลงได้ "สำหรับบางองค์กร การเผชิญกับข้อมูลหลายร้อยกิกะไบต์เป็นครั้งแรกอาจกระตุ้นให้ต้องพิจารณาตัวเลือกการจัดการข้อมูลใหม่ สำหรับองค์กรอื่นๆ อาจต้องใช้ข้อมูลหลายสิบหรือหลายร้อยเทราไบต์ก่อนที่ขนาดข้อมูลจะกลายเป็นสิ่งที่ต้องพิจารณาอย่างมีนัยสำคัญ" [ 20 ]
คำนิยาม
คำว่าบิ๊กดาต้าถูกใช้มาตั้งแต่ทศวรรษ 1990 โดยบางคนให้เครดิตแก่John Masheyในการทำให้คำนี้เป็นที่นิยม[ 21 ] [ 22 ] โดยทั่วไปแล้วบิ๊กดาต้าจะรวมถึงชุดข้อมูลที่มีขนาดใหญ่เกินกว่าความสามารถของเครื่องมือซอฟต์แวร์ที่ใช้กันทั่วไปในการรวบรวม จัดการประมวลผลและประมวลผลข้อมูลภายในระยะเวลาที่ยอมรับได้[ 23 ] ปรัชญาของบิ๊กดาต้าครอบคลุมข้อมูลที่ไม่มีโครงสร้าง ข้อมูลกึ่งโครงสร้าง และข้อมูลที่มีโครงสร้าง อย่างไรก็ตาม จุดเน้นหลักอยู่ที่ข้อมูลที่ไม่มีโครงสร้าง [ 24 ] "ขนาด" ของบิ๊กดาต้าเป็นเป้าหมายที่เปลี่ยนแปลงอยู่ตลอดเวลา ณ ปี 2012 มีขนาดตั้งแต่ไม่กี่สิบเทราไบต์ไปจนถึงหลายเซตตาไบต์[ 25 ] บิ๊กดาต้าต้องการชุดเทคนิคและเทคโนโลยีที่มีรูปแบบการบูรณาการ ใหม่ เพื่อเปิดเผยข้อมูลเชิงลึกจากชุดข้อมูลที่หลากหลาย ซับซ้อน และมีขนาดใหญ่มาก[ 26 ]ความแปรปรวนมักถูกรวมไว้เป็นคุณลักษณะเพิ่มเติมของบิ๊กดาต้า
คำจำกัดความในปี 2018 ระบุว่า "บิ๊กดาต้าคือที่ที่ จำเป็นต้องใช้เครื่องมือ ประมวลผลแบบขนานเพื่อจัดการข้อมูล" และตั้งข้อสังเกตว่า "สิ่งนี้แสดงถึงการเปลี่ยนแปลงที่แตกต่างและชัดเจนในวิทยาศาสตร์คอมพิวเตอร์ที่ใช้ ผ่านทฤษฎีการเขียนโปรแกรมแบบขนาน และการสูญเสียการรับประกันและความสามารถบางประการที่สร้างขึ้นโดยแบบจำลองเชิงสัมพันธ์ของ Codd " [ 27 ]
ในการศึกษาเปรียบเทียบชุดข้อมูลขนาดใหญ่Kitchinและ McArdle พบว่าไม่มีลักษณะใดที่ถือว่าเป็นข้อมูลขนาดใหญ่ที่ปรากฏขึ้นอย่างสม่ำเสมอในทุกกรณีที่วิเคราะห์[ 28 ]ด้วยเหตุนี้ การศึกษาอื่นๆ จึงระบุถึงการกำหนดนิยามใหม่ของพลวัตอำนาจในการค้นพบความรู้ว่าเป็นลักษณะเฉพาะ[ 29 ]แทนที่จะมุ่งเน้นไปที่ลักษณะเฉพาะของข้อมูลขนาดใหญ่ มุมมองทางเลือกนี้ผลักดันความเข้าใจเชิงสัมพันธ์ของวัตถุ โดยอ้างว่าสิ่งที่สำคัญคือวิธีการรวบรวม จัดเก็บ ทำให้พร้อมใช้งาน และวิเคราะห์ข้อมูล
ข้อมูลขนาดใหญ่เทียบกับระบบวิเคราะห์ข้อมูลทางธุรกิจ
แนวคิดที่เติบโตเต็มที่มากขึ้นทำให้เห็นความแตกต่างระหว่าง "บิ๊กดาต้า" และ " ธุรกิจอัจฉริยะ " ได้ชัดเจนยิ่งขึ้น: [ 30 ]
- ระบบธุรกิจอัจฉริยะใช้เครื่องมือทางคณิตศาสตร์ประยุกต์และสถิติเชิงพรรณนากับข้อมูลที่มีความหนาแน่นของข้อมูลสูง เพื่อวัดสิ่งต่างๆ ตรวจจับแนวโน้ม ฯลฯ
- ข้อมูลขนาดใหญ่ใช้การวิเคราะห์ทางคณิตศาสตร์ การเพิ่มประสิทธิภาพสถิติเชิงอุปนัยและแนวคิดจากการระบุระบบที่ไม่เป็นเชิงเส้น[ 31 ]เพื่ออนุมานกฎ (การถดถอย ความสัมพันธ์ที่ไม่เป็นเชิงเส้น และผลกระทบเชิงสาเหตุ) จากชุดข้อมูลขนาดใหญ่ที่มีความหนาแน่นของข้อมูลต่ำ[ 32 ]เพื่อเปิดเผยความสัมพันธ์และการพึ่งพา หรือเพื่อทำการทำนายผลลัพธ์และพฤติกรรม[ 31 ] [ 33 ]
ลักษณะเฉพาะ

ข้อมูลขนาดใหญ่สามารถอธิบายได้ด้วยลักษณะดังต่อไปนี้:
- ปริมาณ
- ปริมาณข้อมูลที่สร้างและจัดเก็บ ขนาดของข้อมูลเป็นตัวกำหนดคุณค่าและข้อมูลเชิงลึกที่เป็นไปได้ และพิจารณาว่าข้อมูลนั้นถือเป็นบิ๊กดาต้าหรือไม่ ขนาดของบิ๊กดาต้าโดยทั่วไปจะมีขนาดใหญ่กว่าเทราไบต์และเพตาไบต์[ 34 ]
- ความหลากหลาย
- ประเภทและลักษณะของข้อมูล เทคโนโลยีรุ่นก่อนๆ เช่น RDBMS สามารถจัดการกับข้อมูลที่มีโครงสร้างได้อย่างมีประสิทธิภาพและประสิทธิผล อย่างไรก็ตาม การเปลี่ยนแปลงประเภทและลักษณะจากข้อมูลที่มีโครงสร้างไปเป็นข้อมูลกึ่งโครงสร้างหรือไม่มีโครงสร้างนั้น เป็นความท้าทายสำหรับเครื่องมือและเทคโนโลยีที่มีอยู่ เทคโนโลยีบิ๊กดาต้าจึงพัฒนาขึ้นโดยมีจุดประสงค์หลักในการรวบรวม จัดเก็บ และประมวลผลข้อมูลกึ่งโครงสร้างและไม่มีโครงสร้าง (หลากหลายประเภท) ที่สร้างขึ้นด้วยความเร็วสูง (ความเร็ว) และมีขนาดใหญ่ (ปริมาณ) ต่อมา เครื่องมือและเทคโนโลยีเหล่านี้ได้รับการสำรวจและนำมาใช้ในการจัดการกับข้อมูลที่มีโครงสร้างด้วย แต่ส่วนใหญ่จะใช้สำหรับการจัดเก็บ ในที่สุด การประมวลผลข้อมูลที่มีโครงสร้างยังคงเป็นทางเลือกเสริม ไม่ว่าจะใช้บิ๊กดาต้าหรือ RDBMS แบบดั้งเดิมก็ตาม สิ่งนี้ช่วยในการวิเคราะห์ข้อมูลเพื่อการใช้งานอย่างมีประสิทธิภาพของข้อมูลเชิงลึกที่ซ่อนอยู่ซึ่งเปิดเผยจากข้อมูลที่รวบรวมผ่านโซเชียลมีเดีย ไฟล์บันทึก เซ็นเซอร์ ฯลฯ บิ๊กดาต้าดึงข้อมูลจากข้อความ รูปภาพ เสียง วิดีโอ และยังเติมเต็มส่วนที่ขาดหายไปผ่านการหลอมรวมข้อมูล อีก ด้วย
- ความเร็ว
- ความเร็วในการสร้างและประมวลผลข้อมูลเพื่อตอบสนองความต้องการและความท้าทายที่อยู่ในเส้นทางการเติบโตและการพัฒนา ข้อมูลขนาดใหญ่มักพร้อมใช้งานแบบเรียลไทม์ เมื่อเปรียบเทียบกับข้อมูลขนาดเล็กข้อมูลขนาดใหญ่จะถูกสร้างขึ้นอย่างต่อเนื่องมากกว่า ความเร็วสองประเภทที่เกี่ยวข้องกับข้อมูลขนาดใหญ่ ได้แก่ ความถี่ในการสร้างและความถี่ในการจัดการ บันทึก และเผยแพร่[ 35 ]
- ความจริง
- ความถูกต้องหรือความน่าเชื่อถือของข้อมูล ซึ่งหมายถึงคุณภาพของข้อมูลและคุณค่าของข้อมูล[ 36 ]ข้อมูลขนาดใหญ่ไม่เพียงแต่ต้องมีขนาดใหญ่เท่านั้น แต่ยังต้องมีความน่าเชื่อถือเพื่อให้ได้คุณค่าในการวิเคราะห์คุณภาพของข้อมูลที่รวบรวมได้อาจแตกต่างกันอย่างมาก ซึ่งส่งผลต่อการวิเคราะห์ที่แม่นยำ[ 37 ]
- ค่า
- คุณค่าของข้อมูลที่สามารถบรรลุได้จากการประมวลผลและการวิเคราะห์ชุดข้อมูลขนาดใหญ่ คุณค่ายังสามารถวัดได้จากการประเมินคุณภาพอื่นๆ ของข้อมูลขนาดใหญ่[ 38 ]คุณค่ายังอาจแสดงถึงผลกำไรของข้อมูลที่ได้รับจากการวิเคราะห์ข้อมูลขนาดใหญ่
- ความแปรปรวน
- ต่างจากความหลากหลาย ความแปรปรวนแสดงถึงแนวคิดที่ว่ารูปแบบ โครงสร้าง หรือแหล่งที่มาของข้อมูลขนาดใหญ่เปลี่ยนแปลงไปตามกาลเวลาและสถานการณ์ที่แตกต่างกัน การตีความข้อมูลขึ้นอยู่กับบริบทที่เปลี่ยนแปลงไป และด้วยบริบทที่แตกต่างกัน ความหมายเดิมอาจใช้ไม่ได้อีกต่อไป[ 39 ]
ลักษณะอื่นๆ ที่เป็นไปได้ของข้อมูลขนาดใหญ่ ได้แก่: [ 40 ]
- หมดจด
- ไม่ว่าระบบทั้งหมด (เช่นทั้งหมด) จะถูกบันทึกหรือเก็บรวบรวมไว้หรือไม่ก็ตาม ข้อมูลขนาดใหญ่อาจรวมหรือไม่รวมข้อมูลทั้งหมดที่มีอยู่จากแหล่งข้อมูลต่างๆ ก็ได้
- ละเอียดและมีคำศัพท์เฉพาะตัว
- โดยพิจารณาจากสัดส่วนของข้อมูลเฉพาะของแต่ละองค์ประกอบต่อองค์ประกอบที่รวบรวมได้ และว่าองค์ประกอบและลักษณะเฉพาะขององค์ประกอบนั้นได้รับการจัดทำดัชนีหรือระบุอย่างถูกต้องหรือไม่
- ความสัมพันธ์
- หากข้อมูลที่รวบรวมมีฟิลด์ที่เหมือนกัน ซึ่งจะช่วยให้สามารถรวมหรือวิเคราะห์ข้อมูลชุดต่างๆ เข้าด้วยกันได้
- การขยายตัว
- หากสามารถเพิ่มหรือเปลี่ยนแปลงฟิลด์ใหม่ในแต่ละองค์ประกอบของข้อมูลที่รวบรวมได้นั้นทำได้ง่าย
- ความสามารถในการปรับขนาด
- หากขนาดของระบบจัดเก็บข้อมูลขนาดใหญ่สามารถขยายตัวได้อย่างรวดเร็ว
สถาปัตยกรรม
คลังข้อมูลขนาดใหญ่มีอยู่หลายรูปแบบ มักสร้างขึ้นโดยบริษัทที่มีความต้องการเฉพาะ ผู้ขายเชิงพาณิชย์ได้นำเสนอระบบจัดการฐานข้อมูลแบบขนานสำหรับข้อมูลขนาดใหญ่มาตั้งแต่ช่วงทศวรรษ 1990 เป็นเวลาหลายปีที่ WinterCorp ได้เผยแพร่รายงานฐานข้อมูลที่ใหญ่ที่สุด[ 41 ]
บริษัท Teradata Corporation ได้วางจำหน่ายระบบประมวลผลแบบขนาน DBC 1012ในปี 1984 ระบบของ Teradata เป็นระบบแรกที่สามารถจัดเก็บและวิเคราะห์ข้อมูลขนาด 1 เทราไบต์ได้ในปี 1992 ขณะนั้นฮาร์ดดิสก์ไดรฟ์มีความจุ 2.5 GB ในปี 1991 ดังนั้นนิยามของบิ๊กดาต้าจึงมีการเปลี่ยนแปลงอย่างต่อเนื่อง Teradata ได้ติดตั้งระบบฐานข้อมูลเชิงสัมพันธ์ (RDBMS) ระดับเพตาไบต์เป็นครั้งแรกในปี 2007 ณ ปี 2017 มีฐานข้อมูลเชิงสัมพันธ์ของ Teradata ระดับเพตาไบต์ติดตั้งอยู่หลายสิบแห่ง โดยฐานข้อมูลที่ใหญ่ที่สุดมีขนาดเกิน 50 PB ระบบต่างๆ จนถึงปี 2008 เป็นข้อมูลเชิงสัมพันธ์แบบมีโครงสร้าง 100% หลังจากนั้น Teradata ได้เพิ่มประเภทข้อมูลกึ่งโครงสร้าง เช่นXML , JSONและAvro เข้า มา
ในปี 2000 Seisint Inc. (ปัจจุบันคือLexisNexis Risk Solutions ) ได้พัฒนา แพลตฟอร์มแบบกระจายที่ใช้ C++สำหรับการประมวลผลและการสอบถามข้อมูล ซึ่งรู้จักกันในชื่อ แพลตฟอร์ม HPCC Systemsระบบนี้จะแบ่งพาร์ติชัน กระจาย จัดเก็บ และส่งมอบข้อมูลที่มีโครงสร้าง กึ่งโครงสร้าง และไม่มีโครงสร้างโดยอัตโนมัติไปยังเซิร์ฟเวอร์ทั่วไปหลายเครื่อง ผู้ใช้สามารถเขียนไปป์ไลน์การประมวลผลข้อมูลและการสอบถามในภาษาการเขียนโปรแกรมการไหลของข้อมูลแบบประกาศที่เรียกว่า ECL นักวิเคราะห์ข้อมูลที่ทำงานใน ECL ไม่จำเป็นต้องกำหนดสคีมาข้อมูลล่วงหน้า แต่สามารถมุ่งเน้นไปที่ปัญหาเฉพาะหน้า ปรับเปลี่ยนข้อมูลในลักษณะที่ดีที่สุดเท่าที่จะเป็นไปได้ในขณะที่พวกเขากำลังพัฒนาโซลูชัน ในปี 2004 LexisNexis ได้เข้าซื้อกิจการ Seisint Inc. [ 42 ]และแพลตฟอร์มการประมวลผลแบบขนานความเร็วสูงของพวกเขา และประสบความสำเร็จในการใช้แพลตฟอร์มนี้เพื่อรวมระบบข้อมูลของ Choicepoint Inc. เมื่อพวกเขาเข้าซื้อกิจการบริษัทนั้นในปี 2008 [ 43 ]ในปี 2011 แพลตฟอร์ม HPCC Systems ได้เปิดเป็นโอเพนซอร์สภายใต้ Apache v2.0 License
CERNและการทดลองทางฟิสิกส์อื่นๆ ได้รวบรวมชุดข้อมูลขนาดใหญ่มาเป็นเวลาหลายทศวรรษ โดยมักวิเคราะห์ผ่านการประมวลผลที่มีประสิทธิภาพสูงมากกว่าสถาปัตยกรรมแบบ map-reduce ที่มักหมายถึงในกระแส "บิ๊กดาต้า" ในปัจจุบัน
ในปี 2547 Googleได้เผยแพร่เอกสารเกี่ยวกับกระบวนการที่เรียกว่าMapReduceซึ่งใช้สถาปัตยกรรมที่คล้ายกัน แนวคิด MapReduce ให้โมเดลการประมวลผลแบบขนาน และมีการเผยแพร่การใช้งานที่เกี่ยวข้องเพื่อประมวลผลข้อมูลจำนวนมหาศาล ด้วย MapReduce คำถามจะถูกแบ่งและกระจายไปยังโหนดแบบขนานและประมวลผลแบบขนาน (ขั้นตอน "map") จากนั้นผลลัพธ์จะถูกรวบรวมและส่งมอบ (ขั้นตอน "reduce") เฟรมเวิร์กนี้ประสบความสำเร็จอย่างมาก[ 44 ]ดังนั้นผู้อื่นจึงต้องการจำลองอัลกอริทึมนี้ ด้วยเหตุนี้การใช้งานเฟรมเวิร์ก MapReduce จึงได้รับการนำไปใช้โดยโครงการโอเพนซอร์สของ Apache ที่ชื่อว่า " Hadoop " [ 45 ] Apache Sparkได้รับการพัฒนาในปี 2555 เพื่อตอบสนองต่อข้อจำกัดในกระบวนทัศน์ MapReduce เนื่องจากเพิ่มการประมวลผลในหน่วยความจำและความสามารถในการตั้งค่าการดำเนินการหลายอย่าง (ไม่ใช่แค่ map ตามด้วย reducing)
MIKE2.0เป็นแนวทางแบบเปิดในการจัดการข้อมูลที่ยอมรับความจำเป็นในการแก้ไขเนื่องจากผลกระทบของข้อมูลขนาดใหญ่ที่ระบุไว้ในบทความชื่อ "ข้อเสนอโซลูชันข้อมูลขนาดใหญ่" [ 46 ]วิธีการนี้กล่าวถึงการจัดการข้อมูลขนาดใหญ่ในแง่ของการเรียงลำดับแหล่งข้อมูล ที่มีประโยชน์ ความซับซ้อนในความสัมพันธ์ระหว่างกัน และความยากลำบากในการลบ (หรือแก้ไข) บันทึกแต่ละรายการ[ 47 ]
การศึกษาในปี 2012 แสดงให้เห็นว่าสถาปัตยกรรมแบบหลายชั้นเป็นหนึ่งในตัวเลือกในการแก้ไขปัญหาที่เกิดจากข้อมูลขนาดใหญ่ สถาปัตยกรรม แบบขนานแบบกระจายจะกระจายข้อมูลไปยังเซิร์ฟเวอร์หลายเครื่อง สภาพแวดล้อมการประมวลผลแบบขนานเหล่านี้สามารถปรับปรุงความเร็วในการประมวลผลข้อมูลได้อย่างมาก สถาปัตยกรรมประเภทนี้จะแทรกข้อมูลลงใน DBMS แบบขนาน ซึ่งใช้เฟรมเวิร์ก MapReduce และ Hadoop เฟรมเวิร์กประเภทนี้มุ่งทำให้พลังการประมวลผลโปร่งใสต่อผู้ใช้ปลายทางโดยใช้เซิร์ฟเวอร์แอปพลิเคชันส่วนหน้า[ 48 ]
ดาต้าเลคช่วยให้องค์กรสามารถเปลี่ยนจุดสนใจจากการควบคุมส่วนกลางไปสู่รูปแบบการแบ่งปันเพื่อตอบสนองต่อพลวัตที่เปลี่ยนแปลงไปของการจัดการข้อมูล ซึ่งช่วยให้สามารถแยกข้อมูลเข้าสู่ดาต้าเลคได้อย่างรวดเร็ว จึงช่วยลดเวลาในการทำงาน[ 49 ] [ 50 ]
เทคโนโลยี
รายงานของ McKinsey Global Instituteในปี 2011 ระบุลักษณะส่วนประกอบหลักและระบบนิเวศของข้อมูลขนาดใหญ่ไว้ดังนี้: [ 51 ]
- เทคนิคการวิเคราะห์ข้อมูล เช่นการทดสอบ A/B , การเรียนรู้ของเครื่องและการประมวลผลภาษาธรรมชาติ
- เทคโนโลยีบิ๊กดาต้า เช่นระบบวิเคราะห์ข้อมูลทางธุรกิจ (Business Intelligence) , การประมวลผลแบบคลาวด์ (Cloud Computing ) และฐานข้อมูล
- การแสดงผลข้อมูลด้วยภาพ เช่น แผนภูมิ กราฟ และการแสดงข้อมูลในรูปแบบอื่นๆ
ข้อมูลขนาดใหญ่หลายมิติยังสามารถแสดงเป็น คิวบ์ข้อมูล OLAPหรือในทางคณิตศาสตร์เป็นเทนเซอร์ได้อีกด้วย ระบบฐานข้อมูลแบบอาร์เรย์ได้ตั้งเป้าที่จะให้การจัดเก็บและการสนับสนุนการสืบค้นระดับสูงสำหรับข้อมูลประเภทนี้ เทคโนโลยีเพิ่มเติมที่นำมาใช้กับข้อมูลขนาดใหญ่ ได้แก่ การคำนวณแบบเทนเซอร์ที่มีประสิทธิภาพ[ 52 ]เช่นการเรียนรู้ซับสเปซแบบหลายเชิงเส้น [ 53 ] ฐานข้อมูลการประมวลผลแบบขนานขนาด ใหญ่ ( MPP ) แอ ป พลิเค ชันที่ใช้การค้นหาการขุดข้อมูล[ 54 ]ระบบไฟล์แบบกระจายแคชแบบกระจาย (เช่นburst bufferและMemcached ) ฐานข้อมูลแบบกระจาย โครงสร้างพื้นฐานบน คลาวด์และHPC (แอปพลิเคชัน พื้นที่จัดเก็บ และทรัพยากรการคำนวณ) [ 55 ] และอินเทอร์เน็ต แม้ว่าจะมีการพัฒนาแนวทางและเทคโนโลยีมากมาย แต่ก็ยังคง เป็นเรื่องยากที่จะดำเนินการเรียนรู้ของเครื่องกับข้อมูลขนาดใหญ่[ 56 ]
ฐานข้อมูลเชิงสัมพันธ์ MPPบางระบบมีความสามารถในการจัดเก็บและจัดการข้อมูลขนาดเพตาไบต์ ความสามารถในการโหลด ตรวจสอบ สำรองข้อมูล และเพิ่มประสิทธิภาพการใช้งานตารางข้อมูลขนาดใหญ่ในRDBMSเป็น สิ่งที่แฝงอยู่ [ 57 ]
โครงการ วิเคราะห์ข้อมูลเชิงโทโพโลยีของDARPAมุ่งค้นหาโครงสร้างพื้นฐานของชุดข้อมูลขนาดใหญ่ และในปี 2551 เทคโนโลยีนี้ได้เปิดตัวสู่สาธารณะพร้อมกับการเปิดตัวบริษัทชื่อ "Ayasdi" [ 58 ]
โดยทั่วไปแล้ว ผู้ปฏิบัติงานด้านกระบวนการวิเคราะห์ข้อมูลขนาดใหญ่มักไม่ชอบพื้นที่จัดเก็บข้อมูลร่วมที่ช้ากว่า[ 59 ]โดยนิยมใช้พื้นที่จัดเก็บข้อมูลแบบเชื่อมต่อโดยตรง ( DAS ) ในรูปแบบต่างๆ ตั้งแต่ไดรฟ์โซลิดสเตท ( SSD ) ไปจนถึงดิสก์ SATAความจุสูงที่ฝังอยู่ภายในโหนดการประมวลผลแบบขนาน การรับรู้เกี่ยวกับสถาปัตยกรรมพื้นที่จัดเก็บข้อมูลร่วม— เครือข่ายพื้นที่จัดเก็บข้อมูล (SAN) และพื้นที่จัดเก็บข้อมูลแบบเชื่อมต่อเครือข่าย (NAS)—คือค่อนข้างช้า ซับซ้อน และมีราคาแพง คุณสมบัติเหล่านี้ไม่สอดคล้องกับระบบวิเคราะห์ข้อมูลขนาดใหญ่ที่เน้นประสิทธิภาพของระบบ โครงสร้างพื้นฐานที่เป็นสินค้าโภคภัณฑ์ และต้นทุนต่ำ
การส่งข้อมูลแบบเรียลไทม์หรือใกล้เคียงเรียลไทม์เป็นหนึ่งในคุณลักษณะสำคัญของการวิเคราะห์ข้อมูลขนาดใหญ่ ดังนั้นจึงควรหลีกเลี่ยงความล่าช้าทุกครั้งและทุกที่ที่เป็นไปได้ ข้อมูลในหน่วยความจำหรือดิสก์ที่เชื่อมต่อโดยตรงนั้นดี แต่ข้อมูลในหน่วยความจำหรือดิสก์ที่ปลายอีกด้านของ การเชื่อมต่อ FC SANนั้นไม่ดี ต้นทุนของSANในระดับที่จำเป็นสำหรับแอปพลิเคชันการวิเคราะห์นั้นสูงกว่าเทคนิคการจัดเก็บข้อมูลอื่นๆ มาก
แอปพลิเคชัน

ข้อมูลขนาดใหญ่ได้เพิ่มความต้องการผู้เชี่ยวชาญด้านการจัดการข้อมูลอย่างมาก จนกระทั่งบริษัทSoftware AG , Oracle Corporation , IBM , Microsoft , SAP , EMC , HPและDellได้ใช้เงินมากกว่า 15 พันล้านดอลลาร์ไปกับบริษัทซอฟต์แวร์ที่เชี่ยวชาญด้านการจัดการและวิเคราะห์ข้อมูล ในปี 2553 อุตสาหกรรมนี้มีมูลค่ามากกว่า 100 พันล้านดอลลาร์และเติบโตเกือบ 10 เปอร์เซ็นต์ต่อปี ซึ่งเร็วกว่าธุรกิจซอฟต์แวร์โดยรวมถึงสองเท่า[ 6 ]
ประเทศเศรษฐกิจที่พัฒนาแล้วใช้เทคโนโลยีที่เน้นข้อมูลมากขึ้นเรื่อยๆ ทั่วโลกมีผู้สมัครใช้บริการโทรศัพท์มือถือ 4.6 พันล้านราย และมีผู้คนเข้าถึงอินเทอร์เน็ตระหว่าง 1 พันล้านถึง 2 พันล้านคน[ 6 ]ระหว่างปี 1990 ถึง 2005 มีผู้คนมากกว่า 1 พันล้านคนทั่วโลกเข้าสู่ชนชั้นกลาง ซึ่งหมายความว่ามีผู้คนอ่านออกเขียนได้มากขึ้น ซึ่งนำไปสู่การเติบโตของข้อมูล ความสามารถในการแลกเปลี่ยนข้อมูลผ่านเครือข่ายโทรคมนาคมทั่วโลกมี 281 เพตาไบต์ในปี 1986, 471 เพตาไบต์ในปี 1993, 2.2 เอ็กซาไบต์ในปี 2000, 65 เอ็กซาไบต์ในปี 2007 [ 11 ]และมีการคาดการณ์ว่าปริมาณการรับส่งข้อมูลทางอินเทอร์เน็ตจะอยู่ที่ 667 เอ็กซาไบต์ต่อปีภายในปี 2014 [ 6 ]จากการประมาณการหนึ่งพบว่า หนึ่งในสามของข้อมูลที่จัดเก็บทั่วโลกอยู่ในรูปแบบของข้อความตัวอักษรและตัวเลขและข้อมูลภาพนิ่ง[ 61 ]ซึ่งเป็นรูปแบบที่มีประโยชน์มากที่สุดสำหรับแอปพลิเคชันบิ๊กดาต้าส่วนใหญ่ นอกจากนี้ยังแสดงให้เห็นถึงศักยภาพของข้อมูลที่ยังไม่ได้ใช้ (เช่น ในรูปแบบของเนื้อหาวิดีโอและเสียง)
แม้ว่าผู้ขายหลายรายจะนำเสนอผลิตภัณฑ์สำเร็จรูปสำหรับข้อมูลขนาดใหญ่ แต่ผู้เชี่ยวชาญสนับสนุนการพัฒนาระบบที่ปรับแต่งเองภายในองค์กรหากบริษัทมีขีดความสามารถทางเทคนิคที่เพียงพอ[ 62 ]
รัฐบาล
การใช้และการนำข้อมูลขนาดใหญ่มาใช้ในกระบวนการของรัฐบาลช่วยให้เกิดประสิทธิภาพในแง่ของต้นทุน ผลผลิต และนวัตกรรม[ 63 ]แต่ก็มีข้อบกพร่อง การวิเคราะห์ข้อมูลมักต้องอาศัยความร่วมมือจากหลายภาคส่วนของรัฐบาล (ส่วนกลางและส่วนท้องถิ่น) ในการสร้างกระบวนการใหม่และนวัตกรรมเพื่อให้ได้ผลลัพธ์ที่ต้องการ องค์กรภาครัฐทั่วไปที่ใช้ข้อมูลขนาดใหญ่คือสำนักงานความมั่นคงแห่งชาติ (NSA) ซึ่งตรวจสอบกิจกรรมบนอินเทอร์เน็ตอย่างต่อเนื่องเพื่อค้นหารูปแบบกิจกรรมที่น่าสงสัยหรือผิดกฎหมายที่ระบบของพวกเขาอาจตรวจจับได้
ระบบทะเบียนราษฎรและสถิติชีพ (CRVS) รวบรวมข้อมูลสถานะเอกสารต่างๆ ตั้งแต่เกิดจนตาย CRVS เป็นแหล่งข้อมูลขนาดใหญ่สำหรับรัฐบาล
การพัฒนาระหว่างประเทศ
งานวิจัยเกี่ยวกับการใช้งานเทคโนโลยีสารสนเทศและการสื่อสารเพื่อการพัฒนาอย่างมีประสิทธิภาพ (หรือที่รู้จักกันในชื่อ "ICT4D") ชี้ให้เห็นว่าเทคโนโลยีบิ๊กดาต้าสามารถสร้างคุณูปการที่สำคัญได้ แต่ก็ยังนำเสนอความท้าทายที่ไม่เหมือนใครต่อการพัฒนาระหว่างประเทศ[ 64 ] [ 65 ]ความก้าวหน้าในการวิเคราะห์บิ๊กดาต้าเสนอโอกาสที่คุ้มค่าในการปรับปรุงการตัดสินใจในด้านการพัฒนาที่สำคัญ เช่น การดูแลสุขภาพ การจ้างงานผลผลิตทางเศรษฐกิจอาชญากรรม ความปลอดภัย และ การจัดการ ภัยพิบัติทางธรรมชาติและทรัพยากร[ 66 ] [ 67 ] [ 68 ]นอกจากนี้ ข้อมูลที่ผู้ใช้สร้างขึ้นยังมอบโอกาสใหม่ๆ ในการให้เสียงแก่ผู้ที่ไม่มีเสียง[ 69 ]อย่างไรก็ตาม ความท้าทายที่มีมายาวนานสำหรับภูมิภาคที่กำลังพัฒนา เช่น โครงสร้างพื้นฐานทางเทคโนโลยีที่ไม่เพียงพอ และความขาดแคลนทรัพยากรทางเศรษฐกิจและมนุษย์ ทำให้ความกังวลที่มีอยู่เกี่ยวกับบิ๊กดาต้า เช่น ความเป็นส่วนตัว วิธีการที่ไม่สมบูรณ์ และปัญหาการทำงานร่วมกันนั้นรุนแรงขึ้น[ 66 ] ความท้าทายของ "บิ๊กดาต้าเพื่อการพัฒนา" [ 66 ]กำลังพัฒนาไปสู่การประยุกต์ใช้ข้อมูลนี้ผ่านการเรียนรู้ของเครื่อง ซึ่งเรียกว่า "ปัญญาประดิษฐ์เพื่อการพัฒนา (AI4D)" [ 70 ]
ประโยชน์
การประยุกต์ใช้ข้อมูลขนาดใหญ่เพื่อการพัฒนาที่สำคัญอย่างหนึ่งคือ "การต่อสู้กับความยากจนด้วยข้อมูล" [ 71 ]ในปี 2558 Blumenstock และเพื่อนร่วมงานได้ประมาณการความยากจนและความมั่งคั่งที่คาดการณ์ไว้จากข้อมูลเมตาของโทรศัพท์มือถือ[ 72 ]และในปี 2559 Jean และเพื่อนร่วมงานได้รวมภาพถ่ายดาวเทียมและการเรียนรู้ของเครื่องจักรเพื่อคาดการณ์ความยากจน[ 73 ]การใช้ข้อมูลร่องรอยดิจิทัลเพื่อศึกษาตลาดแรงงานและเศรษฐกิจดิจิทัลในละตินอเมริกาHilbertและเพื่อนร่วมงาน[ 74 ] [ 75 ]โต้แย้งว่าข้อมูลร่องรอยดิจิทัลมีประโยชน์หลายประการ เช่น:
- การครอบคลุมตามหัวข้อ: รวมถึงพื้นที่ที่ก่อนหน้านี้ยากหรือไม่สามารถวัดได้
- ขอบเขตทางภูมิศาสตร์: นำเสนอข้อมูลขนาดใหญ่และเปรียบเทียบได้สำหรับเกือบทุกประเทศ รวมถึงประเทศขนาดเล็กจำนวนมากที่มักไม่รวมอยู่ในฐานข้อมูลระหว่างประเทศ
- ระดับรายละเอียด: การให้ข้อมูลที่ละเอียดถี่ถ้วนพร้อมตัวแปรที่เกี่ยวโยงกันหลายตัว และแง่มุมใหม่ๆ เช่น การเชื่อมต่อเครือข่าย
- ความทันเวลาและอนุกรมเวลา: สามารถสร้างกราฟได้ภายในไม่กี่วันหลังจากเก็บรวบรวมข้อมูล
ความท้าทาย
ในขณะเดียวกัน การทำงานกับข้อมูลร่องรอยดิจิทัลแทนข้อมูลจากการสำรวจแบบดั้งเดิมไม่ได้ขจัดความท้าทายแบบดั้งเดิมที่เกี่ยวข้องกับสาขาการวิเคราะห์เชิงปริมาณระหว่างประเทศ ลำดับความสำคัญอาจเปลี่ยนแปลงไป แต่การอภิปรายพื้นฐานยังคงเหมือนเดิม ความท้าทายหลักๆ ได้แก่:
- ความเป็นตัวแทน ในขณะที่สถิติการพัฒนาแบบดั้งเดิมส่วนใหญ่เกี่ยวข้องกับความเป็นตัวแทนของตัวอย่างสำรวจแบบสุ่ม ข้อมูลการติดตามดิจิทัลไม่เคยเป็นตัวอย่างแบบสุ่ม[ 76 ]
- ความสามารถในการสรุปผลในวงกว้าง แม้ว่าข้อมูลจากการสังเกตการณ์จะแสดงถึงแหล่งข้อมูลนี้ได้เป็นอย่างดีเสมอ แต่ก็เป็นเพียงการแสดงถึงสิ่งที่มันแสดงเท่านั้น และไม่มีอะไรมากไปกว่านั้น แม้ว่าการสรุปผลจากข้อสังเกตเฉพาะเจาะจงของแพลตฟอร์มหนึ่งไปยังบริบทที่กว้างขึ้นจะเป็นสิ่งที่น่าดึงดูดใจ แต่บ่อยครั้งที่การทำเช่นนั้นมักทำให้เข้าใจผิดได้
- การประสานงาน ข้อมูลร่องรอยดิจิทัลยังคงต้องการการประสานงานตัวชี้วัดในระดับสากล ซึ่งเพิ่มความท้าทายในสิ่งที่เรียกว่า "การหลอมรวมข้อมูล" หรือการประสานงานจากแหล่งข้อมูลที่แตกต่างกัน
- ข้อมูลล้นเกิน นักวิเคราะห์และสถาบันต่างๆ ไม่คุ้นเคยกับการจัดการตัวแปรจำนวนมากอย่างมีประสิทธิภาพ ซึ่งสามารถทำได้อย่างมีประสิทธิภาพด้วยแดชบอร์ดแบบโต้ตอบ ผู้ปฏิบัติงานยังขาดเวิร์กโฟลว์มาตรฐานที่จะช่วยให้นักวิจัย ผู้ใช้ และผู้กำหนดนโยบายสามารถจัดการกับข้อมูลได้อย่างมีประสิทธิภาพและประสิทธิผล[ 74 ]
การเงิน
ข้อมูลขนาดใหญ่กำลังถูกนำมาใช้อย่างรวดเร็วในด้านการเงินเพื่อ 1) เร่งความเร็วในการประมวลผล และ 2) ส่งมอบข้อสรุปที่ดีขึ้นและมีข้อมูลมากขึ้น ทั้งภายในและแก่ลูกค้าของสถาบันการเงิน[ 77 ]การประยุกต์ใช้ข้อมูลขนาดใหญ่ในด้านการเงินมีตั้งแต่การตัดสินใจลงทุนและการซื้อขาย (การประมวลผลข้อมูลราคาที่มีอยู่จำนวนมาก สมุดคำสั่งซื้อขายแบบจำกัด ข้อมูลเศรษฐกิจ และอื่นๆ ในเวลาเดียวกัน) การจัดการพอร์ตโฟลิโอ (การเพิ่มประสิทธิภาพเหนือเครื่องมือทางการเงินที่หลากหลายมากขึ้น ซึ่งอาจเลือกจากประเภทสินทรัพย์ที่แตกต่างกัน) การจัดการความเสี่ยง (การจัดอันดับเครดิตตามข้อมูลเพิ่มเติม) และด้านอื่นๆ ที่มีการป้อนข้อมูลจำนวนมาก[ 78 ]ข้อมูลขนาดใหญ่ยังเป็นแนวคิดทั่วไปในด้านบริการทางการเงินทางเลือก อีกด้วย บางพื้นที่หลักๆ ได้แก่ แพลตฟอร์มระดมทุนแบบกลุ่มและตลาดแลกเปลี่ยนสกุลเงินดิจิทัล[ 79 ]
การดูแลสุขภาพ
การวิเคราะห์ข้อมูลขนาดใหญ่ถูกนำมาใช้ในด้านการดูแลสุขภาพเพื่อให้บริการทางการแพทย์เฉพาะบุคคลและการวิเคราะห์เชิงกำหนด การแทรกแซงความเสี่ยงทางคลินิกและการวิเคราะห์เชิงพยากรณ์ การลดของเสียและความแปรปรวนของการดูแล การรายงานข้อมูลผู้ป่วยอัตโนมัติทั้งภายในและภายนอก คำศัพท์ทางการแพทย์ที่เป็นมาตรฐาน และทะเบียนผู้ป่วย[ 80 ] [ 81 ] [ 82 ] [ 83 ]บางพื้นที่ของการปรับปรุงนั้นเป็นเพียงความปรารถนามากกว่าการนำไปปฏิบัติจริง ระดับของข้อมูลที่สร้างขึ้นภายในระบบการดูแลสุขภาพนั้นไม่ใช่เรื่องเล็กน้อย ด้วยการนำเทคโนโลยี mHealth, eHealth และเทคโนโลยีสวมใส่มาใช้เพิ่มเติม ปริมาณข้อมูลจะยังคงเพิ่มขึ้นอย่างต่อเนื่อง ซึ่งรวมถึง ข้อมูล บันทึกสุขภาพอิเล็กทรอนิกส์ข้อมูลภาพ ข้อมูลที่สร้างโดยผู้ป่วย ข้อมูลจากเซ็นเซอร์ และข้อมูลรูปแบบอื่นๆ ที่ประมวลผลได้ยาก ปัจจุบันมีความต้องการมากขึ้นสำหรับสภาพแวดล้อมดังกล่าวที่จะต้องให้ความสำคัญกับคุณภาพของข้อมูลและสารสนเทศมากขึ้น[ 84 ] "ข้อมูลขนาดใหญ่มักหมายถึง ' ข้อมูลสกปรก ' และสัดส่วนของความไม่ถูกต้องของข้อมูลจะเพิ่มขึ้นตามการเติบโตของปริมาณข้อมูล" การตรวจสอบโดยมนุษย์ในระดับข้อมูลขนาดใหญ่เป็นไปไม่ได้ และมีความจำเป็นอย่างยิ่งในบริการด้านสุขภาพสำหรับเครื่องมืออัจฉริยะเพื่อควบคุมความถูกต้องและความน่าเชื่อถือ รวมถึงการจัดการข้อมูลที่ขาดหายไป[ 85 ]แม้ว่าข้อมูลจำนวนมากในด้านการดูแลสุขภาพจะเป็นแบบอิเล็กทรอนิกส์แล้ว แต่ก็ยังจัดอยู่ในขอบเขตของข้อมูลขนาดใหญ่ เนื่องจากส่วนใหญ่เป็นข้อมูลที่ไม่มีโครงสร้างและยากต่อการใช้งาน[ 86 ]การใช้ข้อมูลขนาดใหญ่ในด้านการดูแลสุขภาพได้ก่อให้เกิดความท้าทายทางจริยธรรมอย่างมาก ตั้งแต่ความเสี่ยงต่อสิทธิส่วนบุคคล ความเป็นส่วนตัว และ ความ เป็นอิสระ ไปจนถึงความโปร่งใสและความไว้วางใจ[ 87 ]
ข้อมูลขนาดใหญ่ในการวิจัยด้านสุขภาพมีแนวโน้มที่ดีเป็นพิเศษในแง่ของการวิจัยทางชีวการแพทย์เชิงสำรวจ เนื่องจากการวิเคราะห์ที่ขับเคลื่อนด้วยข้อมูลสามารถดำเนินการได้เร็วกว่าการวิจัยที่ขับเคลื่อนด้วยสมมติฐาน[ 88 ]จากนั้น แนวโน้มที่เห็นในการวิเคราะห์ข้อมูลสามารถทดสอบได้ในการวิจัยทางชีววิทยาแบบดั้งเดิมที่ขับเคลื่อนด้วยสมมติฐาน และในที่สุดก็การวิจัยทางคลินิก
พื้นที่ย่อยของการประยุกต์ใช้งานที่เกี่ยวข้องซึ่งพึ่งพาข้อมูลขนาดใหญ่เป็นอย่างมากในสาขาการดูแลสุขภาพคือ การวินิจฉัยโรค ด้วยคอมพิวเตอร์[ 89 ] ตัวอย่างเช่น สำหรับ การตรวจสอบ โรคลมชักมักจะสร้างข้อมูล 5 ถึง 10 GB ต่อวัน[ 90 ] ในทำนองเดียวกัน ภาพ โทโมซินเทซิสเต้านมที่ไม่ได้บีบอัดเพียงภาพเดียวมีข้อมูลเฉลี่ย 450 MB [ 91 ] นี่เป็นเพียงตัวอย่างเล็กน้อยจากตัวอย่างมากมายที่การวินิจฉัยโรคด้วยคอมพิวเตอร์ใช้ข้อมูลขนาดใหญ่ ด้วยเหตุนี้ ข้อมูลขนาดใหญ่จึงได้รับการยอมรับว่าเป็นหนึ่งในเจ็ดความท้าทายหลักที่ระบบการวินิจฉัยโรคด้วยคอมพิวเตอร์จำเป็นต้องเอาชนะเพื่อให้บรรลุประสิทธิภาพในระดับต่อไป[ 92 ]
การศึกษา
การศึกษา ของMcKinsey Global Instituteพบว่าขาดแคลนผู้เชี่ยวชาญและผู้จัดการข้อมูลที่มีทักษะสูงถึง 1.5 ล้านคน[ 51 ]และมหาวิทยาลัยหลายแห่ง[ 93 ]รวมถึงมหาวิทยาลัยเทนเนสซีและUC Berkeleyได้สร้างหลักสูตรปริญญาโทเพื่อตอบสนองความต้องการนี้ ค่ายฝึกอบรมเอกชนก็ได้พัฒนาโปรแกรมเพื่อตอบสนองความต้องการดังกล่าวเช่นกัน รวมถึงโปรแกรมแบบเสียค่าใช้จ่าย เช่นThe Data IncubatorหรือGeneral Assembly [ 94 ] ในสาขาการตลาดโดยเฉพาะ ปัญหาหนึ่งที่ Wedel และ Kannan [ 95 ] เน้นย้ำ คือการตลาดมีโดเมนย่อยหลายโดเมน (เช่น การโฆษณา การส่งเสริมการขาย การพัฒนาผลิตภัณฑ์ การสร้างแบรนด์) ซึ่งล้วนใช้ข้อมูลประเภทต่างๆ กัน
สื่อ
เพื่อให้เข้าใจว่าสื่อใช้ข้อมูลขนาดใหญ่อย่างไร จำเป็นต้องให้บริบทเกี่ยวกับกลไกที่ใช้ในกระบวนการสื่อก่อน นิค คูดรีและโจเซฟ ทูโรว์ได้เสนอแนะว่าผู้ปฏิบัติงานในสื่อและการโฆษณาเข้าถึงข้อมูลขนาดใหญ่ในฐานะจุดข้อมูลที่สามารถนำไปปฏิบัติได้มากมายเกี่ยวกับบุคคลหลายล้านคน อุตสาหกรรมดูเหมือนจะกำลังเคลื่อนตัวออกจากแนวทางดั้งเดิมของการใช้สภาพแวดล้อมสื่อเฉพาะ เช่น หนังสือพิมพ์ นิตยสาร หรือรายการโทรทัศน์ และหันมาใช้เทคโนโลยีที่เข้าถึงกลุ่มเป้าหมายในเวลาและสถานที่ที่เหมาะสมที่สุดแทน จุดมุ่งหมายสูงสุดคือการให้บริการหรือสื่อสารข้อความหรือเนื้อหาที่ (ในเชิงสถิติ) สอดคล้องกับความคิดของผู้บริโภค ตัวอย่างเช่น สภาพแวดล้อมการเผยแพร่กำลังปรับแต่งข้อความ (โฆษณา) และเนื้อหา (บทความ) มากขึ้นเรื่อยๆ เพื่อดึงดูดผู้บริโภคที่รวบรวมมาโดยเฉพาะผ่านกิจกรรมการขุดข้อมูล ต่างๆ [ 96 ]
- การกำหนดเป้าหมายผู้บริโภค (สำหรับการโฆษณาโดยนักการตลาด) [ 97 ]
- การบันทึกข้อมูล
- วารสารศาสตร์ข้อมูล : สำนักพิมพ์และนักข่าวใช้เครื่องมือข้อมูลขนาดใหญ่เพื่อนำเสนอข้อมูลเชิงลึกและอินโฟกราฟิกที่ไม่เหมือนใครและสร้างสรรค์
ช่อง 4 ซึ่งเป็นสถานีโทรทัศน์ สาธารณะของอังกฤษเป็นผู้นำในด้านข้อมูลขนาดใหญ่และการวิเคราะห์ข้อมูล[ 98 ]
ประกันภัย
ผู้ให้บริการประกันสุขภาพกำลังรวบรวมข้อมูลเกี่ยวกับ"ปัจจัยกำหนดสุขภาพ" ทางสังคมเช่นการบริโภคอาหารและโทรทัศน์สถานภาพสมรส ขนาดเสื้อผ้า และพฤติกรรมการซื้อ ซึ่งพวกเขาใช้ในการคาดการณ์ค่าใช้จ่ายด้านสุขภาพ เพื่อตรวจหาปัญหาสุขภาพในกลุ่มลูกค้าของตน เป็นที่ถกเถียงกันว่าการคาดการณ์เหล่านี้ถูกนำมาใช้ในการกำหนดราคาหรือไม่[ 99 ]
อินเทอร์เน็ตของสิ่งต่างๆ (IoT)
ข้อมูลขนาดใหญ่และ IoT ทำงานร่วมกัน ข้อมูลที่ดึงมาจากอุปกรณ์ IoT ให้แผนที่การเชื่อมต่อระหว่างอุปกรณ์ แผนที่ดังกล่าวถูกนำไปใช้โดยอุตสาหกรรมสื่อ บริษัท และรัฐบาล เพื่อกำหนดเป้าหมายผู้ชมได้อย่างแม่นยำยิ่งขึ้นและเพิ่มประสิทธิภาพของสื่อ IoT ยังถูกนำมาใช้มากขึ้นเรื่อยๆ ในฐานะวิธีการรวบรวมข้อมูลทางประสาทสัมผัส และข้อมูลทางประสาทสัมผัสนี้ถูกนำไปใช้ในบริบท ทางการแพทย์ [ 100 ]การผลิต[ 101 ]และการขนส่ง[ 102 ]
เควิน แอชตันผู้เชี่ยวชาญด้านนวัตกรรมดิจิทัลซึ่งได้รับการยกย่องว่าเป็นผู้บัญญัติศัพท์คำนี้[ 103 ]ได้นิยามอินเทอร์เน็ตของสิ่งต่างๆ ไว้ในคำพูดนี้ว่า: "ถ้าเรามีคอมพิวเตอร์ที่รู้ทุกสิ่งทุกอย่างเกี่ยวกับสิ่งต่างๆ โดยใช้ข้อมูลที่รวบรวมได้โดยไม่ต้องอาศัยความช่วยเหลือจากเรา เราจะสามารถติดตามและนับทุกสิ่ง และลดของเสีย การสูญเสีย และต้นทุนได้อย่างมาก เราจะรู้ว่าเมื่อใดที่สิ่งต่างๆ จำเป็นต้องเปลี่ยน ซ่อมแซม หรือเรียกคืน และไม่ว่าสิ่งเหล่านั้นจะยังใหม่หรือหมดอายุแล้ว"
เทคโนโลยีสารสนเทศ
โดยเฉพาะอย่างยิ่งตั้งแต่ปี 2015 เป็นต้นมา บิ๊กดาต้าได้กลายเป็นสิ่งสำคัญในการดำเนินงานทางธุรกิจในฐานะเครื่องมือที่จะช่วยให้พนักงานทำงานได้อย่างมีประสิทธิภาพมากขึ้น และปรับปรุงการรวบรวมและการกระจายเทคโนโลยีสารสนเทศ (IT) ให้คล่องตัวยิ่งขึ้น การใช้บิ๊กดาต้าเพื่อแก้ไขปัญหาด้าน IT และการรวบรวมข้อมูลภายในองค์กรเรียกว่าการวิเคราะห์การดำเนินงานด้าน IT (ITOA) [ 104 ]ด้วยการประยุกต์ใช้หลักการของบิ๊กดาต้าเข้ากับแนวคิดของปัญญาประดิษฐ์และการประมวลผลเชิงลึก แผนก IT สามารถคาดการณ์ปัญหาที่อาจเกิดขึ้นและป้องกันได้[ 104 ]ธุรกิจ ITOA นำเสนอแพลตฟอร์มสำหรับการจัดการระบบที่นำข้อมูลที่กระจัดกระจายมารวมกันและสร้างข้อมูลเชิงลึกจากทั้งระบบ แทนที่จะมาจากข้อมูลที่แยกส่วน
วิทยาศาสตร์การสำรวจ
เมื่อเปรียบเทียบกับ การเก็บรวบรวมข้อมูลโดยใช้ แบบสำรวจข้อมูลขนาดใหญ่มีต้นทุนต่อจุดข้อมูลต่ำกว่า ใช้เทคนิคการวิเคราะห์ผ่านการเรียนรู้ของเครื่องและการขุดค้นข้อมูลและรวมแหล่งข้อมูลที่หลากหลายและใหม่ เช่น ทะเบียน สื่อสังคมออนไลน์ แอปพลิเคชัน และข้อมูลดิจิทัลรูปแบบอื่น ๆ ตั้งแต่ปี 2018 นักวิทยาศาสตร์ด้านการสำรวจได้เริ่มตรวจสอบว่าข้อมูลขนาดใหญ่และวิทยาศาสตร์การสำรวจสามารถเสริมซึ่งกันและกันได้อย่างไร เพื่อช่วยให้นักวิจัยและผู้ปฏิบัติงานปรับปรุงการผลิตสถิติและคุณภาพของสถิติให้ดียิ่งขึ้น มีการจัดประชุม Big Data Meets Survey Science (BigSurv) สามครั้งในปี 2018, 2020 (แบบเสมือนจริง), 2023 และในปี 2023 จะมีการจัดประชุมอีกครั้งในปี 2025 [ 105 ] นอกจากนี้ยังมีฉบับพิเศษในSocial Science Computer Review [ 106 ]ฉบับพิเศษในJournal of the Royal Statistical Society [ 107 ]และฉบับพิเศษในEP J Data Science [ 108 ] รวมถึงหนังสือชื่อBig Data Meets Social Sciences [ 109 ]ซึ่งแก้ไขโดยCraig Hillและสมาชิกอีกห้าคนของ American Statistical Associationในปี 2021 สมาชิกผู้ก่อตั้ง BigSurv ได้รับรางวัล Warren J. Mitofsky Innovators Award จากAmerican Association for Public Opinion Research [ 110 ]
การตลาด
ข้อมูลขนาดใหญ่มีความสำคัญในด้านการตลาดเนื่องจากการ "แปลงข้อมูล" [ 111 ] อย่างต่อเนื่อง ของผู้บริโภคอินเทอร์เน็ตในชีวิตประจำวัน ซึ่งมีการติดตามข้อมูลทุกรูปแบบ การแปลงข้อมูลของผู้บริโภคสามารถนิยามได้ว่าเป็นการวัดปริมาณพฤติกรรมของมนุษย์หลายอย่างหรือทั้งหมดเพื่อวัตถุประสงค์ทางการตลาด[ 111 ]โลกดิจิทัลที่เติบโตอย่างรวดเร็วทำให้แนวคิดนี้มีความเกี่ยวข้องกับการตลาด เนื่องจากปริมาณข้อมูลเพิ่มขึ้นอย่างต่อเนื่องแบบทวีคูณ มีการคาดการณ์ว่าจะเพิ่มขึ้นจาก 44 เป็น 163 เซตตาไบต์ภายในระยะเวลาห้าปี[ 112 ]ขนาดของข้อมูลขนาดใหญ่อาจทำให้ผู้ทำการตลาดจัดการได้ยาก[ 113 ]ส่งผลให้ผู้ที่นำข้อมูลขนาดใหญ่มาใช้อาจพบว่าตนเองเสียเปรียบ การค้นหาผลลัพธ์ด้วยอัลกอริทึมอาจทำได้ยากกับชุดข้อมูลขนาดใหญ่เช่นนี้[ 114 ]ข้อมูลขนาดใหญ่ในด้านการตลาดเป็นเครื่องมือที่มีกำไรสูงซึ่งสามารถนำไปใช้กับองค์กรขนาดใหญ่ได้ โดยมีมูลค่าเนื่องจากความเป็นไปได้ในการคาดการณ์แนวโน้ม ความสนใจ หรือผลลัพธ์ทางสถิติที่สำคัญในลักษณะที่อิงตามผู้บริโภค[ 115 ]
มีปัจจัยสำคัญสามประการในการใช้ข้อมูลขนาดใหญ่ในด้านการตลาด:
- ข้อมูลขนาดใหญ่ช่วยให้นักการตลาดสามารถระบุรูปแบบพฤติกรรมของลูกค้าได้ เนื่องจากการกระทำของมนุษย์ทั้งหมดจะถูกวัดปริมาณเป็นตัวเลขที่อ่านได้เพื่อให้นักการตลาดสามารถวิเคราะห์และใช้ในการวิจัยได้[ 116 ]นอกจากนี้ ข้อมูลขนาดใหญ่ยังสามารถมองได้ว่าเป็นเครื่องมือแนะนำผลิตภัณฑ์ที่ปรับแต่งได้ โดยเฉพาะอย่างยิ่ง เนื่องจากข้อมูลขนาดใหญ่มีประสิทธิภาพในการวิเคราะห์พฤติกรรมการซื้อและรูปแบบการเรียกดูของลูกค้า เทคโนโลยีนี้จึงสามารถช่วยบริษัทต่างๆ ในการส่งเสริมผลิตภัณฑ์เฉพาะบุคคลให้กับลูกค้าเฉพาะกลุ่มได้[ 117 ]
- การตอบสนองต่อตลาดแบบเรียลไทม์มีความสำคัญต่อนักการตลาด เนื่องจากความสามารถในการปรับเปลี่ยนความพยายามทางการตลาดและปรับให้เข้ากับแนวโน้มปัจจุบัน ซึ่งเป็นประโยชน์ในการรักษาความเกี่ยวข้องกับผู้บริโภค สิ่งนี้สามารถให้ข้อมูลที่จำเป็นแก่บริษัทต่างๆ เพื่อคาดการณ์ความต้องการของผู้บริโภคล่วงหน้าได้[ 116 ]
- ความคล่องตัวของตลาดที่ขับเคลื่อนด้วยข้อมูลกำลังได้รับแรงหนุนอย่างมากจากข้อมูลขนาดใหญ่[ 116 ]มีการพัฒนารูปแบบและอัลกอริทึมใหม่ ๆ เพื่อทำนายสถานการณ์ทางเศรษฐกิจและสังคมบางอย่างได้อย่างมีนัยสำคัญ[ 118 ]
กรณีศึกษา
รัฐบาล
จีน
- แพลตฟอร์มปฏิบัติการร่วมแบบบูรณาการ (IJOP, 一体化联合作战平台) ถูกใช้โดยรัฐบาลเพื่อตรวจสอบประชากร โดยเฉพาะชาวอุยกูร์ [ 119 ] ข้อมูลชีวมาตรรวมถึงตัวอย่างดีเอ็นเอ จะถูกรวบรวมผ่านโครงการตรวจร่างกายฟรี[ 120 ]
- ภายในปี 2020 จีนวางแผนที่จะให้คะแนน "เครดิตทางสังคม" ส่วนบุคคลแก่พลเมืองทุกคนโดยพิจารณาจากพฤติกรรมของพวกเขา[ 121 ]ระบบเครดิตทางสังคมซึ่งขณะนี้กำลังทดลองใช้ในหลายเมืองของจีน ถือเป็นรูปแบบหนึ่งของการเฝ้าระวังมวลชนที่ใช้เทคโนโลยีการวิเคราะห์ข้อมูลขนาดใหญ่[ 122 ] [ 123 ]
อินเดีย
- การวิเคราะห์ข้อมูลขนาดใหญ่ถูกนำมาทดลองใช้โดยพรรค BJPเพื่อชนะการเลือกตั้งทั่วไปของอินเดียในปี 2014 [ 124 ]
- รัฐบาลอินเดียใช้วิธีการหลายอย่างเพื่อตรวจสอบว่าผู้มีสิทธิเลือกตั้งชาวอินเดียตอบสนองต่อการกระทำของรัฐบาลอย่างไร รวมถึงแนวคิดในการปรับปรุงนโยบายให้ดียิ่งขึ้น
อิสราเอล
- สามารถสร้างการรักษาโรคเบาหวานเฉพาะบุคคลได้ผ่านโซลูชันข้อมูลขนาดใหญ่ของ GlucoMe [ 125 ]
สหราชอาณาจักร
ตัวอย่างการนำข้อมูลขนาดใหญ่ไปใช้ในบริการสาธารณะ:
- ข้อมูลเกี่ยวกับยาตามใบสั่งแพทย์: ด้วยการเชื่อมโยงแหล่งที่มา สถานที่ และเวลาของใบสั่งยาแต่ละใบ หน่วยวิจัยสามารถยกตัวอย่างและตรวจสอบความล่าช้าอย่างมากระหว่างการวางจำหน่ายยาใดๆ กับการปรับใช้แนวทางของสถาบันแห่งชาติเพื่อสุขภาพและการดูแลความเป็นเลิศ ทั่วสหราชอาณาจักร ซึ่งแสดงให้เห็นว่ายาใหม่หรือยาที่ทันสมัยที่สุดต้องใช้เวลาสักระยะกว่าจะเข้าถึงผู้ป่วยทั่วไปได้[ 126 ]
- การเชื่อมโยงข้อมูล: หน่วยงานท้องถิ่นได้ผสมผสานข้อมูลเกี่ยวกับบริการต่างๆ เช่น ตารางการโรยเกลือบนถนน กับบริการสำหรับผู้ที่มีความเสี่ยง เช่นบริการส่งอาหารถึงบ้านการเชื่อมโยงข้อมูลทำให้หน่วยงานท้องถิ่นสามารถหลีกเลี่ยงความล่าช้าที่เกิดจากสภาพอากาศได้[ 127 ]
สหรัฐอเมริกา
- ในปี 2555 รัฐบาลโอบามาได้ประกาศโครงการวิจัยและพัฒนาข้อมูลขนาดใหญ่ เพื่อสำรวจว่าข้อมูลขนาดใหญ่สามารถนำมาใช้แก้ไขปัญหาสำคัญที่รัฐบาลเผชิญได้อย่างไร[ 128 ]โครงการนี้ประกอบด้วยโปรแกรมข้อมูลขนาดใหญ่ที่แตกต่างกัน 84 โปรแกรม ซึ่งกระจายอยู่ใน 6 แผนก[ 129 ]
- การวิเคราะห์ข้อมูลขนาดใหญ่มีบทบาทสำคัญในการรณรงค์หาเสียงเลือกตั้งใหม่ของบารัค โอบามาใน ปี 2012 ที่ประสบความสำเร็จ [ 130 ]
- รัฐบาลกลางของสหรัฐอเมริกาเป็น เจ้าของ ซูเปอร์คอมพิวเตอร์ที่ทรงพลังที่สุด 4 ใน 10 เครื่องของโลก[ 131 ] [ 132 ]
- ศูนย์ข้อมูลยูทาห์ ถูกสร้างขึ้นโดย สำนักงานความมั่นคงแห่งชาติของสหรัฐอเมริกาเมื่อสร้างเสร็จแล้ว ศูนย์แห่งนี้จะสามารถจัดการข้อมูลจำนวนมากที่ NSA รวบรวมผ่านทางอินเทอร์เน็ตได้ ปริมาณพื้นที่จัดเก็บที่แน่นอนยังไม่เป็นที่ทราบแน่ชัด แต่แหล่งข้อมูลล่าสุดอ้างว่าจะมีขนาดประมาณไม่กี่เอ็กซาไบต์ [ 133 ] [ 134 ] [ 135 ] ซึ่งก่อให้เกิดความกังวลด้านความปลอดภัยเกี่ยวกับความเป็นนิรนามของข้อมูลที่รวบรวมไว้[ 136 ]
ขายปลีก
- วอลมาร์ทดำเนินการธุรกรรมของลูกค้ามากกว่า 1 ล้านรายการทุกชั่วโมง ซึ่งถูกนำเข้าสู่ฐานข้อมูลที่คาดว่าจะมีข้อมูลมากกว่า 2.5 เพตาไบต์ (2560 เทราไบต์) ซึ่งเทียบเท่ากับข้อมูลมากกว่า 167 เท่าของหนังสือทั้งหมดในหอสมุดรัฐสภา สหรัฐอเมริกา [ 6 ]
- Windermere Real Estateใช้ข้อมูลตำแหน่งที่ตั้งจากผู้ขับขี่เกือบ 100 ล้านคนเพื่อช่วยให้ผู้ซื้อบ้านใหม่สามารถกำหนดเวลาขับรถไปและกลับจากที่ทำงานโดยเฉลี่ยในช่วงเวลาต่างๆ ของวันได้[ 137 ]
- ระบบตรวจจับบัตร FICO ปกป้องบัญชีทั่วโลก[ 138 ]
- การค้าปลีกแบบ Omnichannel [ 139 ]ใช้ประโยชน์จากข้อมูลขนาดใหญ่ทางออนไลน์เพื่อปรับปรุงประสบการณ์ออฟไลน์
ศาสตร์
- การ ทดลอง Large Hadron Colliderแสดงถึงเซ็นเซอร์ประมาณ 150 ล้านตัวที่ส่งข้อมูล 40 ล้านครั้งต่อวินาที มีการชนกันเกือบ 600 ล้านครั้งต่อวินาที หลังจากกรองและงดเว้นการบันทึกสตรีมมากกว่า 99.99995% [ 140 ]แล้ว จะเหลือการชนกันที่น่าสนใจ 1,000 ครั้งต่อวินาที[ 141 ] [ 142 ] [ 143 ]
- ด้วยเหตุนี้ แม้จะใช้ข้อมูลจากเซ็นเซอร์เพียงไม่ถึง 0.001% ข้อมูลที่ไหลมาจากทั้งสี่การทดลองของ LHC ก็มีปริมาณถึง 25 เพตาไบต์ต่อปี ก่อนการจำลองแบบ (ข้อมูล ณ ปี 2012) และจะเพิ่มขึ้นเป็นเกือบ 200 เพตาไบต์หลังจากจำลองแบบแล้ว
- หากข้อมูลเซ็นเซอร์ทั้งหมดถูกบันทึกไว้ใน LHC ปริมาณข้อมูลมหาศาลจะจัดการได้ยากมาก ปริมาณข้อมูลจะเกิน 150 ล้านเพตาไบต์ต่อปี หรือเกือบ 500 เอ็กซาไบต์ต่อวัน ก่อนที่จะมีการจำลองข้อมูล เพื่อให้เห็นภาพชัดเจนขึ้น นี่เทียบเท่ากับ 500 ควินทิลเลียน (5× 10²⁰ ) ไบต์ต่อวัน ซึ่งมากกว่าแหล่งข้อมูลอื่นๆ ทั้งหมดในโลกรวมกันเกือบ 200 เท่า
- อาร์เรย์สแควร์กิโลเมตรเป็นกล้องโทรทัศน์วิทยุที่สร้างขึ้นจากเสาอากาศหลายพันต้น คาดว่าจะใช้งานได้ภายในปี 2024 โดยรวมแล้ว เสาอากาศเหล่านี้คาดว่าจะรวบรวมข้อมูลได้ 14 เอ็กซาไบต์และจัดเก็บข้อมูลได้ 1 เพตาไบต์ต่อวัน[ 144 ] [ 145 ]ถือเป็นหนึ่งในโครงการทางวิทยาศาสตร์ที่ทะเยอทะยานที่สุดเท่าที่เคยมีมา[ 146 ]
- เมื่อโครงการสำรวจท้องฟ้าดิจิทัลสโลน (SDSS) เริ่มเก็บรวบรวมข้อมูลทางดาราศาสตร์ในปี 2000 ก็ได้รวบรวมข้อมูลมากกว่าข้อมูลทั้งหมดที่เคยเก็บรวบรวมในประวัติศาสตร์ดาราศาสตร์ในช่วงไม่กี่สัปดาห์แรก โดยดำเนินการเก็บรวบรวมข้อมูลในอัตราประมาณ 200 GB ต่อคืน SDSS จึงได้รวบรวมข้อมูลมากกว่า 140 เทราไบต์[ 6 ]เมื่อกล้องโทรทรรศน์สำรวจขนาดใหญ่ (Large Synoptic Survey Telescope ) ซึ่งเป็นรุ่นต่อจาก SDSS เริ่มใช้งานในปี 2020 ผู้ออกแบบคาดว่าจะสามารถเก็บรวบรวมข้อมูลได้ในปริมาณดังกล่าวทุกๆ ห้าวัน[ 6 ]
- การถอดรหัสจีโนมมนุษย์เดิมใช้เวลา 10 ปีในการประมวลผล แต่ปัจจุบันสามารถทำได้ภายในเวลาไม่ถึงหนึ่งวัน เครื่องถอดรหัสลำดับดีเอ็นเอได้ลดต้นทุนการถอดรหัสลง 10,000 เท่าในช่วงสิบปีที่ผ่านมา ซึ่งถูกกว่าการลดต้นทุนที่คาดการณ์ไว้ตามกฎของมัวร์ถึง 100 เท่า [ 147 ]
- ศูนย์ จำลองสภาพภูมิอากาศ ของ NASA (NCCS) จัดเก็บข้อมูลการสังเกตและการจำลองสภาพภูมิอากาศขนาด 32 เพตาไบต์บนคลัสเตอร์ซูเปอร์คอมพิวเตอร์ Discover [ 148 ] [ 149 ]
- DNAStack ของ Google รวบรวมและจัดระเบียบตัวอย่าง DNA ของข้อมูลทางพันธุกรรมจากทั่วโลกเพื่อระบุโรคและความผิดปกติทางการแพทย์อื่นๆ การคำนวณที่รวดเร็วและแม่นยำนี้ช่วยขจัด "จุดเสียดทาน" หรือข้อผิดพลาดของมนุษย์ที่อาจเกิดขึ้นจากผู้เชี่ยวชาญด้านวิทยาศาสตร์และชีววิทยาจำนวนมากที่ทำงานกับ DNA DNAStack ซึ่งเป็นส่วนหนึ่งของ Google Genomics ช่วยให้นักวิทยาศาสตร์สามารถใช้ทรัพยากรตัวอย่างจำนวนมหาศาลจากเซิร์ฟเวอร์ค้นหาของ Google เพื่อขยายขนาดการทดลองทางสังคมที่ปกติแล้วต้องใช้เวลาหลายปี ได้ทันที[ 150 ] [ 151 ]
- ฐานข้อมูล DNAของ23andmeมีข้อมูลทางพันธุกรรมของผู้คนมากกว่า 1,000,000 คนทั่วโลก[ 152 ]บริษัทกำลังสำรวจความเป็นไปได้ในการขาย "ข้อมูลทางพันธุกรรมแบบรวมที่ไม่ระบุตัวตน" ให้กับนักวิจัยและบริษัทยาอื่นๆ เพื่อวัตถุประสงค์ในการวิจัย หากผู้ป่วยให้ความยินยอม[ 153 ] [ 154 ] [ 155 ] [ 156 ] [ 157 ]อาหมัด ฮาริรี ศาสตราจารย์ด้านจิตวิทยาและประสาทวิทยาศาสตร์แห่งมหาวิทยาลัยดุ๊กซึ่งใช้ 23andMe ในการวิจัยของเขามาตั้งแต่ปี 2009 ระบุว่าแง่มุมที่สำคัญที่สุดของบริการใหม่ของบริษัทคือการทำให้การวิจัยทางพันธุกรรมเข้าถึงได้ง่ายและมีราคาค่อนข้างถูกสำหรับนักวิทยาศาสตร์[ 153 ]การศึกษาที่ระบุตำแหน่งจีโนม 15 ตำแหน่งที่เชื่อมโยงกับภาวะซึมเศร้าในฐานข้อมูลของ 23andMe นำไปสู่ความต้องการเข้าถึงคลังข้อมูลที่เพิ่มขึ้น โดย 23andMe ได้รับคำขอเข้าถึงข้อมูลภาวะซึมเศร้าเกือบ 20 คำขอในสองสัปดาห์หลังจากตีพิมพ์บทความ[ 158 ]
- พลศาสตร์ของไหลเชิงคำนวณ ( CFD ) และ งานวิจัยเกี่ยว กับความปั่นป่วน ของอุทกพลศาสตร์ ก่อให้เกิดชุดข้อมูลขนาดใหญ่ ฐานข้อมูลความปั่นป่วนของจอห์นส์ ฮอปกินส์ ( JHTDB ) ประกอบด้วยข้อมูลภาคสนามเชิงพื้นที่และเวลามากกว่า 350 เทราไบต์ จากการจำลองเชิงตัวเลขโดยตรงของการไหลแบบปั่นป่วนต่างๆ ข้อมูลดังกล่าวเป็นเรื่องยากที่จะแบ่งปันโดยใช้วิธีการแบบดั้งเดิม เช่น การดาวน์โหลดไฟล์เอาต์พุตการจำลองแบบเรียบๆ แต่ข้อมูลใน JHTDB สามารถเข้าถึงได้โดยใช้ "เซ็นเซอร์เสมือน" ด้วยโหมดการเข้าถึงที่หลากหลาย ตั้งแต่การสอบถามโดยตรงผ่านเว็บเบราว์เซอร์ การเข้าถึงผ่านโปรแกรม Matlab, Python, Fortran และ C ที่ทำงานบนแพลตฟอร์มของลูกค้า ไปจนถึงบริการดาวน์โหลดข้อมูลดิบ ข้อมูลเหล่านี้ถูกนำไปใช้ในสิ่งพิมพ์ทางวิทยาศาสตร์มากกว่า 150 ฉบับ
กีฬา
ข้อมูลขนาดใหญ่สามารถนำมาใช้เพื่อปรับปรุงการฝึกฝนและทำความเข้าใจคู่แข่งโดยใช้เซ็นเซอร์กีฬา นอกจากนี้ยังสามารถทำนายผู้ชนะในการแข่งขันโดยใช้การวิเคราะห์ข้อมูลขนาดใหญ่ได้อีกด้วย[ 159 ] ยังสามารถทำนายผลการแข่งขันในอนาคตของผู้เล่นได้อีกด้วย[ 160 ]ดังนั้น มูลค่าและเงินเดือนของผู้เล่นจึงถูกกำหนดโดยข้อมูลที่รวบรวมตลอดฤดูกาล[ 161 ]
ใน การแข่งขัน ฟอร์มูล่าวันรถแข่งที่มีเซ็นเซอร์หลายร้อยตัวสร้างข้อมูลหลายเทราไบต์ เซ็นเซอร์เหล่านี้รวบรวมข้อมูลตั้งแต่แรงดันลมยางไปจนถึงประสิทธิภาพการเผาไหม้เชื้อเพลิง[ 162 ] จากข้อมูลเหล่านี้ วิศวกรและนักวิเคราะห์ข้อมูลจะตัดสินใจว่าควรปรับเปลี่ยนอะไรบ้างเพื่อที่จะชนะการแข่งขัน นอกจากนี้ การใช้ข้อมูลขนาดใหญ่ ทีมแข่งพยายามคาดการณ์เวลาที่จะเข้าเส้นชัยล่วงหน้า โดยอาศัยการจำลองโดยใช้ข้อมูลที่รวบรวมตลอดฤดูกาล[ 163 ]
เทคโนโลยี
- ณ ปี 2013 eBay.comใช้คลังข้อมูล สองแห่ง ที่มีขนาด 7.5 เพตาไบต์และ 40 เพตาไบต์ รวมทั้ง คลัสเตอร์ Hadoop ขนาด 40 เพตาไบต์ สำหรับการค้นหา คำแนะนำสำหรับผู้บริโภค และการขายสินค้า[ 164 ]
- Amazon.comดำเนินการระบบเบื้องหลังหลายล้านรายการทุกวัน รวมทั้งคำถามจากผู้ขายบุคคลที่สามมากกว่าครึ่งล้านราย เทคโนโลยีหลักที่ทำให้ Amazon ดำเนินงานได้คือระบบ Linux และในปี 2548 พวกเขามีฐานข้อมูล Linux ที่ใหญ่ที่สุดสามแห่งของโลก โดยมีความจุ 7.8 TB, 18.5 TB และ 24.7 TB ตามลำดับ[ 165 ]
- เฟซบุ๊กจัดการรูปภาพ 50 พันล้านรูปจากฐานผู้ใช้[ 166 ]ณ เดือนมิถุนายน 2560 เฟซบุ๊กมีผู้ใช้งานรายเดือนถึง 2 พันล้านคน[ 167 ]
- ณ เดือนสิงหาคม พ.ศ. 2555 Google ดำเนินการค้นหาประมาณ 100 พันล้านครั้งต่อเดือน [ 168 ]
- ตัวอย่างที่โด่งดังมากของการนำข้อมูลขนาดใหญ่มาใช้คือ Amazon Amazon ใช้การวิเคราะห์ข้อมูลเพื่อขับเคลื่อนระบบแนะนำสินค้า Amazon ประสบความสำเร็จอย่างมากจากยอดขายส่วนหนึ่งที่มาจากหมวด "สินค้าแนะนำ" ซึ่งแนะนำสินค้าให้เหมาะสมกับแต่ละบุคคล
โควิด 19
ในช่วงการระบาดของ COVID-19ข้อมูลขนาดใหญ่ถูกยกขึ้นมาเป็นวิธีหนึ่งในการลดผลกระทบของโรค การประยุกต์ใช้ข้อมูลขนาดใหญ่ที่สำคัญ ได้แก่ การลดการแพร่กระจายของไวรัส การระบุผู้ป่วย และการพัฒนาการรักษาทางการแพทย์[ 169 ]
รัฐบาลใช้ข้อมูลขนาดใหญ่เพื่อติดตามผู้ติดเชื้อเพื่อลดการแพร่กระจาย ประเทศที่นำมาใช้ก่อนได้แก่ จีน ไต้หวัน เกาหลีใต้ และอิสราเอล[ 170 ] [ 171 ] [ 172 ]
กิจกรรมการวิจัย
การค้นหาแบบเข้ารหัสและการสร้างคลัสเตอร์ในข้อมูลขนาดใหญ่ได้รับการสาธิตในเดือนมีนาคม 2014 ที่ American Society of Engineering Education Gautam Siwach ซึ่งมีส่วนร่วมในการจัดการความท้าทายของข้อมูลขนาดใหญ่โดยMIT Computer Science and Artificial Intelligence Laboratoryและ Amir Esmailpour จาก UNH Research Group ได้ตรวจสอบคุณลักษณะสำคัญของข้อมูลขนาดใหญ่ เช่น การสร้างคลัสเตอร์และการเชื่อมต่อระหว่างกัน พวกเขามุ่งเน้นไปที่ความปลอดภัยของข้อมูลขนาดใหญ่และการวางแนวทางของคำดังกล่าวไปสู่การมีอยู่ของข้อมูลประเภทต่างๆ ในรูปแบบเข้ารหัสที่อินเทอร์เฟซคลาวด์ โดยให้คำจำกัดความดิบและตัวอย่างแบบเรียลไทม์ภายในเทคโนโลยี นอกจากนี้ พวกเขายังเสนอแนวทางในการระบุเทคนิคการเข้ารหัสเพื่อก้าวไปสู่การค้นหาที่รวดเร็วขึ้นบนข้อความที่เข้ารหัส ซึ่งนำไปสู่การปรับปรุงความปลอดภัยในข้อมูลขนาดใหญ่[ 173 ]
ในเดือนมีนาคม พ.ศ. 2555 ทำเนียบขาวประกาศโครงการริเริ่มข้อมูลขนาดใหญ่ระดับชาติ ซึ่งประกอบด้วยหน่วยงานและกระทรวงของรัฐบาลกลาง 6 แห่ง โดยจัดสรรงบประมาณมากกว่า 200 ล้านดอลลาร์สหรัฐสำหรับโครงการวิจัยข้อมูลขนาดใหญ่[ 174 ]
โครงการริเริ่มนี้รวมถึงทุนสนับสนุน "Expeditions in Computing" จากมูลนิธิวิทยาศาสตร์แห่งชาติมูลค่า 10 ล้านดอลลาร์สหรัฐ เป็นระยะเวลา 5 ปี ให้แก่ AMPLab [ 175 ]ที่มหาวิทยาลัยแคลิฟอร์เนีย เบิร์กลีย์[ 176 ] AMPLab ยังได้รับเงินทุนจากDARPAและผู้สนับสนุนจากภาคอุตสาหกรรมกว่าสิบราย และใช้ข้อมูลขนาดใหญ่เพื่อแก้ไขปัญหาหลากหลาย ตั้งแต่การทำนายความแออัดของการจราจร[ 177 ]ไปจนถึงการต่อสู้กับโรคมะเร็ง[ 178 ]
โครงการริเริ่มข้อมูลขนาดใหญ่ของทำเนียบขาวยังรวมถึงพันธสัญญาของกระทรวงพลังงานที่จะจัดสรรเงินทุน 25 ล้านดอลลาร์สหรัฐในระยะเวลา 5 ปีเพื่อจัดตั้งสถาบันการจัดการ การวิเคราะห์ และการแสดงภาพข้อมูลที่ปรับขนาดได้ (SDAV) [ 179 ] ซึ่งนำโดย ห้องปฏิบัติการแห่งชาติลอว์เรนซ์เบิร์กลีย์ของกระทรวงพลังงานสถาบัน SDAV มีเป้าหมายที่จะรวบรวมความเชี่ยวชาญของห้องปฏิบัติการแห่งชาติ 6 แห่งและมหาวิทยาลัย 7 แห่งเพื่อพัฒนาเครื่องมือใหม่ที่จะช่วยให้นักวิทยาศาสตร์จัดการและแสดงภาพข้อมูลบนซูเปอร์คอมพิวเตอร์ของกระทรวง
รัฐแมสซาชูเซตส์ ของสหรัฐอเมริกา ประกาศโครงการริเริ่มข้อมูลขนาดใหญ่ของแมสซาชูเซตส์ในเดือนพฤษภาคม 2012 ซึ่งให้เงินทุนจากรัฐบาลและบริษัทเอกชนแก่สถาบันวิจัยต่างๆ[ 180 ]สถาบันเทคโนโลยีแมสซาชูเซตส์เป็นที่ตั้งของศูนย์วิทยาศาสตร์และเทคโนโลยีอินเทลสำหรับข้อมูลขนาดใหญ่ในห้องปฏิบัติการวิทยาศาสตร์คอมพิวเตอร์และปัญญาประดิษฐ์ของ MITซึ่งเป็นการรวมเงินทุนและความพยายามในการวิจัยจากภาครัฐ ภาคเอกชน และสถาบันต่างๆ[ 181 ]
คณะกรรมาธิการยุโรปให้ทุนสนับสนุนโครงการ Big Data Public Private Forum ระยะเวลาสองปีผ่านโครงการกรอบงานที่เจ็ด เพื่อดึงดูดบริษัท นักวิชาการ และผู้มีส่วนได้ส่วนเสียอื่นๆ เข้ามาหารือเกี่ยวกับประเด็นข้อมูลขนาดใหญ่ โครงการนี้มีเป้าหมายเพื่อกำหนดกลยุทธ์ในแง่ของการวิจัยและนวัตกรรมเพื่อเป็นแนวทางในการดำเนินการสนับสนุนจากคณะกรรมาธิการยุโรปในการนำเศรษฐกิจข้อมูลขนาดใหญ่ไปใช้ให้ประสบความสำเร็จ ผลลัพธ์ของโครงการนี้จะถูกนำไปใช้เป็นข้อมูลป้อนเข้าสำหรับHorizon 2020 ซึ่ง เป็นโครงการกรอบงานถัดไป[ 182 ]
รัฐบาลอังกฤษประกาศเมื่อเดือนมีนาคม พ.ศ. 2557 เกี่ยวกับการก่อตั้งสถาบันอลัน ทัวริงซึ่งตั้งชื่อตามผู้บุกเบิกด้านคอมพิวเตอร์และผู้ถอดรหัส โดยสถาบันนี้จะมุ่งเน้นไปที่วิธีการใหม่ในการรวบรวมและวิเคราะห์ชุดข้อมูลขนาดใหญ่[ 183 ]
ในงาน Canadian Open Data Experience (CODE) Inspiration Day ที่วิทยาเขต Stratford มหาวิทยาลัย Waterlooผู้เข้าร่วมได้สาธิตวิธีการใช้การแสดงภาพข้อมูลเพื่อเพิ่มความเข้าใจและความน่าสนใจของชุดข้อมูลขนาดใหญ่ และสื่อสารเรื่องราวของพวกเขาไปทั่วโลก[ 184 ]
วิทยาศาสตร์สังคมเชิงคำนวณ – ทุกคนสามารถใช้อินเทอร์เฟซการเขียนโปรแกรมแอปพลิเคชัน (API) ที่จัดหาโดยผู้ถือข้อมูลขนาดใหญ่ เช่น Google และ Twitter เพื่อทำการวิจัยในวิทยาศาสตร์สังคมและพฤติกรรม[ 185 ]บ่อยครั้งที่ API เหล่านี้ให้บริการฟรี[ 185 ] Tobias Preisและคณะใช้ ข้อมูล Google Trendsเพื่อแสดงให้เห็นว่าผู้ใช้อินเทอร์เน็ตจากประเทศที่มีผลิตภัณฑ์มวลรวมภายในประเทศ (GDP) ต่อหัวสูงกว่า มีแนวโน้มที่จะค้นหาข้อมูลเกี่ยวกับอนาคตมากกว่าข้อมูลเกี่ยวกับอดีต ผลการวิจัยชี้ให้เห็นว่าอาจมีความเชื่อมโยงระหว่างพฤติกรรมออนไลน์และตัวชี้วัดทางเศรษฐกิจในโลกแห่งความเป็นจริง[ 186 ] [ 187 ] [ 188 ]ผู้เขียนการศึกษาได้ตรวจสอบบันทึกการค้นหาของ Google โดยพิจารณาจากอัตราส่วนของปริมาณการค้นหาสำหรับปีที่จะมาถึง (2011) ต่อปริมาณการค้นหาสำหรับปีที่ผ่านมา (2009) ซึ่งพวกเขาเรียกว่า " ดัชนีการวางแนวทางอนาคต " [ 189 ]พวกเขาเปรียบเทียบดัชนีการวางแนวทางอนาคตกับ GDP ต่อหัวของแต่ละประเทศ และพบว่ามีแนวโน้มที่ชัดเจนว่าประเทศที่ผู้ใช้ Google สอบถามเกี่ยวกับอนาคตมากขึ้นจะมี GDP สูงกว่า
Tobias Preisและเพื่อนร่วมงานของเขา Helen Susannah Moat และH. Eugene Stanleyได้นำเสนอวิธีการระบุตัวบ่งชี้ล่วงหน้าทางออนไลน์สำหรับการเคลื่อนไหวของตลาดหุ้น โดยใช้กลยุทธ์การซื้อขายตามข้อมูลปริมาณการค้นหาที่จัดทำโดย Google Trends [ 190 ] การวิเคราะห์ปริมาณการค้นหาของ Google สำหรับ 98 คำที่มีความเกี่ยวข้องทางการเงินที่แตกต่างกัน ซึ่งตีพิมพ์ใน Scientific Reports [ 191 ] ชี้ให้เห็นว่าการเพิ่มขึ้นของปริมาณการค้นหาสำหรับคำค้นหาที่เกี่ยวข้องกับการเงินมักจะนำไปสู่การขาดทุนจำนวนมากในตลาดการเงิน[ 192 ] [ 193 ] [ 194 ] [ 195 ] [ 196 ] [ 197 ] [ 198 ]
ชุดข้อมูลขนาดใหญ่มาพร้อมกับความท้าทายทางอัลกอริทึมที่ไม่เคยมีมาก่อน ดังนั้น บางคนจึงมองว่ามีความจำเป็นต้องเปลี่ยนแปลงวิธีการประมวลผลโดยพื้นฐาน[ 199 ]
การสุ่มตัวอย่างข้อมูลขนาดใหญ่
คำถามวิจัยที่มักถามเกี่ยวกับชุดข้อมูลขนาดใหญ่คือ จำเป็นต้องพิจารณาข้อมูลทั้งหมดเพื่อสรุปผลเกี่ยวกับคุณสมบัติของข้อมูลหรือไม่ หรือว่าตัวอย่างข้อมูลก็เพียงพอแล้ว ชื่อ "ข้อมูลขนาดใหญ่" เองก็มีคำที่เกี่ยวข้องกับขนาด ซึ่งเป็นลักษณะสำคัญของข้อมูลขนาดใหญ่ แต่การสุ่มตัวอย่างช่วยให้สามารถเลือกจุดข้อมูลที่เหมาะสมจากชุดข้อมูลขนาดใหญ่เพื่อประเมินลักษณะของประชากรทั้งหมดได้ ในภาคการผลิต ข้อมูลทางประสาทสัมผัสประเภทต่างๆ เช่น เสียง การสั่นสะเทือน ความดัน กระแสไฟฟ้า แรงดันไฟฟ้า และข้อมูลจากตัวควบคุม จะมีให้ใช้งานในช่วงเวลาสั้นๆ การคาดการณ์เวลาหยุดทำงานอาจไม่จำเป็นต้องดูข้อมูลทั้งหมด แต่ตัวอย่างข้อมูลอาจเพียงพอ ข้อมูลขนาดใหญ่สามารถแบ่งย่อยได้ตามหมวดหมู่ข้อมูลต่างๆ เช่น ข้อมูลด้านประชากรศาสตร์ จิตวิทยา พฤติกรรม และธุรกรรม ด้วยชุดข้อมูลขนาดใหญ่ นักการตลาดสามารถสร้างและใช้กลุ่มผู้บริโภคที่กำหนดเองได้มากขึ้นเพื่อการกำหนดเป้าหมายเชิงกลยุทธ์ที่ดียิ่งขึ้น
วิจารณ์
การวิจารณ์กระบวนทัศน์ข้อมูลขนาดใหญ่มีอยู่สองประเภท ได้แก่ การวิจารณ์ที่ตั้งคำถามถึงผลกระทบของแนวทางดังกล่าว และการวิจารณ์ที่ตั้งคำถามถึงวิธีการดำเนินการในปัจจุบัน[ 200 ]แนวทางหนึ่งในการวิจารณ์นี้คือสาขา การ ศึกษา ข้อมูลเชิงวิพากษ์
การวิพากษ์วิจารณ์กระบวนทัศน์ข้อมูลขนาดใหญ่
“ปัญหาสำคัญคือเราไม่รู้มากนักเกี่ยวกับกระบวนการย่อยเชิงประจักษ์พื้นฐานที่นำไปสู่การเกิดขึ้นของลักษณะเครือข่ายทั่วไปของบิ๊กดาต้า” [ 23 ] ในการวิจารณ์ Snijders, Matzat และReipsชี้ให้เห็นว่ามักมีการตั้งสมมติฐานที่แข็งแกร่งมากเกี่ยวกับคุณสมบัติทางคณิตศาสตร์ซึ่งอาจไม่ได้สะท้อนถึงสิ่งที่เกิดขึ้นจริงในระดับกระบวนการย่อยเลย Mark Graham ได้วิจารณ์อย่างกว้างขวางต่อการยืนยันของChris Anderson ที่ว่าบิ๊กดาต้าจะทำให้ทฤษฎีสิ้นสุดลง: [ 201 ]โดยเน้นเป็นพิเศษที่แนวคิดที่ว่าบิ๊กดาต้าจะต้องอยู่ในบริบททางสังคม เศรษฐกิจ และการเมืองเสมอ[ 202 ]แม้ว่าบริษัทต่างๆ จะลงทุนเป็นจำนวนเงินแปดและเก้าหลักเพื่อดึงข้อมูลเชิงลึกจากข้อมูลที่ไหลเข้ามาจากซัพพลายเออร์และลูกค้า แต่มีพนักงานน้อยกว่า 40% เท่านั้นที่มีกระบวนการและทักษะที่ครบถ้วนเพียงพอที่จะทำเช่นนั้นได้ เพื่อเอาชนะการขาดความเข้าใจนี้ ข้อมูลขนาดใหญ่ไม่ว่าจะครอบคลุมหรือวิเคราะห์ได้ดีเพียงใด ก็ต้องเสริมด้วย "การตัดสินใจที่ยิ่งใหญ่" ตามบทความในHarvard Business Review [ 203 ]
ในทำนองเดียวกัน มีการชี้ให้เห็นว่าการตัดสินใจที่อิงจากการวิเคราะห์ข้อมูลขนาดใหญ่ย่อม "ได้รับข้อมูลจากโลกในอดีต หรืออย่างดีที่สุดก็คือโลกในปัจจุบัน" [ 66 ]ด้วยข้อมูลจำนวนมากเกี่ยวกับประสบการณ์ในอดีต อัลกอริทึมสามารถทำนายการพัฒนาในอนาคตได้หากอนาคตคล้ายคลึงกับอดีต[ 204 ]หากพลวัตของระบบในอนาคตเปลี่ยนแปลงไป (หากไม่ใช่กระบวนการคงที่ ) อดีตก็แทบจะไม่สามารถบอกอะไรเกี่ยวกับอนาคตได้เลย เพื่อให้สามารถทำนายผลในสภาพแวดล้อมที่เปลี่ยนแปลงได้ จำเป็นต้องมีความเข้าใจอย่างถ่องแท้เกี่ยวกับพลวัตของระบบ ซึ่งต้องอาศัยทฤษฎี[ 204 ]เพื่อตอบสนองต่อคำวิจารณ์นี้ Alemany Oliver และ Vayre แนะนำให้ใช้ "การให้เหตุผลแบบอุปมานเป็นขั้นตอนแรกในกระบวนการวิจัยเพื่อนำบริบทมาสู่ร่องรอยดิจิทัลของผู้บริโภคและทำให้เกิดทฤษฎีใหม่ขึ้น" [ 205 ] นอกจากนี้ ยังมีการเสนอแนะให้รวมแนวทางข้อมูลขนาดใหญ่เข้ากับการจำลองด้วยคอมพิวเตอร์ เช่นโมเดลแบบตัวแทน[ 66 ]และระบบที่ซับซ้อนโมเดลแบบตัวแทนกำลังพัฒนาให้ดีขึ้นเรื่อยๆ ในการทำนายผลลัพธ์ของความซับซ้อนทางสังคม แม้กระทั่งสถานการณ์ในอนาคตที่ไม่รู้จัก ผ่านการจำลองด้วยคอมพิวเตอร์ที่อิงตามชุดของอัลกอริธึมที่พึ่งพาซึ่งกันและกัน[ 206 ] [ 207 ]สุดท้าย การใช้วิธีการหลายตัวแปรที่ตรวจสอบโครงสร้างแฝงของข้อมูล เช่นการวิเคราะห์ปัจจัยและการวิเคราะห์คลัสเตอร์ได้พิสูจน์แล้วว่ามีประโยชน์ในฐานะแนวทางการวิเคราะห์ที่ก้าวไปไกลกว่าแนวทางสองตัวแปร (เช่นตารางความสัมพันธ์ ) ที่มักใช้กับชุดข้อมูลขนาดเล็ก
ในด้านสุขภาพและชีววิทยา แนวทางทางวิทยาศาสตร์แบบดั้งเดิมนั้นอาศัยการทดลอง สำหรับแนวทางเหล่านี้ ปัจจัยจำกัดคือข้อมูลที่เกี่ยวข้องที่สามารถยืนยันหรือหักล้างสมมติฐานเริ่มต้นได้[ 208 ] ปัจจุบันมีการยอมรับสมมติฐานใหม่ในวิทยาศาสตร์ชีวภาพ: ข้อมูลที่ได้จากข้อมูลจำนวนมหาศาล ( omics ) โดยไม่มีสมมติฐานมาก่อนนั้นเป็นส่วนเสริมและบางครั้งก็จำเป็นสำหรับแนวทางแบบดั้งเดิมที่อาศัยการทดลอง[ 209 ] [ 210 ]ในแนวทางขนาดใหญ่ การกำหนดสมมติฐานที่เกี่ยวข้องเพื่ออธิบายข้อมูลนั้นเป็นปัจจัยจำกัด[ 211 ] ตรรกะการค้นหาถูกกลับด้าน และ ต้องพิจารณา ข้อจำกัดของการเหนี่ยวนำ ("ความรุ่งโรจน์ของวิทยาศาสตร์และเรื่องอื้อฉาวทางปรัชญา", CD Broad , 1926)
ผู้สนับสนุน ความเป็นส่วนตัวกังวลเกี่ยวกับภัยคุกคามต่อความเป็นส่วนตัวที่เกิดจากการจัดเก็บและการบูรณาการข้อมูลส่วนบุคคล ที่เพิ่มมากขึ้น คณะผู้เชี่ยวชาญได้ออกคำแนะนำเชิงนโยบายต่างๆ เพื่อให้การปฏิบัติสอดคล้องกับความคาดหวังด้านความเป็นส่วนตัว[ 212 ]การใช้ข้อมูลขนาดใหญ่ในทางที่ผิดในหลายกรณีโดยสื่อ บริษัท และแม้แต่รัฐบาล ส่งผลให้ความไว้วางใจในสถาบันพื้นฐานเกือบทุกแห่งที่ค้ำจุนสังคมถูกทำลายลง[ 213 ]
Barocas และ Nissenbaum โต้แย้งว่าวิธีหนึ่งในการปกป้องผู้ใช้แต่ละรายคือการแจ้งให้ทราบเกี่ยวกับประเภทของข้อมูลที่ถูกรวบรวม ว่าข้อมูลนั้นถูกแบ่งปันกับใคร ภายใต้ข้อจำกัดใด และเพื่อวัตถุประสงค์ใด[ 214 ]
ข้อวิจารณ์เกี่ยวกับโมเดล "V"
โมเดล "V" ของข้อมูลขนาดใหญ่เป็นเรื่องที่น่ากังวล เนื่องจากเน้นที่ความสามารถในการปรับขนาดการคำนวณและขาดความสามารถในการรับรู้และเข้าใจข้อมูล ซึ่งนำไปสู่กรอบการทำงานของข้อมูลขนาดใหญ่เชิงปัญญาซึ่งกำหนดลักษณะของแอปพลิเคชันข้อมูลขนาดใหญ่ตาม: [ 215 ]
- ความสมบูรณ์ของข้อมูล: ความเข้าใจในสิ่งที่ไม่ชัดเจนจากข้อมูล
- ความสัมพันธ์ของข้อมูล ความเป็นเหตุเป็นผล และความสามารถในการทำนาย: ความเป็นเหตุเป็นผลไม่ใช่ข้อกำหนดที่จำเป็นสำหรับการบรรลุความสามารถในการทำนาย
- ความสามารถในการอธิบายและตีความ: มนุษย์ปรารถนาที่จะเข้าใจและยอมรับในสิ่งที่ตนเข้าใจ ซึ่งเป็นสิ่งที่อัลกอริทึมไม่สามารถจัดการได้
- ระดับของการตัดสินใจอัตโนมัติ : อัลกอริทึมที่สนับสนุนการตัดสินใจอัตโนมัติและการเรียนรู้ด้วยตนเองของอัลกอริทึม
การวิจารณ์ความแปลกใหม่
เครื่องคอมพิวเตอร์ได้วิเคราะห์ชุดข้อมูลขนาดใหญ่มานานกว่าศตวรรษแล้ว รวมถึงการวิเคราะห์ข้อมูลสำมะโนประชากรของสหรัฐฯ ที่ดำเนินการโดยเครื่องเจาะรูของIBM ซึ่งคำนวณสถิติต่างๆ เช่น ค่าเฉลี่ยและความแปรปรวนของประชากรทั่วทั้งทวีป ในช่วงไม่กี่ทศวรรษที่ผ่านมา การทดลองทางวิทยาศาสตร์ เช่น CERNได้สร้างข้อมูลในขนาดที่คล้ายคลึงกับ "บิ๊กดาต้า" เชิงพาณิชย์ในปัจจุบัน อย่างไรก็ตาม การทดลองทางวิทยาศาสตร์มักจะวิเคราะห์ข้อมูลโดยใช้ คลัสเตอร์และกริด คอมพิวเตอร์ประสิทธิภาพสูง (ซูเปอร์คอมพิวเตอร์) ที่สร้างขึ้นเป็นพิเศษ แทนที่จะใช้คลาวด์ของคอมพิวเตอร์ราคาถูกทั่วไปอย่างในกระแสเชิงพาณิชย์ปัจจุบัน ซึ่งบ่งบอกถึงความแตกต่างทั้งในด้านวัฒนธรรมและเทคโนโลยี
การวิพากษ์วิจารณ์การนำข้อมูลขนาดใหญ่ไปใช้
Ulf-Dietrich Reipsและ Uwe Matzat เขียนไว้ในปี 2014 ว่าข้อมูลขนาดใหญ่กลายเป็น "กระแส" ในการวิจัยทางวิทยาศาสตร์[ 185 ]นักวิจัยdanah boydได้แสดงความกังวลเกี่ยวกับการใช้ข้อมูลขนาดใหญ่ในวิทยาศาสตร์โดยละเลยหลักการต่างๆ เช่น การเลือกตัวอย่างที่เป็นตัวแทนโดยกังวลมากเกินไปเกี่ยวกับการจัดการข้อมูลจำนวนมหาศาล[ 216 ]แนวทางนี้อาจนำไปสู่ผลลัพธ์ที่มีอคติในทางใดทางหนึ่ง[ 217 ]การบูรณาการข้ามแหล่งข้อมูลที่หลากหลาย—บางส่วนอาจถือว่าเป็นข้อมูลขนาดใหญ่และบางส่วนไม่ใช่—ก่อให้เกิดความท้าทายด้านโลจิสติกส์และการวิเคราะห์อย่างมาก แต่มีนักวิจัยจำนวนมากโต้แย้งว่าการบูรณาการดังกล่าวมีแนวโน้มที่จะเป็นพรมแดนใหม่ที่น่าสนใจที่สุดในวิทยาศาสตร์[ 218 ] ในบทความที่กระตุ้นความคิดเรื่อง "คำถามสำคัญสำหรับข้อมูลขนาดใหญ่" [ 219 ]ผู้เขียนได้กล่าวถึงข้อมูลขนาดใหญ่ว่าเป็นส่วนหนึ่งของตำนาน : "ชุดข้อมูลขนาดใหญ่นำเสนอรูปแบบของสติปัญญาและความรู้ที่สูงกว่า [...] พร้อมด้วยออร่าแห่งความจริง ความเป็นกลาง และความแม่นยำ" ผู้ใช้ข้อมูลขนาดใหญ่มักจะ "หลงทางไปกับปริมาณตัวเลขมหาศาล" และ "การทำงานกับข้อมูลขนาดใหญ่ยังคงเป็นเรื่องอัตวิสัย และสิ่งที่วัดปริมาณได้นั้นไม่จำเป็นต้องมีการอ้างอิงถึงความจริงที่เป็นกลางอย่างใกล้ชิด" [ 219 ]การพัฒนาล่าสุดในโดเมน BI เช่น การรายงานเชิงรุกโดยเฉพาะอย่างยิ่งมุ่งเป้าไปที่การปรับปรุงความสามารถในการใช้งานข้อมูลขนาดใหญ่ ผ่านการกรองข้อมูลและความสัมพันธ์ที่ไม่เป็นประโยชน์ โดย อัตโนมัติ[ 220 ]โครงสร้างขนาดใหญ่เต็มไปด้วยความสัมพันธ์ที่ผิดพลาด[ 221 ]ไม่ว่าจะเป็นเพราะความบังเอิญที่ไม่มีสาเหตุ ( กฎของจำนวนมากอย่างแท้จริง ) ธรรมชาติของความสุ่มขนาดใหญ่เพียงอย่างเดียว[ 222 ] ( ทฤษฎีของแรมซีย์ ) หรือการมีอยู่ของปัจจัยที่ไม่ได้รวมอยู่ด้วยดังนั้นความหวังของนักทดลองในยุคแรกๆ ที่จะทำให้ฐานข้อมูลตัวเลขขนาดใหญ่ "พูดด้วยตัวเอง" และปฏิวัติวิธีการทางวิทยาศาสตร์จึงถูกตั้งคำถาม[ 223 ]แคทเธอรีน ทักเกอร์ชี้ให้เห็นถึง "กระแสความนิยม" เกี่ยวกับข้อมูลขนาดใหญ่ โดยเขียนว่า "ข้อมูลขนาดใหญ่เพียงอย่างเดียวไม่น่าจะมีคุณค่า" บทความอธิบายว่า "บริบทมากมายที่ข้อมูลมีราคาถูกเมื่อเทียบกับต้นทุนในการรักษาบุคลากรที่มีความสามารถในการประมวลผล แสดงให้เห็นว่าทักษะการประมวลผลมีความสำคัญมากกว่าตัวข้อมูลเองในการสร้างมูลค่าให้กับบริษัท" [ 224 ]
การวิเคราะห์ข้อมูลขนาดใหญ่มักจะตื้นเขินเมื่อเทียบกับการวิเคราะห์ชุดข้อมูลขนาดเล็ก[ 225 ]ในโครงการข้อมูลขนาดใหญ่หลายโครงการไม่มีการวิเคราะห์ข้อมูลขนาดใหญ่เกิดขึ้น แต่ความท้าทายอยู่ ที่ส่วนของ การสกัด การแปลง และการโหลดข้อมูลก่อนการประมวลผล[ 225 ]
ข้อมูลขนาดใหญ่เป็นคำที่ได้รับความนิยมและเป็น "คำที่คลุมเครือ" [ 226 ] [ 227 ]แต่ในขณะเดียวกันก็เป็น "สิ่งที่ผู้ประกอบการ ที่ปรึกษา นักวิทยาศาสตร์ และสื่อต่างให้ความสนใจ" [ 227 ]การนำเสนอข้อมูลขนาดใหญ่ เช่นGoogle Flu Trendsล้มเหลวในการให้การคาดการณ์ที่ดีในช่วงไม่กี่ปีที่ผ่านมา โดยคาดการณ์การระบาดของไข้หวัดใหญ่เกินจริงถึงสองเท่า ในทำนองเดียวกัน การคาดการณ์ รางวัลออสการ์และการเลือกตั้งที่อิงจาก Twitter เพียงอย่างเดียวมักจะผิดพลาดมากกว่าถูกต้อง ข้อมูลขนาดใหญ่มักก่อให้เกิดความท้าทายเช่นเดียวกับข้อมูลขนาดเล็ก การเพิ่มข้อมูลมากขึ้นไม่ได้แก้ปัญหาเรื่องอคติ แต่กลับอาจเน้นย้ำปัญหาอื่นๆ โดยเฉพาะอย่างยิ่งแหล่งข้อมูลเช่น Twitter ไม่ได้เป็นตัวแทนของประชากรโดยรวม และผลลัพธ์ที่ได้จากแหล่งข้อมูลดังกล่าวอาจนำไปสู่ข้อสรุปที่ผิดพลาดGoogle Translateซึ่งอิงจากการวิเคราะห์ทางสถิติของข้อมูลขนาดใหญ่ของข้อความ ทำงานได้ดีในการแปลหน้าเว็บ อย่างไรก็ตาม ผลลัพธ์จากโดเมนเฉพาะทางอาจคลาดเคลื่อนอย่างมาก ในทางกลับกัน ข้อมูลขนาดใหญ่อาจก่อให้เกิดปัญหาใหม่ๆ เช่นปัญหาการเปรียบเทียบหลายรายการ : การทดสอบสมมติฐานจำนวนมากพร้อมกันมีแนวโน้มที่จะสร้างผลลัพธ์ที่ผิดพลาดจำนวนมากซึ่งดูเหมือนมีนัยสำคัญอย่างผิดพลาด Ioannidis โต้แย้งว่า "ผลการวิจัยที่ตีพิมพ์ส่วนใหญ่เป็นเท็จ" [ 228 ]เนื่องจากผลกระทบที่คล้ายคลึงกัน: เมื่อทีมวิทยาศาสตร์และนักวิจัยจำนวนมากทำการทดลองจำนวนมาก (เช่น ประมวลผลข้อมูลทางวิทยาศาสตร์จำนวนมาก แม้ว่าจะไม่ได้ใช้เทคโนโลยีข้อมูลขนาดใหญ่ก็ตาม) โอกาสที่ผลลัพธ์ที่ "มีนัยสำคัญ" จะเป็นเท็จจะเพิ่มขึ้นอย่างรวดเร็ว โดยเฉพาะอย่างยิ่งเมื่อมีการตีพิมพ์เฉพาะผลลัพธ์เชิงบวกเท่านั้น นอกจากนี้ ผลลัพธ์การวิเคราะห์ข้อมูลขนาดใหญ่จะดีได้ก็ต่อเมื่อแบบจำลองที่ใช้เป็นพื้นฐานนั้นดีเท่านั้น ตัวอย่างเช่น ข้อมูลขนาดใหญ่ได้มีส่วนร่วมในการพยายามทำนายผลการเลือกตั้งประธานาธิบดีสหรัฐฯ ปี 2016 [ 229 ]ด้วยระดับความสำเร็จที่แตกต่างกัน
การวิพากษ์วิจารณ์การใช้ข้อมูลขนาดใหญ่ในการบังคับใช้กฎหมายและการเฝ้าระวัง
ข้อมูลขนาดใหญ่ถูกนำมาใช้ในการควบคุมดูแลและการเฝ้าระวังโดยสถาบันต่างๆ เช่น หน่วยงานบังคับใช้กฎหมายและบริษัทต่างๆ ( ) [ 230 ]เนื่องจากลักษณะการเฝ้าระวังโดยใช้ข้อมูลนั้นมองเห็นได้ยากกว่าเมื่อเทียบกับวิธีการควบคุมดูแลแบบดั้งเดิม การคัดค้านการใช้ข้อมูลขนาดใหญ่ในการควบคุมดูแลจึงมีโอกาสน้อย ตามที่ Sarah Brayne กล่าวไว้ในBig Data Surveillance: The Case of Policing [ 231 ] การ ใช้ข้อมูลขนาดใหญ่ในการควบคุมดูแลสามารถสร้าง ความไม่เท่าเทียมกันทางสังคมที่มีอยู่ขึ้นมาใหม่ได้3 วิธี:
- การเพิ่มการเฝ้าระวังประชาชนโดยอ้างเหตุผลจากอัลกอริทึมทางคณิตศาสตร์ซึ่งถือว่าไม่มีอคติ
- การเพิ่มขอบเขตและจำนวนผู้ที่อยู่ภายใต้การติดตามของหน่วยงานบังคับใช้กฎหมาย และการทำให้ปัญหาการมีจำนวนคนเชื้อชาติใดเชื้อชาติ หนึ่งมากเกินไป ในระบบยุติธรรมทางอาญาทวี ความรุนแรงขึ้น
- ส่งเสริมให้สมาชิกในสังคมละทิ้งปฏิสัมพันธ์กับสถาบันที่จะสร้างร่องรอยทางดิจิทัล ซึ่งจะสร้างอุปสรรคต่อการมีส่วนร่วมทางสังคม
หากปัญหาที่อาจเกิดขึ้นเหล่านี้ไม่ได้รับการแก้ไขหรือควบคุม ผลกระทบของการควบคุมข้อมูลขนาดใหญ่ก็อาจยังคงส่งผลต่อลำดับชั้นทางสังคมต่อไป เบรย์นยังตั้งข้อสังเกตอีกว่า การใช้การควบคุมข้อมูลขนาดใหญ่อย่างรอบคอบสามารถป้องกันไม่ให้ความลำเอียงในระดับบุคคลกลายเป็นความลำเอียงในระดับสถาบันได้
ดูเพิ่มเติม
- จริยธรรมของข้อมูลขนาดใหญ่ – จริยธรรมของการวิเคราะห์ข้อมูลจำนวนมหาศาล
- แบบจำลองความพร้อมของข้อมูลขนาดใหญ่ – แง่มุมหนึ่งของวิทยาศาสตร์คอมพิวเตอร์
- หน่วยความจำขนาดใหญ่ – หน่วยความจำแบบเข้าถึงโดยสุ่มจำนวนมาก
- การจัดการข้อมูล – การจัดระเบียบข้อมูลที่รวบรวมไว้
- ระบบจัดเก็บข้อมูลแบบกำหนดเอง (Data defined storage ) – คำศัพท์ทางการตลาดสำหรับการจัดการข้อมูลโดยการผสานรวมระดับแอปพลิเคชัน ข้อมูล และพื้นที่จัดเก็บข้อมูล
- วิศวกรรมข้อมูล – แนวทางการออกแบบและพัฒนาระบบสารสนเทศโดยใช้หลักวิศวกรรมซอฟต์แวร์
- ที่มาของข้อมูล – ต้นกำเนิดและลำดับเหตุการณ์ของข้อมูล
- การบริจาคข้อมูลเพื่อการกุศล – แง่มุมหนึ่งของวัฒนธรรม
- วิทยาศาสตร์ข้อมูล – สาขาวิชาที่ศึกษาเพื่อสกัดความรู้จากข้อมูล
- การแปลงข้อมูลเป็นดิจิทัล – แนวโน้มทางเทคโนโลยี
- ฐานข้อมูลเชิงเอกสาร – ประเภทของโปรแกรมคอมพิวเตอร์
- รายชื่อบริษัทบิ๊กดาต้า
- ฐานข้อมูลขนาดใหญ่มาก – ฐานข้อมูลที่มีข้อมูลจำนวนมหาศาล
- การวิเคราะห์ข้อมูลเชิงโทโพโลยี – การวิเคราะห์ชุดข้อมูลโดยใช้เทคนิคจากโทโพโลยี
- XLDB
- ดาร์วิน สหภาพยุโรป
บรรณานุกรม
- Hilbert, M (2016), "ข้อมูลขนาดใหญ่เพื่อการพัฒนา: การทบทวนคำมั่นสัญญาและความท้าทาย", Development Policy Review , 34 (1): 135– 74, doi : 10.1111/dpr.12142เข้าถึงได้ฟรี , เก็บถาวรเมื่อวันที่ 21 เมษายน 2021 ที่Wayback Machine
- สไนจ์เดอร์ส ซี.; มัตซัต ยู.; ไรพส์ ยู.-ดี. (2012) "'บิ๊กดาต้า': ช่องว่างความรู้ขนาดใหญ่ในสาขาอินเทอร์เน็ต"วารสารวิทยาศาสตร์อินเทอร์เน็ตนานาชาติ 7 : 1– 5.เก็บถาวรจากต้นฉบับเมื่อวันที่ 23 พฤศจิกายน 2019 สืบค้นเมื่อ 13 เมษายน 2013
- Yanase, J; Triantaphyllou, E (2019). "การสำรวจอย่างเป็นระบบเกี่ยวกับการวินิจฉัยโรคด้วยคอมพิวเตอร์ช่วยในทางการแพทย์: การพัฒนาในอดีตและปัจจุบัน" Expert Systems with Applications . 138 112821. doi : 10.1016/j.eswa.2019.112821 . S2CID 199019309 .
อ่านเพิ่มเติม
- Peter Kinnaird; Inbal Talgam-Cohen, บรรณาธิการ (2012). "Big Data" . XRDS: Crossroads, นิตยสาร ACM สำหรับนักศึกษา . เล่มที่ 19, ฉบับที่ 1. สมาคมเครื่องจักรคำนวณ . ISSN 1528-4980 . OCLC 779657714 .
- Leskovec, Jure ; Rajaraman, Anand ; Ullman, Jeffrey D. (2014). การขุดค้นข้อมูลจากชุดข้อมูลขนาดใหญ่ . สำนักพิมพ์มหาวิทยาลัยเคมบริดจ์. ISBN 978-1-10707723-2. OCLC 888463433 .
- Mayer-Schönberger, Viktor ; Cukier, Kenneth (2013). บิ๊กดาต้า: การปฏิวัติที่จะเปลี่ยนแปลงวิถีชีวิต การทำงาน และความคิดของเรา . สำนักพิมพ์ Houghton Mifflin Harcourt. ISBN 978-1-29990302-9. OCLC 828620988 .
- Press, Gil (9 พฤษภาคม 2013). "ประวัติโดยย่อของบิ๊กดาต้า" . forbes.com . เจอร์ซีย์ซิตี, นิวเจอร์ซีย์. สืบค้นเมื่อ17 กันยายน 2016 .
- Stephens-Davidowitz, Seth (2017). ทุกคนโกหก: ข้อมูลขนาดใหญ่ ข้อมูลใหม่ และสิ่งที่อินเทอร์เน็ตสามารถบอกเราได้เกี่ยวกับตัวตนที่แท้จริงของเรา . สำนักพิมพ์ Dey Street Books. ISBN 978-0-06239085-1.
- "บิ๊กดาต้า: การปฏิวัติการจัดการ"วารสารธุรกิจฮาร์วาร์ด ตุลาคม 2555
- โอ'นีล, แคธี่ (2017). อาวุธทำลายล้างทางคณิตศาสตร์: ข้อมูลขนาดใหญ่เพิ่มความเหลื่อมล้ำและคุกคามประชาธิปไตยได้อย่างไร . สำนักพิมพ์บรอดเวย์บุ๊คส์. ISBN 978-0-55341883-5.
ลิงก์ภายนอก
สื่อที่เกี่ยวข้องกับข้อมูลขนาดใหญ่ในวิกิมีเดียคอมมอนส์
คำจำกัดความของคำว่า"บิ๊กดาต้า"ในพจนานุกรมวิกิพีเดีย
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ ข้อมูลขนาดใหญ่
ข้อมูลขนาดใหญ่โดยหลักแล้วหมายถึงชุดข้อมูล ที่มีขนาดใหญ่หรือซับซ้อนเกินกว่าที่ ซอฟต์แวร์ประมวลผลข้อมูล แบบดั้งเดิมจะจัดการได้ข้อมูลที่มีรายการ (แถว) จำนวนมากจะให้พลังทางสถิติ...
คำนิยาม
คำว่า บิ๊กดาต้า ถูกใช้มาตั้งแต่ทศวรรษ 1990 โดยบางคนให้เครดิตแก่ John Mashey ในการทำให้คำนี้เป็นที่นิยม [ 21 ] [ 22 ] โดยทั่วไปแล้วบิ๊กดาต้าจะรวมถึงชุดข้อมูลที่มีขนาดใหญ่เกินกว่าความสามารถของเครื่องมือซอฟต์แวร์ที่ใช้กันทั่วไปในการ รวบรวม จัดการ ประมวล ผล...
ข้อมูลขนาดใหญ่เทียบกับระบบวิเคราะห์ข้อมูลทางธุรกิจ
แนวคิดที่เติบโตเต็มที่มากขึ้นทำให้เห็นความแตกต่างระหว่าง "บิ๊กดาต้า" และ " ธุรกิจอัจฉริยะ " ได้ชัดเจนยิ่งขึ้น: [ 30 ]
ลักษณะเฉพาะ
ข้อมูลขนาดใหญ่สามารถอธิบายได้ด้วยลักษณะดังต่อไปนี้: