nasanhealth / การวิเคราะห์ด้วยโปรแกรมสำเร็จรูป / การวิเคราะห์ข้อมูลทางสถิติ

การวิเคราะห์ข้อมูลทางสถิติ

 

การวิเคราะห์ข้อมูลทางสถิตินั้น เป็นการประมวลผลข้อมูลที่มีปริมาณมาก ดังนั้นการนำคอมพิวเตอร์มาช่วยในการวิเคราะห์ข้อมูล จะช่วยประหยัดเวลาและค่าใช้จ่าย มีความสะดวกมากกว่าที่จะคำนวณด้วยเครื่องคิดเลขทั่ว ๆ ไป และในการใช้คอมพิวเตอร์ ส่วนใหญ่นักวิจัยนิยมที่จะใช้โปรแกรมสำเร็จรูป ( Package Program) มากกว่าที่จะเขียนโปรแกรมขึ้นมาเอง โปรแกรมสำเร็จรูปที่นำมาใช้วิเคราะห์ข้อมูลจะเป็นโปรแกรมสำเร็จรูปทางสถิติโดยตรง แต่ในปัจจุบันมีโปรแกรมสำเร็จรูปที่ทำงานด้านอื่น ๆ สามารถนำมาวิเคราะห์ข้อมูลทางสถิติได้ เช่น โปรแกรม EXCEL ซึ่งเป็นโปรแกรมประเภทกระดาษทด ( Spread Sheet ) แต่เนื่องจากโปรแกรมประเภทนี้ถูกสร้างขึ้นมาสำหรับงานบางอย่างที่ไม่ใช่สถิติโดยตรง ดังนั้นการวิเคราะห์ข้อมูลด้วยวิธีการทางสถิติบางอย่าง โปรแกรมประเภทนี้อาจทำไม่ได้ หรือทำได้แต่อาจจะให้รายละเอียดน้อยกว่า ดังนั้นผู้วิจัยส่วนใหญ่จึงนิยมใช้โปรแกรมสำเร็จรูปทางสถิติมากกว่า แต่อย่างไรก็ตาม โปรแกรม EXCEL จะมีความสามารถในด้านการนำเสนอข้อมูลด้วยกราฟหรือแผนภูมิ

1.1 การวิเคราะห์ข้อมูล

        การวิเคราะห์ข้อมูล หมายถึง การจัดการข้อมูลด้วยวิธีต่าง ๆ เช่น การคำนวณ การนำเสนอข้อมูล เป็นต้น เพื่อให้ได้ผลลัพธ์ตามวัตถุประสงค์

        การวิเคราะห์ข้อมูลสถิติ สามารถทำได้หลายแบบดังนี้

       1. การวิเคราะห์ด้วยมือ ( Manual Data Analysis ) เป็นการวิเคราะห์ข้อมูลด้วยวิธีการทางสถิติโดยการคำนวณเอง หรืออาจจะใช้เครื่องมือบางอย่างช่วยได้ เช่น เครื่องคิดเลข เป็นต้น วิธีนี้เหมาะสำหรับข้อมูลที่มีจำนวนไม่มากนัก การคำนวณไม่ยุ่งยาก

          2. การวิเคราะห์ด้วยเครื่องคอมพิวเตอร์ ( Computer Data Analysis ) เป็นการวิเคราะห์ข้อมูลด้วยวิธีการทางสถิติ โดยใช้เครื่องคอมพิวเตอร์มาช่วย ซึ่งผู้ใช้จำเป็นต้องใช้เครื่องคอมพิวเตอร์ได้และเลือกโปรแกรมวิเคราะห์ได้เหมาะสม วิธีนี้เหมาะสำหรับข้อมูลจำนวนมาก เป็นวิธีทางที่สะดวก รวดเร็ว แต่ต้องมีความระมัดระวังในเรื่องของข้อมูล กล่าวคือ ข้อมูลที่ใช้ในการวิเคราะห์ต้องผ่านการตรวจสอบความถูกต้อง

1.2 ประเภทของโปรแกรม

การวิเคราะห์ข้อมูลสถิติที่มีจำนวนมากควรเลือกคอมพิวเตอร์ช่วยในการวิเคราะห์ ซึ่งต้องอาศัยโปรแกรม หรือ ซอฟแวร์มาช่วย

โปรแกรม หรือ ซอฟแวร์ หมายถึง ชุดของคำสั่งที่มีการจัดเรียงลำดับได้อย่างถูกต้อง ซึ่งสามารถทำงานและได้ผลลัพธ์ตามที่ผู้ใช้โปรแกรมต้องการ

โปรแกรมจำแนกได้เป็น 2 ประเภท คือ

       1. โปรแกรมที่ผู้ใช้เขียนขึ้นเอง ( User's Written Program ) เป็นโปรแกรมที่ผู้ใช้เขียนสั่งให้คอมพิวเตอร์ทำงานได้ตามความต้องการ หรือ ตรงตามวัตถุประสงค์ และเหมาะสมด้วยภาษาคอมพิวเตอร์ โดยใช้เทคนิคและความชำนาญของผู้เขียนโปรแกรมด้วย ภาษาคอมพิวเตอร์ ที่นิยมใช้ เช่น ภาษาเบสิก ภาษาซี เป็นต้น

      2. โปรแกรมสำเร็จรูป ( Package Program ) เป็นโปรแกรมที่มีผู้เขียนได้เขียนไว้เรียบร้อยแล้ว โปรแกรมสำเร็จรูปจะให้ความสะดวกในการใช้งานมาก โดยที่ผู้ใช้ไม่จำเป็นต้องมีความรู้ทางด้านคอมพิวเตอร์มากนัก เพียงแต่เรียนรู้วิธีการใช้งาน ซึ่งส่วนมากจะมีคำอธิบายการใช้โปรแกรมมาให้ และในขณะทำงานก็สามารถขอรายละเอียดเพิ่มเติมได้ตลอดเวลาในการใช้โปรแกรมสำเร็จรูป

1.3 โปรแกรมสำเร็จรูปทางสถิติ

       โปรแกรมสำเร็จรูปทางสถิติ ( Statistical Package ) เป็นโปรแกรมสำหรับการวิเคราะห์ข้อมูลทางสถิติโดยตรง ในระยะแรกโปรแกรมสำเร็จรูปทางสถิติที่ใช้กับคอมพิวเตอร์ มีไม่มากนักและมีใช้เฉพาะเครื่องคอมพิวเตอร์เมนเฟรม โปรแกรมที่มีชื่อเสียงและเป็นที่รู้จักกันดีคือ โปรแกรมสำเร็จรูป SPSS (Statistical Package for the Social Sciences) โปรแกรมสำเร็จรูป SAS ( Statistical Analysis System ) และโปรแกรมสำเร็จรูป BMDP (Biomedical Computer Program)

        ในปัจจุบันนี้ได้มีความก้าวหน้าทางเทคโนโลยีด้านไมโครคอมพิวเตอร์ ทำให้การ ประมวลผลข้อมูลมีประสิทธิภาพมากขึ้น ดังนั้นนักวิจัยจึงหันมาใช้ไมโครคอมพิวเตอร์มากขึ้น เพราะมีความสะดวกมากกว่า จึงทำให้มีผู้ผลิตโปรแกรมสำเร็จรูปทางสถิติ สำหรับเครื่องไมโครคอมพิวเตอร์มากขึ้น ซึ่งมีทั้งโปรแกรมขนาดเล็กที่วิเคราะห์สถิติเฉพาะอย่าง และโปรแกรมขนาดใหญ่ที่สามารถวิเคราะห์สถิติหลายประเภท ได้แก่ โปรแกรม SPSS SAS และ BMDP ได้ถูกพัฒนามาใช้กับเครื่องไมโครคอมพิวเตอร์เช่นเดียวกัน ซึ่งมีชื่อต่าง ๆ กันดังนี้

        โปรแกรม SPSS   สำหรับเครื่องไมโครคอมพิวเตอร์มีชื่อเรียกว่า    SPSS/PC + , SPSS FOR WINDOWS

        โปรแกรม SAS      สำหรับเครื่องไมโครคอมพิวเตอร์มีชื่อเรียกว่า    SAS ON PC DOS

        โปรแกรม BMDP  สำหรับเครื่องไมโครคอมพิวเตอร์มีชื่อเรียกว่า    BMDP-PC

  โปรแกรมสำเร็จรูปทางสถิติอาจจำแนกตามองค์ประกอบของโปรแกรมได้เป็น 2 ประเภทใหญ่ๆ คือ

        1. โปรแกรมเบ็ดเสร็จ เป็นโปรแกรมที่เขียนขึ้นสำหรับวิเคราะห์ข้อมูลทางสถิติแบบอเนกประสงค์ มีความสามารถในการวิเคราะห์ข้อมูลเชิงสถิติทุกประเภท โดยทั่วไปแล้วจะเป็นโปรแกรมที่มีขนาดใหญ่ เช่น โปรแกรม SPSS/PC , SAS , BMDP-PC , GENSTAT , MINITAB และ STATA เป็นต้น

       2. โปรแกรมที่เน้นเฉพาะด้าน เป็นโปรแกรมที่เขียนขึ้นเพื่อเน้นการวิเคราะห์เชิงสถิติประเภทใดประเภทหนึ่งโดยเฉพาะ เช่น

            -  โปรแกรมสำหรับกำหนดการเชิงเส้น ( Linear Programming) เช่น โปรแกรม LINDO โปรแกรม GINO โปรแกรม LINGO

            -  โปรแกรมที่เน้นการพยากรณ์ของข้อมูลอนุกรมเวลา เช่น โปรแกรม TSP ( Time Series Program )

            -  โปรแกรมที่เน้นทางด้าน Statistical Modeling เช่น โปรแกรม GLIM

 ลักษณะการใช้งานของโปรแกรมทางสถิติ อาจแบ่งออกได้เป็น 2 ประเภทใหญ่ๆ คือ

       1. โปรแกรมชนิดสั่งให้ทำงานด้วยคำสั่ง ( Command Driven) ก่อนที่จะใช้โปรแกรมชนิดนี้ผู้ใช้จะต้องศึกษาคำสั่ง( Commands) ต่างๆให้เข้าใจเสียก่อน จากนั้นจึงเขียนชุดคำสั่งเพื่อทำการวิเคราะห์ข้อมูล ตัวอย่างของโปรแกรมประเภทนี้ เช่น SPSS/PC , MINITAB , SAS และ STATA เป็นต้น

       2. โปรแกรมชนิดสั่งให้ทำงานโดยอาศัยเมนู ( Menu Driven) โปรแกรมประเภทนี้จะใช้งานง่ายกว่าโปรแกรมชนิดคำสั่ง จึงเหมาะสำหรับผู้เริ่มใช้โปรแกรมสำเร็จรูปทางสถิติ ทั้งนี้เนื่องจาก โปรแกรมประเภทนี้จะแสดงรายการต่างๆออกทางหน้าจอ แล้วให้ผู้ใช้เลือกว่าต้องการใช้รายการใด เช่น โปรแกรม STATPACK , SPSS for Windows

 

1. 4 ความหมายและประเภทของข้อมูล

      ข้อมูล ( Data) คือ ข้อเท็จจริงที่เกิดขึ้น ข้อมูลอาจจะอยู่ในรูปของข้อความหรือตัวเลข ซึ่งข้อความหรือตัวเลขเหล่านี้อาจเป็นเรื่องที่เกี่ยวข้องกับ คน พืช สัตว์ และสิ่งของ เช่น ปริมาณข้าวที่ประเทศไทยผลิตได้ในในปี 2545 เป็นข้อมูลที่เป็นตัวเลข หรือความคิดเห็นของประชาชนเกี่ยวกับการเลือกตั้ง เป็นข้อมูลที่อยู่ในรูปข้อความ เป็นต้น

      ตัวแปร ( Variable) คือ ข้อมูลที่ได้จากสังเกต วัด สอบถามจากหน่วยที่ศึกษา โดยที่หน่วยที่ศึกษาอาจเป็นคน สัตว์ พืช และสิ่งของ เมื่อหน่วยศึกษาแตกต่างกัน ข้อมูลที่ได้จึงแตกต่างกัน จึงเรียกข้อมูลที่แตกต่างกันนั้นว่า ตัวแปร เช่น รายได้ของคนในจังหวัดสงขลา ในที่นี่หน่วยที่ศึกษา คือ คนในจังหวัดสงขลา แต่ละคนจะแตกต่างกันออกไป ดังนั้นตัวแปร คือ รายได้ของคนในจังหวัดสงขลา ซึ่งมีค่าที่แตกต่างกัน ค่าของตัวแปร คือ ข้อมูลนั่นเอง

 ประเภทของข้อมูล

การแบ่งประเภทของข้อมูล มีวิธีการแบ่งได้หลายวิธี ตามเกณฑ์ในการจำแนก เช่น

      1. จำแนกตามลักษณะการเก็บข้อมูล แบ่งได้เป็น 2 ประเภท คือ

               1.1 ข้อมูลที่ได้จากการนับ (Counting Data) เช่น จำนวนนักศึกษาที่สอบผ่าน จำนวนรถที่ผ่านเข้า - ออกมหาวิทยาลัยในช่วงเวลา
08.00 - 09.00 น . ซึ่งข้อมูลที่ได้จะเป็นเลขจำนวนเต็ม บางครั้งเรียกว่าเป็นข้อมูลที่ไม่ต่อเนื่อง

               1.2 ข้อมูลที่ได้จาการวัด (Measurement Data) เช่น น้ำหนักของนักศึกษาแต่ละคน ส่วนสูงของนักศึกษาแต่ละคน ระยะเวลาในการ เดินทางจากบ้านมายังที่ทำงานของพนักงาน แต่ละคน ปริมาณน้ำฝนที่วัดได้ ข้อมูลที่ได้จะมีลักษณะเป็นเศษส่วน หรือจุดทศนิยม บางครั้ง  เรียกว่าข้อมูลแบบต่อเนื่อง

               1.3 ข้อมูลที่ได้จากการสังเกต ( Ob servation Data) เป็นข้อมูลที่ได้จากการติดตามหรือเฝ้าสังเกตพฤติกรรม หรือปรากฏการณ์ต่างๆ เป็นต้น

               1.4 ข้อมูลที่ได้จากการสัมภาษณ์ ( Interview Data) เป็นข้อมูลที่ได้จากการถามตอบโดยตรง ระหว่างผู้สัมภาษณ์ และผู้ถูกสัมภาษณ์


      2. จำแนกตามลักษณะข้อมูล แบ่งได้เป็น 2 ประเภท คือ

               2.1 ข้อมูลเชิงปริมาณ (Quantitative Data) เป็นข้อมูลที่แสดงความแตกต่างในเรื่องปริมาณหรือขนาด ในลักษณะของตัวเลขโดยตรง เช่น อายุ ส่วนสูง น้ำหนัก ซึ่งแบ่งได้เป็น 2 ประเภท คือ

                     - ข้อมูลแบบไม่ต่อเนื่อง (Discrete Data) หมายถึง ข้อมูลที่มีค่าเป็นเลขจำนวนเต็มที่มีความหมาย เช่น จำนวนสิ่งของ จำนวนคน   เป็นต้น

                       - ข้อมูลแบบต่อเนื่อง ( Continuous Data) หมายถึง ข้อมูลที่อยู่ในรูปตัวเลขที่มีค่าได้ทุกค่าในช่วงที่กำหนด และมีความหมายด้วย เช่น รายได้ น้ำหนัก เป็นต้น

               2.2 ข้อมูลเชิงคุณภาพ (Qualitative Data) เป็นข้อมูลที่แสดงลักษณะที่แตกต่างกัน เช่น เพศชาย เพศหญิง จะเป็นข้อมูลที่ไม่ได้อยู่ในรูปของตัวเลขโดยตรง


     3. จำแนกตามการจัดการข้อมูล แบ่งได้เป็น 2 ประเภท คือ

               3.1 ข้อมูลดิบ (Raw Data) เป็นข้อมูลที่ได้จาการเก็บ ยังไม่ได้จัดรวบรวมเป็นหมู่เป็นกลุ่มหรือจัดเป็นพวก

               3.2 ข้อมูลที่จัดเป็นกลุ่ม (Group Data) เป็นข้อมูลที่เกิดจากการนำข้อมูลดิบมารวบรวมเป็นกลุ่มเป็นหมวดหมู่


     4. จำแนกตามแหล่งที่มาของข้อมูล แบ่งได้เป็น 2 ชนิด คือ

               4.1 ข้อมูลปฐมภูมิ (Primary Data) เป็นข้อมูลที่ได้มาจากการที่ผู้ใช้เป็นผู้เก็บข้อมูลโดยตรง ซึ่งอาจจะเก็บด้วยการสัมภาษณ์หรือสังเกตการณ์ เป็นข้อมูลที่มีความน่าเชื่อถือมากที่สุด เนื่องจากยังไม่มีการเปลี่ยนรูป และมีรายละเอียดตามที่ผู้ใช้ต้องการ แต่จะต้องเสียเวลาและค่าใช้จ่ายมาก เช่น ข้อมูลที่ได้จากการนับจำนวนรถที่เข้า - ออก มหาวิทยาลัยในช่วงเวลา 08.00 - 09.00 น . ข้อมูลจากการสัมภาษณ์นักศึกษา

               4.2 ข้อมูลทุติภูมิ (Secondary Data) เป็นข้อมูลที่ได้มาจากแหล่งข้อมูลที่มีผู้เก็บรวบรวมไว้แล้ว เป็นข้อมูลในอดีต และมักจะเป็นข้อมูลที่ได้ผ่านการวิเคราะห์เบื้องต้นมาแล้ว ผู้ใช้นำมาใช้ได้เลย จึงประหยัดทั้งเวลาและค่าใช้จ่าย บางครั้งข้อมูลทุติยภูมิจะไม่ตรงกับความต้องการหรือมีรายละเอียดไม่เพียงพอ นอกจากนั้นผู้ใช้จะไม่ทราบถึงข้อผิดพลาดของข้อมูล ซึ่งอาจจะทำให้ผู้ที่นำมาใช้ สรุปผลการวิจัยผิดพลาดไปด้วย เช่น สถิติการเกิดอุบัติเหตุโดยรถจักรยานยนต์ของนักศึกษาในปี 2540 - 2541 เป็นข้อมูลที่บางครั้งอาจถูกแปรรูปไปแล้ว แต่เนื่องจากบางครั้งเราไม่สามารถที่จะจัดเก็บข้อมูลปฐมภูมิได้เราจึงต้องศึกษาจากข้อมูลที่มีการเก็บรวบรวมไว้แล้ว

      5. แบ่งตามมาตรของการวัด จะแบ่งได้ 4 ชนิด

               5.1 มาตรวัดนามบัญญัติ (Nominal Scale) เป็นการวัดค่าที่ง่ายที่สุดหรือสะดวกต่อการใช้มากที่สุด เพราะเป็นการแบ่งกลุ่มของข้อมูล เพื่อสะดวกต่อการวิเคราะห์ โดยการแบ่งกลุ่มจะถือว่าแต่ละกลุ่มจะมีความเสมอภาคกันหรือเท่าเทียมกัน ค่าที่กำหนดให้แต่ละกลุ่มจะไม่มีความหมาย และไม่สามารถมาคำนวณได้ เช่น เพศ มี 2 ค่า คือ ชายและหญิง การจำแนกเพศอาจจะกำหนดค่าได้ 2 ค่า คือ ถ้า 0 หมายถึงเพศชาย ถ้า 1 หมายถึงเพศหญิง เป็นต้น

               5.2 มาตรวัดอันดับ (Ordinal Scale) เป็นการวัดที่แสดงว่าข้อมูลที่อยู่ในแต่ละกลุ่มจะมีความแตกต่างกัน โดยพิจารณาจากลำดับด้วย นั่นคือสามารถบอกได้ว่า กลุ่มใดดีกว่ากลุ่มอื่นๆ หรือ กลุ่มใดที่มากกว่าหรือน้อยกว่ากลุ่มอื่นๆ แต่ไม่สามารถบอกปริมาณความมากกว่าหรือน้อยกว่าเป็นเท่าใด และค่าที่กำหนดให้แต่ละกลุ่มไม่สามารถนำมาคำนวณได้ เช่น คำถามที่ว่า “ ท่านอยากทำอะไรเมื่อมีวันหยุดพิเศษ ” โดยให้เรียงลำดับตามที่ต้องการจะทำมากที่สุด 5 อันดับ

          - ไปเที่ยวห้างสรรพสินค้า        ลำดับที่  4                -  ดูทีวีที่บ้าน            ลำดับที่   1

          - ไปพักผ่อนที่ต่างจังหวัด               "     2               -  ไปเล่นกีฬา                  "       5

          - ไปดูภาพยนตร์                             "    3

จากข้างต้นจะพบว่า ท่านนี้ชอบดูทีวีที่บ้านมากกว่าไปพักผ่อนต่างจังหวัด แต่ไม่ทราบว่า ชอบมากกว่าเท่าใด

            5.3 มาตรวัดแบบช่วง (Interval Scale) เป็นการวัดที่แบ่งสิ่งที่ศึกษาออกเป็นระดับหรือเป็นช่วงๆ โดยแต่ละช่วงมีขนาดหรือระยะห่างเท่ากัน ทำให้สามารถบอกระยะห่างของช่วงได้ อีกทั้งบอกได้ว่ามากหรือน้อยกว่ากัน เท่าไร จึงทำให้มีความแตกต่างกันในเชิงปริมาณ เช่น อุณหภูมิ คะแนนสอบ ซึ่งตัวเลขเหล่านี้ บวก ลบ ได้ แต่ คูณ หาร ไม่ได้ แต่ศูนย์ของข้อมูลชนิดนี้เป็น ศูนย์สมมติ ไม่ใช่ศูนย์แท้ เช่น อุณหภูมิ 0 องศาเซลเซียส ไม่ได้หมายความว่า ณ จุดนั้นไม่มีความร้อนอยู่เลย หรือการที่นักศึกษาได้คะแนน 0 ก็ไม่ได้หมายความว่า นักศึกษาไม่มีความรู้เลย แต่เป็นเพียงตัวเลขที่บอกว่า นักศึกษาทำข้อสอบนั้นไม่ได้

                5.4  มาตรวัดอัตราส่วน (Ratio Scale) เป็นการวัดที่ละเอียดและสมบูรณ์ที่สุด ที่สามารถบอกความแตกต่างในเชิงปริมาณ โดยแบ่งสิ่งที่ศึกษาออกเป็นช่วงๆ เหมือนมาตรวัดอันตรภาค ที่แต่ละช่วงมีระยะห่างเท่ากัน และ ศูนย์ของข้อมูลชนิดนี้เป็นศูนย์แท้ ซึ่งหมายถึงไม่มีอะไรเลยหรือมีจุดที่เริ่มต้นที่แท้จริง และสามารถนำตัวเลขนี้มา บวก ลบ คูณ หารได้ เช่น ความยาว เวลา

     6. แบ่งตามเวลาของการเก็บรวบรวมข้อมูล จะแบ่งได้ 2 ชนิด

            6.1 ข้อมูลอนุกรมเวลา ( Time-series Data) เป็นข้อมูลที่ถูกเก็บรวบรวมตามลำดับเวลาที่เกิดขึ้นต่อเนื่องไปเรื่อยๆ เช่น จำนวนประชากรของประเทศไทยในแต่แต่ละปี จำนวนผู้ป่วยที่เข้ารับการรักษาพยาบาลในโรงพยาบาลต่างๆ ในแต่ละปี เป็นต้น ข้อมูลอนุกรมเวลาเป็นประโยชน์ในการวิจัยระยะเวลายาว ทำให้ผู้วิจัยมองเห็นแนวโน้มของเรื่องต่างๆนั้นได้

              6.2 ข้อมูลภาคตัดขวาง ( Cross-sectional Data ) เป็นข้อมูลที่เก็บรวบรวม ณ เวลาใดเวลาหนึ่งเท่านั้น เพื่อประโยชน์ในการศึกษาวิจัยอย่างไรก็ตามในการจัดประเภทของข้อมูลนี้ จะขึ้นอยู่กับวัตถุประสงค์ในการนำไปวิเคราะห์และใช้ประโยชน์ด้วย

 


http://tsl.tsu.ac.th/file.php/1/courseware/math2/lesson1/less1_1.htm

oldmanSun Feb 06 2011 12:05:55 GMT+0700 (ICT)