Život

Triedy histogramu

Triedy histogramu


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Histogram je jedným z mnohých typov grafov, ktoré sa často používajú v štatistikách a pravdepodobnosti. Histogramy poskytujú vizuálne zobrazenie kvantitatívnych údajov pomocou zvislých stĺpcov. Výška stĺpca označuje počet údajových bodov, ktoré ležia v určitom rozsahu hodnôt. Tieto rozsahy sa nazývajú triedy alebo nádoby.

Počet tried

Skutočne neexistuje pravidlo, koľko tried by malo byť. O počte kurzov je potrebné zvážiť niekoľko vecí. Keby existovala iba jedna trieda, všetky údaje by spadali do tejto triedy. Náš histogram by bol jednoducho jediným obdĺžnikom s výškou danou počtom prvkov v našej sade údajov. To by nevytvorilo veľmi užitočný alebo užitočný histogram.

Na druhej strane by sme mohli mať množstvo tried. Výsledkom by bolo množstvo barov, z ktorých by žiadny nebol pravdepodobne vysoký. Použitím tohto typu histogramu by bolo veľmi ťažké určiť akékoľvek rozlišovacie charakteristiky od údajov.

Aby sme zabránili týmto dvom extrémom, máme pravidlo, podľa ktorého sa určuje počet tried pre histogram. Ak máme relatívne malú množinu údajov, zvyčajne používame iba okolo päť tried. Ak je množina údajov pomerne veľká, použijeme približne 20 tried.

Opäť je potrebné zdôrazniť, že ide o pravidlo, nie o absolútny štatistický princíp. Môžu existovať dobré dôvody pre iný počet tried údajov. Nižšie je uvedený príklad.

Definícia

Predtým, ako zvážime niekoľko príkladov, uvidíme, ako určiť, aké triedy sú v skutočnosti. Tento proces začneme zisťovaním rozsahu našich údajov. Inými slovami, odčítame najnižšiu hodnotu údajov od najvyššej hodnoty údajov.

Ak je množina údajov relatívne malá, rozdelíme rozsah päťami. Kvocient predstavuje šírku tried pre náš histogram. V tomto procese budeme pravdepodobne musieť urobiť nejaké zaokrúhlenie, čo znamená, že celkový počet tried nemusí byť päť.

Keď je množina údajov pomerne veľká, rozdelíme rozsah 20. Rovnako ako predtým, aj tento problém delenia nám poskytuje šírku tried pre náš histogram. Rovnako, ako sme videli predtým, naše zaokrúhlenie môže mať za následok o niečo viac alebo o niečo menej ako 20 tried.

V obidvoch prípadoch veľkých alebo malých množín údajov zabezpečujeme, aby prvá trieda začala v bode o niečo menšom ako najmenšia hodnota údajov. Musíme to urobiť tak, aby prvá hodnota údajov spadala do prvej triedy. Ostatné nasledujúce triedy sú určené šírkou, ktorá bola nastavená pri rozdelení rozsahu. Vieme, že sme v poslednej triede, keď táto najvyššia hodnota údajov obsahuje táto trieda.

Príklad

Napríklad určíme vhodnú šírku triedy a triedy pre množinu údajov: 1.1, 1.9, 2.3, 3.0, 3.2, 4.1, 4.2, 4.4, 5.5, 5.5, 5.6, 5.7, 5.9, 6.2, 7.1, 7.9, 8.3 9,0, 9,2, 11,1, 11,2, 14,4, 15,5, 15,5, 16,7, 18,9, 19,2.

Vidíme, že v našej sade je 27 údajových bodov. Toto je relatívne malý súbor, a preto rozdelíme rozsah číslom päť. Rozsah je 19,2 - 1,1 = 18,1. Delíme 18,1 / 5 = 3,62. To znamená, že by bola vhodná šírka triedy 4. Naša najmenšia hodnota údajov je 1,1, takže prvú triedu začíname v bode menšom ako toto. Pretože naše údaje pozostávajú z kladných čísel, bolo by rozumné, aby prvá trieda prešla od 0 do 4.

Výsledkom sú triedy:

  • 0 až 4
  • 4 až 8
  • 8 až 12
  • 12 až 16
  • 16 až 20.

Výnimky

Môžu existovať niektoré veľmi dobré dôvody na to, aby sa od niektorých vyššie uvedených odporúčaní odchýlili.

Ako príklad môžeme uviesť, že existuje test s možnosťou výberu z viacerých odpovedí s 35 otázkami a testom sa zúčastní 1 000 študentov na strednej škole. Chceme vytvoriť histogram ukazujúci počet študentov, ktorí dosiahli určité skóre v teste. Vidíme, že 35/5 = 7 a že 35/20 = 1,75. Napriek nášmu pravidlu, ktorý nám dáva výber tried šírky 2 alebo 7, ktoré sa majú použiť pre náš histogram, môže byť lepšie mať triedy šírky 1. Tieto triedy by zodpovedali každej otázke, ktorú študent pri skúške odpovedal správne. Prvý z nich by bol sústredený na 0 a posledný by bol sústredený na 35.

Toto je ďalší príklad, ktorý ukazuje, že pri štatistikách musíme vždy myslieť.



Komentáre:

  1. Richmond

    Je pozoruhodné, tento cenný názor

  2. Edlin

    Dobrý deň, išiel som na váš projekt z Yandexu a Kaspersky začal prisahať na vírusy = (

  3. Calibum

    Instead I have tried to decide this problem.

  4. Hyperion

    Nesúhlasím s tebou

  5. Tojanos

    Niečo v tom je. Chápem, ďakujem za vysvetlenie.

  6. Vozilkree

    Bravo, je to jednoducho skvelý nápad



Napíšte správu