信頼性:
* テストと再テストの信頼性: これは、結果が時間の経過とともにどの程度一貫しているかを測定します。スターテストは一般に、許容可能なテストと再テストの信頼性を示しています。つまり、学生は同じテストを繰り返し行うときに同様に得点する傾向があります。
* 内部一貫性: これは、同じテストのさまざまな部分が同じことをどれだけうまく測定しているかを測定します。スターテストは一般に、良好な内部一貫性を示しています。つまり、テストのさまざまなセクションが同様のスキルを測定しています。
* 評価者間信頼性: これは、マシンスコアであるStarのような標準化されたテストには関係ありません。
妥当性:
* コンテンツの妥当性: これは、テストが測定するはずのコンテンツをどれだけうまくカバーしているかを測定します。これは、スターテストの議論の重要な分野です。テストはカリフォルニア州の基準と一致していますが、それらがそれらの基準の幅と深さを完全にキャプチャするかどうかについて継続的な議論があります。
* コンストラクトの妥当性: これは、テストが測定することを目的とした基礎となるスキルと知識を正確に測定するかどうかを測定します。 STARテストは、学生の成功に重要な批判的思考や問題解決などの複雑な構造を完全にキャプチャしていないことを示唆するいくつかの証拠があります。
* 予測妥当性: これは、テストが大学やキャリアパフォーマンスなどの関連分野での将来の成功をどれだけうまく予測するかを測定します。 STARテストの予測的妥当性は進行中の研究の主題であり、成功の特定の尺度に応じて結果が異なります。
課題と批判:
* 標準化されたテストの過剰強調症: 批評家は、スタースコアに焦点を当てることは「テストへの教育」につながり、教育の他の重要な側面を無視する可能性があると主張しています。
* 限定範囲: スターテストの焦点が狭すぎて、21世紀の成功に重要なスキルと知識を評価できないと主張する人もいます。
* 文化的バイアス: テスト内の潜在的な文化的偏見について懸念があり、特定の学生グループが不当に不利になる可能性があります。
要約:
スターテストの信頼性は一般に許容可能であると考えられていますが、有効性はより微妙であり、継続的な議論の対象となります。このテストは、標準化されたテスト、限られた範囲、および潜在的な文化的偏見に関する強調過剰で批判されています。
個々の学生の成長、教室の観察、その他の評価などの要因を考慮して、学生のパフォーマンスのより広いコンテキスト内でSTARスコアを考慮することが重要です。