大橋洸太郎(Kotaro OHASHI)
博士論文

博士学位論文

「テキストデータの収集の程度を測る指標に関する研究」

テキストデータは,その内に含まれる論点(知見,観点)を収集,充足するために用いられる。 しかしながら実際の調査においては,テキストを収集し続けた場合に,その内容をどこまで読み進めたとしても新しい知見や観点が得られなくなるということは稀であり,知見の完全な充足には果てがない。 このため研究者はデータ収集のある段階で,“課題に関する論点は十分に収集された”と判断し,収集を打ち切る必要に迫られる。 これには次の2点の問題がある。

第1の問題は,“課題に関する論点は十分収集された”という基準は研究者間で同一とは限らないという点である。 新知見がある程度得られなくなった時点で収集は十分であると判断される場合もあれば,それから先も長い間収集を続け,新知見が僅かにしか得られない期間が長く続いたときに十分である,と判断される場合もあるだろう。 現状では,統一的なこの判断の基準は存在しない。

また研究者は当該の研究領域を深く理解しているため,“課題に関する論点は十分収集された”と判断されたデータから得られる結果は基本的に十分信用に値する。 そして,そのデータからは非常に有意義な結論がもたらされる。 しかしながら研究の成果を読む査読者や一般の読者達は,研究者と同程度にはテキストデータ収集の飽和の程度,飽和度を理解することは難しい。 これが第2の問題である。

これらの問題を解決するためには,テキストにおける知見収集の飽和度について客観的な指標が不可欠であると考える。 このため研究者,読者の両者に有益な結果をもたらすと考え,この飽和度の指標の開発を行った。

第1章では問題提起や目的に加えて質問紙法やテキストマイニング,資源量推定法, インタビュー法といった本稿全体に関わる重要なトピックの紹介を行った。

第2章から4章までは,本稿で提案する捕獲率,遭遇率といった自由記述のデータ収集の飽和度を示す指標の計算方法を中心とした説明を行った。

第2章では資源量推定法としてSchnabel法を,自由記述データの処理方法としてカテゴリ化の手法の1つであるKJ法を用いた場合の捕獲率の計算方法を提案した。 Schnabel法の紹介と共に,標本サイズが500程度の自由記述データを適用例として用い,KJ法によってカテゴリ化された80種類程の知見数で,手元にある自由記述内の知見が十分に収集されていることを資源量推定の観点から確認した例を紹介した。 適用例には2つの企業A, Bのイメージについての自由記述データを用いた。

第3章では資源量推定法としてDeLury法を,自由記述データの処理方法としてテキストマイニング技術を用いて自動コーディングを行った場合の捕獲率の計算方法を提案した。 この章では自由記述データに関して,手動のカテゴリ化ではなく自動コーディングを施すことを前提としており,名詞や形容詞といった単語を抽出し,その単語の種類数が手元にある自由記述で十分に収集されているかどうかを示した。 DeLury法の紹介と共に,より応用に即すために市販の共分散構造分析(stractural equation modeling, SEM)のソフトウェアで本手法が実行できることも目的とした。

第4章では,単語の出現頻度を表すモデルとしてパレート分布を応用した,未発見の単語との遭遇率を計算する方法を示した。 遭遇率は捕獲率と共に計算結果を示すことで,自由記述における知見や単語の種類数の飽和度に関して更に深い考察を与えることができる補助的な指標である。 この点の説明と共に,単語の出現頻度について第一種,第二種,一般パレート分布を用いたモデルから最も良く当てはまるモデルを採択し,単語の出現頻度をモデル化し,そのモデルを用いて遭遇率の計算方法を説明した。

第5章から第7章までは,第4章までに提案された方法を用いた応用研究を示した。 第5章では,第3章で提案された捕獲率を用いたWeb探索への応用研究を行った。 第4章までとは異なり,適用するデータがWeb上のhtml文の文章となっており,手元のデータとリンク先の文書内容から捕獲率を計算し,値が高まるようであればリンク先のページを手元のデータと関係ある文書として採用していく,というデータの収集方法と,その検索結果について説明を行った。

第6章では,自由記述データとして授業評価アンケートを分析対象とした捕獲率の応用研究例を示した。 この章では企業のイメージ調査ではなく,1年間の授業を終えた生徒約80名から得られた,授業改善のためのアンケートを分析した点が第4章までと異なっていた。

第7章では,インタビュー調査から書き起こされたテキストデータを自由記述データと同様に分析対象とした,捕獲率の応用研究を示した。 この章では近年大きく発展を遂げている質的研究の一端として,インタビュー調査を行った結果,得られた音声データをテキストデータとして書き起こしたデータの収集の程度を捕獲率によって推定する方法を説明した。

最後に第8章では,研究全体の考察を行った。 テキストデータ収集の飽和度の指標が開発されれば,研究者は客観的な指標を元にデータ収集を打ち切ることが可能となり,手元のデータが,その後の分析を始めるに当たって十分であるかを容易に,そして客観的に判断すること可能となる。 さらに一般の読者はこの指標を確認することで,安心して研究の成果を読み進めることができるようになる。 以上より本研究は,テキストデータを扱う研究における今後の発展の一助となると考えられる。

kotaro-0084[アットマーク]akane.waseda.jp
Last update: 20131219