WEKO3
アイテム
統計モデルとデータマイニング手法の水産資源解析への応用
https://fra.repo.nii.ac.jp/records/2010856
https://fra.repo.nii.ac.jp/records/201085645608dad-9fc9-4b42-9e3c-49aefcc57b65
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Item type | 紀要論文 / Departmental Bulletin Paper(1) | |||||
---|---|---|---|---|---|---|
公開日 | 2024-10-02 | |||||
タイトル | ||||||
タイトル | 統計モデルとデータマイニング手法の水産資源解析への応用 | |||||
言語 | ja | |||||
タイトル | ||||||
タイトル | Application of statistical modeling and data mining method to the fish stock analyses | |||||
言語 | en | |||||
言語 | ||||||
言語 | eng | |||||
キーワード | ||||||
言語 | en | |||||
主題Scheme | Other | |||||
主題 | CPUE standardization; data mining; generalized linear model; model selection; Tweedie distribution | |||||
資源タイプ | ||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_6501 | |||||
資源タイプ | departmental bulletin paper | |||||
アクセス権 | ||||||
アクセス権 | open access | |||||
アクセス権URI | http://purl.org/coar/access_right/c_abf2 | |||||
著者 |
庄野, 宏
× 庄野, 宏 |
|||||
抄録 | ||||||
内容記述タイプ | Abstract | |||||
内容記述 | In this thesis, we focused on the various problems in the filed of fish population analysis, especially regarding the analyses of CPUE (catch per unit effort) which shows the relative abundance. We suggested several techniques to solve these issues by the statistical modeling and approaches for data mining using the actual fishery data on tuna and its related species, and computer simulation experiments. Catch per unit effort (CPUE) is an important concept which is corresponding to the relative stock size and is proportional to the stock abundance. However, because the nominal CPUE may include various spatiotemporal and environmental effects except for stock density such as area, season and fishing gears, we need to remove these effects to grasp the annual variation of the stock. Therefore, it has been traditionally carried out to estimate the factorial effect of year using analysis of covariance (ANCOVA) model (e.g. CPUE Log-Normal model) where natural logarithm of CPUE is set to the response variable and assumed factorial effects are incorporated into the model as explanatory variables under the normal error, and generalized linear model (GLM) (e.g. Catch Poisson model, Catch Negative-Binomial model) in which catch, discrete variable, is set to the response one and Poisson or negative binomial distribution and so on is assumed. Such work is called CPUE standardization and approaches for data mining such as tree-regression model and neural networks have been recently utilized for it in addition to the statistical modeling. In this study, we dealt with the CPUE standardization, major issue in the fish population analysis, as main theme of this paper and discuss in detail three problems about CPUE analysis as follow: 1) Choice of the factorial effects, performance evaluation of the model through the various information criteria and stepwise test in the ANOVA type model supposing the CPUE standardization (Chapter 3) 2) Approach of CPUE prediction and the simple method for attribution analysis (i.e. method for extracting CPUE year trend) in the time-space without operation for southern bluefin tuna by the neural networks (Chapter 4) 3) Performance evaluation of Tweedie model if it includes many zero-catch and comparison of Tweedie distribution and the traditional methods (ad hoc ANCOVA method, Catch model) (Chapter 5) Chapter 1 becomes an introduction and describes the background, purpose of this research and composition of this thesis. In chapter 2, we outlined CPUE standardization from the viewpoint of the statistical modeling, approach for data mining, proper problems of fish stock and reviewed several related issues, especially main three problems to be coped with in this study. In chapter 3, we performed the model selection by various information criteria (AIC, BIC, CAIC, c-AIC, HQ, TIC etc.) using the generalized linear models corresponding to the CPUE standardization through several cases such as in small samples, large samples. It is also presented that the result of model selection may be different depend on the used information criteria in actual fishery data. We evaluated the selection performance of these information criteria using the computer simulation in which we calculated the selection performance to choose the true model among several candidate models generated random numbers from the true model. We also compared the performance of information criteria and stepwise test by computer experiments because some stepwise test such as chi-square or F test can be applied in the nested model. The variable selections are an important and essential issue in terms of selecting the factorial effects statistically to affect the CPUE. In addition, the results of model selection based on the information criteria and stepwise test may cause the difference of the attribution analysis (i.e. estimated CPUE year trend), which may lead to the big difference of estimated absolute abundance in the model where CPUE year trends are included as the tuning indices. Specific study results in this chapter are as follow: - It was found that the result of model selection in small samples and in the case that there are many parameters compared to the sample size by c-AIC, which is a finite correction of AIC, is different from that by AIC and the selection performance of c-AIC is better than that of AIC through the ANOVA-type simulation in such cases. - It was shown that AIC may have a bias in large sample, the result of model selection is different depend on the information criteria utilized and the consistent information criteria (BIC, HQ and CAIC) is superior to AIC as a whole through the analysis by actual fishery data and simulation by linear regression, respectively. We also suggested the recommendation value and formula of the constant term in the consistent information criterion, HQ. - It was proofed that the expectation of TIC, which is known as having good performance traditionally in the nested model, becomes theoretically equal to that of AIC in the generalized linear model with having normal error and identity link function, and the selection performance of TIC is almost the same as that of AIC by the computer simulation. - In the nested model, we found that the information criteria is generally a little superior to stepwise test by our computer experiments and the simple model with a few parameters tend to be selected if the significance level is low in the stepwise test. In Chapter 4, we focused on the issue of CPUE interpretation of southern bluefin tuna, the problem of CPUE prediction in the spatiotemporal cells without observation, and carried out the CPUE analysis using the neural networks. In terms of the relative abundance, it is reasonable to define the CPUE as multiplying standardized CPUE by relative area size and which is called abundance index (AI). In the stock of southern bluefin tuna, because the fishing ground has shrunk from past to present, it has influenced on the abundance index that the assumption of CPUE in the cell with operation in the past and without one now, that is whether CPUE in these cells is assumed to the same as that in the surrounding areas or 0. This cause the difference of CPUE year trend obtained from the abundance index. Therefore, in this paper, we predicted the CPUE in such missing cells using the error back propagation method, which is a typical algorithm in the supervised neural networks, and suggested the simple way of attribution analysis to extract the CPUE year trend. We compared to the MCMC method based on the EM algorithm in same conditions by cross- validation to evaluate the accuracy of the neural networks. Performance check and comparison of the models were carried out using the n-fold cross-validation based on the correlation coefficient between observed and predicted values and mean squared error (MSE). As a result, the ratio of CPUE without operations over with ones based on the CPUE predicted values by the neural networks showed the range of 0.8 to 1.0. This does not imply extreme contradiction with the CPUE ratio in the Japanese Experimental Fishing Program (EFP) which was locally done for 1998 to 2000, where CPUE ratio was recorded about 0.7 although year, season and area of the experiment were very limited. Predicted performance of CPUE by the neural networks is rather superior to that by MCMC method based on the EM algorithm in the same situation as the neural networks and the CPUE year trend calculated from the predicted CPUE is very similar to that by generalized linear model including the ANCOVA. The results suggest the excellence of the predicted performance of the neural networks and the validity of the simple method of the attribution analysis proposed. In Chapter 5, we discussed in detail the issue where the ANCOVA model (in which the natural logarithm of CPUE is set to the response variable) can not be applied if it includes the data that catch is zero called zero-catch problem, supposing the shark species caught by tuna longline fishery. We carried out the CPUE standardization for yellowfin tuna in the Indian Ocean caught by the Japanese commercial longline fishery in which the ratio of zero-catch is low about 10% and silky shark in the North Pacific Ocean by Japanese training vessels (for silky shark where the zero-catch ratio is high more than 80%) using the socalled Tweedie distribution which is an extension of compound Poisson model and can be uniformly dealt with the zero data. Actually, we compared the CPUE year trends obtained from the Tweedie model, ad hoc ANCOVA model to add the constant term to all CPUE and Catch Negative-Binomial model. As a result, there is no extreme difference of year trends between the Treedie model and ad hoc method for yellwofin tuna in the Indian Ocean, a target species with low zero-catch rate. On the other hand, CPUE year trend obtained from the Tweedie model is different from that based on the Catch model and ad hoc method for silky sharks in the North Pacific Ocean, a by-catch species with high zero-catch ratio. Accuracy of the Tweedie distribution is higher in each case judging from the performance check of the candidate models based on the both indicators, correlation coefficient between observed and predicted values and MSE, using n-fold cross-validation as well as our analysis by the neural networks. As a result of cross-validation, the superiority of the Tweedie model does not appear so clearly if the rate of zero-catch is low and it has few problems to apply the ad hoc method practically. On the contrary, if the ratio of zero-catch is high, then the superiority of the correlation coefficient and MSE is the order of the Tweedie model, Catch model, ad hoc method and Tweedie model, ad hoc method, Catch model, respectively. However, the ad hoc method has a large bias because almost all of the estimated CPUE show extreme low regardless of the magnitude of the observed CPUE values. Therefore, we concluded that it is not adequate to apply the ad hoc method in the case that the ratio of zero-catch is high such as shark species. The last Chapter 6 shows the conclusion of this thesis. We methodically described the study results of three issues which were dealt with in this paper from the viewpoint of fish population analysis, applied statistics and research problem for the future. | |||||
言語 | en | |||||
抄録 | ||||||
内容記述タイプ | Abstract | |||||
内容記述 | 本論文では,水産資源解析学における様々な問題,特に魚の資源密度に対応し,相対的な資源量を表すCPUE(catch per unit effort:単位努力当たり漁獲量)の解析に関する様々な問題について,遠洋域に生息するまぐろ類・関連種の漁業データや計算機によるシミュレーション実験を利用し,統計モデルおよびデータマイニング的なアプローチにより問題解決するための手法を提案した。CPUE は漁獲量を投下した努力量で割ることによって定義される,漁獲効率を表し,資源密度に比例することから相対資源量に対応する重要な概念である。しかし,漁船などの加工されていない CPUE は,季節・海区・漁具など資源密度以外の様々な時空間的な要因や環境要因などを含んでおり,資源の年変動を知るためにはこれらの影響を取り除く必要がある。そこで,CPUE の自然対数を応答変数に設定し,正規誤差の下で考えられる要因効果を説明変数に組み込んだ共分散分析モデル(CPUE Log-Normal モデル)や,離散変数である Catch を応答変数と設定し,Poisson 分布や負の二項分布などを仮定した一般化線形モデル(Catch Poisson モデル,Catch Negative-Binomial モデルなど)を用いて年の要因効果を推定することが伝統的に行われてきた。この作業を CPUE 標準化と呼び,統計モデルに加えて近年では樹形モデルやニューラルネットワーク等のデータマイニング的なアプローチも用いられるようになってきている。本研究では,この水産資源解析における主要な問題である CPUE 標準化を論文のメインテーマとし,以下の3つの課題について取り上げて詳しく検討した。1 CPUE 標準化を想定した分散分析型モデルにおける,様々な情報量規準や stepwise 検定を通じた要因効果の取捨選択,モデルの性能評価(第3章)2 ニューラルネットワークによるミナミマグロの操業がない時空間の CPUE 予測および簡便な要因分析法(CPUE 年トレンド抽出法)の提案(第4章)3 ゼロ・キャッチを多く含む場合の,Tweedieモデルの性能評価,および従来の手法(ad hocな共分散分析モデル・Catch モデル)との比較検討(第5章) 本論文の第1章は序論であり,研究の背景と目的,論文の構成を記述した。第2章では,CPUE 標準化の現状について,統計モデル・データマイニング手法・漁業資源特有の問題に分けて整理し,レビューを通じて明らかになった問題点について,特に本研究で取り上げる3つの主要課題に関して,概説した。 第3章では,CPUE 標準化に対応する一般化線形モデルを用いて,小標本の場合,大標本の場合など様々なケースを取り上げ,水産分野で広く知られている情報量規準 AIC の他に,BIC, CAIC, c-AIC, HQ, TIC などを使用し,実際の漁業データを用いて利用する情報量規準によってモデル選択結果が異なること,および複数の候補モデルの中から定めた真のモデルから乱数を発生させて正しいモデルを選ぶという選択パフォーマンスをシミュレーションにより計算し,情報量規準の良さを評価した。なお,ネスト構造モデルでは,カイ二乗検定や F 検定などの stepwise 検定も使用可能であり,計算機実験を通じて情報量規準と stepwise検定の性能を比較した。この変数選択の問題は,CPUE に影響を与えている要因効果を統計的に取捨選択するという意味において重要であるが,使用する情報量規準や stepwise 検定によるモデル選択結果が,推定された CPUE 年トレンドという要因分析結果の違いを引き起こし,これらをチューニング指標として組み込んだモデルでの資源の絶対量推定結果の大きな差異となることもあり,極めて本質的な問題であると考えられている。なお,本章の具体的な研究成果は,次の通りである。•小標本の場合や未知パラメーター数の標本数に占める割合が高い場合に,AIC に有限修正を施した規準である c-AIC によるモデル選択結果がAIC などによるそれと異なることを例示し,さらに分散分析型のシミュレーションを通じて,c-AIC の選択パフォーマンスが AIC のそれに比べて高くなることを証明した。•大標本の場合に AIC が偏りを持つ可能性があることを示し,使用する規準により選択結果に差が生じること,および漸近的に望ましい性質である一致性を持つ情報量規準(BIC, HQ and CAIC)が AIC に比べて全体として優れていることを,それぞれ漁業データによる実例および回帰分析型の実験により示した。合わせて,HQ における定数項 c の検討を行い,推奨値と推奨式を提案した。•ネスト構造を持つモデルにおいて,従来性能が良いと言われてきた AIC の精密評価である TIC が正規誤差を持ちかつ連結関数が恒等写像であるような一般化線形モデルでは AIC と同等になることを理論的に証明し,合わせて TIC と AIC の選択パフォーマンスにはほとんど差がないことを,計算機実験により示した。•ネストモデルにおいて,計算機実験により情報量規準と stepwise 検定の比較を行い,一般に前者が多少優れていること,後者で有意水準を小さく設定した場合にパラメーター数が少ない単純なモデルが選ばれがちであることを示した。 第4章では,ミナミマグロ資源における CPUE 解釈の問題,すなわち操業がない時空間の CPUE 予測の問題を取り上げて,ニューラルネットワークを利用した解析を行った。CPUE を相対資源量の観点から捉えた場合,標準化された CPUE に相対的な面積指数を掛け合わせたものとして考えることが自然であり,これを資源量指数(AI: abundance index)と呼んでいる。ミナミマグロ資源では過去から現在にかけて漁場が縮小しており,このような過去に漁獲があり現在操業がないセルの CPUE をどのように設定するか,極論すれば周囲と同じと考えるかそれとも0と仮定するかが資源量指数の計算に影響してくる。ひいては,資源量指数から得られた CPUE 年トレンドの違いとなって表れる。そこで,本論文では,このような欠測セルの CPUE を教師付きニューラルネットワークの代表的なアルゴリズムである誤差逆伝播法を用いて予測を行い,合わせて得られた予測値から CPUE 年トレンド抽出を行うための簡便な要因分析手法を提案した。ニューラルネットワークの精度評価のために,クロス・バリデーションにより同じ条件での MCMC法に基づく EM algorithm との比較を行った。n-fold cross-validation により観測値と予測値の相関係数および MSE(平均二乗誤差)に基づき,モデルの性能評価および比較検討を行った。結果として,ニューラルネットワークによる CPUE 予測値に基づく,操業がないセルの CPUE と操業が行われたセルの CPUE比は,0.8~1前後を推移しており,1998年から2000年にかけて局所的に行われた日本の調査漁獲におけるCPUE 比(年,季節,エリアは非常に局所的であるが0.7前後を記録)と比べ極端な矛盾は見られない。また,ニューラルネットワークによる CPUE の予測性能は,全く同じ条件での解析である MCMC 法に基づく EM algorithm によるそれよりも格段に高く,CPUE 予測値を元に算出された CPUE 年トレンドは一般化線形モデル(共分散分析)によるそれと比較的良く似ていた。このことから,ニューラルネットワークの予測性能の良さ,および提案した簡便な要因分析法の妥当性が言える。 第5章では,まぐろはえ縄漁業で混獲されるサメ類などを想定し,ゼロ・キャッチ問題と呼ばれる漁獲がゼロであるデータが含まれる場合に,CPUE の自然対数を取ったものを応答変数とする共分散分析モデルが使用出来ない問題について,詳細に議論した。Tweedie 分布と呼ばれる,複合 Poisson 分布の拡張であるゼロ・データを統一的に取り扱えるモデル使用し,ゼロ・キャッチ率が10% 程度と低い日本のはえ縄商業船によるインド洋キハダ資源の CPUE 解析,およびその割合が80% 以上と高い日本のはえ縄公庁船による北太平洋クロトガリザメ資源の CPUE 標準化を行った。実際には,Tweedie モデルと全ての CPUEに定数項を加える ad hoc な共分散分析モデル,Catch Negative-Binomial モデルに基づく CPUE 年トレンドを比較した。その結果,ゼロ・キャッチ率が低いターゲット種のインド洋キハダ資源では Tweedie モデルと ad hoc な方法で年トレンドに極端な違いが見られなかったのに対し,ゼロ・キャッチ率が高い混獲種の北太平洋クロトガリザメ資源では,Tweedie モデルからの CPUE 年トレンドが,Catch モデルや ad hocな方法からのトレンドと異なっていた。また,ニューラルネットワーク解析と同様に,n-fold validation を利用した観測値と予測値の相関係数や MSE に基づくモデルの性能評価を行ったところ,いずれの例においても,両方の指標に関して Tweedie モデルの精度が良かった。クロス・バリデーション結果から判断すると,ゼロ・キャッチ率が低い場合には Tweedie モデルの有意性が顕著に表れず,ad hoc な方法を使用しても実用上さほど問題が生じないと考えられる一方,ゼロ・キャッチの割合が高い場合には,Tweedie モデルの精度が他に比べて非常に高くなり使用が推奨される。なお,ゼロ・キャッチ率が高い場合には,相関係数が Tweedie モデル,Catch モデル,ad hoc な方法の順,MSE は Tweeide モデル,ad hoc な方法,Catch モデルの順に優れていたが,ad hoc な方法では観測値の大きさにかかわらず予測値が極端に小さくなることもあり,バイアスの大きさを考慮すると,サメ類などのゼロ・キャッチ率が高い場合には適用すべきでない,と結論付けられる。 最後の第6章は,本論文の結論部であり,今回取り上げた3つの課題に関する研究成果について,水産資源学の観点から,および応用統計学の視点からに分類して再度系統的に整理し,合わせて,今後の研究課題について記述した。 | |||||
言語 | ja | |||||
書誌情報 |
ja : 水産総合研究センター研究報告 en : Bulletin of Fisheries Research Agency 巻 22, p. 1-85, ページ数 85, 発行日 2008-02 |
|||||
出版者 | ||||||
出版者 | 水産総合研究センター | |||||
言語 | ja | |||||
ISSN | ||||||
収録物識別子タイプ | PISSN | |||||
収録物識別子 | 1346-9894 | |||||
書誌レコードID | ||||||
収録物識別子タイプ | NCID | |||||
収録物識別子 | AA11589591 | |||||
情報源 | ||||||
識別子タイプ | Local | |||||
関連識別子 | fra_k_22_1 | |||||
関連サイト | ||||||
識別子タイプ | URI | |||||
関連識別子 | https://agriknowledge.affrc.go.jp/RN/2010751349 | |||||
関連名称 | 日本農学文献記事索引(AgriKnowledge) | |||||
著者版フラグ | ||||||
出版タイプ | VoR | |||||
出版タイプResource | http://purl.org/coar/version/c_970fb48d4fbd8a85 |