トラブりました。
3ケ月間、なんだかわからなくって悶々としてました。
様子を見ながら色々ためしたけど、わかんないよぉおおおおおおおTT
って状態が続くという。
現象は~っというと
Win2008Srvでクラスタ化してたファイルサーバが
突然見えなくなる。それもポツリポツリと段々にその数が多くなるという。
「いっぺんに」ってわけじゃないのよね。
最初の一人(Aさん)がファイルサーバに接続しようとして接続エラーになると、
その後の一人(Bさん)がファイルサーバに接続するところで接続エラー。
けど、Aさんより先にファイルサーバに接続してた人(Cさん)は
その現象でてる横でも接続できてる。
CさんがそこでPC再起動をして、再度ファイルサーバに接続しようとすると
今度は接続できなくなる。
ってな感じに。
3月後半に新しくシステム入替えて稼動当初に使用者にいわれてたのは、
ファイルサーバに接続するときに反応がおそいときがあるー。っていう話。
まぁ、そのぐらいはガマンしてもらうかーっと思ってたんだけど、
現象見せてもらったら、あまりに遅かった。。。
自分のPCじゃその現象でないんよねzzz
それに、こうも接続エラーになるような現象発生するとねー。
対策しなきゃならんぢゃないですか。
システム構成は、
クラスタ化してるコントロールサーバ2台(両方Dell製Win2008Sev R2 Ent.Edition)
ファイルサーバのHDD ArrayはDellのPS6000。
コントロールサーバとファイルサーバHDDの間はiSCSIでの接続。
疑問点は、
2台でクラスタ化してるんだから、
両方同時に接続できなくなるってことはないんじゃね?って思うんですよね。
でも、できなくなる。
この現象になるとファイルサービスで割付けた仮想IPアドレスへのPingが飛ばない。
サーバへのリモート接続もできなくなる。
が、サーバルームへ行ってもサーバは落ちてない。両方とも生きている。
ファイルサービスも落ちてないように見える。というかエラーを吐き出してない。
コントロールサーバMain側のメモリが不適切なぐらい使用量が多かったのもあって
Dellにサポートを頼むも、ログ解析してくれたけど問題ナッシング。
そりゃエラーでてなきゃ問題わからんわなー。
こんな状態で3ケ月経過。
最初はADやDNSとの関係を疑ったんですよ。
でも色々やってみたけどどうにも直らない。
現象でるときは出るし、出ないときは1週間もでないときがある。
というか、微妙に発生してるんだろうけど、
いくらか待つと復帰するときがあるので
それでこちら管理者側に話が通ってない場合もあるんでしょうねー。
そんな間、まぁNotesDB→SharePointへの乗り換えの話とかもありまして。
情報収集してたわけですよ。ツイッターでww
そしたら、こんな話が。
ほへ?SharePointのサイトってIEとかのブラウザで開くものなのに
なんでWindowsエクスプローラが関係すんの?
まぁエクスプローラとIEはWindowsシステムでは一蓮托生だしなーって
記事を読んでいったら、「Windows Server2008R2 でも」という一文を見つける。
特にね、
(私はHyper-Vで仮想環境を構築していてハマりました)
って文書がzzz
(どんなハマり方をしたのかきいてみたいぞぉおおおお!!)
「ぇぇぇぇぇぇ???これうちの現象に関係してないかぁ?」と同僚に報告。
そのうち同僚が、これに関係するサービス
「WinHTTP Web Proxy Auto-Discovery Service」(Service Control Manager)が
コントロールサーバ内でボコボコ発生しては停止してるのを見つけてくれまして。
一気に、この記事と現象がつながってくれたわけですよっ!!
最悪なことに、この「WinHTTP Web Proxy Auto-Discovery Service」(Service Control Manager)
ってサービスは、ファイルサーバに接続しているクライアントPCのIEの設定で、
「設定を自動的に検出する」にチェックが入っている場合に
接続先のサーバの「WinHTTP Web Proxy Auto-Discovery Service」サービスを起動し、
接続(Sessionタイミング)が切れたところで自動で停止されるようです。
様子をみてる限り、このサービスが一度起動して停止するまでが15分ぐらい。
17分ぐらいのときもあったかも。
で、このサービスは
クラスタ化してるコントロールサーバの片方(Mainで使ってる方:Aサーバとします)で発生し、
Aサーバへの接続ができなくなったところで、もう片方(Bサーバ)で発生。
これにより、2台ある両方のコントロールサーバで接続できず。。。
クラスタ弱い。弱いよクラスタTT
つーかこのサービスで、どうして接続不可にまでなっちゃうのよTT
ていうのが分からないところなんですが、
「設定を自動的に検出する」にチェックはいってるPCが多数、
ファイルサーバへ接続しにいってるのではないのか?という推測はできるんですよ。
多数のPCによるこのサービスの起動・停止での反応が遅くなる
→ファイルサービスが落ちたように見える。
って感じっぽいです。
こりゃ、ファイルサーバ接続者全員に連絡して
IE設定をチェックしてもらうしかないかー。ってところなんですが、
接続者が多岐に渡るため、実際のところ全部をつぶしきれるかが微妙。
特にIE設定は、PCのログイン・ユーザを切り替えると
設定まで全部ログイン・ユーザごとに変わるから、そこのチェックまでしてもらえないと
いつもと違ったログイン・ユーザで接続されちゃうとアウトなんよね。
各部署にあるだろう共有PCとかも責任・管理不明確だしなぁTT
困ったモンダ。
(とりあえず会社内PCだとproxy.pacでのブラウザ接続なので、
この設定をチェック外してもインターネットへの接続は可能ナンデス。)
とりあえず昨日のうちに設定チェックの連絡は出したんだけど、
これでホントに今の現象が確実になおるのかも分からないところも微妙。
結局、この手のトラブルは分かってる範囲の原因のところを
つぶしまくるしかないんでしょうねー
[16回]