我在代码中使用了DBML自动生成的LINQ to SQL类,因此能够适当地选择和插入数据将是很棒的。这是另一篇文章中建议的一种方法。在下面的示例中,e_activeSession是DataContext中表的自动生成的表示形式:
var statistics = from record in startTimes group record by record.startTime into g select new e_activeSession { workerId = wcopy, startTime = g.Key.GetValueOrDefault(), totalTasks = g.Count(), totalTime = g.Max(o => o.record.timeInSession).GetValueOrDefault(), minDwell = g.Min(o => o.record.dwellTime).GetValueOrDefault(), maxDwell = g.Max(o => o.record.dwellTime).GetValueOrDefault(), avgDwell = g.Average(o => o.record.dwellTime).GetValueOrDefault(), stdevDwell = g.Select(o => Convert.ToDouble(o.record.dwellTime)).StdDev(), total80 = g.Sum(o => Convert.ToInt16(o.record.correct80) + Convert.ToInt16(o.record.wrong80)), correct80 = g.Sum(o => Convert.ToInt16(o.record.correct80)), percent80 = Convert.ToDouble(g.Sum(o => Convert.ToInt16(o.record.correct80))) / g.Sum(o => Convert.ToInt16(o.record.correct80) + Convert.ToInt16(o.record.wrong80)) };
上面引发了错误,所以我尝试了以下方法:
var groups = from record in startTimes group record by record.startTime into g select g; var statistics = groups.ToList().Select( g => new e_activeSession { workerId = wcopy, startTime = g.Key.GetValueOrDefault(), totalTasks = g.Count(), totalTime = g.Max(o => o.record.timeInSession).GetValueOrDefault(), minDwell = g.Min(o => o.record.dwellTime).GetValueOrDefault(), maxDwell = g.Max(o => o.record.dwellTime).GetValueOrDefault(), avgDwell = g.Average(o => o.record.dwellTime).GetValueOrDefault(), stdevDwell = g.Select(o => Convert.ToDouble(o.record.dwellTime)).StdDev(), total80 = g.Sum(o => Convert.ToInt16(o.record.correct80) + Convert.ToInt16(o.record.wrong80)), correct80 = g.Sum(o => Convert.ToInt16(o.record.correct80)), percent80 = Convert.ToDouble(g.Sum(o => Convert.ToInt16(o.record.correct80))) / g.Sum(o => Convert.ToInt16(o.record.correct80) + Convert.ToInt16(o.record.wrong80)) });
但是,这种方法ToList似乎效率极低,只会使我的代码坐在那里很长时间。有一个更好的方法吗?
ToList
AsEnumerable()``ToList()在将处理引入linq-to- object方面将做相同的事情,但是不会浪费时间和内存先存储所有这些对象。相反,当您遍历它时,它将一次创建一个对象。
AsEnumerable()``ToList()
通常,应该使用AsEnumerable()将操作从另一个源移动到内存中的方法,而不是ToList()除非您确实想要一个列表(例如,如果您要多次击打相同的数据,那么该列表将用作缓存)。
AsEnumerable()
ToList()
到目前为止,我们有:
var statistics = ( from record in startTimes group record by record.startTime into g select g; ).AsEnumerable().Select( g => new e_activeSession { workerId = wcopy, startTime = g.Key.GetValueOrDefault(), totalTasks = g.Count(), totalTime = g.Max(o => o.record.timeInSession).GetValueOrDefault(), /* ... */ });
但是还有一个更大的问题。您也要小心group by。与聚合方法一起使用时,通常是可以的,但否则最终可能会变成许多数据库调用(一次获取键的不同值,然后每个值一次)。
group by
考虑到以上内容(我省略了不提及每一列的内容)。如果不使用AsEnumerable()(或不使用ToList()您所拥有的),由于wcopy大概完全不在查询范围内(我看不到它的定义位置),则第一个生成的SQL将是(如果允许的话),类似于:
wcopy
select startTime, count(id), max(timeInSession), /* ... */ from tasks group by startTime
数据库应该对它进行相当有效的处理(如果不是,请检查索引并在生成的查询上运行数据库引擎优化顾问)。
但是,在内存中进行分组时,它很可能会首先执行:
select distinct startTime from tasks
接着
select timeInSession, /* ... */ from tasks where startTime = @p0
对于startTime找到的每一个不同点,将其作为传递@p0。无论其余代码的效率如何,这都会很快造成灾难性的后果。
startTime
@p0
我们有两个选择。哪一个最佳视情况而异,所以我将两者都给出,尽管第二个在这里是最有效的。
有时,我们最好的方法是加载所有相关行并在内存中进行分组:
var statistics = from record in startTimes.AsEnumerable() group record by record.startTime into g select new e_activeSession { workerId = wcopy, startTime = g.Key.GetValueOrDefault(), totalTasks = g.Count(), totalTime = g.Max(o => o.record.timeInSession).GetValueOrDefault(), /* ... */ };
通过仅选择我们关心的列,我们也许可以使其效率更高一点(如果以上内容仍然使用了表中的每一列,则无关紧要)
var statistics = from record in ( from dbRec in startTimes select new {dbRec.startTime, dbRec.timeInSession, /*...*/}).AsEnumerable() group record by record.startTime into g select new e_activeSession { workerId = wcopy, startTime = g.Key.GetValueOrDefault(), totalTasks = g.Count(), totalTime = g.Max(o => o.record.timeInSession).GetValueOrDefault(), /* ... */ };
我认为这不是最好的情况。在要枚举组,然后枚举每个组的情况下,我会用到它。如果您要对每个组进行汇总,而不要对它们进行枚举,则最好将该汇总工作保留在数据库中。数据库擅长于此,它将大大减少通过网络发送的数据总量。在这种情况下,我能想到的最好的办法是强制使用一个新对象,而不是镜像它的实体类型,但该对象不能被识别为实体。您可以为此创建一个类型(如果您要对此进行多个变体,则很有用),否则可以使用匿名类型:
var statistics = ( from record in startTimes group record by record.startTime into g select new{ startTime = g.Key.GetValueOrDefault(), totalTasks = g.Count(), totalTime = g.Max(o => o.record.timeInSession).GetValueOrDefault(), /* ... */ }).AsEnumerable().Select( d => new e_activeSession { workerId = wcopy, startTime = d.startTime, totalTasks = d.totalTasks, /* ... */ });
显而易见的缺点是冗长的冗长。但是,它将使操作在db中保持最佳状态,同时又不浪费时间和内存ToList(),不会像e_activeSession往常那样反复击中db,并将创建的内容从linq2sql拖入linq2objects中,因此应该允许这样做。
e_activeSession
(顺便说一句,.NET中的约定是类和成员名以大写字母开头。这没有技术原因,但是这样做意味着您将匹配更多人的代码,包括BCL和您使用的其他库的代码)。
编辑:顺便说一句;我刚刚看到了您的其他问题。请注意,在某种程度上,AsEnumerable()这里是导致该问题的确切原因的变体。搞清楚了,您将对不同的linq查询提供程序之间的界限感到很困惑。